考虑到一些常用的python 函数与命令总是忘记,遂做备忘录以记录
-
Inference-Time Scaling for Generalist Reward Modeling 论文解读
解读 DeepSeek 团队提出的通用奖励模型 DeepSeek-GRM 及其推理增强方法 SPCT,结合自生成原则、评语与多轮采样,实现无需扩参的奖励质量提升
-
基于SASRec的序列推荐模型研究
基于SASRec的序列推荐模型研究
-
Hoeffding 不等式的置信上界推导与 UCB/UCT 算法解读
本文从 Hoeffding 不等式出发,推导出置信上界公式,并深入解析其在 UCB 与 UCT 算法中的应用
-
Cross Entropy
从信息论角度出发,解析交叉熵与 KL 散度的内在联系与应用
-
论文 - PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
PromptKD 利用提示学习,在无需标签的条件下,将大型 CLIP 模型的知识高效迁移至轻量学生模型。通过复用教师类向量,仅训练图像提示和投影器,实现低成本蒸馏。
-
论文 - Distilling the Knowledge in a Neural Network
《Distilling the Knowledge in a Neural Network》:神经网络中的知识蒸馏是 知识蒸馏(Knowledge Distillation) 这一领域的奠基性工作之一。
-
LeetCode: 行相等的多米诺旋转
LeetCode: 行相等的多米诺旋转
-
初次见面
欢迎来到我的个人博客,这是基于 Hexo 搭建的。 我期待着你的再次光临,也期待着明晨露珠的清新气息。
1