文章链接:https://arxiv.org/abs/2501.12948
Cool Pa­per Link:https://papers.cool/arxiv/2501.12948


文章内容较为通俗易懂,其核心思路是从强化学习入手,基于 DeepSeek-V3 构建了具备强大深度思考能力的模型 DeepSeek-R1-Zero。然而,在训练 R1-Zero 的过程中发现,冷启动的强化学习过程存在不稳定性。因此,精心筛选了部分思维链数据作为监督微调(SFT)的训练数据,以实现过渡或预热。经过这一流水线流程,训练得到的模型命名为 DeepSeek-R1。最后,考虑到该模型规模过大,不利于学术界复现与研究,便利用 R1 生成的思维链数据在一些 Dense 模型(主要为 Qwen 和 LLaMA)上直接进行微调,而不进行强化学习,训练得到一系列 R1-Dis­till 模型。经测试,该系列模型性能表现良好,最终研究成果以报告形式发布。

细致且详细的内容介绍可以直接看论文原文和Cool Pa­per的AI解读。

整篇文章围绕如何有效运用强化学习以及如何在小型模型上实现卓越的推理能力展开。

23 年到 24 年的风向比较专注于预训练和 SFT,大厂搞预训练,实验室的穷课题组搞各种微调,这期间前半段时间出了一大堆 XXGPT 或者 XX 大模型,比如中医大模型,水产大模型,电力大模型等等,还有 llama 发布之后的 Chi­nese LLaMA,突出一个蹭热点和骗投资人拉投资。

但是到了 24 年年底和 25 年年初这段时间,强化学习一下子就站上了风口。说个题外话,其实我一直没有明白为什么 DeepSeek 突然就火了,DeepSeek-V3 比肩 Chat­GPT-4o 我也能理解,相比 Ope­nAI 迟了几个月发布,并且能免费开放使用,不说在国产大模型里多领先吧,至少大厂阿里的模型是绝对有这个性能的,所以突然爆火应该跟 V3 关系不大,我看社交媒体的截图分享基本都是深度思考模式的对话记录,那就是 R1 的出现让 DeepSeek 大火了一会,可是 QwQ 明明这么早就推出了,甚至还是开源的,为啥就没火呢,通义千问真是不长记性 hhh

继续说回论文,由于挺长时间没看论文了,所以就说说我觉得比较新奇的点:

基于规则的奖励

这个在之前的强化学习里应该挺常见的,比如赌博机,小人走路小游戏,平衡杆小游戏等等,但是在 In­struct­GPT 那篇文章里,大佬们给出的奖励是来自一个规模接近的奖励模型然后让这个奖励模型评估待训练模型的输出结果,并给出排序?(还是奖励分数,有点记不太清了)然后进行强化学习,PPO 之类的,来优化模型。那时候的说法是人类偏好学习,也就是让大模型输出更让人类欢喜的内容。

我估计之前不用基于规则的奖励模型的一个原因是输出的是自然语言,很难用规则评估这句话和标准答案之间的差异分数,可能两者之间语义是等价的,但是从文本词汇的分布来说,差异非常大,规则要适配无数的场景,这对人力的要求也太高了,这是一笔巨大的投入,而且那时候也不觉得这块奖励模型是突破口,因此我猜投入的公司比较少,这段时间很多人也在复现 R1 的效果,看到有篇文章就是说组织了一批人做了一大堆基于规则的奖励函数,发现效果还不错。

从原文的描述可以看到,他们主要用了两类奖励,其一是准确性的奖励,例如数学问题的准确回答,力扣解答能否通过编译器,或者能否通过所有用例等等,他这里只说了一点,但是我猜他们内部肯定有许多的问题分类,包含了大大小小许多场景,并针对这些场景细致地优化了奖励函数,不过不知道他们这个分数是怎么界定的,是有个数值策划么?

其二是格式方面的,他们强制规定了一些特殊字符,来圈定思考和回答的范围,并根据模型的输出结果来计算奖励分数。之前这种格式跟随的能力一般在 SFT 的阶段学习?或者用限制性编码等方式来控制?不过后者限制性解码似乎会对性能有一定地影响,所以除了 JSON 模式应该没人用这个吧?我之前也想过用类似的格式限制的方式,让大模型强制进行思维链思考,例如:

{
  "reason": "xxx",
  "answer": "yyy"
}

不过我估计是 rea­son 的时间太短了,JSON 格式遵循的不好,基座模型的能力也一般(Qwen 第一代)还有就是我那时候测的任务都很简单,不是什么需要非常多步骤推理的数学难题,导致最后的性能也就那样,没有显著地变强。

小模型蒸馏

就像知乎上的大佬们所说,进入大模型之后,蒸馏的定义是越来越宽泛了,基本上不再用之前的基于向量,回归式的蒸馏方法,而是用更加拟人的方式,先让大的模型跑出文本,再在小的模型上训练。

论文里写的比较神奇,明明前面用了这么多的强化学习,但是最后到小模型能力增强这块时,反而不这么搞了,直接用前面训出来的大模型的输出,在小的模型上做训练,还说把更广阔的强化学习探索留给业界,真的是一家很有意思的公司。