DeepSeek-R1推理模型的性能OpenAI

DeepSeek-R1推理模型的性能OpenAI

DeepSeek推出了第一代DeepSeek-R1和DeepSeek-R1-Zero模型,旨在解决复杂的推理任务。

DeepSeek-R1-Zero仅通过大规模强化学习(RL)进行训练,而不依赖监督微调(SFT)作为初步步骤。根据DeepSeek的说法,这种方法导致了“许多强大而有趣的推理行为”的自然出现,包括自我验证、反思和广泛思维链的产生。

DeepSeek研究人员解释说:“值得注意的是,[DeepSeek-R1-Zero]是第一个公开研究,证明LLM的推理能力可以完全通过RL来激励,而不需要SFT。”这一里程碑不仅强调了该模型的创新基础,也为以RL为重点的推理人工智能进步铺平了道路。

然而,DeepSeek-R1-Zero的功能也有一定的局限性。主要挑战包括“无休止的重复、糟糕的易读性和语言混合”,这可能会在现实世界的应用中构成重大障碍。为了解决这些缺点,DeepSeek开发了它的旗舰型号: DeepSeek-R1。

介绍DeepSeek-R1

DeepSeek-R1在其前身的基础上,在RL训练之前结合了冷启动数据。这一额外的预训练步骤增强了模型的推理能力,并解决了DeepSeek-R1-Zero中提到的许多限制。

值得注意的是,DeepSeek-R1在数学、编码和一般推理任务方面的性能可与OpenAI广受赞誉的o1系统相媲美,巩固了其作为领先竞争对手的地位。

DeepSeek选择开源DeepSeek-R1-Zero和DeepSeek-R1以及六个较小的蒸馏模型。其中,DeepSeek-R1-Distill-Qwen-32B展示了非凡的结果——甚至在多个基准测试中优于OpenAI的o1-mini。

  • 数学500(Pass@1):深度搜索R1取得了97.3%的成绩,超过了OpenAI(96.4%)和其他主要竞争对手。
  • LiveCodeBench(Pass@1-COT):蒸馏版本DeepSeek-R1-Distill-Qwen-32B得分57.2%,在较小的模型中表现突出。
  • 目标2024(Pass@1):深度探索-R1取得了79.8%的成绩,为数学问题解决设定了令人印象深刻的标准。

🚀DeepSeek-R1来了!

⚡性能与OpenAI-o1相当
📖完全开源的模型和技术报告
🏆麻省理工学院许可:自由提取和商业化!

🌐网站和应用编程接口现已上线!立即在https://t.co/v1TFy7LHNy尝试深度思考!

🐋1/npic.twitter.com/7BlpWAPu6y深度搜索(@deepseek_ai)

2025年1月20日

有利于更广泛行业的管道

DeepSeek分享了对其推理模型开发严格管道的见解,该管道集成了监督微调和强化学习。

据该公司称,该过程包括两个SFT阶段来建立基础推理和非推理能力,以及两个RL阶段,用于发现高级推理模式并将这些能力与人类偏好保持一致。

“我们相信这条管道将通过创造更好的模型来造福行业,”DeepSeek评论道,暗示他们的方法论有可能激发整个人工智能领域的未来进步。

他们专注于RL的方法的一个突出成就是DeepSeek-R1-Zero能够在没有事先人工指令的情况下执行复杂的推理模式——这是开源人工智能研究社区的第一次。

蒸馏的重要性

DeepSeek的研究人员还强调了精炼的重要性——将推理能力从较大的模型转移到更小、更高效的模型的过程,这种策略甚至可以为较小的配置带来性能提升。

DeepSeek-R1的较小提炼迭代——如1.5B、7B和14B版本——能够在利基应用中保持自己的地位。提炼模型可以优于通过在类似大小的模型上进行RL训练获得的结果。

🔥奖励:开源蒸馏模型!

🔬从DeepSeek-R1蒸馏而来,6个小模型完全开源
📏32B和70B模型与OpenAI-o1-mini相当
🤝为开源社区赋能

🌍推动**开放AI**的边界!

🐋2/npic.twitter.com/tfXLM2xtZZ深度搜索(@deepseek_ai)

2025年1月20日

对于研究人员来说,这些提炼模型可用于从15亿到700亿参数的配置,支持Qwen2.5和Llama3架构。这种灵活性使从编码到自然语言理解的广泛任务中的多功能使用成为可能。

DeepSeek为其存储库和权重采用了MIT许可证,将权限扩展到商业用途和下游修改。允许使用DeepSeek-R1训练其他大型语言模型(LLM)等导数工作。但是,特定提炼模型的用户应确保符合原始基础模型的许可证,如Apache 2.0和Llama3许可证。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:3164780!

(0)
AIIAW的头像AIIAW本站编辑
上一篇 2025-06-22 12:26
下一篇 2025-06-22 12:30

相关推荐