阿里巴巴Qwen QwQ-32B:规模化强化学习展示

阿里巴巴Qwen QwQ-32B:规模化强化学习展示

阿里巴巴的Qwen团队推出了QwQ-32B,这是一种320亿参数的人工智能模型,展示了与更大的DeepSeek-R1相媲美的性能。这一突破凸显了在鲁棒基础模型上标定强化学习(RL)的潜力。

Qwen团队成功地将智能体功能集成到推理模型中,使其能够批判性地思考、利用工具并根据环境反馈调整推理。

“扩展RL有可能提高模型性能,超越传统的预训练和后训练方法,”该团队表示。”最近的研究表明,RL可以显着提高模型的推理能力。”

QwQ-32B实现了与DeepSeek-R1相当的性能,DeepSeek-R1拥有6710亿参数(370亿激活),这证明了RL在应用于基于广泛世界知识预训练的鲁棒基础模型时的有效性。这一显著结果强调了RL弥合模型大小和性能之间差距的潜力。

该模型已经通过一系列基准进行了评估,包括AIME24、LiveCodeBench、LiveBench、IFEval和BFCL,旨在评估其数学推理、编码能力和一般问题解决能力。

结果突出了QwQ-32B与其他领先型号相比的性能,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和最初的DeepSeek-R1。

基准结果:

  • AIME24: QwQ-32B达到79.5,略低于DeepSeek-R1-6718的79.8,但明显领先于OpenAl-o1-mini的63.6和蒸馏模型。
  • LiveCodeBench: QwQ-32B得分63.4,再次与DeepSeek-R1-6718的65.9接近,超过了蒸馏模型和OpenAl-o1-mini的53.8。
  • LiveBench: QwQ-32B达到73.1分,DeepSeek-R1-6718得分为71.6分,优于蒸馏模型和OpenAl-o1-mini的57.5分。
  • IFEval: QwQ-32B得分83.9,非常接近DeepSeek-R1-6718的83.3,领先蒸馏模型和OpenAl-o1-mini的59.1。
  • BFCL: QwQ-32B达到66.4分,DeepSeek-R1-6718得分为62.8分,领先于蒸馏模型和OpenAl-o1-mini的49.3分。

Qwen团队的方法包括一个冷启动检查点和一个由基于结果的奖励驱动的多阶段RL过程。初始阶段侧重于为数学和编码任务标定RL,利用准确率验证器和代码执行服务器。第二阶段扩展到综合能力,包括来自一般奖励模型和基于规则的验证器的奖励。

该团队解释说:“我们发现,这一阶段的RL训练只有少量的步骤,可以提高其他综合能力的表现,如指令遵循、与人类偏好保持一致和代理表现,而数学和编码的表现不会显著下降。”

QwQ-32B是开放权重的,可以在Apache 2.0许可下的拥抱脸和模型范围上使用,也可以通过Qwen Chat访问。Qwen团队认为这是标定RL以增强推理能力的第一步,旨在进一步探索代理与RL的集成,以实现长期推理。

“当我们努力开发下一代Qwen时,我们相信,将更强大的基础模型与由大规模计算资源驱动的RL相结合,将推动我们更接近实现人工通用智能(AGI),”该团队表示。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:3164780!

(0)
AIIAW的头像AIIAW本站编辑
上一篇 2025-03-10 14:52
下一篇 2025-03-13 11:22

相关推荐