DeepSeek
-
DeepSeek-R1推理模型的性能OpenAI
DeepSeek推出了第一代DeepSeek-R1和DeepSeek-R1-Zero模型,旨在解决复杂的推理任务。 DeepSeek-R1-Zero仅通过大规模强化学习(RL)进行…
-
阿里巴巴Qwen QwQ-32B:规模化强化学习展示
阿里巴巴的Qwen团队推出了QwQ-32B,这是一种320亿参数的人工智能模型,展示了与更大的DeepSeek-R1相媲美的性能。这一突破凸显了在鲁棒基础模型上标定强化学习(RL)…