RAGEN:AI框架解决了LLM代理的不稳定性

RAGEN:AI框架解决了LLM代理的不稳定性

研究人员引入了RAGEN,这是一种AI框架,旨在在处理复杂情况时对抗LLM代理的不稳定性。

训练这些人工智能代理会带来巨大的障碍,尤其是当决策跨越多个步骤并涉及来自环境的不可预测的反馈时。虽然强化学习(RL)在解决数学问题或生成代码等静态任务中显示出希望,但它在动态、多轮代理训练中的应用却很少被探索。

为了解决这一差距,一个来自西北大学、斯坦福大学、微软和纽约大学的合作团队提出了State-Thinking-Actions-Reward政策优化。

StarPO为在轨迹级别训练代理提供了一种通用方法(即它优化了整个交互序列,而不仅仅是单个动作。)

与此相伴的是RAGEN,这是一个为实现StarPO而构建的模块化系统。这使得LLM代理能够训练和评估,特别是关注他们在RL下的推理能力。RAGEN为多回合、随机(随机确定)环境中的推出、奖励分配和优化提供了必要的基础设施。

简约的环境,最大的洞察力

为了将核心学习挑战从混杂因素(如广泛的预先存在的知识或特定任务的工程)中分离出来,研究人员在三种刻意简约、可控的符号游戏环境中使用RAGEN测试了LLM:

  1. Bandit:一种单轮随机任务测试风险敏感符号推理。代理在具有不同的、最初未知的奖励配置文件的选项(如“凤凰”或“龙”手臂)之间进行选择。
  2. 推箱子:一个需要远见和计划的多转弯确定性难题,因为行动(推箱子)是不可逆转的。
  3. 冰湖:一个多转弯、随机的网格导航任务,其中移动尝试可能会随机失败,需要在不确定的情况下进行规划。

这些环境允许对代理如何纯粹通过交互学习决策策略进行清晰的分析。

主要发现:稳定性、部署和推理

这项研究产生了三个关于训练自我进化LLM代理的重要发现:

“回声陷阱”和对稳定性的需求

在多圈RL训练中观察到的一个反复出现的问题被称为“回声陷阱”。代理最初会有所改善,但随后会出现性能崩溃,过拟合到局部奖励的推理模式。

这表现为奖励方差崩溃、熵下降(随机性/探索的衡量标准)和梯度突然激增(表明训练不稳定)。早期迹象包括奖励标准差和输出熵的下降。

为了解决这个问题,该团队开发了StarPO-S,这是该框架的稳定版本。StarPO-S包含:

  • 基于方差的轨迹过滤:将训练集中在代理行为显示更高不确定性(更高奖励方差)的任务实例上,丢弃低方差、信息较少的推出。这提高了稳定性和效率。
  • 批评家合并:使用PPO(接近策略优化)等方法,使用“批评家”来估计值,在大多数测试中通常比GRPO(组相对策略优化)等无批评家方法表现出更好的稳定性。
  • 解耦剪裁和KL去除:从其他研究(DAPO)中改编的技术涉及不对称剪裁(允许从正奖励中更积极地学习)和消除KL发散惩罚(鼓励探索)进一步提高了稳定性和性能。

与普通StarPO相比,StarPO-S始终延迟崩溃并提高最终任务性能。

推出质量至关重要

“展示”(用于训练的模拟交互轨迹)的特征显着影响学习。确定的关键因素包括:

  • 任务多样性:使用不同的初始状态(提示)进行训练,但每个提示生成多个响应,有助于泛化。最佳点似乎是适度的多样性,可以在类似场景中对比不同的结果。
  • 交互颗粒度:允许每圈多个动作(大约5-6个被证明是最佳的),可以在固定的转弯限制内进行更好的规划,而不会引入与过长动作序列相关的噪声。
  • 推出频率:使用反映代理当前策略的最新推出至关重要。更频繁的抽样(接近“在线”设置)通过减少策略数据不匹配来更快地收敛和更好地泛化。

保持新鲜感,以及适当的行动预算和任务多样性,是稳定训练的关键。

推理需要精心的奖励设计

仅仅提示模型“思考”并不能保证有意义的推理出现,尤其是在多轮任务中。研究发现:

  • 推理痕迹有助于在更简单的单回合班迪特任务中进行概括,即使符号线索与奖励相冲突。
  • 在像索科班这样的多回合任务中,推理的好处是有限的,“思考”部分的长度在训练过程中持续下降。如果奖励只跟踪任务成功,特工通常会倒退到直接行动选择或产生“幻觉推理”,揭示“想法和环境状态之间的不匹配”

这表明标准的轨迹级奖励(通常稀疏且基于结果)是不够的。

“如果没有细粒度的、推理感知的奖励信号,智能体推理很难通过多轮RL出现。”

研究人员建议,未来的工作应该探索明确评估中间推理步骤质量的奖励,也许使用基于格式的惩罚或奖励解释质量,而不仅仅是最终结果。

RAGEN和StarPO:迈向自我进化的人工智能的一步

RAGEN系统和StarPO框架代表了朝着训练LLM代理迈出的一步,这些代理可以在复杂、不可预测的环境中通过交互进行推理和适应。

这项研究强调了多圈RL带来的独特稳定性挑战,并提供了具体的策略——如StarPO-S的过滤和稳定技术——来缓解这些挑战。它还强调了推出生成策略的关键作用,以及培养真正推理而不是肤浅策略或幻觉的更复杂奖励机制的必要性。

为什么你的RL训练总是崩溃?

在我们RAGEN的新论文中,我们探讨了当你用多轮强化学习训练LLM*代理时会发生什么故障——以及可能如何修复它。

📄https://t.co/z0U0612HWT
https://t.co/4DUfaees48
1/🧵👇pic.twitter.com/Oy6ilkgimd-Zihan Wang-在RAGEN(@wzihanw)

2025年4月23日

虽然承认存在局限性——包括需要在更大的模型上进行测试,并在没有容易验证的奖励的情况下针对领域进行优化——但这项工作在需要复杂交互和可验证结果的领域(如定理证明、软件工程和科学发现)开辟了“构建人工智能系统的可扩展和原则性道路”。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:3164780!

(0)
AIIAW的头像AIIAW本站编辑
上一篇 3天前
下一篇 2020-05-20 22:11

相关推荐