今天读了最近非常重要的一篇文章,来自 OpenAI 的 Agent 研究员 Shunyu Yao 姚顺雨。

他参与的项目包括 ReAct, Reflexion, Tree of Thoughts, SWE-agent,具有一线的实践经验和最新认知。

本文来自他在斯坦福224N和哥伦比亚大学的演讲。

文中提出了一些反共识的 Insights:

  1. 强化学习最重要的不是算法,而是先验知识:这颠覆了传统 RL 研究的重点。语言预训练提供的先验知识,是让 RL 泛化的关键,而不是我们几十年钻研的各种 RL 算法。
  2. 评估比训练更重要:过去 AI 社区关注如何训练出更强的模型,真正的挑战是定义“该做什么”和“如何衡量进展”。这意味着研究重点要转向问题设定和评估,而非模型本身。
  3. 通用配方会碾压大多数新方法:当前的“语言预训练 + 推理 + RL”配方已经能解决大多数任务,很多新提出的方法只带来小幅提升,甚至变得无关紧要。
  4. AI 的 benchmark 设定与现实世界严重脱节:现实中的智能系统是连续互动、有记忆的,而现有评估设定(如 i.i.d.、自动化)忽略了这些关键特征,导致“智能水平提高了但效用没变”。
  5. 要像产品经理一样思考 AI:下半场的研究者需要具备产品思维,关注实际效用和用户体验,而不只是发表论文。这对传统学术研究者是一个挑战。

RL的关键不是算法,而是先验

这是文中最为反共识的一点。

对此,文中也用了最大的篇幅来进行解释,我觉得这部分非常精彩,请直接看原文,不要看总结:

强化学习 RL常被视为AI的“终局”。

理论上能赢得所有游戏,现实中也确实推动了AlphaGo等超人系统的诞生。

RL有三大核心:算法、环境、先验。

长期以来,研究者主要关注算法(如REINFORCE、DQN、PPO等),而把环境和先验当作固定或可忽略的东西。Sutton和Barto的经典教材几乎只讲算法,几乎不提环境和先验。

image.png

但在深度强化学习时代,环境的重要性逐渐显现:算法的表现往往高度依赖于所处环境。