今天读了最近非常重要的一篇文章,来自 OpenAI 的 Agent 研究员 Shunyu Yao 姚顺雨。
他参与的项目包括 ReAct, Reflexion, Tree of Thoughts, SWE-agent,具有一线的实践经验和最新认知。
本文来自他在斯坦福224N和哥伦比亚大学的演讲。
文中提出了一些反共识的 Insights:
- 强化学习最重要的不是算法,而是先验知识:这颠覆了传统 RL 研究的重点。语言预训练提供的先验知识,是让 RL 泛化的关键,而不是我们几十年钻研的各种 RL 算法。
- 评估比训练更重要:过去 AI 社区关注如何训练出更强的模型,真正的挑战是定义“该做什么”和“如何衡量进展”。这意味着研究重点要转向问题设定和评估,而非模型本身。
- 通用配方会碾压大多数新方法:当前的“语言预训练 + 推理 + RL”配方已经能解决大多数任务,很多新提出的方法只带来小幅提升,甚至变得无关紧要。
- AI 的 benchmark 设定与现实世界严重脱节:现实中的智能系统是连续互动、有记忆的,而现有评估设定(如 i.i.d.、自动化)忽略了这些关键特征,导致“智能水平提高了但效用没变”。
- 要像产品经理一样思考 AI:下半场的研究者需要具备产品思维,关注实际效用和用户体验,而不只是发表论文。这对传统学术研究者是一个挑战。
RL的关键不是算法,而是先验
这是文中最为反共识的一点。
对此,文中也用了最大的篇幅来进行解释,我觉得这部分非常精彩,请直接看原文,不要看总结:
强化学习 RL常被视为AI的“终局”。
理论上能赢得所有游戏,现实中也确实推动了AlphaGo等超人系统的诞生。
RL有三大核心:算法、环境、先验。
长期以来,研究者主要关注算法(如REINFORCE、DQN、PPO等),而把环境和先验当作固定或可忽略的东西。Sutton和Barto的经典教材几乎只讲算法,几乎不提环境和先验。

但在深度强化学习时代,环境的重要性逐渐显现:算法的表现往往高度依赖于所处环境。