AI 的下半场：从根本上质疑评估，聚焦真实世界效用

今天读了最近非常重要的一篇文章，来自 OpenAI 的 Agent 研究员 Shunyu Yao 姚顺雨。

他参与的项目包括 ReAct, Reflexion, Tree of Thoughts, SWE-agent，具有一线的实践经验和最新认知。

本文来自他在斯坦福224N和哥伦比亚大学的演讲。

强化学习最重要的不是算法，而是先验知识：这颠覆了传统 RL 研究的重点。语言预训练提供的先验知识，是让 RL 泛化的关键，而不是我们几十年钻研的各种 RL 算法。
评估比训练更重要：过去 AI 社区关注如何训练出更强的模型，真正的挑战是定义“该做什么”和“如何衡量进展”。这意味着研究重点要转向问题设定和评估，而非模型本身。
通用配方会碾压大多数新方法：当前的“语言预训练 + 推理 + RL”配方已经能解决大多数任务，很多新提出的方法只带来小幅提升，甚至变得无关紧要。
AI 的 benchmark 设定与现实世界严重脱节：现实中的智能系统是连续互动、有记忆的，而现有评估设定（如 i.i.d.、自动化）忽略了这些关键特征，导致“智能水平提高了但效用没变”。
要像产品经理一样思考 AI：下半场的研究者需要具备产品思维，关注实际效用和用户体验，而不只是发表论文。这对传统学术研究者是一个挑战。

RL的关键不是算法，而是先验

这是文中最为反共识的一点。

对此，文中也用了最大的篇幅来进行解释，我觉得这部分非常精彩，请直接看原文，不要看总结：

强化学习 RL常被视为AI的“终局”。

理论上能赢得所有游戏，现实中也确实推动了AlphaGo等超人系统的诞生。

RL有三大核心：算法、环境、先验。

长期以来，研究者主要关注算法（如REINFORCE、DQN、PPO等），而把环境和先验当作固定或可忽略的东西。Sutton和Barto的经典教材几乎只讲算法，几乎不提环境和先验。

但在深度强化学习时代，环境的重要性逐渐显现：算法的表现往往高度依赖于所处环境。