导读:
OpenAI 说 Deep Research 其实是一个模型,它基于 o3 训练,但不是 o3 加一堆工作流。
Anthropic 对 Agent 的定义是:Agent 必须在内部执行目标任务,而不是依赖外部的工作流。
在强化学习时代,给模型一个封闭的环境和奖励,模型就可以学会这个环境的生存法则。
强化学习可以让大模型+工作流真正变为内化的 Agent,完成端到端的任务。
如果模型公司已经可以完成端到端任务,是不是模型本身就是应用?
那应用公司的空间是否依然存在?这个问题值得思考。
本来摘录并翻译自 Alexander Doria,一家正在做 RAG Agent 的联创。
摘录开始:
在过去几周,我们看到了"模型作为产品"的两个典型例子:OpenAI 的 Deep Research 和 Claude Sonnet 3.7。
我读到很多关于 Deep Research 的误解,这些误解因开源和闭源克隆产品的增多而更加严重。OpenAI 并非仅在 O3 之上构建了一个包装器。他们训练了一个全新的模型,能够在内部执行搜索,无需任何外部调用、提示或编排:
深度研究模型由针对网页浏览优化的早期版本 OpenAI o3 提供支持。
该模型学习了核心浏览能力(搜索、点击、滚动、解析文件)(...),并通过对这些浏览任务的强化学习训练,学会了如何推理以综合大量网站信息,找到特定内容或编写全面报告。
Deep Research 不是标准的 LLM,也不是普通的聊天机器人。它是一种新型的"研究语言模型",专门设计用于端到端执行搜索任务。
对于认真使用它的人来说,这种差异立即显现:该模型能生成结构连贯、具有系统化源分析过程的长篇报告。相比之下,正如 Hanchung Lee 指出的,其他所有的 Deep Search,包括 Perplexity 和 Google 的变体,都只是带有一些微调的常规模型:
Google 的 Gemini 和 Perplexity 的聊天助手也提供"深度研究"功能,但它们都没有发布任何关于如何为此任务优化模型或系统的文献,也没有进行任何实质性的定量评估(...)我们假设它们所做的微调工作并不显著。
Anthropic 一直在更清晰地阐述他们的愿景。去年十二月,他们提出了一个有争议但在我看来正确的Agent 模型定义。
类似于 Deep Search,Agent 必须在内部执行目标任务:它们"动态指导自己的过程和工具使用,控制完成任务的方式"。
目前大多数 Agent 初创公司构建的不是真正的 Agent,而是工作流,即"通过预定义的代码路径编排 LLM 和工具的系统"。工作流在某些垂直领域仍可能创造价值。