全文翻译自 https://stratechery.com/2025/deepseek-faq/
Stratechery 的这篇《DeepSeek FAQ》万字长文。 总结了所有 DeepSeek 相关的问题。 包括 V3 的意义,R1 的意义,对各家科技公司的影响,对英伟达的影响,是否应该监管等等。 这是一篇尊重事实、客观理性、逻辑清晰的文章。 推荐阅读。
周一,1月27日。你为什么还没写关于深度求索(DeepSeek)的文章?
我写了!上周二我写了关于R1的文章。
我完全忘了那篇。
责任在我。我坚持那篇文章的观点,包括我强调的两个最大亮点(通过纯强化学习实现的涌现式思维链,以及知识蒸馏的威力),还提到了低成本(我在《Sharp Tech》中进一步展开)和芯片禁令的影响。但这些观察过于局限于当前AI技术的前沿状态。我完全未能预料到的是,这条新闻对更广泛的中美AI竞赛的元讨论会产生何种影响。
深度求索到底发布了什么?
直接引发周末市场震荡的是R1,这是一款类似OpenAI的o1的推理模型。但助推恐慌的许多信息——包括深度求索的训练成本——其实来自圣诞期间V3模型的发布。而支撑V3的多项突破,早在去年1月V2模型发布时已初现端倪。
先从V2说起:它是什么?为何重要?
DeepSeek-V2模型带来了两大突破:DeepSeekMoE和DeepSeekMLA。MoE意为“混合专家”。像GPT-3.5这样的模型会在训练和推理时激活整个网络,但实际应用中并非所有部分都必要。MoE将模型拆分为多个“专家”,仅激活相关部分。GPT-4就是包含约16个专家(每个约1100亿参数)的MoE模型。
V2的DeepSeekMoE对此进行了重要创新:区分更细粒度的专业型专家和通用型共享专家。关键突破在于训练时的负载均衡和路由优化——传统MoE以增加训练通信开销换取高效推理,而深度求索的方法同时提升了训练效率。
DeepSeekMLA则是更大突破。推理的主要瓶颈在于内存需求:既要加载模型,还需存储完整上下文窗口。上下文窗口的内存消耗尤其昂贵(每个token需存储key和value)。MLA(多头潜在注意力)技术压缩了键值存储,大幅降低了推理内存占用。
我听不太懂这些技术细节。
这些突破的真正影响直到V3才显现。V3加入了新的负载均衡方法(进一步减少通信开销)和训练中的多token预测(提升每个训练步骤的密度),最终实现了惊人的低成本:训练V3仅消耗278.8万H800 GPU小时,按每GPU小时2美元计,总成本仅557.6万美元。
这数字低得不可思议。
深度求索明确说明这仅涵盖最终训练阶段的直接成本(不包括前期研发)。从V3论文看:预训练每万亿token仅需18万H800 GPU小时,整个训练周期总耗能278.8万GPU小时。假设使用2048块H800组成的集群,预训练可在两个月内完成。
但Scale AI CEO Alexandr Wang说他们有5万块H100。
Wang的信息来源不明(可能引用分析师Dylan Patel的推文)。实际上,H800(受美国制裁限制带宽的阉割版H100)的硬件条件反而催生了深度求索的创新:他们专门用每块H800芯片的20个处理单元管理跨芯片通信(需绕过CUDA直接使用PTX汇编语言优化)。这种极致优化仅在H800受限环境下才有意义。