紧急更新:周一盘前,纳指现已跳水约4%,英伟达暴跌10%。几乎达到了8/5日因日报Carry Trade Unwind导致的黑色星期一水平。当时市场抛售的原因是日元加息。
大家好,今天是2025年1月26日星期日。除了上周五NVDA盘尾跳水外,周末半导体板块又出大事了。一个由中国量化基金公司(幻方)研发的大语言模型DeepSeek-R1引爆全网;该模型号称使用不到600万美金——也即不到OpenAI训练成本的3%,实现在多个推理任务上与OpenAI-o1不相上下的评测效果,推理价格更是不到o1的4%。令人震撼的是,这一切都是在中国受出口禁令影响,无法获取NVDA最新Hopper算力的基础上做到的;DeepSeek甚至一度作为幻方的一个业余项目出现,公司早期对其并不抱太大期望。
虽然从严格意义上说,DeepSeek-R1的文章早在5天前就已公开;但随着试用人数逐渐增多,又恰逢Scale AI CEO接受CNBC采访,舆论恰好在这个周末正式引爆。一时间,英文社区风声鹤唳,“美国即将被赶超、中国威胁论”等言论甚嚣尘上。甚至有人呼吁开始OpenAI、Meta、微软和谷歌等CSP放弃继续烧钱,回归模型效能。另一方面,投资人也(合理地)担忧起芯片厂商英伟达来。DeepSeek的成功证明,只要用2000多台落后GB200一代有余,算力仅为其20%的H800,即可训练出世界最先进的大语言基础模型。实现AGI之路真的需要这么多GPU吗?CSP在数据中心成百上千亿的投资还有意义吗?加速计算的总市场规模还有之前估算的那么多吗?NVDA乃至整个半导体产业链的估值逻辑,似乎正在我们面前摇摇欲坠。
这种担心是否有依据呢?我们今天的周末日报特别篇就来详细探讨这个问题。
不止一个模型首先要明确,当我们谈论令世人震惊的DeepSeek-R1模型时,实际上往往同时指代了三个部分:
- 一,是参数大小为670B的大语言基础模型DeepSeek V3;
- 二,是使用无监督数据,借助增强学习方式在数学和代码专业问题上微调得到的推理模型DeepSeek-R1-Zero;
- 三,是在DeepSeek-R1-Zero基础上,混入更多带有标签的监督数据,提高模型其他方面综合能力而得到的DeepSeek-R1。
DeepSeek-R1,才是那个打败一众开闭源模型,在竞技场上和OpenAI o1难分伯仲的超新星。

这个周末,我花了大概10小时研究了DeepSeek发布的两篇论文,其中详细介绍了基础模型DeepSeek V3和推理模型DeepSeek R1/Zero的训练过程。我认为,这两篇工作的侧重点不同,相应的贡献也并不一致。对讨论感兴趣的读者,可以去推特回顾我的这三篇推文[[color=var(--wp--preset--color--foreground)]
1][[color=var(--wp--preset--color--foreground)]
2][[color=var(--wp--preset--color--foreground)]
3]。
为方便参考,现将我的观点大致总结如下:
- 对DeepSeek V3而言,我更愿意称之为一次工程学上的奇迹。幻方团队的主要工作是降本增效,解决了如何在成本有限、算力有限的条件下,训练出世界领先的大语言基础模型的问题。注意到DeepSeek V3已经是该模型序列的第三代。从2023年成立DeepSeek公司,第一代模仿ChatGPT开始,他们在这方面的工作已经至少有2年时间。
- 相比之下,DeepSeek R1/Zero的学术价值更大。它是完全原创的工作,甚至具有开创意义。DeepSeek R1向全球科研工作者乃至硅谷创业公司高管们揭露了这么一个残酷的事实:通过一种叫做GRPO的方法,你不需要海量标注数据,不需要人工设计思维链,只需回归最简单的RL(增强学习),模型自然就会涌现出和当下最先进模型相媲美的推理能力!不过,这种推理能力也存在一些局限,我们下面会具体说。
颠覆硅谷?真正令市场恐惧的,既不是DeepSeek V3不到OpenAI 3%的训练成本,也不是DeepSeek R1 能和o1 媲美的推理能力,而是他们两者出人意外的结合。这不禁让人疑问:DeepSeek廉价又强悍,Open AI这几年花掉的几十亿美元莫非全都打了水漂,硅谷AGI的研发方向难道完全错了?

这其实是将DeepSeek V3和R1的两种特性“混合”而产生的效果:
- 我们应该将DeepSeek R1单独拿出来分析,它的价值并不局限于DeepSeek。已花巨资研发的Llama、Claude甚至国内同行如QWEN等模型都在受益者其列。
- R1的训练方法可以应用在任何一个已知的大语言模型上,并极大的提高他们的推理能力。
- 可以说,DeepSeek R1的成功实际上是开源社区的胜利,他打破的是OpenAI o1推理上的垄断地位,而不能单纯看成来自敌对国家的威胁。
相较而言,极端条件下训练出来的V3反而不一定那么有用。
- DeepSeek V3基本达到了开源大语言模型的平均水平。既然已经拥有Llama,那么大部分公司都没有重头开始训练V3的需要;
- 在算力和资金充足的情况下,V3特有的一些训练技巧价值其实并不算大。依然有一些细节值得关注,我们下文会具体讨论。
正如Perplexity CEO 在CNBC的采访中所说,DeepSeek-V3的成功其实是“必要致创新”(Necessity led innovation);比如,当一个国家缺少石油时,他说不定就会把煤炭的燃烧效率玩出花来。DeepSeek面临的就是这么一种情况。
对技术不大感兴趣的读者,可以直接跳到下面的“市场反应”小节,继续阅读我们对市场方面的相关分析。如果看到这里,这篇文章还没能让您犯困,我们就继续来看DeepSeek的技术细节。
DeepSeek V3
虽然网传DeepSeek实际上囤积了上万张A100乃至H100显卡,我们这里姑且相信文章中他们只用了2048张H800的说法。注意,H800是H100的中国特供版,其通信带宽是H100的一半,其他性能不变。也正因如此,H800很难像H100一样,有效组建大规模计算集群。这可能也是V3只用到了2048张卡训练的原因。
为了在捉襟见肘的算力下训练模型,DeepSeek V3采用了多种极端方法优化,我将对训练效能最大的贡献依次列举如下:

- 世界范围内首次采用fp8(8位浮点数,一般电脑中全精度浮点为32位,8位浮点可以节省75%的空间)混合精度训练100B以上规模的大语言模型。在此过程中, DeepSeek解决了大量计算(比如哪些用fp8,哪些要用精度更高的fb32)问题,并优化了不少矩阵计算中必要的Tensor Core CUDA算子。

- 采用自研的DualPipe训练框架,通过调度通信和计算顺序,减少每一个节点的空闲时间,将GPU的并行算力压榨到极致。一般而言,在各大公司的大语言模型技术报告中,因为训练系统内在的不稳定性,往往需要从上一个储存点(Checkpoint)重启多次才能完成一个Epoch的训练,但DeepSeek并没有。根据团队自己的说法,在2个月的训练过程中没有一次因遇到损失异常而重启。该框架的优化水平令人咂舌。
- 在模型设计上,DeepSeek采用改进后的MoE(Mixture of Experts),大幅降低了训练的资源需求。具体来说,通过MoE,每个Token训练所激活的神经元从670B降低到不足37B,仅占权重的不到5%。这大幅加快了Token的训练速度,减少训练时间。DeepSeek训练1T Token所需时间约为3天,因此全部14.8T数据训练完毕,最终花费约2个月。
从这篇V3的技术报告看,除fp8外,该模型在训练方面的其他贡献主要是基于前人工作的改良,而非革命性的。
- 比如在MoE的路由函数上加入一个非零的极小偏置,以避免某些权重归零,坍缩MoE;
- 又或者是将移动平均值出存在CPU缓存中,减少通信开销;
- 模型增加推理上下文长度(Context Extension)的技巧,其实也来自2023年一篇名为YaRN的华人文章。这一点相信业内同行均有使用;
- DualPipe设计非常精妙,但具备LLM训练能力的各家大厂应该都有类似并行框架,比如ZeRO。只不过在Bubble Time 和 Expert Parallelism上没有做的像DeepSeek一样这么精湛。

此外,模型还采用了一种叫做MLA(Multi-head Latent Attention,多头隐空间注意力机制)的技术。这个技术名字听起来玄乎其玄,其原理非常简单。他是利用线性代数中的基本的投影计算,将注意力头中原本高维度的Q, K, V三大矩阵投影到更低维的“隐空间”里,压缩他们的大小,以便在训练结束后储存在节点缓存中。这样的好处是在推理时不必重新计算输入单词的KQV,大大加快了推理速度。这也是DeekSeek推理成本低,Token生成速度极快的原因。
最后,V3还使用了MTP(Multi-Token Prediction,多词预测)技术。不过在实际训练中MTP的长度仅为1。也就是和GPT相比,V3只多预测了一个单词。这主要是为了提高文本数据利用率,增强模型的预测能力,和训练效率无关。
我认为MLA和MTP均非革命性,类似的技术OpenAI和其他公司应该也有所采用。特别是MoE,早在GPT-4时期就有传闻。
总的来说:
- DeepSeek V3利用 fp8 量化精度和 MoE 混合专家技术做到了模型大小和训练成本的极致优化,让670B的基础模型在较小集群中也能充分训练;
- 同时,他采用MLA多头隐空间注意力让推理成本进一步下降,在个人电脑上也能实现不错的效果。
上述两点,让DeepSeek V3成为了开源大语言模型里兼顾成本和速度的佼佼者。
DeepSeek R1/Zero
和DeepSeek V3相比,R1的贡献则比较“简单”。他创造性地使用了一种叫做GRPO(Group Relative Polixy Optimization)的增强学习(Reinforcement Learning)策略。团队在不需要人工标注思维连的前提下,直接用问题答案作为参考,对模型输出自动评分。令人惊奇的是,模型在数学和代码问题上“自然涌现”出了推理能力。这一发现就是R1文章对LLM-AI领域最大的贡献。
和传统的PPO相比,GRPO的优势主要体现在下面几个方面:

- 他不需要人工标注每个备选答案的分数,也就是做到真正的无监督训练
- 他减少了PPO的复杂度,省略了需要训练的价值模型(Value Model)
鉴于Reinforcement Learning本身是一个非常复杂的话题,具体细节超出了本文范畴。这里我们只需要知道,DeepSeek尝试了一条其实一直摆在大家面前,但却被社区长期忽略的道路:直接将答案作为判别式进行训练。这么一来,GRPO的Reward Model甚至都简单到只是一组规则(Rule-based),设置起来非常方便,训练成本非常低,可解释性非常强。当然其缺陷就是:它只对数学、代码这种有明确答案的场景进行推理。
至于说为什么之前所有人类似GRPO的尝试都失败了,而在DeepSeek上却大获成功,这一点想必是圈内的热议话题。有一种理论认为,是其他LLM的思维链数据意外”泄露”到了DeepSeek V3训练数据中造成污染,才让此技术成功。是否果真如此,还需要等待业内人士确认。
为了弥补GRPO在其他场景下能力的缺陷,DeepSeek还做了以下骚操作:
- 这个以DeepSeek V3为基础无监督RL训练出来的模型,被称为DeepSeek R1-Zero。
- 由上述GROP的评分机制决定,这一模型回答数学和代码以外问题存在缺陷,比如输出语言混合,格式混乱等。
- 加入了大量“人工标注”的训练数据,对DeepSeek R1-Zero进行监督微调(SFT)。这些数据对应文学、语言、对话和其他数学和代码之外的推理场景。
- 数据源宣称来自DeepSeek-V3 和 DeepSeek R1-Zero的原始输出,外加一些必要的人工迭代。
- 在这个阶段是否有混入ChatGPT的思维链,我们并不清楚。
- 这个微调的过程一共重复了2次,也就是业内常见的RL-SFT-RL-SFT Pipeline。最终,DeepSeek得到了一个令他们满意的新的模型。经过“微调”后的模型,才是今天的主角:DeepSeek R1。
这些细节表明:
- DeepSeek R1是完全的无监督训练,这一说法并不准确。要想让模型在各方面都达到OpenAI o1的水平,依然需要大量的标注数据
- 即便如此,GRPO表现出来的无监督推理能力仍然令人震惊。它才是DeepSeek R1横空出世对学界最大的贡献,也是业界未来将要大力研究的方向。
- DeepSeek进行了更多实验,比如将R1推理能力蒸馏到了更小的QWEN和Llama模型上,这些模型的推理能力也获得了较大提升。当然,这些模型的综合实力还是无法和参数规模达670B的原装R1相比,蒸馏模型更多的意义可能在仅限终端。
在DeepSeek R1问世后不到3天,就已经有人在Llama-1b上复现了GRPO的效果。显然,经过GRPO训练后,Llama-1b在数学和代码上的能力远超同级别模型。这说明GRPO是有效的。更多公司如Meta,Anthropic甚至OpenAI可能会很快跟进。
市场反应伴随着CNBC采访Alexandew Wong和推特上中英文社区热火朝天的讨论,DeepSeek的影响力在这个周末迅速发酵。周日下午,DeepSeek App一度超越ChatGPT,成为苹果App Store美区免费软件生产力榜单下载量第一。

此消息一出,我就预感到大事不妙。随后美股期货开盘,NQ径直跌下1%;Robinhood 24小时交易夜盘开盘,NVDA首当其冲大跌5%;整个AI半导体板块从设计,制造到周边,均出现大幅下跌(更新:跌幅在盘前进一步扩大,NQ跌4%,NVDA最大跌11%,最终NVDA跌幅达到了惊人的18%)。具体来说,盘前:
- ARM,英伟达和AVGO均下跌5%。他们都和高算力芯片的设计有关,其中ARM是英伟达GB系列产品的CPU方案,AVGO是AI定制芯片ASIC的设计商
- MU跌4%,他和高算力芯片所需的大容量高速内存HBM有关
- 台积电跌4.5%,他是这些芯片的制造商
- Intel跌2%,AMD跌2.5%。他们本来就没有在算力市场上分到多少羹,算是被带崩。
- 高通也下跌2.8%,属于算力芯片的外围供应,如芯片通信方案。
半导体板块总计在盘前抹去了接近1万亿市值,相当于孙正义5000亿Stargate投资方案的两倍。这何尝不令人哑然失笑。
作为美国的竞争对手,甚至是某些方面的敌对国,中国在芯片禁运的条件下,用更差的显卡,更低的成本,更快的速度,实现了可以比肩OpenAI的开源模型,这对市场的投资逻辑而言无疑是颠覆性的。
不论如何,市场总是选择先跌为敬,开盘后再让华尔街的交易员们消化。乍看之下,NVDA最先进的GPU或许将不再重要;云服务商26年之后的Capex可能会迅速减少;在最糟的情况下,美国丧失科技领先地位,Stargate出师未捷身先死,泡沫迅速破裂,AI上下游市场价值被重写。
不确定带来恐慌,恐慌带来抛售,这无可厚非。况且,周一盘前的下跌还有可能是伴随日元加息和FOMC避险的因素,也并非完全是DeepSeek一家公司的原因。除了半导体板块外,美股几乎所有板块都在下跌,加密货币也难逃一劫。这一切,都让我想到去年7月底机构去杠杆,疯狂Degrossing的场景。
但在市场情绪彻底消散之前,我们依然要问自己两个问题:
- 英伟达GPU是否不再必要?
- 真正受DeepSeek冲击的行业是谁?
对这两个问题的回答,将决定我们今天是彻底清仓,还是继续抄底;如果抄底,应该抄谁。下面,我将回答这两个灵魂之问,并附上本周我的操作总结和下周计划。以下内容代表个人意见,仅供参考。
不再必要?
- 从DeepSeek自己给出的技术报告来看,DeepSeek V3成功的关键在fp8量化,而fp8 计算的关键又在于NVDA Tensor Core的对低精度矩阵乘法的支持。实际上,虽然V3完成了世界首次大规模的fp8混合精度训练,他们依然对Tensor Core现有的设计颇有微词,甚至对此提出了多个建议,希望NVDA能在GB和下一代计算卡中改进。比如在3.5.2节中,他们建议NVDA能提高fb8矩阵乘法后结果累加的精度。

- DeepSeek V3训练成果的另一个关键,是自研DualPipe对显卡训练性能的极致榨取。这实际上也依赖NVDA的NVLink在all-to-all这一瓶颈操作上的优异表现。
以下内容为会