202503GTC大会黄仁勋甩出三代核弹 AI 芯片！个人超算每秒运算 1000 万亿次，DeepSeek

network · 发表于 2025-3-13 16:18:17

黄仁勋3月19日英伟达GTC演讲（全文2万字）

9

19

56

2.2万

主要内容

人工智能四波浪潮：感知式AI——生成式AI——代理式AI——物理式AI；生成式AI目前的阶段，计算所需的tokens和资源比最初预期的多100倍；
数据中心基建：到2028年底，数据中心基础设施的资本支出将超过1万亿美元；
Blackwell芯片：Blackwell已全面投入生产，将轻松过渡到升级版（Blackwell Ultra）；
新款AI电脑：拥有高达1000 TOPS的AI算力的迷你电脑DGX Spark和20000 TOPS的工作站DGX Station；
Dynamo：发布了用于加速和扩展 AI 工厂中AI推理模型的开源软件NVIDIA Dynamo；
机器人：与Google DeepMind和迪士尼合作开发名为Newton的机器人平台，展示灵动的“Blue”的机器人原型；
智能驾驶：通用汽车将使用英伟达的计算平台（包括Omniverse和Cosmos）构建定制AI系统，以优化通用汽车的工厂规划和机器人技术； 6G网络：英伟达将与 T-Mobile、Mitre、思科、ODC和Booz Allen Hamilton合作开发AI原生6G无线网络的硬件、软件和架构。

欢迎来到GTC！这是一个了不起的一年，我们想在NVIDIA做到这一点，所以通过人工智能的魔力，我们将带你到NVIDIA的总部。你觉得怎么样？这里是我们工作的地方。

这是一个了不起的一年，我们有很多令人难以置信的事情要讨论，我想让你知道，我在这里没有安全网，没有脚本，没有提词器，我有很多内容要提及，所以让我们开始吧。

首先，我想感谢所有赞助商，所有参与这个会议的了不起的人，几乎每个行业都有代表，医疗在这里，交通，零售，计算机行业，整个计算机行业都在这里，所以看到你们所有人真的很棒，谢谢你们的赞助。

GTC始于GeForce，今天我带来了一块GeForce 5090。难以置信，我们研究GeForce25年后的今天，GeForce在全球都卖光了，这是90，Blackwell一代，和4090相比，你看它的体积小了30%，散热效提高高了30%，性能令人难以置信。GeForce将Cuda带到了世界，Cuda使AI成为可能，现在AI又回来对计算机图形带来了革命。

你看到的是实时计算机图形，对每个像素100%路径追踪渲染，人工智能预测另外15%，想一想，每一个我们数学渲染的像素，人工智能推断另外15%，它必须以如此高的精度做到这一点，图像看起来是正确的，并且在时间上准确，这意味着从一帧到另一帧，无论是向前还是向后必须保持时间稳定，令人难以置信，人工智能取得了非凡的进步，现在才10年。

人工智能的四个阶段

我们谈论AI的时间比这稍长，但AI真正进入世界意识大约是十年前，开始于感知AI，计算机视觉，语音识别，然后是生成式AI。

[color=rgb(64, 81, 94) !important]感知式AI——生成式AI——代理式AI——物理式AI

过去5年我们主要关注生成式AI，教AI如何从一种模式翻译到另一种模式，文本到图像，图像到文本，文本到视频，氨基酸到蛋白质，元素到化学品，我们可以用AI生成内容的所有不同方式。

生成式AI从根本上改变了计算方式，从检索计算模型，我们现在有生成计算模型，过去我们几乎所做的一切都是提前创建内容，存储多个版本，然后在使用的时刻获取我们认为合适的版本。

过去三年发生了重大突破，人工智能取得了根本性的进步，我们称之为代理式人工智能。这种AI意味着我们将会有一个具有代理权限的AI，它能够感知并理解环境的上下文。更重要的是，它能够推理如何回答或解决问题，并能够计划行动。它能够计划并采取行动。它能够使用工具，因为它现在理解多模态信息。它可以访问一个网站，查看网站的格式、文字和视频，甚至播放视频。从该网站学习的内容，理解之后，再回来利用这些信息，用这些新获得的知识来完成它的工作。

这就是有能动性的人工智能。当然，有能动性的人工智能的基础是非常新的推理能力。

当然，下一波浪潮已经开始。我们今天将讨论这一点——由物理人工智能赋能的机器人技术。能够理解物理世界的人工智能。它理解摩擦和惯性、因果关系、物体恒常性等概念。因此，理解物理世界、三维世界的能力将开启我们称之为物理人工智能的新时代，并将促进机器人技术的发展。

这每一个阶段，每一波浪潮，都为我们所有人开启了新的市场机会。它为GTC带来了更多新的伙伴。因此，GTC现在济济一堂。要在GTC容纳更多人，我们必须在圣荷塞扩展。我们正在努力实现这一点。我们有很多土地可以利用。我们必须扩展圣荷塞，以便能够举办GTC。在这里站着时，我希望你们都能看到我所看到的。我们正处于一个体育场的中间。去年是我们首次恢复现场举办这一活动，它就像一场摇滚音乐会。GTC被形容为人工智能的伍德斯托克（注：世界上最著名的系列性摇滚音乐节之一），今年被形容为人工智能的超级碗。唯一的不同是，所有人在这个超级碗中都是赢家。所以每一年，参与的人数都在增加，因为人工智能能够为更多行业和公司解决更有趣的问题。

[color=rgb(64, 81, 94) !important]预训练扩展——后训练扩展——测试-时间扩展

今年，我们将讨论很多关于有能动性的人工智能和物理人工智能的内容。从根本上说，推动每一波每一阶段人工智能的三个基本问题是：

第一，你如何解决数据问题？这个问题重要的原因是因为人工智能是一种数据驱动的计算机科学方法。它需要数据来学习，需要数字经验来学习，从中获取知识，并获得数字经验。你如何解决数据问题？

第二，你如何解决训练问题？而且是在没有人参与的情况下。有人参与的原因根本上是一个挑战，因为我们只有有限的时间，而我们希望人工智能能够以超越人类的速率、实时的速率学习，并能够以人类无法跟上的规模进行学习。因此第二个问题是，如何训练模型？

第三，如何实现规模化？你如何创造、如何找到一个算法，只要你提供更多的资源，无论资源是什么，人工智能就会变得更聪明？这就是扩展法则（Scaling Law）

那么，在过去一年里，几乎全世界都误判了这一点。人工智能的计算需求、规模法则更加弹性，实际上是超加速的。由于有能动的人工智能，推理的结果，我们目前所需的计算量，比去年这个时候我们认为的多得多，容易达到100倍。

让我们推理一下为什么这是真的。首先，从AI能做什么开始，我从后往前推导。代理AI的基础是推理，我们现在有了可以推理的AI。推理从根本上说是将问题一步步分解，也许它会用几种不同的方法处理一个问题，然后选择最佳答案；也许它会以多种方式解决同一个问题，确保答案一致；或者在得出答案后，将答案代入方程——比如二次方程——以确认答案确实正确，而不是一次性直接吐出答案。还记得两年前我们开始使用ChatGPT时，尽管它是个奇迹，许多复杂问题和简单问题它都答不对，这是可以理解的。它基于预训练数据一次性回答，无论从其他经验中学到了什么，它就一次性吐出来，像个预言家。现在我们有了可以一步步推理的AI，使用一种叫做“思维链”（Chain of Thought）的技术，通过最佳答案一致性检查、多种不同的路径规划和一系列技术，我们现在有了可以分解问题、一步步推理的AI。

你可以想象，因此我们生成的Token数量大幅增加。AI的基本技术仍然是生成下一个Token、预测下一个Token，只是现在下一个Token构成了第一步，然后在生成第一步后，下一个Token又进入AI的输入，生成第二步、第三步、第四步。所以不是简单地生成一个Token或一个词接着下一个，它生成一系列代表推理步骤的词语。因此生成的Token数量大幅增加，我马上会展示给你看，轻松达到100倍以上。100倍更多意味着什么？它可以生成100倍更多的Token，正如我之前解释的那样，你可以看到这种情况；或者模型变得更复杂，它生成10倍更多的Token。为了让模型保持响应性和互动性，让我们不至于失去耐心等待它思考，我们现在必须计算快10倍。所以10倍Token、10倍速度，我们必须做的计算量轻松达到100倍。在接下来的演讲中你会看到，我们为推理（Inference）所做的计算量比过去高得多。

那么问题来了，我们如何教AI做到我刚才描述的事情，如何执行这个思维链？一种方法是你必须教AI如何推理。正如我之前提到的，在训练中有两个基本问题需要解决：数据从哪里来？如何不让它受限于人类参与？我们能提供的数据和人类演示是有限的。所以这是过去几年的重大突破——强化学习（RL，Reinforcement Learning），可验证的结果。基本上是AI的强化学习，当它尝试一步步解决问题时，我们人类历史上已经解决了很多问题，我们知道答案。我们知道如何解二次方程，知道如何解毕达哥拉斯定理，知道直角三角形的规则，知道许多数学、几何、逻辑和科学的规则。我们有拼图游戏，可以给它约束条件，比如数独这样的问题，诸如此类。我们有数百个这样的问题领域，可以生成数百万个不同的例子，给AI数百次机会一步步解决，我们使用强化学习奖励它，当它做得越来越好时。因此，你拿数百个不同的主题、数百万个不同的例子、每次尝试数百次，每次尝试生成数万Token，把这些加起来，我们谈论的是数万亿、数万亿Token来训练那个模型。现在有了强化学习，我们有能力生成大量Token——合成数据生成，基本上用机器人方法教AI。这两者的结合，给行业带来了巨大的计算挑战，你可以看到行业正在做出回应。

我接下来要展示的是Hopper，来自四大CSP（云服务提供商）的出货量。这四大CSP是指拥有公共云的那些——亚马逊、Azure、GCP和OCI，不包括AI公司，不包括所有初创公司，不包括企业，还有很多没包括在内，只是这四个，给你一个对比感，Hopper的巅峰年与Blackwell的第一年。

你可以看出，AI确实在经历一个拐点，它变得更有用，因为它更聪明，可以推理，被更多人使用。你能看出来它被更多人使用，因为现在你用ChatGPT时，似乎要等的时间越来越长，这是好事，说明很多人用得很有效。训练这些模型和推理这些模型所需的计算量增长得太惊人了。所以仅在一年内，Blackwell刚开始出货，仅在一年内，你可以看到AI基础设施的惊人增长。这在整个计算领域都有体现

我们现在看到，紫色是分析师的预测，关于未来全球数据中心的资本支出增加，包括CSP和企业等等，到2030年底。我之前说过，我预计数据中心的建设将达到一万亿美元，我相当确定我们很快就会达到这个数字。

有两个动态同时发生。第一个动态是，这种增长的绝大部分可能是加速的，意思是我们早就知道通用计算已经走到尽头，我们需要一种新的计算方法。世界正在经历从手写软件运行在通用计算机上，到机器学习软件运行在加速器和GPU上的平台转变。这种计算方式此时此刻已经过了临界点，我们现在看到拐点发生在全球数据中心的建设中。所以第一件事是计算方式的转变。

第二是人们越来越认识到，未来软件需要资本投资。这是一个非常大的想法。过去我们编写软件并在计算机上运行，未来计算机将为软件生成Token。所以计算机变成了Token生成器，从基于检索的计算到基于生成的计算，从过去建设数据中心的老方法，到建设这些基础设施的新方法。我称它们为AI工厂，它们是AI工厂，因为它们只有一个工作——生成这些不可思议的Token，然后我们将这些Token重组为音乐、文字、视频、研究、化学物质或蛋白质，重组为各种不同类型的信息。所以世界正在经历一场变革，不仅是数据中心建设数量的变革，还有建设方式的变革。

英伟达CUDA的应用库

数据中心里的一切都将被加速，但并非所有都是AI。我想在这点上说几句。这个幻灯片是我最喜欢的，原因在于，所有这些年来参加GTC的人，你们一直在听我讲这些库（Libraries）。这实际上就是GTC的全部内容，这一页幻灯片。

事实上，很久以前，20年前，这是我们唯一的一页幻灯片，一个库接一个库接一个库。你不能仅仅加速软件，就像我们需要一个AI框架来创建AI一样，我们加速了AI框架，你需要物理学、生物学、多物理学的框架，还有量子物理学，你需要各种库和框架，我们称之为CUDA X库，每个科学领域的加速框架。

所以第一个很不可思议，这是CuPy Numeric，NumPy是全球下载量第一的Python库，最常用的Python库，去年下载了4亿次。Cu Litho是计算和CuPy Numeric，是NumPy的零改动加速替代品。所以如果你们中有谁在使用NumPy，试试CuPy Numeric，你会爱上它的。

Cu Litho，一个计算光刻库，在过去四年里，我们现在已经接管了整个计算光刻过程，这是晶圆厂里的第二工厂，有一个制造晶圆的工厂，还有一个制造信息的工厂来制造晶圆。未来每个行业、每个公司有工厂的，都将有两个工厂：一个是他们制造东西的工厂，一个是数学的工厂，AI的工厂——汽车工厂，汽车的AI工厂；智能音箱工厂，智能音箱的AI工厂。所以Cu Litho是我们的计算光刻技术。台积电、三星、ASML是我们的合作伙伴，Synopsys（注：新思科技，一家美国电子设计自动化公司，专注于芯片设计和验证、芯片知识产权和计算机安全）、Mentor（注：明导国际，一家从事电子设计自动化的跨国公司），全方位的惊人支持。我认为这现在到了临界点，再过五年，每一个掩模、每一个光刻，都将在NVIDIA CUDA上处理。

ARIEL是我们的5G库，将GPU变成5G无线电，为什么不呢？信号处理是我们非常擅长的，一旦做到这一点，我们可以在上面叠加AI，AI for RAN（无线接入网），或者我们称之为AI RAN，下一代无线电网络，将深度嵌入AI。为什么我们受限于信息理论的限制？因为频谱信息只有那么多，如果我们加入AI，就不会了。

CUOPT，数值或数学优化，几乎每个行业都在用这个，当你规划座位和航班、库存和客户、工人和工厂、司机和乘客等等，我们有多个约束条件、一大堆变量，你在优化时间、利润、服务质量、资源使用，无论是什么。NVIDIA用它来管理我们的供应链，CuOpt是一个不可思议的库，它将需要数小时的事情变成几秒钟。这之所以是大突破，是因为我们现在可以探索更大的空间。我们宣布将CuOpt开源，几乎每个人都在用，Gurobi（注：一家开发用于计算最优解软件的公司）、IBM CPLEX或FICO（注：公司使用预测分析技术帮助企业在整个组织和客户生命周期中实现决策的自动化），我们与这三家都在合作，行业对此非常兴奋，我们即将把这个行业加速得天翻地覆。

PARABRICKS用于基因测序和基因分析。

MONAI是世界领先的医学影像库。

Earth-2多物理学，用于超高分辨率预测局部天.

Cu Quantum和CUDA Q，我们将在GTC举办首个量子日，我们与生态系统中几乎所有人合作，要么帮助他们研究量子架构、量子算法，要么构建经典加速量子异构架构，所以那里有非常激动人心的工作。

Cu Equivariance和Cu Tensor用于张量收缩，量子化学。当然是这个世界闻名的技术栈。

人们以为只有一个软件叫CUDA，但实际上在CUDA之上，有一大堆库，集成到生态系统的各个部分、软件和基础设施中，以实现AI。

我今天要宣布一个新的，Cu DSS，我们的稀疏求解器，对CAE（计算机辅助工程）非常重要，这是去年发生的最重要的事情之一，与Cadence（注：电子设计自动化软件与工程服务厂商）、Synopsys、Ansys（注：研发CAE或多物理场工程仿真软件）等合作，还有所有系统公司，我们现在几乎让每一个重要的EDA和CAE库得以加速。

令人惊讶的是，NVIDIA以前一直在用通用计算机，运行软件超级慢，为其他人设计加速计算机，原因是我们以前没有针对AIDA优化的软件。所以现在我们整个行业将得到超级加速，随着我们转向加速计算。

CuDF，一个用于结构化数据的数据框架，我们现在为Spark和Pandas提供了加速替代品，太不可思议了。

然后我们有WARP，一个在Python中运行的物理库，用于CUDA的物理库，我们有一个大公告，我先按下不表。

这只是使加速计算成为可能的部分库样本，不仅仅是CUDA，我们为CUDA感到非常骄傲，但如果没有CUDA以及我们庞大的安装基础，这些库对使用它们的开发者毫无用处。

对所有使用它们的开发者来说，你们用它因为一是它能给你惊人的加速，能给你惊人的扩展，二是因为CUDA的安装基础现在无处不在，它在每个云端，每个数据中心，全球每一家计算机公司都有，它真的无处不在。因此，通过使用这些库之一，你的软件，你了不起的软件，可以触达所有人。所以我们现在达到了加速计算的临界点，CUDA让这一切成为可能，而你们所有人，这就是GTC的意义所在，生态系统，你们所有人让这一切成为可能。

自2006年以来，600万开发者，来自200多个国家，使用了CUDA并改变了计算，拥有超过900个CUDA X库和AI模型。你们在加速科学，重塑行业，赋予机器看见、学习和推理的能力。现在，NVIDIA Blackwell比第一代CUDA GPU快5万倍，这些数量级的速度和规模提升，正在缩小仿真与实时数字孪生之间的差距。对你们来说，这只是开始，我们迫不及待想看到你们接下来做什么。

我爱我们所做的事，我更爱你们用它做的事。在我33年做这件事的过程中，最触动我的一件事是一位科学家对我说：“黄仁勋，因为你的工作，我能在有生之年完成我毕生的工作。”如果这都不能触动你，那你一定是僵尸。

所以这一切都是关于你们，谢谢大家。

好了，我们要谈谈AI，但你知道，AI起源于云端，它起源于云端是有原因的，因为事实证明AI需要基础设施。它是机器学习，如果科学说的是机器学习，那你就需要一台机器来做科学。所以机器学习需要基础设施，而云端数据中心有基础设施，它们还有卓越的计算机科学、卓越的研究，AI在云端起飞的完美条件，在CSP（云服务提供商）中。但AI不会仅限于此，AI将无处不在，我们将以多种不同的方式谈论AI。云服务提供商当然喜欢我们的尖端技术，他们喜欢我们有全栈，因为正如我之前解释的，加速计算不仅仅是芯片，不仅仅是芯片加库，编程模型是芯片，编程模型，还有上面的一大堆软件，整个堆栈极其复杂。每一层，每一个库，本质上就像SQL，你知道SQL在存储计算中，是IBM带来的计算大革命，SQL只是一个库。想象一下，我刚给你展示了一大堆，而在AI的情况下还有更多。所以这个堆栈很复杂。他们还喜欢这样一个事实，CSP喜欢NVIDIA CUDA开发者是他们的客户，因为归根结底，我们是为全世界建设基础设施的。所以丰富的开发者生态系统非常有价值，非常非常受重视。

现在我们要将AI带到世界其他地方，世界其他地方有不同的系统配置、不同的运行环境、特定领域的库差异、使用差异。所以AI在转向企业、转向制造业、转向机器人技术、自动驾驶汽车，甚至是开始做GPU云的公司时，有大约20家公司在NVIDIA时代开始的，他们只做一件事——托管GPU，他们称自己为GPU云。

我们的一位伟大合作伙伴CoreWeave正在上市过程中，我们为他们感到非常骄傲。所以GPU云有他们自己的需求，但我超级兴奋的一个领域是边缘（Edge）。今天我们宣布，思科、NVIDIA、T-Mobile——全球最大的电信公司——Cerebras、ODC，将为美国的无线电网络建设一个全栈。这将是第二个堆栈，所以这个当前堆栈，我们今天宣布的，将把AI带入边缘。记住，每年全球在无线电网络上的资本投资，以及为通信准备的所有数据中心，高达一千亿美元。我毫不怀疑，未来这些都将被加速计算和AI融合。AI将做得更好，更好地适应无线电信号，大规模MIMO适应不断变化的环境和流量条件。当然，我们会用强化学习来做到这一点，当然，MIMO本质上是一个巨大的无线电机器人，当然是的。所以我们当然会提供这些能力，当然，AI可以革命化通信。

你知道，当我打电话回家时，不需要多说几句话，因为我妻子知道我在哪里工作，那里的情况如何，对话从昨天继续，她有点记得我喜欢什么不喜欢什么，常常几句话就传达了很多。原因在于上下文和人类的先验知识。将这些能力结合起来，可以革命化通信。看看它对视频处理做了什么，看看我之前描述的3D图形，所以我们当然也会为边缘做同样的事情。我对我们今天宣布的消息超级兴奋，T-Mobile、思科、NVIDIA、Cerebras、ODC，将要建设一个全栈。

汽车行业与智能驾驶

AI将进入每个行业，这是AI最早进入的行业之一——自动驾驶汽车。当我看到AlexNet的那一刻，我们已经研究计算机视觉很久了，看到AlexNet的那一刻是如此激动人心，它促使我们决定全力投入开发自动驾驶汽车。所以我们现在已经研发自动驾驶汽车超过十年，我们构建的技术几乎被每一家自动驾驶汽车公司使用。数据中心，比如特斯拉在数据中心用了很多NVIDIA GPU；可能是数据中心或车内，Waymo和Wave在数据中心和车内都用了NVIDIA计算机；可能只是车内，这种情况很少，但有时只是车内，或者他们还用了我们所有的软件。

我们与汽车行业合作，无论汽车行业希望我们如何合作，我们构建了所有三种计算机——训练计算机、仿真计算机和机器人计算机，自动驾驶汽车计算机，上面所有的软件堆栈，模型和算法，就像我展示的所有其他行业一样。

所以今天我超级兴奋地宣布，通用汽车（GM）选择NVIDIA与他们合作，打造他们未来的自动驾驶车队。自动驾驶汽车的时代已经到来，我们期待与GM一起打造AI，在三个领域：制造的AI，让他们革命化制造方式；企业的AI，让他们革命化工作方式，设计汽车和仿真汽车；还有车内的AI。所以为GM打造AI基础设施，与GM合作，与GM一起构建他们的AI，我对此超级兴奋。我非常骄傲的一个领域，但很少受到关注的是安全，汽车安全。在我们公司里这叫做Halos，Halos安全。安全需要从硅片到系统到系统软件的技术，算法、方法论，一切从多样性到确保多样性、监控和透明性、可解释性，所有这些不同的理念，必须深深植根于你开发系统和软件的每一个部分。我相信我们是全球第一家，每一行代码都经过安全评估的公司，700万行代码经过安全评估。我们的芯片、我们的系统、我们的系统软件和我们的算法，都由第三方安全评估，他们逐行检查代码，确保设计时考虑了多样性、透明性和可解释性。我们还拥有超过一千项专利，在这次GTC期间，我真的鼓励你们去参加Halos研讨会，这样你们可以看到所有汇聚在一起的东西，确保未来的汽车既安全又自主。所以这是我非常骄傲的事情，它很少受到关注，所以这次我想多花点时间谈谈这个。

好了，NVIDIA Halos，你们都见过汽车自己开，Waymo的机器人出租车很不可思议，但我们制作了一个视频，与你们分享我们用来解决数据和训练问题的一些技术，以及多样性，这样我们就可以用AI的魔力去创造AI。让我们来看看。

NVIDIA正在为自动驾驶（AV）加速AI开发，使用Omniverse和Cosmos。Cosmos的预测和推理能力支持端到端可训练的AI优先AV系统，采用新的开发方法——模型蒸馏（Model Distillation）、闭环训练（Closed-Loop Training）和合成数据生成。首先，模型蒸馏，作为策略模型，Cosmos的驾驶知识从一个较慢的智能老师，转移到一个更小、更快的学生模型，在车内进行推理。老师的策略模型展示了最佳轨迹，学生模型通过迭代学习，直到它的表现几乎与老师一样。

蒸馏过程启动了一个策略模型，但复杂场景需要进一步调整。闭环训练使策略模型得以微调，日志数据被转化为3D场景，在基于物理的仿真中使用Omniverse进行闭环驾驶。神经重建，这些场景的变体被创建，测试模型的轨迹生成能力。Cosmos行为评估器随后可以评分生成的驾驶行为，衡量模型性能。新生成的场景及其评估，为闭环训练创建了大型数据集，帮助AV更稳健地导航复杂场景。最后，3D合成数据生成，增强AV对多样环境的适应性。从日志数据中，Omniverse通过融合地图和图像，构建详细的4D驾驶环境，生成真实世界的数字孪生，包括分割以指导Cosmos，通过分类每个像素。Cosmos然后通过生成准确多样的场景，扩展训练数据，缩小仿真与现实的差距。Omniverse和Cosmos使AV能够学习、适应和智能驾驶，推进更安全的移动性。

NVIDIA是做这件事的完美公司，天哪，那是我们的使命，用AI重新创造AI。我们展示给你们的技术，与你们正在享受的、带你们进入数字孪生的技术非常相似，我们称之为NVIDIA。

数据中心与AI工厂

好了，让我们谈谈数据中心。Blackwell已全面投产，这就是它的样子，太不可思议了，你知道，对于我们这些人来说，这是一道美丽的风景，你们同意吗？怎么能不美呢？

这是一件大事，因为我们在计算机架构上做出了根本性的转变。我想让你们知道，事实上，我在三年前向你们展示过这个的一个版本，当时叫Grace Hopper，系统叫Ranger。Ranger系统大约是屏幕宽度的一半，那是世界上第一个NVLink 32。三年前我们展示了Ranger的运行，它太大了，但想法完全正确。我们试图解决的是扩展（Scale Up）的问题。分布式计算是用很多不同的计算机一起解决一个非常大的问题，但扩展起来（Scale Up）比扩展出去（Scale Out）更重要，两者都很重要，但你得先扩展起来再扩展出去。扩展起来非常难，没有简单的答案。你不会拿一堆普通计算机，连接成一个大网络，用Hadoop（分布式存储）做存储计算。Hadoop是一个革命性的想法，我们知道它使超大规模数据中心能够解决巨型问题，用现成的计算机。然而，我们试图解决的问题太复杂了，那样扩展会耗费太多电力、太多能源，深度学习永远不会发生。所以我们必须先扩展起来。

这就是我们扩展的方式。我不会举起这个，它有70磅，这是上一代系统架构，叫HGX。它彻底改变了我们所知的计算，彻底改变了人工智能。这是8个GPU，每个都像这样。这是一个Blackwell封装，里面有两个Blackwell GPU，一个Blackwell封装里两个Blackwell GPU。

下面有八个这样的。它连接到我们称之为NVLink 8的东西，然后连接到一个CPU架，上面有双CPU，通过PCI Express连接，然后很多这样的东西通过Infiniband连接，变成了一个AI超级计算机。这是过去的方式，这是我们开始的方式。

这是我们在扩展出去之前扩展到的程度，但我们想进一步扩展。我告诉过你们，Ranger把这个系统扩展了四倍，所以我们有了NVLink 32，但系统太大了，所以我们必须做一些相当了不起的事情，重新设计NVLink的工作方式和扩展的方式。第一件事我们说，NVLink交换机嵌在主板上，我们需要解耦NVLink系统，把它拿出来。这就是NVLink系统，这是一个NVLink交换机，这是世界上性能最高的交换机，它让每个GPU都能同时以全带宽与每个GPU通信。所以这是NVLink交换机，我们解耦了它，拿出来，放在机箱中央。这里有18个这样的交换机，分成9个不同的架子，我们称之为交换机托盘。

然后交换机被解耦，计算部分现在在这里，相当于这两个东西的计算能力。令人惊讶的是，这完全是液冷的，通过液冷，我们可以将所有这些计算节点压缩到一个机架中。这是整个行业的大变革，你们在场的观众，我知道你们有多少人，我要感谢你们促成了这个从集成NVLink到解耦NVLink、从风冷到液冷、从每台计算机大约6万个零件到每个机架60万个零件的根本性转变。120千瓦完全液冷，结果我们有了一台一亿亿次浮点运算（Exaflops）的计算机，在一个机架里，这不是很不可思议吗

所以这是计算节点，这就是计算节点，现在它能装进一个这样的机架里。我们有3000磅，5000根电缆，大约2英里长，太不可思议的电子设备了，60万个零件，我想这相当于20辆汽车的零件，集成成一台超级计算机。我们的目标是做到这个，我们的目标是扩展，这就是它现在的样子。我们本质上想造这个芯片，只是理论极限做不到，工艺技术也做不到。它有130万亿个晶体管，其中20万亿用于计算，所以你无法在短期内合理地造出来。解决这个问题的办法就是像我描述的那样解耦，变成Grace Blackwell NVLink 72机架，结果我们完成了世界上最极端的扩展。

这里可能的计算量，内存带宽570太字节每秒，这台机器里的一切现在都是以万亿为单位，你有一亿亿次浮点运算，也就是每秒一百万万亿次浮点运算。我们之所以想这样做，是为了解决一个极端问题，这个问题很多人误以为很简单，实际上它是终极的极端计算问题，叫推理（Inference）。原因很简单，推理是工厂的Token生成，工厂是产生收入和利润的，或者不产生，所以这个工厂必须以极高的效率、极高的性能建造，因为这个工厂的一切直接影响你的服务质量、你的收入和你的盈利能力。

让我教你们怎么看这个图表。基本上有两个轴，X轴是每秒Token数，当你用ChatGPT聊天，输入提示后出来的是Token，这些Token被重新格式化为单词，你知道，一个词不止一个Token。比如“th”可以用于“the”、“them”、“theory”、“theatrics”等等，所以“th”是一个Token的例子，它们把这些Token重新格式化为单词。我们已经确定，如果你想让AI更聪明，你得生成一大堆Token，这些Token是推理Token、一致性检查Token、想出一堆点子然后选出最好的那些点子的Token，这些Token可能是自我怀疑，可能是它能做的最好工作，所以它自己跟自己对话，就像我们自己跟自己对话一样。所以你生成的Token越多，你的AI就越聪明。

；

Nvidia GTC 2025：硬件预测和投资趋势分析

郭明錤 (Ming-Chi Kuo)
[color=rgba(244, 244, 244, 0.65)]创建于 12 小时前 • 更新于 11 小时前

GTC 2025 投资亮点

1.

Nvidia 的 AI 服务器投资趋势取决于三个关键问题：扩展定律的持续有效性、新 AI 服务器的生产提升以及地缘政治的不确定性。

2.

随着入门级和边缘 AI 设备的发展势头强劲，Nvidia 可以通过对扩展定律对 AI 服务器的持续有效性提供新的见解来缓解市场担忧

3.

市场普遍认识到 GB200 NVL72 的生产障碍。如果 Nvidia 能够重点介绍 GB200 NVL72 在实际数据中心的部署情况，强调从 B200 到 B300 的升级优势，并明确 B300 的生产时间表，那么这可能会增强市场对 B300 投资论点的预期。

4.

地缘政治风险不太可能得到有意义的讨论。

5.

边缘 AI 是 Nvidia 重要的长期驱动力，但 GTC 2025 预计将专注于 AI 服务器。市场对 AI PC 解决方案（例如 N1X 和 N1）的预期更有可能在今年晚些时候的 Computex 上揭晓。

6.

在人工智能股票近期回调后，GTC 可能成为股价反弹的短期催化剂。然而，这一势头能否持续取决于会议能否有效解决投资者的担忧。

全新AI服务器芯片及系统解决方案：GTC硬件更新的关键

1.

B300 AI 芯片是此次会议的焦点，提供双芯片 (CoWoS-L) 和单芯片 (CoWoS-S) 版本。其突出特点是 HBM 内存从 192GB 大幅提升至 288GB，性能比 B200 提升 50%（基于 FP4）。

2.

B300 预计将于 2025 年第二季度开始试生产，并计划于 2025 年第三季度进行量产。

3.

Nvidia 将推出针对纵向扩展和横向扩展配置的参考设计，以降低平均代币成本提供增强的计算能力。

数据中心的人工智能服务器解决方案

•

正在开发中的服务器：

1.

B300 芯片：包括 GB300 NVL72、HGX B300 NVL16（风冷）、HGX B300 NVL16（液冷）和低端 B300 NVL 变体。

2.

B200 芯片：包括 HGX B200 NVL8 和 GB200 NVL4。

3.

工作站：配备用于AI和可视化应用的RTX PRO 6000 Blackwell Server Edition芯片。

4.

下一代AI服务器：搭载VR（Vera Rubin）芯片，推出144/288配置。

•

可能在 GTC 2025 上发布的服务器型号：

1.

GB300 NVL72：将取代 GB200 NVL72，它保持类似的机架尺寸和功率需求，可实现无缝数据中心升级。预制样品 (PS) 定于 2025 年 6 月推出。

2.

HGX B300 NVL16：作为 HGX B200 NVL8 和 HGX H200 NVL8 的后继产品，尽管采用单芯片设计，但 GPU 数量保持不变。PS 时间表为 2025 年 6 月（风冷版）和 2025 年 9 月（液冷版）。

3.

NVL288/144：专为 VR 架构设计，但由于 Vera 和 Rubin 尚未投入生产，因此初始机架可能依赖 GB 芯片。该公告将重点介绍 Nvidia 的扩展设计优势，但由于 Vera/Rubin 的生产时间较远，因此细节有限（2026 年第 2 季度至第 3 季度）。

4.

搭载 RTX PRO 6000 Blackwell 服务器版的工作站：针对 AI 和可视化应用，配备 GDDR7 96GB（1.6 TB/s）和 400-600W TDP。预计在 2025 年第 2 季度至第 3 季度量产。

数据中心网络解决方案

1.

它包括 Quantum-3、Quantum-X800、Spectrum-5 和 ConnectX-8 (CX8)。

2.

CX8 的速度比其前代产品 (CX7) 快了一倍，集成了 SuperNIC 和 PCIe 交换机（支持 PCIe Gen6），可将功耗降低 30%。CX8 支持 GB300 NVL72 和最新的 Quantum 平台。

其他关键人工智能应用和解决方案：些涵盖机器人、自动驾驶、量子计算和相关领域。

不断发展的科技格局中，很少有公司能像英伟达那样捕获投资者和市场的想象力。2025年3月12日，在关于关税和出口限制的漩涡般担忧中，英伟达股票逆势飙升，以惊人的6.4%涨幅收于115.74美元。这种反弹虽然令人印象深刻，但仅仅讲述了一个更复杂故事的一部分。

在当天的涨势背后，是英伟达从游戏显卡制造商到AI计算无可争议霸主的非凡转变。数字说明了一切：2025财年收入同比增长惊人的114%，达到1305亿美元，每股收益翻了一番多，达到2.94美元。即使市场正在消化这些数字，分析师们已经将目光投向未来，预测当前财年的收益将高达4.45美元。

然而，在这一壮观上升的背后潜伏着不确定性的阴影。英伟达的股票交易价格低于其200天移动平均线，反映了卓越增长与不断增加的挑战之间的张力。公司的王冠明珠——最新的Blackwell芯片架构——在推动季度收入110亿美元的同时，在其生产加速期间暂时给利润率带来了压力。与此同时，地缘政治力量如暴风云般盘旋，关税政策和出口限制威胁着重新绘制全球半导体格局。

随着投资者和交易者为即将到来的GTC大会定位，首席执行官黄仁勋很可能将在会上揭示英伟达技术路线图的下一章，问题不仅仅是公司能否保持其主导地位——而是其对AI、自动驾驶汽车和量子计算的愿景可能延伸多远。随着空头和多头在对高估值的担忧与对似乎无边界创新的热情之间进行拉锯战，英伟达站在当前波动性和未来潜力的十字路口。

在这个技术革命的时刻，英伟达不仅反映市场趋势——它创造趋势，挑战投资者区分暂时波动和仍在我们眼前成形的转变世界的轮廓。

硅谷，去印度化了。英特尔新任CEO陈立武一上任，芯片三巨头AMD、英特尔(INTC)、英伟达(NVDA)现在全华裔了。再加上博通(AVGO)、台积电(TSM)就五位了。印度裔的花言巧语，已经行不通了，现在来到了卷工艺和良率的时代。如果一家公司是可能是偶然，芯片巨头都是东亚人(包括三星)，恐怕有文化基因上的必然？下一步，华人会在华尔街崛起，因为量化金融将占主导。

network · 发表于 2025-3-13 21:10:46

但如果你回答问题花太长时间，客户就不会回来，这跟网页搜索没什么区别，在它给出聪明答案之前能等的时间是有限的。所以你有两个互相抗衡的维度，你想生成一大堆Token，但你想尽可能快地做到。因此，你的Token速率很重要，你希望每个用户的每秒Token数尽可能快。然而，在计算机科学和工厂里，延迟（响应时间）和吞吐量之间有根本性的张力。原因很简单，如果你是大批量业务，你会批量处理，叫批处理（Batching），你把很多客户需求批量起来，制造某个版本供大家以后消费。然而，从他们批量制造到你消费的时间可能很长。所以计算机科学没什么不同，AI工厂生成Token也没什么不同，你有两个根本性的张力。一方面，你希望客户的服务质量尽可能好，智能AI要超级快；另一方面，你试图让数据中心为尽可能多的人生产Token，以最大化你的收入。

完美的答案是右上角，理想情况下，这个曲线的形状是一个正方形，你可以为每个人快速生成Token，直到工厂的极限。但没有工厂能做到，所以它可能是某种曲线，你的目标是最大化曲线下的面积，也就是X和Y的乘积，你推得越远，越可能意味着你建的工厂越好。结果是，整个工厂的每秒Token数和响应时间的每秒Token数，一个需要巨大的计算量（Flops），另一个维度需要巨大的带宽和计算量，所以这是一个很难解决的问题。好的答案是你得有很多计算量、很多带宽、很多内存，很多一切，这是最好的起点，这就是为什么这是一台伟大的计算机。你能得到的最多计算量、最多内存、最多带宽开始，当然还有最好的架构、最好的能效，你得有一个编程模型，让你能在这一切上运行软件，所以你能做到这个。

现在让我们看一个演示，给你们一个我说的直观感觉，请播放。

传统大型语言模型（LLM）捕获基础知识，而推理模型用思维Token帮助解决复杂问题。这里一个提示要求在婚礼餐桌周围安排座位，同时遵守传统、上镜角度和家族纷争等约束。传统LLM用不到500个Token快速回答，但安排客人时出错，而推理模型用超过8000个Token思考，得出了正确答案，需要一个牧师来维持和平。

好的，正如你们所知，如果有300人的婚礼派对，你要为每个人找到完美——或者说最优——的座位安排，这是一个只有AI能解决的问题。所以这是CuOpt解决不了的问题之一。你看到的是，我们给它一个需要推理的问题，你看到R1开始推理，尝试各种不同场景，然后回来测试自己的答案，它问自己做得对不对。与此同时，上一代语言模型一次性回答，用了439个Token，很快，很有效，但错了，所以是439个浪费的Token。另一方面，为了推理这个问题——这其实是一个很简单的问题，你知道，我们再加几个更难的变量，它就变得很难推理了——用了8000个，几乎9000个Token，需要更多计算，因为模型更复杂。

所以这是一个维度，在我展示一些结果前，让我再解释一下。如果你们看Blackwell，看Blackwell系统，现在是扩展的NVLink 72，第一件事是我们得拿这个模型，这个模型不小，你知道，在R1的情况下，人们认为R1很小，但它有6800亿个参数，下一代模型可能是万亿级参数。你解决这个问题的方法是，把这些万亿级参数分布到整个GPU系统上。你可以用张量并行（Tensor Parallel），把模型的一层分布到多个GPU上；你可以拿管道的一部分，叫管道并行（Pipeline Parallel），放到多个GPU上；你可以把不同的专家分布到不同GPU上，我们叫专家并行（Expert Parallel）。管道并行、张量并行和专家并行的组合，数量太多了，取决于模型、取决于工作负载、取决于情况，你得调整计算机的配置，才能从中获得最大吞吐量。有时你优化低延迟，有时你优化吞吐量，所以你得做一些飞行中的批处理（Inflight Batching），很多不同的批处理和聚合工作的技术。所以这些AI工厂的软件、操作系统，太复杂了。

一个观察是，像NVLink 72这样同构架构的好处是，每个GPU都能做我刚描述的所有事。我们观察到，这些推理模型有几个计算阶段。一个阶段是思考，当你思考时，你不会产生很多Token，你产生的Token可能是自己消耗的，你在思考，可能在阅读，消化信息，这些信息可能是PDF、网站，你甚至可能在看视频，以超线性速率吸收所有这些，然后你用这些信息制定答案，制定计划好的答案。所以这个消化信息、上下文处理的过程，需要大量计算量（Flops）。另一方面，下一阶段叫解码（Decode），第一部分我们叫预填充（Prefill）。

解码阶段需要浮点运算，但需要巨大的带宽。这很容易计算，你知道，如果一个模型有几万亿参数，那就需要几太字节每秒，我提到过576太字节每秒，从HBM内存拉模型进来，生成一个Token就需要几太字节每秒。原因它生成一个Token是因为，记住，这些大型语言模型是在预测下一个Token，所以说下一个Token，不是预测每个Token，是预测下一个Token。现在我们有各种新技术，比如推测解码（Speculative Decoding）等等，让它更快，但在最后分析中，你是在预测下一个Token。所以你拉进整个模型和上下文，我们叫它KV缓存（KV Cache），然后生成一个Token，再把这个Token放回我们的大脑，生成下一个Token，每一次都这样，我们输入万亿参数，生成一个Token，再输入万亿参数，生成另一个Token，再输入万亿参数，生成另一个Token。注意那个演示，我们生成了8600个Token，所以万亿字节的信息被输入我们的GPU，一次生成一个Token。

这从根本上就是你想要NVLink的原因，NVLink让我们能把所有这些GPU变成一个巨大的GPU，终极扩展（Scale Up）。第二件事是，现在一切都在NVLink上，我可以把预填充和解码分开，我可以决定用更多GPU做预填充，少做解码，因为我在大量思考，我在做代理性工作（Agentic Work），我在读很多信息，做深入研究。注意在深入研究时，你知道，之前我听Michael讲他做研究，我也一样，我们为AI写很长的研究项目，我爱做这个，因为我已经付出了成本，我就是爱让我们的GPU工作，没什么比这更让我开心。所以我写好，它就去做所有这些研究，去了94个不同网站，读了所有这些，我在读这些信息，它制定答案，写报告，太不可思议了。在这整个过程中，预填充超级忙，但它其实没生成多少Token。另一方面，当你跟聊天机器人聊天，几百万人在做同样的事，它是Token生成很重的，很解码重。所以取决于工作负载，我们可能决定把更多GPU放进解码，取决于工作负载放更多GPU进预填充。这个动态操作真的很复杂，所以我刚描述了管道并行（Pipeline Parallel）、张量并行（Tensor Parallel）、专家并行（Expert Parallel）、飞行中批处理（Inflight Batching）、解耦推理工作负载管理，然后我得拿这个叫KV缓存的东西，路由到正确的GPU，通过所有内存层次管理它，这块软件太复杂了。

所以今天我们宣布NVIDIA Dynamo。它本质上是AI工厂的操作系统。过去我们运行数据中心的方式，我们的操作系统是像VMware这样的东西，我们会编排，我们仍然这样做，你知道，我们是大用户，编排一大堆运行在我们企业IT上的不同企业应用。但未来，应用不是企业IT，而是代理（Agents），操作系统不是像VMware这样的东西，而是像Dynamo这样的东西，这个操作系统运行在不是数据中心，而是一个AI工厂之上。

我们叫它Dynamo是有原因的，你知道，发电机（Dynamo）是上一次工业革命的第一个工具，能源的工业革命，水进来，电出来，太棒了，你知道，水进来，你点火变成蒸汽，出来的是这个无形但非常有价值的东西，花了80年才变成交流电，但Dynamo是这一切的起点。所以我们决定把这个操作系统，这个极其复杂的软件，叫NVIDIA Dynamo，它是开源的，它是开源的，我们很高兴有这么多合作伙伴跟我们一起做这个。我最喜欢的合作伙伴之一，我很爱他们，因为他们的革命性工作，也因为Aran是个很棒的人，但Perplexity是我们在这个过程中的伟大合作伙伴。所以总之，真的真的很棒。

现在我们得等到我们把这些基础设施都扩展起来，但与此同时，我们做了很多非常深入的仿真，我们有超级计算机在仿真我们的超级计算机，这很有道理。我现在要展示我刚说的所有东西的好处，记住那个工厂图表，X轴是每秒Token吞吐量，抱歉，Y轴是工厂的每秒Token吞吐量，X轴是用户体验的每秒Token数，你想要超级聪明的AI，你想生产一大堆这样的AI。这是Hopper，这是Hopper，它能为每个用户每秒生产大约100个Token，100个，这是8个GPU，用Infiniband连接，我把它标准化为每兆瓦每秒Token数，所以这是一个一兆瓦的数据中心，不算很大的AI工厂，但总之一兆瓦。它能为每个用户生产100个Token每秒，能在这个水平生产，不管是多少，10万个Token每秒，对于那个一兆瓦数据中心，或者如果超级批处理，客户愿意等很长时间，它能生产大约250万个Token每秒，250万个Token每秒，对于那个AI工厂。明白了吗？好的，因为你知道，每次GTC都有入场费，你们知道，就像被数学折磨一样，只有在NVIDIA你才会被数学折磨。所以Hopper你得到250万，那250万是什么，怎么翻译那250万？记住，ChatGPT大概是每百万Token10美元，我认为10美元每百万Token大概在这儿。每秒25万美元每工厂，然后一年有3100万秒，转化成一兆瓦数据中心的收入。

所以这是你的目标，一方面你希望你的Token速率尽可能快，这样你能做出很聪明的AI，如果有聪明的AI，人们会付你更多钱；另一方面，AI越聪明，你能生产的量就越少，很合理的权衡，这是我们想弯曲的曲线。

我现在展示给你们的是世界上最快的计算机Hopper，它彻底改变了一切。所以我们怎么让它更好？第一件事我们拿出Blackwell，带NVLink 8，同一个Blackwell，同一个计算节点，带NVLink 8，用FP8，所以Blackwell就是更快，更大，更多晶体管，更多一切。但我们想做的更多，所以我们引入了一种新精度，不完全是4位浮点那么简单，但用4位浮点我们可以量化模型，用更少能量做同样的事，结果当你用更少能量做同样的事，你能做更多，因为记住一个大想法是，未来每个数据中心都将受限于电力，你的收入受限于电力，你能根据你有的电力算出你的收入会是多少，这跟很多其他行业没什么不同。所以我们现在是受限于电力的行业，我们的收入跟这有关。基于这个，你得确保你有尽可能最高效的计算架构。

接下来我们用NVLink 72扩展，明白了吗？看看NVLink 72 FP4的区别，然后因为我们的架构整合得太紧密了，现在我们加上Dynamo，Dynamo能把它再推进一步，你们跟得上吗？所以Dynamo也帮Hopper，但Dynamo对Blackwell的帮助简直太不可思议了。

所以现在注意我放的那两个闪亮的部分，那大概是你的最大质量点（Max Q），你知道，那可能是你运行工厂操作的地方，你在试图找到最大吞吐量和AI最大质量之间的平衡，最聪明的AI，最多的AI，这两个XY交点真的是在优化的东西，如果你看这两个方块下面，Blackwell比Hopper好太多了。记住这不是同芯片，这是同功率，这是终极摩尔定律（Moore's Law），过去摩尔定律一直是这样的，现在我们在这儿，一代25倍，同功率，不是同芯片，不是同晶体管，不是同任何东西，同功率，终极限制，数据中心能获得的能源只有那么多，所以在同功率下，Blackwell是25倍。

现在这儿有个彩虹，太不可思议了，那是好玩的部分，看看所有不同配置，每个在帕累托前沿（Pareto Frontier）下面，我们叫它帕累托前沿，下面有几百万个点，我们可以配置数据中心去做，我们可以并行、分片工作，用很多不同的方式，我们找到了最优答案，就是帕累托前沿，每个因为颜色告诉你它是不同配置，这就是为什么这个图像很清楚地说，你想要一个尽可能同质可替换的可编程架构，因为工作负载在整个前沿变化太大了。

所以这是输入序列长度，这是一种常见的测试案例，这个测试案例你可以相对容易地基准测试，输入是1000个Token，输出是2000个，注意之前我们刚展示的演示，输出很简单是9000，对，8000，所以显然这不代表那一个聊天，这个更具代表性，这就是你知道，目标是为下一代工作负载建下一代计算机。所以这儿有个推理模型的例子，在推理模型中，Blackwell的性能是Hopper的40倍，太惊人了。

你知道，我之前说过，有人问我为什么这么说，我说过，当Blackwell开始大量出货，你没法把Hopper送出去，这就是我的意思，这很合理。如果有人还在想买Hopper（上一代芯片），别害怕，我是说，没事，但我可是首席收入破坏者（Chief Revenue Destroyer），我的销售团队在说，哦不，别这么说。有些情况下Hopper是没问题的，这是我能对Hopper说的最好话，有些情况下你是没问题的，但情况不多。所以这就是我的观点，当技术发展这么快，你在建这些东西，它们是工厂，你得投资在正确的版本上。

为了给你一个视角，这是一个100兆瓦工厂的样子，这个100兆瓦工厂，基于Hopper，你有4.5万个GPU，1400个机架，它生产3亿个Token每秒。然后这是Blackwell的样子，你有8.5万个。所以总之，你买得越多，你省得越多，比这更好，现在是你买得越多，你赚得越多，你知道。所以总之，记住一切都在AI工厂的背景下，虽然我们谈芯片，你总是从扩展开始，我们谈芯片，但你总是从扩展开始，全力扩展，你能扩展到最大。我现在想给你们展示AI工厂的样子，但AI工厂太复杂了，我刚给你们一个机架的例子，它有60万个零件，重3000磅，现在你得拿这个跟一大堆其他连接起来，所以我们开始建我们说的每个数据中心的数字孪生，在你建数据中心前，你得先建数字孪生。让我们看看这个，太美了。

全世界在竞相建造最先进的大型AI工厂，启动一个AI千兆工厂是工程上的非凡壮举，需要数万名工人，从供应商、建筑师、承包商和工程师，建造、运输、组装近50亿个组件和超过20万英里的光纤，几乎是从地球到月球的距离。NVIDIA Omniverse的AI工厂数字孪生蓝图让我们能在物理建设开始前设计和优化这些AI工厂。在这儿，NVIDIA工程师用蓝图规划一个1吉瓦的AI工厂，整合最新的NVIDIA DGX超级POD的3D和布局数据，以及来自Vertiv和施耐德电气的先进电源和冷却系统，以及NVIDIA Air优化的拓扑结构，一个用于模拟网络逻辑、布局和协议的框架。这工作传统上是在孤岛中完成，Omniverse蓝图让我们的工程团队能并行协作，让我们探索各种配置，以最大化总拥有成本（TCO）和电源使用效率。NVIDIA用Cadence Reality数字孪生，由CUDA和Omniverse库加速，模拟空气和液体冷却系统，施耐德电气用EAP，一个模拟电源块效率和可靠性的应用。实时仿真让我们能迭代和运行大规模假设场景，从几小时变成几秒。我们用数字孪生向大群团队和供应商传达指令，减少执行错误，加速启动时间，规划改造或升级时，我们能轻松测试和模拟成本和停机时间，确保面向未来的AI工厂。

好了，我得讲快一点，因为我发现我有很多要告诉你们，如果我讲得太快，不是因为我不关心你们，只是我有很多信息要讲。好的，首先我们的路线图，我们现在Blackwell已全面投产，全球的计算机公司在大规模提升这些不可思议的机器，我非常非常高兴，也非常感激你们所有人努力过渡到这个新架构。

现在今年下半年我们将轻松过渡到升级，所以我们有Blackwell Ultra NVLink 72，你知道，它有1.5倍更多的浮点运算，它有新的注意力指令，1.5倍更多内存，所有这些内存对KV缓存之类的东西有用，你知道，2倍更多带宽，网络带宽。所以现在我们有了同样架构，我们会优雅地滑向那个，叫Blackwell Ultra。所以这是今年下半年的事。现在我们这么做的原因。

我们在建AI工厂和AI基础设施，这需要几年的规划，这不是买笔记本电脑那样可自由支配的开支，这是我们得计划的开支。所以我们得计划好土地和电力，我们得准备好资本支出，我们得有工程团队，我们得提前两三年布局，这就是为什么我提前两三年给你们看我们的路线图，这样我们不会在五月突然说，嘿，你知道，再过一个月我们会推出这个不可思议的新系统，我马上会给你们一个例子，所以我们多年规划这个。

一年后，以一位天文学家命名，她的名字是Vera Rubin，她发现了暗物质。Vera Rubin太不可思议了，因为CPU是新的，是Grace两倍的性能，有更多内存、更多带宽，然而只是一个50瓦的小CPU，真的很不可思议。Rubin全新的GPU CX9，全新的网络SmartNIC，NVLink 6，全新的NVLink，全新的HBM4内存，基本上一切都是新的，除了机箱，这样我们能在一个方向上冒很多险，不冒基础设施相关的其他风险。所以Vera Rubin NVLink 144是明年下半年的事。

现在我犯了一个错误，所以我需要你们做这个调整，我们只做这一次，Blackwell其实是一个芯片里两个GPU，我们叫那个芯片一个GPU，这是错的，原因是它搞乱了所有NVLink命名之类的东西。所以往前走，当我说NVLink 144，只是说它连到144个GPU，每个GPU是一个GPU芯片，可能组装在某个封装里，组装方式可能不时变化。所以每个GPU芯片是一个GPU，每个NVLink连到GPU，所以Vera Rubin NVLink 144，然后这为后年下半年铺路，我们叫Rubin Ultra。

我知道这个是你们该说“哇”的地方。所以这是Vera Rubin，Rubin Ultra，27年下半年，它是NVLink 576，极端扩展，每个机架600千瓦，250万个零件，显然有很多GPU，一切都翻倍，所以14倍更多浮点运算，15亿亿次浮点运算（Exaflops），不是我之前提到的一亿亿次，是15亿亿次扩展浮点运算，它是300，哦，4.6PB，所以每秒4600太字节扩展带宽，我不是说聚合，我是说扩展带宽，当然有很多全新的NVLink交换机和CX9。注意，16个站点，4个GPU一个封装，超大的NVLink，我给你们一个视角，这就是它的样子。现在这会很好玩，所以你们现在正在提升Grace Blackwell，我不是想让它看起来像笔记本电脑，但我们走吧。所以这就是Grace Blackwell的样子，这就是Rubin的样子，ISO维度，所以这是另一种说法，在你扩展出去前，你得先扩展起来，明白了吗？在你扩展出去前先扩展起来，然后用我马上要展示的惊人技术扩展出去。所以先扩展起来，现在这给你们一个我们前进速度的感觉，这是扩展浮点运算量，Hopper是1倍，Blackwell是68倍，Rubin是900倍扩展浮点运算，然后如果我把它变成你的总拥有成本（TCO），就是上面的电力除以下面的曲线下的面积，我跟你们说的那个方块，基本上是浮点运算乘以带宽。所以你判断AI工厂进步的一个很简单直觉检查是瓦特除以这些数字，你可以看到Rubin会把成本大幅降低。所以这是NVIDIA的路线图，很简单，每年一次，每年一次，像钟表一样，每年一次。

InfiniBand网络

我们怎么扩展？我们引入了，我们准备扩展出去，扩展起来是NVLink，我们的扩展网络是Infiniband和Spectrum X，大多数人很惊讶我们进入了以太网世界，我们决定做以太网的原因是，如果我们能帮以太网变得像Infiniband，有Infiniband的品质，那么网络本身对大家用和管理会容易很多。所以我们决定投资Spectrum，我们叫它Spectrum X，我们给它带来了拥塞控制、低延迟和我们计算结构（Computing Fabric）的一部分软件的属性，结果我们让Spectrum X性能超高，我们用Spectrum X扩展了有史以来最大的单一GPU集群，一个巨型集群，那就是Colossus。所以还有很多其他例子，Spectrum X无疑是我们的大成功。

我很兴奋的一个领域是最大的企业网络公司把Spectrum X整合进他们的产品线，这样他们能帮世界上的企业变成AI公司。我们有10万个，用CX8，CX7，现在CX8来了，CX9来了，在Rubin的时间框架里，我们想把GPU数量扩展到几十万。现在把GPU扩展到几十万的挑战是，扩展起来和扩展出去的连接是铜线，我们得尽可能用铜线，你知道，大概一两米，这是非常好的连接性，很低很高的可靠性，很好地节能，很低的成本，所以我们尽可能在扩展起来时用铜线，但在扩展出去时，数据中心现在有体育场那么大，我们需要一些长距离的东西，这就是硅光子（Silicon Photonics）进来的地方。硅光子的挑战是，收发器从电到光子要消耗很多能量，要通过一个CIS，经过一个收发器，一个CERIS几个CIS，所以这些这些这些，我是一个人吗？有人吗？我的网络团队怎么了？我能把这个拿上来吗？是的，是的，把它拿上来，这样我能给人们展示我在说什么。

好的，首先我们宣布NVIDIA的第一个共封装（Co-Packaged）选择硅光子系统，这是世界上第一个每秒1.6太比特的CPO，我们要用的是一个叫微环谐振调制器（Micro Ring Resonator Modulator）的技术，它完全是用我们在台积电（TSMC）合作很久的这个不可思议的工艺技术建造的，我们跟一个巨大的技术提供商生态系统合作，发明了我要展示给你们的东西，这真的是疯狂的技术，太疯狂太疯狂的技术。我们决定投资MRM的原因是，这样我们能用MRM的惊人密度和功率准备自己，比用于电信的Mach-Zehnder（莫桑德）更好密度和功率，当你从一个数据中心到另一个数据中心，在电信里，甚至在我们用的收发器里，我们用Mach-Zehnder，因为密度要求不高，直到现在。所以如果你看看这些收发器，这是一个收发器的例子。

没你想的那么简单，这些是乱七八糟的小东西。好的，这个在这儿，这个是30瓦，记住这个，30瓦，如果你大批量购买，它是1000美元，这边是插头，这边是电的，这边是光的。光纤通过黄色的进来，你插进交换机，这边是电的，有收发器、激光器，是个叫Mach-Zehnder的技术，太不可思议了。所以我们用这个从GPU到交换机，到下一个交换机，然后下一个交换机，到GPU，比如这样。所以这些，如果我们有10万个GPU，我们会有10万个这边，然后另外10万个，连接交换机到交换机，然后另一边分配到另一个NIC，如果我们有25万个，我们加另一层交换机，所以每个GPU，每个25万个GPU，每个GPU会有6个收发器，每个GPU会有6个这样的插头，这6个插头会加每GPU180瓦，也就是每GPU6000美元。

所以问题是，我们现在怎么扩展到几百万个GPU？因为如果我们有一百万个GPU，乘以6，对吧，会是600万个收发器，乘以30瓦，180兆瓦的收发器，它们没做任何数学，只是移动信号。所以问题是，我们怎么负担得起，正如我之前提到的，能源是我们最重要的商品，一切最终跟能源有关，所以这会限制我们的收入，我们的客户收入，减去180兆瓦的电力。所以这是我们做的惊人事情，我们发明了世界上第一个MRM微镜。

这就是它的样子，有个小的波导，你看到那个，波导连到一个环，那个环谐振，控制波导的反射率，当它绕过去，限制和调制能量，通过的光量，通过吸收关掉或通过打开，把光，这个直接连续的激光束，变成1和0，这就是奇迹。这个技术，然后光子IC跟电子IC堆叠，然后跟一堆微透镜堆叠，然后跟这个叫光纤阵列的东西堆叠，这些东西都用台积电的这个技术制造，用3D 技术封装，跟所有这些技术提供商合作，我刚给你们看的那些名字一大堆，把它变成这个不可思议的机器。所以让我们看看它的视频。

这是个技术奇迹，它们变成这些交换机是Infiniband交换机，硅片工作得太棒了，今年下半年我们会出货这个硅光子交换机，今年下半年，下一年下半年会出货Spectrum X，因为MRM选择，因为过去5年我们冒的不可思议的技术风险，申请了几百个专利，我们授权给我们的合作伙伴，这样我们都能造，现在我们能把硅光子跟共封装选择放进我们的交换机，没有收发器，光纤直接进我们的交换机，基数（Radix）是512，这是512个端口，这用其他方式根本不可能。所以这现在让我们能扩展到几十万GPU，几百万GPU，好处是，你想象这个，在数据中心我们能省几十兆瓦，几十兆瓦，比如说10兆瓦，哦，说60兆瓦，60瓦，6兆瓦是10个Rubin Ultra机架，对吧，60那是很多，100个Rubin Ultra机架的电力，我们现在能部署到Rubin。好的，这是我们的路线图，每年一次，每年一次，每两年一个新产品线，每年X倍增长，我们试着分块冒硅片风险、网络风险或系统机箱风险，这样我们能推动行业前进，追求这些不可思议的技术，Vera Rubin，我很感激她的外孙在这儿，这是我们表彰她、纪念她不可思议工作的机会。我们下一代会以费曼（Feynman）命名。

企业计算

好了，NVIDIA的路线图，让我跟你们谈谈企业计算，这真的很重要，为了我们把AI带到世界上的企业，首先我们得去NVIDIA的另一部分，GAN Splats的美妙之处。为了把AI带到企业，退一步提醒你们自己，记住，AI和机器学习重塑了整个计算堆栈，处理器不同了，操作系统不同了，上面的应用不同了，应用的方式不同了，编排的方式不同了，运行它们的方式不同了。让我给你们一个例子，你访问数据的方式会跟过去根本不同，过去是精确检索你想要的数据，你读它试着理解，未来我们会像用Perplexity一样，不那样检索，我只问Perplexity我想知道什么，问它一个问题，它会告诉你答案。未来企业IT也是这样工作的，我们会有AI代理，作为我们数字劳动力的一部分，世界上有10亿知识工作者，未来可能有100亿数字工作者跟我们并肩工作，未来100%的软件工程师，全球有3000万，100%会是AI辅助的，我很确定，到今年底，NVIDIA 100%的软件工程师会是AI辅助的。所以AI代理会无处不在，它们怎么运行，企业运行什么，我们怎么运行，会根本不同，所以我们需要一个新的计算机系列——DGX 工作站。

这就是PC该有的样子，20拍字节每秒浮点运算（Petaflops），太不可思议了，72个CPU核心，芯片到芯片接口，HBM内存，以防万一还有几个PCI Express插槽给你的GeForce。所以这是DJX Station，DGX Spark和DGX Station，将由所有OEM提供，HP、Dell、Lenovo、Asus，将为全球的数据科学家和研究人员制造，这是AI时代的计算机，计算机就该这样，未来计算机会这样运行。

我们为企业有一整套产品，从小到工作站的、服务器的，到超级计算机的，这些将由我们所有合作伙伴提供。

我们还将革命化计算堆栈的其余部分，记住计算有三大支柱，有计算，有网络，我之前提到的Spectrum X，去世界上的企业，一个AI网络。

第三个是存储，存储得完全重塑，不是基于检索的存储系统，将是基于语义的检索系统，基于语义的存储系统。所以存储系统得在后台持续嵌入信息，把原始数据嵌入知识，然后当你访问时，你不是检索它，你跟它说话，你问它问题，给它问题。我希望我们有个视频的例子，但Box的Aaron甚至跟我们合作把它放云端，基本上是个超级智能存储系统，未来每个企业都会有这样的东西，那是未来的企业存储，跟整个存储行业合作，太棒的合作伙伴，DD、Dell、HP Enterprise、Hitachi、IBM、NetApp、Neonics、Pure Storage、Vast、W，基本上全球存储行业将首次提供这个堆栈，你的存储系统将用GPU加速。

所以你们可以看到，我们在革命化世界企业的过程中，我们今天还宣布这个不可思议的模型，每个人都能运行，所以我之前给你们展示了DeepSeek-R1，一个推理模型，跟LLaMA 3对比，一个非推理模型，显然R1聪明多了，但我们能做得更好，能让它为任何公司准备好企业使用，现在完全开源，是我们叫NIMs的系统的一部分，你可以下载它，你可以在任何地方运行，可以在DGX Spark上跑，可以在DGX Station上跑，可以在OEM造的任何服务器上跑，可以在云端跑，可以整合进你的任何代理AI框架，我们跟全球公司合作，我会快速翻过这些，仔细看，我有些很棒的合作伙伴在观众席，我想表彰，Accenture，Julie Sweet和她的团队在建他们的AI工厂和AI框架，AMDOS，全球最大的电信软件公司，AT&T，John Stankey和他的团队在建AT&T AI系统，代理系统，Larry Fink和BlackRock团队在建他们的，Annie Roode，未来我们不只雇ASIC设计师，我们会雇一大堆数字ASIC设计师，来自Anude，Cadence会帮我们设计芯片，所以Cadence在建他们的AI框架，你们可以看到，每一个里都有NVIDIA模型，NVIDIA NIMs和Vidia库贯穿其中，所以你可以在本地运行，在云端运行，任何云端都可以。Capital One，最先进的金融服务公司之一，他们使用的技术全是NVIDIA。Deere，Jason和他的团队；Enany，Janet和他的团队；NASDAQ，Adena和她的团队，他们都将NVIDIA技术整合进他们的AI框架。然后是SAP，Christian和他的团队；ServiceNow，Bill McDermott和他的团队。挺不错的吧？。

机器人

我们来谈谈机器人，机器人时代已经到来。

机器人有能与物理世界互动的好处，能做数字信息做不到的事情。我们很清楚，世界正严重缺乏人力劳动，到这个十年末，世界将至少短缺5000万工人。我们很乐意每年付给他们每人5万美元请他们来工作，而未来可能会得付给机器人每年5万美元来工作，所以这会是一个非常非常大的行业。有各种机器人系统，你的基础设施会变成机器人的，数十亿摄像头分布在仓库和工厂里，全球有1000万到2000万家工厂。我之前提到，每辆车已经是一个机器人，现在我们在打造通用机器人，让我给你们展示我们是怎么做的。

一切移动的东西都将变得自主，物理AI将体现在各行各业的各种机器人中。NVIDIA打造的三台计算机启用了一个机器人AI的持续循环：仿真、训练、测试和现实世界的经验。训练机器人需要海量数据，互联网规模的数据提供了常识和推理能力，但机器人需要行动和控制数据，这些数据的捕捉成本很高。利用基于NVIDIA Omniverse和Cosmos构建的蓝图，开发者能够生成大量多样的合成数据来训练机器人策略。首先，在Omniverse中，开发者根据不同领域、机器人和任务，聚合现实世界的传感器数据或演示数据，然后通过Omniverse调适Cosmos，将原始捕捉的数据放大为大量逼真且多样化的数据。开发者随后使用Isaac Lab训练机器人策略，利用增强后的数据集，让机器人通过模仿学习克隆行为，或者通过强化学习试错掌握新技能，并获得AI反馈。在实验室里的练习与现实世界不同，新的策略需要在实地测试。开发者使用Omniverse进行软件和硬件在环测试，在数字孪生中仿真策略，结合现实世界的环境动态，运用领域随机化、物理反馈和高保真传感器仿真。现实世界的操作需要多个机器人协同工作，Mega——一个Omniverse蓝图——让开发者能够大规模测试并训练策略舰队。这里，Foxconn在虚拟的NVIDIA Blackwell生产设施中竞赛异构机器人。当机器人“大脑”执行任务时，它们通过传感器仿真感知行动结果，然后规划下一步行动。Mega让开发者测试众多机器人策略，使机器人作为一个系统协作运行，无论是空间推理、导航、移动性还是灵巧性，惊艳的东西就在仿真中诞生。今天我们介绍NVIDIA Isaac Groot N1，Groot N1是人形机器人的通用基础模型，建立在合成数据生成和仿真学习的基础上。Groot N1拥有双系统架构，快慢兼备，受人类认知处理原则启发：慢思考系统让机器人感知和推理环境及指令，规划正确的行动；快思考系统将计划转化为精确且连续的机器人动作。Groot N1的泛化能力让机器人能够轻松操作常见物体，协作执行多步序列。通过这个合成数据生成和机器人学习的完整管道，人形机器人开发者可以在全球多种环境、多种任务、多种形态下训练Groot N1。各行各业的开发者利用NVIDIA的三台计算机，打造下一代具身AI。

物理AI和机器人技术发展得太快了，大家要关注这个领域，这很可能是最大的行业。在其核心，我们面临着我之前提到的同样挑战，我们关注三个问题，相当系统化：

一是如何解决数据问题，如何创造训练AI所需的数据；

二是采用什么模型架构；

三是什么扩展法则（Scaling Law），我们如何扩展数据、计算或两者，让AI变得越来越聪明，我们如何扩展。这些根本性问题在机器人领域同样存在。在机器人领域，我们创建了一个叫Omniverse的系统，这是我们的物理AI操作系统，你们听我讲Omniverse很久了。今天我们为它添加了两项技术，我要给你们展示两件事。第一件是让我们利用生成能力扩展AI，生成模型能够理解物理世界，我们称之为Cosmos。

通过Omniverse调适Cosmos，Cosmos可以生成无限多的环境，让我们创造有根有据、我们可控、但系统上无限的数据。所以你们看到Omniverse时，我们用糖果色给你们展示了一个例子，我们完美控制场景中的机器人，而Cosmos能创造所有这些虚拟环境。

第二件事，正如我们之前所说，今天语言模型惊人扩展能力之一是强化学习，可验证的奖励。问题在于，机器人中的可验证奖励是什么？我们很清楚，那就是物理定律，可验证的物理奖励。所以我们需要一个不可思议的物理引擎。大多数物理引擎设计有各种用途，可能是为了大型机械，或者为虚拟世界、视频游戏设计，但我们需要一个专为非常细粒度的刚体和软体设计的物理引擎，为训练触觉反馈、精细运动技能和执行器控制而设计，需要GPU加速，让这些虚拟世界能在超线性时间、超实时中运行，超快地训练这些AI模型，并且需要无缝整合进全球机器人学家使用的框架MuJoCo。

所以今天我们宣布一件特别的事情，这是DeepMind、Disney Research和NVIDIA三家公司的合作，我们称之为Newton，让我们来看看Newton。

📷

告诉我那是不是很不可思议？嘿，Blue，你好吗？你喜欢你的新物理引擎吗？喜欢吧？我打赌我知道，触觉反馈，刚体和软体仿真，超实时，你能想象吗？你刚看到的是完全实时的仿真，这就是我们未来训练机器人的方式。顺便说一句，Blue里面有两台NVIDIA计算机，看你多聪明，是的，你很聪明。

好的，嘿，Blue，听着，我们带他们回家吧，结束这个主题演讲，午饭时间到了，你准备好了吗？准备好了，我们结束吧，我们还有一个宣布。就站在这儿，站在这儿，很好。（与机器人互动）

总结

好了，我们还有一个惊人消息，我告诉过你们我们的机器人进展巨大，今天我们宣布Groot N1开源了。我要感谢你们所有人来参加，让我们总结一下。感谢你们参加GTC，我们谈了几件事：

一是Blackwell全面投产，增长不可思议，客户需求不可思议，原因很充分，因为AI正处在一个拐点，我们在AI中需要做的计算量由于推理AI、训练推理AI系统及代理系统而大幅增加。

第二，Blackwell NVLink 72搭配Dynamo是Hopper 40倍的AI工厂性能，推理将是下一个十年最重要的工作负载之一，当我们扩展AI时。

第三，我们有每年的路线图节奏，为你们铺好了路，这样你们可以规划AI基础设施。

然后我们有三种AI基础设施：我们在构建云端的AI基础设施，企业的AI基础设施，以及机器人的AI基础设施。

谢谢大家，感谢所有让这个视频可能的合作伙伴，感谢所有让这个视频可能的人，祝你们GTC愉快，谢谢。嘿，Blue，我们回家吧，好样的，小家伙。谢谢，我也爱你们，谢谢。

20250312 艦長20250312

Overview
1. 2025年的看法比較保守，因爲下修循環；扣除NVDA的整體費半獲利預估從2024年中以來就持續往下，代表除了AI以外的需求都不好，2025年加上通膨的因素會讓整體的壓力更大；即便是NVDA上修的機會不高，反而下修的機會比較大。
2. 整體庫存不會是大問題，目前還在平均水準；OSAT沒有什麼庫存，網通的庫存的水位2024降到比較低，有看到一些通訊標案開始回溫，可能還有俄烏戰爭結束後歐洲標案可能會挹注；汽車庫存水位也不高，如果戰爭結束也有機會回溫；Server的Storage庫存有上修因應CSP Capex上修；PC也回到比較平均的水位。
3. 終端銷售仍然是比較疲軟，美國可能受到關稅衝擊，中國則是不溫不火，即使補貼政策下還是有點後繼無力，一月上來之後最近又開始slow。
4. 評價來看，雖然股價經歷了跌幅，但評價仍然處於高位；整體費半P/E處在28-29x水準（+1STD）。
5. ML牛熊指標介於中間，LO的水位在歷史高位，HF的水位則比較低，但是怕景氣進入衰退LO的壓力比較大。

Gen AI的發展
1. 2024年整體生成式AI的營收約$13.8bn (vs. $2.3bn in 2023) ，但是相較硬體超過100bn的投資仍然是有落差。營收貢獻最大還是foundation model，其中以Open AI還是貢獻最大；DeepSeek出來後要觀察成長幅度是否會受到影響。
2. AI Application來看，最大還是code generation，對企業獲利的改善是最大助益，軟體工程師的招聘開始放緩。垂直市場也有相關的應用，如醫療/保險等金融業。
3. AI Agent大部分透過RAG，想辦法把公司內部沒有結構化的資料想辦法結構化，並在local端訓練，例如金融業的Research Automation，比如自動抓早上的新聞或研究報告，並且自動推出結論。
4. Manus就是一個通用的AGI，目前還是在雲端使用，目前對數字比較苦手，但是對語言文義的理解比較好；主要的功能爲1) Planning 2) Tool Usage 找程式來處理問題 3) Memory。

DeepSeek的影響
1. Deepseek的影響，scaling law在pre-training這段在2024下半年就開始減緩，因爲網路的資料開始用完了，另外對於更大型的語言模型的討論度也降低了，GPT-5號稱做完了但遲遲沒有publish；Reasoning或post-train 的算力需求被認爲是能夠接棒。
2. Deepseek本身花多少錢不是重點，重點是其推論成本的降低，因爲使用了便宜的硬體做出效果相近的模型。
3. Nvidia的競爭優勢就是多GPU集群串聯，但DS帶來的改變就是記憶體與算力的需求下降；比喻就是以前只有F1或是租F1賽車，但現在發現Toyota可以用，雖然慢一點。
4. 結論就是系統的需求顯著的下滑，DS-R1在FP8只要40GB的記憶體就可以跑得動雖然很跑得慢，一般4張顯卡就足以運算語言模型。租賃的角度，原本成本來看一個月可能30k美金，現在只要買便宜的卡只要幾千美金，甚至有些企業原本受限H卡供給只能選擇租賃，現在開始直接買VGA等級的卡；Deepseek的推出使大模型公司的獲利變得非常困難
5. 硬體上的規格下放對於中國這種算力受限的地方有利，預期中國競爭者有一些機會；華爲昇騰看起來會是比較popular的方案，大概是Nvidia的60%-70%，但是夠用了。雖然現在的capex還是集中在H20，但未來可能轉向。
6. 杰倫斯悖論沒有提到的是事情是，未來還會使用原本的東西嗎，未來可能會轉爲Edge端，推論的需求上升，但不見得是原本的AI Accelerator需求維持。
7. AMZN的H100租賃價格在日本/澳洲的上升，這兩個地方服務亞太客人，本來就是算力不足的地點。
8. CSP的CapEx會不會下滑不好說，有可能轉向買ASIC或VGA，但是大語言模型公司的報價已經受到影響了。
9. 2026的CapEx還會不會增加有蠻大的不確定性，2024年底CSP的FCF都已經轉爲負的，除非這些LLM能夠快速變現，不然以這種投資速度手上現金不夠；目前共識是2026年YoY+10%，即便能夠達成，成長率仍然趨緩。
10. 中國的CSP CapEx可能稍微好一點，連續衰退了好幾年，到DeepSeek出來之後CapEx轉好，但是因爲只佔全球資料中心資本支出20%，對整體影響不大。
11. 目前CoWoS還是在修double booking，demand還沒有看到slowdown；2023年開始台積電產能不夠，2024年180K相較2023成長3x，原本預期2025年也要較2024成長3x，所以先book了3x的產能。
12. 2025/1就有第一次下修，對外是宣稱CoWoS-S轉CoWoS-L，但大家沒有注意的是AMKR的200K其實就砍單了；最近又下修了一段，以現在的產能估起來還是能做到2500億，艦長認爲還會再砍一次，才會match NVDA的DC的營收consensus。
13. 原本群創AP8順利量慘可以擴產到90kpwm，但目前看起來CoWoS的產能不會再擴產了，下一個重點擴廠的可能是CoPoS。

network · 发表于 2025-3-17 06:07:50

Morgan Stanley’s NVIDIA GTC Preview:

NVIDIA will hold its annual GTC next week, where CEO Jensen Huang will deliver a keynote speech on March 18. This report summarizes the expectations and impacts on the Asian technology supply chain.

Blackwell Ultra Expected to Launch in Q2 2025

Blackwell Ultra is likely to be the key product NVIDIA unveils at GTC 2025, serving as the successor to Blackwell (B200).

Our research indicates that Blackwell Ultra (B300 chip on TSMC N4P) includes a logic chip similar to the B200 chip, with:

• Higher HBM (High Bandwidth Memory) capacity (288GB, 4x/8x HBM3e 12hi)
• Higher power consumption (TDP: 1.4kW)
We estimate that Blackwell Ultra’s FP4 performance will be 50% higher than B200, with initial shipments starting in Q3 2025.
Potential Key Specification Changes for Blackwell Ultra

1. Adoption of GPU socket architecture

2. Return to an OAM+UBB-based compute board: Four GPU modules and two Grace CPUs on a single board (Codename: Cordelia)

3. Increased power consumption
4. Possible adoption of BBU (Battery Backup Unit) and supercapacitors
5. Changes in liquid cooling design, particularly for UQD and cold plates
6. Adoption of ConnectX 8800G network cards
7. Optional integration of HMC and DC-SCM
Key Beneficiaries of These Specification Changes
• Power & BBU/Supercapacitor Systems: Delta Electronics
• Battery Pack Suppliers: AES

• Liquid Cooling & Cold Plate Providers: AVC, Auras
• UQD Supplier: Fositek
• OAM/UBB Server Providers: Wistron
• HBM (High Bandwidth Memory) Suppliers: SK Hynix (HBM capacity increase of 50%)
• Network & Socket Suppliers: FIT, Lotes
Vera Rubin Platform Preview: Hints on Rubin Ultra?
While Rubin GPU (TSMC N3P process) is expected to launch only in 2026, based on the pace of adoption seen at last year’s GTC, NVIDIA may reveal some details on the Rubin platform.

According to our research, the Rubin GPU will likely feature a dual-logic chip design (similar to Blackwell), consisting of:

• Two TSMC N3 chips

• Eight HBM4 cubes, with total HBM capacity of 384GB (a 33% increase over Blackwell Ultra)

We anticipate that power consumption will increase further to ~1.8kW TDP, and the Vera ARM CPU will migrate to TSMC’s N3 process, likely adopting a 2.5D packaging structure.

Supply chain analysis suggests that Rubin’s timeline could be accelerated, with mass production starting in late 2025 or early 2026, but meaningful shipments will likely begin no earlier than Q2 2026.
The Rubin platform is expected to feature a 1.6T network with dual ConnectX9 network cards.
Although system design details remain unclear, we believe that NVL144 and potentially NVL288 rack structures could be considered for the Rubin platform.

Increased GPU density per rack and rising power consumption trends are positive for power and cooling solution providers.

Additionally, greater system design complexity is favorable for ODM suppliers.

However, we do not expect too many details on Rubin Ultra at GTC 2025—our early research suggests that its silicon will be more complex.

Impact of Increased GPU Density Per Rack: NVL144 & NVL288

Our research suggests that NVIDIA may increase GPU density per rack,
from current NVL36/72 to NVL144/288, improving cost efficiency.

This change may require deploying independent power racks (instead of power supplies integrated within NVL72 racks).

Each rack will likely support 300,000W to 700,000W,

with higher voltage requirements (400V+) in server racks to reduce power losses.

Potential Key Beneficiaries
• BBU/Supercapacitor & Voltage Regulator Module Suppliers: Delta Electronics

• Battery Pack Suppliers: AES
NVIDIA’s CPO (Co-Packaged Optics) Roadmap & Beneficiaries
Supply chain research suggests that NVIDIA may outline its CPO (Co-Packaged Optics) roadmap at GTC.

CPO adoption is expected to begin in switches, as an optional top-tier rack datacenter switch solution for Infiniband (Quantum) and Ethernet (Spectrum) within the Blackwell Ultra platform.
CPO is crucial for improving bandwidth and latency while reducing power consumption.
However, immediate adoption of CPO-based switches remains relatively low.

The key turning point for CPO adoption will depend on its integration into GPUs,

which may not happen until Rubin Ultra in 2027 at the earliest.

Key Technical Challenges for CPO Adoption in AI GPUs

• Thermal Management: Optical engines generate significant heat

• Reliability Issues
• IC Substrate Warping: Due to larger form factors required
As CPO switch substrates increase in size by 20-30%,
this presents a key opportunity for substrate suppliers.

For CPO-on-Interposer GPUs, substrate designs could be 2-3x larger than current GPUs,
driving demand for glass-core substrates and benefiting suppliers like UMC.
Liquid Cooling Adoption Likely to Increase with GB300
We estimate that cold plate module costs for GB300 compute trays will be at least 10% higher than for GB200,

due to increased quick-disconnect (QD) connectors and internal piping.
While details on the Vera Rubin platform remain unknown,
we speculate that higher TDP will continue to drive liquid cooling demand.
Key Beneficiaries

• Cold Plate Providers: AVC

• UQD Suppliers: Fositek (increase in QD shipments for GB300 vs. GB200)

Increased Value Addition for Server ODMs in Blackwell Ultra & Rubin
With more complex server designs and higher internal component ratios (e.g., liquid cooling components),

server ODMs may create greater value in the Blackwell Ultra and Rubin GPU generations.
At the component level, Wistron has gained wallet share in GB300 OAM/UBB,

but competition and slower PCB growth relative to GPUs remain concerns.
At the system level, we believe that Quanta and Foxconn will remain key players,
given their strong capital positions and U.S. manufacturing footprints.

If GB300 shipments reach a critical mass, customers may introduce a second ODM source.

Physical AI & Humanoid Robotics May Gain More Attention

NVIDIA has showcased Physical AI progress at past GTC events,
but given the acceleration of humanoid robotics and Physical AI advancements,

we believe that market attention in this field will be significantly higher.
• Tesla Optimus, Figure AI, Unitree, and other humanoid robotics projects

• NVIDIA has already announced Cosmos (World AI Foundation Model Platform) and Humanoid Robotics Development Platform
Can GTC 2025 Revive AI Market Sentiment?

Concerns over AI investments persist, including:

1. AI datacenter investment peaking in 2025

2. GPU vs. ASIC competition intensifying

3. CoWoS (Advanced Packaging) order reductions
We believe that GTC 2025 should help revive positive sentiment in AI stocks
while improving the supply chain situation for Blackwell systems.
While concerns over AI datacenter CapEx growth in 2026 may take time to resolve,
we believe continued U.S. CSP CapEx growth, increased Chinese CSP investments, and rising enterprise AI adoption will sustain healthy AI growth into 2026.

$NVDA
由
翻译自英语
摩根士丹利的 NVIDIA GTC 预览：

NVIDIA将于下周举办年度GTC大会，首席执行官黄仁勋将于3月18日发表主题演讲。本报告总结了对亚洲技术供应链的预期和影响。

Blackwell Ultra 预计将于 2025 年第二季度推出

Blackwell Ultra很可能是NVIDIA在GTC 2025上发布的重点产品，作为Blackwell（B200）的继任者。

我们的研究表明，Blackwell Ultra（台积电 N4P 上的 B300 芯片）包含一个与 B200 芯片类似的逻辑芯片，其特点是：

• 更高的 HBM（高带宽内存）容量（288GB、4x /8x HBM3e 12hi）
• 功耗更高（TDP：1.4kW）
我们预计 Blackwell Ultra 的 FP4 性能将比 B200 高 50%，初始发货时间为 2025 年第三季度。
Blackwell Ultra 的潜在关键规格变化

1.采用GPU插槽架构

2. 回归基于OAM+UBB的计算板：单板上4个GPU模块、2个Grace CPU（代号：Cordelia）

3. 耗电量增加
4.可能采用BBU（电池备用单元）和超级电容器
5.液体冷却设计的变化，特别是UQD和冷板
6.采用ConnectX 8800G网卡
7. 可选集成HMC和DC-SCM
这些规范变化的主要受益者
• 电源和 BBU/超级电容器系统：台达电子
• 电池组供应商：AES

• 液体冷却和冷板供应商：AVC、Auras
• UQD 供应商：Fositek
• OAM/UBB 服务器提供商：纬创
• HBM（高带宽存储器）供应商：SK Hynix（HBM 产能增加 50 %)
• 网络和插座供应商：FIT、Lotes
Vera Rubin 平台预览：有关 Rubin Ultra 的提示？
虽然 Rubin GPU（台积电 N3P 工艺）预计要到 2026 年才会推出，但根据去年 GTC 上的采用速度，NVIDIA 可能会透露有关 Rubin 平台的一些细节。

根据我们的研究，Rubin GPU 可能采用双逻辑芯片设计（类似于 Blackwell），包括：

• 两颗台积电 N3 芯片

• 八个 HBM4 立方体，总 HBM 容量为 384GB（比 Blackwell Ultra 增加 33%）

我们预计功耗将进一步增加至约 1.8kW TDP，并且 Vera ARM CPU 将迁移到台积电的 N3 工艺，可能采用 2.5D 封装结构。

供应链分析表明，鲁宾的时间表可能会加速，大规模生产将于 2025 年底或 2026 年初开始，但有意义的出货可能不会早于 2026 年第二季度开始。
Rubin平台预计将配备1.6T网络和双ConnectX9网卡。
虽然系统设计细节仍不清楚，但我们相信可以为 Rubin 平台考虑采用 NVL144 和潜在的 NVL288 机架结构。

每机架 GPU 密度的增加和功耗的上升趋势对电源和冷却解决方案提供商来说是有利的。

此外，更高的系统设计复杂性对ODM供应商有利。

然而，我们并不期待在 GTC 2025 上公布有关 Rubin Ultra 的太多细节——我们早期的研究表明它的硅将更加复杂。

每机架 GPU 密度增加的影响：NVL144 和 NVL288

我们的研究表明，NVIDIA 可能会增加每个机架的 GPU 密度，
由目前的NVL36/72升级为NVL144/288，提高成本效率。

这种变化可能需要部署独立的电源机架（而不是集成在 NVL72 机架内的电源）。

每个机架可能支持 30 万到 70 万瓦的电力，

服务器机架的电压要求更高（400V+），以减少功率损耗。

潜在的主要受益者
• BBU/超级电容器和稳压器模块供应商：台达电子

• 电池组供应商：AES
NVIDIA 的 CPO（共封装光学器件）路线图和受益者
供应链研究表明，NVIDIA 可能会在 GTC 上概述其 CPO（共封装光学器件）路线图。

CPO 的采用预计将首先在交换机中实施，作为 Blackwell Ultra 平台中 Infiniband（Quantum）和以太网（Spectrum）的可选顶层机架数据中心交换机解决方案。
CPO 对于提高带宽和延迟并降低功耗至关重要。
然而，基于 CPO 的交换机的立即采用率仍然相对较低。

CPO 采用的关键转折点将取决于其与 GPU 的集成，

这最早可能要到 2027 年的 Rubin Ultra 才会实现。

CPO 在 AI GPU 中应用的关键技术挑战

• 热管理：光学引擎会产生大量热量

• 可靠性问题
• IC 基板翘曲：由于需要更大的尺寸
随着CPO开关基板尺寸增加20-30％，
这对基板供应商来说是一个重要的机会。

对于 CPO-on-Interposer GPU，基板设计可能比当前的 GPU 大 2-3 倍，
推动了对玻璃芯基板的需求，并使 UMC 等供应商受益。
随着 GB300 的推出，液体冷却的采用率可能会增加
我们估计 GB300 计算托盘的冷板模块成本将比 GB200 高至少 10%，

由于快速断开(QD)连接器和内部管道的增加。
虽然 Vera Rubin 平台的细节仍不清楚，
我们推测更高的 TDP 将继续推动液体冷却需求。
主要受益者

• 冷板供应商：AVC

• UQD 供应商：Fositek（GB300 的 QD 出货量相对于 GB200 有所增加）

为 Blackwell Ultra 和 Rubin 的服务器 ODM 增加附加值
随着服务器设计越来越复杂，内部组件比例越来越高（例如液体冷却组件），

服务器 ODM 可能会在 Blackwell Ultra 和 Rubin GPU 一代中创造更大的价值。
在组件层面，纬创在 GB300 OAM/UBB 领域获得了一定份额，

但竞争以及相对于 GPU 的 PCB 增长放缓仍然令人担忧。
在系统层面，我们认为广达和富士康仍将是关键参与者，
鉴于其强大的资本实力和美国制造业足迹。

如果 GB300 的出货量达到临界量，客户可能会引入第二个 ODM 源。

物理人工智能和人形机器人可能会获得更多关注

NVIDIA 在过去的 GTC 活动中展示了物理 AI 的进展，
但考虑到人形机器人和物理人工智能的加速发展，

我们相信，市场对该领域的关注度将会明显提高。
• Tesla Optimus、Figure AI、Unitree 和其他人形机器人项目

• NVIDIA 已经宣布推出 Cosmos（世界人工智能基金会模型平台）和人形机器人开发平台
GTC 2025能否重振人工智能市场情绪？

人们对人工智能投资的担忧仍然存在，包括：

1. 人工智能数据中心投资将在 2025 年达到顶峰

2. GPU 与 ASIC 的竞争愈演愈烈

3. CoWoS（先进封装）订单减少
我们相信 GTC 2025 应该有助于重振人工智能股票的积极情绪
同时改善Blackwell系统的供应链状况。
虽然对 2026 年 AI 数据中心资本支出增长的担忧可能需要一些时间才能解决，但
我们相信，美国 CSP 资本支出的持续增长、中国 CSP 投资的增加以及企业 AI 采用的不断增加将维持 AI 的健康增长至 2026 年。

这是J.P.摩根私人银行部门写的一段话。
我的体会是，美股的特点是做短投机的，做长期投资的，都能各自找到合适的活法，还算公平开放。
这种求财方式最舒服，不用求人走后门，靠认知、智力和跟自己较劲挣钱。

“股市的有意思之处在于：
它无法被起诉、逮捕或驱逐；
无法被恐吓、威胁或凌霸；
没有性别，国别或宗教；
无法被解雇、休假或抽资；
没有选举；无法没收、国有化或入侵。
它是终极的投票机，反映收益增长前景、稳定性、流动性、通胀、税收和可预测的法治环境。”

network · 发表于 2025-3-17 06:09:37

富豪纷纷涌入美国股票：

上周富裕和高净值投资者流入美国股票的资金占美国银行管理资产（AUM）的比例达到 2%，创历史第三高。

这是继前一周之后的第四大流出量，约占 AUM 的 1%。

如此大的购买量激增是两年半以来从未见过的，当时该集团的资金流入量在 2022 年 9 月达到 AUM 的 6%，接近熊市的底部。

最近的流入量也略低于 2021 年 1 月的流入量。

由于标准普尔 500 指数创下 2020 年以来最快的 3 周跌幅，高净值个人正在向其投资组合中增加股票。

富有的投资者正在部署现金。
富豪纷纷涌入美国股票：上周富裕和高净值投资者流入美国股票的资金占美国银行管理资产（AUM）的比例达到 2%，创历史第三高。这是继前一周之后的第四大流出量，约占 AUM 的 1%。如此大的购买量激增是两年半以来从未见过的，当时该集团的资金流入量在 2022 年 9 月达到 AUM 的 6%，接近熊市的底部。最近的流入量也略低于 2021 年 1 月的流入量。由于标准普尔 500 指数创下 2020 年以来最快的 3 周跌幅，高净值个人正在向其投资组合中增加股票。富有的投资者正在部署现金。

翻译得准确吗？请提供反馈，以便我们加以改进：

下午10:23 · 2025年3月16日
·
28.5万
查看

network · 发表于 2025-3-17 06:12:40

美银说：“不会进入熊市！”

原因在于「buy the dip」
逢低买入的资金太多了
资金创下历史第三！

你怎么看？

network · 发表于 2025-3-18 17:29:32

250318_双周人工智能专题：NVIDIA 的 CPO 切换 - 野村证券

（1）Semi Vision 近日报道称，NVDA 很可能在 GTC 2025 上推出其首款 CPO 交换机。

（2）我们预计，CPO 交换机将在未来几年受到越来越多的关注，因为它在降低功耗和提高 AI 数据中心的成本效率方面发挥着至关重要的作用。 *基于 Meta 的 24k-GPU AI 集群，计算能力（AI GPU 和服务器）在 2024 年占资本支出的 68.2%，而网络/互连占 23.9%。

（3）虽然NVIDIA、博通、台积电等全球大厂在CPO技术蓝图上都积极布局，但由于（1）价格依然高企，以及（2）部署问题，2025年不太可能出现大幅的高增长。

（4）全球网络交换机市场因法学硕士培训和数据中心扩展而呈现结构性增长，800G等高速交换机的出货量预计将推动未来增长。

（5）关于CPO在AI网络市场的渗透率，LightCounting预计1.6T光互连初期出货量较小，到2028-2029年左右，3.2T将占据市场主导地位。

（6）我们预计，2025年CPO交换机在AI数据中心交换机市场的收入渗透率将达到2%，2026年将达到22%，2030年将达到32%。

（7）2023年，博通推出了51.2T以太网交换机CPO产品Tomahawk 5 Bailly。

（8）2024年12月，台积电与博通合作，成功完成CPO关键技术之一MRM（微环调制器）的试产（3nm）。

（9）与此同时，Semi Vision报道称，NVIDIA预计将在GTC 2025上推出其首款基于InfiniBand的CPO交换机Quantum 3400 X800，并可能于2025年7月开始量产。

（10）另外还补充称，基于以太网的CPO交换机Spectrum 5 X800预计将于2025年12月投入量产。

（11）CPO 交换机的关键组件包括：
1）激光器，
2）光学芯片，
3）光学引擎，
4）交换机ASIC，
5）光学元件（光纤阵列单元），
6）穿梭箱，以及
7) MPO (多光纤推入式）连接器等。

（12）我们重点关注FAU市场的领先公司，例如苏州工业园区（300394 CH EQUITY），我们认为这些公司将是长期CPO趋势的直接受益者。

（13）此外，特顺股份（300570 CH）被公认为CPO交换机穿梭箱和MPO连接器的主要供应商，紫光股份（000938 CH）以及光迅科技（002281 CH）正在积极参与CPO交换机解决方案——这些因素预计将受益于中国人工智能基础设施投资的扩大。

（14）此外，博通的CPO产品路线图如下：

（15）第一代 CPO：战斧 4“洪堡”
■ 2022年，博通联合腾讯推出第一代CPO系统战斧4“洪堡”。
■它与四个 3.2 Tbps 硅光子芯片 (SCIP) 光学引擎直接耦合（共同封装），每个光学引擎包含大约 250 个光学元件。
■它配备了32个发射(Tx)和32个接收（Rx）通道，每个通道支持100Gbps的信号速率。

（16）最新 CPO：战斧 5 “Bailly”
■ Tomahawk 5“Bailly”是一款 51.2T 以太网交换机 CPO 产品，与 Marvell 的 Teralynx 10（51.2T，支持 800G 64 个端口）属于同一领域。
■它集成了八个基于 6.4 Tbps 硅光子的光学引擎，并配备了 StrataXGS Tomahawk5 交换芯片。
■与传统插入式光收发器相比，其功耗降低了70%，硅面积效率提高了8倍。
■每个光学引擎包含大约 1,000 个光学元件（比 Humboldt 增加了 2 倍）。
■它将数百万个晶体管集成到与复杂逻辑芯片位于同一基板上的单个光学引擎中，从而最大限度地减少了对额外信号调节电路的需求。

$NVDA

network · 发表于 2025-3-19 18:31:58

NVIDIA GTC 2025 Memo
20250319

1. 三階段 AI：Generative AI、Agentic AI、Physical AI。如何實現每個階段，需要涉及三個基本事項：1. 解決數據問題 2. 解決訓練問題 3. 如何擴展模型。透過強化學習，能夠生成大量 Tokens，合成數據生成。
2. 前四大 CSP 廠 2024 年採購 130 萬顆 Hopper 晶片，2025 年採購 360 萬顆 Blackwell 晶片。全球數據中心資本支出增加，包括 CSP 和企業等，預計 2028 年數據中心建設支出將達一兆美元。
3. CUDA：超過 2600 萬開發者（遍及 200 多個國家）使用 CUDA。NVIDIA Blackwell 比第一代 CUDA GPU 快 5 萬倍。這樣的增長速度正在縮小模擬與即時數位孿生之間的差距。
4. 宣布與思科（Cisco）、T-Mobile 和 Service ODC 合作，在美國共同構建完整的無線電網路技術棧，並將人工智慧（AI）導入邊緣運算。全球每年在無線電網路和通信數據中心的資本投入高達 1000 億美元，未來這些投資將轉向加速運算並融入 AI，徹底改變通信方式。
5. 與 GM（通用汽車）合作，共同打造未來自駕車隊。NVIDIA 正利用 Omniverse 和 Cosmos 加速自動駕駛系統（AVS）的 AI 開發。Cosmos 的預測與推理能力支持端到端可訓練 AI 框架，並採用新開發方法，如模型蒸餾、閉環訓練及合成數據生成。
資料中心部分
6. Blackwell 正在全面量產。
7. Dynamo 開源推理軟體，解決無法提供足夠 Tokens 的問題。目前合作夥伴之一為 Perplexity。模擬顯示，在 1 兆瓦數據中心，Hopper 的 8 顆 GPU 透過 InfiniBand 互連，每位用戶可產生約 100 tokens/s，數據中心可達 10 萬 tokens/s，若完全批量處理（super batched），則可達 250 萬 tokens/s，但客戶需等待更久。而 Dynamo + Blackwell 的效能較 Hopper 提升 40 倍。
8. NVIDIA Omniverse AI 工廠數位孿生（Digital Twin）藍圖，讓 AI 工廠可在建設前進行設計與優化。NVIDIA 工程師運用該藍圖規劃 1GW AI 工廠，整合 DGX 超級運算系統、Vertiv 和 Schneider Electric 的電力與冷卻系統，透過 NVIDIA Air 模擬網路架構，最大化總擁有成本（TCO）和能源效率（PUE）。
9. Blackwell Ultra 搭載 NVLink 72，提供 1.5 倍 FLOPS（浮點運算能力）、1.5 倍記憶體、更大快取（cache）、2 倍網路頻寬，將於 2024 下半年推出。
10. Vera Rubin 擁有 144 NVLink 互連，全新 CPU 效能提升 2 倍，全新 GPU（CS-9 架構），全新網路技術 Smart NIC、NVLink 6，全新記憶體技術 HBM4，將於 2026 下半年推出。
11. Rubin Ultra 每個封裝內含 4 顆 GPU，擁有 576 NVLink 互連，單機架（Rack）功耗達 600kW，包含 250 萬個零件，計算能力提升 14 倍，達到 15 exaflops（百萬兆次浮點運算），記憶體頻寬提升至 4.6 PB/s（4600 TB/s），使用全新 NVLink 交換技術，支援 16 個站點，將於 2027 下半年推出。
12. 算力提升：若以 Hopper 為 1 倍計算力，Blackwell 提升 68 倍，Rubin 達 900 倍。以 TCO（總擁有成本）衡量，Hopper 為 1 倍，Blackwell 降至 0.13 倍，Rubin 降至 0.03 倍。
13. Rubin 之後的下一代產品將命名為 Feynman，2028 年登場。
14. 縱向擴展使用銅線，橫向擴展導入矽光技術。採用全球首款 1.6T 矽光子（SiPh）。
15. 矽光技術與 Co-packaged 技術結合，支援 Ethernet 為主的 Spectrum-X Integrated SiPh 於 2025 年下半年（2H25）推出，支援 InfiniBand 的 Quantum-X Integrated SiPh 於 2026 年下半年（2H26）推出。
機器人部分
16. 目標為通用機器人。在 Omniverse 中，開發者可根據不同領域、機器人與任務，匯總真實世界感測器或演示數據，並透過 Omniverse 調節 Cosmos，將原始照片擴增為大量真實多樣數據，以進行訓練與學習新技能。
17. NVIDIA Isaac Group N1 為人形機器人的通用基礎模型，建立於合成數據生成、學習與模擬基礎之上，具備雙重系統架構，能快速與緩慢思考，靈感來自人類認知處理，並將開源。
18. 宣布與 Google DeepMind、Disney Research 合作，開發下一代開源 Newton 物理引擎，讓機器人學習如何更精確地處理複雜任務。

network · 发表于 2025-3-20 06:05:04

HERE'S WHAT ANALYSTS HAVE TO SAY AFTER $NVDA'S GTC KEYNOTE 2025

Citi (Buy, PT: $163): "Jensen Huang (CEO of NVIDIA) delivered the GTC keynote today. Three key points jumped out to us: 1) NVIDIA is adding more color to its TAM expectations with total annual capex reaching $1T by 2028 as both inference and training continue to require more compute. 2) Blackwell is not only back on track, it is outperforming expectations with units (individual dies) from top 4 US hyperscalers already reaching 3.6M in 2025, 2.8x vs. Hopper’s peak year. 3) The company reminded investors that it is leading inference and is not stepping its foot off the gas with a blisteringly fast compute roadmap (B300, Rubin, Rubin Ultra), software leadership (e.g. Dynamo), and networking innovation (CPO). Net-net, we came out of the keynote reassured in NVIDIA’s leadership which, if anything, seems to be expanding. We view positively NVIDIA’s push for inference, which per company comments now requires significantly more compute. Maintain Buy."

Morgan Stanley: "Our preliminary conclusions are positive. We aren't sure what's going to shift the market from taking a glass-half-empty view of this situation, but the demand picture will stay strong through the visibility window. The concerns we hear that ASICs are causing competitive and margin pressure are going to vanish fairly quickly when they materially outgrow ASIC competition in 2H, as gross margins return to the mid-70s. The stock trades at a P/E discount to direct peers. We expect the company to have a very confident tone in the Q&A in the morning, in contrast to the somewhat more restrained management view at CES when there were supply chain and Hopper challenges. The risk, of course, is government export controls, which appear likely. However, we remain optimistic that the limitations will be mostly China-specific and that requiring licenses in so-called 'tier 2 countries' will be limited. We remain OW, stock remains our top pick in semis."

BofA (Buy, PT: $200): "We maintain Buy, $200 PO following a slate of product/partner announcements at the flagship GTC conference in addition to a post-keynote meeting with the CFO that demonstrated NVDA continuing to deepen its competitive moat in a $1T+ infrastructure/services TAM. We were excited by: 1) Structural uplift in demand in part fueled by over 100x greater compute intensity for inference evidenced by 1.8M Blackwell packages (each package = 2 GPUs) shipped/ordered to date vs. 1.3M Hopper units total in 2024 across top 4 CSPs. 2) New Blackwell Ultra, Rubin, and Rubin Ultra silicon/server/system platforms pointing to an unmatched roadmap as Rubin advances AI performance 900x (scale-up FLOPs) over Hopper (Blackwell is 68x) in a TCO-optimized way. 3) New CPO-based Spectrum-X and Quantum-X switches bolster networking edge and advance scale-out to +1M GPU clusters. 4) Physical AI TAM expansion progress with key announcements in robotics and AVs. 5) CFO discussions suggested confidence in GM recovery to mid-70% in 2H as Blackwell ramps. Overall, NVDA continues to dominate the AI value chain with its full-stack turnkey (hardware, software, systems, services, developers) model."

KeyBanc (Overweight, PT: $190)
"Today, NVDA CEO Jensen Huang kicked off GTC with a keynote speech with announcements largely in line with expectations heading into the event. Key takeaways: 1) Announced Blackwell Ultra (GB300) NVL72, which is expected to be 1.5x performance of GB200 NVL72 and is expected to be available in 2H25. 2) Announced Vera Rubin NVL144, with Vera being the next-gen ARM-based CPU and Rubin being the next-generation GPU, with 144 GPUs per rack and performance expected to be 3.3x GB300 NVL72 and expected 2H26. 3) Announced Co-packaged Optical (CPO) at 1.6TB, expected to ship in 2H25. NVDA continues to push the envelope on performance with its annual cadence roadmap, such that it remains the clear leader in AI. Maintain Overweight."

Stifel (Buy, PT: $180): "The GTC Keynote featured updates on next-gen Blackwell Ultra, Rubin, and Rubin Ultra architectures. The Keynote also featured the launch of Dynamo – NVDA's inferencing software designed for the optimization of reasoning models within data centers, which was described as the operating system for AI Factories. As was widely expected, Mr. Huang also touched on scale-out networking with the formal announcement of silicon photonics/co-packaged optics Quantum-X and Spectrum-X switches. On the enterprise infrastructure front, NVDA announced the DGX Spark and DGX Station PCs, offering AI capabilities and performance in a desktop form factor. Continued full-stack infrastructure development is targeted at evolving reasoning models and agentic AI, which NVDA believes will drive 10-100x compute intensity."

Wells Fargo (Overweight, PT: $185): "While much of what was announced had been somewhat anticipated, we think NVIDIA's continued full stack/platform innovation was once again showcased; NVDA is solidly in a league of its own. NVDA's scale-up capabilities with networking innovations (co-packed optics/SiPho; NVLink evolution)—enabling racks of 576 GPUs per rack—is a key/significant competitive advantage that could drive incremental improvements in perf/tokens/$, broadening end-market applications."

Cantor Fitzgerald (Neutral, PT: $200): "It’s tough not to be impressed. The excitement at GTC is palpable, and advancements being made in AI are truly amazing. The absolute key focus was on the extreme computing needed for inference at scale and the work NVDA is doing to enable the proliferation of greater intelligence (i.e., reasoning) across applications/verticals. At the crux of everything here is NVDA’s work in combining its best-in-class hardware with software initiatives, such as the newly announced Dynamo software stack that acts as the OS for AI factories, and when combined with Blackwell offers ~40x inference improvement vs. the prior-generation Hopper."

Raymond James (Strong Buy, PT: $170): "During the keynote, NVDA’s CEO sounded highly confident about data center capex growth sustaining (to exceed $1T by 2028), and highlighted the company’s opportunities in Inferencing, Agentic AI, and Robotics. Blackwell demand remains strong, driven by top 4 CSPs. Blackwell Ultra is on track for 2H25 shipments and management sees a smooth transition. Vera Rubin NVL144 is on track for 2H26 and Rubin Ultra NVL576 for 2H27, with performance specs that would be hard to match, in our view. Overall, we walked away comfortable with long-term AI demand and continue to be impressed with NVDA’s roadmap & technology innovation. Reiterate Strong Buy."

Bernstein SocGen Group (Outperform, PT: $185): "Nothing hugely surprised given all the pre-event speculation, but we still thought it sounded good. The roadmap looks really solid, and their capability gap vs competitors across their entire massive stack continues to widen. And the company still seems positive on datacenter growth, calling for $1T+ in datacenter capex by 2028 while capturing an increasing share of it. It is still NVIDIA’s game to lose, and they don’t appear to be losing..."

Deutsche Bank (Hold, PT: $145): "NVDA remains highly bullish about the future of AI compute spend, with its expectations for inference-related compute needs having 100x'd since last year's GTC. NVDA sees a continued need for AI compute solutions to 'scale-up', and introduced several technological innovations which should drive this trend forward (sophisticated GPU roadmap, disaggregated NVLink switches, NVDA 'Dynamo' OS for AI factories, co-packaged silicon photonics options, etc.)."

UBS: "The first thing that hit us is the sheer volume of people competing to get into each panel at this event - it is, in our experience, extraordinary. NVDA's edge AI panel highlighted the sheer breadth of its offerings spanning service provider, enterprise, industrial, embedded, and physical AI. Investors have lately often said 'nobody makes much money yet from AI' but IBM's panel on ROI of accelerated computing showcased $3.5 billion in annual savings exiting C2024 via improved productivity." 由翻译自英语以下是$NVDA 2025 年 GTC 主题演讲后分析师的评价

花旗银行（买入，预计：163 美元）：“黄仁勋（NVIDIA 首席执行官）今天发表了 GTC 主题演讲。我们注意到三个关键点：1）NVIDIA 正在为其 TAM 预期增添更多色彩，到 2028 年，年度总资本支出将达到 1 万亿美元，因为推理和训练都需要更多的计算。 2) Blackwell 不仅重回正轨，而且表现超出预期，美国前四大超大规模制造商的单位（单个芯片）在 2025 年已经达到 360 万，2. 8x与 Hopper 的巅峰年份相比。 3)该公司提醒投资者，它在推理方面处于领先地位，并且不会因为极快的计算路线图（B300、Rubin、Rubin Ultra）、软件领导力（例如 Dynamo）和网络创新（CPO）而松懈。总而言之，我们从主题演讲中对 NVIDIA 的领导地位感到放心，如果说有什么不同的话，那就是这种领导地位似乎正在扩大。我们认为对 NVIDIA 推动推理的举措持积极态度，根据公司评论，推理现在需要更多的计算。维持“买入”评级。

摩根士丹利：“我们的初步结论是积极的。我们不确定什么因素会改变市场对这种情况的悲观看法，但需求前景将通过可见性窗口保持强劲。我们听到的有关 ASIC 造成竞争和利润压力的担忧将在 ASIC 下半年大幅超过 ASIC 竞争对手时很快消失，因为毛利率将回到 70% 左右。该股票的市盈率低于直接同行。我们预计该公司在早上的问答环节中会非常自信，这与 CES 上供应链和 Hopper 挑战时管理层的略显克制的看法形成鲜明对比。当然，风险是政府的出口管制，这似乎是有可能的。然而，我们仍然乐观地认为，这些限制将主要针对中国，并且在所谓的“二线国家”需要许可证的情况将有限。我们仍然保持增持，股票仍然是我们在半导体行业的首选。”

美国银行（买入，预计：200 美元）：“我们维持买入，200 美元的 PO 评级，因为在旗舰 GTC 会议上发布了一系列产品/合作伙伴公告，此外，在与 CFO 的主题演讲后，NVDA 还展示了其在 1 万亿美元以上基础设施/服务 TAM 中的竞争护城河。我们感到兴奋的是：1）需求的结构性提升，部分原因是推理计算强度提高了 100 倍以上，迄今为止 Blackwell 封装（每个封装 = 2 个 GPU）的发货/订购量为 180 万个，而 2024 年前四大 CSP 的 Hopper 单元总数为 130 万个。 2)新的 Blackwell Ultra、Rubin 和 Rubin Ultra 硅/服务器/系统平台指向无与伦比的路线图，因为 Rubin 以 TCO 优化的方式将 AI 性能提高到 Hopper 的 900 倍（扩大 FLOPs）（Blackwell 为 68 倍）。 3)新的基于 CPO Spectrum-X 和 Quantum-X 交换机增强了网络优势，并推进了向 +1M GPU 集群的扩展。4) 物理 AI TAM 扩展取得进展，机器人和 AV 领域发布了重要公告。5) CFO 讨论表明，随着 Blackwell 的加速发展，GM 的恢复率有望在下半年达到 70% 左右。总体而言，NVDA 凭借其全栈交钥匙（硬件、软件、系统、服务、开发人员）模式继续主导 AI 价值链。”

KeyBanc（增持，PT：190 美元）
“今天，NVDA 首席执行官黄仁勋在 GTC 上发表主题演讲，宣布的事项与活动前的预期基本一致。主要内容：1) 宣布推出 Blackwell Ultra (GB300) NVL72，预计其性能是 GB200 NVL72 的 1.5 倍，预计将于 2025 年下半年上市。 2)宣布推出 Vera Rubin NVL144，其中 Vera 是下一代基于 ARM 的 CPU，Rubin 是下一代 GPU，每机架有 144 个 GPU，性能预计是 GB300 NVL72 的 3.3 倍，预计于 2026 年下半年上市。 3)宣布推出 1.6TB 的 Co-packaged Optical (CPO)，预计将于 2025 年下半年出货。NVDA 继续通过其年度节奏路线图突破性能极限，从而继续保持 AI 领域的领先地位。维持增持评级。”

Stifel（买入，PT：180 美元）：“GTC 主题演讲介绍了下一代 Blackwell Ultra、Rubin 和 Rubin Ultra 架构的最新进展。主题演讲还介绍了 Dynamo 的发布——NVDA 的推理软件，旨在优化数据中心内的推理模型，被称为 AI 工厂的操作系统。正如人们普遍预期的那样，黄先生还谈到了横向扩展网络，并正式宣布了硅光子/共封装光学 Quantum-X 和 Spectrum-X 交换机。在企业基础设施方面，NVDA 宣布推出 DGX Spark 和 DGX Station PC，以台式机形式提供 AI 功能和性能。持续的全栈基础设施开发旨在发展推理模型和代理 AI，NVDA 认为这将推动 10-100 倍的计算强度。”

富国银行（增持，PT：185 美元）：“虽然大部分宣布的内容都已在意料之中，但我们认为 NVIDIA 的持续全栈/平台创新再次得到展示；NVDA 稳居一流水平。NVDA 的扩展能力与网络创新（共封装光学/SiPho；NVLink 演进）相结合，使每架机架可容纳 576 个 GPU，这是一项关键/重要的竞争优势，可以推动性能/代币/美元的逐步改进，拓宽终端市场应用。”

Cantor Fitzgerald（中性，PT：200 美元）：“很难不被打动。GTC 的兴奋之情显而易见，人工智能的进步确实令人惊叹。绝对关键的焦点是大规模推理所需的极端计算，以及 NVDA 为实现更高智能（即推理）在应用程序/垂直领域的普及所做的工作。这里一切的关键是 NVDA 将其一流的硬件与软件计划相结合，例如新发布的 Dynamo 软件堆栈，它充当人工智能工厂的操作系统，与 Blackwell 结合使用时，与上一代 Hopper 相比，推理能力提高了约 40 倍。”

Raymond James（强力买入，PT：170 美元）：“在主题演讲中，NVDA 的首席执行官对数据中心资本支出持续增长（到 2028 年将超过 1 万亿美元）充满信心，并强调了公司在推理、Agentic AI 和机器人领域的机遇。在前四大 CSP 的推动下，Blackwell 的需求依然强劲。Blackwell Ultra 有望在 2H25 出货，管理层预计过渡将顺利进行。Vera Rubin NVL144 有望在 2H26 出货，Rubin Ultra NVL576 有望在 2H27 出货，我们认为其性能规格很难匹敌。总体而言，我们对长期 AI 需求感到满意，并继续对 NVDA 的路线图和技术创新印象深刻。重申强力买入。”

伯恩斯坦法兴集团（优于大盘，预期：185 美元）：“考虑到所有事前猜测，这并不令人感到意外，但我们仍然认为这听起来不错。路线图看起来非常可靠，他们在整个庞大堆栈中与竞争对手的能力差距继续扩大。该公司对数据中心的增长仍持乐观态度，预计到 2028 年数据中心资本支出将超过 1 万亿美元，同时占据越来越大的份额。英伟达仍是输家，但他们似乎没有输的迹象……”

德意志银行（持有，预期：145 美元）：“NVDA 对 AI 计算支出的未来仍然非常乐观，自去年的 GTC 以来，其对推理相关计算需求的预期增长了 100 倍。NVDA 认为 AI 计算解决方案将继续需要‘扩大规模’，并推出了多项技术创新，这些创新将推动这一趋势向前发展（复杂的 GPU 路线图、分解的 NVLink 交换机、用于 AI 工厂的 NVDA‘Dynamo’操作系统、共同封装的硅光子学选项等）。”

瑞银：“首先让我们感到震惊的是，参加本次活动的每个小组讨论的人数之多——根据我们的经验，这是非同寻常的。NVDA 的边缘 AI 小组强调了其产品范围之广，涵盖服务提供商、企业、工业、嵌入式和物理 AI。投资者最近经常说‘目前还没有人从 AI 中赚到很多钱’，但 IBM 关于加速计算投资回报率的小组展示了通过提高生产力，到 2024 年每年可节省 35 亿美元。” 翻译得准确吗？请提供反馈，以便我们加以改进：

network · 发表于 2025-3-20 10:57:50

network 发表于 2025-3-20 06:05
HERE'S WHAT ANALYSTS HAVE TO SAY AFTER $NVDA'S GTC KEYNOTE 2025

Citi (Buy, PT: $163): "Jensen Hua ...

HERE'S WHAT ANALYSTS HAVE TO SAY AFTER $NVDA'S GTC KEYNOTE 2025Citi (Buy, PT: $163): "Jensen Huang (CEO of NVIDIA) delivered the GTC keynote today. Three key points jumped out to us: 1) NVIDIA is adding more color to its TAM expectations with total annual capex reaching $1T by 2028 as both inference and training continue to require more compute. 2) Blackwell is not only back on track, it is outperforming expectations with units (individual dies) from top 4 US hyperscalers already reaching 3.6M in 2025, 2.8x vs. Hopper’s peak year. 3) The company reminded investors that it is leading inference and is not stepping its foot off the gas with a blisteringly fast compute roadmap (B300, Rubin, Rubin Ultra), software leadership (e.g. Dynamo), and networking innovation (CPO). Net-net, we came out of the keynote reassured in NVIDIA’s leadership which, if anything, seems to be expanding. We view positively NVIDIA’s push for inference, which per company comments now requires significantly more compute. Maintain Buy."

Morgan Stanley: "Our preliminary conclusions are positive. We aren't sure what's going to shift the market from taking a glass-half-empty view of this situation, but the demand picture will stay strong through the visibility window. The concerns we hear that ASICs are causing competitive and margin pressure are going to vanish fairly quickly when they materially outgrow ASIC competition in 2H, as gross margins return to the mid-70s. The stock trades at a P/E discount to direct peers. We expect the company to have a very confident tone in the Q&A in the morning, in contrast to the somewhat more restrained management view at CES when there were supply chain and Hopper challenges. The risk, of course, is government export controls, which appear likely. However, we remain optimistic that the limitations will be mostly China-specific and that requiring licenses in so-called 'tier 2 countries' will be limited. We remain OW, stock remains our top pick in semis."

BofA (Buy, PT: $200): "We maintain Buy, $200 PO following a slate of product/partner announcements at the flagship GTC conference in addition to a post-keynote meeting with the CFO that demonstrated NVDA continuing to deepen its competitive moat in a $1T+ infrastructure/services TAM. We were excited by: 1) Structural uplift in demand in part fueled by over 100x greater compute intensity for inference evidenced by 1.8M Blackwell packages (each package = 2 GPUs) shipped/ordered to date vs. 1.3M Hopper units total in 2024 across top 4 CSPs. 2) New Blackwell Ultra, Rubin, and Rubin Ultra silicon/server/system platforms pointing to an unmatched roadmap as Rubin advances AI performance 900x (scale-up FLOPs) over Hopper (Blackwell is 68x) in a TCO-optimized way. 3) New CPO-based Spectrum-X and Quantum-X switches bolster networking edge and advance scale-out to +1M GPU clusters. 4) Physical AI TAM expansion progress with key announcements in robotics and AVs. 5) CFO discussions suggested confidence in GM recovery to mid-70% in 2H as Blackwell ramps. Overall, NVDA continues to dominate the AI value chain with its full-stack turnkey (hardware, software, systems, services, developers) model."

KeyBanc (Overweight, PT: $190)"Today, NVDA CEO Jensen Huang kicked off GTC with a keynote speech with announcements largely in line with expectations heading into the event. Key takeaways: 1) Announced Blackwell Ultra (GB300) NVL72, which is expected to be 1.5x performance of GB200 NVL72 and is expected to be available in 2H25. 2) Announced Vera Rubin NVL144, with Vera being the next-gen ARM-based CPU and Rubin being the next-generation GPU, with 144 GPUs per rack and performance expected to be 3.3x GB300 NVL72 and expected 2H26. 3) Announced Co-packaged Optical (CPO) at 1.6TB, expected to ship in 2H25. NVDA continues to push the envelope on performance with its annual cadence roadmap, such that it remains the clear leader in AI. Maintain Overweight."

Stifel (Buy, PT: $180): "The GTC Keynote featured updates on next-gen Blackwell Ultra, Rubin, and Rubin Ultra architectures. The Keynote also featured the launch of Dynamo – NVDA's inferencing software designed for the optimization of reasoning models within data centers, which was described as the operating system for AI Factories. As was widely expected, Mr. Huang also touched on scale-out networking with the formal announcement of silicon photonics/co-packaged optics Quantum-X and Spectrum-X switches. On the enterprise infrastructure front, NVDA announced the DGX Spark and DGX Station PCs, offering AI capabilities and performance in a desktop form factor. Continued full-stack infrastructure development is targeted at evolving reasoning models and agentic AI, which NVDA believes will drive 10-100x compute intensity."

Wells Fargo (Overweight, PT: $185): "While much of what was announced had been somewhat anticipated, we think NVIDIA's continued full stack/platform innovation was once again showcased; NVDA is solidly in a league of its own. NVDA's scale-up capabilities with networking innovations (co-packed optics/SiPho; NVLink evolution)—enabling racks of 576 GPUs per rack—is a key/significant competitive advantage that could drive incremental improvements in perf/tokens/$, broadening end-market applications."

Cantor Fitzgerald (Neutral, PT: $200): "It’s tough not to be impressed. The excitement at GTC is palpable, and advancements being made in AI are truly amazing. The absolute key focus was on the extreme computing needed for inference at scale and the work NVDA is doing to enable the proliferation of greater intelligence (i.e., reasoning) across applications/verticals. At the crux of everything here is NVDA’s work in combining its best-in-class hardware with software initiatives, such as the newly announced Dynamo software stack that acts as the OS for AI factories, and when combined with Blackwell offers ~40x inference improvement vs. the prior-generation Hopper."

Raymond James (Strong Buy, PT: $170): "During the keynote, NVDA’s CEO sounded highly confident about data center capex growth sustaining (to exceed $1T by 2028), and highlighted the company’s opportunities in Inferencing, Agentic AI, and Robotics. Blackwell demand remains strong, driven by top 4 CSPs. Blackwell Ultra is on track for 2H25 shipments and management sees a smooth transition. Vera Rubin NVL144 is on track for 2H26 and Rubin Ultra NVL576 for 2H27, with performance specs that would be hard to match, in our view. Overall, we walked away comfortable with long-term AI demand and continue to be impressed with NVDA’s roadmap & technology innovation. Reiterate Strong Buy."

Bernstein SocGen Group (Outperform, PT: $185): "Nothing hugely surprised given all the pre-event speculation, but we still thought it sounded good. The roadmap looks really solid, and their capability gap vs competitors across their entire massive stack continues to widen. And the company still seems positive on datacenter growth, calling for $1T+ in datacenter capex by 2028 while capturing an increasing share of it. It is still NVIDIA’s game to lose, and they don’t appear to be losing..."

Deutsche Bank (Hold, PT: $145): "NVDA remains highly bullish about the future of AI compute spend, with its expectations for inference-related compute needs having 100x'd since last year's GTC. NVDA sees a continued need for AI compute solutions to 'scale-up', and introduced several technological innovations which should drive this trend forward (sophisticated GPU roadmap, disaggregated NVLink switches, NVDA 'Dynamo' OS for AI factories, co-packaged silicon photonics options, etc.)."

UBS: "The first thing that hit us is the sheer volume of people competing to get into each panel at this event - it is, in our experience, extraordinary. NVDA's edge AI panel highlighted the sheer breadth of its offerings spanning service provider, enterprise, industrial, embedded, and physical AI. Investors have lately often said 'nobody makes much money yet from AI' but IBM's panel on ROI of accelerated computing showcased $3.5 billion in annual savings exiting C2024 via improved productivity."

由翻译自英语

以下是$NVDA 2025 年 GTC 主题演讲后分析师的评价
花旗银行（买入，预计：163 美元）：“黄仁勋（NVIDIA 首席执行官）今天发表了 GTC 主题演讲。我们注意到三个关键点：1）NVIDIA 正在为其 TAM 预期增添更多色彩，到 2028 年，年度总资本支出将达到 1 万亿美元，因为推理和训练都需要更多的计算。 2) Blackwell 不仅重回正轨，而且表现超出预期，美国前四大超大规模制造商的单位（单个芯片）在 2025 年已经达到 360 万，2. 8x与 Hopper 的巅峰年份相比。 3)该公司提醒投资者，它在推理方面处于领先地位，并且不会因为极快的计算路线图（B300、Rubin、Rubin Ultra）、软件领导力（例如 Dynamo）和网络创新（CPO）而松懈。总而言之，我们从主题演讲中对 NVIDIA 的领导地位感到放心，如果说有什么不同的话，那就是这种领导地位似乎正在扩大。我们认为对 NVIDIA 推动推理的举措持积极态度，根据公司评论，推理现在需要更多的计算。维持“买入”评级。

摩根士丹利：“我们的初步结论是积极的。我们不确定什么因素会改变市场对这种情况的悲观看法，但需求前景将通过可见性窗口保持强劲。我们听到的有关 ASIC 造成竞争和利润压力的担忧将在 ASIC 下半年大幅超过 ASIC 竞争对手时很快消失，因为毛利率将回到 70% 左右。该股票的市盈率低于直接同行。我们预计该公司在早上的问答环节中会非常自信，这与 CES 上供应链和 Hopper 挑战时管理层的略显克制的看法形成鲜明对比。当然，风险是政府的出口管制，这似乎是有可能的。然而，我们仍然乐观地认为，这些限制将主要针对中国，并且在所谓的“二线国家”需要许可证的情况将有限。我们仍然保持增持，股票仍然是我们在半导体行业的首选。”

美国银行（买入，预计：200 美元）：“我们维持买入，200 美元的 PO 评级，因为在旗舰 GTC 会议上发布了一系列产品/合作伙伴公告，此外，在与 CFO 的主题演讲后，NVDA 还展示了其在 1 万亿美元以上基础设施/服务 TAM 中的竞争护城河。我们感到兴奋的是：1）需求的结构性提升，部分原因是推理计算强度提高了 100 倍以上，迄今为止 Blackwell 封装（每个封装 = 2 个 GPU）的发货/订购量为 180 万个，而 2024 年前四大 CSP 的 Hopper 单元总数为 130 万个。 2)新的 Blackwell Ultra、Rubin 和 Rubin Ultra 硅/服务器/系统平台指向无与伦比的路线图，因为 Rubin 以 TCO 优化的方式将 AI 性能提高到 Hopper 的 900 倍（扩大 FLOPs）（Blackwell 为 68 倍）。 3)新的基于 CPO Spectrum-X 和 Quantum-X 交换机增强了网络优势，并推进了向 +1M GPU 集群的扩展。4) 物理 AI TAM 扩展取得进展，机器人和 AV 领域发布了重要公告。5) CFO 讨论表明，随着 Blackwell 的加速发展，GM 的恢复率有望在下半年达到 70% 左右。总体而言，NVDA 凭借其全栈交钥匙（硬件、软件、系统、服务、开发人员）模式继续主导 AI 价值链。”

KeyBanc（增持，PT：190 美元）“今天，NVDA 首席执行官黄仁勋在 GTC 上发表主题演讲，宣布的事项与活动前的预期基本一致。主要内容：1) 宣布推出 Blackwell Ultra (GB300) NVL72，预计其性能是 GB200 NVL72 的 1.5 倍，预计将于 2025 年下半年上市。 2)宣布推出 Vera Rubin NVL144，其中 Vera 是下一代基于 ARM 的 CPU，Rubin 是下一代 GPU，每机架有 144 个 GPU，性能预计是 GB300 NVL72 的 3.3 倍，预计于 2026 年下半年上市。 3)宣布推出 1.6TB 的 Co-packaged Optical (CPO)，预计将于 2025 年下半年出货。NVDA 继续通过其年度节奏路线图突破性能极限，从而继续保持 AI 领域的领先地位。维持增持评级。”

Stifel（买入，PT：180 美元）：“GTC 主题演讲介绍了下一代 Blackwell Ultra、Rubin 和 Rubin Ultra 架构的最新进展。主题演讲还介绍了 Dynamo 的发布——NVDA 的推理软件，旨在优化数据中心内的推理模型，被称为 AI 工厂的操作系统。正如人们普遍预期的那样，黄先生还谈到了横向扩展网络，并正式宣布了硅光子/共封装光学 Quantum-X 和 Spectrum-X 交换机。在企业基础设施方面，NVDA 宣布推出 DGX Spark 和 DGX Station PC，以台式机形式提供 AI 功能和性能。持续的全栈基础设施开发旨在发展推理模型和代理 AI，NVDA 认为这将推动 10-100 倍的计算强度。”富国银行（增持，PT：185 美元）：“虽然大部分宣布的内容都已在意料之中，但我们认为 NVIDIA 的持续全栈/平台创新再次得到展示；NVDA 稳居一流水平。NVDA 的扩展能力与网络创新（共封装光学/SiPho；NVLink 演进）相结合，使每架机架可容纳 576 个 GPU，这是一项关键/重要的竞争优势，可以推动性能/代币/美元的逐步改进，拓宽终端市场应用。”

Cantor Fitzgerald（中性，PT：200 美元）：“很难不被打动。GTC 的兴奋之情显而易见，人工智能的进步确实令人惊叹。绝对关键的焦点是大规模推理所需的极端计算，以及 NVDA 为实现更高智能（即推理）在应用程序/垂直领域的普及所做的工作。这里一切的关键是 NVDA 将其一流的硬件与软件计划相结合，例如新发布的 Dynamo 软件堆栈，它充当人工智能工厂的操作系统，与 Blackwell 结合使用时，与上一代 Hopper 相比，推理能力提高了约 40 倍。”

Raymond James（强力买入，PT：170 美元）：“在主题演讲中，NVDA 的首席执行官对数据中心资本支出持续增长（到 2028 年将超过 1 万亿美元）充满信心，并强调了公司在推理、Agentic AI 和机器人领域的机遇。在前四大 CSP 的推动下，Blackwell 的需求依然强劲。Blackwell Ultra 有望在 2H25 出货，管理层预计过渡将顺利进行。Vera Rubin NVL144 有望在 2H26 出货，Rubin Ultra NVL576 有望在 2H27 出货，我们认为其性能规格很难匹敌。总体而言，我们对长期 AI 需求感到满意，并继续对 NVDA 的路线图和技术创新印象深刻。重申强力买入。”

伯恩斯坦法兴集团（优于大盘，预期：185 美元）：“考虑到所有事前猜测，这并不令人感到意外，但我们仍然认为这听起来不错。路线图看起来非常可靠，他们在整个庞大堆栈中与竞争对手的能力差距继续扩大。该公司对数据中心的增长仍持乐观态度，预计到 2028 年数据中心资本支出将超过 1 万亿美元，同时占据越来越大的份额。英伟达仍是输家，但他们似乎没有输的迹象……”

德意志银行（持有，预期：145 美元）：“NVDA 对 AI 计算支出的未来仍然非常乐观，自去年的 GTC 以来，其对推理相关计算需求的预期增长了 100 倍。NVDA 认为 AI 计算解决方案将继续需要‘扩大规模’，并推出了多项技术创新，这些创新将推动这一趋势向前发展（复杂的 GPU 路线图、分解的 NVLink 交换机、用于 AI 工厂的 NVDA‘Dynamo’操作系统、共同封装的硅光子学选项等）。”

瑞银：“首先让我们感到震惊的是，参加本次活动的每个小组讨论的人数之多——根据我们的经验，这是非同寻常的。NVDA 的边缘 AI 小组强调了其产品范围之广，涵盖服务提供商、企业、工业、嵌入式和物理 AI。投资者最近经常说‘目前还没有人从 AI 中赚到很多钱’，但 IBM 关于加速计算投资回报率的小组展示了通过提高生产力，到 2024 年每年可节省 35 亿美元。”

翻译得准确吗？请提供反馈，以便我们加以改进：

下午9:02 · 2025年3月19日
·
2.7万
查看

network · 发表于 2025-3-20 10:58:20

network 发表于 2025-3-20 10:57
HERE'S WHAT ANALYSTS HAVE TO SAY AFTER $NVDA'S GTC KEYNOTE 2025Citi (Buy, PT: $163): "Jensen Huang ...

刚刚，黄仁勋甩出三代核弹 AI 芯片！个人超算每秒运算 1000 万亿次，DeepSeek 成最大赢家
2025-03-19 07:04

英伟达 GTC 大会已经成了 AI 界超级碗，没有剧本也没有提词器，中途黄仁勋被线缆卡住，反而是这场高浓度 AI 发布会里最有人味的片段，在当今提前基本提前彩排或录播的科技发布会里已经很稀缺了。

刚刚，黄仁勋再次发布了全新一代核弹级 AI 芯片，不过这场发布会的还有个隐藏主角——DeepSeek。

由于智能体 AI（Agentic AI）和推理能力的提升，现在所需的计算量至少是去年此时预估的 100 倍。

推理成本效率给 AI 行业带来影响，而不是简单地堆积计算能力，成为贯穿这场发布会的主线。英伟达要变成 AI 工厂，让 AI 以超越人类的速度学习和推理。

推理本质上是一座工厂在生产 token，而工厂的价值取决于能否创造收入和利润。因此，这座工厂必须以极致的效率打造。

黄仁勋掏出的英伟达新「核弹」也在告诉我们，未来的人工智能竞争不在于谁的模型更大，而在于谁的模型具有最低的推理成本和更高推理的效率。

除了全新 Blackwell 芯片，还有两款「真·AI PC」

全新的 Blackwell 芯片代号为「Ultra」，也就是 GB300 AI 芯片，接棒去年的「全球最强 AI 芯片」B200，再一次实现性能上的突破.

Blackwell Ultra 将包括英伟达 GB300 NVL72 机架级解决方案，以及英伟达 HGX B300 NVL16 系统。

Blackwell Ultra GB300 NVL72 将于今年下半年发布，参数细节如下：

1.1 EF FP4 Inference：在进行 FP4 精度的推理任务时，能够达到 1.1 ExaFLOPS（每秒百亿亿次浮点运算）。
0.36 EF FP8 Training：在进行 FP8 精度的训练任务时，性能为 1.2 ExaFLOPS。
1.5X GB300 NVL72：与 GB200 NVL72 相比，性能为 1.5 倍。
20 TB HBM3：配备了 20TB HBM 内存，是前代的 1.5 倍
40 TB Fast Memory：拥有 40TB 的快速内存，是前代的 1.5 倍。
14.4 TB/s CX8：支持 CX8，带宽为 14.4 TB/s，是前代的 2 倍。
单个 Blackwell Ultra 芯片将和前代一样提供相同的 20 petaflops（每秒千万亿次浮点运算） AI 性能，但配备更多的 288GB 的 HBM3e 内存。

如果说 H100 更适合大规模模型训练，B200 在推理任务中表现出色，那么 B300 则是一个多功能平台，预训练、后训练和 AI 推理都不在话下。

英伟达还特别指出，Blackwell Ultra 也适用于 AI 智能体，以及用于训练机器人和汽车自动驾驶的「物理 AI」。

为了进一步增强系统性能，Blackwell Ultra 还将与英伟达的 Spectrum-X 以太网和英伟达 Quantum-X800 InfiniBand 平台集成，为系统中的每个 GPU 提供 800Gb/s 的数量吞吐量，帮助 AI 工厂和云数据中心能够更快处理 AI 推理模型。

除了 NVL72 机架，英伟达还推出了包含单个 GB300 Blackwell Ultra 芯片的台式电脑 DGX Station。Blackwell Ultra 之外，这个主机还将配备 784GB 的同一系统内存，内置 800Gbps 英伟达 ConnectX-8 SuperNIC 网络，能够支持 20 petaflops 的 AI 性能。

而之前在 CES 2025 展示的「迷你主机」Project DIGITS 也正式被命名为 DGX Spark，搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片，每秒可提供高达 1000 万亿次 AI 计算操作，用于最新 AI 推理模型的微调和推理，包括 NVIDIA Cosmos Reason 世界基础模型和 NVIDIA GR00T N1 机器人基础模型。

黄仁勋表示，借助 DGX Station 和 DGX Spark，用户可以在本地运行大模型，或者将其部署在 NVIDIA DGX Cloud 等其他加速云或者数据中心基础设施上。

这是 AI 时代的计算机。

DGX Spark 系统现已开放预订，而 DGX Station 预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。

下一代 AI 芯片 Rubin 官宣，2026 年下半年推出

英伟达一直以科学家的名字为其架构命名，这种命名方式已成为英伟达文化的一部分。这一次，英伟达延续了这一惯例，将下一代 AI 芯片平台命名为「Vera Rubin」，以纪念美国著名天文学家薇拉·鲁宾（Vera Rubin）。

黄仁勋表示，Rubin 的性能将达到 Hopper 的 900 倍，而 Blackwell 相较 Hopper 已实现了 68 倍的提升。

其中，Vera Rubin NVL144 预计将在 2026 年下半年发布。参数信息省流不看版：

3.6 EF FP4 Inference：在进行 FP4 精度的推理任务时，能够达到 3.6 ExaFLOPS（每秒百亿亿次浮点运算）。
1.2 EF FP8 Training：在进行 FP8 精度的训练任务时，性能为 1.2 ExaFLOPS。
3.3X GB300 NVL72：与 GB300 NVL72 相比，性能提升了 3.3 倍。
13 TB/s HBM4：配备了 HBM4，带宽为 13TB/s。
75 TB Fast Memory：拥有 75 TB 的快速内存，是前代的 1.6 倍。
260 TB/s NVLink6：支持 NVLink 6，带宽为 260 TB/s，是前代的 2 倍。
28.8 TB/s CX9：支持 CX9，带宽为 28.8 TB/s，是前代的 2 倍。

标准版 Rubin 将配备 HBM4，性能比当前的 Hopper H100 芯片大幅提升。

Rubin 引入名为 Grace CPU 的继任者——Veru，包含 88 个定制的 Arm 核心，每个核心支持 176 个线程，并通过 NVLink-C2C 实现 1.8 TB/s 的高带宽连接。

英伟达表示，定制的 Vera 设计将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。

与 Vera CPU 搭配时，Rubin 在推理任务中的算力可达 50 petaflops，是 Blackwell 20 petaflops 的两倍以上。此外，Rubin 还支持高达 288GB 的 HBM4 内存，这也是 AI 开发者关注的核心规格之一。

实际上，Rubin 由两个 GPU 组成，而这一设计理念与当前市场上的 Blackwell GPU 类似——后者也是通过将两个独立芯片组装为一个整体运行。

从 Rubin 开始，英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单一 GPU，而是更准确地按照实际的 GPU芯片裸片数量来计数。

互联技术也升级了，Rubin 配备第六代 NVLink，以及支持 1600 Gb/s 的 CX9 网卡，能够加速数据传输并提升连接性。

除了标准版 Rubin，英伟达还计划推出 Rubin Ultra 版本。

Rubin Ultra NVL576 则将于 2027 年下半年推出。参数细节如下：

15 EF FP4 Inference：在 FP4 精度下进行推理任务时，性能达到 15 ExaFLOPS。
5 EF FP8 Training：在 FP8 精度下进行训练任务时，性能为 5 ExaFLOPS。
14X GB300 NVL72：相比 GB300 NVL72，性能提升 14 倍。
4.6 PB/s HBM4e：配备 HBM4e 内存，带宽为 4.6 PB/s。
365 TB Fast Memory：系统拥有 365 TB 的快速内存，是前代的 8 倍。
1.5 PB/s NVLink7：支持 NVLink 7，带宽为 1.5 PB/s，是前代的 12 倍。
115.2 TB/s CX9：支持 CX9，带宽为 115.2 TB/s，是前代的 8 倍。
在硬件配置上，Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计，每个核心支持 176 个线程，并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。

而 GPU 方面，Rubin Ultra 集成了 4 个 Reticle-Sized GPU，每颗 GPU 提供 100 petaflops 的 FP4 计算能力，并配备 1TB 的 HBM4e 内存，在性能和内存容量上都达到了新的高度。

为了在瞬息万变的市场竞争中站稳脚跟，英伟达的产品发布节奏已经缩短至一年一更。发布会上，老黄也正式揭晓下一代 AI 芯片的命名——物理学家费曼(Feynman)。

随着 AI 工厂的规模不断扩大，网络基础设施的重要性愈发凸显。

为此，英伟达推出了 Spectrum-X

和 Quantum-X 硅光网络交换机，旨在帮助 AI 工厂实现跨站点连接数百万 GPU，同时显著降低能耗和运营成本。

Spectrum-X Photonics 交换机具有多种配置，包括：

128 端口 800Gb/s或 512 端口 200Gb/s 配置，总带宽达 100Tb/s
512 端口 800Gb/s或 2048 端口200Gb/s配置，总吞吐量达 400Tb/s
与之配套的 Quantum-X Photonics 交换机则基于 200Gb/s SerDes 技术，提供 144 端口 800Gb/s 的 InfiniBand 连接，并采用液冷设计高效冷却板载硅光子组件

与上一代产品相比，Quantum-X Photonics 交换机为 AI 计算架构提供 2 倍速度和 5 倍可扩展性。

Quantum-X Photonics InfiniBand 交换机预计于今年晚些时候上市，而 Spectrum-X Photonics 以太网交换机预计将于 2026 年推出。

随着 AI 的快速发展，对数据中心的带宽、低延迟和高能效需求也急剧增加。

英伟达 Spectrum-X Photonics 交换机采用了一种名为 CPO 的光电子集成技术。其核心是将光引擎（就是能处理光信号的芯片）和普通的电子芯片（比如交换芯片或 ASIC 芯片）放在同一个封装里。

这种技术的好处很多：

传输效率更高：因为距离缩短，信号传输更快。
功耗更低：距离短了，传输信号需要的能量也少了。
体积更小：把光和电的部件集成在一起，整体体积也变小了，空间利用率更高。
AI 工厂的「操作系统」Dynamo
未来将没有数据中心，只有 AI 工厂。

黄仁勋表示，未来，每个行业、每家公司拥有工厂时，都将有两个工厂：一个是他们实际生产的工厂，另一个是 AI 工厂，而 Dynamo 则是专门为「AI 工厂」打造的操作系统。

Dynamo 是一款分布式推理服务库，为需要 token 但又无法获得足够 token 的问题提供开源解决方案。

简单来说，Dynamo 有四个方面的优势：

GPU 规划引擎，动态调度 GPU 资源以适应用户需求
智能路由器，减少 GPU 对重复和重叠请求的重新计算，释放更多算力应对新的传入请求
低延迟通信库，加速数据传输
内存管理器，智能在低成本内存和存储设备中的推理数据
人形机器人的露脸环节，永远不会缺席
人形机器人再一次成为了 GTC 大会的压轴节目，这次英伟达带来了 Isaac GR00T N1，全球首款开源人形机器人功能模型。

黄仁勋表示，通用机器人技术的时代已经到来，借助 Isaac GR00T N1 核心的数据生成以及机器人学习框架，全球各地的机器人开发人员将进入 AI 时代的下一个前沿领域。

这个模型采用「双系统」架构，模仿人类的认知原理：

系统 1：快速思考的动作模型，模仿人类的反应或直觉
系统 2：慢思考的模型，用于深思熟虑的决策。
在视觉语言模型的支持下，系统 2 对环境和指令进行推理，然后规划动作，系统 1 将这些规划转化为机器人的的动作。

GR00T N1 的基础模型采用广义类人推理和技能进行了预训练，而开发人员可以通过真实或合成数据进行后训练，满足特定的需求：既可以完成工厂的特定任务，也可以在家里自主完成家务。

黄仁勋还宣布了与 Google DeepMind 和 Disney Research 合作开发的开源物理引擎 Newton。

一台搭载 Newton 平台的机器人也登上了舞台，黄仁勋称之为「Blue」，外观神似《星球大战》中的 BDX 机器人，能够用声音和动作和黄仁勋互动。

8 块 GPU，DeepSeek-R1 推理速度创全球之最

英伟达实现了全球最快的 DeepSeek-R1 推理。

官网显示，一台搭载 8 个 Blackwell GPU 的 DGX 系统，在运行 6710 亿参数的 DeepSeek-R1 模型时，可实现每用户每秒超过 250 个 token 的速度，或达到最高吞吐量每秒超过 30000 个 token。

通过硬件和软件的结合，自今年 1 月以来，英伟达在 DeepSeek-R1 671B 模型上的吞吐量提升了约 36 倍，每 token 的成本效率提高了约 32 倍。

为了实现这一成就，英伟达完整的推理生态系统已针对 Blackwell 架构进行了深度优化，不仅整合 TensorRT-LLM、TensorRT Model Optimizer 等先进工具，还无缝支持 PyTorch、JAX 和 TensorFlow 等主流框架。

在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上，采用 FP4 精度的 DGX B200 平台相较于 DGX H200 平台，推理吞吐量提升超过 3 倍。

值得注意的是，此次发布会的主题演讲并未提及量子计算，但英伟达特意在这届 GTC 大会设置了量子日，邀请了多家当红量子计算公司的 CEO 出席。

要知道黄仁勋年初一句「量子计算还需 20 年才实用」的论断犹在耳畔。

一改口风的背后，离不开微软耗时 17年研发的拓扑量子芯片 Majorana 1 实现 8 个拓扑量子比特集成，离不开 Google Willow 芯片宣称用 5 分钟完成经典计算机需 10^25 年处理的任务，推动了量子计算的热潮。

芯片无疑是重头戏，但一些软件的亮相同样值得关注。

硅谷著名投资人马克·安德森曾提出软件正在吞噬世界（Software is eating the world）的论断，其核心逻辑在于软件通过虚拟化、抽象化和标准化，正在成为控制物理世界的基础设施。

不满足于做「卖铲人」，英伟达的野心是打造 AI 时代的「生产力操作系统」。从汽车智能驾驶，到制造业的数字孪生工厂，这些贯穿整场发布会的案例都是将 GPU 算力转化为行业生产力的具象化表达。

实际上，无论是发布会上亮相的最新核弹芯片，还是押注战未来的量子计算，黄仁勋在这场发布会上对 AI 未来发展的洞察和布局，都比当下的技术参数与性能指标更具看点。

在介绍 Blackwell 与 Hopper 架构的对比时，黄仁勋还不忘幽默一把。

他以一个 100MW 工厂的对比数据为例，指出采用 Hopper 架构需要 45,000 颗芯片和 400 个机架，而 Blackwell 架构凭借更高的效率显著减少了硬件需求。

于是，黄仁勋那句经典的总结再次抛出，「the more you buy, the more you save」（买得越多，省得越多）。」随后话锋一转，他又补充说，「the more you buy, the more you make」（买得越多，赚得越多）。

随着 AI 领域的重心从训练转向推理，英伟达更需要证明其软硬件生态在推理场景的不可替代性。

一方面，Meta、Google 等巨头自研 AI 芯片，可能分流 GPU 市场需求。

另一方面，英伟达最新 AI 芯片的适时亮相，回应如 DeepSeek 的开源模型对 GPU 需求的冲击，并展示推理领域技术优势，也是为了对冲市场对训练需求见顶的担忧。

最近估值跌至 10 年低位的英伟达，比以往任何时候都需要一场酣畅淋漓的胜利。

账号		自动登录	找回密码
密码			注册