|
AI领域GPU研发最新进展与趋势报告
3
19
70
7.1万
绕开CUDA的大模型训练方案
英伟达CUDA生态经过多年发展,已成为AI训练的实际标准,但各大科技公司正努力寻求替代方案,以降低对CUDA和英伟达GPU的依赖。在大模型训练中绕开CUDA,通常意味着开发自有的软件栈或硬件加速器:
小结: 越来越多公司选择开发自有AI芯片和软件栈,从而绕过英伟达的CUDA生态。例如AWS的Neuron编译器直接取代CUDA加速库 (Training with Neuron - FAQ — AWS Neuron Documentation
);华为的MindSpore/CANN体系被视为“华为版CUDA” (Why does NVIDIA consider Huawei as its top competitor?
)。这种趋势赋予开发者更多选择,也使AI算力供应不再由单一厂商的软件架构主导。
巨头自研AI芯片的进展
各大科技巨头在GPU/AI芯片研发上投入巨资,试图打造定制化的算力。以下是OpenAI、微软、亚马逊、谷歌、Meta、特斯拉、X(推特)、华为等公司的自研芯片最新进展:
- OpenAI: 这家ChatGPT背后的公司过去完全依赖英伟达GPU,但由于算力需求暴增,OpenAI已启动自研AI芯片计划。2023年有报道称OpenAI在评估收购芯片公司并组建团队研发定制AI芯片 (ChatGPT-owner OpenAI is exploring making its own AI chips - Reuters
)。最新消息显示,OpenAI正与博通(Broadcom)合作设计其首款自研AI芯片,由台积电代工制造,并已组建了约20人的芯片团队,其中包括前谷歌TPU资深工程师 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters
)。OpenAI最初考虑同时开发训练和推理芯片以及自建晶圆厂,但由于成本和周期太高,已暂缓自建工厂的计划,聚焦于设计定制的AI推理芯片 (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware
) (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware
)。该芯片预计最早2026年问世,主要用于模型推理环节,以提升部署效率 (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware
)。在此之前,OpenAI将继续使用英伟达GPU进行训练,并增加AMD GPU来满足需求 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters
)。整体而言,OpenAI自研芯片仍处于早期设计和验证阶段,预计需要数年时间落地 (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware
) (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware
)。 - 微软(Microsoft): 微软从2019年起秘密研发代号**“Athena”的AI芯片。2023年11月微软在Ignite大会上正式公布了这款自研加速器,命名为Azure Maia 100**。Maia 100采用台积电5nm工艺,晶体管数高达1050亿 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
), 支持大语言模型的训练和推理,是微软首款专为AI设计的加速芯片 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source
) (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
)。Maia 100将于2024年开始部署到Azure数据中心,优先支持微软自己的Copilot、Azure OpenAI等服务 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source
)。目前Maia 100已在微软内部运行GPT-3.5模型并为GitHub Copilot提供算力支持 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
)。微软还同步发布了自研的Arm架构服务器CPU(Azure Cobalt 100),与Maia一起构成完整的云端算力方案 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source
)。微软打造芯片的难点在于招募团队和供应链整合,不过他们通过数年秘密研发,终于追上了谷歌、亚马逊等在定制芯片上的步伐 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
)。预计Maia加速器2024年起向Azure客户提供服务,并与英伟达H100在云端形成竞逐 (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD
)。值得一提的是,微软也与AMD深度合作,支持后者MI300系列GPU优化AI性能 (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD
)。 - 亚马逊(Amazon): AWS早在2010年代就决心自研芯片,实现**“软硬件全栈协同”** (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
)。目前AWS已推出三款主要自研芯片:面向通用计算的Graviton CPU、面向存储/网络的Nitro、以及面向AI的Trainium和Inferentia。Trainium是AWS于2022年开始提供的训练芯片(对应Trn1实例),Inferentia则是2019年推出的推理芯片(Inf1/Inf2实例)。Trainium一代芯片采用7nm工艺,有16个NeuronCore计算单元,AWS宣称其性价比比同期GPU提升30-40% (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。2023年AWS发布了Trainium 2,并计划在2025年底推出性能再提升4倍的Trainium 3 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。Trainium 3据称功耗将超过1000瓦,需要大规模采用液冷技术以散热 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。AWS的策略是以更低成本的AI算力吸引客户,同时大规模部署自己的芯片。AWS计划在数据中心部署10万颗Trainium芯片,打造大规模AI超级集群 UltraCluster (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。AWS也投资了Anthropic等AI创业公司,合作优化Trainium的性能;Anthropic反馈称在成本大幅降低的同时仍保持了出色性能 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。总体而言,亚马逊通过多年积累,已经成功将自研AI芯片推向商用并不断演进。在研发难度方面,AWS需要弥补的主要是软件生态与CUDA的差距,但他们也在持续改进Neuron SDK以缩小差距 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。 - 谷歌(Google): 谷歌是业界最早大规模应用自研AI加速器的公司。早在2016年就发布了第一代TPU用于加速深度学习推理,2017年起推出用于训练的TPUv2,并在此后以约两年一代的节奏迭代。当前最新的是2023年公布的TPU v5p(第五代性能版)。TPU v5p相比上一代TPU v4在性能和规模上飞跃:单个TPU v5p芯片的算力超过两倍TPU v4,HBM高速内存容量提升3倍 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)。谷歌构建了庞大的TPU集群(称为TPU Pod或“AI超算”)——例如TPU v5p Pod由8960颗芯片通过4,800 Gbps/芯片的高速互联连接,组成3D环形拓扑网络 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)。TPU集群可扩展至数千甚至上万芯片并行工作,是谷歌支撑其AI模型(如PaLM、Imagen等)训练的核心基础设施。研发TPU对谷歌而言投入巨大,但收效显著:谷歌曾披露,其TPU v4超级计算机在相同性能规模下比英伟达A100快1.2-1.7倍,效率高1.3-1.9倍 (Google boffins reveal tech details of TPU v4 datacenter rigs • The Register
)。TPU的成功也使谷歌在硬件上减少了对英伟达的依赖。最新的TPU v5p据报告在训练大型LLM时速度比v4提升2.8倍,性价比提升2.3倍 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)。谷歌的战略是一边优化硬件(如引入更先进的网络和液冷 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)),一边开放软件支持(如TensorFlow、JAX全面支持TPU (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)),以吸引更多外部客户使用其云TPU。未来谷歌预计会继续演进TPU,并通过软硬件系统式协同设计来保持在超大规模AI训练上的领先地位 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)。 - Meta: Meta(原Facebook)在AI芯片上布局涵盖推理和训练两方面。2022年,Meta公布了第一代MTIA v1(Meta Training and Inference Accelerator),实际上主要用于推理(服务其推荐算法等) (Introducing Our Next Generation Infrastructure for AI | Meta
) (Introducing Our Next Generation Infrastructure for AI | Meta
)。MTIA v1是Meta内部深度学习推理加速卡,相比CPU部署效率更高。到2024年,Meta宣布正在研发新一代MTIA芯片,计算和内存带宽较前代提升逾一倍 (Introducing Our Next Generation Infrastructure for AI | Meta
)。这些芯片将用于支持Meta大量的内容推荐、广告排序等模型,以降低对现有GPU的依赖。与此同时,Meta在大模型训练方面仍主要依赖GPU集群。Meta打造了AI Research SuperCluster(RSC),据报道在训练最新Llama模型时,使用的集群规模已超过10万块英伟达H100,是目前已知规模最大的AI训练集群之一 (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED
)。不过,有消息称Meta也在研发自有的大模型训练芯片,计划2025年投入使用,以摆脱对GPU的长期依赖(Meta曾因首款训练芯片未达预期而推倒重来,重新规划一款2025年问世的新芯片 (META Custom AI Inference Chips MTIA for a META AI Personal ...
))。虽然官方未完全披露训练芯片详情,但可以预见Meta将结合自身在大模型(如Llama系列)方面的需求,定制专门的架构。据悉,Meta的自研芯片也会深度结合PyTorch框架(Meta主导开发),实现软硬件协同。 - 特斯拉(Tesla): 特斯拉自研的AI超级计算集群Dojo是业内关注的焦点之一。Dojo采用特斯拉自研的D1芯片,这是一种高吞吐量计算ASIC。每颗D1芯片使用台积电7nm工艺,包含354个训练核心,晶体管数达500亿,功耗约400W (Tesla Dojo - Wikipedia
) (Tesla Dojo - Wikipedia
)。25颗D1组成一个训练Tile(矩阵),Tile内部通过高速硅基光纤互连,提供高达36 TB/s的通信带宽 (Tesla Dojo - Wikipedia
),并集成总计11GB片上SRAM供快速缓存 (Tesla Dojo - Wikipedia
)。特斯拉在2023年7月宣布Dojo开始投入生产,并计划在2024年投入超过10亿美元扩展Dojo集群 (Tesla jumps as analyst predicts $600 billion value boost from Dojo | Reuters
)。完整形态的Dojo ExaPOD包含120个Tile(即3000颗D1芯片),总计106.2万核心,BF16算力达到1 EFLOPS(百亿亿次) (Tesla Dojo - Wikipedia
)。整个ExaPOD系统拥有**1.3TB片上SRAM和13TB高带宽内存(HBM)**供模型数据存储 (Tesla Dojo - Wikipedia
)。Dojo的架构独具特色:采用二维网格直连代替传统GPU+PCIe结构,将计算单元紧密耦合减少延迟,并通过特斯拉自研编译器和库直接支持PyTorch模型训练 (Tesla Dojo - Wikipedia
)。特斯拉声称Dojo针对其自动驾驶视觉模型进行了高度优化,可更高效地处理海量摄像头视频数据 (Tesla Dojo - Wikipedia
)。一旦Dojo充分部署,特斯拉有望降低对英伟达GPU的需求(此前特斯拉主要使用一个5760块A100的GPU集群训练自动驾驶模型 (Tesla Dojo - Wikipedia
))。业内分析师甚至预测,Dojo如果成功,将为特斯拉带来巨大的市值提升和全新业务机会 (Tesla jumps as analyst predicts $600 billion value boost from Dojo | Reuters
) (Tesla jumps as analyst predicts $600 billion value boost from Dojo | Reuters
)。不过短期内,特斯拉在Dojo之外仍采购了大量英伟达GPU来满足自家和Elon Musk其他AI项目的算力需求 (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED
)。 - X(推特/ xAI): X(原推特)在被Elon Musk接管后,也加入了AI竞赛。2023年,马斯克创建了新公司xAI,计划开发类ChatGPT的大模型。据报道,马斯克一次性购入约1万块GPU用于推特的数据中心,用于训练AI模型 (Elon Musk buys 10,000 GPUs for Twitter AI project - DCD
)。这些GPU很可能是英伟达A100或H100。马斯克一方面签署了暂停巨型AI训练的公开信,另一方面又大举投资GPU,显示其对打造AI的雄心 (Elon Musk buys 10,000 GPUs for Twitter AI project - DCD
)。截至2024年中,马斯克甚至从特斯拉调拨预留给Dojo的英伟达H100算力给X公司使用 (Elon Musk told Nvidia to ship AI chips reserved for Tesla to X, xAI
)(体现出内部资源调配)。2024年7月,马斯克在社交平台X上宣称,他的xAI团队已与X和英伟达合作构建了一个由10万块H100组成的超级集群,号称“全球最强的AI训练集群” (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED
)。这暗示马斯克打算靠英伟达GPU迅速搭建起媲美Google、Meta级别的大算力。这一策略短期奏效,但长期来看,马斯克也可能将目光转向特斯拉Dojo——如果Dojo成熟,完全有可能为xAI的模型训练提供算力支持。因此,X目前并无自研GPU,但通过大规模采购和兄弟公司协同,迅速积累了AI算力资源。 - 华为: 在美国出口管制下,华为将自研AI芯片上升到战略高度。目前华为已有昇腾910系列高性能AI芯片。2019年发布的昇腾910(代号“达芬奇”架构)采用7nm工艺,单芯片提供256 TFLOPS(FP16)的算力,配备32GB HBM2高速显存和310W TDP,定位类似英伟达A100。2022年华为推出昇腾910B改进版,英伟达将其视为主要竞争对手之一 (Why does NVIDIA consider Huawei as its top competitor?
)。据报道,910B在中国市场反响热烈,已成为许多行业替代英伟达A100的首选方案,性能相当且每瓦性能略优于A100 (Why does NVIDIA consider Huawei as its top competitor?
)。截至2022年底,中国开发的70多个重要大模型中,有一半采用了华为昇腾方案 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
)。为了赶超英伟达最新H100,华为正在开发昇腾910C。910C被视为910B的飞跃,有望逼近H100水平 (中美半导体巨响!华为AI芯片准备问世外媒:可能会挑战英伟达主导地位
)。华为已于2024年9月开始测试910C样片 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
)。据《华尔街日报》报道,华为已邀请字节跳动、百度等大厂试用910C,反响积极 (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News
)。分析人士认为910C若成功商用,将重挫英伟达在中国高端AI芯片市场的主导地位 (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News
) (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News
)。需要注意的是,受限于制造工艺(华为无法使用台积电5nm及以下工艺),910C可能通过国产工艺(如中芯7nm)生产,这对性能有一定影响。目前测试数据显示910C在部分AI推理任务上达到H100约60%的性能 (在DeepSeek推理任务中,华为昇腾910C已达英伟达H100性能的60%!
)。即便如此,考虑到英伟达H800等阉割版在中国的性能受限,910C完全有机会在中国市场占据显著份额。华为也在寻求本土解决存储瓶颈的办法,组建联合体研发国产HBM内存,以突破高带宽内存受制于美日韩厂商的难题 (Huawei Aims to Develop Homegrown HBM Memory Amidst US ...
)。总之,华为正迎难而上,通过自研芯片积极填补被封堵的高端GPU空白,并取得了阶段性成果。
小结: 从以上可以看出,“自研芯片”已成科技巨头的共同选择。据《NextPlatform》报道,如今每一家超大规模云厂商都在打造自有CPU或AI加速芯片 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
)。尽管研发芯片需要高昂投入、长周期和专业人才(OpenAI曾考虑自建芯片厂但因成本放弃 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters
)),但巨头们普遍认为这有利于长期掌控算力命脉。当前,这些自研芯片处于不同成熟阶段:AWS和谷歌已商用多代,微软、华为紧随其后,OpenAI、Meta则在筹备中。未来2-3年内,我们将看到更多这类芯片落地并投入大模型训练/推理的实战。
扩展规模的挑战:通信与集群
在训练上百亿参数的大模型时,往往需要数百甚至上万颗芯片并行协作,这使芯片间的高速通信成为关键瓶颈之一。各公司在构建大规模AI集群时,都面临类似挑战:如何让众多GPU/加速器高效“互联”,以接近线性地提升整体算力。主要难点包括带宽、延迟和可扩展性。
小结: 架设大模型所需的算力集群,通信架构至关重要。英伟达通过NVLink/NVSwitch在单机提供超高带宽,但跨机需借助高速网络,AWS和谷歌则倾向定制网络硬件实现全局高速互连 (Training with Neuron - FAQ — AWS Neuron Documentation
) (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)。特斯拉选择在芯片架构上做“近距离互连”设计,融合计算与通信。 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters
)正如OpenAI与博通合作也是为了解决**“成千上万颗芯片串联工作时的信息传输”**问题 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters
)。未来随着集群规模进一步扩大,通信将愈发成为瓶颈领域,预计我们会看到更多硬件层面的创新来提升带宽、降低延迟。
大模型训练与推理:瓶颈与潜在优势
尽管各家公司在AI芯片上百花齐放,但在大模型训练和推理过程中仍面临诸多共同的技术瓶颈。同时,不同架构相较于英伟达GPU也各有潜在优势和劣势。下面总结主要的限制因素及各家方案相对于英伟达可能的优劣:
1. 内存容量与带宽瓶颈: 大模型通常参数规模庞大,单卡显存往往无法容纳全部模型,需要进行模型并行拆分(如张量并行、流水线并行)。英伟达H100显存上限80GB,在加载数千亿参数模型时需要多卡协同,这会带来通信开销和编程复杂度。有限的显存被认为是当前GPU训练最大的瓶颈之一。各公司在自研芯片时都在想办法提升内存容量或缓解显存不足问题。例如谷歌TPU v5p将每芯片HBM容量提高了3倍,以适应更大模型存储需求 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads
)。特斯拉Dojo通过将SRAM组合成统一地址空间的方式,方便在多芯片上拼接更大的“全局内存” (Tesla Dojo - Wikipedia
)。此外,内存带宽也是瓶颈——GPU/加速器的计算单元越来越强,但能否及时从内存取数据成为限制。英伟达H100 HBM3总带宽约3 TB/s,AWS Trainium号称每芯片带宽更高且效率更好,可在小批量训练下保持较高利用率 (Training with Neuron - FAQ — AWS Neuron Documentation
)。总体而言,**“内存墙”**问题在所有架构上存在,需要通过增加HBM堆栈、提高频宽、使用更优的内存层次结构等手段解决。
2. 软件生态与开发者门槛: 如前所述,英伟达CUDA及其成熟软件库(cuDNN、TensorRT等)是其隐藏的杀手锏 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。多年来开发者习惯了英伟达的平台,要迁移到新硬件需要重新适配和测试大量代码,这形成很高的迁移门槛 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。AWS就承认,“CUDA是客户留在英伟达平台的最大原因” (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。相比之下,AWS Neuron SDK、谷歌XLA、华为CANN等还较新,工具链和社区支持不如CUDA丰富 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。这导致许多公司在考虑非英伟达方案时会犹豫。因此,英伟达在软件生态上的领先使其GPU即使在纯硬件性能不占优时仍具有竞争力。各竞争者也在努力弥补这一差距:例如华为成为PyTorch官方贡献者,使PyTorch对昇腾芯片原生支持;AWS与深度学习框架开发者合作优化Neuron编译器等等。但在短期内,软件成熟度依然是英伟达的一大优势和他人面临的瓶颈。
3. 算力与能效: 深度学习对算力的需求几乎是无止境的,但提升算力往往以更高功耗为代价。当前7nm/5nm硅工艺下,单芯片算力提高主要来自堆叠更多核心和提高频率,这导致功耗剧增。散热与功耗因此成为瓶颈之一。例如亚马逊Trainium 3据称功耗超过1000W,需要全面液冷 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
);英伟达H100的高功耗也令数据中心的供电和冷却面临挑战。能效(每瓦性能)方面,英伟达GPU通过张量核心、稀疏矩阵支持等在提升。但某些自研芯片在特定场景下表现出更优能效,比如华为910B每瓦FP16性能达5.2 TFLOPS,略高于英伟达A100的4.7 TFLOPS/W (HuaWei、NVIDIA 数据中心AI 算力对比_910b算力 - CSDN博客
)。专用加速器去除了GPU上一些通用图形管线,理论上可以在AI计算上更省电。谷歌TPU v4在相同时代节点上就体现出更佳的性能功耗比 (Google boffins reveal tech details of TPU v4 datacenter rigs • The Register
)。特斯拉Dojo通过8位可配置浮点格式(CFloat8)等创新,以降低计算所需位宽,从而提升能效 (Tesla Dojo - Wikipedia
)。因此,在算力/功耗平衡上,自研方案如果针对特定AI算子优化,有潜在能效优势。但在通用性上,英伟达的Tensor Core等单元也高度优化了AI计算,各方案的实际每瓦性能优劣需要综合对比具体模型和精度。
4. 精度与模型泛化: 大模型训练需要在性能和精度间平衡。英伟达推行混合精度训练(FP16+FP32逐步累加),以及最近的FP8格式,以提升计算效率。新硬件必须支持低精度计算以达到高算力。但降精度可能带来数值不稳定,这对芯片的数值算法和框架支持提出要求。例如,AWS在Trainium中引入随机舍入(Stochastic Rounding)技术,让开发者以FP32编程,实际执行以BF16达到接近FP32的精度 (Training with Neuron - FAQ — AWS Neuron Documentation
)。Tesla的Dojo采用可配置浮点格式,让编译器动态调整8位浮点的有效位宽以兼顾精度和速度 (Tesla Dojo - Wikipedia
)。这些都是为减小低精度带来的收敛损失而做的努力。在这方面英伟达也引入了Transformer Engine(支持FP8)来优化大模型训练。因此,各方案在精度上的瓶颈主要是如何既利用低精度提升算力,又不牺牲模型精度。目前看来,不同芯片在这方面的差异不大,因为算法层面大多采取类似策略,差别更多体现在软件易用性上(例如AWS的方案使用户几乎无需手动调整精度 (Training with Neuron - FAQ — AWS Neuron Documentation
))。
5. 成本与供货: 对很多终端用户而言,成本(Cost)也是实际瓶颈之一。英伟达高端GPU价格昂贵且一卡难求(2023年以来H100常常供不应求)。一些公司自研芯片的初衷就是降低成本和摆脱供应制约。AWS宣称Trainium可带来30-40%的成本节省 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
),Meta自研推理芯片也是为更高性价比服务自家业务 (Introducing Our Next Generation Infrastructure for AI | Meta
)。然而,自研芯片初期的单位成本可能反而更高,需要规模化后才显现优势。而英伟达由于大规模出货,摊薄研发成本,在价格上未必没有竞争力。此外,供货周期也是瓶颈:训练大模型需要尽早拿到足够算力。像2023年很多公司即便愿意付高价也很难短期拿到上万颗H100,这反过来推动了他们自研和采用替代品。未来随着产能改善,这一瓶颈或减缓,但短期内算力紧缺仍是现实。因此在优势上,掌控供应链的自研芯片可以带来更稳定的供货,这也是为何OpenAI等不惜投入自研的原因之一 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters
) (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters
)。
6. 专用优化 vs 通用灵活: 定制芯片往往针对特定类型模型/算子做优化,在擅长领域有优势,但对于超出预期的新模型可能显得不够灵活。比如谷歌TPU对Transformer这类矩阵运算非常高效,但早期对RNN等序列模型支持一般(后来通过软件改善)。英伟达GPU由于指令集和CUDA生态丰富,对于研究人员开发新模型、新算子支持很快(自己编写CUDA核函数即可)。而封闭的ASIC往往需要等厂商更新SDK支持新算子。因此,在前瞻性和通用性上,英伟达仍有一定优势。不过各大公司也通过开放软硬件接口来提高自研芯片的灵活性,如提供自定义算子接口等。总的来说,在能效和单位成本上,自研ASIC有潜在性能/成本优势,但在灵活性和生态丰富度上,英伟达GPU依然更成熟稳健。
小结: 大模型训练的主要瓶颈可以概括为**“存储、通信、精度、生态、能耗”等方面。这些限制在不同硬件架构上以不同形式出现,需要通过软硬件协同优化来缓解。英伟达凭借多年的生态积累,在软件兼容性和开发便利上仍远领先 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
);然而各巨头的定制芯片在特定指标上展现出优势,如成本降低** (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)、能效提升、带宽更高或内存更大等。例如AWS Trainium通过专用通信硬件,实现了更佳的大规模扩展效率 (Training with Neuron - FAQ — AWS Neuron Documentation
);谷歌TPU以系统设计赢得性能和能耗优势 (Google boffins reveal tech details of TPU v4 datacenter rigs • The Register
);华为昇腾在国内市场快速替代部分英伟达份额 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
)。未来,随着这些新硬件的软件生态逐渐完善、性能不断迭代,我们可能看到在特定应用领域超越英伟达GPU的综合优势逐步显现。但短期内,不同方案更多是互有优劣,在实际部署时需要综合考量模型类型、开发成本和现有技术栈等因素来选型。
对英伟达主导地位的影响
鉴于英伟达目前在AI GPU市场近乎垄断的地位(尤其在欧美市场),上述公司在GPU/AI芯片方面的努力会否改变这种格局,值得深入讨论。
当前市场格局: 英伟达凭借强大的硬件性能和软件生态,占据了AI训练推理的大部分市场份额。ChatGPT热潮以来,英伟达芯片销量激增,数据中心业务业绩飞涨,使其市值一度突破万亿美元 (Why does NVIDIA consider Huawei as its top competitor?
)。在2023财年报中,英伟达甚至首次将华为列为主要竞争对手之一,表明其也注意到竞争环境的变化 (Why does NVIDIA consider Huawei as its top competitor?
)。然而从供需看,短期内英伟达GPU仍供不应求,很多企业一机难求,这种情况下即使有替代品出现,也难以撼动英伟达销量——因为市场需求太旺盛了。正如有人调侃:“现在别说竞争对手,就算多一个英伟达自己出来,产能也照样被消化”。
各巨头举措的影响: 长远来看,各大AI玩家自研芯片的举措,正在逐步削弱英伟达的垄断力量。“几大AI公司寻求替代,至少可以增强与英伟达谈判时的筹码” (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD
)。例如,亚马逊有Trainium备用,就可以在采购英伟达GPU时获得更好价格或优先级。微软有Maia芯片问世,也会让英伟达在Azure上的议价力下降。同样谷歌TPU、Meta芯片都让英伟达不再是这些大客户的唯一选择 (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD
)。此外,这些自研芯片也在开始承载实际业务,例如谷歌将部分内部模型部署在TPU上运行,等于直接减少了对英伟达GPU的需求。华为在中国市场的成功更明显:因为美国禁售,英伟达高端GPU无法进入,中国厂商纷纷转向华为昇腾等国产方案 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
) (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
)。华为910B已在中国占据相当份额,910C若成熟可能进一步削弱英伟达在华优势 (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News
)。可以预见,在中国这一全球最大潜在AI市场,英伟达的主导地位正因地缘因素被强行打破。
英伟达的应对: 面对挑战,英伟达也在调整策略。一方面,通过技术领先保持优势,比如加速推出新一代架构(如 Hopper->Blackwell),提高单卡性能和能效,使竞争对手难以在纯硬件层面追上。另一方面,英伟达也针对不同市场采取产品分级策略。例如,为中国市场推出降级版A800/H800以规避禁令,同时开发更平价的低端卡(如L40/L20系列 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
))来占领中端AI推理市场。英伟达在2023年8月再次遭禁售升级后,又快速推出了性能降低版的新GPU以继续销售中国 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
)。这些举措显示英伟达正主动出击保住市占。在软件上,英伟达也通过CUDA/XLA融合、推TensorRT-LLM等手段巩固生态壁垒。此外,英伟达开始更多参与开源社区(如支持PyTorch 2.0的开放后端接口)、与大厂合作(例如和微软合作在Azure提供AI超级计算)等,试图融入他人的AI算力版图而非被排斥在外。
展望: 短期内(未来1-2年),英伟达在高端AI GPU市场的主导地位仍将持续。原因在于:第一,现阶段没有哪家公司的自研芯片能在综合性能上全面超越H100,顶多在局部场景有优势;第二,软件生态和开发者习惯短期难以迁移,很多尖端AI研究仍优先以NVIDIA平台为目标实现;第三,需求远大于供给的状况下,即使有部分客户转投别家,英伟达依然可以卖出全部产能,不愁销路。但中长期看(3-5年),格局将从“一家独大”走向“群雄并立”。正如每家超大厂都在做自家AI芯片 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
),未来顶尖AI算力可能分散在不同体系中:谷歌有TPU云服务、AWS有Trainium云服务、微软Azure有Maia加速卡、Meta内部有自研芯片支持、华为在中国市场自成体系等等。英伟达将不再垄断最前沿的大模型训练“赛道”,而会成为众多选项之一。当然,英伟达很可能依然是最大的单一供应商,但市场份额相较如今的绝对领先将有所下降。此外,英伟达在部分区域市场的地位可能被动摇,例如在中国高端AI芯片因政策原因就已出现被替代趋势 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力
)。值得注意的是,由于AI需求增长太快,竞争者的进入未必会严重冲击英伟达的营收,反而可能是一起做大“蛋糕”。例如,亚马逊既卖Trainium算力也继续大量采购英伟达GPU,AWS高管就表示“并非要取代NVIDIA,而是给客户提供更多选择” (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance
)。总体而言,自研芯片潮的崛起将终结英伟达一家独大的局面,但英伟达通过保持技术和生态优势,仍会是AI硬件领域的主要力量之一。
NVIDIA显存限制:技术瓶颈还是商业策略?
显存大小是衡量AI加速卡能力的关键参数之一。当前NVIDIA高端数据中心GPU的显存容量一般为80GB(如H100 SXM),稍早的A100有40GB和80GB两个版本。有人疑问:这一容量上限是受技术所限,还是英伟达的商业选择?未来自研GPU是否能突破这一限制,实现单卡超大显存?单卡显存究竟能扩展到多大,这样做有哪些优势?本节将对此进行分析。
现状: 英伟达H100 GPU采用5组HBM3内存堆栈(每组含多个内存裸片),总容量80GB。实际上,H100物理上预留了6组HBM位置,但出于良品率和成本考虑,只启用了其中5组。英伟达今年推出的H100 NVL双卡产品中,每块H100卡启用了6组HBM,达到了94GB显存(两块绑在一起总188GB) (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models
) (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models
)。这表明从技术上,H100单GPU可以做到94GB甚至96GB左右(NVL版可能有约2GB用于冗余校验)。另一家GPU厂商AMD则更加激进,其MI300X加速器整合了多个计算芯片和HBM堆栈,提供192GB超大显存,专为大模型部署设计。可见显存容量上并无不可逾越的物理极限:取决于愿意堆叠多少颗HBM内存以及封装技术能否支持。
技术因素: 增大显存受制于几方面技术挑战:首先是封装空间和信号。HBM内存需要通过硅中介层与GPU核心连接,每增加一组HBM,封装尺寸和布线复杂度就上升。当前GPU(比如H100芯片面积814mm² (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models
))周围通常布置4-6组HBM已接近物理极限,若再增加可能需要更大的中介层甚至新的3D封装方式。其次是良品率。GPU芯片和HBM封装在一起,一旦其中任何一部分有缺陷都会影响整卡良率。增加HBM数量意味着增加潜在故障点,出片率会下降。这就是英伟达为何默认只启用5组HBM,将第6组作为冗余或者干脆阉掉以提升总体良率的原因之一。再次,功耗和散热也是限制。更多HBM会消耗更多功耗,并产生更多热量,需要更强的供电和散热设计。例如MI300X那样的超大显存方案就不得不采用多芯片和液冷。同时HBM堆栈本身有发热,如果贴在GPU旁边过多也会加剧散热难度。最后,产业链供应:HBM属于高成本器件,产能有限,成本占比很大。大容量卡成本高昂,市场需求有限也会让厂商犹豫。
商业考虑: 从商业角度,英伟达对显存容量的选择也有市场策略因素。一般来说,GPU会提供“足够用”的显存容量,而不是一味做大。因为显存越大,价格越高,只有部分用户有此需求。英伟达通过推出不同显存容量的型号来覆盖市场,比如A100有40GB和80GB版,便于用户按需选择,也区分了价格档次。这种产品分层可以最大化利润:需要大显存的高端客户购买更贵型号,其他人买标准版。同时,也避免了把所有创新都用在一代产品上,方便未来升级(如下一代可以再提高显存以作为卖点)。举个例子,英伟达可以在H100基础上稍作修改就推出H100 NVL 94GB版,专门针对LLM部署市场 (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models
),而不必所有H100都用94GB,这样既满足特定需求又不影响主流产品成本结构。因此,很大程度上当前80GB的限制是英伟达权衡技术与商业后的决定:80GB已能覆盖大多数训练任务,通过多卡并行也能跑更大模型,而把更大的显存留作特殊SKU或下代产品。
能否突破: 自研GPU完全可以根据自身应用需求来突破商用GPU的显存限制。例如,如果某公司确定其模型需要单卡>100GB显存,他们就可以堆叠更多HBM或采用新型封装实现这一点,只要能接受成本和复杂度。例如AMD已经用MI300X证明192GB显存单卡的可行性。谷歌TPU虽单芯片HBM不算极大(TPU v4每芯片32GB),但其方案是通过高速网络让多个芯片协同充当“一个大显存”。另一种突破思路是使用主存直连:NVIDIA自家的Grace-Hopper架构就让GPU直接访问CPU的内存,虽然带宽比不上HBM,但可提供TB级别的地址空间,使GPU视角下“可用内存”显著增大 (H100 Tensor Core GPU - NVIDIA
)。未来,若有需要,单卡显存达到256GB甚至512GB并非不可想象,比如采用8-12堆HBM3E(单堆24GB)即可实现。不过要权衡成本:目前这样的卡造价会非常高昂。
优势: 增大单GPU显存的直接好处是能装下更大的模型或数据,减少对模型并行拆分的依赖。对于超大参数模型,如果能在一块卡上完成训练/推理,将大幅简化软件实现,避免多卡同步通信的复杂性和开销。例如,GPT-4这样规模的模型若能在单卡跑完前向和反向,不需切分,会降低误差累积风险和调优难度。尤其在推理场景下,大显存意味着单卡即可载完整个模型,从而降低推理延迟(无需跨卡通信)并提升部署灵活性。举例来说,1750亿参数的GPT-3模型如果以8位权重存储约需要175GB内存,传统80GB卡需要拆分到3卡以上,而192GB显存卡理论上一块就能放下(配合一定压缩),这样部署一个模型只占用一块卡资源,性价比和性能都会提升。另外,大显存还能容纳更大批次(batch)或更大输入序列,有助于提高训练效率或推理吞吐。还有些特殊模型(如大规模图神经网络、推荐系统的巨大Embedding表)非常依赖内存容量,显存越大就意味着这些模型越能整合在GPU上完成,省去频繁访问外部内存的开销。总之,在算力一定的前提下,更大的显存带来的是对更复杂模型和更海量数据的直接掌控能力。
权衡: 当然,无限制增大显存也有边际效益递减的问题。对于许多小型模型或中等规模模型而言,80GB已经绰绰有余,继续增加并不能提高速度,反而让资源利用率下降。而且超大显存的卡如果计算性能跟不上,也会出现“有内存装不满算力”的情况——即内存利用率低。所以实务中一般是计算与显存平衡设计。此外,如前述,超大显存卡成本高、功耗高,只适合特定客户,量产意义不大。所以厂商往往会选择一个合理容量作为主力(例如80GB),然后通过多卡互连或特殊版本来满足超大模型需求(如94GB NVL用于LLM (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models
))。自研GPU可以更灵活地做出这种取舍:如果公司业务明确需要大显存,他们可以牺牲良率和成本换取容量。例如Meta的推荐模型需要存储巨量Embedding,他们可能偏向设计带超大内存的加速器;而OpenAI若针对推理优化芯片,或许会重视每卡能加载尽可能多的模型权重,从而降低部署成本。
小结: NVIDIA显存大小既受技术限制也有商业考量。目前80GB并非绝对极限,英伟达已经在特定产品上做到94GB (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models
)。其他厂商(如AMD MI300X)证明了更大容量的可行性。自研GPU有机会突破现有商用卡的显存上限,视自身需求决定最佳容量。单卡显存上限主要受封装技术和成本影响,随着HBM工艺进步和3D封装发展,我们预计单卡几百GB显存将在未来实现。更大的显存将为超大模型的训练与推理提供便利,减少分布式训练复杂度,提升单节点能力,但同时要付出更高的功耗和成本代价。对于厂商而言,需要在“多卡协同”与“单卡巨量内存”之间找到平衡点。可以预见,英伟达和其他芯片设计者都会在下一代产品中逐步提高显存容量,以满足不断增长的模型规模需求——这是技术演进和市场竞争共同驱动的结果。
未来AI GPU发展趋势展望
综上所述,AI领域GPU/加速芯片的格局正处于快速演变中。展望未来,我们可以预见以下主要趋势:
总的来看,未来几年我们将处于一个**“AI算力军备竞赛”的时期:芯片制程逼近极限,但需求推动架构、系统上不断演进甚至革命。可以确信的是,AI模型的进化高度依赖算力的支撑,而算力的提升则取决于上述诸多技术趋势能否实现。GPU这一概念也在不断延伸,泛指各类面向AI的加速器。也许若干年后回顾,我们会发现今天的NVIDIA GPU只是AI加速漫长历史中的一个起点,后续还有更加绚烂的创新篇章。在这场竞赛中,没有永远的王者,只有不断创新者才能立于不败之地。对于行业和用户来说,竞争格局的形成终将带来更高性能、更高能效和更开放易用的AI计算平台**,助力人工智能迈向新的台阶。各大公司在GPU研发上的最新进展,正是孕育未来突破的希望所在。 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips
) (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD
)
想发布自己的文章?
|
|