|

楼主 |
发表于 2025-2-11 06:16:56
|
显示全部楼层
AI领域GPU研发最新进展与趋势报告
绕开CUDA的大模型训练方案
英伟达CUDA生态经过多年发展,已成为AI训练的实际标准,但各大科技公司正努力寻求替代方案,以降低对CUDA和英伟达GPU的依赖。在大模型训练中绕开CUDA,通常意味着开发自有的软件栈或硬件加速器:
AWS(Amazon): AWS开发了自研AI芯片Trainium和Inferentia,并提供配套的Neuron SDK软件栈。Neuron深度集成主流框架(如TensorFlow/PyTorch),自动将模型编译优化到Trainium上,无需使用Nvidia CUDA闭源依赖 (Training with Neuron - FAQ — AWS Neuron Documentation)。这让开发者可在不改动模型代码的情况下运行于Trainium,并摆脱对CUDA库的绑定 (Training with Neuron - FAQ — AWS Neuron Documentation)。AWS明确指出CUDA是客户紧抓英伟达的最大原因 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance),“Neuron SDK”则是他们的答案,用开放方式提供类似CUDA的功能 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。
谷歌(Google): 谷歌自2016年起推出TPU(Tensor Processing Unit)专用AI加速器,完全绕过CUDA。TPU采用谷歌自研编译器(XLA)和框架(TensorFlow/JAX),在软件层面由谷歌的开放软件栈支持常用框架的运行 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。开发者可使用TensorFlow或JAX编写模型,XLA将计算图编译为TPU指令,无需涉及CUDA。谷歌通过这种软硬件协同,使得TPU在训练大规模模型时效率甚高,在相同性能等级系统下较英伟达A100快1.2~1.7倍,能耗低1.3~1.9倍 (Google boffins reveal tech details of TPU v4 datacenter rigs • The Register)。
华为: 华为自研昇腾(Ascend)系列AI芯片,并建立了完整的软件生态以替代CUDA,包括CANN(计算架构)和MindSpore框架。华为的昇腾910B芯片已在中国市场大量应用,据称单卡性能可媲美英伟达A100 (Why does NVIDIA consider Huawei as its top competitor?)。更重要的是,华为构建了自己的AI开发生态,堪比英伟达CUDA框架——即CANN和MindSpore,为昇腾芯片提供全面的软件支持 (Why does NVIDIA consider Huawei as its top competitor?)。PyTorch等主流框架现已支持昇腾后端,开发者可用熟悉的工具链在昇腾上训练大模型,从而绕开英伟达的软件束缚。
特斯拉(Tesla): 特斯拉研制的Dojo超级计算机采用自研的D1 AI芯片,同样抛弃了CUDA编程模型。Dojo的软件栈支持直接使用PyTorch等高级框架进行训练,开发者不需要使用底层C/C++或CUDA (Tesla Dojo - Wikipedia)。特斯拉在硬件架构上提供统一的SRAM地址空间和定制编译器,使模型并行拆分和数据传输由系统自动管理 (Tesla Dojo - Wikipedia)。这种设计理念确保使用Dojo进行大规模模型训练时,软件开发与在GPU上训练差异很小,却无需依赖CUDA库。
微软、OpenAI、Meta等: 微软和OpenAI目前主要使用英伟达GPU进行大模型训练,但也在尝试支持其他平台。OpenAI已开始在其基础设施中增加AMD的GPU,以多元化算力供应 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters);AMD的GPU使用ROCm开源平台,与CUDA类似但开放。微软则推出了自研的Maia 100加速器,并宣称其Azure云将为客户提供多样化的底层算力选择 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source) (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source)。Meta作为PyTorch主要维护者,也确保PyTorch对各种定制加速器兼容,并在自研MTIA芯片中与PyTorch进行了深度整合(Meta称其自研推理芯片是一套“硅-软件”协同设计的解决方案,包括芯片、PyTorch框架和模型优化的全栈 (Introducing Our Next Generation Infrastructure for AI | Meta) (Introducing Our Next Generation Infrastructure for AI | Meta))。这些举措都旨在减少对CUDA的依赖,通过开源或自研的软件使大模型可在不同硬件上训练。
小结: 越来越多公司选择开发自有AI芯片和软件栈,从而绕过英伟达的CUDA生态。例如AWS的Neuron编译器直接取代CUDA加速库 (Training with Neuron - FAQ — AWS Neuron Documentation);华为的MindSpore/CANN体系被视为“华为版CUDA” (Why does NVIDIA consider Huawei as its top competitor?)。这种趋势赋予开发者更多选择,也使AI算力供应不再由单一厂商的软件架构主导。
巨头自研AI芯片的进展
各大科技巨头在GPU/AI芯片研发上投入巨资,试图打造定制化的算力。以下是OpenAI、微软、亚马逊、谷歌、Meta、特斯拉、X(推特)、华为等公司的自研芯片最新进展:
OpenAI: 这家ChatGPT背后的公司过去完全依赖英伟达GPU,但由于算力需求暴增,OpenAI已启动自研AI芯片计划。2023年有报道称OpenAI在评估收购芯片公司并组建团队研发定制AI芯片 (ChatGPT-owner OpenAI is exploring making its own AI chips - Reuters)。最新消息显示,OpenAI正与博通(Broadcom)合作设计其首款自研AI芯片,由台积电代工制造,并已组建了约20人的芯片团队,其中包括前谷歌TPU资深工程师 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters)。OpenAI最初考虑同时开发训练和推理芯片以及自建晶圆厂,但由于成本和周期太高,已暂缓自建工厂的计划,聚焦于设计定制的AI推理芯片 (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware) (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware)。该芯片预计最早2026年问世,主要用于模型推理环节,以提升部署效率 (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware)。在此之前,OpenAI将继续使用英伟达GPU进行训练,并增加AMD GPU来满足需求 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters)。整体而言,OpenAI自研芯片仍处于早期设计和验证阶段,预计需要数年时间落地 (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware) (OpenAI reportedly builds custom AI chips as it embraces AMD — company also abandons plans to build its own fabs | Tom's Hardware)。
微软(Microsoft): 微软从2019年起秘密研发代号**“Athena”的AI芯片。2023年11月微软在Ignite大会上正式公布了这款自研加速器,命名为Azure Maia 100**。Maia 100采用台积电5nm工艺,晶体管数高达1050亿 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips), 支持大语言模型的训练和推理,是微软首款专为AI设计的加速芯片 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source) (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips)。Maia 100将于2024年开始部署到Azure数据中心,优先支持微软自己的Copilot、Azure OpenAI等服务 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source)。目前Maia 100已在微软内部运行GPT-3.5模型并为GitHub Copilot提供算力支持 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips)。微软还同步发布了自研的Arm架构服务器CPU(Azure Cobalt 100),与Maia一起构成完整的云端算力方案 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source)。微软打造芯片的难点在于招募团队和供应链整合,不过他们通过数年秘密研发,终于追上了谷歌、亚马逊等在定制芯片上的步伐 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips)。预计Maia加速器2024年起向Azure客户提供服务,并与英伟达H100在云端形成竞逐 (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD)。值得一提的是,微软也与AMD深度合作,支持后者MI300系列GPU优化AI性能 (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD)。
亚马逊(Amazon): AWS早在2010年代就决心自研芯片,实现**“软硬件全栈协同”** (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips)。目前AWS已推出三款主要自研芯片:面向通用计算的Graviton CPU、面向存储/网络的Nitro、以及面向AI的Trainium和Inferentia。Trainium是AWS于2022年开始提供的训练芯片(对应Trn1实例),Inferentia则是2019年推出的推理芯片(Inf1/Inf2实例)。Trainium一代芯片采用7nm工艺,有16个NeuronCore计算单元,AWS宣称其性价比比同期GPU提升30-40% (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。2023年AWS发布了Trainium 2,并计划在2025年底推出性能再提升4倍的Trainium 3 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。Trainium 3据称功耗将超过1000瓦,需要大规模采用液冷技术以散热 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。AWS的策略是以更低成本的AI算力吸引客户,同时大规模部署自己的芯片。AWS计划在数据中心部署10万颗Trainium芯片,打造大规模AI超级集群 UltraCluster (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。AWS也投资了Anthropic等AI创业公司,合作优化Trainium的性能;Anthropic反馈称在成本大幅降低的同时仍保持了出色性能 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。总体而言,亚马逊通过多年积累,已经成功将自研AI芯片推向商用并不断演进。在研发难度方面,AWS需要弥补的主要是软件生态与CUDA的差距,但他们也在持续改进Neuron SDK以缩小差距 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。
谷歌(Google): 谷歌是业界最早大规模应用自研AI加速器的公司。早在2016年就发布了第一代TPU用于加速深度学习推理,2017年起推出用于训练的TPUv2,并在此后以约两年一代的节奏迭代。当前最新的是2023年公布的TPU v5p(第五代性能版)。TPU v5p相比上一代TPU v4在性能和规模上飞跃:单个TPU v5p芯片的算力超过两倍TPU v4,HBM高速内存容量提升3倍 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。谷歌构建了庞大的TPU集群(称为TPU Pod或“AI超算”)——例如TPU v5p Pod由8960颗芯片通过4,800 Gbps/芯片的高速互联连接,组成3D环形拓扑网络 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。TPU集群可扩展至数千甚至上万芯片并行工作,是谷歌支撑其AI模型(如PaLM、Imagen等)训练的核心基础设施。研发TPU对谷歌而言投入巨大,但收效显著:谷歌曾披露,其TPU v4超级计算机在相同性能规模下比英伟达A100快1.2-1.7倍,效率高1.3-1.9倍 (Google boffins reveal tech details of TPU v4 datacenter rigs • The Register)。TPU的成功也使谷歌在硬件上减少了对英伟达的依赖。最新的TPU v5p据报告在训练大型LLM时速度比v4提升2.8倍,性价比提升2.3倍 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。谷歌的战略是一边优化硬件(如引入更先进的网络和液冷 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)),一边开放软件支持(如TensorFlow、JAX全面支持TPU (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)),以吸引更多外部客户使用其云TPU。未来谷歌预计会继续演进TPU,并通过软硬件系统式协同设计来保持在超大规模AI训练上的领先地位 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。
Meta: Meta(原Facebook)在AI芯片上布局涵盖推理和训练两方面。2022年,Meta公布了第一代MTIA v1(Meta Training and Inference Accelerator),实际上主要用于推理(服务其推荐算法等) (Introducing Our Next Generation Infrastructure for AI | Meta) (Introducing Our Next Generation Infrastructure for AI | Meta)。MTIA v1是Meta内部深度学习推理加速卡,相比CPU部署效率更高。到2024年,Meta宣布正在研发新一代MTIA芯片,计算和内存带宽较前代提升逾一倍 (Introducing Our Next Generation Infrastructure for AI | Meta)。这些芯片将用于支持Meta大量的内容推荐、广告排序等模型,以降低对现有GPU的依赖。与此同时,Meta在大模型训练方面仍主要依赖GPU集群。Meta打造了AI Research SuperCluster(RSC),据报道在训练最新Llama模型时,使用的集群规模已超过10万块英伟达H100,是目前已知规模最大的AI训练集群之一 (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED)。不过,有消息称Meta也在研发自有的大模型训练芯片,计划2025年投入使用,以摆脱对GPU的长期依赖(Meta曾因首款训练芯片未达预期而推倒重来,重新规划一款2025年问世的新芯片 (META Custom AI Inference Chips MTIA for a META AI Personal ...))。虽然官方未完全披露训练芯片详情,但可以预见Meta将结合自身在大模型(如Llama系列)方面的需求,定制专门的架构。据悉,Meta的自研芯片也会深度结合PyTorch框架(Meta主导开发),实现软硬件协同。
特斯拉(Tesla): 特斯拉自研的AI超级计算集群Dojo是业内关注的焦点之一。Dojo采用特斯拉自研的D1芯片,这是一种高吞吐量计算ASIC。每颗D1芯片使用台积电7nm工艺,包含354个训练核心,晶体管数达500亿,功耗约400W (Tesla Dojo - Wikipedia) (Tesla Dojo - Wikipedia)。25颗D1组成一个训练Tile(矩阵),Tile内部通过高速硅基光纤互连,提供高达36 TB/s的通信带宽 (Tesla Dojo - Wikipedia),并集成总计11GB片上SRAM供快速缓存 (Tesla Dojo - Wikipedia)。特斯拉在2023年7月宣布Dojo开始投入生产,并计划在2024年投入超过10亿美元扩展Dojo集群 (Tesla jumps as analyst predicts $600 billion value boost from Dojo | Reuters)。完整形态的Dojo ExaPOD包含120个Tile(即3000颗D1芯片),总计106.2万核心,BF16算力达到1 EFLOPS(百亿亿次) (Tesla Dojo - Wikipedia)。整个ExaPOD系统拥有**1.3TB片上SRAM和13TB高带宽内存(HBM)**供模型数据存储 (Tesla Dojo - Wikipedia)。Dojo的架构独具特色:采用二维网格直连代替传统GPU+PCIe结构,将计算单元紧密耦合减少延迟,并通过特斯拉自研编译器和库直接支持PyTorch模型训练 (Tesla Dojo - Wikipedia)。特斯拉声称Dojo针对其自动驾驶视觉模型进行了高度优化,可更高效地处理海量摄像头视频数据 (Tesla Dojo - Wikipedia)。一旦Dojo充分部署,特斯拉有望降低对英伟达GPU的需求(此前特斯拉主要使用一个5760块A100的GPU集群训练自动驾驶模型 (Tesla Dojo - Wikipedia))。业内分析师甚至预测,Dojo如果成功,将为特斯拉带来巨大的市值提升和全新业务机会 (Tesla jumps as analyst predicts $600 billion value boost from Dojo | Reuters) (Tesla jumps as analyst predicts $600 billion value boost from Dojo | Reuters)。不过短期内,特斯拉在Dojo之外仍采购了大量英伟达GPU来满足自家和Elon Musk其他AI项目的算力需求 (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED)。
X(推特/ xAI): X(原推特)在被Elon Musk接管后,也加入了AI竞赛。2023年,马斯克创建了新公司xAI,计划开发类ChatGPT的大模型。据报道,马斯克一次性购入约1万块GPU用于推特的数据中心,用于训练AI模型 (Elon Musk buys 10,000 GPUs for Twitter AI project - DCD)。这些GPU很可能是英伟达A100或H100。马斯克一方面签署了暂停巨型AI训练的公开信,另一方面又大举投资GPU,显示其对打造AI的雄心 (Elon Musk buys 10,000 GPUs for Twitter AI project - DCD)。截至2024年中,马斯克甚至从特斯拉调拨预留给Dojo的英伟达H100算力给X公司使用 (Elon Musk told Nvidia to ship AI chips reserved for Tesla to X, xAI)(体现出内部资源调配)。2024年7月,马斯克在社交平台X上宣称,他的xAI团队已与X和英伟达合作构建了一个由10万块H100组成的超级集群,号称“全球最强的AI训练集群” (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED)。这暗示马斯克打算靠英伟达GPU迅速搭建起媲美Google、Meta级别的大算力。这一策略短期奏效,但长期来看,马斯克也可能将目光转向特斯拉Dojo——如果Dojo成熟,完全有可能为xAI的模型训练提供算力支持。因此,X目前并无自研GPU,但通过大规模采购和兄弟公司协同,迅速积累了AI算力资源。
华为: 在美国出口管制下,华为将自研AI芯片上升到战略高度。目前华为已有昇腾910系列高性能AI芯片。2019年发布的昇腾910(代号“达芬奇”架构)采用7nm工艺,单芯片提供256 TFLOPS(FP16)的算力,配备32GB HBM2高速显存和310W TDP,定位类似英伟达A100。2022年华为推出昇腾910B改进版,英伟达将其视为主要竞争对手之一 (Why does NVIDIA consider Huawei as its top competitor?)。据报道,910B在中国市场反响热烈,已成为许多行业替代英伟达A100的首选方案,性能相当且每瓦性能略优于A100 (Why does NVIDIA consider Huawei as its top competitor?)。截至2022年底,中国开发的70多个重要大模型中,有一半采用了华为昇腾方案 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力)。为了赶超英伟达最新H100,华为正在开发昇腾910C。910C被视为910B的飞跃,有望逼近H100水平 (中美半导体巨响!华为AI芯片准备问世外媒:可能会挑战英伟达主导地位)。华为已于2024年9月开始测试910C样片 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力)。据《华尔街日报》报道,华为已邀请字节跳动、百度等大厂试用910C,反响积极 (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News)。分析人士认为910C若成功商用,将重挫英伟达在中国高端AI芯片市场的主导地位 (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News) (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News)。需要注意的是,受限于制造工艺(华为无法使用台积电5nm及以下工艺),910C可能通过国产工艺(如中芯7nm)生产,这对性能有一定影响。目前测试数据显示910C在部分AI推理任务上达到H100约60%的性能 (在DeepSeek推理任务中,华为昇腾910C已达英伟达H100性能的60%!)。即便如此,考虑到英伟达H800等阉割版在中国的性能受限,910C完全有机会在中国市场占据显著份额。华为也在寻求本土解决存储瓶颈的办法,组建联合体研发国产HBM内存,以突破高带宽内存受制于美日韩厂商的难题 (Huawei Aims to Develop Homegrown HBM Memory Amidst US ...)。总之,华为正迎难而上,通过自研芯片积极填补被封堵的高端GPU空白,并取得了阶段性成果。
小结: 从以上可以看出,“自研芯片”已成科技巨头的共同选择。据《NextPlatform》报道,如今每一家超大规模云厂商都在打造自有CPU或AI加速芯片 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips)。尽管研发芯片需要高昂投入、长周期和专业人才(OpenAI曾考虑自建芯片厂但因成本放弃 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters)),但巨头们普遍认为这有利于长期掌控算力命脉。当前,这些自研芯片处于不同成熟阶段:AWS和谷歌已商用多代,微软、华为紧随其后,OpenAI、Meta则在筹备中。未来2-3年内,我们将看到更多这类芯片落地并投入大模型训练/推理的实战。
扩展规模的挑战:通信与集群
在训练上百亿参数的大模型时,往往需要数百甚至上万颗芯片并行协作,这使芯片间的高速通信成为关键瓶颈之一。各公司在构建大规模AI集群时,都面临类似挑战:如何让众多GPU/加速器高效“互联”,以接近线性地提升整体算力。主要难点包括带宽、延迟和可扩展性。
英伟达的解决方案: 英伟达为多GPU通信设计了NVLink高速总线和NVSwitch交换架构。在最新H100 GPU上,NVLink4每链接带宽达到50GB/s,一个GPU有18条NVLink,总带宽高达900GB/s (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models)。NVSwitch则充当片内交换机,使得一个服务器内部8或16块GPU可互联为全带宽拓扑(类似“8-GPU单板机”)。这种架构在单机范围内提供出色的通信性能,但跨服务器则需借助InfiniBand或以太网。据报道,英伟达DGX H100集群通过InfiniBand实现每GPU 400Gb/s的对节点通信。然而,在成千上万GPU规模时,InfiniBand网络的瓶颈和拓扑复杂度会显现。英伟达也推出了如DGX SuperPOD的解决方案,通过分层互连和优化网络架构来缓解大规模通信问题。
谷歌TPU的互联架构: 谷歌非常重视加速器间通信,在TPU中引入专用的高速互连网络。以最新TPU v5p为例,谷歌采用了定制的光电混合互联(ICI),构建了3D Torus(三维环形)拓扑,将8960颗TPU芯片连接成一个整体,单芯片互联带宽高达4,800 Gbps (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。这意味着每颗TPU都有数百Gb/s量级的直连带宽与邻居通信,大幅降低大规模并行训练中的同步开销。此前TPU v4就使用了光纤交换网络,实现了4096颗芯片灵活互连,支持不同拓扑重构 ("Google says its AI supercomputer is faster, greener than Nvidia ...)。谷歌的设计哲学是以专有网络代替通用以太网/InfiniBand,从而在数据中心尺度上提供接近本地的通信延迟和带宽。这也是TPU超级计算机能够高效扩展到上万芯片的重要原因之一。
AWS Trainium的通信加速: AWS在Trainium芯片上也投入大量设计优化分布式训练。每颗Trainium芯片集成了一个专用的集体通信引擎,可并行于计算核心执行参数聚合等通信操作 (Training with Neuron - FAQ — AWS Neuron Documentation)。同时,AWS为Trainium部署了800 Gbps带宽的自研EFA高速网络接口 (Training with Neuron - FAQ — AWS Neuron Documentation)。借助这两点,Trainium集群在多机通信上性能突出:官方指出,相比其它GPU训练实例,Trn1实例能在跨服务器扩展到上千节点时保持更低通信延迟和更高效率 (Training with Neuron - FAQ — AWS Neuron Documentation) (Training with Neuron - FAQ — AWS Neuron Documentation)。例如,Trainium可以在小批量情况下仍取得良好扩展性,使上千芯片规模的集群无需成比例放大全局batch size即可高效训练 (Training with Neuron - FAQ — AWS Neuron Documentation)。这解决了传统GPU集群在强扩展(strong scaling)时遇到的难题。
特斯拉Dojo的设计: Dojo系统在架构上“原生”为大规模并行而生。D1芯片采用二维网格互联,每个芯片通过其四边高速链路与相邻芯片直连,单芯片四边总带宽高达8 TB/s (Tesla Dojo - Wikipedia)。25颗芯片组成5x5平面tile时,tile内通信带宽达36 TB/s (Tesla Dojo - Wikipedia)。多个tile则通过堆叠和板间高速接口相连,特斯拉将tile竖直叠放在机柜中以最小化互连距离 (Tesla Dojo - Wikipedia)。这种高度密集的拓扑让Dojo模块之间的数据交换非常迅速。此外,Dojo的软件让所有SRAM呈现为统一地址空间 (Tesla Dojo - Wikipedia)——程序员看来,跨芯片存取如同本地,对并行编程更友好。当然,Dojo目前更多针对特定负载优化,如何通用扩展仍待观察,但其思路代表了一种去中心化交换的新方向:让每颗芯片直接通讯很多邻居,减少对集中交换芯片的依赖,以支撑数千规模扩展。
其它创新: 许多公司也探索在互联上创新。例如Meta在GPU集群中使用了更高阶的拓扑和自定义调度,以优化通信瓶颈。英伟达则推出了Grace Hopper架构,将CPU内存通过NVLink直连GPU,提供高达900GB/s的GPU-CPU通信带宽,以拓展可用内存规模并减轻部分跨GPU通信(通过CPU做中介)。此外,光互联和硅光交换正在被研究用于未来超大规模AI集群,以突破铜线带宽和距离限制。一些超算项目(如Cerebras MemoryX、HPE Slingshot网络等)也在尝试新的方法,使数万加速器协同工作时依然高效。
小结: 架设大模型所需的算力集群,通信架构至关重要。英伟达通过NVLink/NVSwitch在单机提供超高带宽,但跨机需借助高速网络,AWS和谷歌则倾向定制网络硬件实现全局高速互连 (Training with Neuron - FAQ — AWS Neuron Documentation) (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。特斯拉选择在芯片架构上做“近距离互连”设计,融合计算与通信。 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters)正如OpenAI与博通合作也是为了解决**“成千上万颗芯片串联工作时的信息传输”**问题 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters)。未来随着集群规模进一步扩大,通信将愈发成为瓶颈领域,预计我们会看到更多硬件层面的创新来提升带宽、降低延迟。
大模型训练与推理:瓶颈与潜在优势
尽管各家公司在AI芯片上百花齐放,但在大模型训练和推理过程中仍面临诸多共同的技术瓶颈。同时,不同架构相较于英伟达GPU也各有潜在优势和劣势。下面总结主要的限制因素及各家方案相对于英伟达可能的优劣:
1. 内存容量与带宽瓶颈: 大模型通常参数规模庞大,单卡显存往往无法容纳全部模型,需要进行模型并行拆分(如张量并行、流水线并行)。英伟达H100显存上限80GB,在加载数千亿参数模型时需要多卡协同,这会带来通信开销和编程复杂度。有限的显存被认为是当前GPU训练最大的瓶颈之一。各公司在自研芯片时都在想办法提升内存容量或缓解显存不足问题。例如谷歌TPU v5p将每芯片HBM容量提高了3倍,以适应更大模型存储需求 (Google Unveils TPU V5p And AI Hypercomputer To Boost Next-Generation AI Workloads)。特斯拉Dojo通过将SRAM组合成统一地址空间的方式,方便在多芯片上拼接更大的“全局内存” (Tesla Dojo - Wikipedia)。此外,内存带宽也是瓶颈——GPU/加速器的计算单元越来越强,但能否及时从内存取数据成为限制。英伟达H100 HBM3总带宽约3 TB/s,AWS Trainium号称每芯片带宽更高且效率更好,可在小批量训练下保持较高利用率 (Training with Neuron - FAQ — AWS Neuron Documentation)。总体而言,**“内存墙”**问题在所有架构上存在,需要通过增加HBM堆栈、提高频宽、使用更优的内存层次结构等手段解决。
2. 软件生态与开发者门槛: 如前所述,英伟达CUDA及其成熟软件库(cuDNN、TensorRT等)是其隐藏的杀手锏 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。多年来开发者习惯了英伟达的平台,要迁移到新硬件需要重新适配和测试大量代码,这形成很高的迁移门槛 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。AWS就承认,“CUDA是客户留在英伟达平台的最大原因” (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。相比之下,AWS Neuron SDK、谷歌XLA、华为CANN等还较新,工具链和社区支持不如CUDA丰富 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。这导致许多公司在考虑非英伟达方案时会犹豫。因此,英伟达在软件生态上的领先使其GPU即使在纯硬件性能不占优时仍具有竞争力。各竞争者也在努力弥补这一差距:例如华为成为PyTorch官方贡献者,使PyTorch对昇腾芯片原生支持;AWS与深度学习框架开发者合作优化Neuron编译器等等。但在短期内,软件成熟度依然是英伟达的一大优势和他人面临的瓶颈。
3. 算力与能效: 深度学习对算力的需求几乎是无止境的,但提升算力往往以更高功耗为代价。当前7nm/5nm硅工艺下,单芯片算力提高主要来自堆叠更多核心和提高频率,这导致功耗剧增。散热与功耗因此成为瓶颈之一。例如亚马逊Trainium 3据称功耗超过1000W,需要全面液冷 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance);英伟达H100的高功耗也令数据中心的供电和冷却面临挑战。能效(每瓦性能)方面,英伟达GPU通过张量核心、稀疏矩阵支持等在提升。但某些自研芯片在特定场景下表现出更优能效,比如华为910B每瓦FP16性能达5.2 TFLOPS,略高于英伟达A100的4.7 TFLOPS/W (HuaWei、NVIDIA 数据中心AI 算力对比_910b算力 - CSDN博客)。专用加速器去除了GPU上一些通用图形管线,理论上可以在AI计算上更省电。谷歌TPU v4在相同时代节点上就体现出更佳的性能功耗比 (Google boffins reveal tech details of TPU v4 datacenter rigs • The Register)。特斯拉Dojo通过8位可配置浮点格式(CFloat8)等创新,以降低计算所需位宽,从而提升能效 (Tesla Dojo - Wikipedia)。因此,在算力/功耗平衡上,自研方案如果针对特定AI算子优化,有潜在能效优势。但在通用性上,英伟达的Tensor Core等单元也高度优化了AI计算,各方案的实际每瓦性能优劣需要综合对比具体模型和精度。
4. 精度与模型泛化: 大模型训练需要在性能和精度间平衡。英伟达推行混合精度训练(FP16+FP32逐步累加),以及最近的FP8格式,以提升计算效率。新硬件必须支持低精度计算以达到高算力。但降精度可能带来数值不稳定,这对芯片的数值算法和框架支持提出要求。例如,AWS在Trainium中引入随机舍入(Stochastic Rounding)技术,让开发者以FP32编程,实际执行以BF16达到接近FP32的精度 (Training with Neuron - FAQ — AWS Neuron Documentation)。Tesla的Dojo采用可配置浮点格式,让编译器动态调整8位浮点的有效位宽以兼顾精度和速度 (Tesla Dojo - Wikipedia)。这些都是为减小低精度带来的收敛损失而做的努力。在这方面英伟达也引入了Transformer Engine(支持FP8)来优化大模型训练。因此,各方案在精度上的瓶颈主要是如何既利用低精度提升算力,又不牺牲模型精度。目前看来,不同芯片在这方面的差异不大,因为算法层面大多采取类似策略,差别更多体现在软件易用性上(例如AWS的方案使用户几乎无需手动调整精度 (Training with Neuron - FAQ — AWS Neuron Documentation))。
5. 成本与供货: 对很多终端用户而言,成本(Cost)也是实际瓶颈之一。英伟达高端GPU价格昂贵且一卡难求(2023年以来H100常常供不应求)。一些公司自研芯片的初衷就是降低成本和摆脱供应制约。AWS宣称Trainium可带来30-40%的成本节省 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance),Meta自研推理芯片也是为更高性价比服务自家业务 (Introducing Our Next Generation Infrastructure for AI | Meta)。然而,自研芯片初期的单位成本可能反而更高,需要规模化后才显现优势。而英伟达由于大规模出货,摊薄研发成本,在价格上未必没有竞争力。此外,供货周期也是瓶颈:训练大模型需要尽早拿到足够算力。像2023年很多公司即便愿意付高价也很难短期拿到上万颗H100,这反过来推动了他们自研和采用替代品。未来随着产能改善,这一瓶颈或减缓,但短期内算力紧缺仍是现实。因此在优势上,掌控供应链的自研芯片可以带来更稳定的供货,这也是为何OpenAI等不惜投入自研的原因之一 (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters) (Exclusive: OpenAI builds first chip with Broadcom and TSMC, scales back foundry ambition | Reuters)。
6. 专用优化 vs 通用灵活: 定制芯片往往针对特定类型模型/算子做优化,在擅长领域有优势,但对于超出预期的新模型可能显得不够灵活。比如谷歌TPU对Transformer这类矩阵运算非常高效,但早期对RNN等序列模型支持一般(后来通过软件改善)。英伟达GPU由于指令集和CUDA生态丰富,对于研究人员开发新模型、新算子支持很快(自己编写CUDA核函数即可)。而封闭的ASIC往往需要等厂商更新SDK支持新算子。因此,在前瞻性和通用性上,英伟达仍有一定优势。不过各大公司也通过开放软硬件接口来提高自研芯片的灵活性,如提供自定义算子接口等。总的来说,在能效和单位成本上,自研ASIC有潜在性能/成本优势,但在灵活性和生态丰富度上,英伟达GPU依然更成熟稳健。
小结: 大模型训练的主要瓶颈可以概括为**“存储、通信、精度、生态、能耗”等方面。这些限制在不同硬件架构上以不同形式出现,需要通过软硬件协同优化来缓解。英伟达凭借多年的生态积累,在软件兼容性和开发便利上仍远领先 (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance);然而各巨头的定制芯片在特定指标上展现出优势,如成本降低** (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)、能效提升、带宽更高或内存更大等。例如AWS Trainium通过专用通信硬件,实现了更佳的大规模扩展效率 (Training with Neuron - FAQ — AWS Neuron Documentation);谷歌TPU以系统设计赢得性能和能耗优势 (Google boffins reveal tech details of TPU v4 datacenter rigs • The Register);华为昇腾在国内市场快速替代部分英伟达份额 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力)。未来,随着这些新硬件的软件生态逐渐完善、性能不断迭代,我们可能看到在特定应用领域超越英伟达GPU的综合优势逐步显现。但短期内,不同方案更多是互有优劣,在实际部署时需要综合考量模型类型、开发成本和现有技术栈等因素来选型。
对英伟达主导地位的影响
鉴于英伟达目前在AI GPU市场近乎垄断的地位(尤其在欧美市场),上述公司在GPU/AI芯片方面的努力会否改变这种格局,值得深入讨论。
当前市场格局: 英伟达凭借强大的硬件性能和软件生态,占据了AI训练推理的大部分市场份额。ChatGPT热潮以来,英伟达芯片销量激增,数据中心业务业绩飞涨,使其市值一度突破万亿美元 (Why does NVIDIA consider Huawei as its top competitor?)。在2023财年报中,英伟达甚至首次将华为列为主要竞争对手之一,表明其也注意到竞争环境的变化 (Why does NVIDIA consider Huawei as its top competitor?)。然而从供需看,短期内英伟达GPU仍供不应求,很多企业一机难求,这种情况下即使有替代品出现,也难以撼动英伟达销量——因为市场需求太旺盛了。正如有人调侃:“现在别说竞争对手,就算多一个英伟达自己出来,产能也照样被消化”。
各巨头举措的影响: 长远来看,各大AI玩家自研芯片的举措,正在逐步削弱英伟达的垄断力量。“几大AI公司寻求替代,至少可以增强与英伟达谈判时的筹码” (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD)。例如,亚马逊有Trainium备用,就可以在采购英伟达GPU时获得更好价格或优先级。微软有Maia芯片问世,也会让英伟达在Azure上的议价力下降。同样谷歌TPU、Meta芯片都让英伟达不再是这些大客户的唯一选择 (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD)。此外,这些自研芯片也在开始承载实际业务,例如谷歌将部分内部模型部署在TPU上运行,等于直接减少了对英伟达GPU的需求。华为在中国市场的成功更明显:因为美国禁售,英伟达高端GPU无法进入,中国厂商纷纷转向华为昇腾等国产方案 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力) (华为最强AI芯片进入测试 重挫英伟达在中国竞争力)。华为910B已在中国占据相当份额,910C若成熟可能进一步削弱英伟达在华优势 (The New Ascend 910C: Out with Nvidia, In with Huawei? - Doo Prime News)。可以预见,在中国这一全球最大潜在AI市场,英伟达的主导地位正因地缘因素被强行打破。
英伟达的应对: 面对挑战,英伟达也在调整策略。一方面,通过技术领先保持优势,比如加速推出新一代架构(如 Hopper->Blackwell),提高单卡性能和能效,使竞争对手难以在纯硬件层面追上。另一方面,英伟达也针对不同市场采取产品分级策略。例如,为中国市场推出降级版A800/H800以规避禁令,同时开发更平价的低端卡(如L40/L20系列 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力))来占领中端AI推理市场。英伟达在2023年8月再次遭禁售升级后,又快速推出了性能降低版的新GPU以继续销售中国 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力)。这些举措显示英伟达正主动出击保住市占。在软件上,英伟达也通过CUDA/XLA融合、推TensorRT-LLM等手段巩固生态壁垒。此外,英伟达开始更多参与开源社区(如支持PyTorch 2.0的开放后端接口)、与大厂合作(例如和微软合作在Azure提供AI超级计算)等,试图融入他人的AI算力版图而非被排斥在外。
展望: 短期内(未来1-2年),英伟达在高端AI GPU市场的主导地位仍将持续。原因在于:第一,现阶段没有哪家公司的自研芯片能在综合性能上全面超越H100,顶多在局部场景有优势;第二,软件生态和开发者习惯短期难以迁移,很多尖端AI研究仍优先以NVIDIA平台为目标实现;第三,需求远大于供给的状况下,即使有部分客户转投别家,英伟达依然可以卖出全部产能,不愁销路。但中长期看(3-5年),格局将从“一家独大”走向“群雄并立”。正如每家超大厂都在做自家AI芯片 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips),未来顶尖AI算力可能分散在不同体系中:谷歌有TPU云服务、AWS有Trainium云服务、微软Azure有Maia加速卡、Meta内部有自研芯片支持、华为在中国市场自成体系等等。英伟达将不再垄断最前沿的大模型训练“赛道”,而会成为众多选项之一。当然,英伟达很可能依然是最大的单一供应商,但市场份额相较如今的绝对领先将有所下降。此外,英伟达在部分区域市场的地位可能被动摇,例如在中国高端AI芯片因政策原因就已出现被替代趋势 (华为最强AI芯片进入测试 重挫英伟达在中国竞争力)。值得注意的是,由于AI需求增长太快,竞争者的进入未必会严重冲击英伟达的营收,反而可能是一起做大“蛋糕”。例如,亚马逊既卖Trainium算力也继续大量采购英伟达GPU,AWS高管就表示“并非要取代NVIDIA,而是给客户提供更多选择” (Amazon Bets Big on Trainium to Break Nvidia’s AI Chip Dominance)。总体而言,自研芯片潮的崛起将终结英伟达一家独大的局面,但英伟达通过保持技术和生态优势,仍会是AI硬件领域的主要力量之一。
NVIDIA显存限制:技术瓶颈还是商业策略?
显存大小是衡量AI加速卡能力的关键参数之一。当前NVIDIA高端数据中心GPU的显存容量一般为80GB(如H100 SXM),稍早的A100有40GB和80GB两个版本。有人疑问:这一容量上限是受技术所限,还是英伟达的商业选择?未来自研GPU是否能突破这一限制,实现单卡超大显存?单卡显存究竟能扩展到多大,这样做有哪些优势?本节将对此进行分析。
现状: 英伟达H100 GPU采用5组HBM3内存堆栈(每组含多个内存裸片),总容量80GB。实际上,H100物理上预留了6组HBM位置,但出于良品率和成本考虑,只启用了其中5组。英伟达今年推出的H100 NVL双卡产品中,每块H100卡启用了6组HBM,达到了94GB显存(两块绑在一起总188GB) (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models) (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models)。这表明从技术上,H100单GPU可以做到94GB甚至96GB左右(NVL版可能有约2GB用于冗余校验)。另一家GPU厂商AMD则更加激进,其MI300X加速器整合了多个计算芯片和HBM堆栈,提供192GB超大显存,专为大模型部署设计。可见显存容量上并无不可逾越的物理极限:取决于愿意堆叠多少颗HBM内存以及封装技术能否支持。
技术因素: 增大显存受制于几方面技术挑战:首先是封装空间和信号。HBM内存需要通过硅中介层与GPU核心连接,每增加一组HBM,封装尺寸和布线复杂度就上升。当前GPU(比如H100芯片面积814mm² (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models))周围通常布置4-6组HBM已接近物理极限,若再增加可能需要更大的中介层甚至新的3D封装方式。其次是良品率。GPU芯片和HBM封装在一起,一旦其中任何一部分有缺陷都会影响整卡良率。增加HBM数量意味着增加潜在故障点,出片率会下降。这就是英伟达为何默认只启用5组HBM,将第6组作为冗余或者干脆阉掉以提升总体良率的原因之一。再次,功耗和散热也是限制。更多HBM会消耗更多功耗,并产生更多热量,需要更强的供电和散热设计。例如MI300X那样的超大显存方案就不得不采用多芯片和液冷。同时HBM堆栈本身有发热,如果贴在GPU旁边过多也会加剧散热难度。最后,产业链供应:HBM属于高成本器件,产能有限,成本占比很大。大容量卡成本高昂,市场需求有限也会让厂商犹豫。
商业考虑: 从商业角度,英伟达对显存容量的选择也有市场策略因素。一般来说,GPU会提供“足够用”的显存容量,而不是一味做大。因为显存越大,价格越高,只有部分用户有此需求。英伟达通过推出不同显存容量的型号来覆盖市场,比如A100有40GB和80GB版,便于用户按需选择,也区分了价格档次。这种产品分层可以最大化利润:需要大显存的高端客户购买更贵型号,其他人买标准版。同时,也避免了把所有创新都用在一代产品上,方便未来升级(如下一代可以再提高显存以作为卖点)。举个例子,英伟达可以在H100基础上稍作修改就推出H100 NVL 94GB版,专门针对LLM部署市场 (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models),而不必所有H100都用94GB,这样既满足特定需求又不影响主流产品成本结构。因此,很大程度上当前80GB的限制是英伟达权衡技术与商业后的决定:80GB已能覆盖大多数训练任务,通过多卡并行也能跑更大模型,而把更大的显存留作特殊SKU或下代产品。
能否突破: 自研GPU完全可以根据自身应用需求来突破商用GPU的显存限制。例如,如果某公司确定其模型需要单卡>100GB显存,他们就可以堆叠更多HBM或采用新型封装实现这一点,只要能接受成本和复杂度。例如AMD已经用MI300X证明192GB显存单卡的可行性。谷歌TPU虽单芯片HBM不算极大(TPU v4每芯片32GB),但其方案是通过高速网络让多个芯片协同充当“一个大显存”。另一种突破思路是使用主存直连:NVIDIA自家的Grace-Hopper架构就让GPU直接访问CPU的内存,虽然带宽比不上HBM,但可提供TB级别的地址空间,使GPU视角下“可用内存”显著增大 (H100 Tensor Core GPU - NVIDIA)。未来,若有需要,单卡显存达到256GB甚至512GB并非不可想象,比如采用8-12堆HBM3E(单堆24GB)即可实现。不过要权衡成本:目前这样的卡造价会非常高昂。
优势: 增大单GPU显存的直接好处是能装下更大的模型或数据,减少对模型并行拆分的依赖。对于超大参数模型,如果能在一块卡上完成训练/推理,将大幅简化软件实现,避免多卡同步通信的复杂性和开销。例如,GPT-4这样规模的模型若能在单卡跑完前向和反向,不需切分,会降低误差累积风险和调优难度。尤其在推理场景下,大显存意味着单卡即可载完整个模型,从而降低推理延迟(无需跨卡通信)并提升部署灵活性。举例来说,1750亿参数的GPT-3模型如果以8位权重存储约需要175GB内存,传统80GB卡需要拆分到3卡以上,而192GB显存卡理论上一块就能放下(配合一定压缩),这样部署一个模型只占用一块卡资源,性价比和性能都会提升。另外,大显存还能容纳更大批次(batch)或更大输入序列,有助于提高训练效率或推理吞吐。还有些特殊模型(如大规模图神经网络、推荐系统的巨大Embedding表)非常依赖内存容量,显存越大就意味着这些模型越能整合在GPU上完成,省去频繁访问外部内存的开销。总之,在算力一定的前提下,更大的显存带来的是对更复杂模型和更海量数据的直接掌控能力。
权衡: 当然,无限制增大显存也有边际效益递减的问题。对于许多小型模型或中等规模模型而言,80GB已经绰绰有余,继续增加并不能提高速度,反而让资源利用率下降。而且超大显存的卡如果计算性能跟不上,也会出现“有内存装不满算力”的情况——即内存利用率低。所以实务中一般是计算与显存平衡设计。此外,如前述,超大显存卡成本高、功耗高,只适合特定客户,量产意义不大。所以厂商往往会选择一个合理容量作为主力(例如80GB),然后通过多卡互连或特殊版本来满足超大模型需求(如94GB NVL用于LLM (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models))。自研GPU可以更灵活地做出这种取舍:如果公司业务明确需要大显存,他们可以牺牲良率和成本换取容量。例如Meta的推荐模型需要存储巨量Embedding,他们可能偏向设计带超大内存的加速器;而OpenAI若针对推理优化芯片,或许会重视每卡能加载尽可能多的模型权重,从而降低部署成本。
小结: NVIDIA显存大小既受技术限制也有商业考量。目前80GB并非绝对极限,英伟达已经在特定产品上做到94GB (NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models)。其他厂商(如AMD MI300X)证明了更大容量的可行性。自研GPU有机会突破现有商用卡的显存上限,视自身需求决定最佳容量。单卡显存上限主要受封装技术和成本影响,随着HBM工艺进步和3D封装发展,我们预计单卡几百GB显存将在未来实现。更大的显存将为超大模型的训练与推理提供便利,减少分布式训练复杂度,提升单节点能力,但同时要付出更高的功耗和成本代价。对于厂商而言,需要在“多卡协同”与“单卡巨量内存”之间找到平衡点。可以预见,英伟达和其他芯片设计者都会在下一代产品中逐步提高显存容量,以满足不断增长的模型规模需求——这是技术演进和市场竞争共同驱动的结果。
未来AI GPU发展趋势展望
综上所述,AI领域GPU/加速芯片的格局正处于快速演变中。展望未来,我们可以预见以下主要趋势:
算力平台多元化: AI计算将不再由某一家架构垄断,“GPU百花齐放”的局面将出现。除了传统GPU(NVIDIA、AMD等),各科技巨头的自研AI加速器将成为重要算力支柱 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips)。比如未来云计算中,用户可以选择NVIDIA GPU、Google TPU、AWS Trainium、微软Maia等不同算力实例,形成多种架构并存的生态。这种多元化有助于避免单点瓶颈,并通过竞争推动整体技术进步。
软硬件协同与全栈优化: “从硅到服务”的全栈设计理念将成为主流 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source)。也就是说,芯片设计不再孤立进行,而是与框架、算法紧密配合。未来AI芯片在架构上会针对特定模型类型(如Transformer、CNN、推荐模型等)做定制优化,并由相应的软件堆栈充分挖掘性能。联合开发框架和芯片可显著提高效率,例如微软在Maia项目中就是芯片、系统、应用一体化考虑,以便针对内部Copilot等负载优化 (With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand - Source)。这种协同会延伸到编译器级别(如XLA、Neuron等更智能地针对硬件优化计算图)以及系统级别(定制网络、存储布局配合芯片)。纵向整合(vertical integration)将使AI基础设施性能最大化,并降低大规模部署的TCO。
极致规模和算力: 为了训练更庞大的AI模型,未来的超级计算机规模将更加惊人。单芯片晶体管数将突破千亿乃至数千亿(例如微软Maia已达1050亿晶体管 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips))。芯片之间通过高速互连组成**“AI超级集群”**:我们已见到10万卡级别的集群雏形 (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED) (Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else | WIRED),未来百万甚至上千万核的AI集群并非天方夜谭。Tesla计划的多个ExaPOD最终目标是百ExaFLOPS算力 (Tesla jumps as analyst predicts $600 billion value boost from Dojo | Reuters)。可以想见,Zetta-scale(十^21次级)算力将在接下来10年内成为追逐的目标,用于支撑更接近AGI的大模型训练。如此规模将逼迫在网络拓扑、能耗管理、容错机制等方面革新,以让训练在合理时间内完成。
存储与内存技术进步: HBM将继续演进(HBM3E、HBM4等),单颗容量和带宽提升,助力缓解内存瓶颈。同时,先进封装如Chiplet小芯片技术将运用在GPU上:把计算芯片和多块内存裸片封装在同一基板,甚至3D叠堆,从而在一个封装内提供更高的内存带宽和容量。未来可能出现逻辑层-存储层三维集成的AI芯片,即计算单元与DRAM堆叠,这样数据就近存储,带宽极大提升。而在系统层面,利用CXL等新型互连协议实现不同节点间内存池共享,也是扩展有效内存的路径。总的来说,围绕“靠近计算的高速大容量存储”将有大量创新,解决模型参数和激活的存取开销问题。
互联与通信革命: 随着集群规模爆炸式增长,传统电连接器难以满足带宽和距离需求。硅光子(Photonic)互联有望在未来AI超级计算中扮演重要角色。光互联的高带宽、远距离低损耗特性非常适合跨机柜、跨机架通信。一些高性能计算项目已在试验光交换技术,将其用于动态重构网络拓扑。未来AI加速器可能集成光收发模块,实现芯片直连光纤通信。此外,更智能的网络架构会出现,如自适应路由、混合拓扑(比如Fat tree与Torus结合)以优化不同通信模式。最终目标是让数万级别节点的分布式训练通信开销相对于计算降到最低,逼近线性加速。
能效与新计算范式: 随着算力逼近物理极限,提升每瓦性能将成为首要目标。这会催生一些新的计算范式在AI领域的探索和应用。例如,低精度算术将更加普遍,FP8、INT4甚至更低位数的训练方案被提出,并辅以算法保证精度。再如,稀疏计算会进一步利用模型中冗余,为此硬件将增加对稀疏矩阵运算的支持(英伟达Ampere已开始这样做)。更前沿的是模拟AI加速器(Analog Compute)和光学计算,利用模拟电路或光干涉实现超高能效的矩阵运算,目前已有初创公司研发,但其可编程性和精度还需改进。量子计算在可见的未来对大模型不太实际,但量子加速某些优化过程也有尝试。综合来看,后摩尔时代需要多管齐下,在芯片材料、架构、算法各层面创新,让AI算力增长不被功耗壁垒拖住。
生态开放与标准化: 为了让各种新硬件被广泛接受,软件生态将更加开放和标准化。主流深度学习框架正朝着硬件无关方向演进,推出插件式的后端接口(如PyTorch的Unified Device API、TensorFlow的PluggableDevices),这样第三方芯片厂商可以方便地接入框架。未来开发者编写模型,可能不需要关心底层是GPU、TPU还是别的,加速库/编译器会自动适配最优指令。这种抽象需要行业共同制定标准,例如MLIR、ONNX、OpenXLA等中间层协议,会起到重要作用。可以预期,不同厂家的编译器和运行时可能走向某种程度的兼容/融合,正如多年前出现OpenCL试图统一GPU计算一样(虽然CUDA统治下OpenCL影响有限,但在新格局下开放标准或迎来契机)。生态的开放有助于降低用户切换成本,同时也避免一家独大造成的闭锁效应。
区域与供应链自主化: 受地缘和供应链安全影响,各国可能加大对本土AI芯片的投入。中国是明显例子,因无法获得最新NVIDIA GPU,只能全力发展国产AI芯片(华为、寒武纪、阿里平头哥、百度昆仑等百花齐放)。欧洲、印度等地也有类似动向,试图建立自己的AI硬件能力。未来AI GPU市场可能形成几个区域生态:美系(NVIDIA、AMD及美企自研)、中系(华为等)、以及其他新兴参与者。全球供应链也会相应调整,更加多源化,以降低断供风险。这种分化在短期或降低一些合作效率,但长期看会促使更多元的创新出现,不同思路竞争下有望催生意想不到的突破。
总的来看,未来几年我们将处于一个**“AI算力军备竞赛”的时期:芯片制程逼近极限,但需求推动架构、系统上不断演进甚至革命。可以确信的是,AI模型的进化高度依赖算力的支撑,而算力的提升则取决于上述诸多技术趋势能否实现。GPU这一概念也在不断延伸,泛指各类面向AI的加速器。也许若干年后回顾,我们会发现今天的NVIDIA GPU只是AI加速漫长历史中的一个起点,后续还有更加绚烂的创新篇章。在这场竞赛中,没有永远的王者,只有不断创新者才能立于不败之地。对于行业和用户来说,竞争格局的形成终将带来更高性能、更高能效和更开放易用的AI计算平台**,助力人工智能迈向新的台阶。各大公司在GPU研发上的最新进展,正是孕育未来突破的希望所在。 (Microsoft Holds Chip Makers' Feet To The Fire With Homegrown CPU And AI Chips) (Microsoft aims to loosen Nvidia's grip with its own AI chip and AMD)
想发布自己的文章? |
|