当然,AI ASIC的缺点在于,开发生态通常为闭源设计(如 Google TPU),针对性强,但灵活性差,较难达到 GPU那样的广泛适配性。GPU 可以在模型训练、推理和通用计算任务之间灵活切换,支持各种 AI 框架(如 TensorFlow、PyTorch),而GPU的开发生态(如 CUDA、TensorRT)高度成熟,开发者非常多。
目前的情况是,推理和边缘场景下,ASIC已经具备替代 GPU的很多优势,具有非常大的前景。对照北美四大云计算厂商(CSP:Cloud Service Providor)的自研产品路线:Google的TPU出货目前以v5产品为主,2025年将量产TPU v6;亚马逊的ASIC产品包括Trainium和Inferentia,分别用于训练和推理环节;微软和Meta也推出了各自的ASIC产品Maia100和MTIA。由于大型云计算厂商的业务模型、应用场景等多通过自身云来承载,相关软件绝大部分自行研发,所以,自研ASIC在这一块基本不存在瓶颈,完全可适应自家的不同业务场景需求。
而在训练场景下,因为任务本身具有复杂性和多样性,所以对硬件的灵活性需求更高,GPU 的通用性在这里会更具优势。
但是,我们也要看到技术的变化是动态的,正如前OpenAI联合创始人Ilya Sutskever在2024年NeurIPS大会上表示:预训练时代即将终结(Pre-training as we know it will end)。“将数据比作AI发展的燃料,由于我们只有一个互联网,数据增长已经触顶,AI即将进入‘后石油时代’,而这,意味着依赖于海量数据的预训练模型将难以为继,AI发展将有新的突破。”Ilya认为,未来AI发展将聚焦于智能体、合成数据和推理时计算(Agents、Synthetic data和Inference-time compute)。这些确定性较高的任务可能也会适合ASIC的方式。