博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 323|回复: 7

Nvidia 设计中国“ASIC”!?——半导体行业分析师在昨天《The Information》报道...

[复制链接]
发表于 5 天前 | 显示全部楼层 |阅读模式
Nvidia 设计中国“ASIC”!?——半导体行业分析师在昨天《The Information》报道后表示。

有半导体行业分析师在The Information最新报道后表示,NVIDIA可能会将其AI芯片技术路线从通用GPU转向专门用于AI训练/推理的AI ASIC,以推出符合美国政府出口禁令的针对中国市场的AI芯片版本。

这些分析师指出,GPU的特定架构意味着NVIDIA无法在短期内推出符合美国出口限制的AI芯片,除非大幅降低性能,但性能的大幅降低可能会使NVIDIA的AI芯片与国产AI芯片相比性价比更低。

不过,也有分析师认为,NVIDIA 在中国市场的 AI 芯片策略可能集中于“对 AI GPU 架构进行快速适度降级,以避开监管红线”——例如,降低 NVLink 互连速率、削减带宽,或对张量计算能力进行阈值化,并在中长期继续评估是否推出用于 AI 推理的专用 AI ASIC。

AI ASIC 在业界也被称作“定制化 AI 芯片”、“专用 AI 芯片”或“AI 专用集成电路”。不同于传统的通用处理器(如 CPU、GPU),AI ASIC 针对特定的 AI 任务(如深度学习、人工智能推理和训练系统)进行深度定制,高效执行,旨在提升人工智能计算效率、降低功耗、提升性能,尤其是在执行大规模 AI 并行计算时展现出显著的能效优势。

例如,谷歌与博通合作开发的TPU(张量处理单元)就是典型的AI ASIC,主要用于深度学习推理和训练,优化矩阵乘法等关键计算操作,以提升AI计算性能。博通和Marvell科技目前是AI ASIC领域的领导者。

DeepSeek的低成本范式表明,AI推理可以通过算法工程进行充分优化,降低推理成本,让大型模型能够更便捷、更廉价地部署,这也意味着未来AI ASIC在推理端的优势将更加显著。

NVIDIA 的通用 AI GPU 虽然性能强大,但在大规模推理场景下,其功耗、企业采购成本以及算力租赁成本的压力更大。微软、亚马逊、谷歌、Meta 等巨头都在与博通合作,或与 Marvell 合作研发自研 AI ASIC 芯片,以实现大规模推理算力部署。例如,谷歌与博通合作研发的 TPU(Tensor Processing Unit)就是一个典型的 AI ASIC。

展望计算能力的未来,NVIDIA的AI GPU可能更加专注于超大规模前沿探索性训练、快速变化的多模态或新结构快速实验,以及面向HPC、图形渲染、视觉分析等通用计算能力。

而AI ASIC则专注于对特定深度学习算子/数据流进行极致优化,在结构推理稳定性、高吞吐量和高能效方面表现出色。长期来看,两者将和谐共存,预计中期内AI ASIC市场份额将大幅提升。NVIDIA的通用GPU将专注于复杂多变的场景和前沿研究,而ASIC则将专注于高频稳定性、大规模AI推理负载以及一些成熟稳定的固定训练流程。
 楼主| 发表于 5 天前 | 显示全部楼层
摩根士丹利對AI晶片的見解:

1)中國AI推理需求依然非常強勁。供應鏈檢查表明,新的 AI GPU B30(針對中國)使用 GDDR 而不是 HBM。這個想法與之前的 L40S 類似。但微軟不確定這是否是 Nvidia 為滿足中國需求而準備的下一代晶片。

2) 聯發科提到了技術挑戰(連結),但檢查表明,3nm TPU 設計應該在 7 月完成,因為這是谷歌的戰略舉措。這款 3nm TPU 應該是 TPU v8p,是最新發布的 Ironwood(TPU v7p,由 Broadcom 設計)之後的世代。

3)xAI 將透過 GUC 進行 3nm AI 加速器設計服務,並於 2H25 完成流片。同時,世芯AWS 3nm專案量產時間正按計劃進行。

4)Nvidia/MediaTek WoA AI PC 晶片可能錯過 Computex 截止日期。 N1X 軟體仍需要時間修復,預計明年在 CES 上推出。
 楼主| 发表于 5 天前 | 显示全部楼层
很好地总结了人工智能如何为$META带来收益。专家承认,其中一些投资有点前期投入,但Meta对未来24个月的需求有很强的预见性。

—————

如果我要将它分成几个类别(这正是你的问题),我会说第一个类别当然是用户参与度和内容发现或推荐引擎。扎克伯格在季度财报电话会议中经常提到这一点,比如 AI 系统是如何设计来个性化和优化用户正在消费的内容,其核心目标有两个:

一个是提升用户的使用时长,因为收入与使用时间呈直接正相关;第二个是提升内容的质量,这意味着你可以在单位时间内展示更多广告或更多能带来收入的内容。这两者都会直接推动营收增长。

第一个部分就是用户参与度和内容发现。我们稍后会详细展开一些例子。第二个领域我会说是广告货币化和广告效果的表现。这包括广告的整个端到端流程。

你可以从定位的角度谈自动化,比如 Advantage+ audience,也可以从投放的角度谈自动化,比如 Advantage+ sales,甚至是从广告候选项的检索模型这些基础模块说起,即从数亿条广告中快速挑选出适合展示的那一条,这一过程必须在毫秒级别完成,因为是在你浏览 Instagram 的时候发生的,所以这就涉及像 Andromeda 系统或 Conversions API 这类测量系统,并把它们的数据整合起来。而这些全部都是由 AI 提供支持的。

第三个重要类别我会说是在企业消息传递这一侧。这是 Meta 最近才真正开始大力投资的一个新领域,去年11月还聘请了前 Salesforce 的 AI CEO Clara Shih 来领导这一领域。这个方向在 WhatsApp、Messenger 和 Instagram 上带来了强大的体验,这不仅仅是一个营收驱动因素,而是面向客户的,比如品牌代理商或者创作者使用 Creator Studio 的体验等,这是业务消息侧的内容。

我还会再补充三个“类别”:

一个是基础设施和其他效率提升,比如 Meta 对自研 AI 推理芯片的投资(如 MTIA,Meta Training and Inference Accelerator),这些芯片正在为现有算法提供计算能力;也包括对 PyTorch 等 AI 基础框架的投资。这是一个关于基础设施和效率提升的领域。

下一个是内部效率工具,比如为工程师提供的代码助手,或为销售团队提供的推荐工具等等。这些也都是由 AI 驱动的,能够提升内部效率和建议系统。

第二个我要补充的领域是面向创作者的工具以及 AI 驱动的内容生成,比如图像生成、文本生成等。虽然这个领域目前还小,也还没有带来巨大的营收,但未来前景广阔,因此我把它单独归为一类。

最后一个我会提的是测量领域,尤其是“信号丢失后的建模”(post-signal loss),也就是 ATT(应用跟踪透明度)政策带来的影响。Meta 在基于建模的归因分析(即 AI 驱动的概率归因)方面投入巨大,这项技术在苹果政策变更后成为关键。当时从 2020 到 2021 年期间,Meta 的股票因这类变化从 390 美元跌到大约 200 美元甚至 160 美元,测量的成败关系到整体收入表现。

—————-

客户(00:43:51):
这很有帮助。Meta 如果知道他们未来一年或两年会花多少钱在资本支出(CapEx)上,也知道他们会采购多少 GPU 和定制 ASIC,你觉得这些采购和基础设施的建设,是不是已经有足够的可见性,能与未来会消耗这些资源的计划项目对上?

专家(00:44:16):
我认为肯定是有的。当然,这种匹配不会达到 100%,正如我刚才提到的,还是需要留出一部分容量用于新的创新和技术进步,考虑到它们发展得很快。我的回答是:Meta 肯定对需求有清晰的认识,特别是因为工作负载现在变得更可预测,而且产品路线图非常有结构化的流程,我们之前已经讨论过。Meta 并不是盲目前行,而是在预测计算需求,尽量在接下来的 24 个月内设定产品里程碑。

因此,问题是:资本支出是不是太贴近需求了?是的,但只是略微提前了一点。关键在于,Meta 是有意地提前投资,走在趋势的前面。他们不是在盲目扩建,而是提前进行大量资本支出,以确保在产品扩展时有足够的算力资源来满足需求,同时也为创新预留了缓冲空间,避免供应冲击、GPU 短缺等情况,这些在当前的关税环境下尤其重要。

所以,Meta 的支出上确实有一个缓冲层。我依然认为,至少在未来 24 个月里,Meta 是有明确可见性的,这样可以避免资源浪费和无效建设。简而言之,Meta 确实在把 GPU 的采购与未来 12 到 24 个月的推理和训练需求对齐,尤其是围绕一些已知的用例。实际上他们是在提前投入,以规避未来可能出现的冲击。这一切都在内部通过需求预测和产品路线图的方式被良好规划,而这些方面,我认为 Meta 是业内最优秀的公司之一。
 楼主| 发表于 4 天前 | 显示全部楼层
Microsoft Director 表示$AMD的 GPU 现在是推理工作负载的良好来源(Tegus 采访):

微软云与AI部门总监:

AMD 绝对是一个不错的选择,是推理(inferencing)方面可行的方案,但不是训练(training)方面的。它们在推理方面表现不错,也有训练方面的路线图。但在训练领域,NVIDIA 依然是老大。我说“老大”,是认真的。它们确实在训练市场中占据主导地位。至于推理方面,NVIDIA 并不是价格最优的选择。你可以用更便宜的方式:用 ASIC、用 AMD、甚至用自研芯片都可以。将来在推理方面用 NVIDIA 芯片反而算是个便宜的选项。

NVIDIA 现在在创新,正在开发一些芯片用于推理。你刚才也提到了训练和推理是否可以互换的问题。也许在未来一两年内,他们可能会推出专门用于推理的芯片,目前的计划还没有最终确定。如果 NVIDIA 真这么做了,那对 AMD 来说就是个重大挑战。但如果 NVIDIA 继续玩这个游戏,比如说“我会出一款既能训练又能推理的芯片”,那就另当别论了。

只要 NVIDIA 继续这样下去,AMD 就有很多生意可做。甚至 NVIDIA 自己也知道这一点。因为一旦 NVIDIA 也推出推理芯片,这会影响它训练芯片的定价权和市场杠杆。到时候,很多人会意识到:“其实我根本不需要训练芯片,我只要买个推理芯片就行了,还便宜很多。那我就专门用这个来做推理好了。” NVIDIA 在训练方面投入巨大,这就是挑战所在。你明白我的意思吗?

基本上,AMD 在推理领域非常强,在 NVIDIA 没有涉及的其他应用领域也表现不错。NVIDIA 更专注于开发一种可以训练和推理通用的芯片。比如 Blackwell 芯片可以同时用于训练和推理。还有 GB200,这款可以用于专业训练或高级训练应用的芯片。相比之下,AMD 主要只有用于推理的专用芯片。

只要 NVIDIA 没有专门的推理芯片,AMD 就会试图在这个市场中分一杯羹。推理现在的需求很大,而 NVIDIA 也许会在未来的某个时间点出一些推理芯片来与 AMD 竞争,占据市场份额,但目前还没有看到这方面的产品路线图。当然,也不是说不会有可能。AMD 在推理方面性价比很高,是很不错的选择。
 楼主| 发表于 3 天前 | 显示全部楼层
今年在一家小几百人startup做芯片,还是有些感慨的

芯片拼到最后就是拼能耗比,这是一级指标,真的是靠堆海量的人力去针对每种workload调试每一点power和performance,人不够就是会有差距,startup对于power和performance的要求要低太多了,只要大差不差就行,能把功能实现出来就是成功

startup跟大厂比,除了关键地方的IP,很多地方就是买现成IP拼凑起来,导致基本上一个人要覆盖大厂三个组的scope,广度上去了精度自然就不够

startup调硬件performance经常没人关心,因为软件FW/compiler太多可以优化的地方了,随便多花点时间得到的收益都比调芯片性能要效率更高

性能只要和当初架构设计的差不多就行,而在架构设计的时候就已经考虑到最后的能耗比等一系列指标了,但考虑到最后的实施,其实就算是带宽和算力指标定的和Nvidia一样,功耗目标也是高出了50%以上,只能靠compiler优化特定的benchmark workload。除非是架构及其特殊,能在特定的workload上从架构上决定能耗比

在大厂呆久了,再去startup就会觉得大厂很多职位就是雕花,投入产出比其实很低,但这些雕花位置又不能砍了,毕竟芯片最后的能耗比有不少提升就是靠这样的微调工作量累积起来的

想起了前几年,当红炸子鸡Nuvia带着苹果CPU架构的所有秘密被Qualcomm收购时候,如果按照标准startup做法,采购ARM公版的interconnected,cache和memory,那Nuvia CPU跑分起码要降10%以上,跟Apple CPU的差距就直接断代了(单核)。也正是有了Qcom的SoC infrastructure支撑,才有了Nuvia第一代CPU在苹果M3/M4出来之前短暂的王朝

芯片startup要能生存,只能靠错位竞争,要么是一个细分市场,要成为明星就得做大公司短期抽不出资源做的一些方向。不然的话芯片大厂的资源起码能在硬件性能上有人力优势去调试的

Nvidia Blackwell Ultra和Vera Rubin的发布,指标上步子迈的这么大,一年一代节奏,看来是希望用 “时间+人力+生态” 形成 IP 壁垒,其实是不利于新晋startup追赶的,要在指标上把东西做出来的难度,真的是越来越大,已经实质上有点堆人力的意思。MTIA/Annapurna lab直接靠对标算力指标来追赶,迟早会翻车(做不出来或者延期)

说到堆人力,Nvidia最近招人力度又开始加大,我两周之内甚至接到了三个不同Nvidia HR的招呼,互联网公司几百人的小作坊也在快速扩张招人来应对,Google TPU组这两年在以色列和印度扩张非常可观,基本是奔着翻倍去的,Meta的MTIA今年大扩招也是奔着50~100%扩张

------------------------------------

从芯片设计来看,即便是o3如此强大的AI再发展下去,离自己设计芯片,来取代芯片工程师的职位,仍然很遥远,o3o4o5的进步是10分到50分的事情,而现在的芯片早就进化到堆人力从90分往95分逼近了

当然了,半导体行业广泛采用claude3.7/o3级别的AI,确实也是有帮助的,我这两个月用AI提升的效率,我觉得已经稳稳有20%+的水准了

不用纠结o6o7o8能不能自己设计芯片,因为只要人+AI有更好的效果就行

AGI摆脱工具定义的标准,是人+AI有没有比AI产出更高

只要没有达到这个标准,那么AI仍然是工具属性

可预见的未来内,我看不到AGI摆脱工具定义的可能
 楼主| 发表于 昨天 16:54 | 显示全部楼层
TO WIN THE AI RACE, THE BIDEN AI DIFFUSION RULE MUST GO

The Trump administration has announced its intention to repeal the Biden administration’s AI Diffusion Rule. As the Commerce Department’s Bureau of Industry and Security (BIS) confirmed in a statement yesterday:

“The Biden AI rule is overly complex, overly bureaucratic, and would stymie American innovation. We will be replacing it with a much simpler rule that unleashes American innovation and ensures American AI dominance.”

This is an excellent decision by Secretary of Commerce
@howardlutnick
and Under Secretary of BIS Jeff Kessler.

There were several major problems with the Biden Diffusion Rule:

1. Overreach of Export Control Authority

First, the rule marked an unprecedented—and arguably unlawful—expansion of export control authority. Under the Export Control Reform Act (ECRA) of 2018, the President is empowered to restrict exports of dual-use technologies that have both civilian and military applications. That authority has been used to restrict the sale of advanced semiconductors to China, a policy with broad bipartisan support.

But the Diffusion Rule went significantly further. It required nearly all global sales of high-end GPUs—even to trusted allies—to obtain export licenses or fit into a narrow set of license exemptions. This forced much of the global data center and AI infrastructure industry to seek approval from Washington, creating a bottleneck that chilled legitimate, non-sensitive commerce.

2. Bureaucratic Allocation of Compute

The rule imposed detailed numerical caps on how many chips and how much computing power foreign entities could acquire and operate. This was a radical departure from market-based allocation principles, placing the U.S. government in the position of rationing compute power globally. It effectively turned Washington into a central planner for the global AI industry.

3. Alienation of U.S. Allies

The rule also strained relationships with key allies by arbitrarily dividing countries into compliance “tiers,” labeling many friendly nations as second-class partners. This kind of regulatory hierarchy undermines trust and risks pushing allies toward non-American technology alternatives.

4. Lack of Due Process

The Diffusion Rule was issued just five days before the end of the Biden administration without a meaningful public comment or review period. Given its sweeping scope, its retroactive elements, and the global compliance burden it imposed, this rollout was deeply flawed from both a procedural and practical standpoint.
⸻

In his first week in office, President Trump directed us to win the AI race. The Biden Diffusion Rule undermines that goal. It bogs American tech companies down in red tape, while slowing the global adoption of U.S. technologies at a time when we should be encouraging the world to build on our tech stack.

As
@VP
J.D. Vance emphasized in his Paris Speech on AI, the United States should be the gold standard and partner of choice for our allies and strategic partners. If we make it too hard for them to work with us, we risk pushing them into China’s orbit.

China has already launched a Digital Silk Road as part of its broader Belt and Road Initiative. If we don’t offer a compelling alternative, we leave the field open.

Yes, we must take aggressive steps to prevent advanced semiconductors from being illegally diverted into China. But that goal should not preclude legitimate sales to the rest of the world as long as partners comply with reasonable security conditions.

Today, American chips remain superior to China’s—but that lead is narrowing. If U.S. companies are hamstrung by excessive regulation, and foreign customers are blocked from buying our technology, we risk ceding global markets and influence to Chinese competitors.

Right now, we have the opportunity to entrench the American tech stack worldwide while we still have a commanding lead. Let’s seize it.

翻译自 英语
要想赢得人工智能竞赛,拜登的人工智能扩散规则必须废除

特朗普政府已宣布打算废除拜登政府的《人工智能扩散规则》。正如美国商务部工业和安全局 (BIS) 昨日在一份声明中确认的那样:

拜登的人工智能规则过于复杂,官僚主义严重,会阻碍美国的创新。我们将用一项更简单的规则取而代之,以释放美国的创新潜力,并确保美国在人工智能领域的主导地位。

这是商务部长
@howardlutnick
兼商务部工业和安全局副部长杰夫·凯斯勒做出的一项出色决定。

拜登扩散规则存在几个主要问题:

1. 出口管制权限的过度扩张

首先,该规则标志着出口管制权力的空前扩张,甚至可以说是非法扩张。根据2018年《出口管制改革法案》(ECRA),总统有权限制民用和军用两用技术的出口。这项权力已被用于限制向中国出售先进半导体,这一政策得到了两党的广泛支持。

但《扩散规则》则更进一步。它要求几乎所有高端GPU的全球销售——即使是对可信赖的盟友——都必须获得出口许可证,或符合一系列有限的许可豁免条件。这迫使全球大部分数据中心和人工智能基础设施行业寻求华盛顿的批准,从而造成了瓶颈,阻碍了合法、非敏感的商业活动。

2. 计算资源的官僚分配

该规则对外国实体可以获取和运营的芯片数量和计算能力设定了详细的数字上限。这彻底背离了市场化的分配原则,使美国政府处于在全球范围内分配计算能力的境地。这实际上使华盛顿成为了全球人工智能产业的中央计划者。

3.疏远美国盟友

该规则还武断地将各国划分为合规“等级”,将许多友好国家贴上了二等合作伙伴的标签,导致美国与关键盟友的关系紧张。这种监管等级制度破坏了信任,并有可能迫使盟友转向非美国技术替代品。

4. 缺乏正当程序

《扩散规则》是在拜登政府任期结束前五天发布的,没有经过任何实质性的公众意见征询或审查期。鉴于其范围之广、追溯力之强以及由此带来的全球合规负担,这项规则的推出无论从程序上还是实践上都存在严重缺陷。
⸻

特朗普总统上任第一周就指示我们赢得人工智能竞赛。拜登的“扩散规则”破坏了这一目标。它让美国科技公司深陷繁文缛节,同时减缓了美国技术的全球应用,而我们本应鼓励世界在我们的技术栈上进行构建。

正如
@VP
JD Vance在其巴黎人工智能演讲中所强调的那样,美国应该成为我们盟友和战略伙伴的黄金标准和首选合作伙伴。如果我们让他们难以与我们合作,我们就有可能将他们推向中国的轨道。

中国已启动“数字丝绸之路”,作为其“一带一路”倡议的一部分。如果我们不能提供令人信服的替代方案,我们将为此敞开大门。

是的,我们必须采取积极措施,防止先进半导体被非法转运到中国。但只要合作伙伴遵守合理的安全条件,这一目标不应妨碍向世界其他地区合法销售。

如今,美国芯片仍然优于中国,但领先优势正在缩小。如果美国企业受到过度监管的束缚,外国客户无法购买我们的技术,我们就有可能将全球市场和影响力拱手让给中国竞争对手。

现在,我们有机会巩固美国科技体系的全球地位,同时我们仍然保持着绝对的领先优势。让我们抓住这个机会。


査理·芒格的15条箴言,穷查理宝典中的终身智慧,值得每一位兄弟深思。譬如:赚大钱不靠买卖,靠等待;破产有三种方式:酗酒、好色、赌博;不能接受50%回撤,注定只能接受平庸的回报;变富就像滚雪球一样,站在一条很长的雪道上,并持续滚很久。不过,芒格投资哲学,最有价值的是:耐心、集中与能力圈。

能力圈原则,是沃伦·巴菲特最早提出的一个重要理念,强调在自己熟悉和擅长的领域内做决策。这个原则不仅适用于投资,也广泛适用于职场、创业、学习等方面。必须清楚自己知道什么、不知道什么。玩那些你有优势的游戏,其他的碰都别碰;在能力圈范围内,集中投资;然后遵循长期主义:复利是世界第八大奇迹。理解它的人赚它,不理解的人付它。
 楼主| 发表于 昨天 16:55 | 显示全部楼层
交易其实是世界上最难成功的职业,也是最容易赚钱的职业。年轻人碰不得,智慧未开的碰不得,未过情关的碰不得,未经世事,未体验过人情冷暖的碰不得,不愿踏上修行之路的碰不得。只有佛魔同体的人才会选择这条路,这是一条向内修的路。要善于情绪管理,要懂得享受孤独,要对人性有顶级的理解,要敢于打破自我认知,外表温文尔雅,内心杀伐果断,只专注于自己的精神内在,杜绝一切无用社交,这样的人才可能成为一名顶级交易员。
 楼主| 发表于 昨天 16:58 | 显示全部楼层
5月8日
如经过数学训练,不轻易做空美股,除非有内幕消息,或重大事件。过去150年,美股年化收益率7%-10%(扣除通胀后)。1928到2023,标普500在任意1年中上涨的概率73%。持有10年期的平均上涨概率90%。今年美股如此波动,我们一共就大型做空了4天。即使是量化投资,也要有长期做多的思维。这不是概率上的“硬性偏差”,而是因为市场长期上涨趋势、风险结构非对称、回报期望正向等因素共同导致:数学上做多更占优势。












如经过数学训练,不轻易做空美股,除非有内幕消息,或重大事件。过去150年,美股年化收益率7%-10%(扣除通胀后)。1928到2023,标普500在任意1年中上涨的概率73%。持有10年期的平均上涨概率90%。今年美股如此波动,我们一共就大型做空了4天。即使是量化投资,也要有长期做多的思维。这不是概率上的“硬性偏差”,而是因为市场长期上涨趋势、风险结构非对称、回报期望正向等因素共同导致:数学上做多更占优势。















8




13




37




1.7万























































您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2025-5-11 03:31 , Processed in 0.107028 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表