博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1183|回复: 1

AMD祭出“史上最复杂芯片”:狂塞1460亿个晶体管 采用Chiplet技术

[复制链接]
发表于 2023-1-9 06:09:59 | 显示全部楼层 |阅读模式
新款芯片还能将ChatGPT的训练时间,从几个月缩短到几周。


《科创板日报》1月6日讯(编辑 邱思雨) 当地时间周四(1月5日),在2023年美国消费电子展(CES)上,AMD带来了新品“大礼包”,从CPU到GPU、从移动版到桌面版一应俱全,包括Ryzen 7000系列移动版处理器、Ryzen 7000 X3D系列台式机CPU、移动版RX7000独显以及AMD迄今为止最复杂芯片——Instinct MI300等。
首席执行官苏姿丰在CES现场展示Instinct MI300
AMD史上最复杂芯片
Instinct MI300是AMD首款数据中心/HPC级的APU,首席执行官苏姿丰称其是“AMD迄今最复杂的芯片”,共有1460亿个晶体管,相较InstinctMI250X,InstinctMI300可提升8倍的AI训练算力和5倍的AI能效。
1460亿个晶体管是什么概念?英特尔的服务器GPU Ponte Vecchio集成了1000亿个晶体管,英伟达新核弹H100的晶体管数量则为800亿。
值得注意的是,Instinct MI300采用了当下正热的先进封装技术——Chiplet,利用3D封装技术将CPU和加速计算单元集成在一起。Instinct MI300在4块6nm芯片之上,堆叠了9块5nm的计算芯片,HBM3内存围绕在四周。
Instinct MI300预计将在2023年下半年交付,首发将部署在美国新一代超算El Capitan上,性能冲上200亿亿次,比当前TOP500最强超算Frontior性能提升一倍。
此外,据Tom‘sHardwre报道,AMD还透露,Instinct MI300能将ChatGPT、DALL•E等大模型的训练时间,从几个月缩短到几周。
Ryzen 7040性能超越苹果M2
除了祭出1460亿晶体管大招炸场外,Ryzen 7040系列处理器也是CES上亮点,后者直接对标苹果的M1 Pro和M2芯片。
苏姿丰指出,R9 7940HS(Ryzen 7040系列最高端型号)在多线程性能方面,比苹果M1 Pro快34%;在AI任务处理上,比苹果M2快20%。搭载Ryzen 7040系列处理器的超薄笔记本,能连续播放30多个小时的视频。


具体来说,Ryzen 7040系列为单芯片,采用4nm工艺制造,最高可提供8核心16线程的产品,每个内核都配有1MB的L2缓存,共享32MB的L3缓存。核显采用了AMD最新的RDNA3架构,最多配备12个CU(768个流处理器),以及收购赛灵思后整合了基于XDNA架构的AI加速引擎。
Ryzen7040系列支持双通道DDR5/LPDDR5内存,支持PCIe 4.0,集成了USB4控制器,TDP为35W,最高可配置到45W。首批搭载该处理器的笔记本电脑,将在2023年3月出货。

 楼主| 发表于 2023-1-9 06:10:30 | 显示全部楼层
AMD在 2023 年国际消费电子展上推出了其下一代 Instinct MI300 加速器,我们有幸获得了一些动手时间,并拍摄了几张这款庞大芯片的特写照片。


毫无疑问,Instinct MI300 是一个改变游戏规则的设计——这个数据中心 APU 混合了总共 13 个小芯片,其中许多是 3D 堆叠的,以创建一个具有 24 个 Zen 4 CPU 内核并融合了 CDNA 3 图形的芯片引擎和 8 堆 HBM3。总体而言,该芯片拥有 1460 亿个晶体管,是 AMD 投入生产的最大芯片。


MI300 拥有 1460 亿个晶体管,轻松超过英特尔的 1000 亿个晶体管Ponte Vecchio,再加上 128GB 的HBM3 内存。考虑到其闪亮的外观,去边芯片很难拍摄,但您可以清楚地看到中心芯片侧面的八个 HBM3 堆栈。在这些 HBM 堆栈之间放置小的结构硅片,以确保在封装顶部拧紧冷却溶液时的稳定性。


该芯片的计算部分由九个 5nm 小芯片组成,它们是 CPU 或 GPU 内核,但 AMD 没有详细说明每个小芯片的使用数量。Zen 4 内核通常部署为八核裸片,因此我们可以查看三个 CPU 裸片和六个 GPU 裸片。GPU 芯片使用 AMD 的 CDNA 3 架构,这是 AMD 数据中心专用图形架构的第三次修订。AMD 没有指定 CU 数量。


这九个裸片被 3D 堆叠在四个 6nm 基础裸片之上,这些裸片不仅仅是无源中介层——我们被告知这些裸片是有源的,可以处理 I/O 和各种其他功能。AMD 向我们展示了另一个 MI300 样品,该样品的顶部裸片用砂带打磨机打磨掉,以揭示四个有源中介层裸片的架构。

在那里,我们可以清楚地看到不仅可以在 I/O 块之间实现通信的结构,还可以看到与 HBM3 堆栈接口的内存控制器之间的通信。但我们不允许拍摄第二个样本。


3D 设计允许在 CPU、GPU 和内存芯片之间实现令人难以置信的数据吞吐量,同时还允许 CPU 和 GPU 同时处理内存中的相同数据(零拷贝),从而节省电力、提高性能并简化编程。看看这个设备是否可以在没有标准 DRAM 的情况下使用将会很有趣,正如我们在英特尔的 Xeon Max CPU中看到的那样,它也采用了封装 HBM。

AMD 不愿透露细节,因此不清楚 AMD 是使用标准的 TSV 方法将上下裸片熔合在一起,还是使用更先进的混合键合方法。我们被告知 AMD 将很快分享有关封装的更多细节。

AMD 声称 MI300 提供的 AI 性能是 Instinct MI250 的八倍,每瓦性能是Instinct MI250的五倍(使用具有稀疏性的 FP8 测量)。AMD 还表示,它可以将 ChatGPT 和 DALL-E 等超大型 AI 模型的训练时间从几个月缩短到几周,从而节省数百万美元的电费。

当前一代的 Instinct MI250 为 Frontier 超级计算机提供动力,这是世界上第一台百亿亿级计算机,而 Instinct MI300 将为即将推出的两台 exaflop El Capitan 超级计算机提供动力。AMD 告诉我们,这些 halo MI300 芯片价格昂贵且相对稀有——它们不是大批量产品,因此它们不会像EPYC Genoa 数据中心 CPU那样得到广泛部署。但是,该技术将过滤到不同外形的多种变体。

该芯片还将与Nvidia 的 Grace Hopper Superchip竞争,后者在同一块板上结合了 Hopper GPU 和 Grace CPU。这些芯片预计将于今年上市。基于 Neoverse 的 Grace CPU 支持 Arm v9 指令集,并且系统配备了两个与 Nvidia 新品牌 NVLink-C2C 互连技术融合在一起的芯片。AMD 的方法旨在提供卓越的吞吐量和能效,因为将这些设备组合到一个封装中通常比连接到两个单独的设备时能够在单元之间实现更高的吞吐量。

MI300 还将与 Intel 的Falcon Shores竞争,该芯片将具有数量不等的计算块,具有 x86 内核、GPU 内核和内存,具有令人眼花缭乱的可能配置,但这些配置要到 2024 年才会到货。

在这里,我们可以看到 MI300 封装的底部以及用于 LGA 安装系统的接触垫。AMD 没有分享有关插槽机制的详细信息,但我们一定会尽快了解更多信息——该芯片目前在 AMD 的实验室中,该公司预计将在 2023 年下半年交付 Instinct MI300。El Capitan超级计算机将在 2023 年部署时成为世界上最快的超级计算机。目前正在按计划进行。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2024-4-26 14:02 , Processed in 0.087827 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表