一场关于未来“AI算力“的盛宴:Hot Chips 2025全景解读

Hot Chips 2025

每年夏末,全球最受关注的芯片大会之一——Hot Chips 热芯片大会,都会在美国斯坦福大学召开。今年的Hot Chips 2025于8月24日至26日在硅谷Memorial Auditorium隆重举办 。历时三天,会议包括2场专题教程、2场重要主题演讲、一个高端讨论Panel、以及约25场技术报告,涵盖了从处理器设计、网络、光互连,到AI芯片、系统架构等领域 SemiWiki

Hot chips 2025

这不仅是一场技术摆摊展,更是一个学界和产业间的桥梁:许多尚未发表的“真产品”设计,会在这里首次亮相,成为未来数年内推进数据中心、AI算力、图形渲染等技术路径的风向标。在半导体和计算机体系结构领域,Hot Chips(热芯片会议)被誉为“芯片界的奥林匹克”。自1989年创办以来,这个每年在美国斯坦福大学举办的学术与产业盛会,汇聚了全球顶尖的处理器、GPU、AI加速器、内存、网络和系统设计团队。与ISSCC、VLSI等偏重电路设计的会议不同,Hot Chips更强调体系结构与产品级创新,是学界与业界展示下一代高性能芯片的核心窗口。很多改变行业格局的设计——从Intel的多核处理器到NVIDIA的GPU计算架构、再到Google TPU和Apple M系列——都曾首次在Hot Chips上披露。

NVIDIA products

2025年的不同与特别之处

相比往年,Hot Chips 2025的主题有几个显著变化:

  1. AI算力全面主导:几乎每一个议题都和AI相关,从Google TPU Ironwood到AMD MI350、NVIDIA Blackwell,AI加速器与大模型推理优化成为绝对主角。

  2. 光互连和内存近计算首次大规模亮相:片上/片间光I/O(如Celestial AI的光模块)首次成为主流议题,显示行业正在突破电互连瓶颈。

  3. 安全与可信计算受重视:微软、IBM等厂商提出分布式HSM、抗量子加密等方案,把安全硬件推到数据中心与AR眼镜SoC层面。

  4. 新旧架构对比更鲜明:今年既有RISC-V新核(如Cuzco),也有IBM Power11和Intel Clearwater Forest这种“传统巨头”的更新换代,形成开放ISA与专有架构正面交锋的格局。

  5. 从“芯片”到“系统”:不仅仅是单颗芯片设计,今年更多厂商展示了整机级互连与集群设计,例如Google TPU Ironwood集群规模和OCS光交换系统,代表从芯片到超级计算平台的融合趋势。

CPU处理器与架构创新

Hot Chips 2025的CPU专场涵盖了多种先进处理器设计。从高性能RISC-V内核到大规模多核处理器,展示了前沿计算平台的新进展。Condor Computing推出的Cuzco是一款面向高性能的32/64位RISC-V核(RVA23规范),具备宽前端、256级重排序缓冲区和8条执行管线。Cuzco采用“时间驱动”微架构,通过硬件编译器进行流水线调度,使其在SPECint2006基准上每时钟性能几乎是同公司Andes AX65核的两倍 servethehome

Cuzco

日本PEZY展示了其新一代MIMD多核加速器PEZY-SC4s,采用台积电5nm工艺(芯片面积约556 mm²)。与上一代SC3相比,PEZY-SC4s在DGEMM矩阵乘法中功效提升了2倍以上,Smith-Waterman算法性能接近4倍提升servethehome。这表明在大规模并行计算领域,先进工艺节点和全新架构带来了显著的能效改进。

History of PEZY

在传统CPU领域,IBM的Power11处理器延续了“少而大核”的理念。Power11基于三星7nm工艺,通过3D互连封装增强了系统扩展性。其内存子系统采用OMI架构,单芯片支持多达32路DDR5内存通道,可实现超过1TB/s的带宽和8TB级的总容量servethehome。IBM并不看好容量受限的HBM,而是借助OMI D-DIMM等定制方案,追求极高的容量与带宽并重。

IBM power series

与之相对,Intel在Hot Chips上介绍了 Xeon“Clearwater Forest”处理器——基于Intel 18A工艺、完全由高效能E核组成的288核芯片。该片通过3D堆叠封装,在载频、缓存和内存带宽上相较上一代“Sierra Forest”都有显著提升,强调以更高的能效应对海量线程任务servethehome。Intel 的新一代Xeon依然定位高核心密度场景,通过集成更多改进版E核,在相同功耗下实现了可观的性能提升。

Clearwater Forest

总体而言,Hot Chips 2025中的CPU报道显示:RISC-V核设计与传统X86/Power巨头并驾齐驱,多核与异构架构协同并存,以应对AI和云计算不断攀升的算力需求 。

GPU与图形架构进展

图形处理器方面,AMD和NVIDIA都带来了基于最新架构的产品细节。AMD在会议上详细解读了新一代RDNA 4架构和旗下Radeon RX 9000系列显卡。RDNA4在光线追踪单元上性能翻倍,引入了“面向世界的轴对齐包围盒”等新特性以减少误检,并通过动态寄存器分配大幅增加了并发波数,同时加入了FP8低精度计算和稀疏矩阵加速来提升AI计算性能 servethehome。该架构还强化了媒体和显示引擎(支持AV1编码B帧、集成锐化算法等),并扩大了三级Cache(Infinity Cache)容量,为高质量游戏和混合工作负载提供支持。

RDNA 4

AMD还展示了其CDNA 4架构的MI350加速器,采用8个计算Die+2个I/O Die堆叠(总晶体管达1850亿),分为风冷版MI350X和液冷版MI355X,后者系统功耗可达1.4千瓦servethehome。MI350面向大型AI模型,尤其在多卡集群下提供了充足的带宽与容量支持。

MI350

NVIDIA则重点介绍了面向“神经渲染”时代的黑曜石(Blackwell)架构及新一代消费级显卡RTX 5090(nvidia)。Blackwell架构兼顾数据中心和移动端,进一步加码AI计算:RTX 5090配备32GB超高速GDDR7显存,是迄今为止面向游戏的最强NVIDIA GeForce GPU designnews

Relative Performance in RXT 4090 and RXT 5090

黑曜石引入了FP4(4位)混合精度计算,大幅提升ML吞吐并优化功耗。Hot Chips演讲中,NVIDIA强调利用神经网络来生成和增强游戏帧(神经渲染),目标是“跨越恐怖谷(Uncanny Valley,wiki)”直达逼真画面,同时在笔记本等功耗受限环境下获得更好能效表现 servethehome

NVIDIA Nerual Rendering

总体来看,两大GPU阵营都在新架构中融合了更强的AI单元和大容量显存,以支撑日益增长的图形与AI工作负载。

AI加速器与机器学习硬件

AI加速器仍是Hot Chips 2025的主旋律。在机器学习专场中,各大厂商展示了最新的AI芯片设计与系统。Google介绍了面向推理任务的下一代TPU——代号“Ironwood”,专为大规模AI推理和推理优化模型(如LLM和专家模型)设计。Ironwood节点可包含9216颗TPU芯片,总算力峰值可达42.5 exaFLOPS(消耗约10MW功率),据称比上一代“Trillium”在性能功耗比上提高了2倍 servethehome

Google Ironwood TPU Rack

Ironwood Architecture

其关键创新包括将芯片组网规模提升到9216枚芯片,并使用光路开关(OCS,Optical Circuit Switches)在集群中共享1.77PB的HBM内存,从而在庞大模型下实现跨节点近内存数据访问 servethehome。此外,Ironwood强调了系统可靠性(RAS,Reliability Availability Serviceability)特性,适配大规模部署环境。

NVIDIA带来了GB10 SoC的细节(如下图),这是一款整合Arm CPU与Blackwell GPU的大型AI加速器, 面向高性能工作站、桌面级 AI 开发和轻量化数据中心的整体解决方案(如下图,轻量化工作站NVIDIA DGX Spark【“Mini” AI Supercomputer 】) servethehome

GB10 SoC

Building a “Mini” AI Supercomputer with Blackwell

DGX Spark powered by the GB10 SoC

DGX Spark interconnection

AMD则在MI350之外,推出400GbE级别的Pensando Pollara 400 AI NIC,这是业界首个Ultra Ethernet Consortium(UEC)兼容的AI网络卡,专为AI节点通信优化 servethehome。Pollara 400采用全可编程P4数据平面架构,支持虚拟地址转换、原子内存操作和流水线一致性等高级功能,能减少AI集群的网络开销。

Pensando Pollara 400 AI NIC

总之,本届大会中提出了多种提升AI算力的硬件创新,包括大规模光互连、高带宽存储、以及内存计算平台。例如,d-Matrix推出的“Corsair”加速卡集成了定制数字内存计算单元和块浮点格式,利用芯片间高速直连技术进行AI推理;Celestial AI演示了首个片内光互连SoC模块(如下图),用硅光子学技术在GPU和加速器芯片间建立大带宽光链接 servethehome。这些进展体现了业界在AI时代对算力互联、内存近计算(near-memory compute)等方面的不断探索和突破。

Celestial AI Photonic Fabric Module

网络芯片与数据中心互联

在网络与通信领域,Hot Chips 2025强调了面向AI/HPC数据中心的高性能网络技术。Intel公布了其最新Mount Morgan(代号E2200)IPU/DPU,该芯片基于TSMC 5nm工艺,集成了400Gb/s以太网MAC、最多24个Arm Neoverse N2计算核(配备四通道LPDDR5内存)以及PCIe Gen5×32交换域servethehome

Intel E2200 IPU

AMD展示了其Pensando Pollara 400 AI NIC,其400GbE网络卡采用PCIe Gen5×16接口,不带PCIe交换器,使用可编程P4流水线来加速分组处理servethehome

ensando Pollara 400 AI NIC

NVIDIA的ConnectX-8 SuperNIC也在网络专场亮相。此外,Broadcom推出了Tomahawk Ultra交换芯片,具备51.2Tb/s转发能力 servethehome,支持512端口100GbE,是针对AI规模化网络需求设计的以太网交换机。Tomahawk Ultra还集成了低延迟的链路层重试功能,适应高并发分布式训练场景。总体而言,本届Hot Chips展现了向400GbE/800GbE网络演进的趋势,以及可编程网络(P4管线、RDMA卸载)和光互连技术(光模块、Co-Packaged Optics)在数据中心互联中的应用 designnews

内存与存储技术

内存体系结构是Hot Chips 2025的另一个热点主题。Marvell在会议上提出多种新型内存子系统设计(如下图):其2nm工艺下的定制SRAM IP拥有高密度(单元带宽是同代标准IP的17倍)servethehome,通过加速电压降低和宽接口等技术提高运行频率和带宽。Marvell还展示了定制HBM技术,将多个标准DRAM堆叠在自制基底芯片上,通过32Gb/s D2D互连实现逻辑下沉,减少了芯片面积和功耗。高容量DDR方面,Marvell开发了带有内建Arm CPU和加密压缩模块的CXL内存扩展器(“Structera”),可在不经过主CPU的情况下降低访问延迟。

Marvell memory architecture

IBM的Power11则以层次化内存闻名:单芯片可连接32条DDR5通道(合计8TB容量),实现超1TB/s带宽,通过OMI缓冲芯片减少了6-8ns的延迟servethehome 。IBM不依赖HBM而偏重DRAM来满足极高容量需求。总体而言,Hot Chips 2025强调全栈内存优化:从片上SRAM、堆栈DRAM到扩展DDR+CXL,覆盖低延迟、高带宽和大容量等各层次 。这些技术能够支撑AI模型训练和其他内存密集型任务的发展。总体而言,Hot Chips 2025强调全栈内存优化:从片上SRAM、堆栈DRAM到扩展DDR+CXL,覆盖低延迟、高带宽和大容量等各层次。这些技术能够支撑AI模型训练和其他内存密集型任务的发展。

安全架构与可信计算

servethehome.com在安全领域,Hot Chips 2025关注了数据中心级的硬件安全设计和新兴密码学加速器。微软在会上介绍了其“Azure集成HSM”方案(如下图):将硬件安全模块(HSM)从集中式集群转移到每台服务器内,引入专用的安全芯片为每台服务器提供根信任和加密服务 servethehome 。这种分布式HSM设计消除了传统TLS握手的开销,更适合云中多租户隔离需求。

Microsoft Azure Secure Hardware Architecture

IBM也在Power11中增添了量子安全加密机制,以应对未来量子计算威胁 servethehome。Meta的Orion AR眼镜SoC则在芯片中嵌入了安全根信任(如下图),所有输入/输出数据均在硬件层面加密 servethehome,表明在AR/VR设备中重视安全隔离。

Meta Orion AR SoC

专用SoC与异构系统

Hot Chips 2025还展示了面向特定应用的异构SoC设计。例如,Meta介绍了一款用于世界锁定渲染(World-Lock Rendering)的专业SoC,用于其AR眼镜原型。在这个系统中,显示器处理器、眼镜端处理器和外部Puck协同工作:眼镜片上SoC集成了相机/传感器处理、追踪及简单计算(芯片5nm工艺,28亿晶体管,封装上带LPDDR4X和NVMe闪存)servethehome;每只“眼睛”配有独立显示处理器(带大量片上SRAM,如下图);外部Puck则包含更强大的5.7B晶体管处理器(5nm、LPDDR4X),负责视觉和音频ML计算、编码等任务servethehome

Display Processor

此外,光学互连领域出现了首款片内光I/O SoC模块:Celestial AI的PF Module(如下图)在单个2.5D封装中集成了硅光子层,实现芯片间高带宽光通信 servethehome。这种光模块大幅释放了传统电接口“海滨地带”(chip beachfront),有望在未来的多芯片GPU和加速器中广泛应用。这些设计展示了将异构计算(CPU、GPU、专用加速器、传感器)集成在同一SoC或多芯片系统上的趋势,同时注重功耗、延迟和尺寸的极限优化。

Celestial AI Photonic Fabric Module

结论

Hot Chips 2025报告了处理器领域诸多前沿设计,从底层计算单元到系统级互连、从高能效微架构到大规模系统互联。各类芯片(AI加速器、CPU、GPU、网络设备等)均显著关注能效优化、异构集成和面向AI的专用功能。总体趋势包括:算力与带宽协同提升(如光互连和高带宽内存)、异构加速器与处理器共生(如GPU+AI单元、FPGA/ASIC+通用核)、以及安全与可编程网络的深入融合(如集成HSM和可编程网络管线)。未来展望中,可期待更多基于先进封装(芯片组、2.5D/3D堆叠)和新工艺节点的创新,以及围绕AI/大数据的新兴架构不断涌现。Hot Chips作为硬件设计者的风向标,其最新报告为产业提供了丰富的设计思路和技术基准,启示各类芯片开发者对下一代系统架构进行探索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值