计算机架构与生物神经网络在底层逻辑上存在根本差异:大脑通过突触连接的物理结构存储和处理信息,而传统计算机依赖冯·诺依曼架构的“计算-存储分离”模式。但随着AI算力需求爆发式增长,尤其是大模型对内存带宽的极致要求,存算融合已成为突破“内存墙”瓶颈的核心技术方向。
一、当前架构的局限性:为何需要融合?
- 内存墙问题
传统架构中,数据在CPU/NPU与内存/磁盘间频繁搬运,消耗60%以上能量且形成性能瓶颈。例如,训练千亿参数模型时,GPU显存带宽(如HBM2e的1.8TB/s)仍无法满足计算单元需求。 - 能效比失衡
NPU计算能效可达10 TOPS/W,但数据搬运能耗高出计算100倍以上。边缘设备(如TWS耳机)的本地AI任务常受限于此。
二、存算融合的三大技术路径
1. 存算一体(Processing-in-Memory, PIM)
- 原理:直接在存储单元内嵌入计算逻辑,彻底消除数据搬运。
- 代表方案:
- MRAM芯片(三星):通过“电阻总和”架构实现98%精度的笔迹识别,功耗仅为传统方案的1/10。
- SRAM存算NPU(苹芯N300):在256KB SRAM中嵌入计算单元,面积效率达0.26TOPS/mm²,语音模型推理功耗<1mW。
- 挑战:需重构存储阵列电路,且新型介质(如RRAM)量产成本高。
2. 近存计算(Near-Memory Computing)
- 原理:缩短计算单元与存储介质的物理距离,通过2.5D/3D堆叠提升带宽。
- 代表方案:
- HBM+GPU:2.5D封装将HBM与GPU集成,带宽提升5倍(如NVIDIA H100)。
- 3D DRAM堆叠:三星将计算单元插入HBM层间,访存功耗降低40%。
- 优势:兼容现有芯片生态,易商业化。
3. 异构存储池化
- 原理:通过高速互连协议统一管理磁盘、内存、缓存,形成“存储 continuum”。
- 代表方案:
- NVMe机械硬盘(希捷):取消SATA控制器,通过PCIe直连DPU,延迟降低30%,使机械硬盘首次满足AI实时处理需求。
- CXL协议:支持内存扩展池化,实现TB级“内存-磁盘”统一寻址。
三、技术融合的挑战与突破点
-
介质特性适配
- DRAM/SRAM速度快但易失性,适合高频计算;Flash/新型RRAM非易失但写入慢,需算法动态分配数据位置。
- 突破案例:彭练矛团队开发石墨烯/钙钛矿突触晶体管,通过多态调控支持存算一体化的时分复用架构。
-
软件生态重构
- 需开发编译器自动优化数据布局(如华为CANN的张量融合策略),将计算图拆解匹配至存算单元。
- 韩国KAIST的混合KV缓存量化技术,通过算法-硬件协同设计,在降低44%功耗时精度损失<3‰。
-
制造工艺升级
- 3D堆叠需TSV硅通孔技术,良率挑战大;存算一体芯片依赖新型存储器(如MRAM)的CMOS产线改造。
四、未来形态:分层融合的“神经形态架构”
- 终端侧:SRAM存算一体NPU主导(如苹芯N300),支持轻量化模型实时推理。
- 云端:HBM近存计算集群+NVMe存储池,满足千卡训练需求。
- 终极目标:
- 仿脑芯片:利用忆阻器(RRAM)模拟突触,实现“存储即计算”(如三星MRAM芯片)。
- 光子互连:取代电信号传输,解决长距离搬运能耗问题(斯坦福/MIT研究)。
结论:磁盘与内存的边界终将消融
未来十年,随着CXL协议普及、3D堆叠成熟和新型存储器量产,存储层级将逐步简化为:
高速存算单元(SRAM/RRAM)→ 近存计算池(HBM+GPU/NPU)→ 池化存储(NVMe硬盘+CXL内存)
这一过程并非简单合并磁盘与内存,而是通过异构集成和协议统一,使数据在“存储-计算”连续体中按需流动。最终,计算机将趋近大脑的高效范式:计算发生于数据所在之处,而非被动搬运。