美国为了彻底封锁中国的AI技术发展,把英伟达专门给中国「特供」的性能阉割版芯片H20也给禁了。
美国商务部(BIS)还在他们的出口管制规定里加了这么三条: 不准拿美国芯片来跑中国的AI模型,否则会被警告。
要防止从其他地方买美国芯片再转运到中国。
最离谱的一条是:在全世界任何地方都不准用华为的昇腾芯片。
咱就是说,美国这手伸得有点长啊! 美国最先进的芯片不卖给我们也就算了,还想封杀华为的芯片。后来美国可能是怕华为给昇腾芯片改个名字(比如叫……沈腾芯片? )来绕开美国的管制规定,所以美国商务部很快又把那条公告改成了:「发布详细指南,提醒业界使用中国先进计算芯片(包括华为昇腾芯片)的相关风险」 我打开那个指南,发现里头目前只有三款华为昇腾芯片,后续可能会根据情况来增加。 美国为啥这么针对华为?很可能是因为,华为已经找到了用昇腾芯片替代美国芯片的办法。 前不久,华为云把384个国产的昇腾AI芯片连接在一起(我画不了那么多就画5个意思一下哈) 组成的这个整体取名叫CloudMatrix384超节点。 它已经能和英伟达用72张最强的GB200芯片相互连接组成的NVL72超节点打得有来有回,很多指标甚至更高。 也就是,以后跑大模型,不是非得用英伟达的卡,用国产卡也可以。不过也有网友疑惑:咱们靠堆更多的卡才能打赢人家,是不是没什么技术含量啊? 今天我就给大家通俗解释一下这其中的门道,以及为什么华为走的这条大规模堆卡路线更适合中国。 先问个问题:两个芯片一起干同一个活,一定比一个同样的芯片更快吗? 未必。因为如果这两个芯片沟通得很慢,他俩都还在分配任务或者汇总结果,一个芯片早就干完了。 两个不一定比一个快,甚至十个芯片也未必更快,所以堆芯片能堆出多少实际算力,本身就是一个技术活儿。 而现在大模型越来越大,几千亿甚至上万亿参数,一个卡肯定装不下。 装不下怎么办呢?大多数情况是用很多张卡通过频繁通信形成一个整体,来跑一个大模型。 这就会导致:一对一单挑,我可能打不过你。 但不好意思,现在是「群殴」的时代,不流行单挑了。 芯片能不能「堆」得起来,每一个芯片在集群里能实际发挥出百分之几的算力,关键就要看芯片之间的通信速度。 那芯片之间的通信速度,往往是被什么东西卡着呢?电脑里的各种硬件,大多数时候靠一个叫PCIe的东西互联,它就相当于电脑里的普通公路。 这条路平时非常够用,但是当几个GPU(或者AI芯片)想连在一起干同一个活,要非常频繁地互传输数据,PCIe的带宽就不够用了。 而且PCIe是「主从架构」,也就是CPU像主人,其他设备像随从,随从之间要相互通信,必须经过主人同意和安排——这当然也会拖慢速度。 所以为了防止拖慢速度,英伟达在2014年就捣鼓出一个GPU之间专用的互联通道,叫NVLink。 并以NVLink为基础做出了NVSwitch,可以让更多GPU互联。 传输速度比PCIe要快十几二十倍,而且是对等互联,也就是GPU之间互联不需要经过CPU同意和安排。这也是为什么,即使英伟达给中国特供的阉割版H20芯片,性能只有美国企业能直接买到的H100的三分之一,国内企业还是抢着买。 因为可以用NVSwitch高速互联,让堆卡得到的算力收益更高。不过NVLink也有两个小问题。一是只有英伟达的GPU之间可以用NVLink,GPU跟别的东西互联还是得走PCIe,而GPU干活又经常需要CPU参与,免不了还是要走PCIe,拖慢整体速度。 二是NVLink有传输距离的限制。 互联的GPU如果在同一块电路板上,走的是板上的线,如果是不同的电路板,通常用铜缆来连接。 在高速传输的情况下,超过一米信号就急剧衰减。就像蓝牙耳机离远了就会卡顿断连——它本来就是为短距离传输而设计的。 所以英伟达要堆GPU,只能尽可能压缩到小的空间里。 比如像这样,72个最强的GB200芯片挤到这么一个机柜里,用NVLink互联,当成一个整体来用。 这就是现阶段英伟达能交出来的最佳答卷。由于这玩意儿性能比一般的服务器厉害太多,所以它叫「超节点」。不是不想堆更多,而是目前的水平只能堆这么多。超过72个芯片,比如两个超节点要互联,通常只能走远距离传输网络比如像InfiniBand、高速以太网之类的,速度要比NVLink慢10倍。 那华为是怎么做的呢?先交代一下背景啊,2019年美国开始制裁华为,当时美国企业主导的PCIe标准组织(PCI-SIG)立马就把华为的会员资格给取消了。 不让用PCIe的话会很麻烦,华为被逼无奈,只能自己做一套通信方案来连接各种芯片和设备。 不过也正因为是一套全新的通信方案,没有历史包袱,反而让华为可以放开手脚去发挥自己最大的优势。 什么优势呢?光通信技术。华为用类似这样的光模块接到芯片上。 它能把芯片产生的电信号翻译成光信号,再用光纤来传输,从而实现芯片之间的光通信。 通过多路并行,带宽可以累加到每秒几百GB,比NVLink都快。 而且GPU、CPU、NPU各种芯片都能互联,在架构上大家也是完全对等,不像PCIe需要以CPU为主。 但最关键的是,还不受距离限制。在一个机箱里可以用。 机柜之间可以用。 甚至跨机房也可以用。 所以能连接更多芯片形成一个更大规模的超节点,在整体上实现超越。 这样一个用3166根光纤、6912个光模块来连接384个昇腾芯片,得到的CloudMatrix384超节点,就是目前华为云交出来的答卷。 根据专业分析机构SemiAnalysis的报告,华为的超节点,计算能力是英伟达超节点的两倍。以多打少的策略,让华为和中国现在拥有了超越英伟达的AI系统能力。 而且384张卡的规模,让CloudMatrix384拥有了一些独特的优势。比如天然就很适合跑像DeepSeek这样的MoE(多专家)模型。 道理很简单,DeepSeek V3和R1模型是由256个专家模型构成的。如果跑在72张卡组成的超节点里,一张卡肯定要挤好几个专家模型,相互抢资源。要么就用好几个72张卡的超节点,但这样又会带来通信延迟。 而跑在384张卡的超节点里,一张卡跑一个专家,更简单高效。唉~谁能想到,当年被美国逼得没办法才自研的传输方案,反而成了华为云在AI时代最有力的回击。欸?那为啥英伟达不用光模块来堆更多的芯片呢? 你以为我不上清华,是因为我不想吗?其实在2022年,英伟达就打算用光通信来连接256个H100芯片。 但后来还是放弃了,明面上说是因为光模块太贵,功耗又太大。 但其实更重要的原因是:光通信是一匹烈马,很难驾驭。光通信更容易故障,像什么插口没插紧、光纤弯得有点狠或者插头粘了点灰,各种情况都可能影响通信。 相比之下,铜缆简直跟牛一样脾气好又皮实耐造。 英伟达想用光通信,就得跟别的公司采购光模块光纤这些,本来就容易坏,还没法自己把控质量,后期维护也难。 所以英伟达最终决定退而求其次,继续用铜缆。
而华为表示:光通信,这个我可太熟了!
华为本来就是做通信出身,九十年代就在做网络交换机,2000年前后华为的光通信技术就已经做到国际领先。
如果把华为做过的光通信总距离连起来,估计都能绕地球十几圈了,这得积累多少经验和技术呢。
我随便举几个例子啊。比如在光通信发生故障之前,光模块经常会处于一个亚健康状态。 华为云可以用AI算法,根据光模块的收发功率、电流、电压、温度来判断出光模块是不是处在亚健康状态,在故障之前就主动更换。 光通信的某个通道故障发生以后,会自动用通道抗损技术来降低损失。 就好比一条车道出故障,通常情况下,整条路都可能会堵车瘫痪。但华为云可以临时封闭这条道,同时协调其他车道降速,让整体继续保持通畅,让模型训练不中断。 根据华为官方的说法,通过抗损技术可以大幅降低光模块的失效率,模型训练稳定40天以上不中断。 另外故障发生以后,会通过动态的压测技术来快速定位是哪个节点跑得比较慢。 再通过内置的一万种故障模式库来快速识别到底出了什么问题,触发对应的自愈策略,做到分钟级自动恢复。 这样的例子还有很多,都是靠工程实践和踩坑积累出来的。 所以光通信,尤其是所有芯片之间都用光通信的方案,对英伟达是一匹烈马,但对于华为来说就刚刚好,过去积累的经验和能力正好用上。
至于光模块功耗大的问题,中国是全球最大的能源生产国,也是最大的清洁能源生产国,稍微多用点电,也比发展个AI技术还得看美国脸色要强吧? 所以回过头来你就会发现,英伟达靠的是更强的单卡,把算力尽量压缩到更小的空间里,而华为靠的是更强的通信,把卡的数量规模堆得更大。
这两条路线,我觉得跟中美两国的产业土壤差异有关。英伟达超强的单卡能力,最早是被美国的3D游戏和图像计算产业给卷出来的。
而华为的通信能力,是中国超高的光纤到户普及率给卷出来的。咱们国家从1991年就开始大力发展光纤通信(长途通信不再用电缆,都走光纤)现在中国光纤到户的普及率达到90%,而美国只有30%。 历史发展轨迹决定了我们比对手更擅长什么,所以完全不必按照别人的节奏。走自己的路,同样可以到达山顶。 —收工—
Advertisements
喜欢gonewithsmoke朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。
打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮
楼主本月热帖推荐:
>>>查看更多帖主社区动态...