AI芯片的两大“升级方向”——FP8精度和多芯互联，到底牛在哪？_大白话聊透人工智能_巴蜀魔幻侠

3. 国产芯片的动作：寒武纪、壁仞科技已跟上，BR100芯片算力达1000TOPS，专门对标“超大规模训练”

可能有人会问：国外芯片早就支持FP8精度了，国产芯片能跟上吗？答案是“当然能”，而且已经有不少国产企业拿出了实实在在的产品。

首先是大家比较熟悉的寒武纪，它的思元系列芯片早就支持FP8精度了，比如思元590芯片，用FP8精度计算时，算力比用老格式提升1.8倍，能耗降低28%，已经能满足不少中小规模AI模型的训练需求。

除了寒武纪，还有一家叫壁仞科技的企业，推出的BR100芯片更是“重量级选手”——它支持FP8精度，算力能达到1000TOPS（1TOPS相当于每秒算1万亿次）。这个算力有多强？简单说，用BR100芯片训练一个百亿参数的AI模型，可能只要几天时间；要是用来训练超大规模的大模型（比如千亿、万亿参数），也能轻松应对。

现在不少国内的大模型企业已经开始用这些国产芯片了。比如某互联网公司，以前训练大模型用国外芯片，一次要花500万；现在换成壁仞BR100芯片，因为支持FP8精度，算力够、能耗低，一次训练只要300万，成本直接降了40%。而且国产芯片不用受国外政策限制，不用担心“断供”，用起来更放心。

三、第二个升级方向：多芯互联——让芯片“组队干活”，解决“单芯片算力不够用”的难题

聊完了FP8精度，再来说第二个关键技术：多芯互联。这个技术的思路特别简单——既然单颗芯片的算力有限，那不如把多颗芯片“连起来”，组成一个“虚拟大芯片”，让它们一起干活，算力自然就上去了。

就像咱们搬东西，一个人搬不动100斤的箱子，要是8个人一起抬，就能轻松搬起来。多芯互联就是让芯片“组队抬箱子”，核心是解决“单芯片算力跟不上大模型需求”的问题。

1. 为啥需要多芯互联？单芯片“再牛也有上限”，大模型需要“集体力量”

可能有人会问：既然能把单颗芯片做得更厉害，为啥还要搞多芯互联？答案是“单芯片的算力有上限”。

就像一个人再强壮，最多能举200斤，不可能举2000斤；单颗芯片不管怎么升级，算力也有天花板——比如现在最厉害的单颗AI芯片，算力也就1000多TOPS，而训练一个千亿参数的大模型，需要的算力至少是8000TOPS，单颗芯片根本不够用。

而且单颗芯片做得太复杂，成本会飙升。比如想把单颗芯片的算力从1000TOPS提升到8000TOPS，需要的研发成本可能是原来的10倍，售价也会贵得离谱，没几个企业能买得起。

这时候多芯互联的优势就体现出来了：不用把单颗芯片做得“神乎其神”，只要把多颗普通芯片连起来，就能达到超高算力。比如用8颗1000TOPS的芯片，通过多芯互联组成“虚拟大芯片”，总算力就能达到8000TOPS，成本只要单颗“超级芯片”的1/3，性价比一下子就上来了。

2. 多芯互联咋实现？靠“高速互联接口”，让芯片之间“说话不卡顿”

要让多颗芯片“组队干活”，关键得解决一个问题：芯片之间得能快速“传递数据”。就像8个人一起抬箱子，得喊着“一二一”同步发力，要是有人慢半拍，箱子就会歪；芯片之间要是数据传得慢，有的芯片算完了等着要数据，有的芯片还没传完，整体算力就会浪费。

而多芯互联技术，核心就是靠“高速互联接口”解决这个问题。这个接口就像“超高速网线”，能让芯片之间每秒传递几十GB甚至上百GB的数据，延迟特别低（比如只有几微秒，1微秒等于百万分之一秒）。

举个例子：比如把8颗芯片连起来，第一颗芯片算完一部分数据，通过高速接口瞬间传给第二颗，第二颗接着算，中间几乎没有停顿；要是没有这个接口，用普通网线传数据，可能需要几毫秒（1毫秒等于千分之一秒），8颗芯片算下来，光等数据的时间就会浪费一半，算力自然上不去。

现在国产芯片企业在高速互联接口上做得很到位。比如中科曙光的“海光芯云”平台，用的就是自主研发的高速互联接口，能让芯片之间的数据传输速度达到每秒100GB，延迟只有3微秒，几乎实现了“零卡顿”。

3. 国产案例：中科曙光“海光芯云”平台，8颗芯片组出8000TOPS算力，能搞定千亿参数大模型

聊完原理，再看国产芯片的实际应用——中科曙光的“海光芯云”平台，就是多芯互联技术的典型代表。

这个平台是怎么做的呢？简单说，就是把8颗海光DCU芯片（海光DCU是国产AI芯片的一种，单颗算力大概1000TOPS），通过高速互联接口连起来，组成一个“算力节点”。这样一来，这个节点的总算力就是8×1000TOPS=8000TOPS，刚好能满足千亿参数大模型的“推理需求”（推理就是大模型训练完后，给它输入问题，它算出答案的过程）。

本小章还未完，请点击下一页继续阅读后面精彩内容！

喜欢大白话聊透人工智能请大家收藏：(m.zuiaixs.net)大白话聊透人工智能醉爱小说网更新速度全网最快。