0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ASIC爆火!大厂AI训练推理抛弃GPU;博通的护城河有多深?

Hobby观察 来源:电子发烧友 作者:梁浩斌 2024-12-18 01:25 次阅读

电子发烧友网报道(文/梁浩斌)在上周末,博通应该可以说是投资圈和科技圈最火爆的话题,大家纷纷惊呼“英伟达的对手终于出现了!”“ASIC要超越GPU”云云。

这一切都要源于上周五博通公布的炸裂财报,AI业务营收同比暴增220%,当天公司股价大涨24.43%,市值突破万亿美元,成为第九家市值突破万亿美元的美股上市公司,全球第三家市值超万亿美元的半导体公司。

当然,更重要的是对未来的预期,博通在数据中心高速互连领域有非常大的市场份额,这代表着AI基础设施的规模增长,博通的部分增长也确实来自以太网网络部件。但除了高速互连之外,博通还正在与一些大型云服务供应商合作,帮助他们开发定制AI芯片,这部分业务的增长迅速,将会令博通成为英伟达的最大挑战者。

博通的AI芯片布局

博通的传统优势是在高速互连方面,比如数据中心的以太网传输中用到的高速光模块产品组合,还有在高速互连中使用到的高速SerDes内核IP等。而目前博通在AI芯片领域,主要也是提供ASIC解决方案,提供设计、广泛IP组合、先进封装等方案,集成了内存、高速SerDes、PCIe接口等IP,以及Arm/Power PC等CPU内核。

ASIC即专用集成电路,顾名思义,与英伟达提供的通用GPU不同,ASIC是专门针对某种场景或应用设计,目前不少云计算巨头都在使用定制的ASIC作为数据中心的核心芯片。作为一种专用芯片,在设计之初就是为了满足特定的任务和算法需求,因此在针对算法开发的情况下,计算效率和能效比都能够相比通用GPU大幅提高。

比如谷歌去年推出的TPU v5e专为提升中大型模型的训练、推理等任务设计,相比上一代的TPU v4训练性能提高2倍,推理性能提高2.5倍,但成本只有上一代的一半不到,大幅提升了计算效率以及成本效益。

对于云计算巨头而言,为了降低对英伟达的依赖,同时也为了降低成本,选择定制ASIC都会是一个比较确定的方向。除了谷歌之外,亚马逊、华为、阿里、百度等云计算巨头都已经有自研数据中心ASIC产品,并已经投入使用。

而博通目前依靠在高速互连方面的关键威廉希尔官方网站 ,在对互连速率要求极高的AI计算领域就极具优势。早在2020年,博通推出了公司首款采用台积电N5工艺的数据中心ASIC,集成了PCIe Gen5协议、112 Gbps SerDes、运行频率为3.6 Gbps、集成HBM2e,利用TSMC CoWoS Interposer封装威廉希尔官方网站 实现3.6 Tbps Die2Die PHY IP,几乎将先进的高速互连威廉希尔官方网站 堆满。

最近博通还推出了3.5D XDSiP封装平台,可以将超过6000平方毫米的3D堆叠硅晶片和12个HBM模块集成到一个系统级封装中,同时大幅提升片内互连的性能。

与传统采用硅通孔TVS的F2B(面到背)的威廉希尔官方网站 相比,3.5D XDSiP采用HCB(混合铜键合)以F2F(面对面)的方式将逻辑芯片堆叠,堆叠芯片之间的信号密度提高了7倍;3.5D XDSiP通过利用3D HCB代替平面芯片到芯片物理接口,芯片到芯片接口的功耗降低了90%,还能最大限度地减少3D堆栈中计算、内存和I/O组件之间的延迟。

据称博通的3.5D XDSiP目前已经被主要的AI领域客户使用,已经有6款产品正在开发中,博通预计最早在2026年2月实现出货。其中富士通下一代2nm制程的Arm处理器FUJITSU-MONAKA已经确认使用博通3.5D XDSiP威廉希尔官方网站 ,这款处理器面向数据中心、边缘计算等应用,据此前富士通的介绍,MONAKA每颗CPU包含一个中央的I/O die和四个3D垂直堆叠die,并集成SRAM,预计2027年出货。

今年9月,博通还展示了一种带有光学模块的AI计算ASIC,实现片间光互连。博通在制造中使用了FOWLP封装威廉希尔官方网站 ,将CPO模块与AI ASIC封装在一起,大幅降低了系统延迟,还实现了可插拔的激光器设计,便于数据中心维护。

目前来看,在AI计算中极为重要的互连威廉希尔官方网站 上,博通拥有很强大的威廉希尔官方网站 积累,这也为其ASIC定制服务建立了稳固的壁垒。从客户群来看,博通在财报中透露,目前正在与三家非常大型的云计算客户开发AI芯片,并预计到2027年,每个客户都将在网络集群中部署100万个AI芯片,届时市场对定制AI ASIC的需求容量将高达600亿-900亿美元。

ASIC跑AI,大厂的专属玩物

最近大厂开发ASIC的消息频出,在博通公布财报的前一天,就传出苹果与博通合作,开发面向AI推理的ASIC芯片,将采用台积电N3P工艺,计划在2026年投入生产。而亚马逊也在月初公布了AI芯片Trn2UltraServer和Amazon EC2Trn2的应用实例,展示出ASIC的应用性价比远超GPU。

但可能大家也发现,目前定制开发高算力ASIC的厂商,无一例外是云计算大厂,本身公司业务就有极大规模的算力需求。这是由于ASIC的定制费用较高,需要有足够庞大的规模才能分摊前期定制开发费用。

ASIC定制费用,主要是开发过程中的一次性工程费用,也被业内称为NRE(Non-Recurring Engineering)。顾名思义,NRE费用只需要支出一次,后续规模生产中不需要再增加这部分费用。

NRE费用中,包含芯片设计的成本,比如研发人员薪酬、EDA工具授权费等,这与芯片使用的制程工艺、芯片本身的复杂程度相关;然后是版图设计成本,其实这里的概念跟芯片设计的成本类似,主要是涉及芯片的物理布局设计,需要特定的研发人员和软件支持;再是IP授权费用,一般是一些通用的IP,比如CPU IP、内存控制器、接口IP等。

以定制一款采用5nm制程的ASIC为例,NRE费用可以高达1亿至2亿美元。然而一旦能够大规模出货,NRE费用就可以很大程度上被摊薄。

博通也提到,未来每个客户将在网络集群中部署100万片AI芯片,即使其中只有30万片是定制的ASIC,那么分摊到每一片芯片上的NRE费用就大约只要300-600美元,相比GPU的成本有明显的优势。而据业内人士分析,中等复杂程度的ASIC盈亏平衡点在10万片左右。

小结:

尽管目前英伟达GPU在AI训练、推理的应用中还是处于一家独大的地位,但ASIC的成本效益,让各大大模型厂商不得不开始考虑转向ASIC。加上谷歌推出的Gemini2.0已经开始带头使用自家的TPU来进行训练和推理,以往ASIC不适用于AI训练的刻板印象也逐步被打破。

如果ASIC的成本效益未来能被进一步开发至极致,那么至少像百度、阿里、谷歌、腾讯、华为这样的集大模型开发和云计算服务于一体的互联网巨头,会先摆脱在AI大模型上对GPU的依赖。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 博通
    +关注

    关注

    35

    文章

    4325

    浏览量

    106889
收藏 人收藏

    评论

    相关推荐

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU
    的头像 发表于 12-19 17:54 85次阅读

    训练AI大模型需要什么样的gpu

    训练AI大模型需要选择具有强大计算能力、足够显存、高效带宽、良好散热和能效比以及良好兼容性和扩展性的GPU。在选择时,需要根据具体需求进行权衡和选择。
    的头像 发表于 12-03 10:10 106次阅读

    AI推理CPU当道,Arm驱动高效引擎

    AI训练推理共同铸就了其无与伦比的处理能力。在AI训练方面,GPU因其出色的并行计算能力赢得
    的头像 发表于 11-13 14:34 2393次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU当道,Arm驱动高效引擎

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理ASIC,像Gro
    的头像 发表于 10-29 14:12 391次阅读
    FPGA和<b class='flag-5'>ASIC</b>在大模型<b class='flag-5'>推理</b>加速中的应用

    NVIDIA助力丽蟾科技打造AI训练推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练推理加速解决方案。无论是在复杂的
    的头像 发表于 10-27 10:03 209次阅读
    NVIDIA助力丽蟾科技打造<b class='flag-5'>AI</b><b class='flag-5'>训练</b>与<b class='flag-5'>推理</b>加速解决方案

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 256次阅读

    GPU服务器在AI训练中的优势具体体现在哪些方面?

    GPU服务器在AI训练中的优势主要体现在以下几个方面: 1、并行处理能力:GPU服务器拥有大量的并行处理核心,这使得它们能够同时处理成千上万个计算任务,极大地加速了
    的头像 发表于 09-11 13:24 396次阅读

    AI推理,和训练有什么不同?

    如果要用一句话概括AI训练推理的不同之处,我觉得用“台上一分钟,台下十年功”最为贴切。话说小明已经和心目中的女神交往数年,在邀约女神出门这件事上积累了大量的经验数据,但却依然捉摸不透其中的玄机
    的头像 发表于 04-29 08:06 210次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>,和<b class='flag-5'>训练</b>有什么不同?

    AI训练,为什么需要GPU

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要<b class='flag-5'>GPU</b>?

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于 GPU 上进行
    的头像 发表于 04-20 09:39 715次阅读

    国产GPUAI大模型领域的应用案例一览

    电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPUAI领域的重要性再次凸显。虽然相比英伟达等国际大厂,国产GPU起步较晚、声势较小。不过近几年,国内不少
    的头像 发表于 04-01 09:28 3785次阅读
    国产<b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大模型领域的应用案例一览

    新火种AI|大厂围剿,“长文本”成不了Kimi的护城河

    Kimi带的市场,被大厂盯上了
    的头像 发表于 03-28 22:37 391次阅读
    新火种<b class='flag-5'>AI</b>|<b class='flag-5'>大厂</b>围剿,“长文本”成不了Kimi的<b class='flag-5'>护城河</b>

    FPGA在深度学习应用中或将取代GPU

    对神经网络进行任何更改,也不需要学习任何新工具。不过你可以保留你的 GPU 用于训练。” Zebra 提供了将深度学习代码转换为 FPGA 硬件指令的抽象层 AI 硬件前景
    发表于 03-21 15:19

    到底什么是ASIC和FPGA?

    很快,ASIC这种开发周期,很要命。 综合上述原因,GPU才有了现在的大好局面。 在AI训练上,GPU的算力强劲,可以大幅提升效率。 在
    发表于 01-23 19:08

    什么是CUDA?谁能打破CUDA的护城河

    在最近的一场“AI Everywhere”发布会上,Intel的CEO Pat Gelsinger炮轰Nvidia的CUDA生态护城河并不深,而且已经成为行业的众矢之的。
    的头像 发表于 12-28 10:26 1.3w次阅读
    什么是CUDA?谁能打破CUDA的<b class='flag-5'>护城河</b>?