0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哪家中国芯片公司能「吃下」大模型?

半导体产业纵横 来源:雷峰网 2023-07-31 18:22 次阅读

中国AI芯片公司的天花板,可能是AMD

ChatGPT火爆时,浩然被两股矛盾的情绪夹在缝隙:一面是兴奋,一面是悲伤。 作为一名AI芯片公司的高级软件工程师,ChatGPT大爆发前夜,浩然对自己参与研发的大算力AI芯片充满信心,他相信为特定AI算法研发的专用芯片,相比英伟达通用的GPGPU在同等功耗下可以有2倍的性能优势,价格可以做到50%甚至更低,只要软件体验不太差,客户一定会买单。 可ChatGPT掀起的大模型热潮,让浩然和同行们都开始思考,AI算法是否有从百家争鸣走向大一统的可能。

这意味着,过去为特定领域AI算法研发的专用AI芯片,由于计算负载特性的急剧变化,之前的性价比优势会被明显削弱,英伟达兼具高显存带宽和高互联带宽特性的通用GPU优势将会进一步扩大,想要和英伟达竞争的难度更大了,这让浩然有些悲观。 但从自己工作的角度,AI算法的大一统可以让硬件工程师和软件工程师工作的目标都更清晰,工作会难度降低,这是浩然欢呼的理由。 “我不相信英伟达能一直保持领先。”芯片架构师宇阳保持信心,“GPU不见得是大模型的最佳解,中国AI芯片公司里一定会有能和英伟达掰手腕的公司。 国内众多的AI大芯片公司,谁能吃下大模型市场?

芯片公司想喝口大模型的汤也不容易

就算是英伟达长久以来的竞争对手AMD,在英伟达大口吃AI大模型肥肉的时候,AMD也没喝上多少汤。综合实力不及AMD的国内初创公司们,就算嘴上高呼赶超英伟达,心里也清楚能做互联网公司的第二供应商,喝上大模型的汤就是巨大的成功。 大模型火爆,全世界的公司都在找英伟达买GPU。原先售价3万多美元的最新款H800 GPU,就算终端售价加价1万多美元依旧一卡难求。这种供不应求的盛况直接将英伟达的市值推向1万亿美元,创造了全球半导体公司市值的新纪录。 “客户很奇怪,就算AMD有性能不错的GPU现货,许多想要购买H800 GPU的人依旧不为所动。”一家AI芯片公司的高管道出想要超越英伟达的难度。

威廉希尔官方网站 出身,如今已是芯片公司高管的洪杰深谙其中的道理,“客户对AMD的要求和对英伟达产品的要求一样,有的时候甚至更苛刻,客户愿意买单的替代产品是比英伟达的GPU便宜,体验还要差不多。” “采购英伟达GPU量最大的公司还没有第二供应商。”洪杰感叹,“不得不承认英伟达的强大,现阶段不要说超越英伟达,成为二供都很难。” 困难的事情往往收益很高,像是字节跳动这类大客户,每年采购英伟达GPU的订单金额就接近百亿元。只要能从英伟达嘴里分到几十亿的市场份额,就足够养活几家国内的AI芯片公司。 离开AMD创业的人成为二供的概率会更大吗?欢迎添加文章作者微信BENSONEIT聊聊离开AMD的人。

「追随派」和「创新派」争抢大模型

国内AI大芯片初创公司非常特别,有跟随英伟达路线做GPGPU的初创公司,可以叫他们“追随派”。也有另辟蹊径,设计AI专用芯片(也就是DSA,Domain Specific Architecture,领域专用架构)的“创新派”。 这是一个非常有趣的现象,因为在国外只有创新派没有追随派,也就是没人选择走GPGPU的威廉希尔官方网站 路线创业。 “所有人都知道,沿着英伟达的路径不可能超越英伟达,这几乎是不证自明的事情。并且,西方的创业者更喜欢做颠覆式创新。”洪杰分析,“寻求颠覆式创新的架构师们对AI计算问题的理解与定义不同,自然也计出了各种不同的AI芯片架构。” 谷歌定义的TPU专用性很强,是一个典型的领域专用芯片DSA。

被誉为全球AI芯片独角兽的SambaNova Systems选择了可重构架构。Cerebras Systems走了一条直接用晶圆做芯片的路。英国AI芯片独角兽Graphcore创造了独特的IPU架构。 国内也有多家走DSA路径创业的AI大芯片公司,比如寒武纪、昆仑芯、燧原科技、瀚博半导体、墨芯人工智能。 “选择DSA路径创业还有一个优势,核心IP设计门槛相对较低。”芯片编译器专家德辉打了个比方, 用搭乐高来理解设计GPGPU和DSA的难度,设计GPGPU就是面向18岁以上玩家的乐高,有许多精细的小模块,拼起来难度大但作品很精巧。设计DSA就像是面向5岁的乐高,模块更大拼起来更容易。

“DSA的门槛可以很低,上限也可以很高。”宇阳说,“ GPU也是一个DSA。最初的GPU图形专用加速芯片,没有可编程性,后来英伟达为其增加了通用性之后才变成了GPGPU。” 英伟达将GPU变为大众认知里的通用芯片,也是通过了近20年的努力,从建立CUDA软件生态到成熟,让GPGPU能做图形加速,AI计算,科学计算。 “从威廉希尔官方网站 维度,区别CPU和DSA可以看其是否能运行Windows、Linux这样的操作系统。”宇阳补充,“从这个角度看GPU依旧是DSA。” 只是在大部分人眼里,英伟达的GPGPU已然成为了一颗通用芯片,在当下最为火热的AI市场里供不应求。

早已看到英伟达GPGPU强大的中国创业者,直接选择了GPGPU架构进行创业,就像天数智芯、登临科技、壁仞科技、海飞科。 “选择GPGPU的路径虽然不能超越英伟达,但有国产替代的刚需,而且这条路线可以通过多种威廉希尔官方网站 方案做到‘兼容CUDA’,降低用户的软件切换成本。”浩然直言,“有了国产替代的需求,让中国大芯片创业公司有机会与英伟达竞争,并且最终一定会留下几家AI大芯片的公司。” 这时谁能吃下大模型的问题就变成了追随派和创新派的机会谁更大?

两派相争,创新派已死?

一个非常犀利的观点是,DSA已死。这是一个极具争议性的话题,探讨这个话题可以添加作者微信BENSONEIT。 这种论调核心的逻辑是英伟达编程性很强的GPGPU已经通过了AI大模型的验证,在Transformer让AI算法趋于收敛的现状下,英伟达可以通过手工优化底层代码,高效调度底层硬件获得持续的性能提升,让已经流片量产的DSA不再拥有设计之初的巨大性能优势。 “算法不确定的时候,英伟达没有动力针对某个算法做手工优化。这让针对某类算法(比如CNN)的DSA可以有2倍甚至更多的性能优势。”浩然对DSA的未来有些悲观。

“现在算法和模型收敛,英伟达进行手工优化可以充分释放出硬件的性能,每一代CUDA升级都会带来10-20%的性能提升。而通过底层硬件固化实现性价比优势的DSA要持续通过软件优化提升性能的难度很大,极端的情况软件甚至没有多大的提升空间。” 德辉从他擅长的编译角度解释,Flash Attention系列工作在大模型上的惊艳效果,正是说明针对特定模型的手工融合大算子是一种典型手段,本质是通过手工将特定的模型子结构从存储受限(memory bound)转化成了计算受限(compute bound),最大程度发挥出了GPU的计算性能。 “这种方式只是做了局部的优化,手工成本比较高,也难以大规模推广。”德辉不认为DSA已死,“只有拥有一个能够自动生成融合算子的编译器,GPU才能最大程度发挥出性能优势。但自动编译CPU做了几十年也没做出来,这是一个业界难题。” 比编译器更底层的芯片架构,也决定着计算AI大模型任务的效率。

宇阳也指出了GPU架构的局限性,GPU为了保证很强的编程性,在架构上借鉴了CPU的设计,芯片上没有缓冲器(Buffer),每次操作的对象只能是寄存器,典型寄存器大小是个很短的向量,比如64字节,这是保证编程灵活性的最好设计,但数据要不断在芯片内部和外部存储之间搬运,效率不高。 “AI大模型动辄就是上百亿个参数,要提升计算效率需要尽量减少数据的搬移。DSA可以为大模型设计很大的片上缓存,一次可以操作64字节的上千倍,相比GPGPU有明显优势。”宇阳指出。 两者的差别非常明显,GPGPU计算 AI模型时计算单元的利用率一般情况下只有30%-40%,而DSA一般都能做到计算单元的利用率达到80%-90%。 “许多人没看到DSA的核心价值——数据流优化。”德辉的经验告诉他,“通过充分发挥DSA片上有的大存储器(SRAM)优势,利用编译器进行彻底优化,实现理想的图编译,每一层都把大模型计算的存储受限转化为计算受限,能够最大化DSA的优势。” 而DSA的优势没被充分挖掘出来,还是因为许多DSA芯片公司都在用英伟达的思路设计软件。

“用英伟达GPGPU的方法设计软件既是一个思维定式,也是一个经过验证成功的路,风险更低。并且,要针对DSA的优势用另外的思路设计编译器,也有威廉希尔官方网站 上的挑战,比如打破算子边界带来的复杂性。”这是德辉的心得。 即便再看好DSA,宇阳和德辉都没有否认未来的趋势是混合DSA。

专用和通用融合才是大模型的最优解

“一个完美的AI大模型处理器应该是用T4 GPU的计算核心,用H100 GPU的显存。”洪杰用一个形象的说法道出大模型的真实需求。 而兼具通用性和专用性的混合DSA芯片才是满足大模型需求的理想产品,未来AI芯片公司的比拼是混合DSA。 6年前,英伟达的Volta架构首次为深度学习加入了Tensor Core,此后的每代架构都不断优化Tensor Core,增强GPU的AI性能。 2022年发布的H100 GPU,又增加了软硬结合的Transformer Engine,目的是加速AI大模型计算。 Tensor Core和Transformer引擎,都是为AI工作流设计的专用计算单元。也就是说,英伟达早就在“通用”的GPGPU上增加了“专用”的AI加速单元,这种融合设计兼顾了GPGPU的通用性,又能发挥专用加速单元的能效比优势,更像是大模型的最优解。

这里有一个会让人费解的问题,既然AI模型都稳定了,为什么不是设计一个Transformer专用的加速芯片,还需要通用性? “算法的类别虽然从几千种变成几百种,但还在不断优化,只有具备足够的通用性,才能最大化芯片的价值。”宇阳解释。 “从芯片的设计规律看,设计一个Transformer专用加速芯片,去‘赌’未来三至五年内不会有新的模型结构颠覆性的替换掉Transformer,也是一个非常疯狂的想法。”浩然补充。 那混合DSA的路线明确之后,各家芯片的差异会如何体现? “混合DSA其实就是在通用的CPU和纯粹专用的DSA之间找一个平衡点。不同的架构师选择的点会完全不一样,但到底谁的设计更好,需要时间的检验。因为架构的设计不是一个纯粹的威廉希尔官方网站 问题,还与当时所处的时间,环境有很大关系。”宇阳这样认为。 其中有赌的部分,浩然说,“混合DSA的片上存储(SRAM)非常贵,因为需要占用的芯片面积非常大,所以到底设计多大的SRAM,需要赌。”

最终混合DSA芯片之间差异将会很小。 “就像如今安卓系统和iOS系统越来越像一样,最后能够留下来的混合DSA架构的AI芯片,可能也是80%相同,只有20%不同。”洪杰做出了这样的判断。 但在走到这一天之前,混合DSA还有一个巨大的难题——比GPGPU和DSA都更复杂的软件栈。这很容易理解,既然是将两种架构融合,系统就更加复杂,难度自然也更大。 当然,更明确的算法又能降低软件开发和优化的难度。 此时,就可以回到最初的问题,中国芯片公司谁能喝到大模型的汤?

谁能更快吃上大模型?

商业的成功不是单纯的威廉希尔官方网站 路线“好坏”就可以决定,现在可以看到的是,跟随派转向混合DSA的威廉希尔官方网站 难度相对低一些,创新派有RISC-V CPU可选,可谓各有优劣。具体到每一家公司的时候,情况又各不相同。 “GPU的众核(Many Core)设计,相比DSA的设计难度更大,所以已经设计出GPGPU的初创公司,再增加一个DSA,比DSA增加一个GPGPU的难度小一些。”浩然从众核设计的难度判断各家芯片公司面临的挑战大小。 “GPU的一致性控制确实很难。”宇阳部分认同浩然的观点,“但增加可编程性并不一定就是要做一个GPGPU,有很多路径可选。” 德辉就非常看好RISC-V CPU加上DSA的混合DSA,“RISC-V CPU可以提供向量计算,并且有足够的通用性,与DSA混合是一个不错的选择。” 这种混合DSA方式要自己建立软件生态,需要投入的资源巨大。

“芯片要落地非常关键的是要接受客户的批评和质疑,然后务实地迭代。”洪杰的想法是,“芯片公司要把客户不愿做的活都做了,比如迁移芯片的大量工作,让客户可以无感迁移,但这需要极大的人力和时间的投入。” 相比之下,DSA路径的公司想兼容CUDA生态的难度比GPGPU路径的公司难度更大。

但对于走GPGPU路径创业的公司也不是一件容易的事情,要兼容英伟达的CUDA生态,硬件设计和软件都要尽量接近英伟达,才能实现接近英伟达GPU的性能。 “AMD就是走兼容英伟达的路,国内公司走这条路的天花板就是AMD。”德辉指出,“在部分场景做到英伟达80%的体验没有问题,但超越不了英伟达。” 再大致看看各家的情况,追随派里天数智芯和登临科技具有先发优势,壁仞科技也被多位内工程师视作黑马。 创新派里的寒武纪受到美国禁令的限制前途难料;燧原科技每一代产品都采用了HBM(高带宽存储器)适合大模型,但和其它公司一样,软件是个不小的挑战。 注意一个时间点,2025年英特尔计划推出融合其GPU和DSA的新一代AI芯片,那时候AI芯片的竞争将会更加激烈。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    799

    浏览量

    37846
  • DSA
    DSA
    +关注

    关注

    0

    文章

    48

    浏览量

    15151
  • TPU
    TPU
    +关注

    关注

    0

    文章

    141

    浏览量

    20721
  • AI芯片
    +关注

    关注

    17

    文章

    1882

    浏览量

    34997
  • ChatGPT
    +关注

    关注

    29

    文章

    1560

    浏览量

    7612

原文标题:哪家中国芯片公司能「吃下」大模型?

文章出处:【微信号:ICViews,微信公众号:半导体产业纵横】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    破万亿!中国芯片出口迎来里程碑

    在全球科技竞争日益激烈的今天,中国芯片产业的发展备受瞩目。根据海关总署最新公布的数据,2023年前11个月,中国集成电路出口额首次突破1万亿元人民币,同比增长20.3%,这一里程碑式的成就标志着中国
    的头像 发表于 12-17 16:43 346次阅读
    破万亿!<b class='flag-5'>中国芯片</b>出口迎来里程碑

    中国芯片新锐50强

    中国芯片新锐50榜单旨在遴选出国内在芯片设计、制造、封装测试等领域具有突出创新能力和发展潜力的优秀企业,旨在促进中国芯片产业的健康发展,为行业发展提供参考,并为潜在投资者提供有价值的信息。该榜单
    的头像 发表于 11-27 16:31 283次阅读
    <b class='flag-5'>中国芯片</b>新锐50强

    智芯公司荣获2024年“中国芯”优秀威廉希尔官方网站 创新产品奖

    近日,2024中国微电子产业促进大会暨第十九届“中国芯”优秀产品征集结果发布仪式在珠海横琴粤澳深度合作区举行,智芯公司自主研发的电力负荷通感算控SoC芯片荣获“
    的头像 发表于 11-19 09:55 347次阅读

    江波龙自研eMMC主控芯片荣获 “中国芯”优秀威廉希尔官方网站 创新产品奖

    11月7日,由中国电子信息产业发展研究院主办的2024年第十九届“中国芯”优秀产品评选结果揭晓,江波龙自研WM6000系列eMMC主控芯片凭借其先进工艺和优秀性能,在142款产品中脱颖而出,赢得了
    的头像 发表于 11-14 01:04 534次阅读
    江波龙自研eMMC主控<b class='flag-5'>芯片</b>荣获 “<b class='flag-5'>中国芯</b>”优秀威廉希尔官方网站
创新产品奖

    智融科技荣获 “中国芯”芯火新锐产品奖

    近日,2024中国微电子产业促进大会暨第十九届“中国芯”优秀产品征集结果发布仪式在横琴举行。珠海智融科技股份有限公司AACC四口多协议升降压移动电源SoC —SW6306荣获 2024第十九届“
    的头像 发表于 11-12 13:50 398次阅读

    扬州杰利半导体荣获“中国芯”优秀市场表现产品奖

    近日,杰利GPP Photo Glass芯片、TVS/STD/FRD SIPOS芯片获得2024年第十九届“中国芯”优秀市场表现产品奖。
    的头像 发表于 11-09 16:09 553次阅读

    再次问鼎“中国芯”大奖!“港华芯”荣获优秀市场表现产品奖

    11月7日,2024中国微电子产业促进大会暨第十九届“中国芯”优秀产品征集结果发布仪式在珠海横琴隆重举行,大会颁发了第十九届“中国芯”优秀产品及企业奖项。名气家凭借“港华芯”再次问鼎芯片
    的头像 发表于 11-09 01:09 330次阅读
    再次问鼎“<b class='flag-5'>中国芯</b>”大奖!“港华芯”荣获优秀市场表现产品奖

    芯海科技车规级SAR ADC新品CS1795X荣获“中国芯

    280家芯片企业的364款产品中脱颖而出,荣获本届“中国芯”优秀威廉希尔官方网站 创新产品奖。芯海科技汽车电子BU总裁许煜东代表公司出席活动并领奖。1长期深耕ADC核心威廉希尔官方网站 AD
    的头像 发表于 11-09 01:06 341次阅读
    芯海科技车规级SAR ADC新品CS1795X荣获“<b class='flag-5'>中国芯</b>”

    VPS600超大规模无透镜显微成像芯片获“中国芯”芯火新锐产品奖

    2024中国微电子产业促进大会暨第十九届“中国芯”优秀产品征集结果发布仪式于11月6-8日在横琴粤澳深度合作区举行。南京威派视半导体威廉希尔官方网站 有限公司VPS600超大规模无透镜显微成像芯片
    的头像 发表于 11-08 13:26 334次阅读
    VPS600超大规模无透镜显微成像<b class='flag-5'>芯片</b>获“<b class='flag-5'>中国芯</b>”芯火新锐产品奖

    芯海科技EC芯片闪耀“中国芯

    第十八届“中国芯”颁奖仪式上,芯海科技(股票代码:688595)凭借其卓越的嵌入式控制芯片威廉希尔官方网站 再次脱颖而出。公司的笔记本嵌入式控制芯片CSC2E101从全国数百家优秀企业的参赛作品中崭
    的头像 发表于 08-30 17:31 509次阅读
    芯海科技EC<b class='flag-5'>芯片</b>闪耀“<b class='flag-5'>中国芯</b>”

    中国Wi-Fi7 FEM F4诞生

    、好产品,我都会发自内心的高兴。一颗星点不亮整个夜空,满天的繁星才能闪亮天空。一颗芯成就不了中国芯,数以万计的芯才能成就中国芯。 我们今天的生活已经离不开Wi-Fi,其重要性不需要再多做阐述
    发表于 07-31 11:14

    3000家中国芯片公司归宿在哪?

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2024年03月22日 15:36:26

    现在RISC-V 都有哪家公司再推啊?

    RISC-V 的芯片都出来很久了,现在RISC-V 都有哪家公司再推啊?以后是不是一种趋势呀? 沁恒的产品如何?
    发表于 02-05 22:30

    制造业难题:如何解决中国芯片产业的瓶颈

    中国芯片产业需要加速研发和创新,以提高其自主设计和生产的芯片的质量和性能。中国芯片公司需要向更高级的领域发展,例如人工智能、物联网和大数据
    的头像 发表于 01-30 16:34 2971次阅读

    中国芯片企业芯片完全解析

    AI 算力、低功耗等对服务器算力芯片提出新的要求,英伟达 GH200 有望加速全球 AI 服务器算力芯片市场变革,中国芯片企业在面临挑战的同时,也有望迎来发展机遇。
    的头像 发表于 01-22 15:07 2073次阅读
    <b class='flag-5'>中国芯片</b>企业<b class='flag-5'>芯片</b>完全解析