0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新一代GPU之王B200面世,带动产业链狂欢!

E4Life 来源:电子发烧友网 作者:周凯扬 2024-03-19 23:58 次阅读

电子发烧友网报道(文/周凯扬)作为AI时代不容置疑的无冕之王,英伟达每年举办的GTC大会不仅是针对英伟达软硬件生态开发者的一场盛会,也是英伟达展示肌肉的舞台。在近日举办的GTC大会上,英伟达CEO黄仁勋在发布新品的同时,也宣告了一个新的计算时代的到来。

黄仁勋表示,我们需要更大的模型,然后用更多的多模数据去训练它,而不再局限于互联网上的文本数据,还有图片、图表。正如我们通过电视来获取支持知识一样,这些大模型也将快速接入视频数据,比如最近爆火的Sora等。

192GB HBM3e内存,Blackwell架构的前锋

为了应对更大的模型,自然也就需要更大的GPU,这才有了英伟达此次发布的Blackwell GPU平台。Blackwell架构以数学家David Harold Blackwell命名,作为两年前发布的Hopper架构继任者,Blackwell可以说实现了设计到性能上的全方位升级,而首个享受这些升级的,就是B200 GPU。

全新的B200 GPU基于台积电4NP工艺,采用了两个GPU die集成在同一芯片上的设计,并配备了192GGB的HBM3e超大内存。也正因如此,B200单芯片的晶体管数量达到了惊人的2080亿个,TDP也高达1000W。但这样疯狂的堆料带来的自然是性能的翻倍提升,在FP8精度的训练性能上,B200 GPU的算力是上一代的2.5倍。

wKgaomX5twWARXkfAAmVJFg1468232.png 
两代GPU架构支持精度 / 英伟达


有趣的一点在于,在英伟达第二代Transformer引擎的支持下,此次B200加入了对FP4精度的支持,从而支持到规模更大,性能要求更高的模型。在FP4精度下的推理性能,B200的算力更是达到了上一代的5倍。如果以1750亿参数的GPT-3大模型作为实例进行测试的话,B200 GPU的总体性能是H100的7倍,训练速度则是H100的4倍。

为了更好地提升B200的扩展性,英伟达基于最新的第五代NVLink威廉希尔官方网站 ,开发了一块全新的NVLink Switch芯片,双向带宽高达1800GB/s,是上一代的两倍。与此同时,NVLink支持的最大扩展规模也得到了提升,如今最多支持576块B200 GPU互联互通。

wKgaomX5tyOAX88kABIoDTWVbVY026.png 
GB200超级芯片 / 英伟达


除了新架构的GPU外,英伟达基于NVLink C2C互联威廉希尔官方网站 ,也为超级芯片GH200打造了下一代继任者GB200。GB200超级芯片由一个Grace CPU与两块B200 GPU组成,并以超低功耗却能实现900GB/s超大带宽的互联。不过此次英伟达并没有对CPU的架构进行升级,仍然采用的是72核Arm Neoverse N2的设计,所以此次GH200的主要性能提升还是在GPU上,英伟达GB200在LLM推理性能上有了30倍的提升,但能效比也提升了25倍。

wKgZomX5t0OAZKvkACBFL86q3WQ679.png 
GB200 NVL72与GB200配置与性能 / 英伟达


针对万亿参数级别的超级大模型,英伟达基于GB200和NVLink威廉希尔官方网站 推出了集成36/72个GPU的GB200 NVL36/72方案。基于GB200 NVL72打造的MGX系统更是可以实现30TB的统一内存,130TB/s的总带宽,甚至是单机柜exaFLOP级(FP4精度)的AI算力。英伟达表示,即便面对1.8万亿参数的GPT-MoE-1.8T超大模型,也可以实现比同数量H100 GPU高出4倍的训练性能,以及实时的AI推理。

B200发布后,哪些产业同步受益

过去英伟达先进AI GPU的热度,已经带动了一批上下游产业的发展,而随着B200的发布,相关市场或再度迎来一轮爆发。从制造上游来看,无疑晶圆代工厂受益最大,无论是提供逻辑代工、先进封装方案的台积电,还是为新GPU提供大容量HBM内存的三大存储厂商(SK海力士、三星和美光)。

四年之前,英伟达在GA100采取了将芯片分成两半,通过高速互联威廉希尔官方网站 来完成通信的设计,然而这一大胆的设计却很少被人注意。而如今在CUDA、GPU团队,以及台积电的先进逻辑与封装工艺下,B200终于采用了Chiplet的设计,将两个GPU die集成在单个封装内,并做到了逼近台积电4NP工艺节点的极限die面积,以及高达10TB/s的C2C互联速度。

再考虑到未来即将出货的H200和B100 GPU,这一系列芯片将进一步推动台积电4nm工艺走向满载的产能利用率,而这还是在过去只被视为淡季的Q1。更不用说这一系列芯片带来的CoWoS产能压力,据报道,台积电已经计划投资160亿美元在台湾建设6座新的CoWoS封装设施,甚至有爆料称台积电开始考虑出海扩张CoWoS封装产能,第一站很可能会在日本,足以看出GPU的订单数量之夸张。

这也进一步推动了存储厂商在HBM上的营收占比,三大参与厂商在HBM产能供应上的竞争已经进入了白热化阶段。本次GTC线下活动中,SK海力士、三星和美光均展示了自己的HBM3e解决方案。据TrendForce预估,2024年全年HBM产能将同比提升260%,于整个DRAM行业产值占比从去年的8.4%扩大至20.1%。不过,对于存储厂商而言,今年的订单基本已经排满了,依照英伟达和AMD的发布计划来看,即便在疯狂扩产下,2025年的产能恐怕也抵不住即将疯狂袭来的订单。

另一个即将从数据中心进一步攫取更多市场机会的产业为液冷,而且服务器厂商们早已准备好了对应的解决方案。目前随着服务器AI算力的不断增强,液冷解决方案的普及率在整个服务器市场依然算不上高,甚至不到5%。

B200、GB200以及GB200 NVL72尽管一再强调提高了能效比,但对于单个系统的散热要求依然提高了。毕竟单个GB200 NVL72机柜的计算单元规模就比过去的DGX系统高出不少,液冷是英伟达目前给出的唯一设计,毕竟单个GB200超级芯片的最高TDP可达2700W。

为此服务器OEM几乎同时宣布了对应的液冷服务器配置方案,比如戴尔推出了首个采用液冷配置的PowerEdge XE9680服务器,Supermicro也发布了液冷ORV3 MGX系统。鸿海集团也发布了针对GB200 NVL72的先进液冷解决方案,具备高达1300kW的强大散热能力。

最后自然就是服务器上的高速通信了,与B200同步公布的还有Quantum-X800 InfiniBand和Spectrum™-X800 Ethernet这两大高速网络解决方案。在与英伟达LinkX线缆和光模块的组合下,可以做到最高2公里内的800GB/s网络传输速度。尽管这是英伟达收购Mellanox后发布的专用方案,但无疑加快了800G网络普及的进程。

计算光刻,反哺芯片制造

去年,英伟达推出了cuLitho这一软件库,借助GPU的强大算力有望将光罩的开发速度提升40倍。在今天的GTC大会上,英伟达也宣布和台积电、新思达成合作,正式将其计算光刻威廉希尔官方网站 投入生态当中去,并充分利用英伟达此次发布的Blackwell GPU。

计算光刻主要用于芯片的开发和制造环节,通过建立大量的数学和物理模型来帮助客户设计光罩。相比传统基于CPU的计算光刻威廉希尔官方网站 ,基于GPU加速和生成式AI算法的计算光刻威廉希尔官方网站 要高效得多,英伟达声称集成了350个H100的系统就可以替代掉一个由40000个CPU组成的计算光刻系统,加速生产时间的同时,降低了成本、部署空间和功耗。

写在最后

尽管每次在英伟达展示其新品后,这些产品都会成为其他AI硬件公司拿来作为各种性能对比的参考,比如这次Groq就在GTC会后很快正面回应了英伟达,并发布了“Groq仍然更快”的声明。然而,明眼人都能看出来,在当今的市场环境下,英伟达在AI行业的地位依旧不可撼动。

其中不仅有架构创新、CUDA的功劳,也少不了英伟达在半导体上下游多年来的经营。台积电优先给英伟达CoWoS封装产能,AI服务器厂商们在发布会后一呼百应,都佐证了英伟达已经为这个新计算时代打造好了一条完整且已经得到证实的AI生态。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128897
  • 英伟达
    +关注

    关注

    22

    文章

    3771

    浏览量

    90991
收藏 人收藏

    评论

    相关推荐

    头部电池企业扩产热,锁单锂盐带动产业链高景气

    自三季度以来,电池行业迎来了显著的复苏迹象,以宁德时代和亿纬锂能为代表的领军企业重启并加速了投资与扩产活动,且这些项目多以10GWh及以上的大规模为主。这系列动作不仅限于产能扩张,还带动了整个锂电产业链上下游的活跃度提升,包括
    的头像 发表于 10-28 13:46 240次阅读

    NVIDIA DGX B200首次面向零售市场:配备8块B200 GPU

    10月13日最新消息,NVIDIA的DGX B200 AI服务器近期已在Broadberry上架,标价515,410美元(相当于约364.2万元人民币)。   自发布以来,Blackwell架构就备受业界瞩目,NVIDIA首席执行官黄仁勋对其赞誉有加,微软、Meta等科技巨头也迅速跟进采用。
    的头像 发表于 10-14 14:34 602次阅读

    英伟达或取消B100转用B200A代替

    今年3月份,英伟达在美国加利福尼亚州圣何塞会议中心召开的GTC 2024大会上推出了Blackwell架构GPU。原定于今年底出货的B100/B200被寄予厚望,将替代现行H100/H200
    的头像 发表于 08-08 17:19 511次阅读

    星曜半导体完成10亿元B轮融资,中国移动产业链发展基金领投

    近日,国内射频前端领域的领军企业浙江星曜半导体有限公司(以下简称“星曜半导体”)宣布,已成功完成总额高达10亿元的B轮融资,这融资额刷新了国内近年来射频前端赛道最大单轮融资记录。本轮融资由中国移动产业链
    的头像 发表于 06-27 18:15 881次阅读

    英伟达GPU新品规划与HBM市场展望

    在COMPUTEX 2024主题演讲中,英伟达(NVIDIA)公布了其GPU产品的未来规划。据英伟达透露,B100、B200和GB200系列GPU
    的头像 发表于 06-13 09:44 802次阅读

    特斯拉加码AI布局:xAI将采购30万块英伟达B200芯片

    特斯拉CEO埃隆·马斯克近日在社交平台上公布了项重要消息,旗下的人工智能初创公司xAI计划采购30万块英伟达B200 AI芯片。这大规模采购计划标志着特斯拉在人工智能领域布局的进
    的头像 发表于 06-05 09:21 645次阅读

    步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    带宽和1.8TB/s的NVLink带宽,使处理能力翻倍,大幅增加内存容量和带宽,为处理大规模人工智能模型和复杂计算提供必要资源。 针对大规模模型如GPT-MoE-1.8T,HGX B200的推理性能比上一代
    发表于 05-13 17:16

    会员风采!华秋电子——致力于“为电子产业增效降本”的数字化智造平台

    ”、高可靠多层板制造平台“华秋PCB”、电子元器件电商“华秋商城”、BOM键配单/SMT/PCBA服务的“华秋SMT”等电子产业站式服务平台。全面打通产业上、中、下游,形成电子
    发表于 05-13 09:53

    英伟达H200性能显著提升,年内将推出B200新一代AI半导体

    天,NVIDIA发布了H200的性能评估报告,表明在与美国Meta公司的大型语言模型——LLM“Llama 2”的对比中,H200使AI导出答案的处理速度最高提升了45%。
    的头像 发表于 04-01 09:36 1401次阅读

    英伟达发布新一代AI芯片B200

    在美国加州圣何塞举办的英伟达GTC生态大会上,英伟达CEO黄仁勋以场震撼人心的演讲,正式推出了公司的新一代GPU——Blackwell。作为Blackwell家族的首款芯片,B200
    的头像 发表于 03-20 10:07 966次阅读

    英伟达发布性能大幅提升的新款B200 AI GPU

    英伟达宣称,B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代,运算能力飞跃性提升,甚至能使大语言模型的训练速度翻番。
    的头像 发表于 03-20 09:37 791次阅读

    英伟达计划拉大GB200B100/B200规格差异,以刺激用户购买GB200

    早些时候,IT之家用张路线图展示了英伟达计划在2024年推出Hopper GH200 GPU,其后将依次推出基于Blackwell的GB200以及GX
    的头像 发表于 03-14 16:36 2746次阅读

    戴尔发布英伟达B200 AI GPU:高功耗达1000W,创新性冷却工程设计必要

    市场传言,这款B200虽然运算性能更强,却又面临着惊人的能耗,最高或可至1000W,同比H100增长超过40%。由于搭载Hopper架构及HBM3e高带宽内存,英伟达B200被行业视为运行速度最高的AI芯片;
    的头像 发表于 03-05 09:30 1938次阅读

    NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 1312次阅读
    NVIDIA将在今年第二季度发布Blackwell架构的<b class='flag-5'>新一代</b><b class='flag-5'>GPU</b>加速器“<b class='flag-5'>B</b>100”

    陶瓷基板产业链分布及工艺制作流程

    陶瓷基板产业链上游主要为陶瓷粉体制备企业,中游为陶瓷裸片及陶瓷基板生产企业,下游则涵盖汽车、卫星、光伏、军事等多个应用领域。纵观陶瓷基板产业链,鲜有企业能够打通垂直产业链,形成粉体、裸片、基板的
    的头像 发表于 12-26 11:43 2314次阅读
    陶瓷基板<b class='flag-5'>产业链</b>分布及工艺制作流程