0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力xAI打造全球最大AI超级计算机

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-10-30 11:38 次阅读

NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十万卡 GPU 的巨型系统成为可能

NVIDIA 宣布,xAI 位于田纳西州孟菲斯市的Colossus 超级计算机集群达到了 10 万颗 NVIDIA Hopper GPU 的巨大规模。该集群使用了NVIDIA Spectrum-X 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。

Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA Hopper GPU。

xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。

在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。

这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。

NVIDIA 网络高级副总裁 Gilad Shainer表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”

埃隆·马斯克在 X 上表示:“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”

xAI 发言人表示:“xAI 构建了全球规模最大、性能最强的超级计算机。借助 NVIDIA Hopper GPU 和 Spectrum-X,我们得以突破大规模 AI 模型训练的边界,打造基于以太网标准并经过超级加速和优化的 AI 工厂。”

Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,它支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了Spectrum-X SN5600 交换机与NVIDIA BlueField-3 SuperNIC的端到端解决方案,实现了前所未有的性能。

专门面向 AI 的 Spectrum-X 以太网网络具有先进的功能,可在提供高效、可扩展的带宽的同时,实现低延迟和短尾延迟,而这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)威廉希尔官方网站 的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4981

    浏览量

    102997
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128898
  • 超级计算机
    +关注

    关注

    2

    文章

    461

    浏览量

    41942
  • AI
    AI
    +关注

    关注

    87

    文章

    30762

    浏览量

    268905

原文标题:NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA 推出高性价比的生成式 AI 超级计算机

    计算机,具有更高的性价比,通过软件升级即可实现性能提升。   全新 NVIDIA Jetson Orin Nano Super 开发者套件只有手掌大小,能够为商业 AI 开发者、科技爱好者和学生等各类
    发表于 12-18 17:01 308次阅读
    <b class='flag-5'>NVIDIA</b> 推出高性价比的生成式 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 88次阅读

    NVIDIA加速全球大多数超级计算机推动科技进步

    HPCwire 读者和编辑选择奖。 自 2006 年发布 CUDA 以来,NVIDIA 不断推动 AI 和加速计算的进步,最新发布的全球最强超级
    的头像 发表于 11-24 14:38 304次阅读
    <b class='flag-5'>NVIDIA</b>加速<b class='flag-5'>全球</b>大多数<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>推动科技进步

    NVIDIA Colossus超级计算机集群突破10万颗Hopper GPU

    NVIDIA近日宣布,其位于田纳西州孟菲斯市的xAI Colossus超级计算机集群规模已壮大至10万颗NVIDIA Hopper GPU。
    的头像 发表于 10-30 10:29 296次阅读

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

    、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。   Colossus 是世界上最大AI 超级
    发表于 10-30 09:33 142次阅读
    <b class='flag-5'>NVIDIA</b> 以太网加速 <b class='flag-5'>xAI</b> 构建的<b class='flag-5'>全球</b><b class='flag-5'>最大</b> <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    NVIDIA助力丹麦发布首台AI超级计算机

    这台丹麦最大超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD
    的头像 发表于 10-27 09:42 429次阅读

    借助NVIDIA超级计算机加速量子计算发展

    科学期刊《自然》(Nature)本月早些时候发表了一项研究,通过使用 NVIDIA 驱动的超级计算机,验证了量子计算的商业化途径。
    的头像 发表于 07-25 09:55 511次阅读

    马斯克人工智能初创公司xAI打造超级计算机,引领AI新纪元

    在科技发展的浪潮中,人工智能(AI)无疑是当今最引人注目的领域之一。近日,马斯克的人工智能初创公司xAI再次成为了全球关注的焦点。据悉,该公司计划在不久的将来打造一台装备有最多10万块
    的头像 发表于 06-22 16:37 643次阅读

    xAI将在孟菲斯打造全球最大超算

    马斯克的人工智能初创企业xAI近日宣布,将在美国孟菲斯市建设一座全新的设施,以容纳一台前所未有的巨型超级计算机。此举标志着xAI在人工智能领域的雄心壮志,也为其在制造和提供聊天机器人及
    的头像 发表于 06-07 09:32 377次阅读

    马斯克计划打造超级计算机推动AI发展

    科技巨头埃隆·马斯克近日在投资者会议上透露,其人工智能初创公司xAI正全力筹备打造一台超级计算机。这台计算机将作为下一版人工智能聊天机器人G
    的头像 发表于 05-28 09:18 532次阅读

    马斯克欲建xAI超级算力工厂

    在最近的一次投资者演讲中,人工智能创业公司xAI的创始人马斯克公布了公司的最新宏大计划。他宣布,xAI计划打造一个由数万个专用算力芯片组成的超级计算
    的头像 发表于 05-27 10:29 598次阅读

    Green500全球最节能超级计算机榜单:采用NVIDIA威廉希尔官方网站 包揽前三

    NVIDIA 系统在 Green500 榜单上的强势表现进一步验证了 NVIDIA 平台为节能型计算机打造
    的头像 发表于 05-24 10:59 617次阅读

    NVIDIA和Recursion利用AI超级计算机加快新药研发

    BioHive 由 NVIDIA AI 驱动,用于加速医疗领域科学家的工作。在全球超级计算机 TOP500 榜单中,它的排名上升了 100
    的头像 发表于 05-16 09:46 1262次阅读
    <b class='flag-5'>NVIDIA</b>和Recursion利用<b class='flag-5'>AI</b><b class='flag-5'>超级</b><b class='flag-5'>计算机</b>加快新药研发

    诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

    诺和诺德基金会携手英伟达,共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动
    的头像 发表于 03-21 13:43 593次阅读

    Tesla 计划斥资 5 亿美元建造一台由 NVIDIAAI GPU 提供支持的 Dojo 超级计算机

    ABSTRACT摘要Tesla计划斥资5亿美元建造一台由NVIDIA的AIGPU提供支持的Dojo超级计算机,因此该公司正在加大基于AI的开发力度。JAEALOT2024年1月27日T
    的头像 发表于 02-19 12:45 558次阅读
    Tesla 计划斥资 5 亿美元建造一台由 <b class='flag-5'>NVIDIA</b> 的 <b class='flag-5'>AI</b> GPU 提供支持的 Dojo <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>