NVIDIA GPU加速潞晨科技Colossal-AI大模型开发进程-电子发烧友网

通过 NVIDIA GPU 加速平台，Colossal-AI 实现了通过高效多维并行、异构内存管理、大规模优化库、自适应任务调度等方式，更高效快速部署 AI 大模型训练与推理。

AI 大模型的高门槛成为研发一大难题

近年来，AI 模型已从 AlexNet、ResNet、AlphaGo 发展到 BERT、GPT、MoE…随着深度学习的兴起及大模型横扫各大性能榜单，AI 能力不断提升的一个显著特征是模型参数的爆发式增长，这也使得训练模型的成本急剧上升。目前最大的 AI 模型智源悟道 2.0 参数量达到 1.75 万亿，前沿 AI 模型的大小在短短几年内便已增大万倍，远超硬件数倍的缓慢增长，模型大小也远超单个 GPU 的容纳能力。

由于单台机器的能力已远远无法满足日益增长的 AI 训练需求，即便是超级计算机，也面临着当硬件堆砌到达一定数量后，效率无法进一步提升的瓶颈，浪费了大量计算资源。而分布式并行也与单机情况差异巨大，通常需要计算机系统和体系结构相关的专业人员，这进一步提高了训练和部署成本。

此外，PyTorch、TensorFlow 等现有深度学习框架也难以有效处理超大模型，通常需要专业的 AI 系统工程师针对具体模型做适配和优化。更重要的是，不是每一个研发团队都具备 “钞” 能力，能够随时调用大规模 GPU 集群来使用大模型，更不用提仅有一张显卡的个人开发者。因此，尽管大模型已经吸引了大量关注，高昂的上手门槛却令大众 “望尘莫及”。

NVIDIA GPU 加速

潞晨科技 Colossal-AI 大模型开发进程

Colossal-AI 基于 NVIDIA GPU A30，为 AI 大模型的普适化做出了一系列贡献：

1、提升 AI 大规模并行效率

对于 GPT-3 等超大 AI 模型，仅需一半资源启动训练，或通过高效并行加速，降低训练成本超百万美元。在训练 ViT 模型时，可以扩大 14 倍的 batch size，加快 5 倍的训练速度；对于 GPT-2 模型，我们可以降低 11 倍的内存消耗和超线性扩展，训练加速 3 倍，模型大小可扩展至 24 倍；对于 BERT 模型，可训练加速可达两倍以上。

2、扩大硬件 AI 模型容量

在单个 GPU 上对于训练任务，可提升模型容量十余倍，将 GPU 训练 GPT-2 和 PaLM 等前沿模型的参数容量提升数十倍。

3、丰富 AI 大模型行业落地

在产品发布的数个月内，潞晨科技已与数十家行业标杆企业建立深度合作，客户涵盖中、美、英、新等全球市场，涉及云计算、芯片设计、生物医药、自动驾驶、智能零售等领域。例如，潞晨方案将 GPU 优化和大规模并行威廉希尔官方网站引入 AlphaFold 的训练和推理，成功将 AlphaFold 总体训练时间从 11 天减少到 67 小时，且总成本更低，在长序列推理中也实现 9.3 ∼ 11.6 倍提升。Colossal-AI 团队还助力百图生科开源全球最快的复合物结构预测模型，可同时支持蛋白质单体与复合物结构预测，将原有推理速度提升约 11 倍。

目前，在 NVIDIA GPU 出色的 AI 加速性能加持下，Colossal-AI 已成功应用在诸多领域，显著缩短 AI 大模型开发和部署流程，降低 AI 大模型落地成本。

NVIDIA GPU 产品助力

潞晨科技 Colossal-AI 大模型落地与推广

NVIDIA GPU 产品与 Colossal-AI 的合作，极大地提升了 AI 大模型的训练与推理流程，显著提升了用户体验，为 AI 大模型的落地与推广做出了重要贡献。

借助 Colossal-AI 与 NVIDIA GPU 产品，对于企业用户，可将现有项目便捷扩展到大规模计算集群，使用高效并行威廉希尔官方网站，以低成本快速完成 AI 大模型的开发部署。对于计算资源有限的普通用户，也能训练百亿参数的大模型，相比现有主流方案，可提升参数容量十余倍，降低了 AI 大模型微调和推理等下游任务和应用部署的门槛。

潞晨科技致力于将软件系统设计与硬件架构深度融合，实现一体化、智能化、自动化的人工智能计算服务。NVIDIA 初创加速计划为我们提供了威廉希尔官方网站支持、市场宣传、业务对接等一列的支持。潞晨科技也参加了 2022 NVIDIA 初创企业展示活动，并进入了最终展示，借此获得了更多生态关注。

NVIDIA GPU 产品作为 Colossal-AI 算力基础，本次双方的深化合作将促进潞晨科技与 NVIDIA 共同探索 GPU 如何更有效地应用在训练和推理 AI 大模型中，为 GPU 硬件与 Colossal-AI 软件系统的共同进步打下良好基础。双方将共同努力推动 AI 大模型的普世化进程，不断解放和发展 AI 生产力。

——潞晨科技创始人尤洋博士

关于潞晨科技

潞晨科技主营业务包括分布式软件系统，大规模人工智能平台和企业级云计算解决方案。公司旨在帮助企业最大化人工智能部署效率的同时最小化部署成本。其核心产品面向大模型时代的通用深度学习系统 Colossal-AI，涵盖高效多维自动并行、异构内存管理、大规模优化库、自适应任务调度等自研威廉希尔官方网站，可高效快速部署 AI 大模型训练和推理，兼容低端设备，显著缩短 AI 大模型训练和推理时间、降低训练和推理成本，减少学习和部署的人力成本。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4981

浏览量
103000
gpu

gpu

+关注

关注
28

文章
4729

浏览量
128902
AI

AI

+关注

关注
87

文章
30763

浏览量
268914
大模型

大模型

+关注

关注
2

文章
2427

浏览量
2650

原文标题：NVIDIA GPU加速AI落地，潞晨科技Colossal-AI助力大模型普适化

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解GPU

发表于 12-19 17:54 •95次阅读

《CST Studio Suite 2024 GPU加速计算指南》

许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟：通过加速对话框

发表于 12-16 14:25

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频，该模型可以创作出包含任意的音乐、人声和声音组合的作品。

发表于 11-27 11:29 •336次阅读

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构，在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈，合并访存机制巧妙解决了内存带宽限制。NVIDIA GPU

发表于 11-24 17:12

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和方法来利用GPU进行

发表于 11-05 17:43 •547次阅读

NVIDIA CorrDiff生成式AI模型能够精准预测台风

在 NVIDIA GPU 上运行的一个扩散模型向天气预报工作者展示了加速计算如何实现新的用途并提升能效。

发表于 09-13 17:13 •698次阅读

NVIDIA RTX AI套件简化AI驱动的应用开发

NVIDIA 于近日发布 NVIDIA RTX AI套件，这一工具和 SDK 集合能够帮助 Windows 应用开发者定制、优化和部署适用于 Windows 应用的

发表于 09-06 14:45 •438次阅读

揭秘NVIDIA AI Workbench 如何助力应用开发

者能够根据其具体需求调整 AI 模型。此类工作在过去可能需要复杂的设置，而新工具使这项工作变得空前简单。 NVIDIA AI Workbench 可协助

发表于 07-10 18:51 •639次阅读

HPE 携手 NVIDIA 推出 NVIDIA AI Computing by HPE，加速生成式 AI 变革

by HPE 包含了可持续的加速计算产品组合以及全生命周期服务，将简化 AI 创造价值的过程，加速生成式 AI 的发展步伐。 NVIDIA

发表于 06-21 14:39 •361次阅读

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

简化 AI 创造价值的过程，加速生成式 AI 的发展步伐。 NVIDIA AI Computing by HPE 由 HPE 与

发表于 06-20 17:36 •716次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •555次阅读

软银追加1500亿日元，加速AI大模型开发进程

据了解，软银目前已经在生成式AI算力基础设施方面投资了200亿日元（约合9.36亿元人民币），预计将进一步加大投入，力求在本年度内打造出参数达到390B的最新模型，同时在来年制定万亿参数级别的日语大模型研发计划。

发表于 04-23 16:09 •615次阅读

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

本案例介绍了 NVIDIA 在加速识因智能 AI 大模型落地应用方面的重要作用。生成式大模型已广泛应用于各领域，通过学习人类思维方式，能快速

发表于 03-29 15:28 •622次阅读

潞晨科技Colossal-AI与浪潮信息AIStation完成兼容性互认证

近日，潞晨科技的Colossal-AI大模型开发工具和浪潮信息的AIStation智能业务创新生产平台成功完成了兼容性互认证。这一合作意味着

发表于 03-06 10:18 •799次阅读

潞晨科技Colossal-AI + 浪潮信息AIStation，大模型开发效率提升10倍

北京2024年2月29日 /美通社/ -- 近日，潞晨科技Colossal-AI大模型开发工具与浪潮信息AIStation智能业务创新生产平

发表于 03-01 09:43 •484次阅读

搜索历史

NVIDIA GPU加速潞晨科技Colossal-AI大模型开发进程

评论

GPU是如何训练AI大模型的

《CST Studio Suite 2024 GPU加速计算指南》

NVIDIA推出全新生成式AI模型Fugatto

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

PyTorch GPU 加速训练模型方法

NVIDIA CorrDiff生成式AI模型能够精准预测台风

NVIDIA RTX AI套件简化AI驱动的应用开发

揭秘NVIDIA AI Workbench 如何助力应用开发

HPE 携手 NVIDIA 推出 NVIDIA AI Computing by HPE，加速生成式 AI 变革

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

软银追加1500亿日元，加速AI大模型开发进程

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

潞晨科技Colossal-AI与浪潮信息AIStation完成兼容性互认证

潞晨科技Colossal-AI + 浪潮信息AIStation，大模型开发效率提升10倍