NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持-电子发烧友网

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU

以及亚马逊云科技的 EFA 来训练其

最大的新一代大语言模型（LLM）。

大语言模型的一切都很庞大——巨型模型是在数千颗 NVIDIA GPU 和海量的数据集上所训练而成。

不过这可能会给想要使用生成式 AI 的企业带来很多巨大的挑战。NVIDIA NeMo（一个用于构建、自定义和运行 LLM 的框架）能够帮助企业克服上述挑战。

亚马逊云科技（AWS）有一支由资深科学家和开发者组成的团队，致力于为 Amazon Bedrock（一项用于基础模型的生成式 AI 服务）创建 Amazon Titan 基础模型。该团队在过去几个月中一直在使用 NVIDIA NeMo。

亚马逊云科技高级应用科学家 Leonard Lausen 表示：“我们使用 NeMo 的一大原因是它具有可扩展性，其优化功能使我们能够以较高的 GPU 利用率运行，同时能够扩展到更大的集群，进而能够更快地训练出模型，并向客户交付。”

实现真正的大规模训练

NeMo 的并行威廉希尔官方网站可实现高效的大规模 LLM 训练。当与亚马逊云科技的 Elastic Fabric Adapter（EFA）配合使用时，团队可以将 LLM 扩展到多颗 GPU 上，从而加快训练速度。

EFA 为亚马逊云科技客户提供了一个 UltraCluster 联网基础设施，可直接连接 1 万多颗 GPU，并使用 NVIDIA GPUDirect 绕过操作系统和 CPU。

这一结合使亚马逊云科技的科学家们能够提供出色的模型质量，这是只依靠其他数据并行方法无法大规模实现的。

通用框架

Lausen 表示：“NeMo 的灵活性支持亚马逊云科技根据新的 Titan 模型、数据集和基础设施的具体情况来定制训练软件。

亚马逊云科技的创新成果包括从 Amazon Simple Storage Service（Amazon S3）到 GPU 集群的高效流式传输。Lausen 表示：“由于 NeMo 本身就是基于标准化 LLM 训练管线组件的常用程序库（如 PyTorch Lightning）所构建的，因此整合这些改进很容易。”

亚马逊云科技和 NVIDIA 的共同目标是将双方的合作经验融入到 NVIDIA NeMo 等产品和 Amazon Titan 等服务中，最终造福客户。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行，线上大会也将同期开放。扫描下方海报二维码，立即注册 GTC 大会。

原文标题：NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3772

浏览量
91010

原文标题：NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

亚马逊转向Trainium芯片，全力投入AI模型训练

，亚马逊AWS推出了两款芯片：Inferentia和Trainium。其中，Inferentia主要用于AI推理，而Trainium则专注于AI模型的训练。然而，随着生成式AI威廉希尔官方网站的不断发展，这两者在

发表于 12-13 14:14 •270次阅读

什么是大模型、大模型是怎么训练出来的及大模型作用

本文通俗简单地介绍了什么是大模型、大模型是怎么训练出来的和大模型的作用。什么是大模型大模型

发表于 11-25 09:29 •1266次阅读

NVIDIA Isaac Sim满足模型的多样化训练需求

光轮智能借助 NVIDIA Isaac Sim，通过 3D 生成与建模威廉希尔官方网站构建高度逼真的虚拟场景，将现实世界的复杂场景抽象并转化为高质量的训练数据源，从而更有效地满足模型的多样化训练需

发表于 11-23 14:55 •532次阅读

FP8数据格式在大型模型训练中的应用

本文主要介绍了 FP8 数据格式在大型模型训练中的应用、挑战及最佳实践，展示了 FP8 在提升训练速度和效率方面的潜力和实际效果。

发表于 11-19 14:54 •250次阅读

如何训练自己的LLM模型

训练自己的大型语言模型（LLM）是一个复杂且资源密集的过程，涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤，以及一些关

发表于 11-08 09:30 •516次阅读

NVIDIA助力提供多样、灵活的模型选择

在本案例中，Dify 以模型中立以及开源生态的优势，为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDI

发表于 09-09 09:19 •463次阅读

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列，该系列包含最先进的指导和奖励模型，以及一个用于生成式 AI

发表于 09-06 14:59 •303次阅读

新款Nvidia Titan GPU正在开发中？或将击败未发布的RTX 5090

AdaLovelaceGPU的Titan版本后，这将是Titan品牌的回归。JAEALOT2024年7月4日最近有消息透露，NVIDIA正在开发一款名为TITANAI的新显卡。该显卡基于

发表于 07-26 08:26 •485次阅读

llm模型训练一般用什么系统

。硬件系统 1.1 GPU（图形处理器）在训练大型语言模型时，GPU是首选的硬件设备。相比于CPU，GPU具有更高的并行处理能力，可以显著提高训练速度。目前，

发表于 07-09 10:02 •400次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得到了广泛应用。预训练模型指的是在

发表于 07-03 18:20 •2785次阅读

英伟达开源Nemotron-4 340B系列模型，助力大型语言模型训练

近日，英伟达宣布开源了一款名为Nemotron-4 340B的大型模型，这一壮举为开发者们打开了通往高性能大型语言模型（LLM）训练的新天地。该系列

发表于 06-17 14:53 •562次阅读

NVIDIA Omniverse 将为全新 OpenPBR 材质模型提供原生支持

提供原生支持，该模型是一个由 Adobe 和 Autodesk 共同开发的基于 MaterialX 的 uber-shader 模型。该集成将为用户

发表于 06-14 11:23 •628次阅读

NVIDIA 通过 Holoscan 为 NVIDIA IGX 提供企业软件支持

Enterprise-IGX软件现已在NVIDIA IGX平台上正式可用，以满足工业边缘对实时 AI 计算日益增长的需求。它们将共同帮助医疗、工业和科学计算领域的解决方案提供商利用企业级软件和支持来加快开发

发表于 06-04 10:21 •501次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

NVIDIA NVLink，支持 FP4 AI 精度。 GB200 NVL72是一款性能卓越的计算平台，采用更快的第二代Transformer引擎和FP8精度，可将大型语言模型的

发表于 05-13 17:16

【大语言模型：原理与工程实践】大语言模型的预训练

数据格式的转换、数据字段的匹配和整合等。通过数据级净化，可以进一步提高数据的质量和可用性，为后续的数据分析和建模提供更有价值的数据支持。在得到了大语言模型的数据之后，就是对其进行预

发表于 05-07 17:10