0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何通过组件配置为深度学习培训选择企业服务器

星星科技指导员 来源:NVIDIA 作者:Charu Chaubal 2022-04-19 15:16 次阅读

深度学习已经成为执行许多人工智能任务的最常见的神经网络实现。数据科学家使用 TensorFlow 和 PyTorch 等软件框架来开发和运行 DL 算法

到目前为止,已经有很多关于深度学习的文章,你可以从许多来源找到更详细的信息。有关良好的高层总结,请参见 人工智能、机器学习和深度学习之间有什么区别?

开始深度学习的一种流行方式是在云中运行这些框架。然而,随着企业开始增长和成熟其人工智能专业技能,他们会寻找在自己的数据中心运行这些框架的方法,以避免基于云的人工智能的成本和其他挑战。

在本文中,我将讨论如何为 深度学习培训选择企业服务器。我回顾了这个独特工作负载的具体计算需求,然后讨论了如何通过组件配置的最佳选择来满足这些需求。

DL 培训的系统要求

深度学习培训通常被设计为数据处理管道。必须首先根据数据格式、大小和其他因素准备原始输入数据。

数据通常也会经过预处理,以便相同的输入可以以不同的方式呈现给模型,这取决于数据科学家所确定的将提供更强大的训练集的内容。例如,图像可以随机旋转,以便模型学习识别对象,而不考虑方向。然后将准备好的数据输入 DL 算法。

pYYBAGJeYeqAJmOBAABlS6A6Eyk644.png

图 1 深度学习培训数据管道

了解了 DL 培训的工作原理后,以下是以最快、最有效的方式执行此任务的具体计算需求。

GPU

深度学习的核心是 GPU 。计算网络每一层的值的过程最终是一组庞大的矩阵乘法。每个层的数据通常可以并行处理,各层之间有协调步骤。

GPU 设计用于以大规模并行方式执行矩阵乘法,并已被证明是实现 深度学习的巨大速度 的理想选择。

对于训练,模型的大小是驱动因素,因此具有更大更快内存的 GPU ,比如 NVIDIA A100 GPU 核心张量 ,能够更快地处理成批的训练数据。

中央处理器

DL 训练所需的数据准备和预处理计算通常在 CPU 上执行,尽管 recent innovations 已经使越来越多的计算能够在 GPU 上执行。

使用高性能的 CPU 以足够快的速度维持这些操作是至关重要的,这样 GPU 就不会因为等待数据而感到饥饿。 CPU 应该是企业级的,例如来自英特尔至强可扩展处理器系列或 AMD EPYC 系列,而且 CPU 内核与 GPU 的比例应该足够大,以保持流水线运行。

系统存储器

特别是对于当今最大的机型, DL 训练只有在有大量输入数据可供训练时才有效。这些数据从存储器中批量检索,然后由 CPU 在系统内存中处理,然后再馈送到 GPU 。

为了保持该进程以持续的速度运行,系统内存应该足够大,以便 CPU 处理的速率可以与 GPU 处理数据的速率相匹配。这可以用系统内存与 GPU 内存的比率来表示(在服务器中的所有 GPU 中)。

不同的模型和算法需要不同的比率,但最好有更高的比率,这样 GPU 就永远不会等待数据。

网络适配器

随着 DL 模型变得越来越大,已经开发出了多种威廉希尔官方网站 来执行训练,多个 GPU 一起工作。当一台服务器中安装了多个 GPU 时,它们可以通过 PCIe 总线相互通信,尽管可以使用 NVLink 和 NVSwitch 等更专业的威廉希尔官方网站 来实现最高性能。

Multi- GPU 培训也可以扩展到跨多台服务器的工作。在这种情况下,网络适配器成为服务器设计的关键组件。在执行多节点 DL 训练时,需要高带宽 Ethernet 或 InfiniBand 适配器来最大限度地减少由于数据传输而产生的瓶颈。

DL 框架利用 NCCL 等库以最佳和性能的方式执行 GPU 之间的协调。 GPUDirect RDMA 等威廉希尔官方网站 使数据能够从网络直接传输到 GPU ,而无需通过 CPU ,从而消除了延迟源。

理想情况下,系统中每一两个 GPU 就应该有一个网络适配器,以便在必须传输数据时最大限度地减少争用。

存储

DL 培训数据通常驻留在外部存储阵列上。服务器上的 NVMe 驱动器通过提供缓存数据的方法,可以大大加快培训过程。

DL I / O 模式通常由读取训练数据的多次迭代组成。训练的第一步(或 epoch )读取用于开始训练模型的数据。如果在节点上提供了足够的本地缓存,则后续的数据传递可以避免从远程存储中重新读取数据。

为了避免从远程存储中提取数据时发生争用,每个 CPU 应该有一个 NVMe 驱动器。

PCIe 拓扑

由于 CPU 、 GPU 和网络之间存在复杂的相互作用,因此应该清楚的是,具有减少 DL 培训管道中任何潜在瓶颈的连接设计对于实现最佳性能至关重要。

如今,大多数企业服务器使用 PCIe 作为组件之间的通信手段。 PCIe 总线上的主要流量发生在以下路径上:

从系统内存到 GPU

在多次 GPU 培训期间,在相同服务器上的 GPU 之间

在多节点培训期间 GPU 与网络适配器之间

poYBAGJeYfSAL-GgAAB__2rvYgs178.png

图 2 主 PCIe 数据通信路径

用于深度学习的服务器应具有平衡的 PCIe 拓扑结构, GPU 均匀分布在 CPU 插槽和 PCIe 根端口上。在所有情况下,每个 GPU 的 PCIe 通道数应为支持的最大数量。

如果存在多个 GPU ,且 CPU 的 PCIe 通道数量不足以容纳所有通道,则可能需要 PCIe 交换机。在这种情况下, PCIe 交换机层的数量应限制为一层或两层,以最小化 PCIe 延迟。

类似地,网络适配器和 NVMe 驱动器应与 GPU 处于同一 PCIe 交换机或 PCIe 根复合体之下。在使用 PCIe 交换机的服务器配置中,这些设备应与 GPU 位于同一 PCIe 交换机下,以获得最佳性能。

选择支持 DL 培训的经过验证的系统

设计一个为 DL 培训而优化的服务器很复杂。 NVIDIA 已经发布了 关于为各种类型的加速工作负载配置服务器的指南 ,基于多年在这些工作负载方面的经验,并与开发人员合作优化代码。

为了让你更容易上手,NVIDIA 开发了 NVIDIA-Certified Systems 程序。系统供应商合作伙伴已使用特定的 NVIDIA GPU 和网络适配器配置并测试了多种形式的服务器型号,以验证 优化设计以获得最佳性能 的有效性。

验证还包括生产部署的其他重要功能,如可管理性、安全性和可伸缩性。系统经过针对不同工作负载类型的一系列类别认证。 合格系统目录 有一份由 NVIDIA partners 提供的经 NVIDIA 认证的系统列表。数据中心类别的服务器已经过验证,可以为 DL 培训提供最佳性能。

NVIDIA 人工智能企业

除了合适的硬件,企业客户还希望为 AI 工作负载选择受支持的软件解决方案。 NVIDIA 人工智能企业 是一套端到端、云计算原生的人工智能和数据分析软件。它经过优化,因此每个组织都可以擅长人工智能,经过认证可以部署在从企业数据中心到公共云的任何地方。人工智能企业包括全球企业支持,以便人工智能项目保持正常运行。

当您在优化配置的服务器上运行 NVIDIA AI Enterprise 时,您可以放心,您正在从硬件和软件投资中获得最佳回报。

总结

在本文中,我向您展示了如何为 深度学习培训 选择具有特定计算需求的企业服务器。希望您已经学会了如何通过组件配置的最佳选择来满足这些需求。

关于作者

Charu Chaubal 在NVIDIA 企业计算平台集团从事产品营销工作。他在市场营销、客户教育以及威廉希尔官方网站 产品和服务的售前工作方面拥有 20 多年的经验。 Charu 曾在云计算、超融合基础设施和 IT 安全等多个领域工作。作为 VMware 的威廉希尔官方网站 营销领导者,他帮助推出了许多产品,这些产品共同发展成为数十亿美元的业务。此前,他曾在 Sun Microsystems 工作,在那里他设计了分布式资源管理和 HPC 基础设施软件解决方案。查鲁拥有化学工程博士学位,并拥有多项专利。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4989

    浏览量

    103095
  • 云计算
    +关注

    关注

    39

    文章

    7822

    浏览量

    137441
  • 服务器
    +关注

    关注

    12

    文章

    9176

    浏览量

    85465
收藏 人收藏

    评论

    相关推荐

    如何选择合适的云服务器 --X 实例购买指南和配置详细说明

      3.1 基础配置   3.2 实例规格   3.3 镜像选择   3.4 存储的配置   3.5 网络配置   3.6 弹性网络IP   3.7 云
    的头像 发表于 12-24 17:27 131次阅读
    如何<b class='flag-5'>选择</b>合适的云<b class='flag-5'>服务器</b> --X 实例购买指南和<b class='flag-5'>配置</b>详细说明

    配置rsyslog服务器

    配置rsyslog服务器
    的头像 发表于 11-11 11:13 237次阅读
    <b class='flag-5'>配置</b>rsyslog<b class='flag-5'>服务器</b>

    SMTP服务器配置教程

    1. 了解SMTP服务器 SMTP服务器是用于发送电子邮件的服务器。它使用SMTP协议来处理邮件的发送。配置SMTP服务器需要了解以下几个关
    的头像 发表于 10-30 16:16 1040次阅读

    新手小白怎么通过服务器跑pytorch?

    安装PyTorch的步骤可以根据不同的操作系统和需求有所差异,通过服务器运行PyTorch的过程主要包括选择GPU云服务器平台、配置
    的头像 发表于 09-25 11:35 294次阅读

    为什么选择使用服务器

    为什么要选择使用服务器
    的头像 发表于 08-23 16:33 234次阅读

    gpu服务器与cpu服务器的区别对比,终于知道怎么选了!

    gpu服务器与cpu服务器的区别主要体现在架构设计、性能特点、能耗效率、应用场景、市场定位等方面,在以上几个方面均存在显著差异。CPU服务器更适合数据库管理和企业应用,而GPU
    的头像 发表于 08-01 11:41 497次阅读

    图床服务器如何选择配置

    选择图床服务器时,应考虑存储空间、带宽、安全性和稳定性等因素。建议选择配置较高的服务器,以满足需求。 在选择图床
    的头像 发表于 07-11 15:36 302次阅读

    云存储服务器怎么配置

    云存储服务器配置是一个复杂的过程,涉及到硬件、软件、网络等多个方面。 云存储服务器配置概述 云存储是一种基于互联网的存储方式,用户可以通过
    的头像 发表于 07-02 09:15 882次阅读

    新手小白怎么学GPU云服务器深度学习?

    新手小白想用GPU云服务器深度学习应该怎么做? 用个人主机通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不动,如何实现更经济便捷的实现GPU云服务器
    发表于 06-11 17:09

    企业选择大带宽服务器时需要考虑哪些其他因素?

    企业选择大带宽服务器时,除了成本因素,还需要考虑哪些因素,rak部落小编为您整理发布企业选择大带宽
    的头像 发表于 04-12 10:31 363次阅读

    OpenBSD中如何配置和使用虚拟专用服务器

    在OpenBSD中配置和使用虚拟专用服务器(VPS)通常涉及以下步骤: 1、安装OpenBSD:首先,在您的VPS提供商处购买并配置一个OpenBSD实例。在安装OpenBSD时,请确保您选择
    的头像 发表于 03-28 17:17 451次阅读

    linux服务器和windows服务器

    较为熟悉,需要高性能和稳定性,并且希望能够进行自定义配置和更好的安全性,那 么Linux服务器是一个不错的选择。 而如果你对服务器操作系统不太熟悉,需要广泛的应用支持和易用的管理工具,
    发表于 02-22 15:46

    选择服务器硬件配置需要注意什么?

    决定了服务器同时处理数据的数量 。常规内存默认配置在8G左右。SATA硬盘通常转速7200转,而固态硬盘比SATA硬盘快很多倍,启动快,读取数据时间快。因此,在选择时,可以考虑性价比
    的头像 发表于 02-20 15:16 438次阅读

    如何通过WebDAV服务器访问NAS

    WebDAV的客户端程序(如WinSCP、RaiDrive、Mac OS Finder、Linux 资源管理)访问TNAS设备。 接下来大家分享如何通过WebDAV服务器访问铁威马
    的头像 发表于 01-16 15:30 1076次阅读
    如何<b class='flag-5'>通过</b>WebDAV<b class='flag-5'>服务器</b>访问NAS

    什么是web服务器?如何选择服务器配置

    )、LiteSped等。这些软件在配置和功能上略有不同,但其目标是提供高性能、可靠、安全的网页内容交付。 如何选择web服务器配置?这主要取决
    的头像 发表于 01-03 15:25 1106次阅读