Google Brain和DeepMind联手发布可以分布式训练模型的框架-电子发烧友网

【导读】AI模型进入大数据时代，单机早已不能满足训练模型的要求，最近Google Brain和DeepMind联手发布了一个可以分布式训练模型的框架Launchpad，堪称AI界的MapReduce。

正如吴恩达所言，当代机器学习算法的成功很大程度上是由于模型和数据集大小的增加，在大规模数据下进行分布式训练也逐渐变得普遍，而如何在大规模数据、大模型的情况下进行计算，还是一个挑战。

分布式学习过程也会使实现过程复杂化，这对于许多不熟悉分布式系统机制的机器学习从业者来说是个问题，尤其是那些具有复杂通信拓扑结构的机器学习从业者。

在arxiv上一篇新论文中，来自 DeepMind 和 Google Brain 的研究团队用 Launchpad 解决了这个问题，Launchpad 是一种编程模型，它简化了定义和启动分布式计算实例的过程。

论文的第一作者是来自DeepMind的华人Yang Fan，毕业于香港中文大学。

Launchpad 将分布式系统的拓扑描述为一个图形数据结构，这样图中的每个节点都代表一个服务，即研究人员正在运行的基本计算单元。

将句柄构造为节点的引用，将客户端表示为尚未构造的服务。

图的边表示两个服务之间的通信，并在构建时将与一个节点相关联的句柄给予另一个节点时创建。

通过这种方式，Launchpad 可以通过传递节点句柄来定义跨服务通信。Launchpad 的计算构建块由不同的服务类型表示，每种服务类型由特定于该类型的节点和句柄类表示。

论文中提出的 Launchpad 的生命周期可以分为三个阶段：设置、启动和执行。设置阶段构造程序数据结构; 在启动阶段，处理这个数据结构以分配资源、地址等，并启动指定服务; 然后执行阶段运行服务，例如为服务通信创建客户端。

Launchpad 是用流行的编程语言 Python 实现的，它简化了定义程序和节点数据结构以及为单个平台启动的过程。Launchpad 框架还可以很容易地用任何其他宿主语言实现，包括 c/c + + 等低级编程语言。

Launchpad 编程模型非常丰富，足以容纳各种各样的分布式系统，包括参数服务器、 MapReduce和 Evolution Strategies。

研究人员用简洁的代码详细描述了如何将 Launchpad 应用到这些常见的分布式系统范例中，并说明了该框架在简化本研究领域常用机器学习算法和组件的设计过程方面的能力。

总的来说，Launchpad 是一个实用的、用户友好的、表达性强的框架，用于机器学习研究人员和实践者详细说明分布式系统，作者表示，这个框架能够处理日益复杂的机器学习模型。其他框架

2020年，DeepMind 发布过一个强化学习优化框架Acme，可以让AI驱动的智能体在不同的执行规模上运行，从而简化强化学习算法的开发过程。

强化学习可以让智能体与环境互动，生成他们自己的训练数据，这在电子游戏、机器人威廉希尔官方网站、自动驾驶机器人出租车等领域取得了突破。

随着所使用的训练数据量的增加，这促使设计了一个系统，使智能体与环境实例相互作用，迅速积累经验。DeepMind 断言，将算法的单进程原型扩展到分布式系统通常需要重新实现相关的智能体，这就是 Acme 框架的用武之地。

DeepMind研究员写道，「Acme 是一个用于构建可读、高效、面向研究的 RL 算法的框架。Acme 的核心是设计用于简单描述 RL 智能体，这些智能体可以在不同规模的执行中运行，包括分布式智能体。」

Determined AI也是一个深度学习神器。Determined使深度学习工程师可以集中精力大规模构建和训练模型，而无需担心DevOps，或者为常见任务（如容错或实验跟踪）编写代码。更快的分布式训练，智能的超参优化，实验跟踪和可视化。

一万亿模型要来了？谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

Determined主要运用了Horovod，以Horovod为起点，研究人员运用了多年的专业知识和经验，使得整个训练过程比库存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式训练框架，由Uber 构建并开源，目前已经运行于Uber 的Michelangelo 机器学习即服务平台上。Horovod 能够简化并加速分布式深度学习项目的启动与运行。当数据较多或者模型较大时，为提高机器学习模型训练效率，一般采用多 GPU 的分布式训练。TensorFlow 集群存在诸多缺点，如概念太多、学习曲线陡峭、修改的代码量大、性能损失较大等，而 Horovod 则让深度学习变得更加美好，随着规模增大，Horovod 性能基本是线性增加的，损失远小于 TensorFlow。

2019年，字节跳动AI lab开源了一款高性能分布式框架BytePS，在性能上颠覆了过去几年allreduce流派一直占据上风的局面，超出目前其他所有分布式训练框架一倍以上的性能，且同时能够支持Tensorflow、PyTorch、MXNet等开源库。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件，用户只要在代码中引用BytePS的插件，就可以获得高性能的分布式训练。BytePS的核心逻辑，则实现在BytePS core里。具体的通信细节，完全由BytePS完成，用户完全不需要操心。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4752

浏览量
129041
开源

开源

+关注

关注
3

文章
3368

浏览量
42566
分布式

分布式

+关注

关注
1

文章
908

浏览量
74558
机器学习

机器学习

+关注

关注
66

文章
8424

浏览量
132761
pytorch

pytorch

+关注

关注
2

文章
808

浏览量
13248

HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据

使用分布式数据对象迁移数据，当需要迁移的数据较大（100KB以上）或需要迁移文件时，可以使用分布式数据对象。原理与接口说明详见分布式数据对象跨设备数据同步。说明：自API 12起，由

发表于 12-24 09:40

大语言模型开发框架是什么

大语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面，AI部落小编为您介绍大语言模型开发

发表于 12-06 10:28 •137次阅读

Google DeepMind发布Genie 2：打造交互式3D虚拟世界

在OpenAI宣布即将发布新模型和新功能后，Google DeepMind也不甘落后，于近日推出了大型基础世界模型——Genie 2。这款

发表于 12-05 14:16 •517次阅读

分布式通信的原理和实现高效分布式通信背后的威廉希尔官方网站 NVLink的演进

的大小已经超出了单个 GPU 的范围。所以就需要实现跨多个 GPU 的模型训练，这种训练方式就涉及到了分布式通信和 NVLink。当谈及分布式

发表于 11-18 09:39 •494次阅读

分布式光纤测温是什么？应用领域是？

时，该处的散射光特性会受到影响。通过高速信号采集与数据处理威廉希尔官方网站，可以准确地定位发生温度变化的位置，并给出实时的温度信息。简而言之，分布式光纤测温威廉希尔官方网站将整条传输光纤作为传感器，光纤上的每一点都兼具“传”和“感”

发表于 10-24 15:30 •409次阅读

NetApp与Google Cloud深化合作，强化分布式云存储

智能数据基础设施领导者NetApp®宣布，其与Google Cloud的战略合作再升级。此次合作中，NetApp将统一数据存储和智能服务融入Google Distributed Cloud架构，为分布式云基础设施提供强大支撑。

发表于 10-11 17:21 •508次阅读

分布式故障在线监测|高精度威廉希尔官方网站选用行波特征故诊模型

输电线路故障是电力系统中不可避免的问题，但通过深入分析其成因并采取有效的防范策略，我们可以最大限度地减少故障的发生，保障电网的安全稳定运行。以下是深圳鼎信智慧科技为您讲述关于鼎信分布式故障在线监测

发表于 10-11 12:00 •114次阅读

摩尔线程携手憨猴集团，深化AI算力战略合作，成功实现大模型分布式训练

摩尔线程与憨猴科技集团日前宣布，采用搭载摩尔线程的夸娥（KUAE）千卡智算集群，已成功完成了多个大模型的分布式训练，涵盖7B、34B以及70B三个不同的计算规模等级。

发表于 05-17 17:24 •697次阅读

大语言模型：原理与工程时间+小白初识大语言模型

的分布式表示，基于预训练的词嵌入表示。独热表示就是在一个大的向量空间中，其中一个位1，其余都为0，这样就会变成单独的。词的分布式表示：根据上下文进行推断语义。基于预训练的词嵌入表

发表于 05-12 23:57

为大模型专门优化浪潮信息发布分布式全闪存储AS13000G7-N系列

北京2024年5月10日 /美通社/ -- 近日，浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统，搭载新一代数据加速引擎

发表于 05-10 16:37 •443次阅读

浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

近日，浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统，搭载新一代数据加速引擎DataTurbo，

发表于 05-08 09:38 •578次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

增长。DeepMind在相关论文中指出，模型大小和训练Token数应以相似速率增长，以确保最佳性能。因此，构建与模型规模相匹配的预训练数据至

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础威廉希尔官方网站

概率推断，利用共现矩阵学习每个词的主题分布，进而将其作为词的表示向量。在大规模语料库中进行模型训练，使语义相似的词具有相似的主题分布。然而，这类方法存在一个问题，即

发表于 05-05 12:17

鸿蒙OS 分布式任务调度

鸿蒙OS 分布式任务调度概述在 HarmonyO S中，分布式任务调度平台对搭载 HarmonyOS 的多设备构筑的“超级虚拟终端”提供统一的组件管理能力，为应用定义统一的能力基线、接口

发表于 01-29 16:50 •512次阅读

什么是分布式架构?

1.独立性：分布式架构中的各个节点是独立运行的，它们没有依赖关系，可以单独进行升级、维护和扩展。 2.通信性：分布式架构中的各个节点通过网络连接进行通信和协作，以实现数据的传输和共享。 3.负载均衡：

发表于 01-12 15:04 •1271次阅读