如何显著提升Vision Transformer的训练效率-电子发烧友网

近期MetaAI发布了一篇博客，关于如何显著提升Vision Transformer的训练效率。

原文：[Significantly faster Vision Transformer training]

链接：https://ai.facebook.com/blog/significantly-faster-vision-transformer-training

What the research is

Vision Transformer模型几乎火遍计算机视觉各个领域，其性能随着参数增加和更久的训练过程而得到提升。随着模型越来越大，超过了万亿次浮点运算的规模，该领域达到了瓶颈：训练一个模型往往要一个月，需要几百上千个GPU，导致大部分人无法接触到大规模ViT模型，并进而增加了对加速器的需求。

为了降低门槛，让更多人能够应用ViT，我们开发一系列方法来加速整个训练。我们基于MetaAI的图像分类模型库PyCls实现了一系列优化，这些优化极大的提升了模型训练过程的吞吐量：

How it works ？

我们首先对代码库进行分析，以定位训练效率低下的原因，最后关注点落在计算类型上：大部分模型都是用FP32进行训练，如果使用FP16训练的话，可以降低显存占用，并提高模型训练速度，但这一做法经常会导致准确率下降

所以我们选了一个折中的方法：自动混合精度。在该方法下，我们用half类型进行计算，以加快训练，减少显存使用。并以fp32类型存储参数，以保证模型准确率。其中我们没有手动将网络各部分转换成half类型，而是应用AMP各种模式（如O1, O2, O3)，以寻找一个既能提升速度又不影响精度的平衡点。

FSDP

为了让训练更加高效，我们应用了FSDP训练策略，他能够将参数，梯度，优化器状态分片到各GPU上。在FSDP的帮助下，我们可以用更少的GPU资源构建更大的模型。

FSDP策略可以参考 [数据并行Deep-dive: 从DP 到 Fully Sharded Data Parallel （FSDP）完全分片数据并行] 链接：https://zhuanlan.zhihu.com/p/485208899

MTA Optimizer

前向计算完毕后，优化器需要对各个参数进行修改。而当参数比较多的情况下，对应启动的Optimizer Kernel就会变得很多，通常这些Kernel都比较小，计算负担不大，启动Kernel的开销反而占了大头。

在ContiguousParams中，它将模型参数放置到一块连续的显存中进行计算，这样就能减少优化器这部分的时间。下图是Resnet50+SGD是否应用ContiguousParams的比较，可以看到OptimizerS tep这部分时间显著减少了。

而NVIDIA的Apex库的做法则是在底层重新实现了一系列MultiTensorOptimizer，如Adam, Adagrad等等。

Apex这种方法比较硬核，普通用户如果想要自己自定义优化器并应用Multi Tensor的优化，就必须改动底层CUDA代码。而最近PyTorch也在计划提供了一系列foreach接口[Replace optimizers in torch.optim with the ones from torch.optim._multi_tensor] 链接：https://github.com/pytorch/pytorch/pull/49039，让用户只需要在Python层即可享受到优化，对应的MultiTensor版Momentum优化器代码如下所示：

torch._foreach_mul_(bufs,momentum)
torch._foreach_add_(bufs,grads,alpha=1-dampening)

Pooled Classifier

原版的ViT是额外加了一个分类token，来输出最后的分类结果。而这里采用平均池化如：https://github.com/facebookresearch/pycls/blob/main/pycls/core/config.py#L205 处理最后的分类

Batch Second Input Tensor Layout

这里的数据格式与以往不同，将batch维度放在第二维，并在调用nn.MultiheadAttention的时候，设置batch_first=False，以减少不必要的转置

ifself.batch_firstandis_batched:
returnattn_output.transpose(1,0),attn_output_weights
else:
returnattn_output,attn_output_weights

总感觉这个实现怪怪的

其他优化

我们在采取560大小的batchsize下，达到了1.51倍的加速比，进一步的我们将batchsize设置为384，并将图片大小增大到256，达到了1.86倍加速比。在全FP16运算下，能够达到2.18倍加速比，尽管这偶尔会降低准确率（在实验中，准确率降低不到10%）。

使用上述优化，我们将Imagenet1K数据集每epoch训练时间从0.65小时降低到0.43小时

我们还研究了不同GPU配置对训练速度的影响，在不同配置下我们都实现了比DDP baseline更高的吞吐量。随着GPU增加，吞吐量会因为设备之间的通信开销略微下降。然而即使在64块GPU下，我们仍然比DDP基线快1.83倍

文中链接

PyCls ：https://github.com/facebookresearch/pycls

ContiguousParams：https://github.com/PhilJd/contiguous_pytorch_params

Adam：https://github.com/NVIDIA/apex/blob/master/csrc/multi_tensor_adam.cu

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

加速器

加速器

+关注

关注
2

文章
799

浏览量
37858
Vision

Vision

+关注

关注
1

文章
196

浏览量
18178

原文标题：如何更快地训练Vision Transformer

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

RFID威廉希尔官方网站赋能民兵装备管理，仓储效率显著提升

民兵装备仓储管理平台的三层架构通过紧密合作，实现了装备物资的高效管理和安全储存。这一架构不仅显著提高了管理效率，还有效降低了运营成本，为我国民兵部队提供了坚强可靠的后勤保障。

发表于 12-23 14:29 •57次阅读

RFID威廉希尔官方网站
赋能民兵装备管理，仓储<b class='flag-5'>效率</b><b class='flag-5'>显著</b><b class='flag-5'>提升</b>

微软预览版Copilot Vision AI功能上线

微软公司近日宣布，将面向美国地区的Copilot Pro用户推出预览版的Copilot Vision AI功能。这一创新功能旨在通过人工智能威廉希尔官方网站，进一步提升用户的网页浏览体验。 Copilot

发表于 12-09 14:38 •265次阅读

自动驾驶中一直说的BEV+Transformer到底是个啥？

感知、理解和预测方面表现得更为强大，彻底终结了2D直视图+CNN时代。BEV+Transformer通过鸟瞰视角与Transformer模型的结合，显著提升了自动驾驶

发表于 11-07 11:19 •378次阅读

自动驾驶中一直说的BEV+<b class='flag-5'>Transformer</b>到底是个啥？

提升效率：RTC时钟实用设置

今天来给大家讲解的是RTC时钟实用性，提升绝对的效率。

发表于 11-04 16:35 •786次阅读

<b class='flag-5'>提升</b><b class='flag-5'>效率</b>：RTC时钟实用设置

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发任务中，还是在高并发推理场景下，都能够确保项目的顺利进行，并显著

发表于 10-27 10:03 •214次阅读

NVIDIA助力丽蟾科技打造AI<b class='flag-5'>训练</b>与推理加速解决方案

英伟达推出归一化Transformer，革命性提升LLM训练速度

了新的突破。相较于传统的Transformer架构，nGPT在保持原有精度的同时，直接将大型语言模型(LLM)的训练速度提升了高达20倍。这一显著的性能

发表于 10-23 11:30 •376次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

、机器翻译、文本生成等领域具有广泛应用。它们能够基于用户的提问或描述生成相关的答案或执行指令，极大地提升了信息检索和利用的效率。 2. 局限性尽管大语言模型在自然语言理解方面取得了显著进展，但它们仍然存在

发表于 08-02 11:03

Transformer能代替图神经网络吗

Transformer作为一种在处理序列数据方面表现出色的深度学习模型，自其提出以来，已经在自然语言处理（NLP）、时间序列分析等领域取得了显著的成果。然而，关于Transformer是否能完全代替图神经网络（GNN）的问题，需

发表于 07-12 14:07 •451次阅读

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型，包括模型的结构、训练

发表于 07-02 11:41 •1620次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

。算力：各种浮点计算能力在新一代GPU中得到了显著提升。 3. 创新功能 Transformer 引擎：第二代引擎显著提高了计算、带宽和模型大小效

发表于 05-13 17:16

【大语言模型：原理与工程实践】大语言模型的基础威廉希尔官方网站

Transformer有效避免了CNN中的梯度消失和梯度爆炸问题，同时提高了处理长文本序列的效率。此外，模型编码器可以运用更多层，以捕获输入序列中元素间的深层关系，并学习更全面的上下文向量表示。预训练语言模型

发表于 05-05 12:17

工业触摸显示屏在提升生产效率、降低成本等方面具有显著优势

　工业触摸显示屏在提升生产效率、降低成本等方面发挥着显著的作用。具体来说，其主要优势体现在以下几个方面。

发表于 04-23 10:16 •481次阅读

景嘉微AI训练等领域智算模块及整机研发成功，速度提升显著

据悉，景嘉微此举旨在大范围地拓展AI推理、训练以及科学计算等业务，显著提升自身核心竞争力，稳固在相关领域内的市场地位。除此之外，新产品的发布还被公司视为推动实施长远发展战略的重要步骤。

发表于 03-14 15:19 •876次阅读

蚂蚁集团AI研发部门开源AI Infra威廉希尔官方网站，助力大模型训练效率提升

蚂蚁集团AI创新研发部门NextEvo近日宣布，他们将全面开源AI Infra威廉希尔官方网站，以推动AI研发效率的提升。该威廉希尔官方网站框架名为DLRover，目标在于实现大规模分布式训练的智能化。

发表于 02-04 10:01 •1076次阅读

Transformer压缩部署的前沿威廉希尔官方网站：RPTQ与PB-LLM

随着人工智能威廉希尔官方网站的迅速发展，Transformer在自然语言处理、机器翻译、问答系统等领域取得了显著的性能提升。

发表于 01-24 14:05 •1195次阅读

搜索历史

如何显著提升Vision Transformer的训练效率