视觉语言预训练(VLP)模型的最新进展-电子发烧友网

让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力，研究人员进行了一系列相关研究，如人脸识别、阅读理解和人机对话，通过这些任务训练和评估机器在特定方面的智能。一般来讲，领域专家通过手工构建标准数据集，然后在这些数据集上训练和评估相关模型。然而，由于相关威廉希尔官方网站的限制，训练模型往往需要大量的标注数据，以获得更好、更强大的模型。

基于 Transformer 架构的预训练模型缓解了这个问题。它们首先通过自监督学习进行预训练，从大规模未标记数据中训练模型，从而学习通用表示。它们在下游任务上仅使用少量手动标记的数据进行微调就能取得令人惊讶的效果。自 BERT 被应用于 NLP 任务以来，各种预训练模型在单模态领域快速发展，例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明它们有利于下游单模态任务，并避免从头开始训练新模型。

与单模态领域类似，多模态领域也存在高质量标注数据较少的问题。我们不禁会问，上述预训练方法能否应用于多模态任务?研究人员已经对这个问题进行了探索并取得了重大进展。

在本文中，来自中国科学院自动化研究所、中国科学院大学的研究者调查了视觉 - 语言预训练(vision-language pre-training，VLP)最新进展和新领域，包括图像 - 文本预训练和视频 - 文本预训练。VLP 通过对大规模数据的预训练来学习不同模态之间语义对应关系。例如，在图像 - 文本预训练中，研究者期望模型将文本中的狗与图像中的狗外观相关联。在视频 - 文本预训练中，研究者期望模型将文本中的对象 / 动作映射到视频中的对象 / 动作。

视觉语言预训练(VLP)模型的最新进展

为了实现这一目标，研究者需要巧妙地设计 VLP 对象和模型架构，以允许模型挖掘不同模态之间的关联。

为了让读者更好地全面掌握 VLP，该研究首先从特征提取、模型架构、预训练目标、预训练数据集和下游任务五个方面回顾其最近进展。然后，文章详细总结了具体的 VLP 模型。最后，文章讨论了 VLP 的新领域。据了解，这是对 VLP 领域的首次调查。研究者希望这项调查能够为 VLP 领域的未来研究提供启示。

VLP 综述

VLP 五个方面回顾及其最近进展

在特征处理方面：论文主要介绍了 VLP 模型如何进行预处理和表示图像、视频和文本以获得对应特征。

为了充分利用单模态预训练模型，VLP 随机初始化标准 transformer 编码器来生成视觉或文本表示。从视觉来讲，VLP 利用预训练视觉 transformer(例如 ViT 和 DeiT)对 ViT-PF 进行编码。从文本来讲，VLP 使用预训练文本 transformer(例如 BERT)对文本特征进行编码。为简单起见，该研究将这些 transformer 命名为 Xformer。

在模型架构方面：论文从两个不同的角度介绍 VLP 模型架构：(1)从多模态融合的角度来观察单流与双流架构(2)从整体架构设计来比较编码器以及编码器 - 解码器对比。

单流架构是指将文本和视觉特征组合在一起，然后馈入单个 transformer 块，如下图 1 (a) 所示。单流架构通过合并注意力来融合多模态输入。单流架构的参数效率更高，因为两种模式都使用相同的参数集。

双流架构是指文本和视觉特征没有组合在一起，而是独立馈入到两个不同的 transformer 块，如图 1 (b) 所示。这两个 transformer 块不共享参数。为了获得更高的性能，交叉注意力(如图 1 (b) 中的虚线所示)用于实现跨模态交互。为了实现更高的效率，视觉 transformer 块和文本 transformer 块之间也可以不采用交叉注意力。

视觉语言预训练(VLP)模型的最新进展

许多 VLP 模型只采用编码器架构，不同模态表示直接馈入输出层。相比之下，其他 VLP 模型提倡使用 transformer 编码器 - 解码器架构，不同模态表示首先馈入解码器，然后馈入输出层。

在预训练目标方面：论文通过使用不同的预训练目标来预训练 VLP 模型，并将预训练目标总结为四类：完成、匹配、时间和特定类型。

完成(completion)指的是利用未掩码部分来重建掩码元素。以掩码语言建模 (MLM) 为例，其最早由 taylor 提出，由于 BERT 将其作为预训练任务而广为人知。VLP 模型中的 MLM 类似于预训练语言模型 (PLM) 中的 MLM，它不仅可以通过其余文本 token 来预测掩码文本 token，还可以通过视觉 token 来预测掩码文本 token。根据经验，遵循 BERT 的 VLP 模型以 15% 的掩码率随机掩码每个文本输入 token，并在 80% 的时间使用特殊 token [MASK]、10% 的时间使用随机文本 token，剩余 10% 的时间使用原始 token 来替换被掩码掉的文本。不过在普林斯顿大学陈丹琦等人的论文《Should You Mask 15% in Masked Language Modeling?》中，作者发现：在有效的预训练方案下，他们可以掩蔽 40-50% 的输入文本，并获得比默认的 15% 更好的下游性能。

在掩码视觉建模 (MVM) 中，与 MLM 一样，MVM 对视觉(图像或视频)区域或 patch 进行采样，并且通常以 15% 的概率掩码其视觉特征。VLP 模型需要在给定剩余的视觉特征和所有文本特征的情况下重建掩码的视觉特征。

视觉 - 语言匹配 (VLM) 是最常用的预训练目标，用于对齐视觉和语言。在单流 VLP 模型中，研究者使用特殊 token [CLS] 表示作为两种模态的融合表示。在双流 VLP 模型中，研究者将特殊视觉 token [CLSV] 视觉表示和特殊文本 token [CLST] 文本表示连接起来，作为两种模态的融合表示。VLP 模型将两种模态的融合表示提供给 FC 层和 sigmoid 函数以预测 0 到 1 之间的分数，其中 0 表示视觉和语言不匹配，1 表示视觉和语言匹配。在训练期间，VLP 模型在每一步从数据集中采样正对或负对。

在预训练数据集方面：大多数用于 VLP 的数据集是通过组合跨多模态任务的公共数据集构建而成。这里，一些主流语料库及其详细信息如下表 1 所示。

视觉语言预训练(VLP)模型的最新进展

在下游任务方面：各种各样的任务需要视觉和语言知识融合。本小节论文介绍了此类任务的基本细节和目标，并将其分为五类：分类、回归、检索、生成和其他任务，其中分类、回归和检索任务也称为理解任务。

在分类任务中，其包括视觉问答 (VQA)、视觉推理和合成问答 (GQA)、视觉 - 语言推理 (VLI)、自然语言视觉推理 (NLVR)、视觉常识推理 (VCR) 等。在 VQA 中，提供图像或视频视觉输入，它通常被认为是一个分类任务，模型从一个选择池中预测出最合适的答案;在 GQA 中，我们可以将 GQA 视为 VQA 的升级版，旨在推进自然场景视觉推理的研究;在 VLI 中，给定具有对齐字幕的视频剪辑作为前提，并与基于视频内容的自然语言假设配对，模型需要推断该假设是否与给定视频剪辑相矛盾。

在回归任务中，多模态情感分析 (MSA) 旨在利用多模态信号(如视觉、语言等)检测视频中的情绪。它是作为一个连续的强度变量来预测话语的情感走向。

在检索任务中，视觉 - 语言检索 (VLR) 通过适当的匹配策略来理解视觉(图像或视频)和语言，其包括两个子任务，视觉到文本检索和文本到视觉检索，其中视觉到文本检索是根据视觉从更大的描述池中获取最相关的文本描述，反之亦然。

在生成任务中，视觉字幕 (VC) 旨在为给定的视觉(图像或视频)输入生成语义和语法上合适的文本描述。此外，论文还介绍了其他下游任务，例如多模态机器翻译 (MMT)、视觉语言导航 (VLN) 和光学字符识别 (OCR) 等。

SOTA VLP 模型

图像 - 文本 VLP 模型。VisualBERT 被称为第一个图像 - 文本预训练模型，使用 Faster R-CNN 提取视觉特征，并将视觉特征和文本嵌入连接起来，然后将连接后的特征馈送到单个由 BERT 初始化的 transformer 中。许多 VLP 模型在调整预训练目标和预训练数据集时遵循与 VisualBERT 相似的特征提取和架构。最近，VLMO 利用图像 patch 嵌入和文本词嵌入，将组合嵌入与模态专家一起输入到单个 transformer 中，并取得了令人印象深刻的性能。METER 探索了如何使用单模态预训练模型，并提出一种双流架构模型来处理多模态融合，从而在许多下游任务上实现了 SOTA 性能。

视频 - 文本 VLP 模型。VideoBERT 被称为第一个视频 - 文本预训练模型，其扩展 BERT 模型以同时处理视频和文本。VideoBERT 使用预训练的 ConvNet 和 S3D 来提取视频特征并将它们与文本词嵌入连接起来，并馈送到以 BERT 进行初始化的 transformer。在训练 VideoBERT 时，ConvNet 和 S3D 被冻结，这表明该方法不是端到端的。最近，受 ViT 的启发，Frozen 和 Region-Learner 首先将视频剪辑处理成帧，并根据 ViT 处理每一帧图像的方法获得 patch 嵌入。Frozen 和 Region-Learner 以端到端的方式优化自身并实现 SOTA 性能。

下表 2 总结了更多现有的主流 VLP 模型：

视觉语言预训练(VLP)模型的最新进展

未来，在现有工作的基础上，研究者希望 VLP 可以从以下几个方面进一步发展：

结合声学信息，以往的多模态预训练研究大多强调语言和视觉的联合建模，而忽略了隐藏在音频中的信息;

知识学习和认知，尽管现有的 VLP 模型已经取得了显着的性能，但它们本质上是拟合大规模多模态数据集，让 VLP 模型更有知识对于未来的 VLP 很重要;

提示优化，通过设计离散或连续提示并将 MLM 用于特定的下游任务，这些模型可以减少微调大量参数的计算成本，弥合预训练和微调之间的差距。

原文标题：多模态综述 | 一文了解Language-Vision预训练最新进展和新领域

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30763

浏览量
268906
模型

模型

+关注

关注
1

文章
3229

浏览量
48813
Transformer

Transformer

+关注

关注
0

文章
143

浏览量
5997

原文标题：多模态综述 | 一文了解Language-Vision预训练最新进展和新领域

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

中国龙芯CPU及产品最新进展

本内容向大家讲解了中国龙芯CPU是什么意思，龙芯CPU最新产品及龙芯CPU最新进展情况

发表于 12-07 17:09 •2.8w次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预

发表于 05-07 17:10

风光互补威廉希尔官方网站及应用新进展

风光互补威廉希尔官方网站及应用新进展 [hide]风光互补威廉希尔官方网站及应用新进展.rar[/hide] [此贴子已经被作者于2009-10-22 11:52:24编辑过]

发表于 10-22 11:51

风光互补威廉希尔官方网站原理及最新进展

风光互补威廉希尔官方网站原理及最新进展摘要：简要回顾国内外风电、光伏威廉希尔官方网站与应用发展态势，结合风光互补系统应用，分析、介绍了风光互补LED路灯照明系统、智能控制器设计、分布式供电电源、风光互补水泵系统，并着重

发表于 10-26 13:45

DIY怀表设计正式启动，请关注最新进展。

``我们的电子怀表正式启动，强烈邀请各电子工程师严重关注，本次PCB板由华强PCB(http://www.hqpcb.com/ )提供。DIY怀表设计正式启动，请关注最新进展。做电子的如

发表于 01-13 09:27

车联网威廉希尔官方网站的最新进展

`直播主题及亮点:在介绍中国车联网的发展历史的基础上，分析目前的车联网产品类型和威廉希尔官方网站路线，分析5G的威廉希尔官方网站特点、优势和未来市场发展趋势，介绍北斗与GPS的区别和北斗卫星的最新进展和应用。针对即将成为车

发表于 09-21 14:01

介绍IXIAIP测试平台和所提供测试方案的最新进展

介绍IXIAIP测试平台和所提供测试方案的最新进展

发表于 05-26 06:46

ITU-T FG IPTV标准化最新进展如何？

ITU-T FG IPTV标准化最新进展如何？

发表于 05-27 06:06

CMOS图像传感器最新进展及发展趋势是什么？

CMOS图像传感器最新进展及发展趋势是什么？

发表于 06-08 06:20

VisionFive 2 AOSP最新进展即将发布！

非常开心地在这里和大家提前预告，我们即将发布VisionFive 2 集成 AOSP的最新进展！请大家多多期待吧~ 此次通过众多社区成员的支持和贡献(https://github.com

发表于 10-08 09:15

UWB通信威廉希尔官方网站最新进展及发展趋势

UWB通信威廉希尔官方网站 最新进展及发展趋势，下来看看

发表于 02-07 12:44 •11次下载

利用视觉语言模型对检测器进行预训练

预训练通常被用于自然语言处理以及计算机视觉领域，以增强主干网络的特征提取能力，达到加速训练和提高模型

发表于 08-08 15:33 •1403次阅读

多维度剖析视觉-语言训练的威廉希尔官方网站路线

（如BERT\GPT等）的启发，视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注，成为

发表于 02-23 11:15 •912次阅读

ASML***的最新进展

、与 Mike在SEMICON 上的一些讨论以及 ASML 最近的财报电话会议中的一些内容。以分享了ASML光刻机的最新进展。

发表于 07-30 10:39 •2327次阅读

5G最新进展深度解析.zip

5G最新进展深度解析

发表于 01-13 09:06 •1次下载

搜索历史

视觉语言预训练(VLP)模型的最新进展

评论

中国龙芯CPU及产品最新进展

【大语言模型：原理与工程实践】大语言模型的预训练

风光互补威廉希尔官方网站及应用新进展

风光互补威廉希尔官方网站原理及最新进展

DIY怀表设计正式启动，请关注最新进展。

车联网威廉希尔官方网站的最新进展

介绍IXIAIP测试平台和所提供测试方案的最新进展

ITU-T FG IPTV标准化最新进展如何？

CMOS图像传感器最新进展及发展趋势是什么？

VisionFive 2 AOSP最新进展即将发布！

UWB通信威廉希尔官方网站最新进展及发展趋势

利用视觉语言模型对检测器进行预训练

多维度剖析视觉-语言训练的威廉希尔官方网站路线

ASML*的最新进展**

5G最新进展深度解析.zip