0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

桥接视觉与语言的研究综述

MqC7_CAAI_1981 来源:YXQ 2019-08-09 18:32 次阅读

近年来,由于深度学习计算机视觉和自然语言处理等多学科领域的兴趣激增,视觉和语言任务的桥接得到了显著的发展。在本综述中,我们重点研究了10种不同的视觉和语言桥接任务,包括它们的问题定义、方法、现有数据集、评估指标,以及与相应的最先进方法的结果的比较。这超越了早期的一些综述,这些综述要么是特定于任务的,要么只专注于一种类型的视觉内容,即图像或视频。最后,我们讨论了视觉与语言研究未来可能的整合方向。

引言

近年来,深度学习的发展使得计算机视觉(CV)和自然语言处理(NLP)领域在多项任务中取得重大进展。

最近很多研究都热衷于解决这些传统独立领域的语言和视觉信息相结合的挑战。应对语言和视觉结合挑战的方法应提供对视觉或文本内容的完全理解,并期望(1)生成关于视觉内容的可理解但简洁且语法良好的描述,反之亦然,其中给定文本描述生成视觉内容返回(2)识别视觉内容中的对象并推断它们与原因的关系或回答关于它们的任意问题(3)通过利用视觉和自然语言指令的输入来进行浏览(4)翻译文本从一种语言到另一种语言的内容,其视觉内容用于消除歧义(5)生成有关视觉内容的故事等。这些方法的设计可以处理和关联来自多种形式的信息(即语言和视觉信息),通常被称为多模态学习模型的一部分(Mogadala,2015)。

然而,在这篇文章中,作者不仅提供了十个不同任务的全面概述,还提供了驱动当前视觉和语言研究集成的方法、数据集和评估指标。在第2节中,首先介绍了视觉和语言集成的10个重要任务及其方法,并在第3节中概述了用于每个任务的数据集。然后,在第4节中,我们分别描述了视觉和语言的表示,并进一步讨论了将视觉和语言结合起来实现任务的主要方法。在第5节中,我们给出了用于所有10个任务的评估指标。此外,在第6节中,还比较和讨论了通过相应方法实现的每个任务的基准结果。在第7节中,我们讨论了可能的未来方向,最后第8节结束了我们的综述,并讨论了对结果的一些见解。

然而,在综述中,我们超越了单词并提出了那些将可变长度大于单词的文本作为语言输入的任务。这些任务中的大多数被视为对CV、NLP或这两个问题的扩展。图1总结了不同的任务。然而,为了了解这些任务如何被视为CV,NLP或两者中问题的自然延伸,我们简要地发现它们与其各自研究中解决的类似任务之间的相关性。

图1:十种不同的语言和视觉集成任务。

图2:给定一张图像,标准图像描述生成模型生成一个全局文本描述。

表1:生成图像全局描述的方法摘要。

图3:给定一个视频(表示为帧序列),视频描述生成模型生成单个全局标题。

图4:给定图像序列,图像叙事模型按顺序生成文本故事。

图5:给定视频帧(摘自(Li et al., 2018)),视频叙事模型按顺序生成文本故事。

图6:给定一张图像和问题,图像问答模型产生答案。

图7:给定一个视频(由TV Q&A数据集中的帧序列表示)和问题,视频问答模型从多个选项中找到正确的答案。

图8:给定一张图像,问题和对话历史记录,图像对话模型基于它生成答案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    45982
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121118

原文标题:NLP+CV《桥接视觉与语言的研究综述》,带你全面了解视觉+语言最新应用和方法

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    COM和CORBA的与应用

    根据CORBA规范,阐述了组件的体系结构和六种模型,并引申出八种方式,比较了各种
    发表于 02-27 16:07 29次下载
    COM和CORBA的<b class='flag-5'>桥</b><b class='flag-5'>接</b>与应用

    方式电路图

    方式电路图
    发表于 07-16 17:43 5022次阅读
    <b class='flag-5'>桥</b><b class='flag-5'>接</b>方式电路图

    车载功放的功能

    车载功放的功能              功能是指为增加输出功率而将车载功放
    发表于 01-04 11:10 3870次阅读

    网桥和,网桥和是什么意思

    网桥和,网桥和是什么意思 网桥(Bridge)也称桥接器,是连接两个局域网的存储转发设备,用它可以完成具有相同或相似体系
    发表于 03-20 16:03 1.3w次阅读

    基于CDMA模块的嵌人式无线传输装置

    研究旨在解决各种需要低成本无线数据传输的设备.即某客户端设备通过RS232与本设备相连。该
    的头像 发表于 02-09 04:15 7934次阅读
    基于CDMA模块的嵌人式无线传输<b class='flag-5'>桥</b><b class='flag-5'>接</b>装置

    PCBA加工出现的原因及解决方法

    是PCBA加工中常见的缺陷之一,它会引起元器件之间的短路,遇到必须返修。
    发表于 09-30 16:20 3486次阅读

    视觉问答与对话任务研究综述

    对机器的感知能力、认知能力和推理能力均提出了较髙的要求,在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述,对数据集和算法进行了归纳,对研究挑战和问题进
    发表于 04-08 10:33 10次下载
    <b class='flag-5'>视觉</b>问答与对话任务<b class='flag-5'>研究</b><b class='flag-5'>综述</b>

    高速视觉测量系统关键威廉希尔官方网站 及研究综述

    高速视觉测量系统关键威廉希尔官方网站 及研究综述
    发表于 06-16 10:16 15次下载

    labview视觉中不同模块的使用综述

    labview视觉中不同模块的使用综述
    发表于 09-10 16:16 37次下载

    基于深度学习的目标检测研究综述

    基于深度学习的目标检测研究综述 来源:《电子学报》 ,作者罗会兰等 摘 要: 目标检测是计算机视觉领域内的热点课题,在机器人导航、智能视频监控及航天航空等领域都有广泛的应用.本文首先综述
    发表于 01-06 09:14 2168次阅读
    基于深度学习的目标检测<b class='flag-5'>研究</b><b class='flag-5'>综述</b>

    视觉语言导航领域任务、方法和未来方向的综述

    视觉语言导航(VLN)是一个新兴的研究领域,旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理,与计算机视觉、自然
    的头像 发表于 09-20 14:30 4215次阅读

    多个路由器如何无线成一个网络 路由器教程

    多个路由器如何无线成一个网络 路由器教程
    发表于 09-28 09:25 1次下载

    多维度剖析视觉-语言训练的威廉希尔官方网站 路线

    (如BERT\GPT等)的启发,视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注,成为如今 VL 任务的核心训练范式。本文对 VLP 领域近期的综述文章进行整理,回顾其最新的
    的头像 发表于 02-23 11:15 913次阅读

    无线和mesh组网哪个好?

    无线和Mesh组网都是用于扩展无线网络覆盖范围的威廉希尔官方网站 ,但它们的工作原理和应用场景有所不同。 无线接通常是一对一的连接,相对较容易设置和维护。它的优点在于简单性,适用于需要建立点对点连接的场景
    的头像 发表于 01-19 16:12 7859次阅读

    路由器路由器怎样 路由器接好还是中继好

    路由器和中继是常用的网络扩展方式,用于扩大网络覆盖范围,提供更好的网络连接。这两种方式在不同的场景下有着各自的优势,下面将详细介绍如何路由器,以及
    的头像 发表于 02-20 14:26 5439次阅读