0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚研提出VL-BERT,现取得了当前单模型的最好效果

JqWP_youuav 来源:陈年丽 2019-09-03 15:04 次阅读

机器之心发布

来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。

为了让 VL-BERT 模型利用更为通用的特征表示,作者在大规模图片描述生成数据集 ConceptualCaptions 中进行 VL-BERT 的预训练,实验证明此预训练过程可以显著提高下游的视觉-语言任务的效果,包含视觉常识推理、视觉问答与引用表达式理解等。值得一提的是,在视觉常识推理排行榜中,VL-BERT 取得了当前单模型的最好效果。

适用于下游任务的通用特征表示预训练是深度网络成功的标志之一。在计算机视觉领域,深度网络在 ImageNet 数据集进行图像分类的预训练过程,被发现可广泛提高多种图像识别任务的效果。在自然语言处理领域中,Transformer 模型在大规模语料库中使用语言模型进行预训练的过程,也被证明可广泛提高多种自然语言处理任务的效果。

但对于计算机视觉和自然语言处理领域交叉的任务,例如图像标题生成、视觉问答、视觉常识推理等,缺少这种预训练的通用多模态特征表示。

一般来说,之前的视觉-语言模型分别使用计算机视觉或自然语言处理领域中的预训练模型进行初始化,但如果目标任务数据量不足,模型容易过拟合从而损失性能。并且对于不同的视觉-语言任务,其网络架构一般是经过特殊设计的,由此很难通过视觉-语言联合预训练的过程帮助下游任务。

由此,在本文中,提出了一种可广泛应用于视觉-语言任务的预训练通用特征表示,称为 Visual-LinguisitcBERT,简称 VL-BERT,其架构如下图所示:

VL-BERT 的主干网络使用 TransformerAttention 模块,并将视觉与语言嵌入特征作为输入,其中输入的每个元素是来自句子中的单词、或图像中的感兴趣区域(Region of Interests,简称 RoIs)。在模型训练的过程中,每个元素均可以根据其内容、位置、类别等信息自适应地聚合来自所有其他元素的信息。在堆叠多层 TransformerAttention 模块后,其特征表示即具有更为丰富的聚合与对齐视觉和语言线索的能力。

为了更好地建模通用的视觉-语言表示,在大规模视觉-语言语料库中对 VL-BERT 进行了预训练。采用的预训练数据集为图像标题生成数据集,Conceptual Captions,其中包含了大约 330 万个图像标题对。

VL-BERT 的预训练主要采用三个任务:a) 屏蔽语言模型(Masked Language Modeling),即随机屏蔽掉语句中的一些词,并预测当前位置的词是什么;b) 屏蔽 RoI 分类(MaskedRoIClassification),即随机屏蔽掉视觉输入中的一些 RoIs,并预测此空间位置对应 RoI 的所属类别;c) 图像标题关联预测(Sentence-Image Relationship Prediction),即预测图像与标题是否属于同一对。

在预训练结束后,使用微调来进行下游任务的训练。本文中主要在三个视觉-语言下游任务中进行微调,即视觉常识推理(VisualCommonsenseReasoning)、视觉问答(VisualQuestionAnswering)与引用表达式理解(ReferringExpressionComprehension),下面将分别介绍。

视觉常识推理任务即给定图片与相关问题,机器不仅需要回答问题,还需要提供理由来证明答案的正确性。此任务(Q-》AR)被分解为两个子任务,即视觉问答(Q-》A,给定图片与问题,输出正确答案),以及视觉推理(QA-》R,给定图片、问题与答案,输出正确的理由)。

下面以视觉问答子任务为例,此任务的输入为问题、答案与图像的 RoIs,并预测此答案是否为正确答案。除此之外,作者发现微调时增加与预训练类似的 RoI 分类损失也会进一步提升性能,如下:

视觉问答任务即给定图片,回答与图片输入相关的问题。由此模型的输入即为问题与图像,基本元素为单词或 RoI,最终对答案进行预测,如下:

引用表达式理解任务是使用给定的引用表达式来定位图像中的相关对象,由此输入为查询(引用表达式)与图片中的 RoIs,并预测哪个 RoI 为查询输入的引用,如下:

下面将介绍论文中的一些主要实验结果:

a)在视觉常识推理(Visual Commonsense Reasoning)任务中,与当前最好方法的结果比较如下:

b)在视觉问答(Visual Question Answering)任务中,与当前最好方法的结果比较如下:

c)在引用表达式理解(Referring Expression Comprehension)任务中,与当前最好方法的结果比较如下:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6610

    浏览量

    104159
  • 机器
    +关注

    关注

    0

    文章

    784

    浏览量

    40757

原文标题:牛人发明无人机自动建房,空中喷“水泥”,网友:建筑工人要失业

文章出处:【微信号:youuav,微信公众号:无人机网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于移动自回归的时序扩散预测模型

    回归取得了比传统基于噪声的扩散模型更好的生成效果,并且获得了人工智能顶级会议 NeurIPS 2024 的 best paper。 然而在时间序列预测领域,
    的头像 发表于 01-03 14:05 114次阅读
    基于移动自回归的时序扩散预测<b class='flag-5'>模型</b>

    微软科技2025年的新年祝福

    2024即将画上句号,在过去的一年里,很微软 AI持续创新和突破,并取得了瞩目的成就。
    的头像 发表于 01-02 09:09 182次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    取得了令人瞩目的效果。 阅读感悟 从传统的手动编程到借助大模型实现智能化、自主化,从单一模态的交互到多模态信息的深度融合,再到扩散模型的应用,机器人控制威廉希尔官方网站 正在以惊人的速度进化。这不
    发表于 12-29 23:04

    通义千问发布第二代视觉语言模型Qwen2-VL

    。Qwen2-VL系列模型在多模态处理领域取得了突破性进展,于多个权威测评中崭露头角,刷新了多项最佳成绩记录,展现出强大的视觉理解与语言交互能力。
    的头像 发表于 09-03 16:31 591次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建T
    的头像 发表于 07-02 11:41 1691次阅读

    微软推出首个基于AI的天气预报系统

    微软近日发布了其首个大型大气基础模型Aurora,该模型在天气预测领域开启了全新的高精度时代。Aurora的发布标志着微软在人工智能和气象科学领域的深度融合
    的头像 发表于 06-07 15:44 539次阅读

    德:下半年将推出50μm以下无衬底芯片Micro产品

    近日,利德在接受行业机构调研时,再次确认了Micro LED作为公司核心战略产品的地位。利德在Micro LED领域已经取得了显著的威廉希尔官方网站 突破和市场应用。
    的头像 发表于 06-06 10:20 729次阅读

    谷歌提出大规模ICL方法

    谷歌DeepMind团队近日取得了一项突破性的研究成果。他们提出了强化和无监督两种新型的ICL(In-Context Learning)学习方法,这一创新威廉希尔官方网站 能够在多个领域显著提升模型的性能。
    的头像 发表于 05-14 14:17 369次阅读

    微软将推出自AI大模型

    微软正在紧锣密鼓地训练一款全新的自人工智能大模型——“MAI-1”。据悉,这款模型规模庞大,足以与谷歌的Gemini和OpenAI的ChatGPT相媲美。
    的头像 发表于 05-13 11:30 671次阅读

    微软5000亿参数大模型曝光

    微软近日曝光了其内部正在秘密研发的巨型AI模型——MAl-1,这款模型拥有惊人的5000亿参数。据微软首席威廉希尔官方网站 官Kevin Scott确认,MAl-1的研发工作确实在稳步推进中,并且该
    的头像 发表于 05-08 09:56 465次阅读

    微软AI大模型即将问世

    微软正悄然酝酿一项重大威廉希尔官方网站 突破,据内部消息人士透露,公司正全力训练一款名为“MAI-1”的自人工智能大模型。这款模型备受期待,其规模庞大,足以与谷歌的Gemini和OpenAI的Ch
    的头像 发表于 05-07 14:46 497次阅读

    微软MSN天气服务引入全新AI模型

    微软在天气预测领域取得了突破性的进展,为MSN天气服务引入了全新的AI预测模型。该模型微软Start团队精心研发,并基于他们在arXiv上
    的头像 发表于 05-07 09:25 580次阅读

    【大语言模型:原理与工程实践】大语言模型的基础威廉希尔官方网站

    之后,成为文本建模领域的热门架构。不仅如此,它还对自然语言处理领域产生了深远的影响。基于Transformer的预训练模型,如GPT系列和BERT系列,已在多种任务上取得了卓越的成绩。目前的大型语言
    发表于 05-05 12:17

    拐点已?智能驾驶或将重塑汽车产业格局

    随着GPT大模型和FSD端到端的出现,基于“数据-算力”的方法抛弃了传统的算法和编程CODING,取得了巨大的进展。通过Scaling law数据规模(百万辆车视频数据),终于实现了像人一样驾驶的效果
    发表于 04-08 10:01 558次阅读
    拐点已<b class='flag-5'>现</b>?智能驾驶或将重塑汽车产业格局

    关于大模型在软件测试领域应用的全面综述

    模型(LLM)由于其卓越的自然语言理解、推理等能力,已经被应用于各种场景,取得了前所未有的效果
    的头像 发表于 01-18 09:33 5716次阅读
    关于大<b class='flag-5'>模型</b>在软件测试领域应用的全面综述