如何使用多模态信息做prompt-电子发烧友网

自多模态大火以来，井喷式地出现了许多工作，通过改造预训练语言模型，用图像信息来增强语义信息，但主要集中在几个 NLU 任务上，在 NLG 上的研究比较少。

今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许多实际的应用场景。比如，生成商品介绍文案时，仅仅基于该商品的文字标题是不够的。如果能结合商品的图片，必然能够得到更贴切的文案。

这篇工作的模型基于 GPT2，而多模态信息则是以一种类似 prompt 的方式来使用。虽然方法比较简单直观，但具备一定通用性，未来或许有进一步挖掘的可能。

论文题目：

Multimodal Conditionality for Natural Language Generation

论文链接：

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其实十分简单，一切语言模型都是为了衡量一段文字序列的概率，即：

而如果引入了多模态的输入，就相当于在生成时多了一个条件，即条件概率为：

其中为多模态输入序列。

以文中生成商品文案的运用场景为例。

这里的Product Title和Product Images就是作为生成Product Description时的“条件”。

那么如何将多模态序列引入到自然语言生成模型呢？

本文使用了一个十分直观的方法，称作MANTIS，将作为条件的多模态序列作为前缀放置到decoder输入序列的前面，进而中解码过程中分享多模态信息。其中图片输入借助ResNet-152，将最后一层输出用线性层映射到语言模型同一个空间中。而作为条件的文本输入，即这里的product title，和生成序列一同进行编码。

效果数据集采用FACAD，提供了商品的标题和图片，目标是生成产品描述，效果如下：

文中提出的模型在所有指标中都取得了最优结果，相比于baseline，将BLEU4提升了0.8，CIDEr提升了7.2，METEOR提升了0.8，ROUGE-L提升了1.0。同时，由于衡量生成文本质量具有主观性，作者也进行了人工评分，结果表明MANTIS依然取得了最优结果。

从生成效果来看，生成的描述成功地结合了图片信息，使得描述更加准确，而非笼统的介绍。

总结这篇文章方法十分直观，但是结合最近火热的 Prompt，似乎又有了更多的启发。同样是生成，同样是加前缀，似乎给定条件的生成就是加上编码好的前缀？那么多模态未来能不能成为一种新的prompt呢？作者认为他们的模型可以借助各种不同的多模态条件生成，然而不得不说本文的方法对模态融合的部分做的马虎了些。本文只是单纯借助解码器进行融合，并没有在编码阶段就分享跨模态的信息。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

信息

信息

+关注

关注
0

文章
406

浏览量
35536
模型

模型

+关注

关注
1

文章
3229

浏览量
48813

原文标题：用多模态信息做 prompt，解锁 GPT 新玩法

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •151次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建多

发表于 12-03 15:18 •116次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •414次阅读

云知声山海多模态大模型UniGPT-mMed登顶MMMU测评榜首

近日，多模态人工智能模型基准评测集MMMU更新榜单，云知声山海多模态大模型UniGPT-mMed以通用能力、医疗专业能力双双排名第一的优异成绩登顶榜首，力压GPT-4V，充分彰显其硬核

发表于 10-12 14:09 •286次阅读

Meta发布多模态LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一项重要威廉希尔官方网站突破，成功推出了多模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息，还实现了对图像内容的精准理解，标志着Meta在AI

发表于 09-27 11:44 •399次阅读

云知声推出山海多模态大模型

在人工智能威廉希尔官方网站的浩瀚星海中，多模态交互威廉希尔官方网站正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大模型，正式宣告“Her时代

发表于 08-27 15:20 •387次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态

发表于 04-18 17:01 •593次阅读

AI机器人迎来多模态模型

配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息，还要快速完成理解、决策、行动等一系列动作，因此对于算力的需求是巨量的。

发表于 04-12 10:39 •277次阅读

谷歌推出多模态VLOGGER AI

谷歌最新推出的VLOGGER AI威廉希尔官方网站引起了广泛关注，这项创新的多模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容，VLOGGER AI就能让图片中的人物仿佛真的在朗读这段音频，面部表情丰富，栩栩如生。

发表于 03-22 10:45 •835次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •408次阅读

什么是多模态？多模态的难题是什么？

单模态大模型，通常大于100M～1B参数。具有较强的通用性，比如对图片中任意物体进行分割，或者生成任意内容的图片或声音。极大降低了场景的定制成本。

发表于 01-17 10:03 •4608次阅读

如何从训练集中生成候选prompt 三种生成候选prompt的方式

这个“gradient”怎么得到的了呢，这是个啥玩意，怎么还有梯度？注意，注意。人家是带引号的！比喻成梯度。这玩意有什么用呢。文章指出给定一批error samples（当前prompt无法

发表于 01-12 11:29 •1049次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频对齐以及语音检测。

发表于 12-28 11:45 •520次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •1263次阅读

语音识别威廉希尔官方网站最新进展：视听融合的多模态交互成为主要演进方向

电子发烧友网报道（文/李弯弯）所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。多模态交互威廉希尔官方网站是近年

发表于 12-28 09:06 •3862次阅读