IBM发布最新AI模型,帮视障者“看”到更多-电子发烧友网

在IBM最新的论文中，研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明，图片的文字说明取得了“良好”的性能，未来可以为强大的新计算机视觉系统奠定了基础。

无论是报社、杂志社还是新媒体，编辑们最不愿意干得事情就是为图片搭配文字说明。事实上这项工作必要且重要但实际操作上又非常枯燥。

不过，一个振奋人心的消息是，AI可能很快就能处理大部分工作。6月18日在加州长滩举行的2019年计算机视觉和模式识别会议(CVPR)上，Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu发表了一篇论文《改进图像说明的对抗性语义对齐》，提出了一种能够自主制作多样化、创造性和符合人类语境的图片文字说明的模型。

在论文中，他们将图像说明作为一种有条件的GAN（生成式对抗网络）训练进行研究，提出了一种上下文感知的LSTM字幕器和共同注意鉴别器，它们加强了图像和字幕之间的语义对齐。

研究人员根据经验着重研究了SCST和ST两种训练方法的可行性。他们发现即使没有直接访问鉴别器梯度，SCST也比ST显示出更稳定的梯度行为和更好的结果。进而还解决了对这些模型进行自动评估的开放性问题，引入了一个新的语义评分，并证明了它与人类判断的强相关性。

作为评估范例，一个重要的标准是生成器能够概括出平常不会一起出现的对象之间的组合关系。为此研究人员引入了一个小标题能脱离上下文（OOC）测试集。OOC与常规语义评分相结合，为图片搭配说明文字得体系提出了新基准。当面向OOC和MS-COCO进行测试时，可以发现基于SCST的训练在语义评分和人类评估方面都有很强的表现，有望成为高效离散GAN训练的一种有价值的新方法。

目前，构建系统需要解决自动说明文字系统的一个主要缺点：顺序语言生成导致语法正确—但同质、非自然和语义不相关的结构。

研究者的方法是通过一个注意力文字说明模型来解决这个问题，模型使用它正在观察的照片中的场景片段来造句。在每一个生成步骤中，团队的AI都可以选择关注最后一步的视觉或文本提示。

为了确保生成的文字说明听起来不太机械化，研究团队在训练时使用了生成对抗网络(GANs)——由生成样本的生成器和试图区分生成样本和现实世界样本的鉴别器组成的两部分神经网络。共同注意鉴别器通过一个在像素级匹配场景和生成单词的模型对新句子的“自然度”进行评分，使文字说明者能够通过图像和句子成对来进行合成。

文字说明系统中的另一个常见问题是，如何避免训练数据集的偏差，即经常遭受过度拟合(特定数据集过于接近的分析)就需要构建诊断工具，否则并不适合推广到学习对象(“床和卧室”)出现在看不见的环境(“床和森林”)中的场景。为此，研究人员提出了一种标题图像的测试语料库，其设计方式使得不良模型性能表明过度拟合。

在实验中，Amazon's Mechanical Turk评估人员负责识别AI模型生成的文字说明，并判断每句话对相应图像的描述程度，给出几个真实的和合成的样本，研究人员表示，他们的文字说明总体上取得了“良好”的性能。他们相信他们的工作为强大的新计算机视觉系统奠定了基础，并打算在未来的工作中继续探索这些系统。另外，衔接语言和视觉语义的鸿沟表明需要将常识和推理融入场景理解中。

未来，图像文字说明的自动生成和场景理解的进步，使AI系统可以作为视觉障碍者的助理改善他们的日常生活。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

IBM

IBM

+关注

关注
3

文章
1759

浏览量
74731
AI

AI

+关注

关注
87

文章
31077

浏览量
269410

原文标题：IBM发布最新AI模型，帮视障者“看”到更多

文章出处：【微信号：Aiobservation，微信公众号：人工智能观察】欢迎添加关注！文章转载请注明出处。

IBM推出高性能AI模型Granite 3.0

在近日举行的IBM年度TechXchange大会上，IBM正式推出了其最先进的AI模型家族——Granite 3.0。这款旗舰级语言模型代表

发表于 10-28 17:39 •469次阅读

IBM发布Granite 3.0 AI模型家族

IBM在近日举行的年度TechXchange大会上，正式推出了其迄今为止最先进的AI模型家族——Granite 3.0。这一系列的发布标志着IBM

发表于 10-23 17:09 •449次阅读

IBM发布面向企业的人工智能模型新版本

近日，IBM正式发布了其面向企业的人工智能模型——Granite 3.0的最新版本，旨在抓住当前企业纷纷拥抱生成式AI威廉希尔官方网站的热潮。与IBM

发表于 10-22 17:32 •470次阅读

IBM Granite系列模型被Forrester评为“强劲表现者”

近日，IBM 凭借其旗舰 Granite 系列模型，在 2024年第二季度的《Forrester Wave：语言 AI 基础模型》报告中，被评为“强劲表现

发表于 08-16 11:34 •485次阅读

智行者——视听障碍者出行辅助AI小车设计

摘要据统计，我国视障人数达1731万人，听力残疾患者2780万人。视听障碍者对出行和交流需求迫切，但现有设施和辅具局限性大，使他们面临出行难题。因此，我们开发了一款安全、精准、语音与手部交互的导航避

发表于 07-19 08:11 •694次阅读

腾云驭智出海时看IBM如何用1%的数据让你与众不同

——IBM混合云与AI为中国企业出海提供有力支持之系列报道（三）北京2024年6月24日 /美通社/ -- IBM日前在北京举行媒体会，从IBM的战略、定位、实践，

发表于 06-24 17:34 •465次阅读

2024 TUYA全球开发者大会盛大启幕，Cube AI大模型重磅首发！

2024TUYA全球开发者大会上，重磅推出AI大模型、AI开发工具、AI小程序开发基座等重量级产品，让A

发表于 05-31 08:15 •374次阅读

2024 TUYA全球开发者大会盛大启幕，Cube AI大模型重磅首发！

2024 TUYA全球开发者大会上，重磅推出AI大模型、AI开发工具、AI小程序开发基座等重量级产品，让

发表于 05-30 09:13 •234次阅读

IBM开源AI模型，推动AI企业化应用

IBM近日宣布，将把一系列先进的人工智能模型以开源软件的形式发布，此举标志着人工智能威廉希尔官方网站在企业应用上的新篇章。公司表示，随着watsonx平台推出满一年，该平台将迎来重大更新，新增的数据和自动化功能将使企业能够更轻松地集成和部署

发表于 05-22 09:25 •498次阅读

红帽发布RHEL AI开发者预览版，集成IBM Granite模型，简化AI开发流程

RHEL AI依托InstructLab开源项目，结合IBM Research的开源授权Granite大型语言模型与InstructLab模型对齐工具，采用LAB（Large-scal

发表于 05-08 15:01 •500次阅读

开发者手机 AI - 目标识别 demo

功能简介该应用是在Openharmony 4.0系统上开发的一个目标识别的AI应用，旨在从上到下打通Openharmony AI子系统，展示Openharmony系统的AI能力，并为开发者

发表于 04-11 16:14

使用CUBEAI部署tflite模型到STM32F0中，模型创建失败怎么解决？

看到CUBE_AI已经支持到STM32F0系列芯片，就想拿来入门嵌入式AI。生成的模型很小，是可以部署到F0上的，但是一直无法创建成功。

发表于 03-15 08:10

IBM在watsonx上提供开源的Mistral AI模型

IBM 提供 Mixtral-8x7B 的优化版本，该版本可将延迟时间最多缩短 75% IBM、第三方和开源模型的目录不断增加，为客户提供更多选择和灵活性是 watsonx 人工智能

发表于 03-12 19:10 •1344次阅读

谷歌发布开源AI大模型Gemma

近日，谷歌发布了全新AI大模型Gemma，这款模型为各种规模的组织提供了前所未有的机会，以负责任的方式在商业应用中进行分发。

发表于 02-28 17:38 •859次阅读

猎户星空发布强大AI大模型

近日，猎户星空在2024·傅盛的开年AI大课暨猎户星空企业应用大模型发布会上，正式发布了其最新研发的大模型。这个大

发表于 01-22 14:31 •715次阅读