OpenAI重磅推出语言模型DALL·E和图像识别系统CLIP-电子发烧友网

人工智能（AI）研究组织OpenAI重磅推出了最新的语言模型DALL·E和图像识别系统CLIP。

这两个模型是OpenAI第三代语言生成器的一个分支。两种神经网络都旨在生成能够理解图像和相关文本的模型。OpenAI希望这些升级后的语言模型能够以接近人类解释世界的方式来解读图像。

2020年5月，OpenAI发布了迄今为止全球规模最大的预训练语言模型GPT-3。GPT-3具有1750亿参数，训练所用的数据量达到45TB。对于所有任务，应用GPT-3无需进行任何梯度更新或微调，仅需要与模型文本交互为其指定任务和展示少量演示即可使其完成任务。

GPT-3在许多自然语言处理数据集上均具有出色的性能，包括翻译、问答和文本填空任务，还包括一些需要即时推理或领域适应的任务等，已在很多实际任务上大幅接近人类水平。

新发布的语言模型DALL·E，是GPT-3的120亿参数版本，可以按照自然语言文字描述直接生成对应图片！

这个新系统的名称DALL·E，来源于艺术家萨尔瓦多·达利（Salvad or Dali）和皮克斯的机器人英雄瓦力（WALL-E）的结合。新系统展示了“为一系列广泛的概念”创造图像的能力，可从文字标题直接创建图像以表达概念。通过从文本描述而不是标签数据生成图像，可以为模型提供了更多有关含义的上下文。

开发人员将DALL·E称为“转换语言模型”（transformer language model），能够将文本和图像作为单个数据流接收。这种训练程序使得DALL·E不仅可以从零开始生成图像，而且还可以重新生成现有图像的任何矩形区域……。以一种与文本提示一致的方式。

这种语言模型能够反映人类语言的微妙之处，包括 “将不同的想法结合起来合成物体的能力”。例如，在DALL·E模型中输入“牛油果形状的扶手椅”，它就可以生成这样的图片：

DALL·E还扩展了被称为“零样本推理”（zero-shotreasoning）的GPT-3功能，这是一种强大的常识性机器学习形式。DALL·E将这一功能扩展到了视觉领域，并且在以正确的方式提示时能够执行多种图像到图像的翻译任务。

图像识别系统CLIP的通用性比当前针对单个任务的系统更好，可以用网上公开的文字图像配对数据集来训练。CLIP系统可用于对比语言-图像预训练，通过从网络图像中收集的自然语言监督学习视觉概念。OpenAI表示CLIP的工作方式是提供要识别的视觉类别的名称。

当将其应用于图像分类基准时，可以指示模型执行一系列基准，而无需针对每个测试进行优化。OpenAI表示：“通过不直接针对基准进行优化，我们证明它变得更具代表性。” CLIP方法可将“稳健性差距”缩小多达75％。

OpenAI 联合创始人、首席科学家 Ilya Sutskever认为，人工智能的长期目标是构建多模态神经网络，即AI能够学习不同模态之间的概念（文本和视觉领域为主），从而更好地理解世界，而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

未来，我们将拥有同时理解文本和图像的模型。人工智能将能够更好地理解语言，因为它可以看到单词和句子的含义。
编辑：hfy

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100777
图像识别

图像识别

+关注

关注
9

文章
520

浏览量
38273
人工智能

人工智能

+关注

关注
1791

文章
47282

浏览量
238526
Clip

Clip

+关注

关注
0

文章
31

浏览量
6667
OpenAI

OpenAI

+关注

关注
9

文章
1089

浏览量
6525

AI图像识别摄像机

？AI图像识别摄像机是一种集成了先进算法和深度学习模型的智能监控设备。这些摄像机不仅能够捕捉视频画面，还能实时分析和处理所拍摄的内容，从而实现对特定对象、场景或行

发表于 11-08 10:38 •245次阅读

AI大模型在图像识别中的优势

AI大模型在图像识别中展现出了显著的优势，这些优势主要源于其强大的计算能力、深度学习算法以及大规模的数据处理能力。以下是对AI大模型在图像识别中优势的介绍：一、高效性与准确性处理速

发表于 10-23 15:01 •669次阅读

图像识别算法都有哪些方法

图像识别算法是计算机视觉领域的核心任务之一，它涉及到从图像中提取特征并进行分类、识别和分析的过程。随着深度学习威廉希尔官方网站的不断发展，图像识别算法已经取得了显著的进展。本文将介绍

发表于 07-16 11:14 •5584次阅读

图像识别算法的提升有哪些

方法。数据增强数据增强是提高图像识别算法性能的一种有效方法。通过对训练数据进行变换和扩展，可以增加数据的多样性，提高模型的泛化能力。常见的数据增强方法包括： 2.1 旋转、缩放、平移和翻转通过对图像进行旋转、缩放

发表于 07-16 11:12 •660次阅读

图像识别算法的优缺点有哪些

图像识别算法是一种利用计算机视觉威廉希尔官方网站对图像进行分析和理解的方法，它在许多领域都有广泛的应用，如自动驾驶、医疗诊断、安全监控等。然而，图像识别算法也存在一些优缺点。一、图像识别算法的优

发表于 07-16 11:09 •1643次阅读

图像识别威廉希尔官方网站包括自然语言处理吗

计算机视觉威廉希尔官方网站对图像进行处理、分析和理解，从而实现对图像中的目标、场景、行为等信息的识别和理解。图像识别威廉希尔官方网站包括图像预处理、特征提取、分类器

发表于 07-16 10:54 •839次阅读

图像识别威廉希尔官方网站的原理是什么

图像识别威廉希尔官方网站是一种利用计算机视觉和机器学习威廉希尔官方网站对图像进行分析和理解的威廉希尔官方网站。它可以帮助计算机识别和理解图像中的对象、场景和活动。图像预处理

发表于 07-16 10:46 •1026次阅读

图像识别属于人工智能吗

属于。图像识别是人工智能（Artificial Intelligence, AI）领域的一个重要分支。一、图像识别概述 1.1 定义 图像识别是指利用计算机威廉希尔官方网站对图像中的内容进行分析

发表于 07-16 10:44 •1133次阅读

如何利用CNN实现图像识别

卷积神经网络（CNN）是深度学习领域中一种特别适用于图像识别任务的神经网络结构。它通过模拟人类视觉系统的处理方式，利用卷积、池化等操作，自动提取图像中的特征，进而实现高效的图像识别。本

发表于 07-03 16:16 •1387次阅读

爱芯元智推出边端侧智能SoCAX650N，让视觉更智能

当前大模型蓬勃发展，OpenAI的Sora、ChatGPT、CLIP、DALL-E，Google的Gemini、ViT-22B，Meta的LLaMA3、DINO v2，

发表于 05-09 14:39 •1587次阅读

爱芯元智<b class='flag-5'>推出</b>边端侧智能SoCAX650N，让视觉更智能

OpenAI推出专用的AI检测工具

OpenAI最近推出了一款全新的AI检测工具，这款工具专门针对由DALL·E 3模型生成的图片。令人印象深刻的是，该工具能够精准

发表于 05-09 10:01 •526次阅读

微软封禁员工讨论OpenAI DALL-E 3模型漏洞

琼斯去年底在进行自主研究时，发现OpenAI的图像生成模型DALL-E 3存在一个漏洞，漏洞利用者可以越过AI保护墙来制作色情内容。他将此情况报告给微软和

发表于 02-02 14:38 •580次阅读

图像识别威廉希尔官方网站原理图像识别威廉希尔官方网站的应用领域

图像识别威廉希尔官方网站是一种通过计算机对图像进行分析和理解的威廉希尔官方网站。它借助计算机视觉、模式识别、人工智能等相关威廉希尔官方网站，通过对图像进行特征提取和匹配，找出图像

发表于 02-02 11:01 •2464次阅读

基于TensorFlow和Keras的图像识别

TensorFlow和Keras最常见的用途之一是图像识别/分类。通过本文，您将了解如何使用Keras达到这一目的。定义如果您不了解图像识别的基本概念，将很难完全理解本文的内容。因此在正文开始之前

发表于 01-13 08:27 •827次阅读

如何使用Python进行图像识别的自动学习自动训练？

图像识别的自动学习和自动训练。首先，让我们了解一下图像识别的基本概念。图像识别是指通过计算机程序识别和理解图像内容的过程。自动学习和自动训

发表于 01-12 16:06 •593次阅读

搜索历史

OpenAI重磅推出语言模型DALL·E和图像识别系统CLIP

评论