史上最强通用NLP模型诞生-电子发烧友网

OpenAI今天在官博上介绍了他们的新NLP模型，刷新了7大数据集的SOTA(当前最佳结果)，并且能够在不进行任何与领域知识相关数据训练的情况下，直接跨任务执行最基础的阅读理解、机器翻译、问答和文本总结等不同NLP任务。

无需预训练就能完成多种不同任务且取得良好结果，相当于克服了“灾难性遗忘”，简直可谓深度学习研究者梦寐以求的“通用”模型！

如果说谷歌的BERT代表NLP迈入了一个预训练模型的新时代，OpenAI便用这一成果证明，只要拥有超凡的数据量和计算力，就能实现以往无法想象的事情。

例如计算力，根据参与OpenAI强化学习研究的Smertiy透露，新模型使用了256块谷歌TPU v3(没有公布具体的训练时间)，训练价格每小时2048美元。

史上最强“通用”NLP模型：15亿参数驰骋40GB网络数据

OpenAI的这个NLP模型基于Transformer，拥有15亿参数，使用含有800万网页内容的数据集训练，只为一个目的：

根据当前已有的信息，预测下一个单词是什么。

新模型的名字叫GPT-2，是OpenAI去年发布的无监督NLP模型GPT的直接拓展，新模型用到的参数和训练数据，都增长了超过10个数量级。

由于模型容量足够大，并且训练数据足够多，GPT-2在拥有40GB网络数据的测试集上，仅是简单“预测下一个单词是什么”，就足以完成各种不同的NLP任务，展示出了强大的泛化能力。

当前，构建机器学习系统的主流方法是监督学习——收集数据，也即喂给模型一套“理想的”输入和输出组合，让模型模仿“套路”，在新的测试数据集上也给出类似的结果。这种方法在特定领域任务上表现很好，但缺点是一旦改为其他任务，比如将在问答数据集上表现很好的模型用到阅读理解上，模型就无法适应，也即泛化能力很差。

对此，OpenAI的研究人员大胆推测：当前机器学习系统泛化能力差的原因，恰恰是因为让模型局限在特定领域的数据集上做特定任务的训练。

同时，现有的多任务模型研究证明，单纯依靠训练样本的增加，难以实现有效的任务扩展；NLP研究人员正越来越多地使用自注意力模块迁移学习来构建多任务学习模型。

于是，OpenAI的研究人员结合上述两种思路，在更通用的数据集基础上，使用自注意力模块迁移学习，然后得到了一个无需调整任何参与或模型结构，在 zero-shot 情况下能够执行多项不同NLP任务的模型，也即上文所说的GPT-2。

有鉴于其强大的能力和可能被滥用的危险，OpenAI并没有公布GPT-2模型及代码，只公布了一个仅含117M参数的样本模型及代码，供有兴趣的研究人员学习和参考：https://github.com/openai/gpt-2

当然，GPT-2的具体模型结构OpenAI这次也没有详述，他们预留了半年的时间向学界征集意见。在公布的论文“Language Models are Unsupervised Multitask Learners”中，OpenAI的研究人员介绍了模型构建的思路和方法。

至于具体的计算力，论文中没有提及，根据上文Twitter上的数据，他们的模型使用了256个谷歌云TPU v3，尽管没有公布训练时间。TPU v3在Google之外只提供单独使用版本(尽管OpenAI可能得到了特别的许可)，这意味着他们要支付8 * 256 = 2048美元/小时。

无需预训练，8个数据集7个刷新当前最佳纪录

我们对四个语言模型进行了训练和基准测试，它们的大小如下表所示：

4个模型大小的架构和超参数

其中，最小的模型等价于原始的GPT，次小的等价于最大的BERT模型。我们的最大模型是GPT-2，它的参数比GPT多一个数量级。

GPT-2在各种领域特定的语言建模任务上取得了state-of-the-art 的成绩。我们的模型没有针对任何特定于这些任务的数据进行训练，只是作为最终测试对它们进行了评估；这就是被称为“zero-shot”的设置。

当在相同的数据集上进行评估时，GPT-2比在特定领域数据集(如Wikipedia、新闻、书籍)上训练的模型表现更好。

下表显示了我们所有最先进的zero-shot结果。

(+)表示该项分数越高越好。(-)表示分数越低越好。

GPT-2在这些数据集中均获得SOTA结果

GPT-2在Winograd Schema、LAMBADA以及其他语言建模任务上实现了state-of-the-art 的结果。

在各数据集上，四种不同参数大小模型的Zero-shot结果。

可以看到，WebText LMs可以很好地跨域和数据集传输，在zero-shot设置下将8个数据集中的7个的state of the art结果进一步提升了。

在Penn Treebank和WikiText-2等只有100万到200万个训练token的小型数据集上，可以看到改进很大。在用于测量长期依赖关系的数据集上，如LAMBADA和the Children’s Book Test，也有很大的改进。

我们的模型在One Billion Word Benchmark上仍然明显比之前的工作要差。这可能是由于它既是最大的数据集，又有一些最具破坏性的预处理——1BW的句子级变换消除了所有的远程结构。

其他任务：问答、阅读理解、摘要总结和翻译

在其他语言任务，如问题回答、阅读理解、摘要总结和翻译，我们在没有对模型进行任何微调的情况下获得了极好的结果，只需要以正确的方式提示训练模型（下面的例子展示了具体做法和结果），但在这些任务还达不到专业系统的SOTA水平。

1、阅读理解：回答关于给定段落的问题

数据集：CoQA

示例

The 2008 Summer Olympics torch relay was run from March 24 until August 8, 2008, prior to the 2008 Summer Olympics, with the theme of “one world, one dream”. Plans for the relay were announced on April 26, 2007, in Beijing, China. The relay, also called by the organizers as the “Journey of Harmony”, lasted 129 days and carried the torch 137,000 km (85,000 mi) – the longest distance of any Olympic torch relay since the tradition was started ahead of the 1936 Summer Olympics.

After being lit at the birthplace of the Olympic Games in Olympia, Greece on March 24, the torch traveled to the Panathinaiko Stadium in Athens, and then to Beijing, arriving on March 31. From Beijing, the torch was following a route passing through six continents. The torch has visited cities along the Silk Road, symbolizing ancient links between China and the rest of the world. The relay also included an ascent with the flame to the top of *** on the border of Nepal and Tibet, China from the Chinese side, which was closed specially for the event.

Q: What was the theme?A: “one world, one dream”.

Q: What was the length of the race?A: 137,000 km

Q: Was it larger than previous ones?A: No

Q: Where did the race begin?A: Olympia, Greece

Q: Is there anything notable about that place?A: birthplace of Olympic Games

Q: Where did they go after?A: Athens

Q: How many days was the race?A: seven

Q: Did they visit any notable landmarks?A: Panathinaiko Stadium

Q: And did they climb any mountains?

Target answers:unknownoryesModel answer:Everest

性能表现：

在阅读理解任务中，GPT-2比DrQA+PGNet要差，也远低于人类水平

2、常识推理：解决含义模糊的代词

数据集：Winograd Schema Challenge

示例

The trophy doesn’t fit into the brown suitcase because it is too large.

Correct answer:it = trophyModel answer:it = trophy

The trophy doesn’t fit into the brown suitcase because it is too small.

Correct answer:it = suitcaseModel answer:it = suitcase

性能表现

在常识推理任务中，GPT-2优于SOTA

3、问题回答

数据集：Natural Questions

示例

Who wrote the book the origin of species?

Correct answer:Charles DarwinModel answer:Charles Darwin

What is the largest state in the U.S. by land mass?

Correct answer:AlaskaModel answer:California

性能表现：

在问答任务中，GPT-2的表现远低于BERT

4、广义语境的语言建模：预测一段文字的最后一个词

数据集：LAMBADA

示例

Both its sun-speckled shade and the cool grass beneath were a welcome respite after the stifling kitchen, and I was glad to relax against the tree’s rough, brittle bark and begin my breakfast of buttery, toasted bread and fresh fruit. Even the water was tasty, it was so clean and cold. It almost made up for the lack of…

Correct answer:coffeeModel answer:food

性能表现

在广义语境的语言建模任务中，GPT-2比SOTA的模型表现更好

5、写摘要：对新闻文章进行总结

数据集：CNN和每日邮报数据集

示例文本：

Prehistoric man sketched an incredible array of prehistoric beasts on the rough limestone walls of a cave in modern day France 36,000 years ago.

Now, with the help of cutting-edge technology, those works of art in the Chauvet-Pont-d’Arc Cave have been reproduced to create the biggest replica cave in the world.

…

参考摘要：

Cave mimics famous Caverne du Pont-d’Arc in France, the oldest cave decorated by man and the best preserved. The replica contains all 1,000 paintings which include 425 such as a woolly rhinoceros and mammoths. Minute details were copied using 3D modelling and anamorphic techniques, often used to shoot widescreen images. The modern cave also includes replica paw prints of bears, bones and details preserved in the original cave.

机器编写的摘要:

The original site in Vallon-Pont-D’arc in Southern France is a Unesco World Heritage site and is the oldest known and the best preserved cave decorated by man. The replica cave was built a few miles from the original site in Vallon-Pont-D’Arc in Southern France. The cave contains images of 14 different species of animals including woolly rhinoceros, mammoths, and big cats.

性能表现

在摘要任务中，GPT-2的表现不如专门的系统

6、机器翻译：把法语句子翻译成英语

数据集：WMT-14 Fr-En

示例

法语句子：

Un homme a expliqué que l’opération gratuite qu’il avait subie pour soigner une hernie lui permettrait de travailler à nouveau.

参考翻译：

One man explained that the free hernia surgery he’d received will allow him to work again.

模型的翻译

A man told me that the operation gratuity he had been promised would not allow him to travel.

性能表现

在法语-英语机器翻译任务中，GPT-2的表现不如专门的系统

我们认为，由于这些任务是通用语言建模的子集，我们可以预期随着计算力和数据量的增加，性能会进一步提高。其他研究人员也发表了类似的假设。我们还期望通过微调来提高下游任务的性能，尽管这需要进行彻底的实验。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121118
nlp

nlp

+关注

关注
1

文章
488

浏览量
22033

原文标题：15亿参数！史上最强通用NLP模型诞生：狂揽7大数据集最佳纪录

文章出处：【微信号：gh_ecbcc3b6eabf，微信公众号：人工智能和机器人研究院】欢迎添加关注！文章转载请注明出处。

余承东称史上最强大的Mate11月见

对于华为的下一代旗舰手机Mate70的关注一直没有减少，对于“纯血鸿蒙”的期待一直很高，11月4日，华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东在微博上发文透露一个重要时间点：史上最强大的Mate，11月见。

发表于 11-04 11:23 •268次阅读

AMD官方确认:Strix Halo命名,史上最强APU诞生

10月18日资讯，随着代号为Strix Point的锐龙AI 300系列的面世，市场对更高阶的Strix Halo充满了期待，尤其是其GPU性能据称将达到前所未有的高度，甚至有传言称可与移动版RTX 4070相媲美（此点尚存争议），预示着未来许多游戏本或许将不再需要独立显卡。据悉，这款备受瞩目的产品预计将于明年初的CES 2025展会上正式亮相。

发表于 10-22 11:29 •551次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一威廉希尔官方网站发展的关键步骤，它通过在海量无标签数据上进行训练，使模型学习到语言的通用知识，为后续的任务微调奠定基础。本文将深入探讨大

发表于 07-11 10:11 •423次阅读

nlp逻辑层次模型的特点

NLP（自然语言处理）逻辑层次模型是一种用于理解和生成自然语言文本的计算模型。它将自然语言文本分解为不同的层次，以便于计算机更好地处理和理解。以下是对NLP逻辑层次

发表于 07-09 10:39 •377次阅读

nlp神经语言和NLP自然语言的区别和联系

神经语言（Neuro-Linguistic Programming，NLP）神经语言是一种心理学方法，它研究人类思维、语言和行为之间的关系。NLP的核心理念是，我们可以通过改变我们的思维方式和语言

发表于 07-09 10:35 •768次阅读

nlp自然语言处理基本概念及关键威廉希尔官方网站

、问答系统、文本摘要等众多领域有着广泛的应用。 1. NLP的基本概念 1.1 语言模型语言模型是NLP的基础，它用于描述一个句子在自然语言中出现的概率。语言

发表于 07-09 10:32 •576次阅读

llm模型有哪些格式

LLM（Large Language Model，大型语言模型）是一种深度学习模型，主要用于处理自然语言处理（NLP）任务。LLM模型的格式多种多样，以下是一些常见的LLM

发表于 07-09 09:59 •599次阅读

nlp自然语言处理模型怎么做

的进展。本文将详细介绍NLP模型的构建过程，包括数据预处理、模型选择、训练与优化等方面。数据预处理数据预处理是NLP模型构建的第一步，其

发表于 07-05 09:59 •624次阅读

nlp自然语言处理模型有哪些

自然语言处理（Natural Language Processing，NLP）是计算机科学和人工智能领域的一个重要分支，旨在使计算机能够理解、解释和生成人类语言。以下是对NLP领域一些模型的介绍

发表于 07-05 09:57 •713次阅读

NLP模型中RNN与CNN的选择

在自然语言处理（NLP）领域，循环神经网络（RNN）与卷积神经网络（CNN）是两种极为重要且广泛应用的网络结构。它们各自具有独特的优势，适用于处理不同类型的NLP任务。本文旨在深入探讨RNN与CNN

发表于 07-03 15:59 •512次阅读

海信发布电视行业最强中文大模型，开启电视AI新时代

3月15日，“海信视像 AI美好生活”全场景显示新品发布会上，海信正式发布了自研星海大模型，这也是目前电视行业最强中文大模型。

发表于 03-18 14:24 •363次阅读

张宏江深度解析：大模型威廉希尔官方网站发展的八大观察点

在大模型的发展史上，Scaling Law（规模律）发挥了核心作用，它是推动模型性能持续提升的主要动力。Scaling Law揭示了这样一个现象：较小的语言模型只能解决自然语言处理（

发表于 03-14 10:41 •234次阅读

张宏江深度解析：大<b class='flag-5'>模型</b>威廉希尔官方网站
发展的八大观察点

全球最强大模型易主，GPT-4被超越

近日，AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，其中包括最强版Claude 3 Opus。据该公司称，Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面超越了包括GPT-4在内的所有大型模

发表于 03-05 09:58 •649次阅读

新火种AI|谷歌深夜炸弹！史上最强开源模型Gemma，打响新一轮AI之战

作者：文子编辑：小迪谷歌，2024年卷出新高度。全球最强开源模型，Gemma重燃战局短短12天连放三次大招，谷歌AI更新迭代之快，让人始料未及。当地时间2月21日，谷歌毫无预兆地发布号称

发表于 02-23 10:21 •361次阅读

谷歌发布全球最强开源大模型Gemma

谷歌近日宣布，其全新开源大模型Gemma正式亮相。Gemma被誉为全球性能最强大、同时也是最轻量级的模型系列，分为2B（20亿参数）和7B（70亿）两种尺寸版本。令人瞩目的是，即便是2B版本，也能够在笔记本电脑上流畅运行。

发表于 02-22 14:51 •795次阅读

搜索历史

史上最强通用NLP模型诞生

评论

余承东称史上最强大的Mate11月见

AMD官方确认:Strix Halo命名,史上最强APU诞生

大语言模型的预训练

nlp逻辑层次模型的特点

nlp神经语言和NLP自然语言的区别和联系

nlp自然语言处理基本概念及关键威廉希尔官方网站

llm模型有哪些格式

nlp自然语言处理模型怎么做

nlp自然语言处理模型有哪些

NLP模型中RNN与CNN的选择

海信发布电视行业最强中文大模型，开启电视AI新时代

张宏江深度解析：大模型威廉希尔官方网站发展的八大观察点

全球最强大模型易主，GPT-4被超越

新火种AI|谷歌深夜炸弹！史上最强开源模型Gemma，打响新一轮AI之战

谷歌发布全球最强开源大模型Gemma