大型语言模型在关键任务和实际应用中的挑战-电子发烧友网

大型语言模型的出现极大地推动了自然语言处理领域的进步，但同时也存在一些局限性，比如模型可能会产生看似合理但实际上是错误或虚假的内容，这一现象被称为幻觉（hallucination）。幻觉的存在使得大型语言模型在关键任务和实际应用中的可靠性受到挑战。

模型产生幻觉可能是由于模型缺乏或错误地理解了相关的知识。当人类思考和记忆事物时，本体知识在我们的思维过程中扮演着重要角色。本体知识涉及类别、属性以及它们之间的关系。它帮助我们理解世界、组织和分类信息，并且能够推导出新的知识。对于语言模型，我们可以通过设计探测任务，模型内部的隐含知识和学习偏差。

背景介绍

为了探索大模型在预训练阶段学习到的各类知识，研究者们通过设计探针任务来对这些模型进行测试。通过模型在这些任务上的表现，我们可以了解语言模型在不同方面的学习偏差、错误或限制，并尝试改进模型的性能和可靠性。然而，现有的知识探针主要研究模型对事实性知识的记忆，也就是描述具体事实、属性和关系的知识。比如，我们知道在《西游记》中“孙悟空三打白骨精”，这就是一条具体的事实性知识。

相比事实性知识，本体知识关注类和属性、以及它们之间的关系，能够描述概念之间的层级关系、属性约束等关联，为理解世界知识提供了一种结构化的方式。如下就是一个本体知识图谱，从“孙悟空三打白骨精”这样一条事实性知识，发散出了更多概念之间的关联，包括实例类型（type）、子类（subclass）、子属性（subproperty）、属性领域（domain）和属性范围（range）。

本体知识可以帮助模型更好地理解现实世界中的对象及其关系，在问答等许多 NLP 任务中起着至关重要的作用。因此，探究预训练语言模型是否记忆和理解本体知识，能够拓展学术界对语言模型认知能力的认识，在这个大模型快速发展的时代具有重要意义。

探针方法

我们研究了基于编码器的预训练语言模型 BERT 和 RoBERTa，以及基于解码器的大模型 ChatGPT。对于编码器结构模型，我们使用基于提示词（prompt）的探针方法，探究模型是否能够根据未被遮盖的上下文预测出正确的答案；而对于解码器结构模型，我们则将需要填空的提示词转化成多项选择题，探究模型是否能够给出正确的选择。2.1记忆任务

我们设计了五个记忆任务子测试，每个任务子测试都是为了探测预训练语言模型对于一种本体关系的记忆能力：

1. 给定实例的类型；

2. 给定类的上级类别；

3. 给定属性的上级属性；

4. 给定属性的领域约束；

5. 给定属性的范围约束。

对于 BERT 模型，我们使用人工提示和可训练的软提示（soft prompt）进行探针测试，为每种本体关系设计了如下提示词。模型基于对数概率预测，对候选词进行排序。

2.2推理任务

我们根据资源描述框架模式（Resource Description Framework Schema, RDFS）中规定的规则构建推理任务，每个推理子任务探索预训练语言模型按照一条三段论规则进行推理的能力。对于每个前提，我们区分模型输入中是否明确包含前提，并利用记忆任务的探针结果进一步区分这个前提是否被模型记忆，探究前提的不同形式对模型推理的影响。

为了防止模型通过对假设的记忆而非推理过程得出正确结论，我们使用生造词替换假设提示中包含的特定实例、类和属性。对于编码器结构的模型，我们通过创建没有特殊语义的词嵌入来获得预训练语言模型的生造词。

实验结果与发现

3.1记忆任务

通过对实验数据的分析，我们发现：BERT 和 RoBERTa 模型可以记忆一定的本体知识，但并不完美。

BERT和 RoBERTa 在记忆任务中击败了一个较强的频率基线模型。这表明，在预训练过程中，语言模型不仅学习了关于实体的事实性知识，而且学习了事实背后更加抽象的本体关系，这对于模型更好地组织对于世界的认识至关重要。然而，模型在五个子任务上的准确率还有很大提升空间，表明模型对本体知识记忆的局限性。

ChatGPT 相比于 BERT 模型，在记忆任务中准确率有了显著提升。

由于多项选择与填空的难度并不直接可比，我们将多项选择形式的提示词输入给 BERT-base-uncased 模型，并与 ChatGPT 进行比较。从下表可以看出，在大多数与本体知识相关的记忆任务中，ChatGPT 在准确性方面明显优于 BERT-base-uncased，展现出更强的本体知识记忆能力。

3.2推理任务

通过对实验数据的分析，我们发现：BERT 和 RoBERTa 模型对本体知识的理解也是比较有限的。

下图展示了对所有推理规则和 BERT 与 RoBERTa 模型取平均之后的推理表现。当输入文本中明确给出时，模型能够显著提高正确答案的排名。由于包含了需要预测的正确答案，这就使人怀疑表现的提升并非通过逻辑推理获得的，而是因为模型倾向于预测输入中出现的词及相关词汇。当前提被隐式给定时，MRR 高于前提末给定时。这意味着一定程度上，预训练语言模型可以利用编码的本体知识，选择正确的推理规则进行推理。但是，所有的前提组合都不能给出近乎完美（MRR 接近 1）的推理表现，说明预训练语言模型对本体知识的理解能力仍具有局限性。

ChatGPT 具有更强大的推理和理解本体知识的能力。

当模型输入或记忆中包含推理前提时，ChatGPT 在各项推理子任务中展现出了很高的准确性。同时，与 BERT-base-uncased 模型相比，ChatGPT 的显式推理能力也更加优秀（97.1% vs 88.2%）。

总结

在本研究中，我们对预训练语言模型是否能够在预训练过程中对本体知识进行有效编码以及是否能够深入理解语义内容进行了全面系统的探讨，发现语言模型确实具备一定的能力来记忆和理解本体知识，并且能够根据这些隐含的知识遵循本体知识推理规则进行一定程度的推理。然而，模型的记忆和推理都具有局限性。同时，ChatGPT 在两个任务上的亮眼表现证明了模型对本体知识的记忆和理解仍具有进一步提升的可能。

责任编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40725
数据

数据

+关注

关注
8

文章
7010

浏览量
88972
语言模型

语言模型

+关注

关注
0

文章
522

浏览量
10271
自然语言处理

自然语言处理

+关注

关注
1

文章
618

浏览量
13554
大模型

大模型

+关注

关注
2

文章
2436

浏览量
2662

原文标题：ACL 2023杰出论文 | 探测语言模型对本体知识的记忆与理解

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

探索高效的大型语言模型！大型语言模型的高效学习方法

在大型语言模型（LLMs）的应用中，提示工程（Prompt Engineering）是一种关键技

发表于 12-13 14:21 •596次阅读

探索高效的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>！<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的高效学习方法

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

处理中预训练架构Transformer，以及这些威廉希尔官方网站在现实世界中的如何应用。通过具体案例的分析，作者展示了大语言模型

发表于 04-30 15:35

【大语言模型：原理与工程实践】揭开大语言模型的面纱

化能力和适应性。在自然语言处理任务中，大语言模型展现出卓越的

发表于 05-04 23:55

【大语言模型：原理与工程实践】核心威廉希尔官方网站综述

的复杂模式和长距离依赖关系。预训练策略: 预训练是LLMs训练过程的第一阶段，模型在大量的文本数据上学习语言的通用表示。常用的预训练任务包括遮蔽

发表于 05-05 10:56

【大语言模型：原理与工程实践】大语言模型的基础威廉希尔官方网站

大语言模型基础威廉希尔官方网站 21随着Transformer结构在机器翻译领域取得巨大成功，研究人员开始探索其在其他自然语言处理任务

发表于 05-05 12:17

【大语言模型：原理与工程实践】大语言模型的预训练

函数，位置编码以及其他关键模块。这些模块和设计选型都是大语言模型在处理各种自然语言处理任务时的基

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的评测

任务、评测集构建标准和评测方式三个部分。特别地，为了关注大语言模型在中文场景的优化和应用，该框架特别注重中文特有语境下的能力考察。其贡献在于不仅能更准确地反映

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的应用

操作。所谓零样本提示（Zero-Shot Prompt），指的是在提示词中不包含与指令任务相似的任何示例。当大语言模型训练完成后，它便具

发表于 05-07 17:21

基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

。这一联合团队的研究指出，经过基因组学训练的大型语言模型（LLM）可将应用扩展到大量基因组学任务。该团队使用 NVIDIA 的超级计算机 Cambridge-1 来训练参数规模从

发表于 01-17 01:05 •708次阅读

大型语言模型有哪些用途？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下，可

发表于 02-23 19:50 •5184次阅读

大型语言模型有哪些用途？大型语言模型如何运作呢？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。

发表于 03-08 13:57 •8035次阅读

大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息

确实能学习和表示文本的意义。虽然大型预训练语言模型（LLM）在一系列下游任务中展现出飞速提升的

发表于 05-25 11:34 •717次阅读

大型语言模型的应用

该领域。在过去几年中，LLM 的规模每年增加 10 倍，而且随着这些模型的复杂程度和规模的增加，其性能也在不断发展。大型语言模型现在正在为

发表于 07-05 10:27 •2088次阅读

大语言模型推断中的批处理效应

随着开源预训练大型语言模型（Large Language Model, LLM ）变得更加强大和开放，越来越多的开发者将大语言模型纳入到他们

发表于 01-04 12:32 •632次阅读

FP8数据格式在大型模型训练中的应用

本文主要介绍了 FP8 数据格式在大型模型训练中的应用、挑战及最佳实践，展示了 FP8 在提升训练速度和效率方面的潜力和

发表于 11-19 14:54 •254次阅读

搜索历史

大型语言模型在关键任务和实际应用中的挑战

评论

探索高效的大型语言模型！大型语言模型的高效学习方法

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

【大语言模型：原理与工程实践】揭开大语言模型的面纱

【大语言模型：原理与工程实践】核心威廉希尔官方网站综述

【大语言模型：原理与工程实践】大语言模型的基础威廉希尔官方网站

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】大语言模型的应用

基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

大型语言模型有哪些用途？

大型语言模型有哪些用途？大型语言模型如何运作呢？

大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息

大型语言模型的应用

大语言模型推断中的批处理效应

FP8数据格式在大型模型训练中的应用