0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种处理多标签文本分类的新颖推理机制

深度学习自然语言处理 来源:南大NLP 作者:南大NLP 2021-02-05 09:21 次阅读

研究动机

标签文本分类(multi-label text classification, 简称MLTC)的目的是在给定文本后要求模型预测其多个非互斥的相关标签。该任务在许多自然语言处理任务上都有体现。如在表1中,需要给该文档打上标签:basketball、NBA、sport。

表1多标签文本分类的例子

文本 This article is about a game between Houston Rockets and Los Angeles Lakers.
相关标签 basketball, NBA, sport
不相关标签 football

一种处理MLTC的简单方法是将其转换为多个独立的二分类问题。该方法被称为BinaryRelevance (BR),由于其简单性而被大规模使用。但该方法的弊端也十分明显,即该方法完全忽略了标签之间的相关信息。直觉上,知道一些标签——如上例中的basketball及NBA——会使得预测其他标签(如sport)更加简单。研究者指出对于多标签分类任务而言,有效利用标签之间的相关性是有益的、甚至是必要的。为此,涌现出许多利用标签关系的算法,其中最知名的就是算法Classifier Chains(CC)。该算法将多个二分类器串联起来,其中每个分类器使用之前分类器的预测结果作为额外的输入。该方法将潜在的标签依赖纳入考虑,但该问题的最大缺陷在于不同的标签顺序会产生天壤之别的性能。同时,CC算法的链式结构使得算法无法并行,在处理大规模数据集时效率低下。

近年来,也有学者将标签集合视作标签序列,并使用基于神经网络的端到端模型(seq2seq)来处理该任务。相较于CC预测所有标签,这类seq2seq的模型只预测相关标签。因此该类模型的决策链条长度更短,性能更优。但这类模型的性能强烈依赖于标签的顺序。在多标签数据集中,标签本质上是无序的集合,未必可以线性排列。学者们指出不同的标签顺序对于学习和预测有着重大影响。举例来说,对于表1中的例子,如果标签序列以sport开始,则对于预测其他相关标签的帮助不大。

02

解决方案

为了处理上述问题,我们提出了Multi-Label Reasoner(ML-Reasoner),一个基于推理机制的算法。ML-Reasoner的框架如图1所示,我们为每一个标签分配一个二分类器,它们同时预测所有标签以满足标签的无序性质。这样的话,ML-Reasoner可以同时计算每一个标签相关的概率。例如在处理上例时,ML-Reasoner可能认为标签NBA相关的概率为0.9,basketball的为0.7,sport为0.55,football为0.3.这样,ML-Reasoner就完全避免依赖标签顺序。同时为了有效利用标签的相关性,我们设置了一种新颖的迭代推理机制,即将上一轮对所有标签相关的预测作为下一次迭代的额外特征输入。这种方法使得ML-Reasoner可以在每一轮的迭代中完善预测结果。举例来说,考虑到标签NBA与basketball相关的概率较高,模型可以在后续迭代中,将标签sport的概率调高。

274e6dc8-603e-11eb-8b86-12bb97331649.png

图1 Multi-Label Reasoner整体框架图

具体到Reasoner的实现,我们将其划分为五个组件,其相关交互关系见图2。

2a98ed0a-603e-11eb-8b86-12bb97331649.png

图2多标签文本分类的Reasoner模块

- Text Encoder将词语序列转换为稠密的向量表示,主要负责抽取文本特征;

- Label Encoder将上一轮次所有标签的相关概率转换为相应的标签表示;

- Attention模块负责计算文本与不同标签之间的相关性;

- Combiner则将文本的原始特征与标签特征进行整合;

- 具有相同结构但不同参数的Classifier则预测各个标签的相关性。

至于损失函数,我们选择了Binary Cross Entropy (BCE)。更具体的设置请参见原文。

03

实验

我们在两个常用的多标签文本分类数据集Arxiv Acadmeic Paper Dataset(AAPD)及Reuters Corpus Volum I (RCV1-V2)上进行了实验。AAPD数据量更少、标签密度更大,分类难度更大。评价指标则选用了hamming loss,micro-precision,micro-recall及micro-F1;其中hamming loss越低越好,其他则越高越好。至于基准模型,我们选用了经典模型如BR、CC、LP,也有性能优越的seq2seq模型如CNN-RNN、SGM,还有其他一些表现卓越的多标签文本分类模型如LSAN,之外也将seq2set纳入进来作为比较。seq2set使用强化学习算法来缓解seq2seq模型对于标签顺序的依赖程度。同时,为了验证ML-Reasoner在不同文本编码器上能带来的性能提升,我们分别使用了CNN、LSTM及BERT作为ML-Reasoner框架中的Text Encoder模块。实验结果如表2所示。

表2 ML-Reasoner及基准模型在两个数据集上的性能

2dc99416-603e-11eb-8b86-12bb97331649.png

从表中可以看出,ML-Reasoner在两个数据集上均达到了SOTA水准,且在三种不同文本编码器上都能带来显著提升。

为了验证ML-Reasoner可以完全避免对标签顺序的依赖,我们随机打乱AAPD数据集的标签顺序,并进行了测试;各个模型的性能如表3所示。从表中可以看到,CC及seq2seq模型的性能受标签顺序的剧烈影响;seq2set可以显著缓解seq2seq的问题;而ML-Reasoner则完全不受标签顺序的影响。

表3各模型在标签打乱的AAPD数据集上的性能

31375fac-603e-11eb-8b86-12bb97331649.png

我们也通过烧蚀实验(见图3),确定了推理机制确实是性能提升的关键。

317b44e2-603e-11eb-8b86-12bb97331649.png

图3 ML-Reasoner(T=1,2,5)及CNN-Round(T=1,2,5)在AAPD测试集上的性能雷达图

我们也探究了迭代次数对模型性能的影响,由图4可知,进行了一次推理就可以带来显著提升;而推理次数的再次提高并不能带来更多的提升。这可能是因为模型及数据集的选择导致的。

31f4a364-603e-11eb-8b86-12bb97331649.png

图4不同迭代轮数下的ML-Reasoner在AAPD测试集上的性能雷达图

为了进一步理解Reasoner发挥作用的机制,我们从数据集中选取了一些典型示例(见表4)。在第一个例子中,模型通过推理将相关标签math.OC添上;模型处理第二个例子时,则将无关标签cs.LO剔除;有时添加与删除的动作也会同时发生(见第三个例子)。当然,推理偶尔也会使预测结果变差(见第四、第五个例子)。

表4 AAPD测试集中一些由于推理机制预测结果出现变化的实例

32b5cb2a-603e-11eb-8b86-12bb97331649.png

为了验证上述例子的变化确实是因为考虑了标签之间的相关性,我们进一步统计模型在添加或删除某个标签时与其他标签的共现频率。从图5中,可以观察到模型往往在添加某个标签时,其共现频率(第二行)与真实共现频率接近(第一行);而删除某个标签时,其共现频率(第三行)与真实共现频率(第一行)则相差较远。

3333a39c-603e-11eb-8b86-12bb97331649.png

图5 AAPD标签的共现频率图

04

结论

在本文中,我们提出了算法ML-Reasoner。该算法可以同时预测所有标签进而避免了对标签顺序的依赖;之外,他通过新颖的推理机制利用了标签之间的高阶关系。实验结果表明了ML-Reasoner在捕获标签依赖之间的有效性;进一步的分析验证了其确实未对标签顺序产生依赖。一些经验性试验也揭示了该算法发挥作用的机制。由于ML-Reasoner未显式利用标签之间的关系,如层次结构等,如何将这些信息纳入考虑是值得进一步探索的。

原文标题:【IPM2020】一种处理多标签文本分类的新颖推理机制

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47243

    浏览量

    238355
  • 机器学习
    +关注

    关注

    66

    文章

    8414

    浏览量

    132602
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22034

原文标题:【IPM2020】一种处理多标签文本分类的新颖推理机制

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    单日获客成本超20万,国产大模型开卷200万字以上的长文本处理

    更精准的推理和高并发流量以外,似乎已经没有太多值得厂商大肆宣传的特性了,直到最近超长文本处理的爆火。   国产大模型的新卷法,长文本处理   当下将大模型长文本处理炒热的,无疑是来自月
    的头像 发表于 03-27 00:53 3363次阅读
    单日获客成本超20万,国产大模型开卷200万字以上的长<b class='flag-5'>文本处理</b>

    如何使用自然语言处理分析文本数据

    媒体、新闻报道、用户评论等)收集你感兴趣的文本数据。 数据清洗 :去除无关字符(如HTML标签、特殊符号等),确保文本数据干净且致。 2. 预处理
    的头像 发表于 12-05 15:27 268次阅读

    BitEnergy AI公司开发出一种新AI处理方法

    BitEnergy AI公司,家专注于人工智能(AI)推理威廉希尔官方网站 的企业,其工程师团队创新性地开发了一种名为线性复杂度乘法(L-Mul)的AI处理方法。该方法的核心在于,它用整数加法替代
    的头像 发表于 10-22 15:15 389次阅读

    雷达的基本分类方法

    电子发烧友网站提供《雷达的基本分类方法.pdf》资料免费下载
    发表于 09-11 09:09 6次下载

    光学字符识别是什么的一种威廉希尔官方网站

    光学字符识别(Optical Character Recognition,简称OCR)是一种文本资料转换为计算机可编辑和可搜索的数据格式的威廉希尔官方网站 。这项威廉希尔官方网站 广泛应用于文档扫描、数据录入、自动化处理
    的头像 发表于 09-10 15:48 467次阅读

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    习语言的表达方式和生成能力。通过预测文本中缺失的部分或下个词,模型逐渐掌握语言的规律和特征。 常用的模型结构 Transformer架构:大语言模型通常基于Transformer架构,这是一种能够
    发表于 08-02 11:03

    如何训练个有效的eIQ基本分类模型

    eIQ Neutron神经处理单元(NPU)是一种高度可扩展的加速器核心架构,提供ML加速。与传统MCU Kinetis、LPC系列相比,MCX N系列首次集成了恩智浦 eIQ Neutron神经
    的头像 发表于 08-01 09:29 1820次阅读
    如何训练<b class='flag-5'>一</b>个有效的eIQ基<b class='flag-5'>本分类</b>模型

    利用TensorFlow实现基于深度神经网络的文本分类模型

    要利用TensorFlow实现个基于深度神经网络(DNN)的文本分类模型,我们首先需要明确几个关键步骤:数据预处理、模型构建、模型训练、模型评估与调优,以及最终的模型部署(尽管在本文中,我们将重点放在前四个步骤上)。下面,我将
    的头像 发表于 07-12 16:39 853次阅读

    llm模型有哪些格式

    Representations from Transformers):BERT是一种双向预训练模型,通过大量文本数据进行预训练,可以用于各种NLP任务,如文本分类、问答、命名实体识别等。 b. GPT(
    的头像 发表于 07-09 09:59 614次阅读

    llm模型和chatGPT的区别

    LLM(Large Language Model)是指大型语言模型,它们是类使用深度学习威廉希尔官方网站 构建的自然语言处理(NLP)模型。LLM模型可以处理各种语言任务,如文本生成、
    的头像 发表于 07-09 09:55 1053次阅读

    自然语言处理是什么威廉希尔官方网站 的一种应用

    自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的个分支,它涉及到使用计算机威廉希尔官方网站 来处理、分析和生成自然语言文本。自然语言
    的头像 发表于 07-03 14:18 844次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域,文本分类直是个重要的研究方向。随着深度学习威廉希尔官方网站 的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像识
    的头像 发表于 07-01 16:25 717次阅读

    基于神经网络的呼吸音分类算法

    。噪声分类器是一种称为NRNN的堆叠RNN,它预测样本中每帧的噪声标签。NRNN优化训练期间为每个输出计算的交叉熵损失 然后,预测噪声标签
    发表于 05-31 12:05

    屏万象,场景无限: 蓝牙墨水屏标签多功能场景应用带您领略未来

    蓝牙墨水屏标签作为一种创新的显示设备,通过提供API接口,助力各行各业共创智慧新生态。开放API是为了促进生态系统的共创和共赢,让更多的开发者和合作伙伴能够参与到蓝牙墨水屏标签的应用和创新中来。自主
    的头像 发表于 05-27 11:11 445次阅读
    <b class='flag-5'>一</b>屏万象,场景无限: 蓝牙墨水屏<b class='flag-5'>标签</b>多功能<b class='flag-5'>多</b>场景应用带您领略未来

    自动驾驶和模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频
    发表于 12-28 11:45 520次阅读
    自动驾驶和<b class='flag-5'>多</b>模态大语言模型的发展历程