0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语义分割在三元组关系抽取中的作用是什么?

深度学习自然语言处理 来源:浙大KG 作者:陈想,张宁豫 2021-06-26 11:14 次阅读

1. 总述

关系抽取(Relation Extraction, RE)是从纯文本中提取未知关系事实,是自然语言处理领域非常重要的一项任务。过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系,然而单句关系抽取在实践中受到不可避免的限制:在真实场景如医疗、金融文档中,有许多关系事实是蕴含在文档中不同句子的实体对中的,且文档中的多个实体之间,往往存在复杂的相互关系。如下图所示:

7063c540-d5ea-11eb-9e57-12bb97331649.png

图中包括了文章中的三个关系事实(从文档标注的诸多关系事实中采样得到),其中涉及这些关系事实的命名实体用彩色着色,其它命名实体用下划线标出。与句子级相比,文档级关系抽取中的文本要长得多,并且包含更多的实体, 这使得文档级关系抽取更加困难。其中(Maryland, country, US)、(Baltimore, located_in, Maryland) 和 (Eldersburg, located_in, Maryland)三组triples中的实体在同一个句子中的出现,这种句内关系相对容易识别。然而,跨句实体之间的关系识别更具挑战性, 例如,关系事实(Baltimore,country,U.S.)和(Eldersburg,country,U.S.)中的相关实体并没有出现在同一个句子中并且需要长距离依赖, 具体来说,多个三元组之间的相互依赖是有利的,可以为实体多的情况下的关系分类提供指导。例如,如果句内关系 (Maryland, country, US) 已被识别,则{US} 不可能处于任何 person-social 关系中,例如"is the father of." 此外,根据{Eldersburg} 位于{Maryland} 和{Maryland} 属于{US} 的三元组,我们可以推断{Eldersburg} 属于{US} . 如上所述,每个关系三元组可以向同一文本中的其他关系三元组提供信息

文档级关系抽取主要面临以下三个挑战:

1.相同关系会出现在多个句子。在文档级关系抽取中,单一关系可能出现在多个输入的句子中,因此模型需要依赖多个句子进行关系推断。

2.相同实体会具有多个指称。在复杂的文档中,同一个实体具有各种各样的指称,因此模型需要聚合不同的指称学习实体表示。

3.不同三元组之间需要信息交互。文档包含多个实体关系三元组,不同的实体关系三元组之间存在逻辑关联,因此模型需要捕捉同一篇文档中三元组之间的信息交互。

然而先前的基于graph或基于transformer的模型仅单独地使用实体对,而未考虑关系三元组之间的全局信息。本文创新性地提出DocuNet模型,首次将文档级关系抽取任务类比于计算机视觉中的语义分割任务。DocuNet模型利用编码器模块捕获实体的上下文信息,并采用U-shaped分割模块在image-style特征图上捕获三元组之间的全局相互依赖性,通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取。实验结果表明,我们的方法可以在三个基准数据集DocRED,CDR和GDA上获得SOTA性能。

2.方法

71415ebe-d5ea-11eb-9e57-12bb97331649.png

具体来说,DocuNet模型分为三个模块:

(1)Encoder Module

我们将triple抽取视为sequence-to-sequence的任务,以更好地对实体和关系之间的交叉依赖进行建模。我们将输入文本和输出三元组定义为源和目标序列。源序列仅由输入句子的标记组成,例如“[CLS] The United States President Trump was raised in the borough of Queens ...[SEP]”。我们连接由特殊标记 ”< e >” 和 ”< /e >”分隔的每个实体/关系的三元组作为目标序列。

715264d4-d5ea-11eb-9e57-12bb97331649.png

717d912c-d5ea-11eb-9e57-12bb97331649.png

71962354-d5ea-11eb-9e57-12bb97331649.png

其中是实体感知注意力的注意力权重,对于矩阵中的每个实体,它们的相关性由一维特征向量捕获。

(2)U-shaped Segmentation Module

三元组之间存在局部语义依赖,语义分割中的CNN可以促进感受野中实体对之间的局部信息交换。文档级RE还需要全局信息来推断三元组之间的关系,语义分割模块中的下采样和上采样可以扩大当前实体pair对嵌入的感受野,能够增强全局隐式推理:

71c4a83c-d5ea-11eb-9e57-12bb97331649.png

我们把实体级关系矩阵作为D-channel图像,我们将文档级关系预测公式化为像素级掩码, 其中N是从所有数据集样本中统计出的最大实体数。

(3)Classification Module

给定实体pair的特征表示和实体级关系矩阵Y,我们使用前馈神经网络将它们映射到隐藏表示z。然后,我们通过双线性函数获得实体pair之间关系预测的概率表示如下:

71e0f366-d5ea-11eb-9e57-12bb97331649.png

由于观察到 RE 存在不平衡关系分布(许多实体对具有 NA 的关系),我们引入了一种平衡的 softmax 方法进行训练:

71ff3740-d5ea-11eb-9e57-12bb97331649.png

3. 实验

(1)数据集

为了验证DocuNet的效果,我们在三个文档级关系抽取数据集上评测,数据集具体分析如下所示:

72270bd0-d5ea-11eb-9e57-12bb97331649.png

(2)实验结果

由下面实验结果表明,DocuNet比以往的文档级关系抽取方法效果更佳。

7233d586-d5ea-11eb-9e57-12bb97331649.png

7241ef04-d5ea-11eb-9e57-12bb97331649.png

4. 总结与展望

在本文中,我们把文档级关系抽取任务看作语义分割来求解,直接给出了如何将 UNet 应用于文档级 RE 的解决方案,实验结果表明U-shaped模块能有效得理解局部上下文和全局相互依赖性。目前结果表明U-shaped模块中的卷积学习了 RE 三元组之间的相互作用,但仍U-shaped模块的推理作用尚是隐式的,未来对U-shaped模块进一步的可视化分析有助于我们加强理解其是如何做三元组之间推理的。我们的方法证实了语义分割模块在处理RE中有效性,仍需要更多的工作去探索U-shaped模块在如aspect-based sentiment analysis等其他nlp任务上的应用。

责任编辑:lq6
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语义
    +关注

    关注

    0

    文章

    21

    浏览量

    8659
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    17085

原文标题:【IJCAI2021】长文本知识抽取:基于语义分割的文档级三元组关系抽取

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三元锂电生命循环究竟是多长?朗凯威锂电电池定制 三元锂电池DIY

    随着新能源汽车的续航里程受到限制,如何提高续航能力影响了整个市场。而在电池行业,三元锂电池凭借着众多的优势迅速的占领了3C、汽车等市场,并逐渐取代传统铅酸蓄电池。对于传统电池来说,三元锂电池具有
    的头像 发表于 12-19 15:59 95次阅读
    <b class='flag-5'>三元</b>锂电生命循环究竟是多长?朗凯威锂电电池定制 <b class='flag-5'>三元</b>锂电池<b class='flag-5'>组</b>DIY

    朗凯威三元锂电池 6020:高性能能源解决方案

    三元锂电池 6020 (133-2632-1310)作为一种高性能的能源解决方案,具有高能量密度、长寿命、快速充电、安全可靠、环保节能等优点,广泛应用于电动自行车、电动摩托车、电动汽车等领域。在
    的头像 发表于 11-21 17:23 257次阅读
    朗凯威<b class='flag-5'>三元</b>锂电池<b class='flag-5'>组</b> 6020:高性能能源解决方案

    三元锂电池行业发展趋势

    三元锂电池,即三元正极材料锂电池,因其正极材料由镍、钴、锰(或铝)种元素组成而得名。这种电池因其高能量密度、长循环寿命和良好的安全性能而受到市场的广泛关注。 三元锂电池行业发展趋势
    的头像 发表于 10-31 10:28 479次阅读

    三元锂电池放电特性及应用

    随着科技的进步和环保意识的增强,锂电池因其高能量密度、长寿命和环保特性而成为新能源领域的明星。三元锂电池作为锂电池的一种,因其独特的优势在众多领域得到广泛应用。 三元锂电池放电特性 1. 高能量密度
    的头像 发表于 10-31 09:46 449次阅读

    三元锂电池实际应用的缺点

    三元锂电池其性能优势被广泛认可。然而,尽管其具有高能量密度和优良的低温性能,三元锂电池在实际应用仍面临一系列挑战。这些挑战主要包括高制造成本、安全性问题、高温下的不稳定性和相对较短的使用寿命。 高
    的头像 发表于 09-17 16:17 581次阅读

    三元锂电池的组成与功能

    在当前新能源汽车的发展浪潮三元锂电池作为一种先进的储能威廉希尔官方网站 ,已经成为推动电动汽车行业进步的关键因素之一。这种电池之所以被称为“三元”,是因为它结合了种不同的金属元素——镍(Ni)
    的头像 发表于 09-17 16:07 960次阅读

    鸿蒙原生应用服务开发-仓颉基础数据类型元组类型

    ,例如,(Int64, Float64) 表示一个二元组类型,(Int64, Float64, String) 表示一个三元组类型。 元组的长度是固定的,即一旦定义了一个
    发表于 09-12 11:02

    18650三元锂电池的优点

    18650三元锂电池的优点
    的头像 发表于 08-30 20:07 1157次阅读
    18650<b class='flag-5'>三元</b>锂电池的优点

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像的每个像素分配到相应的语义类别。这项威廉希尔官方网站 在许多领域都有广泛的应用,如自动驾驶、医学图
    的头像 发表于 07-17 09:56 428次阅读

    图像分割语义分割的区别与联系

    图像分割语义分割是计算机视觉领域中两个重要的概念,它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介 图像
    的头像 发表于 07-17 09:55 935次阅读

    图像分割语义分割的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像
    的头像 发表于 07-09 11:51 869次阅读

    软包三元锂电池能和硬包三元锂电池能混合用吗

    在电池使用和系统,将软包三元锂电池与硬包三元锂电池混合使用是一个复杂的问题,涉及到电池的化学成分、物理结构、电气特性以及系统设计等多个方面的考量。
    的头像 发表于 05-07 10:48 1011次阅读

    三元锂离子电池优缺点分析

    三元锂电池 三元聚合物锂电池是指正极材料使用镍钴锰酸锂(Li(NiCoMn)O2)三元正极材料的锂电池,三元复合正极材料前驱体产品,是以镍盐、钴盐、锰盐为原料,里面镍钴锰的比例可以根据
    的头像 发表于 02-01 09:42 919次阅读
    <b class='flag-5'>三元</b>锂离子电池优缺点分析

    三元催化器影响油耗吗

    三元催化器是汽车尾气处理系统的核心组成部分,主要用于降低尾气的有害物质排放。它能够对氮氧化物(NOx)、一氧化碳(CO)和不完全燃烧产生的碳氢化合物(HC)进行催化氧化和还原,将它们转化为无害
    的头像 发表于 01-11 10:07 1085次阅读

    三元催化器的作用和原理

    三元催化器是一种用于汽车尾气处理的重要设备,它具有去除尾气中有害物质的作用。在本文中,我们将深入探讨三元催化器的作用和原理。 首先,让我们了解一下
    的头像 发表于 01-11 10:05 1632次阅读