0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP:用Cluster-to-Cluster生成更多样化的新数据

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2021-02-14 09:19 次阅读

论文名称:C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling 论文作者:侯宇泰、陈三元、车万翔、陈成、刘挺 原创作者:侯宇泰 论文链接:https://arxiv.org/abs/2012.07004 出处:哈工大SCIR

1. 简介

1.1 研究背景

对话语言理解(Spoken Language Understanding,SLU)[1]经常面临领域和需求的频繁切换,这常常会导致训练数据在数量和质量上的不足。

数据增强(Data Augmentation)是一种自动生成新数据扩充训练集的威廉希尔官方网站 ,能够有效地缓解上述数据不足的带来的挑战 [2,3]。

1.2 研究动机

如图1(上)所示,现有数据增强,如基于Seq2Seq 的句子复述(re-phrasing)方法 [4,5,6],经常无法避免地生成没有意义的重复数据。这很大程度要归咎于现有的one-by-one数据生成模式。

相较之下,如图1(下)所示,one-by-one数据生成弊病可以天然地通过多到多(cluster-to-cluster)生成方式得到缓解。

0b2a19a6-549c-11eb-8b86-12bb97331649.png

图1 示例:从已有句子生成新表述,现有one-by-one复述方法无法避免生成重复数据

1.3 我们的贡献

我们提出了一种全新的Cluster-to-Cluster生成范式来生成新数据,并基于此提出了一个全新的数据增强框架,称为C2C-GenDA。C2C-GenDA通过将现有句子重构为表达方式不同但语义相同的新句子,来扩大训练集。与过往的Data Augmentation(DA)方法逐句(One-by-one)构造新句子的做法不同,C2C-GenDA采用一种多到多(Cluster-to-Cluster)的全新的新语料生成方式。

具体的,C2C-GenDA联合地编码具有相同语义的多个现有句子,并同时解码出多个未见表达方式的新句子。

这样种的生成方式会直接带来如下好处:

(1)同时生成多个新话语可以让模型建模生成的新句子之间的关系,减少新句子间内部重复。

(2)联合地对多个现有句子进行编码让模型可以更广泛地看到已有的现有表达式,从而减少无意义的对已有数据的重复。

1.4实验效果

当只有数百句训练语料时,C2C-GenDA数据增强方法在了两个公开的槽位提取(slot filling)数据集上分别带来了 7.99 (11.9%↑) and 5.76 (13.6%↑) F-scores 的提升。

2. 方法

2.1 Cluster2Cluster 生成模型

给定具有相同语义框架(semantic frame)的一组多个句子,即input cluster, 模型一次性生成多个新句子,即output cluster。这些输出与输入的语义框架相同,但是具有不同的表达方式。

0b6b5420-549c-11eb-8b86-12bb97331649.png

图2 Cluster2Cluster 生成模型

如图2所示,Cluster2Cluster模型采用基于Transformer的Encoder和Decoder。具体的,我们用特殊分割Token拼接input cluster中的句子,作为模型输入。在解码时,模型用多个共享参数的decoder同步解码多个新句子。

我们采用了前人添加Rank Token作为解码起步的方法[5]来让模型区分不同的输出句子。

同时,为了进一步提升句子的多样性,我们提出Duplication-aware Attention和Diverse-Oriented Regularization来进一步强化模型,如图2所示:

(1)Duplication-aware Attention(DAA):通过Attention为模型提供两方面的信息,即Input Cluster中已有的表达方式,和其他正在解码的句子中的表达方法。根据这些信息,我们采用一种类似Coverage Attention的方式对重复的表达生成进行惩罚。

(2)Diverse-Oriented Regularization(DOR):我们提出DOR来从Loss层面引导模型生成多样的句子。具体的,我们用不同句子,解码词分布之间的KL-散度作为loss,来约束模型避免在不同的句子中的相同step解码出相同的词。

2.2 Cluster2Cluster 模型训练

仅有多到多的生成模型显然不足以生成新的数据。为了让Cluster2Cluster模型具有生成新表述的能力,我们提出了Dispersed Cluster Pairing算法来构造多到多的复写(Paraphrase)训练数据。

具体的,如图3 和图4所示,给定具有相同语义的一组数据,我们首先找到一组表述相近的句子作为Input Cluster,然后贪心地构造Output Cluster:每次添加一句和Input Cluster以及现有Output Cluster表述差异最大的句子到 Output Cluster。

这样的作法旨在interwetten与威廉的赔率体系 从少量说法有限的句子生成多样的未见表述的过程。

0bb0e382-549c-11eb-8b86-12bb97331649.png

图3构造多到多的Paraphrase训练数据

0c082ad4-549c-11eb-8b86-12bb97331649.png

图4多到多的Paraphrase训练数据构造算法

2.3 数据增强实现

我们将原有的训练数据分为两份,一份训练C2C-GenDA模型,一份用来做数据增强的输入。

最后我们用所有新生成的句子和原有的句子作为增强后的训练集。

3. 实验:

3.1 主实验结果

如表1所示,我们的方法能够大幅地提升Slot Filling模型效果(Baseline),并优于现有的数据增强方法。

表1 主实验结果

0c34358e-549c-11eb-8b86-12bb97331649.png

3.2 分析实验

如表2所示,在消融实验中,我们提出的各个模块都对最终的实验效果起到了作用。

表2 消融实验

0c630a12-549c-11eb-8b86-12bb97331649.png

表3展示不同生成模型的生成数据和Inter和Intra多样性,结果显示采用Cluster2Cluster的生成方法可以让新数据的多样性产生巨大的提升。

表3 多样性分析实验

0c8ff928-549c-11eb-8b86-12bb97331649.png

表4展示了由Cluster2Cluster模型生成的一些样例,可以看到Cluster2Cluster模型可以从多个角度生成一些有趣的新表述方式。

表4 样例分析

0ccd8b1c-549c-11eb-8b86-12bb97331649.png

4.参考文献

[1] Young, S.; Gasiˇ c, M.; Thomson, B.; and Williams, J. D. ´ 2013. Pomdp-based statistical spoken dialog systems: A review. Proc. of the IEEE 101(5): 1160–1179.

[2] Kim, H.-Y.; Roh, Y.-H.; and Kim, Y.-G. 2019. Data Augmentation by Data Noising for Open-vocabulary Slots in Spoken Language Understanding. In Proc. of NAACL, 97– 102.

[3] Shin, Y.; Yoo, K. M.; and Lee, S.-G. 2019. Utterance Generation With Variational Auto-Encoder for Slot Filling in Spoken Language Understanding. IEEE Signal Processing Letters 26(3): 505–509.

[4] Yoo, K. M. 2020. Deep Generative Data Augmentation for Natural Language Processing. Ph.D. thesis, Seoul National University

[5] Hou, Y.; Liu, Y.; Che, W.; and Liu, T. 2018. Sequence-to-Sequence Data Augmentation for Dialogue Language Understanding. In Proc. of COLING, 1234–1245.

[6] Kurata, G.; Xiang, B.; and Zhou, B. 2016. Labeled Data Generation with Encoder-Decoder LSTM for Semantic Slot Filling. In Proc. of INTERSPEECH, 725–729.

责任编辑:xj

原文标题:【SCIR AAAI2021】数据增强没效果?试试用Cluster-to-Cluster生成更多样化的新数据吧

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7017

    浏览量

    89011
  • 自然语言
    +关注

    关注

    1

    文章

    288

    浏览量

    13348
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22034

原文标题:【SCIR AAAI2021】数据增强没效果?试试用Cluster-to-Cluster生成更多样化的新数据吧

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    漫途远程采集终端小巧强大,满足多样化数据采集需求!

    数据采集
    无锡漫途科技有限公司
    发布于 :2024年12月13日 14:43:52

    NVIDIA Isaac Sim满足模型的多样化训练需求

    光轮智能借助 NVIDIA Isaac Sim,通过 3D 生成与建模威廉希尔官方网站 构建高度逼真的虚拟场景,将现实世界的复杂场景抽象并转化为高质量的训练数据源,从而更有效地满足模型的多样化训练需求。 AI
    的头像 发表于 11-23 14:55 542次阅读

    如何使用OpenUSD构建支持生成式AI的合成数据工作流

    训练用于驱动自主机器(例如机器人和自动驾驶汽车)的物理 AI 模型需要大量数据。获取大量多样化的训练数据可能很困难、耗时且昂贵。数据通常因隐私限制或担忧而受到限制,或者对于新颖的
    的头像 发表于 11-20 09:50 274次阅读
    如何使用OpenUSD构建支持<b class='flag-5'>生成</b>式AI的合成<b class='flag-5'>数据</b>工作流

    博科测试IPO上市观察:产品布局完善,可满足多样化检测需求

    汽车测试试验系统是一个综合性的体系,它专门用于对汽车整车及其零部件的性能进行测试与检测,其中包含了各种专业设备、系统以及相关的服务。为了满足汽车领域客户多样化且个性的检测需求,博科测试以自行研发
    的头像 发表于 11-05 14:13 268次阅读

    室内人行与导航系统有哪些多样化的功能?

    多样化的功能设计,满足了不同场景下的多元需求。接下来我们一起了解一下关于室内人行与导航系统有哪些多样化的功能? 一、精准定位与路径规划 室内人行与导航系统核心的功能,室内导航系统通过蓝牙、Wi-Fi、RFID、UWB(超宽带
    的头像 发表于 10-09 11:28 196次阅读
    室内人行与导航系统有哪些<b class='flag-5'>多样化</b>的功能?

    双路设计,满足光伏电站与充电桩多样化计量需求——安科瑞丁佳雯

    在当今快速发展的可再生能源与电动汽车领域,光伏电站与充电桩的计量需求日益多样化且复杂。为了应对这一挑战,DJSF1352-RN电表以其创新的双路设计脱颖而出,成为满足光伏电站与充电桩多样化计量需求
    的头像 发表于 09-09 12:54 206次阅读
    双路设计,满足光伏电站与充电桩<b class='flag-5'>多样化</b>计量需求——安科瑞丁佳雯

    润和软件星闪业务闪耀海外,亮相“面向智能社会的威廉希尔官方网站 多样化与产品战略论坛”

    2024年8月30日,“面向智能社会的威廉希尔官方网站 多样化与产品战略论坛”在日本东京国际展览中心成功举办,本次论坛由国际星闪无线短距通信联盟主办,围绕“威廉希尔官方网站 标准、标准产业、产业国际”的方针
    的头像 发表于 08-31 08:00 300次阅读
    润和软件星闪业务闪耀海外,亮相“面向智能社会的威廉希尔官方网站
<b class='flag-5'>多样化</b>与产品战略论坛”

    nlp自然语言处理模型怎么做

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它涉及到计算机对人类语言的理解和生成。随着深度学习威廉希尔官方网站 的发展,NLP领域取得了显著
    的头像 发表于 07-05 09:59 635次阅读

    DC/AC电源模块:实现电力系统的多样化应用

    家庭和商业建筑到工业设备和交通运输,都需要稳定可靠的电力供应。DC/AC电源模块为这些需求提供了强大的支持。 DC/AC电源模块:实现电力系统的多样化应用 首先,DC/AC电源模块可以将直流电源转换为交流电源,使之能够适应更多的设备需求。许多电子设备和家
    的头像 发表于 06-18 13:14 402次阅读
    DC/AC电源模块:实现电力系统的<b class='flag-5'>多样化</b>应用

    长电科技为自动驾驶芯片客户提供多样化高可靠性的封装测试解决方案

    长电科技作为全球领先的集成电路成品制造和威廉希尔官方网站 服务提供商,在先进封装领域深耕多年,可为自动驾驶芯片客户提供多样化、高可靠性的封装测试解决方案和配套产能。
    的头像 发表于 05-14 10:26 1148次阅读
    长电科技为自动驾驶芯片客户提供<b class='flag-5'>多样化</b>高可靠性的封装测试解决方案

    联合电子携多样化解决方案和创新威廉希尔官方网站 亮相2024北京车展

    联合电子在本次北京国际车展(第十八届北京国际汽车展览会)的博世展台展出了一系列创新威廉希尔官方网站 和多样化的解决方案,包括高效灵活的混合动力及纯电动汽车系统解决方案
    的头像 发表于 04-28 09:59 724次阅读

    【TE Connectivity】泰科电子低温升 Cluster Block连接器,无惧高温,“清新”来袭!

    低温升Cluster Block 连接器 TE Connectivity (以下简称“TE”)家电事业部的 Cluster Block 产品系列专注于为空调压缩机制造商提供高效、清洁的电气快速连接
    发表于 04-10 14:04 308次阅读
    【TE Connectivity】泰科电子低温升 <b class='flag-5'>Cluster</b> Block连接器,无惧高温,“清新”来袭!

    三星半导体分享了面向PC、移动端和服务器的多样化创新存储解决方案

    在2024年CFMS闪存市场峰会上,三星半导体展示了其面向PC、移动端和服务器的多样化创新存储解决方案。
    的头像 发表于 03-20 17:22 618次阅读

    中国电信携手中兴通讯联合发布Cluster DRS创新威廉希尔官方网站 和成果

    2月26日,2024年世界移动通信大会(MWC2024)在西班牙巴塞罗那开幕。展会期间,中国电信携手中兴通讯联合发布了Cluster DRS(Dynamic Radio Sharing,基站簇级的动态波束共享)创新威廉希尔官方网站 和成果。
    的头像 发表于 02-27 10:44 492次阅读

    中国电信联合中兴通讯推出Cluster DRS解决方案

    在2024年世界移动通信大会(MWC2024)上,中国电信与中兴通讯共同展示了他们的最新创新威廉希尔官方网站 ——Cluster DRS(Dynamic Radio Sharing)解决方案。这项新威廉希尔官方网站 基于动态波束共享威廉希尔官方网站 ,为无人机提供了更高效、更稳定的通信支持。
    的头像 发表于 02-27 10:32 753次阅读