0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

比Bert体积更小速度更快的 TinyBERT

电子设计 来源:电子设计 作者:电子设计 2020-12-10 20:35 次阅读

TinyBERT 是华为不久前提出的一种蒸馏 BERT 的方法,本文梳理了 TinyBERT 的模型结构,探索了其在不同业务上的表现,证明了 TinyBERT 对复杂的语义匹配任务来说是一种行之有效的压缩手段。
作者:chenchenliu&winsechang,腾讯 PCG 内容挖掘工程师
来源:腾讯威廉希尔官方网站 工程微信号

一、简介

在 NLP 领域,BERT 的强大毫无疑问,但由于模型过于庞大,单个样本计算一次的开销动辄上百毫秒,很难应用到实际生产中。TinyBERT 是华为、华科联合提出的一种为基于 transformer 的模型专门设计的知识蒸馏方法,模型大小不到 BERT 的 1/7,但速度提高了 9 倍,而且性能没有出现明显下降。目前,该论文已经提交机器学习顶会 ICLR 2020。本文复现了 TinyBERT 的结果,证明了 Tiny BERT 在速度提高的同时,对复杂的语义匹配任务,性能没有显著下降。

目前主流的几种蒸馏方法大概分成利用 transformer 结构蒸馏、利用其它简单的结构比如 BiLSTM 等蒸馏。由于 BiLSTM 等结构简单,且一般是用 BERT 最后一层的输出结果进行蒸馏,不能学到 transformer 中间层的信息,对于复杂的语义匹配任务,效果有点不尽人意。

基于 transformer 结构的蒸馏方法目前比较出名的有微软的 BERT-PKD (Patient Knowledge Distillation for BERT),huggingface 的 DistilBERT,以及本篇文章讲的 TinyBERT。他们的基本思路都是减少 transformer encoding 的层数和 hidden size 大小,实现细节上各有不同,主要差异体现在 loss 的设计上。

二、模型实现细节

整个 TinyBERT 的 loss 设计分为三部分:

1. Embedding-layer Distillation


其中:

分别代表 student 网络的 embedding 和 teacher 网络的 embedding. 其中 l 代表 sequence length, d0 代表 student embedding 维度, d 代表 teacher embedding 维度。由于 student 网络的 embedding 层通常较 teacher 会变小以获得更小的模型和加速,所以 We 是一个 d 0×d 维的可训练的线性变换矩阵,把 student 的 embedding 投影到 teacher embedding 所在的空间。最后再算 MSE,得到 embedding loss.

2. Transformer-layer Distillation

TinyBERT 的 transformer 蒸馏采用隔 k 层蒸馏的方式。举个例子,teacher BERT 一共有 12 层,若是设置 student BERT 为 4 层,就是每隔 3 层计算一个 transformer loss. 映射函数为 g(m) = 3 * m, m 为 student encoder 层数。具体对应为 student 第 1 层 transformer 对应 teacher 第 3 层,第 2 层对应第 6 层,第 3 层对应第 9 层,第 4 层对应第 12 层。每一层的 transformer loss 又分为两部分组成,attention based distillation 和 hidden states based distillation.

2.1 Attention based loss


其中,

h 代表 attention 的头数,l 代表输入长度,

代表 student 网络第 i 个 attention 头的 attention score 矩阵,

代表 teacher 网络第 i 个 attention 头的 attention score 矩阵。这个 loss 是受到斯坦福和 Facebook 联合发表的论文,What Does BERT Look At? An Analysis of BERT’s Attention 的启发。这篇论文研究了 attention 权重到底学到了什么,实验发现与语义还有语法相关的词比如第一个动词宾语,第一个介词宾语,以及[CLS], [SEP], 逗号等 token,有很高的注意力权重。为了确保这部分信息能被 student 网络学到,TinyBERT 在 loss 设计中加上了 student 和 teacher 的 attention matrix 的 MSE。这样语言知识可以很好的从 teacher BERT 转移到 student BERT.

2.2 hidden states based distillation

其中,

分别是 student transformer 和 teacher transformer 的隐层输出。和 embedding loss 同理,

投影到 Ht 所在的空间。

3. Prediction-Layer Distillation


其中 t 是 temperature value,暂时设为 1.除了模仿中间层的行为外,这一层用来interwetten与威廉的赔率体系 teacher 网络在 predict 层的表现。具体来说,这一层计算了 teacher 输出的概率分布和 student 输出的概率分布的 softmax 交叉熵。这一层的实现和具体任务相关,我们的两个实验分别采取了 BERT 原生的 masked language model loss + next sentence loss 和单任务的 classification softmax cross-entropy.

另外,值得一提的是 prediction loss 有很多变化。在 TinyBERT 中,这个 loss 是 teacher BERT 预测的概率和 student BERT 预测概率的 softmax 交叉熵,在 BERT-PKD 模型中,这个 loss 是 teacher BERT 和 student BERT 的交叉熵和 student BERT 和 hard target( one-hot)的交叉熵的加权平均。我们在业务中有试过直接用 hard target loss,效果比使用 teacher student softmax 交叉熵下降 5-6 个点。因为 softmax 比 one-hot 编码了更多概率分布的信息。并且实验中,softmax cross-entropy loss 容易发生不收敛的情况,把 softmax 交叉熵改成 MSE, 收敛效果变好,但泛化效果变差。这是因为使用 softmax cross-entropy 需要学到整个概率分布,更难收敛,因为拟合了 teacher BERT 的概率分布,有更强的泛化性。MSE 对极值敏感,收敛的更快,但泛化效果不如前者。

所以总结一下,loss 的计算公式为:

其中,

三、实验

TinyBERT 论文中提出了两阶段学习框架,比较新颖。类似于原生的 BERT 先 pre-train, 根据具体任务再 fine-tine, TinyBERT 先在 general domain 数据集上用未经微调的 BERT 充当教师蒸馏出一个 base 模型,在此基础上,具体任务通过数据增强,利用微调后的 BERT 再进行重新执行蒸馏。

这种两阶段的方法给 TinyBERT 提供了像 BERT 一样的泛化能力。不过为了快速得到实验结果,并且论文中的控制变量实验显示 general 的蒸馏对各项下游任务的影响较小,我们此次选择直接用 fine-tune 过的 teacher BERT,蒸馏得到 student BERT.

所以我们蒸馏 TinyBERT 的流程是:

制作任务相关数据集;

fine-tune teacher BERT;

固定 teacher BERT 参数,蒸馏得到 TinyBERT.

关于实验结果,先上 TinyBERT 论文中的结论:

可以看到 TinyBERT 表现优异。在 GLUE 上,相较于完整的 BERT,性能下降 3 个点,但是推理性能却得到了巨大提升,快了 9 倍多。

我们在自己的业务上,也用 TinyBERT 得到了相似的结果。

3.1 文章连贯性特征任务

做这个特征的目的是为了过滤东拼西凑或者机器生成前后没有逻辑的文章。由于语义的复杂性还有语义的转移,这个任务和语义相似度任务略有不同,文章的上下句之间语义会有不同。在这个背景下,实验过 DSSM, Match-Pyramid 等模型,表现效果较差。

由于 BERT 能学到丰富的语义,这个任务目前采用 BERT 的 next sentence 任务较为合适。但是一旦文章很长,原生 BERT 需要算 1 秒甚至更久,这样的速度是不能接受的。

TinyBERT 在不同实验参数下的表现如下:

可以看到 4 层 encoder 的 TinyBERT 在 next sentence 任务下准确率较 BERT base 准确率下降了不到 3 个点,在 mlm 任务上下降较多。在 CPU 上,TinyBERT 相较于 base 速度获得了将近 8 倍的提升。

3.2 问答 FAQ 任务

业务场景:为用户的 query 匹配最接近的 question,将其 answer 返回,是一个 Query-question 语义匹配任务。

下面是蒸馏到两层 encoder 的 TinyBERT 结果:

可以看到 ACC 损失 3 个点,AUC 损失 4 个点,取得了不错的效果。

四、总结

我们证明了 TinyBERT 作为一种蒸馏方法,能有效的提取 BERT transformer 结构中丰富的语意信息,在不牺牲性能的情况下,速度能获得 8 到 9 倍的提升。下一步可能会尝试蒸馏一个 general 的 TinyBERT base。

更多腾讯AI相关威廉希尔官方网站 干货,请关注专栏腾讯威廉希尔官方网站 工程

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1792

    文章

    47409

    浏览量

    238923
  • nlp
    nlp
    +关注

    关注

    1

    文章

    489

    浏览量

    22052
收藏 人收藏

    评论

    相关推荐

    晶振行业小型化趋势:3225及更小尺寸晶体

    主流晶振通常分为两种封装形式:贴片式与直插式。贴片式晶振相较直插式晶振体积更小,更广泛应用于智能化电子产品。目前通常采用3225(3.2*2.5mm)及以下尺寸的贴片式晶振。
    的头像 发表于 12-20 16:21 354次阅读
    晶振行业小型化趋势:3225及<b class='flag-5'>更小</b>尺寸晶体

    LM211比较器的速度规格书慢了10倍,为什么?

    电路图如上,不用在意他的输入电容,测量时候,直接测量的芯片引脚了,阈值10V 波形如下: 由此可以看见,比较时候,下降速度很快,上升却很慢,甚至LM393这种都慢了, 怎么解决呢?
    发表于 09-10 07:48

    声发射系统的威廉希尔官方网站 指标:最高采样速度的选择

    虽然理论上采样速度越高获得的数字信号越完整,但考虑到实际应用的成本,无法实现无限高甚至过高,只能选择合理(即满足应用要求)的采样速度。例如,采样速度40兆,数据量就采样
    的头像 发表于 08-26 17:30 362次阅读
    声发射系统的威廉希尔官方网站
指标:最高采样<b class='flag-5'>速度</b>的选择

    M8020A J-BERT 高性能比特误码率测试仪

    ,执行交互式链路训练。 J-BERT M8020A 可以帮助您更快洞察设计问题。 •性能特点 • 数据速率高达 8.5/16 Gb/s,用于码型
    的头像 发表于 08-21 17:13 223次阅读

    AWG和BERT常见问题解答

    随着信号的速率越来越高,调制格式越来越复杂,对测试仪器的性能要求也越来越高。是德科技也一直在推出业界领先的高带宽、高采样率的AWG和高性能的BERT
    的头像 发表于 08-06 17:27 705次阅读

    CyU3PDmaMultiChannelCommitBuffer失败后,如何使重置速度更快

    1) CyU3PDmaMultiChannelCommitBuffer 失败后,如何使重置速度更快? 2) 如何将微控制器其他部分的内存用于帧缓冲?
    发表于 07-23 08:29

    请问ESP32是否支持擦除,写入速度更快的spi nandflash作为程序存储器(挂载到spi0)?

    ESP32写flash的时候,似乎会影响到中断丢失。请问ESP32是否支持擦除,写入速度更快的spi nandflash作为程序存储器(挂载到spi0)?
    发表于 06-19 06:32

    备受青睐的MEMS加速度计,更小尺寸、更低功耗、更智能

    ,进而提供传感数据方便系统对设备或系统做出状态评估。   现在消费电子行业朝着更时尚、更简约的设计方向发展,工业领域也对加速度计提出了更小尺寸更高集成性的需求,很多应用领域对微型加速度计及其性能的需求日益提升
    的头像 发表于 05-12 08:02 3448次阅读

    谷景助力智能家电升级:更小体积,更大功率

    随着科技的快速发展与进步,智能家电行业对电感器的性能 要求也越来越高。在面对尺寸更小、功率更大的挑战时,谷景威廉希尔官方网站 团队凭借创新的磁芯配方和精准的选型匹配,成功助力客户完成了对智能家电应用电感方案
    的头像 发表于 05-11 10:39 354次阅读

    LoRa无线模块高性能之王

    高速、高稳定性、工业级、集无线收发于一体的射频收发模块。它就是泽耀科技A32-S系列——SX126X全新升级方案,新一代LoRa扩频威廉希尔官方网站 ,SX127X方案体积更小、功耗更低、速度
    的头像 发表于 04-26 08:09 791次阅读
    LoRa无线模块高性能之王

    如何在速度更快、尺寸更小的应用中精确检测电机位置?

    本文介绍工业自动化领域的设计人员在设计用于电机控制的位置检测接口时面临的常见问题,即在速度更快、尺寸更小的应用中检测位置。利用从编码器捕获的信息以便精确测量电机位置对于自动化和机器设备的成功运行很重
    的头像 发表于 04-12 08:24 699次阅读
    如何在<b class='flag-5'>速度</b><b class='flag-5'>更快</b>、尺寸<b class='flag-5'>更小</b>的应用中精确检测电机位置?

    Microchip推出容量更大、速度更快的串行SRAM产品线

    为满足客户对更大更快的SRAM的普遍需求,MicrochipTechnology(微芯科技公司)扩展了旗下串行SRAM产品线,容量最高可达4Mb,并将串行外设接口/串行四通道输入/输出接口(SPI
    的头像 发表于 04-12 08:23 410次阅读
    Microchip推出容量更大、<b class='flag-5'>速度</b><b class='flag-5'>更快</b>的串行SRAM产品线

    Microchip推出容量更大、速度更快的串行 SRAM产品线

    该产品线提供了并行SRAM的低成本替代方案,容量高达 4 Mb,具有143 MHz SPI/SQI™ 通信功能   为满足客户对更大更快的 SRAM 的普遍需求,Microchip
    发表于 04-03 15:24 1202次阅读

    宁德时代正在与特斯拉合作研发充电速度更快的电池

    近日,宁德时代董事长曾毓群在接受采访时透露,宁德时代正在与特斯拉合作研发充电速度更快的电池。
    的头像 发表于 03-29 10:00 502次阅读

    为什么GPUCPU更快

    大规模数据集时CPU更快的根本原因。内存带宽:GPU的内存带宽CPU高得多。内存带宽是指数据在内存之间传输的速度。GPU可以更快地将数据
    的头像 发表于 01-26 08:30 2465次阅读
    为什么GPU<b class='flag-5'>比</b>CPU<b class='flag-5'>更快</b>?