微软亚洲研究院的研究员们提出了一种模型压缩的新思路-电子发烧友网

编者按：深度学习的发展推动了很多大型神经网络模型的诞生，这些模型在多个领域中都取得了当前最优的性能，基于Transformer的预训练模型也在自然语言理解（NLU）和自然语言生成（NLG）领域中成为主流。然而，这些模型所包含的参数量巨大，计算成本高昂，极大地阻碍了此类模型在生产环境中的应用。为了解决该问题，来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。

随着深度学习的流行，很多大型神经网络模型诞生，并在多个领域中取得当前最优的性能。尤其是在自然语言处理（NLP）领域中，预训练和调参已经成为其中大多数任务的新范式。基于 Transformer 的预训练模型在自然语言理解（NLU）和自然语言生成（NLG）领域中成为主流。尽管这些模型从“过参数化”的特性中获益，但它们往往包含数百万甚至数十亿个参数，这就使得此类模型的计算成本高昂，且从内存消耗和高延迟的角度来看计算低效。这一缺陷极大地阻碍了此类模型在生产环境中的应用。

为了解决该问题，研究人员提出了很多神经网络压缩威廉希尔官方网站。一般而言，这些威廉希尔官方网站可以分为三类：量化、权重剪枝和知识蒸馏（Knowledge Distillation）。其中，由于知识蒸馏能够压缩预训练语言模型，所以得到了极大关注。知识蒸馏利用大型教师模型“教”紧凑的学生模型模仿教师的行为，从而将教师模型中嵌入的知识迁移到较小的模型中。但是，学生模型的性能状况取决于设计良好的蒸馏损失函数，正是这个函数使得学生模型可以模仿教师的行为。近期关于知识蒸馏的研究甚至利用更复杂的模型特定蒸馏损失函数，以实现更好的性能。

近日，来自微软亚洲研究院自然语言计算组的研究员们提出了一种与显式地利用蒸馏损失函数来最小化教师模型与学生模型距离的知识蒸馏不同的模型压缩新方法。受到著名哲学思想实验“忒修斯之船”的启发（即如果船上的木头逐渐被替换，直到所有的木头都不是原来的木头，那这艘船还是原来的那艘船吗？），研究员们在 EMNLP 2020 上发表了 Theseus Compression for BERT (BERT-of-Theseus)，该方法逐步将 BERT 的原始模块替换成参数更少的替代模块（点击文末阅读原文，了解论文详情）。研究员们将原始模型叫做“前辈”（predecessor），将压缩后的模型叫做“接替者”（successor），分别对应知识蒸馏中的教师和学生。

该方法的工作流程如下图所示。首先为每个前辈模块指定一个接替者模块，然后在训练阶段中以一定的概率（如抛硬币）决定是否用替代模块随机替换对应的前辈模块，并按照新旧模块组合的方式继续训练。在模型收敛后，将所有接替者模块组合成接替者模型，进而执行推断。这样就可以将大型前辈模型压缩成紧凑的接替者模型了。

举例来说，假设现在有两支篮球队每支各五人，一支是经验老道的全明星球队，另一支则是年轻球员组成的青训队。为了提高青训队的水平，所以随机选派青训队员去替换掉全明星队中的球员，然后让这个混合的球队不断地练习、比赛。通过向前辈学习经验，新加入成员的实力会有所提升，也能学会和其他队员的配合，逐渐的这个混合球队就拥有了接近全明星球队的实力。之后重复这个过程，直到青训队员都被充分训练，最终青训队员也能自己组成一支实力突出的球队。相比之下，如果没有“老司机”来带一带，青训队无论如何训练，水平也不会达到全明星队的实力。

事实上，Theseus 压缩与知识蒸馏的思路有些类似，都是鼓励压缩模型模仿原始模型的行为，但 Theseus 压缩有很多独特的优势。

首先，Theseus 压缩在压缩过程中仅使用任务特定的损失函数。而基于知识蒸馏的方法除了使用任务特定的损失函数外，还需加入繁琐的蒸馏损失函数作为优化目标。

其次，与近期研究 TinyBERT 等不同，Theseus 压缩不使用Transformer 特定特征进行压缩，这就为压缩广泛模型提供了可能性。与知识蒸馏仅使用原始模型执行推断不同，该方法允许前辈模型与压缩后的接替者模型共同训练，从而实现更深层次的梯度级交互，并简化训练过程。

此外，混合了前辈模块和接替者模块的不同模块组合还添加了额外的正则化项（类似于 Dropout）。该方法基于课程学习（Curriculum Learning）方法来驱动模块替换，将模块替换概率从低到高逐渐增加，从而实现优异的 BERT 压缩性能。利用Theseus 压缩方法压缩得到的 BERT 模型运算速度是之前的1.94 倍，并且保留了原始模型超过98% 的性能，优于其它基于知识蒸馏的压缩的基线方法。

通过在预训练语言模型 BERT 上的成功实验，微软亚洲研究院的研究员们希望可以为模型压缩打开一种全新的思路，并希望看到这一方法在计算机视觉等领域的更广泛应用。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6591

浏览量
104032
神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100721
函数

函数

+关注

关注
3

文章
4329

浏览量
62576

原文标题：【EMNLP2020】忒修斯之船启发下的知识蒸馏新思路 - 微软研究院

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

微软在东京开设日本首个研究基地

近日，微软在东京正式启用了其日本首个研究基地——微软亚洲研究院东京分院。作为微软在全球威廉希尔官方网站实验室

发表于 11-19 16:26 •243次阅读

天马与武进南大未来威廉希尔官方网站创新研究院达成战略合作

近日，天马新型显示威廉希尔官方网站 研究院（厦门）有限公司、上海天马微电子有限公司与武进南大未来威廉希尔官方网站创新研究院就Micro LED业务、非显传感业务达成战略合作。

发表于 11-14 11:53 •348次阅读

蓝思科技将新增昆山创新研究院，重点服务苹果

蓝思科技近日宣布，将新增一个重点研发机构，即蓝思昆山创新研究院，目前正在紧锣密鼓地建设中。该研究院的成立，标志着蓝思科技在研发领域的进一步拓展和深化。

发表于 10-28 16:25 •281次阅读

中国电信人工智能研究院完成首个全国产化万卡万参大模型训练

近日，中国电信人工智能研究院宣布了一项重大威廉希尔官方网站突破：成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型。

发表于 09-30 16:41 •1683次阅读

摩尔线程携手智源研究院完成基于Triton的大模型算子库适配

近日，摩尔线程与北京智源人工智能研究院（简称：智源研究院）已顺利完成基于Triton语言的高性能算子库FlagGems的适配工作。得益于摩尔线程自研统一系统计算架构MUSA，双方在短短一

发表于 08-02 11:06 •859次阅读

香港城市大学与富士康鸿海研究院成立联合研究中心

来源：富士康香港城市大学（城大）与鸿海科技集团（富士康）旗下的鸿海研究院共同成立了 "富士康-城大联合研究中心"。该中心旨在结合产学界的科研力量，推动人工智能、半导体、下一代通讯、信息安全和量子

发表于 06-21 14:37 •425次阅读

长沙北斗研究院总部基地正式奠基

长沙北斗研究院总部基地正式奠基日前长沙北斗研究院总部基地正式奠基，项目由长沙北斗研究院牵头建设；项目又名“北斗足迹”。项目一期预计2025年年底前建成投用。据悉，长沙北斗

发表于 05-16 12:49 •1195次阅读

航天宏图与天仪研究院合作共同推动遥感卫星数据应用创新

近日，航天宏图信息威廉希尔官方网站股份有限公司（以下简称“航天宏图”）与长沙天仪空间科技研究院有限公司（以下简称“天仪研究院”）正式签署战略合作框架协议。

发表于 04-23 17:11 •569次阅读

微软亚洲研究院发布VASA-1模型，实现图片人物自动言语表达

该模型，尤其擅长展现逼真的面部表情及各类情绪，且嘴唇动作高度拟真。然而，尽管研究员坦承目前仍有不足之处，如无法精准处理头发等纤维质元素，但相较于其他类似模型，VASA-1 的表现已属优异。

发表于 04-19 11:21 •524次阅读

本源入榜胡润研究院2024全球独角兽榜单!

4月9日，胡润研究院于广州发布《2024全球独角兽榜》，榜单列出了全球成立于2000年之后，价值10亿美元以上的非上市公司。本源量子成功入围该榜单，也是中国量子计算领域唯一入榜企业。来源：胡润

发表于 04-12 08:22 •472次阅读

依托广立微建设的浙江省集成电路EDA威廉希尔官方网站重点企业研究院正式挂牌

近日，依托广立微建设的浙江省集成电路 EDA 威廉希尔官方网站重点企业研究院正式挂牌，成为目前浙江EDA领域唯一的省级重点企业研究院。

发表于 04-03 10:14 •630次阅读

浙江图灵算力研究院向知存科技颁发“年度最具影响力企业奖”

近日，浙江图灵算力研究院生态伙伴联谊会在杭州举行，知存科技作为研究院生态企业之一，与赛迪研究院、中科院计算所、自动化所和中国RISC-V联盟

发表于 03-06 14:02 •790次阅读

谷歌DeepMind资深AI研究员创办AI Agent创企

近日，刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦，此前曾担任谷歌DeepMind的首席开发人员，自去年9月份以来，他是第4位离开谷歌Gemini

发表于 02-04 10:02 •784次阅读

广东腐蚀科学与威廉希尔官方网站创新研究院选购HS-DR-5导热系数测试仪

广东腐蚀科学与威廉希尔官方网站创新研究院，作为国内腐蚀科学领域的研究机构，一直致力于为科研工作提供设备与威廉希尔官方网站支持。近期，该研究院在导热系数测试方面做出了

发表于 01-12 14:04 •280次阅读

微软内部对亚洲研究院的未来持有不同看法

四位消息人士披露，微软内部曾考虑过关闭或搬迁MSRA，但高层领导普遍倾向于维持实验室在中国的运作。目前，微软已在加拿大温哥华设立MSR分中心，部分研究员已被调配至此。此举旨在作为备用安置点，以应对可能面临的

发表于 01-11 13:58 •574次阅读