0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

半监督学习代码库存在的问题与挑战

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-10-18 16:28 次阅读

当使用监督学习(Supervised Learning)对大量高质量的标记数据(Labeled Data)进行训练时,神经网络模型会产生有竞争力的结果。例如,根据Paperswithcode网站统计,在ImageNet这一百万量级的数据集上,传统的监督学习方法可以达到超过88%的准确率。然而,获取大量有标签的数据往往费时费力。

为了缓解对标注数据的依赖,「半监督学习」(Semi-supervised Learning/SSL)致力于在仅有「少量」的标注数据时利用「大量无标签」数据(Unlabeled Data)来提升模型的泛化性。半监督学习亦是机器学习的重要主题之一。深度学习之前,这一领域的研究者们提出了诸如半监督支持向量机、熵正则化、协同训练等经典算法

深度半监督学习

随着深度学习的兴起,「深度」半监督学习算法也取得了长足的进步。同时,包括Google、Meta和微软等在内的科技巨头也认识到了半监督学习在实际场景中的巨大潜力。例如,Google利用噪声学生训练(Noisy student training)这一半监督算法提高了其在搜索方面的性能[1]。当前最具代表性的半监督算法通常对标注数据使用交叉熵损失进行训练,对无标注数据使用「一致性正则」威廉希尔官方网站 (Consistency Regularization)鼓励对输入扰动进行不变预测。例如,Google在NeurIPS 2020提出的FixMatch[2]算法利用增强锚定(Augmentation Anchoring)和固定阈值(Fixed Thresholding)威廉希尔官方网站 来增强模型对不同强增强数据的泛化性和减少噪声伪标签(Noisy Pseudo Labels)的影响。在训练中,FixMatch过滤了低于用户指定(user-provided / pre-defined)阈值的无标签数据。

微软亚洲研究院与东京工业大学等在NeurIPS 2021合作提出的FlexMatch[3]则考虑到了「不同类」之间的学习难度不同,因此提出了「课程伪标签」(Curriculum Pseudo Labeling)威廉希尔官方网站 对于不同类应该采用不同的阈值。具体来说,对于容易学习的类别,模型应该设置高阈值以降低噪声伪标签的影响;对于难学习的类,模型应该设置低阈值鼓励该类的拟合。每个类的学习难度评估取决于落入该类且高于固定值的未标记数据样本的数量。

同时,研究员和这些学校还合作提出了一个统一的基于Pytorch的半监督方法代码库「TorchSSL」[4],对该领域的深度方法、常用数据集、和基准结果进行了统一的支持。

3e74bd92-4ded-11ed-a3b6-dac502259ad0.png

当前「半监督学习代码库存在的问题与挑战」

尽管半监督学习的发展如火如荼,但是,研究员们注意到目前大部分半监督论文「只关注」计算机视觉 (CV) 分类任务,而「其他领域」(例如自然语言处理 (NLP)、音频处理 (Audio))研究者无法得知这些在CV任务上有效的算法是否依然有效。另外,大部分半监督论文都是由谷歌,微软等大型机构发表的,学术界的实验室往往由于计算资源的限制不能一起推动半监督领域的发展。总的来说,半监督学习基准目前存在以下两个问题:

(1)多样性不足。现有的半监督学习基准大多局限于计算机视觉 (CV) 分类任务(即 CIFAR-10/100,SVHN,STL-10 和 ImageNet 分类),「排除了对自然语言处理 (NLP)、音频处理 (Audio) 等分类任务的一致和多样化评估,而在NLP和Audio中缺乏足够的标记数据也是一个普遍问题。」

(2)耗时且对学术界不友好。现有的半监督学习基准(如TorchSSL)通常是耗时且不环保的,因为它需要通常从头开始训练深度神经网络模型。具体而言,使用 TorchSSL评估FixMatch[1]大约需要「300」GPU日。如此高的训练成本使得许多研究实验室(尤其是学术界的实验室或小研究团体)无法负担得起SSL的相关研究,从而阻碍了SSL的进展。

USB: 任务多样化和对研究者更友好的新基准库

微软亚洲研究院的研究员们联合西湖大学、东京工业大学、卡内基梅隆大学、马克斯-普朗克研究所等机构的研究人员们提出了「USB」:第一个将「视觉,语言,和音频」分类任务进行统一的半监督分类学习基准。相比于之前的半监督学习基准(如TorchSSL)只关注少量视觉任务,该论文不仅引入更多样化的应用领域,还「首次」利用视觉预训练模型(Pretrained Vision Transformer)大大缩减了半监督算法的验证时间(「从7000GPU时缩减至900GPU时」),使得半监督研究对研究者、特别是小研究团体更友好。USB的相关论文已被国际人工智能顶会NeurIPS 2022接收。

USB

「USB提供的解决方案」

那么,USB如何一次性解决当前半监督基准存在的问题呢?研究员们进行了如下的改进:

(1)为增强任务多样性,USB引入了5个CV 数据集,5个NLP数据集和5个音频数据集提供了一个多样化且具有挑战性的基准,从而能够对来自不同领域的多个任务进行一致的评估。下表提供了USB与TorchSSL的任务和训练时间等方面的详细对比。

(2)为提高训练效率,研究员们将预训练的Vision Transformer引入SSL,而不是从头训练ResNets。具体而言,研究员们发现在「不影响性能」的情况下使用预训练模型可以大大减少训练迭代次数(例如,将 CV 任务的训练迭代次数从100万步减少到「20」万步)。(3)为了对研究人员更加友好,研究员们开源实现了14种 SSL算法并开源了一个模块化代码库和相关的配置文件以供研究者轻松再现USB报告中的结果。为了快速上手,USB还提供详细的文档和教程。此外,USB还提供pip包」以供使用者直接调用SSL算法。研究员们承诺未来会在USB中不断加入新的算法(例如不平衡半监督算法等)和更多更具挑战性的数据集。

总结

半监督学习通过利用大量无标签数据来训练更精确、更鲁棒的模型,在未来有着重要的研究和应用价值。研究员们期待通过USB这一工作,能够予力学术界和工业界在半监督学习领域取得更大的进展。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4780

    浏览量

    68539
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121117
  • 半监督学习
    +关注

    关注

    0

    文章

    20

    浏览量

    2518

原文标题:NIPS'22 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于监督学习的跌倒检测系统设计_李仲年

    基于监督学习的跌倒检测系统设计_李仲年
    发表于 03-19 19:11 4次下载

    基于监督学习框架的识别算法

    问题,对半监督学习中的协同训练算法进行改进,提出了一种基于多学习器协同训练模型的人体行为识别方法.这是一种基于监督学习框架的识别算法,该方法首先通过基于Q统计量的
    发表于 01-21 10:41 1次下载

    你想要的机器学习课程笔记在这:主要讨论监督学习和无监督学习

    with experience E(一个程序从经验E中学习解决任务T进行某一任务量度P,通过P测量在T的表现而提高经验E(另一种定义:机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。) 不同类型的机器学习算法:主要
    发表于 12-03 17:12 551次阅读

    如何使用优化图的监督学习进行行人检测的详细资料说明

     行人检测是当前机器视觉领域的挑战性课题之一。为了提高行人检测效率,提出一种基于优化图的监督学习的行人检测算法。首先,提取每幅图像的形状上下文特征,并采用选择性搜索提取出行人候选区域建议框;然后
    发表于 12-21 17:23 5次下载

    如何用Python进行无监督学习

    监督学习是一种用于在数据中查找模式的机器学习威廉希尔官方网站 。无监督算法给出的数据不带标记,只给出输入变量(X),没有相应的输出变量。在无监督学习中,算法自己去发现数据中有趣的结构。
    的头像 发表于 01-21 17:23 4253次阅读

    谷歌:监督学习其实正在悄然的进化

    上图可以看出来,最开始的时候,监督学习训练确实有种提升监督学习效果的趋势,然而实际操作中,我们经常陷入从“可怕又不可用”的状态,到“不那么可怕但仍然完全不可用”。
    的头像 发表于 05-25 09:58 2944次阅读
    谷歌:<b class='flag-5'>半</b><b class='flag-5'>监督学习</b>其实正在悄然的进化

    聚焦 | 新威廉希尔官方网站 “红”不过十年?监督学习却成例外?

    就目前来看,监督学习是一个很有潜力的方向。
    的头像 发表于 06-18 17:24 2540次阅读

    机器学习算法中有监督和无监督学习的区别

    监督学习的好处之一是,它不需要监督学习必须经历的费力的数据标记过程。但是,要权衡的是,评估其性能的有效性也非常困难。相反,通过将监督学习算法的输出与测试数据的实际标签进行比较,可以很容易地衡量
    的头像 发表于 07-07 10:18 5758次阅读

    最基础的监督学习

    导读 最基础的监督学习的概念,给大家一个感性的认识。 监督学习(SSL)是一种机器学习威廉希尔官方网站 ,其中任务是从一个小的带标签的数据集和相对较大
    的头像 发表于 11-02 16:08 2649次阅读

    监督学习最基础的3个概念

    导读 今天给大家介绍监督学习中的3个最基础的概念:一致性正则化,熵最小化和伪标签,并介绍了两个经典的监督学习方法。 没看一的点这里哈:
    的头像 发表于 11-02 16:14 2956次阅读
    <b class='flag-5'>半</b><b class='flag-5'>监督学习</b>最基础的3个概念

    为什么监督学习是机器学习的未来?

    为什么监督学习是机器学习的未来。 监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,
    的头像 发表于 11-27 10:42 3899次阅读

    监督学习:比监督学习做的更好

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精...
    的头像 发表于 12-08 23:32 1407次阅读

    基于特征组分层和监督学习的鼠标轨迹识别方法

    传统时间序列分类方法存在鼠标轨迹特征挖掘不充分、数据不平衡与标记样本量少等问题,造成识别效果较差。结合特征组分层和监督学习,提出一种鼠标轨迹识别方法。通过不同视角构建有层次的鼠标轨迹特征组,并借鉴
    发表于 05-13 15:41 9次下载

    机器学习中的无监督学习应用在哪些领域

    监督学习|机器学习| 集成学习|进化计算| 非监督学习| 监督学习| 自
    发表于 01-20 10:52 4962次阅读
    机器<b class='flag-5'>学习</b>中的无<b class='flag-5'>监督学习</b>应用在哪些领域

    跨解剖域自适应对比监督学习方法解析

    监督学习中,一个典型的例子是 Mean-Teacher。与对抗网络类似,其整体架构包含了两个网络:teacher 网络和 student 网络。
    发表于 04-14 14:37 1301次阅读