机器学习的任务：从学术论文中学习数据预处理-电子发烧友网

作为工作中最关键的部分，数据预处理同时也是大多数数据科学家耗时最长的项目，他们大约80%的时间花在这上面。

这些任务有怎样重要性？有哪些学习方法和技巧？本文就将重点介绍来自著名大学和研究团队在不同培训数据主题上的学术论文。主题包括人类注释者的重要性，如何在相对较短的时间内创建大型数据集，如何安全处理可能包含私人信息的训练数据等等。

1. 人类注释器（human annotators）是多么重要？

机器学习的任务：从学术论文中学习数据预处理

本文介绍了注释器质量如何极大地影响训练数据，进而影响模型的准确性的第一手资料。在这个情绪分类项目里，Joef Stefan研究所的研究人员用多种语言分析了sentiment-annotated tweet的大型数据集。

有趣的是，该项目的结果表明顶级分类模型的性能在统计学上没有重大差异。相反，人类注释器的质量是决定模型准确性的更大因素。

为了评估他们的注释器，团队使用了注释器之间的认同过程和自我认同过程。研究发现，虽然自我认同是去除表现不佳的注释器的好方法，但注释者之间的认同可以用来衡量任务的客观难度。

研究论文：《多语言Twitter情绪分类：人类注释器的角色》（MultilingualTwitter Sentiment Classification： The Role of Human Annotators）

作者/供稿人：Igor Mozetic， Miha Grcar， Jasmina Smailovic（所有作者均来自Jozef Stefan研究所）

出版/最后更新日期：2016年5月5日

2.机器学习的数据收集调查

机器学习的任务：从学术论文中学习数据预处理

这篇论文来自韩国先进科学威廉希尔官方网站研究所的一个研究团队，非常适合那些希望更好地了解数据收集、管理和注释的初学者。此外，本文还介绍和解释了数据采集、数据扩充和数据生成的过程。

对于刚接触机器学习的人来说，这篇文章是一个很好的资源，可以帮助你了解许多常见的威廉希尔官方网站，这些威廉希尔官方网站可以用来创建高质量的数据集。

研究论文：《机器学习的数据收集调查》（A Survey on Data Collection for MachineLearning）

作者/供稿人： Yuji Roh， Geon Heo， Steven Euijong Whang （所有作者均来自韩国科学威廉希尔官方网站院）

出版/最后更新日期：2019年8月12日

3.用于半监督式学习和迁移学习的高级数据增强威廉希尔官方网站

机器学习的任务：从学术论文中学习数据预处理

目前数据科学家面临的最大问题之一就是获得训练数据。也可以说，深度学习所面临最大的问题之一，是大多数模型都需要大量的标签数据才能以较高的精度发挥作用。

为了解决这些问题，来自谷歌和卡内基·梅隆大学的研究人员提出了一个在大幅降低数据量的情况下训练模型的框架。该团队提出使用先进的数据增强方法来有效地将噪音添加到半监督式学习模型中使用的未标记数据样本中，这个框架能够取得令人难以置信的结果。

该团队表示，在IMDB文本分类数据集上，他们的方法只需在20个标记样本上进行训练，就能够超越最先进的模型。此外，在CIFAR-10基准上，他们的方法表现优于此前所有的方法。

论文题目：《用于一致性训练的无监督数据增强》（UnsupervisedData Augmentation for Consistency Training）

作者/供稿人：Qizhe Xie （1，2）， Zihang Dai （1，2）， Eduard Hovy （2），Minh-Thang Luong （1）， Quoc V. Le （1）（1 – Google研究院，谷歌大脑团队， 2 – 卡耐基·梅隆大学）

发布日期 / 最后更新：2019年9月30日

4.利用弱监督对大量数据进行标注

对于许多机器学习项目来说，获取和注释大型数据集需要花费大量的时间。在这篇论文中，来自斯坦福大学的研究人员提出了一个通过称为“数据编程”的过程自动创建数据集的系统。

机器学习的任务：从学术论文中学习数据预处理

上表是直接从论文中提取的，使用数据编程（DP）显示了与远程监督的ITR方法相比的精度、召回率和F1得分。

该系统采用弱监管策略来标注数据子集。产生的标签和数据可能会有一定程度的噪音。然而，该团队随后通过将训练过程表示为生成模型，从数据中去除噪音，并提出了修改损失函数的方法，以确保它对“噪音感知”。

研究论文：《数据编程：快速创建大型训练集》（DataProgramming： Creating Large Training Sets， Quickly）

作者/供稿人：Alexander Ratner， Christopher De Sa， Sen Wu， DanielSelsam， Christopher Re（作者均来自斯坦福大学）

发布/最后更新日期：2017年1月8日

5.如何使用半监督式知识转移来处理个人身份信息（PII）

机器学习的任务：从学术论文中学习数据预处理

来自谷歌和宾夕法尼亚州立大学的研究人员介绍了一种处理敏感数据的方法，例如病历和用户隐私信息。这种方法被称为教师集合私有化（PATE），可以应用于任何模型，并且能够在MNIST和SVHN数据集上实现最先进的隐私/效用权衡。

然而，正如数据科学家Alejandro Aristizabal在文章中所说，PATE所设计的一个主要问题为该框架要求学生模型与教师模型共享其数据。在这个过程中，隐私得不到保障。

为此Aristizabal提出了一个额外的步骤，为学生模型的数据集加密。你可以在他的文章Making PATEBidirectionally Private中读到这个过程，但一定要先阅读其原始研究论文。

论文题目：《从隐私训练数据进行深度学习的半监督式知识转移》（Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data）

作者/供稿人：Nicolas Papernot（宾夕法尼亚州立大学）、Martin Abadi（谷歌大脑）、Ulfar Erlingsson（谷歌）、Ian Goodfellow（谷歌大脑）、Kunal Talwar（谷歌大脑）。

发布日期 / 最后更新：2017年3月3日

阅读顶尖学术论文是了解学术前沿的不二法门，同时也是从他人实践中内化重要知识、学习优秀研究方法的好办法，多读读论文绝对会对你有帮助。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8408

浏览量
132576
论文

论文

+关注

关注
1

文章
103

浏览量
14956
数据预处理

数据预处理

+关注

关注
1

文章
20

浏览量
2756

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

Learning，简称ML）是人工智能的一个核心领域，它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器

发表于 12-05 15:21 •457次阅读

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析学习，这就使得它逐渐成为智

发表于 11-16 01:07 •387次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机

发表于 11-15 09:19 •434次阅读

eda在机器学习中的应用

在机器学习项目中，数据预处理和理解是成功构建模型的关键。探索性数据分析（EDA）是这一过程中不可或缺的一部分。 1.

发表于 11-13 10:42 •293次阅读

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多威廉希尔官方网站，但其中一个很大的子集是机器学习——让算法从数据中学习。

发表于 10-24 17:22 •2480次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析

发表于 08-14 18:00

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器

发表于 07-10 16:10 •1728次阅读

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从数据

发表于 07-09 15:57 •397次阅读

深度学习在视觉检测中的应用

深度学习是机器学习领域中的一个重要分支，其核心在于通过构建具有多层次的神经网络模型，使计算机能够从大量数据中自动

发表于 07-08 10:27 •706次阅读

迁移学习的基本概念和实现方法

迁移学习（Transfer Learning）是机器学习领域中的一个重要概念，其核心思想是利用在一个任务或领域中学到的知识来加速或改进另一个

发表于 07-04 17:30 •1620次阅读

人工神经网络与传统机器学习模型的区别

在人工智能领域，机器学习和神经网络是两个核心概念，它们各自拥有独特的特性和应用场景。虽然它们都旨在使计算机系统能够自动从数据中学习和提升，但

发表于 07-04 14:08 •1253次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的

发表于 07-02 11:25 •1002次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型

发表于 07-02 11:22 •614次阅读

数据预处理和特征工程的常用功能

机器学习最基础的5个流程，分别是数据获取，数据预处理，特征工程，建模、测试和预测，上线与部署。

发表于 01-25 11:26 •747次阅读

什么是机器学习？它的重要性体现在哪

任务的解决方法。机器学习的重要性体现在几个方面数据处理能力：在当今数字化时代，我们产生了大量的数据。机器

发表于 01-05 08:27 •1580次阅读

搜索历史

机器学习的任务：从学术论文中学习数据预处理

评论

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

什么是机器学习？通过机器学习方法能解决哪些问题？

NPU与机器学习算法的关系

eda在机器学习中的应用

人工智能、机器学习和深度学习存在什么区别

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

机器学习中的数据分割方法

机器学习中的数据预处理与特征工程

深度学习在视觉检测中的应用

迁移学习的基本概念和实现方法

人工神经网络与传统机器学习模型的区别

机器学习算法原理详解

机器学习在数据分析中的应用

数据预处理和特征工程的常用功能

什么是机器学习？它的重要性体现在哪