0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

教你如何处理不平衡数据集

电子工程师 来源:fqj 2019-06-07 11:27 次阅读

分类是机器学习最常见的问题之一,处理它的最佳方法是从分析和探索数据集开始,即从探索式数据分析(Exploratory Data Analysis,EDA)开始。除了生成尽可能多的数据见解和信息,它还用于查找数据集中可能存在的任何问题。在分析用于分类的数据集时,类别不平衡是常见问题之一。

什么是数据不平衡(类别不平衡)?

数据不平衡通常反映了数据集中类别的不均匀分布。例如,在信用卡欺诈检测数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,如此以来,非欺诈交易和欺诈交易之间的比率达到50:1。本文中,我将使用来自Kaggle的信用卡欺诈交易数据数据集,你可以从这里下载

首先,我们先绘制类分布图,查看不平衡情况。

教你如何处理不平衡数据集

如你所见,非欺诈交易类型数据数量远远超过欺诈交易类型。如果我们在不解决这个类别不平衡问题的情况下训练了一个二分类模型,那么这个模型完全是有偏差的,稍后我还会向你演示它影响特征相关性的过程并解释其中的原因。

现在,我们来介绍一些解决类别不平衡问题的技巧,你可以在这里找到完整代码的notebook。

重采样(过采样和欠采样)

教你如何处理不平衡数据集

这听起来很直接。欠采样就是一个随机删除一部分多数类(数量多的类型)数据的过程,这样可以使多数类数据数量可以和少数类(数量少的类型)相匹配。

对多数类进行欠采样

对数据集进行欠采样之后,我重新画出了类型分布图(如下),可见两个类型的数量相等。

教你如何处理不平衡数据集

平衡数据集(欠采样)

第二种重采样威廉希尔官方网站 叫过采样,这个过程比欠采样复杂一点。它是一个生成合成数据的过程,试图学习少数类样本特征随机地生成新的少数类样本数据。对于典型的分类问题,有许多方法对数据集进行过采样,最常见的威廉希尔官方网站 是SMOTE(Synthetic Minority Over-sampling Technique,合成少数类过采样威廉希尔官方网站 )。简单地说,就是在少数类数据点的特征空间里,根据随机选择的一个K最近邻样本随机地合成新样本。

还记得我说过不平衡的数据会影响特征相关性吗?让我向您展示处理不平衡类问题前后的特征相关性。

重采样之后:

请注意,现在特征相关性更明显了。在解决不平衡问题之前,大多数特征并没有显示出相关性,这肯定会影响模型的性能。除了会关系到整个模型的性能,特征性相关性还会影响ML模型的性能,因此修复类别不平衡问题非常重要。

集成方法(采样器集成)

在机器学习中,集成方法会使用多种学习算法和威廉希尔官方网站 ,以获得比单独使用其中一个算法更好的性能(是的,就像一个民主投票系统)。当使用集合分类器时,bagging方法变得流行起来,它通过构建多个分类器在随机选择的不同数据集上进行训练。在scikit-learn库中,有一个名叫“Bagging Classifier”的集成分类器,然而这个分类器不能训练不平衡数据集。当训练不平衡数据集时,这个分类器将会偏向多数类,从而创建一个有偏差的模型。

为了解决这个问题,我们可以使用imblearn库中的BalancedBaggingClassifier。它允许在训练集成分类器中每个子分类器之前对每个子数据集进行重采样。

因此,BalancedBaggingClassifier除了需要和Scikit Learn BaggingClassifier相同的参数以外,还需要2个参数sampling_strategy和replacement来控制随机采样器的执行。

使用集合采样器训练不平衡数据集

这样,您就可以训练一个分类器来处理类别不平衡问题,而不必在训练前手动进行欠采样或过采样。总之,每个人都应该知道,建立在不平衡数据集上的ML模型会难以准确预测稀有点和少数点,整体性能会受到限制。因此,识别和解决这些点的不平衡对生成模型的质量和性能是至关重要的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8408

    浏览量

    132576
  • 数据分析
    +关注

    关注

    2

    文章

    1446

    浏览量

    34051

原文标题:一文教你如何处理不平衡数据集(附代码)

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何理解矢量测量中“平衡”与“不平衡

    在矢量测试中,经常需要测量信号的不平衡性,会遇到相关的几个名词:Balance(平衡),Unbalance(不平衡/非平衡)和Imbalance(
    发表于 03-29 10:51 2794次阅读
    如何理解矢量测量中“<b class='flag-5'>平衡</b>”与“<b class='flag-5'>不平衡</b>

    不平衡型AFC电路

    不平衡型AFC电路 如图不平衡型AFC电路,它由鉴相器,比较锯齿波形成电路,
    发表于 08-05 23:52 1713次阅读
    <b class='flag-5'>不平衡</b>型AFC电路

    不平衡数据上的Relief特征选择算法_菅小艳

    不平衡数据上的Relief特征选择算法_菅小艳
    发表于 01-08 10:40 1次下载

    基于主动学习不平衡多分类AdaBoost改进算法

    ,基于不确定性动态间隔的样本选择策略,降低训练不平衡性;最后,利用代价敏感方法对多分类AdaBoost算法进行改进,对不同的类别给予不同的错分代价,调整样本权重更新速度,强迫弱分类器关注小类样本。在临床经胸超声心动图(TTE)测量
    发表于 11-30 17:12 3次下载

    手把手教你解决-深度学习训练数据不平衡问题

    当我们解决任何机器学习问题时,我们面临的最大问题之一是训练数据不平衡不平衡数据的问题在于学术界对于相同的定义、含义和可能的解决方案存在分歧。我们将尝试用图像分类问题来解开训练
    的头像 发表于 07-24 13:34 8410次阅读

    三相电压不平衡产生原因_三相电压不平衡的治理措施

    电力系统中三相电压不平衡产生的主要原因是负荷的不平衡和系统阻抗的不平衡。其中负荷的不平衡是造成三相电压不平衡的主要原因,比较明显的单相负荷由
    的头像 发表于 10-28 16:43 2.5w次阅读

    三相不平衡有哪些处理方法

    在三相交流系统中,三相电压或电流在幅值上相同或相位差为120度,反之则判断为三相不平衡不平衡问题的处理有负荷补偿、负荷相序平衡、配网重构等方式来
    的头像 发表于 11-22 17:47 2.2w次阅读

    为什么三相变频电源出现不平衡?如何处理

      为什么三相变频电源会出现不平衡:   (1)在配电网侧,存在大量不平衡的单相负载,导致配电站的区域。在大多数地区,三相不平衡程度不同。   (2)用户用电过程的随机性和不确定性,以及日益增加
    的头像 发表于 03-24 09:52 1806次阅读
    为什么三相变频电源出现<b class='flag-5'>不平衡</b>?如<b class='flag-5'>何处理</b>?

    电机转子不平衡对电机质量的影响大吗

    转子不平衡对电机质量的影响有哪些?小编将分析转子机械不平衡产生的振动和噪声问题。
    发表于 08-30 10:51 879次阅读

    三相不平衡是什么意思?三相电压不平衡怎么处理

    三相不平衡是什么意思?三相电压不平衡怎么处理?  三相不平衡是指三相电压或电流的幅度或相位不同,这会导致电力系统的不稳定、效率低下、设备寿命短等问题。在三相电力系统中,三相电压应该相等
    的头像 发表于 09-25 17:36 3967次阅读

    三相电压不平衡是什么原因造成的?三相不平衡会跳闸吗?

    三相电压不平衡是什么原因造成的?三相不平衡会跳闸吗?三相不平衡度允许范围  三相电压不平衡是指三相电源电压之间的差异,通常是由电源系统出现故障或不良设计引起的。
    的头像 发表于 09-25 17:36 7277次阅读

    I/Q不平衡的来源 IQ信道之间的不平衡会造成什么影响呢?

    字通信中,I/Q不平衡可能导致信号失真、干扰甚至数据丢失,特别是在高速数据传输和高频率应用中。 I/Q不平衡的来源可以分类为硬件和软件因素。硬件因素包括电子元器件毛刺、电缆或传输线路失
    的头像 发表于 10-31 09:34 1143次阅读

    为什么三相变频电源出现不平衡?如何处理

    为什么三相变频电源出现不平衡?如何处理? 三相变频电源出现不平衡的原因有很多,主要包括电源输入问题、电源负载问题和控制系统问题等。下面将详细探讨这些问题以及如何处理。 首先,电源输入问
    的头像 发表于 11-16 11:06 2120次阅读

    三相电压不平衡对电路的影响

    三相电压不平衡对电路的影响 三相电压不平衡是指三相电网中三个相电压的幅值和相位不一致,造成电压波形不对称的情况。常见的三相电压不平衡情况包括电压幅值不平衡、相位
    的头像 发表于 12-11 17:16 2592次阅读

    三相不平衡最佳解决办法 三相不平衡多少范围内是合理的

    三相不平衡最佳解决办法 在电力系统中,三相不平衡是指三个相之间电压或电流不相等的现象。当三相不平衡的情况发生时,可能会导致线路过载、设备寿命缩短、电能损耗增加等问题。因此,解决三相不平衡
    的头像 发表于 02-06 10:07 3178次阅读