机器学习算法常用指标汇总-电子发烧友网

机器学习性能评价标准是模型优化的前提，在设计机器学习算法过程中，不同的问题需要用到不同的评价标准，本文对机器学习算法常用指标进行了总结。

考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（True negative）,正类被预测成负类则为假负类（false negative）。

TP：正确肯定的数目；

FN：漏报，没有正确找到的匹配的数目；

FP：误报，给出的匹配是不正确的；

TN：正确拒绝的非匹配对数；

列联表如下表所示，1代表正类，0代表负类：

1. TPR、FPR&TNR

从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为

TPR = TP / (TP +FN)

刻画的是分类器所识别出的正实例占所有正实例的比例。

另外一个是负正类率(false positive rate,FPR),计算公式为

FPR = FP / (FP + TN)

计算的是分类器错认为正类的负实例占所有负实例的比例。

还有一个真负类率（True Negative Rate，TNR），也称为specificity，计算公式为

TNR = TN /(FP +TN) = 1 - FPR

2. 精确率Precision、召回率Recall和F1值

精确率（正确率）和召回率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。

一般来说，Precision就是检索出来的条目（比如：文档、网页等）有多少是准确的，Recall就是所有准确的条目有多少被检索出来了，两者的定义分别如下：

Precision = 提取出的正确信息条数 / 提取出的信息条数

Recall = 提取出的正确信息条数 / 样本中的信息条数

为了能够评价不同算法的优劣，在Precision和Recall的基础上提出了F1值的概念，来对Precision和Recall进行整体评价。F1的定义如下：

F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

不妨举这样一个例子：

某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：

正确率 = 700 / (700 + 200 + 100) = 70%

召回率 = 700 / 1400 = 50%

F1值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽，这些指标又有何变化：

正确率 =1400 / (1400 +300 + 300) = 70%

召回率 =1400 / 1400 = 100%

F1值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

由此可见，正确率是评估捕获的成果中目标成果所占得比例；召回率，顾名思义，就是从关注领域中，召回目标类别的比例；而F值，则是综合这二者指标的评估指标，用于综合反映整体的指标。

当然希望检索结果Precision越高越好，同时Recall也越高越好，但事实上这两者在某些情况下有矛盾的。比如极端情况下，我们只搜索出了一个结果，且是准确的，那么Precision就是100%，但是Recall就很低；而如果我们把所有结果都返回，那么比如Recall是100%，但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究，可以绘制Precision-Recall曲线来帮助分析。

3. 综合评价指标F-measure

Precision和Recall指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score）。

F-Measure是Precision和Recall加权调和平均：

当参数α=1时，就是最常见的F1。因此，F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效。

4. ROC曲线和AUC

4.1 为什么引入ROC曲线？

Motivation1：在一个二分类模型中，对于所得到的连续结果，假设已确定一个阀值，比如说 0.6，大于这个值的实例划归为正类，小于这个值则划到负类中。如果减小阀值，减到0.5，固然能识别出更多的正类，也就是提高了识别出的正例占所有正例的比类，即TPR,但同时也将更多的负实例当作了正实例，即提高了FPR。为了形象化这一变化，引入ROC，ROC曲线可以用于评价一个分类器。

Motivation2：在类不平衡的情况下,如正样本90个,负样本10个,直接把所有样本分类为正样本,得到识别率为90%。但这显然是没有意义的。单纯根据Precision和Recall来衡量算法的优劣已经不能表征这种病态问题。

4.2 什么是ROC曲线？

ROC（Receiver Operating Characteristic）翻译为"接受者操作特性曲线"。曲线由两个变量1-specificity 和 Sensitivity绘制. 1-specificity=FPR，即负正类率。Sensitivity即是真正类率，TPR(True positive rate),反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。

此外，ROC曲线还可以用来计算“均值平均精度”（mean average precision），这是当你通过改变阈值来选择最好的结果时所得到的平均精度（PPV）。

为了更好地理解ROC曲线，我们使用具体的实例来说明：

如在医学诊断中,判断有病的样本。那么尽量把有病的揪出来是主要任务,也就是第一个指标TPR,要越高越好。而把没病的样本误诊为有病的,也就是第二个指标FPR,要越低越好。

不难发现,这两个指标之间是相互制约的。如果某个医生对于有病的症状比较敏感,稍微的小症状都判断为有病,那么他的第一个指标应该会很高,但是第二个指标也就相应地变高。最极端的情况下,他把所有的样本都看做有病,那么第一个指标达到1,第二个指标也为1。

我们以FPR为横轴,TPR为纵轴,得到如下ROC空间。

我们可以看出,左上角的点(TPR=1,FPR=0),为完美分类,也就是这个医生医术高明,诊断全对。点A(TPR>FPR),医生A的判断大体是正确的。中线上的点B(TPR=FPR),也就是医生B全都是蒙的,蒙对一半,蒙错一半;下半平面的点C(TPR

还是一开始的那幅图,假设如下就是某个医生的诊断统计图,直线代表阈值。我们遍历所有的阈值,能够在ROC平面上得到如下的ROC曲线。

曲线距离左上角越近,证明分类器效果越好。

如上,是三条ROC曲线,在0.23处取一条直线。那么,在同样的低FPR=0.23的情况下,红色分类器得到更高的PTR。也就表明,ROC越往上,分类器效果越好。我们用一个标量值AUC来量化它。

4.3 什么是AUC？

AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。

0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。

AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。

AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

AUC的物理意义：假设分类器的输出是样本属于正类的socre（置信度），则AUC的物理意义为，任取一对（正、负）样本，正样本的score大于负样本的score的概率。

4.4 怎样计算AUC？

第一种方法:AUC为ROC曲线下的面积,那我们直接计算面积可得。面积为一个个小的梯形面积之和。计算的精度与阈值的精度有关。

第二种方法:根据AUC的物理意义,我们计算正样本score大于负样本的score的概率。取N*M(N为正样本数,M为负样本数)个二元组,比较score,最后得到AUC。时间复杂度为O(N*M)。

第三种方法:与第二种方法相似,直接计算正样本score大于负样本的概率。我们首先把所有样本按照score排序,依次用rank表示他们,如最大score的样本,rank=n(n=N+M),其次为n-1。那么对于正样本中rank最大的样本,rank_max,有M-1个其他正样本比他score小,那么就有(rank_max-1)-(M-1)个负样本比他score小。其次为(rank_second-1)-(M-2)。最后我们得到正样本大于负样本的概率为

时间复杂度为O(N+M)。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8408

浏览量
132576

原文标题：机器学习算法常用指标总结

文章出处：【微信号：AI_shequ，微信公众号：人工智能爱好者社区】欢迎添加关注！文章转载请注明出处。

机器学习模型评估指标

机器学习模型指标在机器学习建模过程中，针对不同的问题，需采用不同的模型评估指标。

发表于 09-06 12:51 •1106次阅读

<b class='flag-5'>机器</b><b class='flag-5'>学习</b>模型评估<b class='flag-5'>指标</b>

【阿里云大学免费精品课】机器学习入门：概念原理及常用算法

摘要：阿里云大学联合蚂蚁金服高级算法专家推出了免费的机器学习入门课程：机器学习入门：概念原理及常用

发表于 06-23 13:51

常用python机器学习库盘点

现在人工智能非常火爆，机器学习应该算是人工智能里面的一个子领域，而其中有一块是对文本进行分析，对数据进行深入的挖掘提取一些特征值，然后用一些算法去学习,训练,分析,甚至还能预测，那么P

发表于 05-10 15:20

单片机常用PID滤波算法资料汇总

单片机常用PID滤波算法资料汇总

发表于 05-21 11:45 •26次下载

经典的机器学习算法汇总

本文将用一句话来总结每种典型的机器学习算法，帮你抓住问题的本质，强化理解和记忆。

发表于 08-11 10:24 •5880次阅读

10大常用机器学习算法汇总

本文介绍了10大常用机器学习算法，包括线性回归、Logistic回归、线性判别分析、朴素贝叶斯、KNN、随机森林等。

发表于 11-20 11:10 •2788次阅读

流形学习LLE算法的配套Matlab源码汇总

流形学习LLE算法的配套Matlab源码汇总

发表于 08-25 09:30 •1次下载

17个机器学习的常用算法

根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器

发表于 08-11 11:20 •1801次阅读

17个机器学习的常用算法！

源自：AI知识干货根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器

发表于 08-22 09:57 •2196次阅读

常用机器学习算法的基本概念和特点

。因此对于数据科学家来说，理解算法显得格外重要，理解不同算法的思想可以帮助数据科学家更从容地面对不同的应用场景。本文列出了常用的机器学习

发表于 01-17 15:43 •3550次阅读

机器学习算法的5种基本算子

自主决策的方法和插件，其中包含了一系列常用的基本算子。在本文中，我们将会介绍机器学习算法的五种基本算子。一、求值算子求值算子是常用的

发表于 08-17 16:11 •1790次阅读

机器学习算法汇总机器学习算法分类机器学习算法模型

是解决具体问题的一系列步骤，机器学习的算法被设计用于从大量的数据中自动学习并不断改进自身的性能。本文将为大家介绍机器

发表于 08-17 16:11 •1100次阅读

机器学习算法总结机器学习算法是什么机器学习算法优缺点

机器学习算法总结机器学习算法是什么?机器

发表于 08-17 16:11 •1902次阅读

机器学习算法入门机器学习算法介绍机器学习算法对比

机器学习算法入门机器学习算法介绍机器

发表于 08-17 16:27 •948次阅读

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

机器学习有哪些算法？机器学习分类算法有哪些？机器

发表于 08-17 16:30 •1988次阅读

搜索历史

机器学习算法常用指标汇总

评论

机器学习模型评估指标

【阿里云大学免费精品课】机器学习入门：概念原理及常用算法

常用python机器学习库盘点

单片机常用PID滤波算法资料汇总

经典的机器学习算法汇总

10大常用机器学习算法汇总

流形学习LLE算法的配套Matlab源码汇总

17个机器学习的常用算法

17个机器学习的常用算法！

常用机器学习算法的基本概念和特点

机器学习算法的5种基本算子

机器学习算法汇总机器学习算法分类机器学习算法模型

机器学习算法总结机器学习算法是什么机器学习算法优缺点

机器学习算法入门机器学习算法介绍机器学习算法对比

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？