Ground-truth(真值)是什么?
Ground-truth在机器学习中表示有监督学习的训练集的分类准确性,用于证明或者推翻某个假设。有监督的机器学习会对训练数据打标记,将那些正确打标记的数据成为ground truth。Ground truth就是参考标准,一般用来做误差量化,最终用于验证分类算法的准确性。真值标定的输入一般是视频文件。真值标定既可以手动一帧一帧地标定,也可以半自动化标定后再手工修正,最终可以将结果保存成真值数据库。
Ground-truth在自动驾驶汽车产业具有很高的的附加值,它涉及以下数据处理流程:数据采集、数据标注、模型训练、应用、验证。拥有最高质量Ground-truth数据的公司将会处于自动驾驶汽车的最前沿。
Ground-truth质量影响算法质量。
一、Ground-truth数据面临哪些挑战
丢失或模糊的对象
不一致的标记(行人手中有物体或没有物体)
不同种类车辆之间不明确的边界
系统性的标记误差
不精确性
定义不佳的需求
1.1 丢失或模糊的对象
1.2 不一致的标记 (行人手中有物体或没有物体)
1.3 不同种类车辆之间不明确的边界
1.4 系统化标记误差
原始的标记框不精确,通过对顶部和底部的修正以及更详细的注释使得标记框更加精确。
二、实验:Ground Truth质量对于算法性能的影响
2.1 实验
我们展示了标记框实验的初步结果
1. 复合分类(定义不佳的标签需求)
2. 不精确的真值标记
复合分类
图中骑车人和行人被标记了出来,自行车没有被标记出来。
2.2 复合Caltech:新数据集
行人与携带行李的行人的对比
Caltech完成了从原始不精确标记框到更为精确的标记框,再到高质量复合型标记框的转变。
2.3 复合型Caltech训练
1. 用于重复性结果的框外物体检测器
2. 体系结构:更快的 rcnn_resnet101_coco (coco预训练)
3. Caltech数据库微调(任何一个变量都有一个独立的模型,没有超参数调优)
2.4 Caltech检测器评估
Caltech | 改进的Caltech | 复合Caltech | |
mAP@0.5 | 0.2170 | 0.3030 | 0.2916 |
初步结果:复合Caltech降低了精确度
2.5 扭曲VOC边界框
2.6实验总结
标记不精确(质量)对高精度区域的性能影响显著。
三、解决方案
加速标注过程:更高速、精确并且具有成本效益
人工标注过程从90分钟压缩到35分钟
可视化不确定的地方,引导标记人员
一是依靠智能算法
深度学习推理,与不确定性计算共同加快标注员的工作
算法质量检测与物体追踪
二是依靠人类智慧
每一幅图像都经过人类标注员的验证
通过内部专家提供额外的质量保证
通过智能算法与人类智慧,共同完成高质量的标注。
通过算法推荐,计算不确定的地方,以及标记人员解决不确定性的地方,共同完成高质量的标注。
LIDAR标注
通过算法和工具,使得速度最高能提高5倍。
-
数据库
+关注
关注
7文章
3799浏览量
64374 -
机器学习
+关注
关注
66文章
8414浏览量
132604 -
自动驾驶
+关注
关注
784文章
13804浏览量
166426
原文标题:Ground-truth质量是算法质量的关键
文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论