0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Ground-truth数据面临哪些挑战?

佐思汽车研究 来源:lp 2019-03-12 16:03 次阅读

Ground-truth(真值)是什么?

Ground-truth在机器学习中表示有监督学习的训练集的分类准确性,用于证明或者推翻某个假设。有监督的机器学习会对训练数据打标记,将那些正确打标记的数据成为ground truth。Ground truth就是参考标准,一般用来做误差量化,最终用于验证分类算法的准确性。真值标定的输入一般是视频文件。真值标定既可以手动一帧一帧地标定,也可以半自动化标定后再手工修正,最终可以将结果保存成真值数据库。

Ground-truth在自动驾驶汽车产业具有很高的的附加值,它涉及以下数据处理流程:数据采集、数据标注、模型训练、应用、验证。拥有最高质量Ground-truth数据的公司将会处于自动驾驶汽车的最前沿。

Ground-truth质量影响算法质量。

一、Ground-truth数据面临哪些挑战

丢失或模糊的对象

不一致的标记(行人手中有物体或没有物体)

不同种类车辆之间不明确的边界

系统性的标记误差

不精确性

定义不佳的需求

1.1 丢失或模糊的对象

1.2 不一致的标记 (行人手中有物体或没有物体)

1.3 不同种类车辆之间不明确的边界

1.4 系统化标记误差

原始的标记框不精确,通过对顶部和底部的修正以及更详细的注释使得标记框更加精确。

二、实验:Ground Truth质量对于算法性能的影响

2.1 实验

我们展示了标记框实验的初步结果

1. 复合分类(定义不佳的标签需求)

2. 不精确的真值标记

复合分类

图中骑车人和行人被标记了出来,自行车没有被标记出来。

2.2 复合Caltech:新数据集

行人与携带行李的行人的对比

Caltech完成了从原始不精确标记框到更为精确的标记框,再到高质量复合型标记框的转变。

2.3 复合型Caltech训练

1. 用于重复性结果的框外物体检测

2. 体系结构:更快的 rcnn_resnet101_coco (coco预训练)

3. Caltech数据库微调(任何一个变量都有一个独立的模型,没有超参数调优)

2.4 Caltech检测器评估

Caltech 改进的Caltech 复合Caltech
mAP@0.5 0.2170 0.3030 0.2916

初步结果:复合Caltech降低了精确度

2.5 扭曲VOC边界框

2.6实验总结

标记不精确(质量)对高精度区域的性能影响显著。

三、解决方案

加速标注过程:更高速、精确并且具有成本效益

人工标注过程从90分钟压缩到35分钟

可视化不确定的地方,引导标记人员

四、Understand.ai 质量保证办法

一是依靠智能算法

深度学习推理,与不确定性计算共同加快标注员的工作

算法质量检测与物体追踪

二是依靠人类智慧

每一幅图像都经过人类标注员的验证

通过内部专家提供额外的质量保证

通过智能算法与人类智慧,共同完成高质量的标注。

通过算法推荐,计算不确定的地方,以及标记人员解决不确定性的地方,共同完成高质量的标注。

LIDAR标注

通过算法和工具,使得速度最高能提高5倍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3799

    浏览量

    64374
  • 机器学习
    +关注

    关注

    66

    文章

    8414

    浏览量

    132604
  • 自动驾驶
    +关注

    关注

    784

    文章

    13804

    浏览量

    166426

原文标题:Ground-truth质量是算法质量的关键

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    移动电视射频威廉希尔官方网站 面临什么挑战

    随着数字移动电视不断向移动设备的应用转移,应用和系统工程师正面临着各种挑战,比如外形尺寸的小型化、更低的功耗以及信号完整性。对现有移动电视标准的研究重点将放在了DVB-H上。本文将从系统角度讨论DVB-H接收器设计所面临的机遇和
    发表于 06-03 06:28

    患者监护仪设计面临挑战有哪些?

    远程患者监护系统面临的五大设计挑战:电池寿命便携性或尺寸患者安全安全的数据传输集成
    发表于 11-23 06:43

    精确测量阻抗所面临挑战有哪些

    精确测量阻抗所面临挑战
    发表于 01-27 07:34

    调试速度高达几个Gb每秒的连接时所面临挑战

    本文将讨论信号集成和硬件工程师在设计或调试速度高达几个Gb每秒的连接时所面临挑战。无论是进行下一代高分辨率视频显示、医学成像、数据存储或是在最新的高速以太网和电信协议中,我们都面临
    发表于 03-01 10:17

    部署实时数据流平台面临挑战有哪些?

    部署实时数据流平台面临的五大挑战
    发表于 03-17 07:00

    为什么采用WCSP?WCSP面临挑战有哪些?

    为什么采用WCSP?WCSP面临挑战有哪些?
    发表于 04-21 06:14

    使用空中鼠标系统面临哪些挑战?如何去克服这些挑战

    使用空中鼠标系统面临哪些挑战?如何去克服这些挑战
    发表于 05-10 07:26

    有什么方法可以解决HID设计面临挑战

    HID设计面临哪些挑战?有什么方法可以解决HID设计面临挑战
    发表于 05-17 06:06

    汽车无线安全应用面临哪些设计挑战

    汽车无线安全应用面临哪些设计挑战
    发表于 05-19 06:41

    无线基础设施容量面临挑战是什么?

    无线基础设施容量面临挑战是什么?
    发表于 05-20 06:47

    高速通信面临挑战是什么?

    高速通信面临挑战是什么?
    发表于 05-24 06:34

    RFID原理是什么?RFID威廉希尔官方网站 面临哪些挑战

    RFID原理是什么?RFID威廉希尔官方网站 面临哪些挑战
    发表于 05-26 06:06

    HUD 2.0面临哪些挑战?如何去解决?

    HUD 2.0的发展动力是什么?HUD 2.0面临哪些挑战?如何去解决?
    发表于 06-01 06:44

    机器开发人员面临哪些软件挑战以及硬件挑战?如何去应对这些挑战

    机器开发人员面临哪些软件挑战以及硬件挑战?如何去应对这些挑战
    发表于 06-26 07:27

    如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致

    Knowledge distillation 只使用了单独的 soft label,而不是 DeiT 里面 hard 形式的 label 加 one-hot ground-truth,因为研究者认为 soft label 包含的信息更多,更有利于知识蒸馏;
    的头像 发表于 08-08 16:25 1176次阅读