腾讯在arxiv上发布论文详细介绍了数据集的构成以及评价标准等内容-电子发烧友网

2018 年 9 月腾讯 AI Lab 开源 “Tencent ML-Images” 项目，该项目由多标签图像数据集 ML-Images，以及业内目前同类深度学习模型中精度最高的深度残差网络 ResNet-101 构成。近日腾讯在 arxiv 上发布论文详细介绍了数据集的构成以及评价标准等内容，对 Tencent ML-Images 数据集的理解很有帮助。

腾讯 AI Lab 公布的图像数据集 ML-Images，包含了 1800 万图像和 1.1 万多种常见物体类别，在业内已公开的多标签图像数据集中规模最大，足以满足一般科研机构及中小企业的使用场景。

此外，腾讯 AI Lab 还提供基于 ML-Images 训练得到的深度残差网络 ResNet-101。该模型具有优异的视觉表示能力和泛化性能，在当前业内同类模型中精度最高，将为包括图像、视频等在内的视觉任务提供强大支撑，并助力图像分类、物体检测、物体跟踪、语义分割等威廉希尔官方网站水平的提升。

题目：Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

作者：Baoyuan Wu, Weidong Chen, Yanbo Fan, Yong Zhang, Jinlong Hou, Junzhou Huang, Wei Liu, Tong Zhang

【摘要】

在现有的视觉表示学习任务中，深度卷积神经网络（CNN）通常是针对带有单个标签的图像进行训练的，例如 ImageNet。然而，单个标签无法描述一幅图像的所有重要内容，一些有用的视觉信息在训练过程中可能会被浪费。在这项工作中，我们建议对带有多个标签的图像进行训练，以提高训练后的 CNN 模型的视觉表示质量。

为此，我们构建了一个大规模的多标签图像数据库，其中包含 18000000 个图像和 11000 个类别，我们称之为 Tencent ML-Images。我们基于大规模分布式深度学习框架，即 TFplus，在 Tencent ML-Images 上高效训练 ResNet-101 多标签输出模型，共 60 个 epoch，耗时 90 小时。通过 ImageNet 和 Caltech-256 上的单标签图像分类、PASCAL VOC 2007 上的对象检测、PASCAL VOC 2012 上的语义分割三个迁移学习任务，验证了 Tencent ML-Images checkpoint 的视觉表示质量良好。

腾讯 ML-Images 数据库，ResNet-101 的 checkpoint 以及所有训练代码已在https://github.com/Tencent/tencent-ml-images上发布。它有望推动研究领域和工业界的其他视觉任务的发展。

论文地址：

https://arxiv.org/abs/1901.01703

作者简介

第一作者是吴保元，现在是腾讯 AI Lab 的高级研究员，2014 年 8 月至 2016 年 11 月在 KAUST 进行博士后学习，与 Bernard Ghanem 教授一起工作。2014 年 6 月获得中国科学院自动化研究所模式识别国家重点实验室博士学位，导师为胡包钢教授。作者研究兴趣包括机器学习、计算机视觉和优化，包括图像标注、弱 / 无监督学习、结构化预测、概率图模型、视频处理和整数规划。

https://sites.google.com/site/baoyuanwu2015/home

其他作者包括樊艳波、张勇也都是博士毕业于中科院自动化研究所，师从胡包钢教授。

文章简介

这项工作在新建的多标签图像数据库（称为 Tencent ML-Images）上展示了大规模的视觉表示学习。文章从讨论以下两个问题开始。

为什么我们需要大规模的图像数据库？深度学习一直处于长期低谷，直到 2012 年，AlexNet 在 ILSVRC2012 挑战的单标签图像分类任务中取得了令人惊讶的成绩。深度神经网络的潜力是通过大规模的图像数据库释放出来的，即 ImageNet-ILSVRC2012 。此外，对于许多视觉任务，如目标检测和语义分割，获取训练数据的成本是非常高的。由于训练数据不足，需要在其他大型数据库上预先训练好的视觉呈现良好的 checkpoint 作为初始化，用于其他视觉任务 (如针对单标签图像分类的 ImageNet-ILSVRC2012)。

为什么我们需要多标签图像数据库？由于在大多数自然图像中存在多个对象，单个标注可能会遗漏一些有用的信息，从而误导 CNN 的训练。例如，同时包含牛和草的两个视觉上相似的图像可能分别被标注为牛和草。合理的方法是 “告诉”CNN 模型这两幅图像同时包含牛和草。

这项工作的主要贡献有四个方面：

建立了一个包含一千八百万张图像和一万一千个类别的多标签图像数据库，被称为 Tencent ML-Images，这是迄今为止最大的公开可用的多标签图像数据库。

利用大规模分布式深度学习框架，在 Tencent ML-Images 上有效地训练 ResNet-101 模型。此外，还设计了一种新的损失函数来缓解大规模多标签数据库中严重的类失衡问题。

我们通过迁移学习三种不同的视觉任务，证实了 Tencent ML-Images 和其预训练的检查点有着比较好的质量。

在 GitHub（https://github.com/Tencent/tencent-ml-images）上发布了 Tencent ML-Images 数据库，包含训练的 ResNet-101 检查点，以及从数据预处理，预训练，微调到图像分类和特征提取的完整代码。预计这将推动研究领域和工业界的其他视觉任务的发展。

附文章中部分结果

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像分类

图像分类

+关注

关注
0

文章
90

浏览量
11916
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24694

原文标题：论文终于公布！腾讯开源最大规模多标签图像数据集，刷新行业数据集基准

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

有方科技参编的信息威廉希尔官方网站团体标准发布

能力评价》团体标准由中国计算机行业协会正式发布实施，明确了信息威廉希尔官方网站产品供应链成熟度共性指标中企业背景、威廉希尔官方网站掌控、供给能力评价一级指标框架

发表于 12-23 10:44 •79次阅读

【「大话芯片制造」阅读体验】+内容概述，适读人群

和设备、在检验中如何发现问题以及如何出货。回答了芯片制造为何要高标准的问题。涉及到芯片制造成本，化学药品，项目管理部分内容。总的来说，《大

发表于 12-21 16:32

【「从算法到电路—数字芯片算法的电路实现」阅读体验】+内容简介

设计的关系，芯片设计人员掌握算法知识的必要性，以及位宽确定、有符号数处理、浮点数运算、溢出保护和四舍五入等算法的实现。第3~11章重点介绍各种典型基本算法的电路设计，其中包括任何数字芯片都必不可少

发表于 11-21 17:14

腾讯申请注册多枚“腾讯AI助手”商标

近日，根据爱企查App的最新数据显示，腾讯科技(深圳)有限公司在商标领域有了新动作，该公司已经正式申请注册了多枚“

发表于 11-19 11:01 •409次阅读

中国首推汽车智能安全评价体系,助力自动驾驶汽车安全性评估

10月10日传来消息，我国在智能汽车安全领域取得了显著进展，在重庆正式推出了首个汽车智能安全评价体系。该体系针对智能汽车的环境感知、决策控制及应急响应等核心方面，设立了全面的

发表于 10-10 16:29 •991次阅读

联想M大师台式机将低碳理念带进PC端，推进绿色计算机评价标准落地

“2024绿色计算机标准及新品发布会”。在这次活动中,联想等多家OEM的绿色电脑机型获得了首批认证。特别值得一提的是,联想M大师台式机还荣获了“绿色可持续发展计算机

发表于 09-23 11:43 •312次阅读

联想M大师台式机将低碳理念带进PC端，推进绿色计算机<b class='flag-5'>评价标准</b>落地

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

发表于 07-16 18:29 •575次阅读

谷歌DeepMind被曝抄袭开源成果，<b class='flag-5'>论文</b>还中了顶流会议

绿色小水电站生态环境监测系统解决方案

水利部发布的《绿色小水电评价规程》（SL/T 752—2024）是在《绿色小水电评价标准》（SL/T 752—2020）的基础上修订而成，为

发表于 05-11 16:09 •397次阅读

振弦采集仪在岩土工程监测中的性能评价及标准选择

弦采集仪的性能评价及标准选择进行详细介绍。振弦采集仪在岩土工程监测中的性能评价及

发表于 05-10 13:30 •245次阅读

振弦采集仪<b class='flag-5'>在</b>岩土工程监测中的性能<b class='flag-5'>评价</b>及<b class='flag-5'>标准</b>选择

腾讯突然宣布，微信鸿蒙版要来了！

「微信」的身影，不少网友更是喊话腾讯，希望QQ、微信尽快适配。现在，好消息来了！最近在网上看到一条重磅消息—— 原生鸿蒙版「微信」已在路上了。近日，腾讯程序员在交流平台发布

发表于 04-30 19:34

语音数据集在智能驾驶中的价值与应用

、应用场景以及挑战。二、语音数据集在智能驾驶中的价值提升驾驶安全性：通过语音指令，驾驶员可以在不分散注意力的情况下对车辆进行操作，如导航

发表于 01-31 17:08 •429次阅读

自动驾驶领域的数据集汇总

发自动驾驶论文哪少的了数据集，今天笔者将为大家推荐一篇最新的综述，总结了200多个自动驾驶领域的数据集

发表于 01-19 10:48 •998次阅读

语音数据集在智能语音助手中的应用与挑战

。本文将详细介绍语音数据集在智能语音助手中的应用、面临的挑战以及未来的发展趋势。二、语音

发表于 01-18 15:46 •390次阅读

语音数据集在智能语音搜索中的应用与挑战

挥着重要作用，为系统提供了丰富的语音数据和信息，提高了搜索的准确性和效率。本文将详细介绍语音数据集

发表于 01-18 15:09 •549次阅读

示波器探头内部电路的原理以及构成

给示波器进行分析。本文将详细介绍示波器探头的原理和构成。一、示波器探头的原理示波器探头的工作原理主要涉及信号的采样和传输过程。当被测信号进入探头时，探头内部的电路对信号进行采样和变换，然后将信号传输给示波器

发表于 01-08 16:08 •1073次阅读

搜索历史

腾讯在arxiv上发布论文详细介绍了数据集的构成以及评价标准等内容

评论