TextTopicNet模型：以自监督学习方式学习区别视觉特征-电子发烧友网

大规模带标注的数据集的出现是深度学习在计算机视觉领域取得巨大成功的关键因素之一。然而，监督式学习存在一个主要问题：过于依赖大规模数据集，而数据集的收集和手动数据标注需要耗费大量的人力成本。

作为替代方案，自监督学习旨在通过设计辅助任务来学习可区别性的视觉特征，如此，目标标签就能够自由获取。这些标签能够直接从训练数据或图像中获得，并为计算机视觉模型的训练提供监督信息，这与监督式学习的原理是相同的。但是不同于监督式学习的是，自监督学习方法通过挖掘数据的性质，从中学习并生成视觉特征的语义标签信息。还有一类方法是弱监督学习，这种学习方式能够利用低水平的注释信息来解决更复杂的计算机视觉任务，如利用自然场景下每张图像的类别标签进行目标检测任务。

我们的目标是探索一种自监督的解决方案，利用图像和图像之间的相关性来替代完全监督式的 CNN训练。此外，我们还将探索非结构化语言语义信息的强弱，并将其作为文本监督信号来学习视觉特征。

我们扩展了之前提出的方法并展示了以自监督的方式进行插图文章的学习，这能够进一步扩展到更大的训练数据集(如整个英语维基百科)。

通过实验，我们验证了 TextTopicNet的表现优于其他基准评估中的自监督或自然监督的方法。此外，我们还在更具挑战性的 SUN397数据集上测试了我们的方法，结果表明 TextTopicNet能够减少自监督学习和监督学习之间的性能差距。

我们展示了将上下文的文本表征用于模型的训练，这能够有助于网络自动学习多模态的语义检索。在图像——文本的检索任务中，TextTopicNet的表现超过了无监督学习的方法，而与监督学习的方法相比，我们的方法能够在无需任何特定类别信息的情况下还能表现出有竞争力的性能。

在自监督学习设置下，我们对不同的文本嵌入方法进行了对比分析，如word2vec，GloVe，FastText，doc2vec等。

此外，我们还公开发布了我们所收集的数据集，该数据集采自整个英语维基百科，由 420 万个图像组成，每张图像都有对应的文字描述信息。

维基图像——文本数据集

我们以维基百科作为数据的来源，这是一个基于网络的多语言的百科全书项目，目前有 4000 多万篇文章，含 299 种不同语言。维基百科文章通常由文字及其他多媒体类型的对象(如图像，音频或视频文件)组成，因此可以将其视为多模态的文档数据。对于我们的实验，我们使用两个不同的维基百科文章集合：(a) ImageCLEF 2010维基百科数据集；(b)我们所收集的英语维基百科图像——文本数据集，包含 420 万图像文本对组成的数据，下图1展示了 11 种类别的文章分布情况。

TextTopicNet模型：以自监督学习方式学习区别视觉特征

图1英语维基百科种11种类别的文章分布情况

TextTopicNet

我们提出了一种 TextTopicNet的方法，通过挖掘大规模多模态网络文档的大规模语料库(如维基百科文章)，以自监督的方式来学习视觉特征。在自监督学习设置下，TextTopicNet能够使用免费可用的非结构化、多模态的内容来学习可区别的视觉特征，并在给定图像的下，通过训练 CNN来预测可能插图的语义环境。我们的方法示意图如下图 2 所示，该方法采用一个文本嵌入算法来获取文本部分的向量表征，然后将该表征作为 CNN视觉特征学习的一种监督信号。我们进一步使用多种类别的文档以及词级(word-level)的文本嵌入方法，发现通过 LDA主题模型框架发现的隐藏语义结构，能够在主题层面最佳地展现文本信息。

TextTopicNet模型：以自监督学习方式学习区别视觉特征

图2 方法概览。维基百科文章包含一个主题的文本描述，这些文章同时也附有支持文本的插图。文本嵌入框架能够与文本信息相关的全局上下文表征。而整篇文章的这种文本表征向量被用于为 CNN的训练提供自监督信号

如图 3 所示，作为主题层面的语义描述器，需要大量可用的关于特定类别或细粒度类别的视觉数据。虽然在我们收集的数据中，这类数据非常有限，但是这很容易在更广泛的目标类别(如哺乳动物)中找到足够多的、有代表性的图像。因此，在给定的目标主题情况下，我们的方法能够学习到期望的视觉特征，这种特征是通用的，即同样适用于其他特定的计算机视觉任务。

图 3 描述特定实体的维基百科文章。如 (a) 中“羚羊”或 (b) 中的“马”，每个实体通常包含五张图像。对于一些特定实体，如 (c)中的“食草哺乳动物”，相关的图像很容易就达到数百或成千上万张。

我们还训练一个 CNN模型，它能够直接将图像投影到文本的语义空间，而 TextTopicNet不仅能够在无需任何标注信息的情况下从头开始学习数据的视觉特征，还可以以自然的方式进行多模态的检索，而无需额外的注释或学习成本。

实验

我们通过大量的实验来展示 TextTopicNet模型所学习到的视觉特征质量。衡量的标准是所习得的视觉特征具有足够好的可区别性和鲁棒性，并能进一步适用于那些未见过的类别数据。

首先，为了验证图像—文本对的自监督学习，我们比较了各种文本嵌入方法。其次，我们在 PASCAL VOC 2007 数据集的图像分类任务中对 TextTopicNet模型每层的特征进行基准分析，以找到了 LDA模型的最佳主题数量。然后，我们分别在 PASCAL、SUN397和 STL-10数据集的图像分类和检测任务中进一步与当前最佳的自监督方法和无监督方法进行了比较。最后，我们利用维基百科检索数据集对我们的方法进行了图像检索和文本查询实验。

自监督视觉特征学习的文本嵌入算法比较

在自监督视觉特征学习的设置下，我们对 word2vec，GloVe，FastText，doc2vec及 LDA算法进行了比较分析。对于每种文本嵌入方法，我们都将训练一个 CNN模型并利用网络不同层获得的特征信息去学习一个一对多的SVM (one-vs-all SVM)。下表1显示了在 PASCAL VOC2007数据集中，使用不同文本嵌入方法，模型所展现的分类性能。我们观察到在自监督的视觉特征学习任务中，基于嵌入的 LDA方法展现了最佳全局表现。

表1：使用不同文本嵌入方法的 TextTopicNet模型在 PASCAL VOC2007数据集图像分类任务上的性能表现(%mAP)

TextTopicNet模型：以自监督学习方式学习区别视觉特征

LDA模型的超参数设置

我们用 ImageCLEF Wikipedia数据集上 35582 篇文章训练了一个 LDA 模型，以确定 LDA模型的主题数量。下图4展示了实验结果，我们可以看到拥有 40 个主题数的 LDA模型能够获得最佳的 SVM验证准确性。

TextTopicNet模型：以自监督学习方式学习区别视觉特征

图4随着 LDA主题数量的变化，PASCAL VOC2007数据集上 One vs. Rest线性 SVM所取得的验证准确性(％mAP)

图像分类和图像检测

我们分别在 PASCAL、SUN397和 STL-10数据集进行图像分类和检测任务，比较并分析 TextTopicNet以及当前最佳的自监督和无监督模型的表现。下表 2、3和4 分别展示各模型在 PASCAL VOC 2007、SUN397和 STL-10数据集上的分类表现，表 5 展示了在 PASCAL VOC 2007数据集上模型的检测性能。

表 2 PASCAL VOC2007数据集上各模型的分类表现(％mAP)

TextTopicNet模型：以自监督学习方式学习区别视觉特征

表 3 SUN397数据集上各模型的分类表现(％mAP)

TextTopicNet模型：以自监督学习方式学习区别视觉特征

表 4 STL-10数据集上各模型的分类表现(％mAP)

TextTopicNet模型：以自监督学习方式学习区别视觉特征

表 5 PASCAL VOC 2007数据集上各模型的检测表现(％mAP)

TextTopicNet模型：以自监督学习方式学习区别视觉特征

图像检索和文本查询

我们还在多模态检索任务中评估所习得的自监督视觉特征：(1)图像查询与文本数据库; (2)文本查询与图像数据库。我们使用维基百科检索数据集，由2,866 个图像文档对组成，包含 2173 和 693 对训练和测试数据。每个图像--文本对数据都带有其语义标签。下表 6 展示了监督和无监督学习方法在多模态检索任务中的表现，其中监督学习的方法能够利用与类别相关的每个图像--文本对信息，而无监督学习方法则不能。

表 8维基数据集上各监督学习和无监督学习方法的表现(%mAP)

TextTopicNet模型：以自监督学习方式学习区别视觉特征

图 4 显示了与给定查询图像(最左侧)最接近的 4 张图像，其中每行使用的是 TextTopicNet模型不同层次获得的特征，从上到下：prob，fc7，fc6，pool5层。这些查询图像是从 PASCAL VOC 2007中随机选择的，且从未在训练时出现过。

图4与查询图像(最左侧)最相近的4张图像

图 5显示了在 TextTopicNet主题空间中，与给定查询文本最接近的 12 个查询内容。可以看到，对于第一条查询文本(“飞机”)，所检索到的图像列表几乎是其相同的同义词，如“flight”，“airway”或“aircraft”。利用文本的语义信息，我们的方法能够学习多义词的图像表示。此外，TextTopicNet模型还能够处理语义文本查询，如检索(“飞机”+ “战斗机”或“飞行”+“天空”)等。

图 5与不同文本查询最接近的12个查询内容

结论

在本文中，我们提出了一种自监督学习方法，用于学习 LDA模型的文本主题空间。该方法 TextTopicNet能够在无监督设置下，利用多模态数据的优势，学习并训练计算机视觉算法。将文章插图中的文字视为噪声图像标注信息，我们的方法能够通过视觉特征的学习，训练 CNN模型并预测在特定的上下文语义中最可能出现的插图。

我们通过实验证明我们方法的有效性，并可以扩展到更大、更多样化的训练数据集。此外，TextTopicNet模型学到了视觉特征不仅适用于广泛的主题，而且还能将其应用到更具体、复杂的计算机视觉任务，如图像分类，物体检测和多模态检索。与现有的自监督或无监督方法相比，我们方法的表现更优。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机

计算机

+关注

关注
19

文章
7496

浏览量
88001
视觉特征

视觉特征

+关注

关注
0

文章
3

浏览量
5362

原文标题：CMU最新视觉特征自监督学习模型——TextTopicNet

文章出处：【微信号：AI_Thinker，微信公众号：人工智能头条】欢迎添加关注！文章转载请注明出处。

时空引导下的时间序列自监督学习框架

【导读】最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作，核心在于提出了将空间信息融入到预训练阶段，即在预训练阶段

发表于 11-15 11:41 •263次阅读

时空引导下的时间序列<b class='flag-5'>自</b><b class='flag-5'>监督学习</b>框架

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础威廉希尔官方网站支撑：深度学习

发表于 10-23 15:25 •768次阅读

AI大模型与传统机器学习的区别

AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍：一、模型规模与复杂度 AI大

发表于 10-23 15:01 •641次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习，还包括对语言的深层次理解，如文化背景、语境含义和情感色彩等。自监督学习：模型采用

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自监督学习和强化

发表于 07-25 14:33

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定义、原理、应用、

发表于 07-11 10:12 •1074次阅读

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律，从而提取有用的

发表于 07-09 18:06 •805次阅读

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从数据预处理和

发表于 07-09 15:57 •441次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学习方法，包括自编码器、生成对抗网络、聚类算法等，并分析它们的原理、应用场景以及优

发表于 07-09 10:50 •749次阅读

深度学习在视觉检测中的应用

深度学习是机器学习领域中的一个重要分支，其核心在于通过构建具有多层次的神经网络模型，使计算机能够从大量数据中自动学习并提取特征，进而实现对复

发表于 07-08 10:27 •730次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度学习

发表于 07-05 09:47 •938次阅读

人工神经网络与传统机器学习模型的区别

在人工智能领域，机器学习和神经网络是两个核心概念，它们各自拥有独特的特性和应用场景。虽然它们都旨在使计算机系统能够自动从数据中学习和提升，但它们在多个方面存在显著的区别。本文将从多个维度深入探讨

发表于 07-04 14:08 •1319次阅读

通过强化学习策略进行特征选择

来源：DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征，可以提高性能。如果我们处理

发表于 06-05 08:27 •357次阅读

深度学习与度量学习融合的综述

如今，机器学习的应用广泛，包括人脸识别、医疗诊断等，为复杂问题和大量数据提供解决方案。机器学习算法能基于数据产生成功的分类模型，但每个数据都有其问题，需定义区别

发表于 04-24 09:49 •428次阅读

2024年AI领域将会有哪些新突破呢？

传统的机器学习需要大量的标记数据进行训练，但自监督学习可以通过无监督的方式从大规模未标记的数据中学习

发表于 01-24 09:58 •2018次阅读

搜索历史

TextTopicNet模型：以自监督学习方式学习区别视觉特征

评论

时空引导下的时间序列自监督学习框架

AI大模型与深度学习的关系

AI大模型与传统机器学习的区别

【《大语言模型应用指南》阅读体验】+ 基础知识学习

【《大语言模型应用指南》阅读体验】+ 基础篇

预训练和迁移学习的区别和联系

神经网络如何用无监督算法训练

机器学习中的数据预处理与特征工程

深度学习中的无监督学习方法综述

深度学习在视觉检测中的应用

深度学习与nlp的区别在哪

人工神经网络与传统机器学习模型的区别

通过强化学习策略进行特征选择

深度学习与度量学习融合的综述

2024年AI领域将会有哪些新突破呢？