DeepMind综述无监督学习:通用智能路上的踏脚石,让AI更聪明-电子发烧友网

在过去十年中，机器学习在图像识别、自动驾驶汽车和围棋等领域取得了前所未有的进步。这些成功在很大程度上是靠监督学习和强化学习来实现的。

这两种方法都要求由人设计训练信号并传递给计算机。在监督学习的情况下，这些是“目标”（例如图像的正确标签）; 在强化学习的情况下，它们是成功行为的“奖励”（例如在Atari游戏中获得高分）。因此，机器学习的极限是由人类训练师决定的。

但是学习知识还应该有其他的策略，就像让幼儿学习，不仅有指导（监督学习）和鼓励（强化学习），还应该有自由探索世界（无监督学习）。如果要让AI脱离人类发展成出通用智能，必须要让它掌握无监督学习的技能。

DeepMind今天在官方博客中对无监督学习的原理、近年来取得的成果、发展前景进行了综述。

无监督学习关键的特点是，传递给算法的数据在内部结构中非常丰富，而用于训练的目标和奖励非常稀少。无监督学习算法学到的大部分内容必须包括理解数据本身，而不是将这种理解应用于特定任务。

解码视觉元素

2012年是深度学习的里程碑，AlexNet席卷了ImageNet图像分类竞赛，但是更引人注目的是藏在AlexNet之下的事情。

研究人员在分析AlexNet时发现，它通过为输入构建复杂的内部表示来解释图像，低层次的特征，如纹理和边缘在底层中表示，然后将它们组合在一起形成高级概念，例如更高层次中的轮子和狗。

这与我们的大脑中处理信息的方式非常相似，其中初级感官处理区域中的简单边缘和纹理，然后组装成复杂对象。因此复杂场景的表示可以由“视觉基元”所构建，这种方式与单词构成句子大致相同。

在没有人类明确的指导的情况下，研究人员发现AlexNet的层可以通过基本的“视觉词汇”来解决任务。

迁移学习

AlexNet还可以被迁移到训练之外的视觉任务中，例如识别整个场景而不是单个图像。

人类就非常擅长这种学习方法，我们能迅速调整自己的经验，以适应新的技能和理解收集到的信息。例如，经过专业训练的钢琴家可以相对轻松地掌握弹奏爵士钢琴的方法。

理论上，构成世界正确内部表征的智能体应该能够做同样的事情。

但是AlexNet等分类器所学到的表示仍具有局限性，特别是网络只用单一类别标记图像训练时，那些推断标签时用不上的信息，无论它在其他任务中用处多大，都可能被网络所忽略。如果标签总是指向前景，则表示可能无法获取图像的背景。

一种可能的解决方案是提供更全面的训练信号，比如描述图像的详细内容，不单单把图像描述成“狗”，而是“柯基犬在阳光明媚的公园里叼飞盘”。

但是，这些信息很难大规模提供，而且这样做仍然有可能不足以捕获完成任务所需的全部信息。

无监督学习的基本前提是学习丰富、可广泛转移表示的最佳方式，这种方式可以学习关于数据的全部内容。

如果你觉得转移的概念看起来过于抽象，那么请想象一个学习简笔画的孩子。她发现了人体形态的特征。通过增加具体细节，她可以为她的所有同学绘制肖像，加上眼镜、红色T恤的同桌等等。

她发展出这项技能不是为了完成一项特定任务或获得奖励，而是为了反映她描绘周围世界的基本要求。

生成模型和GAN

无监督学习的最简单目标是训练算法生成自己的数据实例，但是模型不应该简单地重现之前训练的数据，否则就是简单的记忆行为。

它必须是建立一个从数据中的基础类模型。不是生成特定的马或彩虹照片，而是生成马和彩虹的图片集；不是来自特定发言者的特定话语，而是说出话语的一般分布。

生成模型的指导原则是，能够构建一个令人信服的数据示例是理解它的最有力证据。正如物理学家理查德·费曼所说：“我不能创造的东西，我就不能了解”（What I cannot create, I do not understand.）。

对于图像来说，迄今为止最成功的生成模型是生成对抗网络（GAN）。它由两个网络组成：一个生成器和一个鉴别器，分别负责伪造图片和识别真假。

生成器产生图像的目的是诱使鉴别者相信它们是真实的，同时，鉴别者会因为发现假图片而获得奖励。

GAN开始生成的图像是杂乱的和随机的，在许多次迭代中被细化，形成更加逼真的图像，甚至无法与真实照片区别开来。最近英伟达的GauGAN还能根据用户草图生成图片。

通过预测创建内容

无监督学习中另一个值得注意的成员是自回归模型，它把数据分成一系列小片段，每个片段依次被预测。这些模型可以通过连续猜测接下来会发生什么来作为输入，并能够再次生成猜测数据。

在语言模型中，每个单词都是从它之前的单词预测出来的。它能够支持在电子邮件和消息应用程序中弹出的文本预测内容。

最近OpenAI公布的GPT-2模型还能能够生成以假乱真的文字段落。

通过控制用于调节输出预测的输入序列，自回归模型也能用于将一个序列转换为另一个序列。例如将文本转换为逼真的手写体、自然的语音，还能将一种语言翻译成另一种语言。

自回归模型以预测特定顺序数据的方式来理解数据。通过预测任何其他数据的任何部分，可以构建更一般的无监督学习算法。

例如从句子中删除一个单词，并试图从剩余的内容中预测它。通过学习进行大量局部预测，系统被迫从整体上理解数据。

生成模型的出现让人们产生了一种担忧，就是它们可能被滥用。虽然通过照片、视频和音频编辑操纵证据历史已久，但生成模型让恶意编辑媒体内容变得更加容易。一个知名的“deepfakes”范例是奥巴马演讲视频片段。

令人鼓舞的是，人们已经做出了面对这些挑战的努力，包括利用统计威廉希尔官方网站帮助检测伪造内容和验证真实内容、提高公众意识、以及围绕限制生成模型使用范围展开讨论。

生成模型本身也能用在检测伪造内容和异常数据。例如，检测虚假语音或识别支付异常，保护客户免受欺诈。研究人员需要研究生成模型，以便更好地理解它们并降低风险。

实现通用智能

生成模型本身很吸引人，DeepMind的主要兴趣是用它作为通用智能的踏脚石。赋予智能体生成数据的能力是一种赋予其想象力的方式，从而能够规划和推理未来。

DeepMind的研究表明，即使没有明确的生成数据，学习预测环境的不同方面可以丰富智能体的世界模型，从而提高其解决问题的能力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30763

浏览量
268914
DeepMind

DeepMind

+关注

关注
0

文章
130

浏览量
10852

原文标题：DeepMind综述无监督学习：通用智能路上的踏脚石，让AI更聪明

文章出处：【微信号：gh_ecbcc3b6eabf，微信公众号：人工智能和机器人研究院】欢迎添加关注！文章转载请注明出处。

时空引导下的时间序列自监督学习框架

【导读】最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作，核心在于提出了将空间信息融入到预训练阶段，

发表于 11-15 11:41 •241次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的威廉希尔官方网站支撑学习心得

人工智能在科学研究中的核心威廉希尔官方网站，包括机器学习、深度学习、神经网络等。这些威廉希尔官方网站构成了AI for Science的基石，使得AI能够处理和分析

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

，无疑为读者铺设了一条探索人工智能（AI）如何深刻影响并推动科学创新的道路。在阅读这一章后，我深刻感受到了人工智能威廉希尔官方网站在科学领域的广泛应用潜力以及其带来的革命性变化，以下是我个人的学习

发表于 10-14 09:12

【《大语言模型应用指南》阅读体验】+ 基础知识学习

收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习，还包括对语言的深层次理解，如文化背景、语境含义和情感色彩等。自监督学习：模型采用自监督学习策略，在大量无标签文本数据

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自监督学习和强化

发表于 07-25 14:33

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模

发表于 07-09 18:06 •784次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无

发表于 07-09 10:50 •691次阅读

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

STDP 无监督学习算法，可运用于图像的无监督分类。从平台设计角度： (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规

发表于 06-25 18:35

**十万级口语识别，离线自然说威廉希尔官方网站，让智能照明更懂你**

固定词条等。针对这些问题，启英泰伦现已推出成熟的可应用于照明设备的离线自然说方案，该方案已在多家智能照明厂商最新产品上实现应用落地。照明离线自然说方案采用启英泰伦第三代AI语音芯片（芯片Flash

发表于 04-29 17:09

谷歌DeepMind推出SIMI通用AI智能体

近日，谷歌的DeepMind团队发布了其最新研究成果——SIMI（Scalable Instructable Multiworld Agent），这是一个通用人工智能智能体，能够在多种3D虚拟环境

发表于 03-18 11:39 •953次阅读

马斯克:明年AI将比任何人都聪明

OpenAI的大模型让大家看到了通用人工智能（AGI）的强大，人工智能威廉希尔官方网站的发展速度也让很多人侧目。马斯克在X上发表预测道：“明年人工智能

发表于 03-14 15:46 •440次阅读

智慧路灯杆AI监测应用，让高速出行更安全

针对更好监测和管理高速公路上的交通状况，可以基于智慧路灯杆打造AI交通监测应用，通过智能感知高速路段的路况、车况、环境状况，实现实时风险感知、风险预警和协同处置，让高速出行

发表于 03-11 17:20 •448次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

视觉等领域。 AI 算法的核心是实现智能化的决策和行为 AI算法的本质在于模拟人类智能的能力，让计算机能够对现实世界进行模拟和模仿，

发表于 02-07 00:07 •5770次阅读

谷歌DeepMind资深AI研究员创办AI Agent创企

近日，刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦，此前曾担任谷歌

发表于 02-04 10:02 •784次阅读

2024年AI领域将会有哪些新突破呢？

传统的机器学习需要大量的标记数据进行训练，但自监督学习可以通过无监督的方式从大规模未标记的数据中学习到更有用的表示形式，从而提高模型的性能。

发表于 01-24 09:58 •2008次阅读

搜索历史

DeepMind综述无监督学习:通用智能路上的踏脚石,让AI更聪明

评论

时空引导下的时间序列自监督学习框架

《AI for Science：人工智能驱动科学创新》第二章AI for Science的威廉希尔官方网站支撑学习心得

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

【《大语言模型应用指南》阅读体验】+ 基础知识学习

【《大语言模型应用指南》阅读体验】+ 基础篇

神经网络如何用无监督算法训练

深度学习中的无监督学习方法综述

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

十万级口语识别，离线自然说威廉希尔官方网站，让智能照明更懂你

谷歌DeepMind推出SIMI通用AI智能体

马斯克:明年AI将比任何人都聪明

智慧路灯杆AI监测应用，让高速出行更安全

AI算法的本质是模拟人类智能，让机器实现智能化

谷歌DeepMind资深AI研究员创办AI Agent创企

2024年AI领域将会有哪些新突破呢？