让强化学习智能体像人类一样穿短袖、衬衫等衣服-电子发烧友网

穿衣服是我们每天都会做的动作，对人类来说非常容易，比如在穿衬衫时，我们一手打开衬衫，另一只手会穿到袖子中，连同整个手臂穿入袖子，再换另一只手穿好另一边的袖子。整个过程中，我们都会依靠触觉，保证动作不会破坏衣服。但是目前还没有能让智能体自己穿衣的机器学习案例，想将人物和衣服之间这样复杂的交互动作制作成动画，依然是很大的挑战。

最近，佐治亚理工学院的研究人员们提出了一种模型，可以让强化学习智能体像人类一样穿短袖、衬衫等衣服。以下是论智对原论文做的大致介绍：

为了用动画interwetten与威廉的赔率体系人们穿衣的动作，我们用到了物理模拟和机器学习，我们使用了一个物理引擎模拟人物和衣服的动作。为了生成任务动作，我们用强化学习训练了一个神经网络，执行人物控制衣服的策略。

由于每个人在穿衣服时的控制策略不同，每个策略的动作都是由任务和环境的状态决定的。和其他运动或控制动作不同，穿衣服的动作并不遵循特定的运动轨迹，同时环境状态也在高度变换，难以表示。所以我们用无模型的深度强化学习方法，用深度网络自动探索穿衣控制策略。

深度强化学习最近受到很大关注，因为它可以大大减少降维需求，也无需选择状态空间和动作空间的特征。但是，直接在高维空间中学习、输入状态空间，对穿衣问题来说比较棘手，因为在这种场景下的计算成本非常大。所以，直接生成“穿衣策略”会严重影响奖励函数、状态和动作的设计，使得端到端学习方法变得不切实际。在这篇论文中，我们首次证明了，利用合适的输入状态空间和奖励函数，是可以将模拟衣物嵌入到强化学习框架中的，从而学习一种稳定的穿衣控制策略的。

触觉感知

虽然穿衣的过程类似“移动”和“抓取”任务，但是与常见的操控任务不同的是，穿衣过程是依靠触觉判断任务的进行的。智能体需要学习用触觉完成两个相反的任务：施加力量将身体套在衣服上，同时还要避免力量过大损坏衣服。

在这一过程中，我们提出了一种可以表示触觉信息的方法，用来指引穿衣过程。输入到控制策略中的一部分环境状态是一张触觉地图（haptic map），它可以测量智能体和模拟衣物之间接触部分的力度。我们在智能体身上安置了一系列触觉感应器，然后收集身体和衣服之间的接触力量。感应器分布如下所示：

分辨正反

人们在穿衣时，会让身体和衣服的内侧接触，也就是说人类能很容易地分辨衣服的正反面，这对不具备视觉感应器的机器人来说也是个难题。为此，我们对每个触觉感应器提供了相应的策略，可以区分衣物的内侧和外侧。

如果感应器上的接触力与该位置上面向外的顶点法线相反，那么就是-1，反之则为1.如果最后感应器收集的值为正数，那么我们就认为与感应器接触的是衣服的内里，反之则是外侧。

除此之外，训练期间的奖励函数会根据触觉状态和采取的动作提供学习信号。例如，如果模型检测到衣服发生变形，就会用奖励函数进行惩罚。

策略程序算法

另一个遇到的挑战就是，智能体在穿衣服时需要做一系列动作，例如先抓起衬衫，将手对准袖口，再将手穿过去。想让单一的控制策略学习每一个步骤，并且一气呵成是不可能的，原因仍然与计算成本有关。于是，我们将一整套穿衣流程分解成不同的子任务，对每个任务学习控制策略。每个穿衣动作的子任务都被设计成部分可观测的马尔可夫决策过程（POMDP），每个POMDP的解决方法都是随机控制策略：π：O × A →[0, 1]。一个马尔可夫决策过程是（S, A, r, ρ, Psas’, γ）的组合，其中S表示状态空间，A表示动作空间，r是奖励函数，ρ表示初始状态s0的分布，Psas’是过渡概率，γ是折扣因子。我们的目标是优化表示神经网络的策略π，让积累的奖励达到最大。

为了保证任务效果不会因为策略的改变而改变，我们提出了一种策略程序（Policy sequencing）算法，它可以将一种子任务中的输出状态分布与下一个子任务的输入分布按顺序相匹配。

要为一个子任务生成成功策略需要数小时的模拟和优化。高计算成本也有好处，这样一来，最终结果就不是单一的动画，而是智能体的控制策略，可以处理多种情况，比如不同的衣服位置和人物动作，如果过程中有干扰，会利用控制策略进行修正。

结果

模拟小人穿t-shirt

模拟小人穿对开式衣服

模拟小人在辅助工具下穿衣

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能体

智能体

+关注

关注
1

文章
149

浏览量
10578
强化学习

强化学习

+关注

关注
4

文章
266

浏览量
11253

原文标题：效果惊艳！强化学习让智能体像人类一样穿衣服

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

深度强化学习实战

测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体

发表于 01-10 13:42

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工

发表于 06-29 18:36 •2.8w次阅读

高明！OpenAI提出HER算法，人工智能可像人类一样认识错误汲取教训

OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines，机器学习算法可以进行自主

发表于 05-01 16:35 •4157次阅读

机器能像婴儿一样通过眼睛学习世界？

在Facebook人工智能实验室负责人杨乐昆（Yann LeCun）看来，人类既然已经教会机器辨别图片，甚至能做到人脸识别，那么机器也能识别视频。而教会机器学习视频的方法与婴儿学习相似

发表于 05-17 19:21 •605次阅读

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习

发表于 05-30 06:53 •1414次阅读

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来

发表于 07-15 10:56 •1.8w次阅读

强化学习环境研究，智能体玩游戏为什么厉害

强化学习作为一种常用的训练智能体的方法，能够完成很多复杂的任务。在强化学习中，智能

发表于 08-18 11:38 •3619次阅读

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之

发表于 11-02 16:18 •2.2w次阅读

如何测试强化学习智能体适应性

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。

发表于 12-24 09:29 •3237次阅读

深度强化学习能让机器人拥有人一样的意识

一种人工智能系统，即通过深度强化学习来学习走路，简单来说，就是教“一个四足机器人来穿越熟悉和不熟悉的地形”。

发表于 01-03 09:50 •3429次阅读

人工智能和人类看到的东西一样吗

为了让深度学习算法像人类一样用形状来识别物体，研究人员用涂有不相干纹理的图片来训练这些系统。结果表明：系统的表现得到了提高，这同时也为我们视

发表于 08-29 15:59 •2276次阅读

DeepMind发布强化学习库RLax

RLax（发音为“ relax”）是建立在JAX之上的库，它公开了用于实施强化学习智能体的有用构建块。。报道：深度强化学习实验室作者：DeepRL ...

发表于 12-10 18:43 •738次阅读

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

发表于 06-23 10:42 •36次下载

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。

发表于 07-24 16:55 •535次阅读

什么是强化学习

的AlphaStar，他们都是强化学习模型。诸如此类的模型还有 AlphaGo Zero 等。 强化学习的原理非常简单，它非常像心理学中新行为主义派的斯金纳发现的操作性条件反射。操作

发表于 10-30 11:36 •4094次阅读

搜索历史

让强化学习智能体像人类一样穿短袖、衬衫等衣服

评论

深度强化学习实战

将深度学习和强化学习相结合的深度强化学习DRL

高明！OpenAI提出HER算法，人工智能可像人类一样认识错误汲取教训

机器能像婴儿一样通过眼睛学习世界？

人工智能机器学习之强化学习

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习环境研究，智能体玩游戏为什么厉害

基于强化学习的MADDPG算法原理及实现

如何测试强化学习智能体适应性

深度强化学习能让机器人拥有人一样的意识

人工智能和人类看到的东西一样吗

DeepMind发布强化学习库RLax

一种新型的多智能体深度强化学习算法

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

什么是强化学习