概念化的简单强化学习框架让虚拟特技演员做出难度更高的动作-电子发烧友网

「运动控制问题已经成为强化学习的基准，而深度强化学习的方法可以很高效的处理控制和运动等问题。然而，使用深度强化学习训练的目标对象也经常会出现不自然动作、异常抖动、步伐不对称以及四肢过度摆动等问题。我们可以将我们的虚拟人物训练的行为表现更加自然吗？」

伯克利 BAIR 实验室介绍了他们对于运动建模的最新研究成果，他们使用动作捕捉片段训练自己的模型。训练中着力减小跟踪误差并采用提前终止的方法来优化训练结果。训练模型最终表现优秀。详情介绍如下。

虚拟特技演员

我们从计算机图形学研究中获得了启发。在这一领域中基于自然动作的人体仿真 interwetten与威廉的赔率体系已经存在大量的工作，相关研究已经进行了很多年。由于电影视觉效果以及游戏对于动作质量要求很高，多年下来，基于丰富的肢体动作动画已经开发相应控制器，这个控制器可以生成大量针对不同任务和对象的鲁棒性好又自然的动作。这种方法会利用人类洞察力去合并特定任务的控制结构，最终会对训练对象所产生的动作有很强的归纳偏向。这种做法会让控制器更加适应特定的训练对象和任务。比如被设计去生成行走动作的控制器可能会因为缺乏人类洞察力而无法生成更有技巧性的动作。

在本研究中，我们将利用两个领域的综合优势，在使用深度学习模型的同时也生成自然的动作，这动作质量足以匹敌计算机图形学当前最先进的全身动作模拟。我们提出了一个概念化的简单强化学习框架，这个框架让模拟对象通过学习样例动作剪辑来做出难度更高的动作，其中样例动作来自于人类动作捕捉。给出一个技巧的展示，例如旋踢或者后空翻，我们的训练对象在仿真中会以稳健的策略去模仿这一动作。我们的策略所生成的动作与动作捕捉几乎没有区别。

动作模拟

在大多数强化学习基准中，模拟对象都使用简单的模型，这些模型只有一些对真实动作进行粗糙模仿的动作。因此，训练对象也容易学习其中的特异动作从而产生现实世界根本不会有的行为。故该模型利用的现实生物力学模型越真实，就会产生越多的自然行为。但建设高保真的模型非常具有挑战性，且即使在该模型下也有可能会生成不自然行为。

另一种策略就是数据驱动方式，即通过人类动作捕捉来生成自然动作样例。训练对象就可以通过模仿样例动作来产生更加自然的行为。通过模仿运动样例进行仿真的方式在计算机动画制作中存在了很久，最近开始在制作中引入深度强化学习。结果显示训练对象动作的确更加自然，然而这离实现多动作仿真还有很长一段距离。

在本研究中，我们将使用动作模仿任务来训练模型，我们的训练目标就是训练对象最终可以复现一个给定的参考动作。参考动作是以一系列目标姿势表示的（q_0,q_1,…,q_T）,其中 q_t 就是目标在t时刻的姿势。奖励函数旨在缩小目标姿势 q^_t 与训练对象姿势 q_t 之间的方差。

虽然在运动模仿上应用了更复杂的方法，但我们发现简单的缩小跟踪误差（以及两个额外的视角的误差）表现的出人意料的好。这个策略是通过训练使用PPO算法优化过的目标实现的。

利用这个框架，我们可以开发出包含大量高挑战性技巧（运动，杂技，武术，舞蹈）的策略。

接着我们比较了现有方法和之前用来模仿动作捕捉剪辑的方法（IGAL）。结果显示我们的方法更加简单，且更好的复现了参考动作。由此得到的策略规避了很多深度强化学习方法的弊端，可以使得训练对象的像人一样行动流畅。

Insights

参考状态初始化

假设虚拟对象正准备做后空翻，它怎样才能知道在半空做一个完整翻转可以获得高奖励呢？由于大多强化学习方法是可回溯的，他们只观察已访问到的状态的奖励。在后空翻这个实验中，虚拟对象必须在知道翻转中的这些状态会获得高奖励之前去观察后空翻的运动轨迹。但是因为后空翻对于起始和落地的条件非常敏感，所以虚拟对象不太可能在随机尝试中划出一条成功的翻转轨迹。为了给虚拟对象提示，我们会把它初始化为参考动作的随机采样状态。所以，虚拟对象有时从地面开始，有时从翻转的中间状态开始。这样就可以让虚拟对象在不知道怎么达到某些状态之前就知道哪些状态可以获得高奖励。

下图就是是否使用RSI训练的策略之间的差别，在训练之前，虚拟对象都会被初始化至一个特定的状态。结果显示，未使用RSI训练的对象没有学会后空翻只学会了向后跳。

提前终止

提前终止对于强化学习研究者来说很重要，他经常被用来提升模仿效率。当虚拟对象处于一种无法成功的状态时，就可以提前终止了，以免继续模仿。这里我们证明了提前终止对结果有很重要的影响。我们依旧考虑后空翻这一动作，在训练的开始阶段，策略非常糟糕，而虚拟对象基本上是不停的失败。当它摔倒后就极难恢复到之前的状态。首次试验成败基本由样本决定，所以虚拟对象大多数时间都是在地上徒劳挣扎。其他的方法论也曾经遭遇过这样的不平衡问题，比如监督学习。当虚拟对象进入无用状态时，就可以终结这次训练来缓解这个问题。ET结合RSI就可以保证数据集中的大部分样本是接近参考轨迹的。没有ET,虚拟对象就学不会空翻，而只会摔倒然后在地上尝试表演这一动作。

其他成果

通过给模型输入不同参考动作，模拟对象最终可以学会24中技巧。

除了模仿动作捕捉片段之外，我们还可以让虚拟对象执行其他任务。比如提一个随机放置的目标，或者向某个目标扔球。

我们还训练的 Atlas 机器人去模仿人类动作捕捉的剪辑。尽管 Atlas 拥有与人不同的形态和质量分布，但它依旧可以复现目标动作。该策略不仅可以模仿参考动作，还可以在模仿过程中抵抗异常扰动。

如果没有动作捕捉剪辑怎么办？假设我们要做霸王龙仿真，由于我们无法获得霸王龙的的动作捕捉影像，我们可以请一个画家去画一些动作，然后用使用画作来训练策略。

为什么只模仿霸王龙呢？我们还可以试试狮子

还有龙

最终结论是一个简单的方法却取得了很好的结果。通过缩小跟踪误差，我们就可以训练处针对不同对象和技巧的策略。我们希望我们的工作可以帮助虚拟对象和机器人习得更多的动态运动技巧。探索通过更常见的资源（如视频）来学会动作模仿是一项激动人心的工作。这样我们就可以克服一些没法进行动作捕捉的场景，比如针对某些动物或杂乱的环境动作捕捉很难实现。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28390

浏览量
206957
人工智能

人工智能

+关注

关注
1791

文章
47208

浏览量
238295
计算机图形

计算机图形

+关注

关注
0

文章
11

浏览量
6526

原文标题：学界 | 伯克利 DeepMimic：虚拟特技演员的基本修养

文章出处：【微信号：CAAI-1981，微信公众号：中国人工智能学会】欢迎添加关注！文章转载请注明出处。

反向强化学习的思路

强化学习的另一种策略（二）

发表于 04-03 12:10

深度强化学习实战

一：深度学习DeepLearning实战时间地点：1 月 15日— 1 月18 日二：深度强化学习核心威廉希尔官方网站实战时间地点： 1 月 27 日— 1 月30 日(第一天报到授课三天；提前环境部署电脑

发表于 01-10 13:42

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工智能历史上一个新的里程碑。因此，深

发表于 06-29 18:36 •2.8w次阅读

简单随机搜索：无模型强化学习的高效途径

让我们在强化学习社区感兴趣的问题上应用随机搜索。深度强化学习领域一直把大量时间和精力用于由OpenAI维护的、基于MuJoCo模拟器的一套基准测试中。这里，最优控制问题指的是让一个有腿机器人在一个

发表于 04-01 09:35 •4424次阅读

<b class='flag-5'>简单</b>随机搜索：无模型<b class='flag-5'>强化学习</b>的高效途径

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督

发表于 05-30 06:53 •1409次阅读

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来学习采取何种动作能使其在给定环境中的长期奖励最大化，就像在上

发表于 07-15 10:56 •1.8w次阅读

什么是<b class='flag-5'>强化学习</b>？纯<b class='flag-5'>强化学习</b>有意义吗？<b class='flag-5'>强化学习</b>有什么的致命缺陷？

谷歌推出新的基于Tensorflow的强化学习框架，称为Dopamine

强化学习（RL）研究在过去几年取得了许多重大进展。强化学习的进步使得 AI 智能体能够在一些游戏上超过人类，值得关注的例子包括 DeepMind 攻破 Atari 游戏的 DQN，在围棋中获得瞩目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 对战人

发表于 08-31 09:20 •3691次阅读

机器学习中的无模型强化学习算法及研究综述

模型化强化学习（Mode- based reinforcement Lear-ning）和无模型强化学习（ Model- ree reirη forcement Learning）。模型化

发表于 04-08 11:41 •11次下载

模型化深度强化学习应用研究综述

深度强化学习（DRL）作为机器学习的重要分攴，在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互，并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习

发表于 04-12 11:01 •9次下载

基于深度强化学习的路口单交叉信号控制

利用深度强化学习威廉希尔官方网站实现路口信号控制是智能交通领域的硏究热点。现有硏究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题，但这些研究往往忽略了信号灯状态对动作

发表于 04-23 15:30 •21次下载

虚拟乒乓球手的强化学习模仿训练方法

根据来球起点位置与初始速度生成球拍的有效击球轨迹;进而以球拍轨迹约束虚拟球员的持拍手腕关节，采取逆向运动学与强化学习相结合的方法估计出球拍击球时虚拟球手的击球动作，得到能用合理姿态进行

发表于 05-12 14:55 •12次下载

基于强化学习的虚拟场景角色乒乓球训练

基于强化学习的虚拟场景角色乒乓球训练

发表于 06-27 11:34 •62次下载

强化学习的基础知识和6种基本算法解释

来源：DeepHubIMBA强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督

发表于 01-05 14:54 •951次阅读

什么是强化学习

的AlphaStar，他们都是强化学习模型。诸如此类的模型还有 AlphaGo Zero 等。 强化学习的原理非常简单，它非常像心理学中新行为主义派的斯金纳发现的操作性条件反射。操作性条件反射是什么？当年斯金纳做了一个箱子，进

发表于 10-30 11:36 •4087次阅读

如何使用 PyTorch 进行强化学习

的计算图和自动微分功能，非常适合实现复杂的强化学习算法。 1. 环境（Environment）在强化学习中，环境是一个抽象的概念，它定义了智能体（agent）可以执行的动作（acti

发表于 11-05 17:34 •282次阅读