OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流-电子发烧友网

智能体（agent）互相争夺资源的多智能体环境是通向强人工智能（AGI）的必经之路。多智能体环境具有两种优越的特质：首先，它具备自然的考验——环境的难易程度取决于竞争对手的技能（如果你正与自己的克隆体对抗，环境则完全符合你的威廉希尔官方网站水平）。其次，多智能体环境没有稳定的平衡，即无论一个智能体多么聪明，想变得更聪明总是有困难的。这种环境与传统模式有很大的不同，在达到目标之前需要进行更多研究。

OpenAI开发了一种名为MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments）的新算法，用于实现多智能体环境中的集中式学习和分散式执行，让智能体学习互相合作、互相竞争。

用MADDPG算法训练四个红色圆点追逐两个绿色圆点，红色圆点已经学会彼此合作追逐同一个绿色圆点，以获得更高的奖励。与此同时，绿色圆点学会了“分头行动”，其中一个被红点追逐，其他的则试图接近蓝色圆点获得奖励，同时避开红色圆点

MADDPG对强化学习算法DDPG进行扩展，从actor-critic（玩家-评委）强化学习威廉希尔官方网站中获得灵感；其他团队也正探索这些想法的变体和并行实现。

研究人员将interwetten与威廉的赔率体系中的每个智能体看作“actor”（玩家），每个玩家从评委那里获得建议，让它们在训练过程中选择应该加强哪些动作的训练。在传统环境中，评委尝试预测在某一特定情况下一种动作的价值（即我们期待未来获得的奖励），从而让玩家更新策略。这种方法比直接使用奖励更稳定，奖励会导致较大的差异。为了能让智能体进行全局合作，研究者改进了评委，使它们能够访问智能体的观察和行动，如下图所示。

测试时，智能体无需具备中间的评委；它们根据观察以及对其他智能体行为的预测，做出动作。由于一个中心化的评委是为每个智能体独立学习的，这种方法也可以用来模拟多智能体之间的任意奖励结构，包括拥有相反奖励的对抗案例。

OpenAI研究者在多个任务上测试了他们的方法，结果均优于DDPG上的表现。在上图的动画中，从上至下可以看到：两个智能体试图前往特定位置，并且学习分散，向对手隐藏真实的目的地；一个智能体将位置信息传递给另一个智能体，其他三个智能体协调前往此处，并且不会碰撞。

使用MADDPG训练的红色圆点比用DDPG训练的智能体行为更复杂。在上面的动画中可以看到，用MADDPG威廉希尔官方网站训练的智能体和用DDPG训练的智能体都试图穿过绿色的圆圈追逐绿色的小圆点，同时不撞到黑色障碍物。新方法训练出来的智能体抓到的绿色圆点更多，也比用DDPG方法训练出的动作更协调。

传统强化学习的困境

传统的分散式强化学习方法，如DDPG、actor-critic学习、深度Q学习等，都难以在多智能体环境中学习，因为在每个时间段，每个智能体都要尝试学习预测其他智能体的行为，同时还要分析自己的行为。在竞争的情况下尤其如此。MADDPG采用集中的critic为智能体提供有关同类的观察和潜在行为的信息，将不可预测的环境转化为可预测环境。

使用梯度策略的方法会带来更多挑战：因为当奖励不一致时，这种方法所得到的结果差别很大。另外，在提高稳定性的同时，增加critic仍然不能解决一些环境问题，例如合作交流。这样看来在培训期间考虑其他智能体的行为对于学习协作策略是很重要的。

最初的研究

在开发MADDPG之前，当使用分散威廉希尔官方网站时，研究人员注意到如果speaker所发出的关于去哪里不一致的消息，那么listener常常会忽略speaker，智能体将把有关speaker的所有权中设置为0。一旦发生这种情况，就很难恢复训练，因为没有任何反馈，speaker永远不会知道自己所说是否正确。为了解决这个问题，他们研究了最近一个分层强化学习项目中所提到的威廉希尔官方网站，该威廉希尔官方网站可以让强制让listener在决策过程中考虑speaker的消息。这种修复方法并不奏效，因为它虽然强制listener关注speaker，但并不能帮助listener决定说出什么相关的内容。通过帮助speaker学习哪些信息可能与其他智能体的位置信息有关，集中式的critic方法有助于应对这些挑战。想了解更多结果，可点击视频观看：

下一步

智能体建模在人工智能的研究中已经有了丰富的成果，但之前的很多研究都只考虑了短时间内简单的游戏。深度学习能让我们处理复杂的视觉输入，强化学习为我们提供了长时间学习行为的工具。现在我们可以用这些功能一次性训练多个代理，而无需了解环境的变化（即环境在每个时间段发生的变化），我们可以解决更广泛的包括交流和语言的高维度信息，同时从环境的高维信息中学习。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30762

浏览量
268905

原文标题：OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

合作学习在Prtel 99 SE教学中的应用

中职学生由于文化素质不高、基础参差不齐,影响了他们对专业课的学习。笔者从分析合作学习的发展和特点入手,对合作学习在电子专业课《Prtel 99 SE》教学中的作用以及如何实施有效合作学习

发表于 05-13 09:06

云电云安“智能一体”领跑安防行业

　　随着安防逐渐IT化及国内安防厂商精工制造的崛起，产品的互联互通及产品的工业设计逐渐成为市场竞争的重头戏。2015年伊始，云电信息在市场提出“智能一体”的新主张，作为行业的领先者，在“智能

发表于 03-30 11:35

一种基于聚类和竞争克隆机制的多智能体免疫算法

包含分布式电源的配电网无功优化matlab源代码，代码按照高水平文章复现，保证正确，可先发您文章看是否满足您的要求利用分布式电源的无功补偿能力，提出了一种基于聚类和竞争克隆机制的多智能

发表于 12-29 06:50

OpenAI分析机器学习的进化策略

OpenAI总监Ilya Sutskever昨天在EmTech Digital大会上介绍了人工智能领域下一个可能的爆发点。OpenAI是一家独立研究机构，EmTech Digital是MIT

发表于 09-30 13:09 •0次下载

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之

发表于 11-02 16:18 •2.2w次阅读

OpenAI推出Spinning Up 旨在强化人工智能

近日，OpenAI宣布推出Spinning Up，一个旨在提供深度强化学习的项目。OpenAI以在虚拟环境中制作外观时髦的代理而闻名，这些代理能够学习如何独自行走，例如与华盛顿大学

发表于 11-13 09:46 •1891次阅读

OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么？

总决赛让OpenAI的科学家可以回答一个重要的研究问题：OpenAI Five在多大程度、以何种方式能够被确定的打败？并且可能是有史以来最大规模的、人们可以有意识地与之交互的高强度深层强化学习

发表于 04-19 09:29 •5422次阅读

OpenAI与多家媒体商谈内容授权，苹果也加入竞争

OpenAI负责人工智能专利和内容的高管表示，“我们正在与众多出版商进行积极且富有建设性的会谈，取得了良好进展，未来将会公布更多合作协定。”近期他们主要致力于与国际知名新闻机构开展对话

发表于 01-08 11:22 •506次阅读

Reddit与OpenAI达成合作，引入问答内容及AI功能

消息指出，Reddit 与 OpenAI今日宣布建立“战略联盟”，共同推动Reddit问答内容在OpenAI旗下产品中的应用，OpenAI亦将成为Reddit的广告合作商。

发表于 05-17 10:58 •308次阅读

OpenAI与新闻集团签署内容合作协议

人工智能领域的领军企业OpenAI近日宣布，已与美国传媒巨头新闻集团（News Corp）达成多年全球合作伙伴关系。

发表于 05-24 09:45 •409次阅读

苹果与OpenAI自2023年中开始接触，微软担心合作竞争

据悉，苹果有意在定于今年6月11日凌晨1点举行的WWDC 2024全球开发者大会上公开与OpenAI的合作事宜。此外，除了计划引入OpenAI的ChatGPT聊天服务至iOS外，苹果并借机邀请

发表于 05-30 10:18 •506次阅读

苹果宣布与OpenAI构建合作伙伴关系

近日，苹果公司宣布与人工智能领域的领军企业OpenAI达成合作伙伴关系，计划将OpenAI的ChatGPT威廉希尔官方网站整合至其产品中。

发表于 06-12 16:15 •632次阅读

阿联酋与微软、OpenAI达成AI合作

近日，阿联酋人工智能部部长奥马尔·阿尔·奥拉马宣布了一项重要合作。微软与阿联酋本土人工智能公司G42已正式签署协议，允许阿联酋与全球知名的人工智能研究机构

发表于 06-12 17:30 •602次阅读

欧盟加强对人工智能行业审查,微软与OpenAI合作受关注

在人工智能（AI）领域日益激烈的竞争中，欧盟正展现出其加强监管的决心。6月29日，美联社报道指出，欧盟高级官员近期已明确表示，他们正在重新审视这一领域的多项合作关系，特别是微软与OpenAI

发表于 06-29 16:46 •554次阅读

OpenAI公布AI发展的五个阶段

北京时间7月12日，OpenAI为追踪其人工智能（AI）威廉希尔官方网站追赶并超越人类智能的进程，正式公布了AI发展的五个阶段性划分，旨在加深公众对公司AI安全策略及未来愿景的理解。这一分级体系在

发表于 07-12 15:50 •1665次阅读

搜索历史

OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流

评论

合作学习在Prtel 99 SE教学中的应用

云电云安“智能一体”领跑安防行业

一种基于聚类和竞争克隆机制的多智能体免疫算法

OpenAI分析机器学习的进化策略

基于强化学习的MADDPG算法原理及实现

OpenAI推出Spinning Up 旨在强化人工智能

OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么？

OpenAI与多家媒体商谈内容授权，苹果也加入竞争

Reddit与OpenAI达成合作，引入问答内容及AI功能

OpenAI与新闻集团签署内容合作协议

苹果与OpenAI自2023年中开始接触，微软担心合作竞争

苹果宣布与OpenAI构建合作伙伴关系

阿联酋与微软、OpenAI达成AI合作

欧盟加强对人工智能行业审查,微软与OpenAI合作受关注

OpenAI公布AI发展的五个阶段