Google强化学习框架，要满足哪三大特性-电子发烧友网

强化学习是一种非常重要 AI 威廉希尔官方网站，它能使用奖励（或惩罚）来驱动智能体（agents）朝着特定目标前进，比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手，它也是 DeepMind 的深度 Q 网络（DQN）的核心部分，它可以在多个 workers 之间分步学习，例如，在 Atari 2600 游戏中实现“超人”性能。

麻烦的是，强化学习框架需要花费大量时间来掌握一个目标，而且框架往往是不灵活和不总是稳定的。

但不用担心，Google 近日发布了一个替代方案：基于 TensorFlow 的开源强化学习框架 Dopamine（多巴胺）。

Google 的博文中提到，这个基于 Tensorflow 的强化学习框架，旨在为 RL 的研究人员提供灵活性，稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发，以及反映神经科学与强化学习研究之间强烈的历史联系，该平台旨在实现可推动激进发现的思辨研究（speculative research）。此版本还包括一组阐明如何使用整个框架的 colabs。

除了强化学习框架的发布，谷歌还推出了一个网站（https://google.github.io/dopamine/baselines/plots.html），允许开发人员快速可视化多个智能体的训练运行情况。他们希望，这一框架的灵活性和易用性将使研究人员能积极尝试新的想法，不管是渐进式还是激进式的想法。

引入灵活和可重复的强化学习研究的新框架

强化学习（RL）研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ，AlphaGo ，AlphaGo Zero 以及 Open AI Five。

具体而言，在 DQN 中引入 replay memories 可以利用以前的智能体经验，大规模的分布式训练可以在多个 workers 之间分配学习过程，分布式方法允许智能体interwetten与威廉的赔率体系完整的分布过程，而不仅仅是模拟它们期望值，以学习更完整的图景。这种类型的进展很重要，因为出现这些进步的算法还适用于其他领域，例如机器人威廉希尔官方网站。

通常，这种进步都来自于快速迭代设计（通常没有明确的方向），以及颠覆既定方法的结构。然而，大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法，并因此探索可能没有直接明显益处的新研究方向。此外，从现有框架再现结果通常太耗时，这可能导致科学的再现性问题。

今天，我们推出了一个新的基于 Tensorflow 的框架，旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑中奖励动机行为的主要成分的启发，以及反映神经科学与强化学习研究之间强烈的历史联系，该平台旨在实现可推动激进发现的思辨研究（speculative research）。此版本还包括一组阐明如何使用整个框架的 colabs。

易用性

清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码（大约 15 个Python 文件），并且有详细记录。这是通过专注于 Arcade 学习环境（一个成熟的，易于理解的基准）和四个基于 value 的智能体来实现的：DQN，C51，一个精心策划的 Rainbow 智能体的简化版本，以及隐式分位数网络（Implicit Quantile Network）智能体，这已在上个月的 ICML 大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况，并积极尝试新的想法。

可重复性

我们对重复性在强化学习研究中的重要性特别敏感。为此，我们为代码提供完整的测试覆盖率，这些测试也可作为其他文档形式。此外，我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。

基准测试

对于新的研究人员来说，能够根据既定方法快速对其想法进行基准测试非常重要。因此，我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整培训数据，可用作 Python pickle 文件（用于使用我们框架训练的智能体）和 JSON 数据文件（用于与受过其他框架训练的智能体进行比较）；我们还提供了一个网站，你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。

下面展示我们在 Seaquest 上的 4 个代理的训练情况，这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。

在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代，其中每次迭代是 100 万个游戏帧（4.5 小时的实时游戏）；y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。

我们还提供已经训练好的深度网络，原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。

希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法，包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究，并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Google

Google

+关注

关注
5

文章
1765

浏览量
57536
AI

AI

+关注

关注
87

文章
30897

浏览量
269117

原文标题：Google发布“多巴胺”开源强化学习框架，三大特性全满足

文章出处：【微信号：CAAI-1981，微信公众号：中国人工智能学会】欢迎添加关注！文章转载请注明出处。

HarmonyOS NEXT应用元服务开发Intents Kit（意图框架服务）综述

，准确且及时地获取到用户显性、潜在意图，从而实现个性化、多模态、精准的智慧分发。三、智慧分发为方便开发者接入，智慧分发提供了多种特性类别，当前已开放习惯推荐、事件推荐、技能调用-语音、本地搜索，后续

发表于 11-28 10:43

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

近日，专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉，此次交易完成后，边塞科技将保持独立运营，而原投资人已全部退出。与此同时，蚂蚁集团近期宣布成立强化学习实验室，旨在推动大模型强化学习

发表于 11-22 11:14 •581次阅读

卷积神经网络的实现工具与框架

： TensorFlow是由Google Brain团队开发的开源机器学习框架，它支持多种深度学习模型的构建和训练，包括卷积神经网络。TensorFlow以其灵活性和可扩展性而闻名，适

发表于 11-15 15:20 •274次阅读

Google AI Edge Torch的特性详解

我们很高兴地发布 Google AI Edge Torch，可将 PyTorch 编写的模型直接转换成 TFLite 格式 (.tflite)，且有着优异的模型覆盖率和 CPU 性能。TFLite

发表于 11-06 10:48 •385次阅读

<b class='flag-5'>Google</b> AI Edge Torch的<b class='flag-5'>特性</b>详解

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器学习库，

发表于 11-05 17:34 •298次阅读

RISC-V如何支持不同的AI和机器学习框架和库？

RISC-V如何支持不同的AI和机器学习框架和库？还请坛友们多多指教一下。

发表于 10-10 22:24

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •427次阅读

PGA280的MUX配置是要选择哪路信号？

我找遍PDF也不知道MUX配置是要选择哪路信号。比如说3'b000是选通哪两路？？

发表于 09-12 07:08

NVIDIA推出全新深度学习框架fVDB

在 SIGGRAPH 上推出的全新深度学习框架可用于打造自动驾驶汽车、气候科学和智慧城市的 AI 就绪型虚拟表示。

发表于 08-01 14:31 •612次阅读

TensorFlow与PyTorch深度学习框架的比较与选择

学习框架，它们各自拥有独特的特点和优势。本文将从背景介绍、核心特性、操作步骤、性能对比以及选择指南等方面对TensorFlow和PyTorch进行详细比较，以帮助读者了解这两个框架的优

发表于 07-02 14:04 •973次阅读

使用google-translate和wwe合并后无法使用google-tts怎么解决？

我打算使用lyrat-mini做一个使用唤醒词唤醒然后后续通过google-sr和google-tts进行交流的聊天机器人，但是当我合并了adf的例子中的wwe和google-translate之后

发表于 06-28 06:05

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •357次阅读

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架，其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架

发表于 03-01 16:25 •884次阅读

谷歌模型框架是什么？有哪些功能和应用？

谷歌模型框架（Google Model Framework）并不是一个特定的框架，而是指谷歌开发的一系列软件框架，用于支持机器学习和人工智能

发表于 02-29 18:11 •1493次阅读

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的行为策略。

发表于 02-20 09:55 •1.4w次阅读

搜索历史

Google强化学习框架，要满足哪三大特性

评论