0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

游戏AI的前世今生,完美的目标不完美的世界

zhKF_jqr_AI 来源:未知 作者:李倩 2018-08-28 09:00 次阅读

编者按:如果有一天AI能征服世界,那近日OpenAI Five在Dota2国际邀请赛的表现一定会被钉在耻辱柱上:接连两天,它们先是输给了本届大赛上最先出局的职业队伍之一,之后又输给了威廉希尔官方网站 已不复当年的退役选手。更凄凉的是,这不是势均力敌的对抗,而是人类对机器的单方面调戏和虐杀……

近两年,世界上最前沿的AI系统已经开始抛弃人类经验,依靠自学从零开始逐渐成长,其中最典型的是DeepMind的AlphaZero,它能在短短8小时内就从一无所知的“婴儿”成长为精通围棋、将棋和国际象棋的顶级大师。

但研究人员还在努力,他们希望能把这个成果扩展到游戏以外的领域。

游戏AI的前世今生

在DeepMind的围棋AI出现以前,如果机器想打败人类,它们至少还得尊重人类积累下的经验。

1997年,为了击败当时的国际象棋冠军Garry Kasparov,IBM的工程师们准备了几个世纪的国际象棋资料,这也是超级计算机“深蓝”能获胜的主要原因。

但现在,这种穷举法已经过时了。研究人员正在重新思考用机器整合人类知识的方式,而目前的主流趋势是:不要插手。

是的,人类选择尊重AI的学习自主性。去年10月,DeepMind团队发布了一个新的棋类AI:AlphaGo Zero。它无需任何人类资料数据,只要给出游戏规则,它就能自我博弈,不断进步。AlphaGo Zero的第一次尝试是完全随机的,在每场比赛结束后,它都会对所取得胜利和未取胜的新知识进行总结。经过训练,最后这个AI和曾击败过李世石的AlphaGo直接对决,以100比0拿下了彻底的胜利。

紧接着,在去年12月,精通三种棋类游戏的AlphaZero在比赛中击败AlphaGo Zero,把刚登上最佳围棋AI宝座的后者赶了下去。之后,DeepMind宣布棋类项目正式终止,但这系列AI给社会带来的巨大震动却迟迟无法平息。在AI咄咄逼人、别创一格的棋风中,人类第一次对机械“智慧”感到惊奇。

2016年,李世石与AlphaGo的对决

除了围棋,自学AI在***、Dota2上也开始崭露头角。以Dota2为例,去年,OpenAI的强化学习bot在中路solo中击败职业选手Dendi,赢得众人瞩目。而今年,他们又推出5人团队OpenAI Five,这些AI已经可以在比赛中击败业余玩家,并且据称天梯分在6000以上。虽然在Ti8上连输两局,提前“淘汰”,它们的进步之大还是有目共睹的。

但游戏并不是这些实验室,以及实验室背后的投资机构的唯一目标,他们有更大的野心。DeepMind希望把类似方法用于构建室温超导体、把蛋白质折叠成药物分子等现实问题。OpenAI也曾直言开发这类威廉希尔官方网站 是出于现实场景需要,至于瓜分奖金池里的2500万美金,这在宏图大志面前只是个微不足道的“小目标”。

当然,他们中也有一帮人只是想单纯实现“人工智能”,让机器人能像人一样思考,并对不同类型的问题作出多种选择——这个定义不明的目标确实令人着迷。

机器学习领域是近年来的吸金热门,尽管无数人在这些AI系统中进行了投资,但我们目前还不清楚这种威廉希尔官方网站 能走多远。按照华盛顿大学计算机科学家佩德罗·多明戈斯的说法:“我不确定这种想法是否能被推广,游戏和现实是两个世界。”

完美的目标,不完美的世界

许多游戏,比如国际象棋和围棋,它们的一个共同特点是玩家随时可以观察棋盘上双方棋子的位置,也就是玩家是站在全知视角的,他们掌握着游戏状态的“完美信息”。在这种情况下,无论棋局多复杂,他们要做的就是结合看到的场景进行思考。

但现实并非如此,大多数现实世界的战略互动都会涉及隐藏信息,比如用机器诊断疾病或进行商务谈判。

Dota2的视野是受限的。在游戏中,地图本身是黑的,只能靠英雄、建筑和侦查守卫提供一定视野,这就意味着AI要根据不完整的数据信息进行推断,同时预测双方英雄的发育进度。在这两场比赛中,可以发现AI的发挥很大程度上需要依赖视野,当敌方走进树林阴影后,它们不会预判对方走位,大多数时候都选择放弃追杀。

而这种不完全信息在星际2里就更突出了。这是一款非常考验操作和战略意识的游戏,玩家需要培养自己的部队进行作战,目标是拆光敌方大本营。但是,整片战场从头到尾会一直笼罩在阴影中,玩家只能依靠己方建筑和部队获得一定视野。加上地图很大,即便只是派小兵去侦查,侦查结果也会充满不确定性。

从DeepMind放出下一个目标是星际2的豪言后,他们就再没有公布任何突破性进展。过大的动作空间、过快的推进节奏,每个玩家——无论是人类还是机器——在点下鼠标的一刹那,都要担忧未来的一系列可能性。

有明确目标的任务:训练小人在陌生环境中前进

尽管面临挑战,星际2还是有一个简单明确的目标:消灭你的敌人。这和围棋、国际象棋、Dota2等游戏都一样。因此从算法角度看,这类游戏就可以设置一个“目标函数”,用它定义自己的目标。

但现实生活中的情况并非如此简单。比如自动驾驶汽车需要更细致的目标,它的目标不仅是到达目的地,也不是规划最佳路线,在行驶过程中,它的任务是多元的:把乘客送至正确地点、遵守交通法规、在意外情况下保障行人安全……

面对复杂问题如何设计目标函数,这是区别普通研究员和机器学习研究员的一个关键。

最大的敌人是自己

虽然世界一直在变,但有些事也一直没有改变,比如现在主导游戏AI的算法,它们其实是几十年前的产物。多伦多大学的计算机科学家大卫杜文德认为:“这基本上就是以往积累的一次大爆炸,让过去的算法更广为人知。”

无论是围棋、国际象棋还是Dota2,AI的策略都依赖强化学习,我们之前说过,这是一种“人类不干预”的方法,研究人员不会对具有详细指令的算法进行微观管理,而是让机器探索环境并通过反复试验来学习如何达到目标。

事实上,在AlphaGo及其后代出现以前,DeepMind团队就已经凭借雅达利游戏上过一次头条。2013年,他们开发除了一个会玩7种雅达利游戏的AI,并证明它能在三个游戏上能击败人类顶级玩家。

这一研究进展现在还在继续。今年2月5日,DeepMind发布了IMPALA,一个可以学习57个雅达利2600游戏的AI系统,其中还包括他们设置的30个等级。在这些游戏中,AI玩家们在不同环境中漫游,完成开门、采蘑菇等目标。这个系统的价值在于让AI学会游戏与游戏之间的共同经验,从而减少学习用时。

然而,这种自我探索、自我博弈的想法可以追溯到几十年前。在20世纪50年代,IBM工程师Arthur Samuel创建了一个跳棋游戏程序Checkers,它具备自学习和自适应能力,能在下棋过程中不断积累所获得的经验。在20世纪90年代,同样是IBM,Gerald Tesauro将算法和其自身对立起来了,发现这样做的效果能让机器在游戏中超出人类水平。

它背后的核心思想就是由策略不同导致结果不同,从而为算法提供即时反馈。“无论什么时候你学到了东西,哪怕只是一小点经验,你的对手就会马上用它来对付你。”这是去年影魔和Dendi中路对线时,OpenAI的研究主管Ilya Sutskever说过一句话。

在自我博弈游戏中,你永远不能休息,你必须一直改善。

但是,自我博弈只是当今主流游戏AI的一个组成部分,它还需要一种方法将游戏体验转化为更深层次的理解。比如在Dota2中,AI需要总结出使自己更易于获胜的战术,它们可以和人类总结的经验一致:每路都有英雄占线、抱团推塔、gank、刷钱,掐点抢神符……也可以是区别于人类的一些东西:前期给辅助更多经验和钱。

要做到这一点,就不得不提这些年来热度持续飙升的深层神经网络。它由一系列层组成,每层包含大量人造神经元。当信号触发某一层中的神经元时,它们会把信号层层传递下去,直到最终生成输出。而为了保证输出的准确性,网络需要大量训练样本。

这就是自我博弈能和它很好地融合在一起的原因。自我博弈可以产生大量的游戏数据,为神经网络提供理论上无限量的自学样本。反过来,深层神经网络提供了一种内化经验和模式的方法。

但这里还是有一个问题,这种由自我博弈生成的数据,它们在interwetten与威廉的赔率体系 环境中可能非常完美,但在现实场景下就不一定了。

比如OpenAI之前推出的五指机器人手Dactyl,这只手能用手指转动手中的方块,最高记录是保持连续转动50次不掉落。它之所以成为一个“重磅新闻”,是因为现在的机器人手往往在模拟时非常灵巧,但在现实中连基本抓握都很难实现,更别提拧瓶盖、使用螺丝刀这样的操作了。

对于难以模拟的问题,自我博弈的用处并不大。按蒙特利尔大学深度学习的先驱Yoshua Bengio的话讲,就是:“真正完美的环境模型与模型学到的东西之间存在巨大差异,尤其是在现实情况十分复杂的情况下。”

洗去“炒作”的铅华

在上文中,我们已经给出了为什么游戏AI在现实中一无所用的两个原因:

游戏环境是完美的,现实环境是复杂多变、信息不完整的,它们非常不同。

自我博弈是一个无休无止的过程,而且它对于难以模拟的现实问题用处不大。

下面我们来谈第三个,也是最后一个。

这么多年来,机器已经在很多领域展现出了可以媲美人类的“智能”,比如国际象棋的“深蓝”,棋类游戏的AlphaZero,或是Dota2的OpenAI Five。但脱去炒作和吹嘘后,它们对现实世界的实质性作用是什么?

我们以在智力问答节目中“智商碾压人类”的IBM Watson为例。这是AI中最贴近人类生活的,多年来它一直在医疗界默默奉献,针对病人研究和设计个性化的癌症治疗方法。但在IBM向世界各地的医院推广这个方案的三年后,全球采用这个系统的医院只有几十家,而且这种方法并没有IBM预期的那么好用。

更有甚者,在上个月,Watson被爆出惊天丑闻,有医疗机构称AI给出的用药建议会导致严重出血的癌症病人出血更加严重。考虑到这个系统已经辅助84000名患者治疗,这样的事件将严重打击人们对AI的信任。

这是因为AI作出判断不需要太多常识性知识,而培养一个医生是建立在阅读大量医学文献和进行大量的基础研究的基础上的。

虽然基于强化学习的AI能搜索巨型空间,也可能在自然语言处理上作出一些突破。但如果我们的最终目标是让机器像人一样“智能”,那么现如今的自我博弈AI还有很大的上升空间。

至少在我看来,目前AI展现出来的东西和真正的思维活动、思想的创造性探索还存在巨大差距。人们期望的“智能”是存在的,但它主要在伟大的AI研究人员的脑海中。——MIT认知科学家Josh Tenenbaum

现在的AI还不足以称之为AI,在现实场景下,一些非常简单、专业的工具可能实用性更强。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47278

    浏览量

    238485
  • 机器
    +关注

    关注

    0

    文章

    782

    浏览量

    40727

原文标题:由Dota2 AI引起的思考:为什么自学成才的AI系统在现实世界一无所用

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美的电磁炉维修手册大全

    美的电磁炉维修手册大全
    发表于 12-24 14:48 4次下载

    美的携手亚马逊云科技,提升全球客户体验

    字化转型方面的卓越实力,也彰显了亚马逊云科技在全球业务扩展中的强大支持。通过Amazon Connect,美的得以构建一个高效、便捷的客户服务平台,为全球用户提供无缝、一致的服务体验。 此外,美的还充分利用了Amazon Connect新增的生成式
    的头像 发表于 12-24 11:48 178次阅读

    深入了解Java泛型——从前世今生到PECS原则

    本文主要介绍泛型诞生的前世今生,特性,以及著名PECS原则的由来。 在日常开发中,必不可少的会使用到泛型,这个过程中经常会出现类似“为什么这样会编译报错?”,“为什么这个列表无法添加
    的头像 发表于 11-21 11:45 152次阅读
    深入了解Java泛型——从<b class='flag-5'>前世</b><b class='flag-5'>今生</b>到PECS原则

    请问TPA3112的输出波形在无滤波状态下是PWM波形式,怎样才能出来完美的正弦波呢?

    请问TPA3112的输出波形在无滤波状态下是PWM波形式,那我加上LC滤波后,怎样才能出来完美的正弦波呢(输入是正弦波,10k),现在测得输出波形中有310k左右的载波,800多mVPP
    发表于 11-04 07:12

    美的电磁炉电路图及各部分电路故障分析,一图搞定

    美的电磁炉电路图及各部分电路故障分析,一图搞定 *附件:美的电磁炉电路图及各部分电路故障分析.pdf
    发表于 10-15 16:27

    欢创播报 美的集团正式在港交所上市

    1 美的集团正式在港交所上市 9月17日,美的集团正式在香港联合交易所主板挂牌上市,股票代码为http://00300.HK。截止发稿,美的集团港股股价报59.35港元/股,涨幅8.30%,总市值
    的头像 发表于 09-19 10:35 676次阅读
    欢创播报 <b class='flag-5'>美的</b>集团正式在港交所上市

    求助,两块VCA810级联输出波形为什么如此不完美

    两块VCA810级联,双电源+-5V供电,输入信号为0--10M的20mv正弦波,放大倍数为40db,输出波形为什么如此不完美????请求专家指导 这是我的电路原理图: 这是我焊接的电路
    发表于 09-19 07:08

    美的在IFA2024展示AI ECO智慧节能解决方案

    在2024年德国柏林国际电子消费品展览会(IFA2024)的璀璨舞台上,美的集团以前瞻性的科技视野,首次向全球展示了其革命性的AI ECO智慧节能解决方案。这一创新成果,依托美的千亿级设备运行数据库的深厚积累,以及云端实时链接的
    的头像 发表于 09-10 18:16 842次阅读

    DS1008JN:精准与高效能的完美结合

    DS1008JN:精准与高效能的完美结合
    的头像 发表于 07-24 14:55 342次阅读

    友思特分享 完美聚光:用于光刻曝光的UV-LED光引擎

    LED替代汞灯在紫外光源中的使用已成为大势所趋。友思特先进的 UV-LED-EXP 系统可作为OEM集成、汞灯光刻设备改造或直接定制光路设计和曝光设备,为紫外光源的半导体光刻曝光过程提供近乎完美的光照质量。
    的头像 发表于 06-26 16:16 568次阅读
    友思特分享 <b class='flag-5'>完美</b>聚光:用于光刻曝光的UV-LED光引擎

    多通道无线采发仪,实现全自动采集和无线发送功能 可靠的数据存储和远程发送 助您搭建完美的监测系统!

    多通道无线采发仪,实现全自动采集和无线发送功能 可靠的数据存储和远程发送 助您搭建完美的监测系统! VS101/104/208/416/432是一款多通道无线采发仪,主要以振弦和温度传感信号为特点
    的头像 发表于 05-10 09:31 330次阅读
    多通道无线采发仪,实现全自动采集和无线发送功能 可靠的数据存储和远程发送 助您搭建<b class='flag-5'>完美的</b>监测系统!

    亿纬储能与美的武汉制冷12MWh分布式储能运营项目正式投运

    近日,武汉亿纬储能有限公司(以下简称“亿纬储能”)与美的集团武汉制冷设备有限公司(以下简称“美的武汉制冷”)合作的武汉美的12MWh分布式储能运营项目正式投运。
    的头像 发表于 03-20 16:49 505次阅读

    美的获实用新型专利授权

    美的获实用新型专利授权 美的新获得一项实用新型专利授权,该专利名为“一种功放模块组件、射频发生装置、射频解冻装置以及冰箱”,专利申请号CN202223387092.2。 该威廉希尔官方网站 可以帮助解决现有威廉希尔官方网站 目前功率放大电路散热结构使用不便的威廉希尔官方网站 问题;而且非常更适用于小型化设备中。
    的头像 发表于 02-24 17:18 1765次阅读

    打造震撼大屏幕:拼接显示系统的完美方案

    在现代社会,大屏幕显示系统已经成为展示信息、传达思想和吸引观众的重要工具。为了打造一个震撼的大屏幕效果,拼接显示系统成为了关键。本文将探讨如何通过拼接显示系统实现完美的大屏幕方案。 首先,了解拼接
    的头像 发表于 01-26 14:30 804次阅读

    美的电磁炉显示u1是什么故障

    美的电磁炉是一款智能家居烹饪设备,具有便捷、高效的优点。然而,在使用过程中,我们可能会遇到一些故障。其中之一是显示屏上出现了U1的故障代码。在本文中,我们将详细探讨美的电磁炉显示U1故障的原因和解
    的头像 发表于 01-19 11:10 1.6w次阅读