您的位置 首页 快讯

AI怎样学会打王者荣耀?人工智能公司DeepMind研发AI足球运动员

最近,英国人工智能公司DeepMind在最新一期的《科学·机器人》杂志上发表了一项最新研究成果,是一款AI足球运动员。你知道,之前名震天下的AlphaGo围棋程序就是由DeepMind公司开发的。这款AI足球运动员,是比AlphaGo更高级、更复杂的AI程序。为什么这么说?

从策略上,围棋是1V1,只需要考虑两个人之间的博弈;而足球是多对多,既要考虑个人技巧,又要考虑各个成员之间的协作配合。从即时性上,围棋是回合制的,一方走棋时另一方只能看;而足球是即时竞技,双方都在运动,可能反应慢一秒就错失良机。从操作上,围棋只需要考虑走棋步骤,而足球涉及带球突破、身体对抗、精准射门等多个动作,需要强大的运动策略系统。这些差异决定了,AI足球运动员的算法要比AlphaGo复杂得多。

事实上,AlphaGo作为“上一代AI网红”,它是单体智能的代表;而AI足球运动员属于多智能体,这是当下最热的人工智能研究领域之一,有可能成为“下一代AI网红”。

消息就是这样,来看看能学到什么知识。

你可能不知道,其实在2016年AlphaGo横空出世时,仅仅过了半年,腾讯的AI实验室就推出了自己的AI围棋程序,取名叫“绝艺”。他们请柯洁和“绝艺”对弈,“绝艺”在让柯洁两子的情况下还能完胜,表现不输于AlphaGo。不过,当时AlphaGo大战李世石名震天下,已经拔得头筹,“绝艺”终究是慢了半拍,再厉害也只能算是“跟随者”,引不起公众太大关注了。

而这次不同。早在DeepMind公司研发出AI足球运动员之前,腾讯AI实验室就已经搞出了很厉害的多智能体,而且你没准儿还和它对打过。对,《王者荣耀》游戏在2020年上线了一个新模块,叫“挑战绝悟”,这个“绝悟”就是多智能体AI。它和AI足球运动员一样,打法上要考虑团队配合,因为《王者荣耀》的游戏规则是5V5,也就是10个角色分成两队来打群架;操作上,也有复杂的走位和动作技巧。

为了快速提高“绝悟”的战斗力,腾讯AI团队决定把它放出来,邀请上亿游戏玩家来群殴它,帮助它进步。如果你也挑战过“绝悟”,那厉害了,世界上最先进的多智能体AI的发展有你一份功劳。“绝悟”花三年时间,从一开始连地图小怪都打不过的“弱鸡”,到后来可以完爆《王者荣耀》职业联赛冠军,成为目前世界上最先进的多智能体AI之一。

听到这儿,不知道你会不会有个疑问:BAT三巨头中,在人工智能领域投入最大的是百度,为什么这个多智能体AI是由腾讯做出来的?我看到科技记者史中在他的公众号“浅黑科技”里的报道,原来,腾讯开发“绝悟”不是一时兴起,而是为了解决一个现实问题。

你知道,《王者荣耀》游戏会不断推出新的英雄角色,这个新角色的武力值需要和原来的老角色保持平衡,既不能太强也不能太弱,胜率在50%左右最好。怎么保证这个胜率呢?

一般的做法是,在新角色发布前,找很多专业游戏测试员,用新角色跟老角色组队打上几千场,各种技能和场景都尽量测试一遍。但是,这个方法人力成本高、效率低,还有新角色被提前泄露给公众的风险。能不能干脆搞一个AI系统,由它操控各种角色来自动测试?对,这就是“绝悟”的来历。

从数学上说,想要搞清楚胜率,需要采用穷举法,也就是把每一步中所有可能出现的变数全部推演一遍,自然可以得出结果。不过,这种做法只在理论上可行,现实中它需要的算力是个天文数字,超越了计算机的极限。就连简单的围棋程序都没法采用穷举法,更别说更复杂的多智能体了。

事实上,绝悟1.0版本和AlphaGo一样,是采用“模仿学习”的办法。AlphaGo学习的是人类棋谱,而“绝悟”是学习《王者荣耀》职业联赛的比赛录像。不过,单纯把这些录像信息灌到系统里,还不够精准。因为高手也有出昏招的情况,“绝悟”在初期还无法分辨哪些是高招哪些是昏招。腾讯AI团队就找了一帮游戏高手,手动标记比赛录像中,哪些是华而不实的花架子,哪些是真正的神来之笔,把经过“提纯”后的武功秘籍输入给“绝悟”。

通过“模仿学习”,绝悟的水平相当于一个比较厉害的业余选手,可以挑战游戏主播,但是和真正的职业选手没法比。从“模仿学习”的原理来看,“绝悟”是跟在职业选手屁股后面学,最多能学到七八成功力,就像孙悟空再厉害也赶不上菩提老祖。那后来“绝悟”是怎么做到完爆职业选手的呢?

这就要说到绝悟的2.0版本,它和AlphaGo的下一代,也就是AlphaZero一样,不再是“模仿学习”,而是完全抛开人类经验,从一张白纸开始,通过自己跟自己对战、左右手互搏,自己总结战斗经验。这在人工智能领域叫做“强化学习”。

不过,前面我们提到,多智能体AI面对的情况比围棋这样的单智能体复杂得多,这意味它的模型里有海量参数,“强化学习”的结果,可能越来越强,也可能是“学废了”,模型无法收敛,表现越来越差。就好像教游泳直接把娃扔水里,会的就会了,不会的就淹死了。

事实上,绝悟2.0就遇到了这种情况:一开始学习曲线很漂亮,后来大起大落,然后突然掉头向下。“强化学习”和“模仿学习”不同,机器“强化学习”的过程是个黑匣子,人类无法理解,更无法干预和引导。怎么办?眼睁睁看着“绝悟”被“淹死”?

研究团队苦苦琢磨,最后才想到:虽然无法帮它,但是可以给它降低难度啊!他们为“绝悟”制定了一个从易到难的训练计划:不是一开始就让它进行5V5的混战,而是先从1V1练起,再做固定组队训练,最后再打乱编队训练。

在这样循序渐进的训练计划之下,“绝悟”终于又活过来了,学习曲线噌噌向上。最终,在2019年《王者荣耀》世界冠军杯上,绝悟战胜了顶尖职业选手,一战封神,成为游戏界的AlphaGo。

更重要的是,AlphaGo是专门用于下围棋的单智能体,现实应用场景有限;而“绝悟”作为多智能体代表,它的现实应用场景要多得多。比如,“把《王者荣耀》的英雄们换成汽车,把地图换成街道,就变成了一个智能驾驶问题”;还有我们在第281期节目中提到的,把《王者荣耀》的英雄变成小行星,就可以让小行星们自动组队进行天文观测。

从这个意义上说,《王者荣耀》早就超出了一款游戏的范畴,它是一个由上亿游戏玩家共同参与的多智能体AI研究平台,也是一项通往未来的基础设施。

热门文章

发表回复

您的电子邮箱地址不会被公开。