王者荣耀人机对战游戏中的人工智能:技术、挑战和机遇

人机博弈由来已久,一直是验证关键人工智能技术的主要工具。1950 年提出的图灵测试是第一个判断机器是否具有人类智能的人机博弈。这激发了研究人员开发能够挑战人类职业棋手的人工智能系统(AI)的热情。

王者荣耀人机对战游戏中的人工智能:技术、挑战和机遇
相应的人工智能包括 AlphaGo、AlphaGo Zero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu1 和 Commander。

一个典型的例子是 1989 年开发的名为 “奇努克 “的跳棋人工智能,其目标是击败世界冠军。1994 年,它击败了玛丽恩-廷斯利,实现了目标。后来,IBM 的 “深蓝 “在 1997 年击败了国际象棋大师加里-卡斯帕罗夫,开创了人机博弈史上的新纪元。

近年来,研究人员见证了人机博弈人工智能的快速发展,从 DQN 代理、AlphaGo、Libratus、OpenAI Five 到 AlphaStar。这些人工智能结合现代技术,可以在某些游戏中击败人类职业棋手,表明决策智能迈出了一大步。

例如,AlphaGo Zero 使用蒙特卡洛树搜索、自我对弈和深度学习,击败了数十名职业围棋选手,代表了大状态完全信息博弈的强大技术。OpenAI Five 使用自我对弈、深度强化学习和手术持续转移,成为第一个在电子竞技比赛中击败世界冠军的人工智能,展示了复杂的不完全信息博弈的有用技术。

在 AlphaStar 和 OpenAI Five 分别在《星际争霸》和《Dota2》游戏中成功达到人类职业玩家水平之后,目前的技术似乎可以解决非常复杂的游戏。尤其是最近在《王者荣耀》和《麻将》等游戏中取得突破的人机博弈人工智能,都遵循了与 AlphaStar 和 OpenAI Five 类似的框架,这表明当前的技术具有一定程度的普适性。

因此,一个自然而然的问题出现了: 目前的人机博弈技术可能面临哪些挑战,未来的趋势又是什么?发表在《机器智能研究》(Machine Intelligence Research)上的一篇新论文旨在回顾近年来成功的人机博弈人工智能,并试图通过对当前技术的深入分析来回答这个问题。

基于目前人机博弈人工智能取得的突破(大部分发表在《科学》和《自然》等期刊上),研究人员调查了四种典型的游戏类型,即以围棋为代表的棋类游戏;以扑克牌游戏为代表的无上限德州扑克(HUNL)、斗地主和麻将;以夺旗战(CTF)中的《Quake III Arena》为代表的第一人称射击游戏(FPS);以《星际争霸》、《Dota2》和《王者荣耀》为代表的即时战略游戏(RTS)。相应的人工智能包括 AlphaGo、AlphaGo Zero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu 和 Commander。

本文的其余部分安排如下。在第 2 节中,研究人员介绍了本文涉及的游戏和人工智能。根据人机游戏人工智能的最新进展,本文评述了四种类型的游戏及其相应的人工智能,即棋类游戏、纸牌游戏、FPS 游戏和 RTS 游戏。为了衡量一款游戏开发专业人类级人工智能的难度,研究人员提取了挑战智能决策的几个关键因素,即不完全信息、长时间跨度、非传递性游戏和多代理合作。

第3节介绍棋类游戏人工智能。AlphaGo 系列基于蒙特卡洛树搜索(Monte Carlo tree search,MCTS)构建,在以往的围棋程序中得到广泛应用。2015 年,AlphaGo 横空出世,击败了欧洲围棋冠军樊麾,这是人工智能首次在没有 “伦子 “的围棋全规模比赛中战胜职业棋手。之后,AlphaGo 利用不同的学习框架开发出了名为 AlphaGo Zero 的高级版本,它不需要事先获得职业人类对抗数据,就能达到超人的表现。AlphaZero 使用了与 AlphaGo Zero 类似的学习框架,并探索了一种通用强化学习算法,它不仅能掌握围棋,还能掌握另外两种棋类游戏–国际象棋和将棋。

第 4 节介绍纸牌游戏人工智能。纸牌游戏作为一种典型的信息不完全游戏,是人工智能长期面临的挑战。DeepStack 和 Libratus 是在 HUNL 中击败职业扑克玩家的两个典型人工智能系统。它们采用了相同的基本技术,即反事实遗憾最小化(CFR)。之后,研究人员又把目光投向了麻将和斗地主,它们给人工智能提出了新的挑战。由微软亚洲研究院开发的Suphx是第一个在麻将中胜过大多数顶尖人类玩家的人工智能系统。DouZero是为斗地主设计的人工智能系统,在Botzone排行榜的344个人工智能代理中排名第一。 

第一人称射击游戏的人工智能见第 5 节。CTF 是一种典型的三维多人第一人称视频游戏,游戏中两支对立的队伍在室内或室外地图上对战。CTF 的设置与当前的多人视频游戏截然不同。更具体地说,CTF 中的代理无法访问其他玩家的状态,团队中的代理也无法相互通信,因此这种环境是学习代理出现通信和适应零射击生成的一个非常好的试验平台。零镜头是指合作或对抗的代理不是所训练的代理,可以是人类玩家,也可以是任意的人工智能代理。仅以像人类一样的像素和游戏点作为输入,学习代理 FTW 就能达到很强的人类水平。

第 6 节是 RTS 游戏。RTS 游戏作为一种典型的视频游戏,有数万人对战,自然成为人机博弈的试验田。此外,RTS 游戏通常具有复杂的环境,与以往的游戏相比更能捕捉现实世界的本质,使得这类游戏的突破更具有适用性。DeepMind 开发的 AlphaStar 使用通用学习算法,在《星际争霸》的三个种族中都达到了大师级水平,其表现也超过了在欧洲服务器上活跃的 99.8% 的人类玩家。作为轻量级计算版本,Commander 采用了与 AlphaStar 相同的学习架构,计算量减少了一个数量级,并在现场比赛中击败了两名大师级玩家。OpenAI Five 的目标是解决 Dota2 游戏,它是首个在电子竞技游戏中击败世界冠军的人工智能系统。作为与 Dota2 比较相似的电子竞技游戏,《王者荣耀》也面临着大多数类似的挑战,而觉悟成为第一个可以玩完整 RTS 游戏而不是限制英雄池的人工智能系统。

在第 7 节中,研究人员总结并比较了所使用的不同技术。根据目前人机博弈人工智能的突破情况,目前使用的技术大致可分为两类,即带有自我博弈(SP)的树搜索(TS)和带有自我博弈或群体博弈(PP)的分布式深度强化学习(DDRL)。需要注意的是,研究人员只是提到了每一类中的基本技术或关键技术,不同的人工智能通常会在此基础上根据游戏引入其他关键模块,而这些新模块有时在不同游戏中并不通用。树搜索有两种代表性算法: MCTS 通常用于完全信息博弈,而 CFR 则是针对不完全信息博弈而设计的。至于种群博弈,它主要用于三种情况:由于博弈特性,不同的玩家/代理不共享相同的策略网络;可以维持种群以克服博弈论上的挑战,如非传递性;种群与基于种群的训练相结合,以学习可扩展的代理。通过比较,研究人员讨论了以下两点: 如何达到纳什均衡,以及如何成为通用技术。

在第 8 节中,研究人员展示了当前游戏人工智能所面临的挑战,这可能是该领域未来的研究方向。尽管人机博弈取得了长足进步,但目前的技术至少存在以下三个局限。首先,大多数人工智能都是为特定的人机游戏或特定游戏的地图而设计的,所学到的人工智能甚至不能用于不同的游戏地图。此外,没有进行足够的实验来验证人工智能在游戏中受到干扰时的能力。其次,训练上述人工智能需要大量的计算资源。由于巨大的硬件资源门槛,只有有限的机构有能力训练高水平的人工智能,这将阻碍大多数科学研究对该问题的深入研究。第三,大多数人工智能的评价标准是其在与有限的专业人类棋手对弈中的获胜能力,宣称达到专家级水平可能有些夸大。本部分将介绍上述局限性的潜在方向和面临的挑战。

本文总结并比较了当前人工智能在人机博弈中的突破技术。研究人员希望通过这一调查,初学者能尽快熟悉这一令人兴奋的领域的技术、挑战和机遇,而在路上的研究人员则能受到启发,进行更深入的研究。

论文更多信息:Qi-Yue Yin et al, AI in Human-computer Gaming: Techniques, Challenges and Opportunities, Machine Intelligence Research (2023).

论文原链接:https://link.springer.com/article/10.1007/s11633-022-1384-6

论文原文:s11633-022-1384-6.pdf

原创文章,作者:Xaiat超级会员,如若转载,请注明出处:https://www.xaiat.com/%e7%8e%8b%e8%80%85%e8%8d%a3%e8%80%80%e4%ba%ba%e6%9c%ba%e5%af%b9%e6%88%98%e6%b8%b8%e6%88%8f%e4%b8%ad%e7%9a%84%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%ef%bc%9a%e6%8a%80%e6%9c%af%e3%80%81%e6%8c%91%e6%88%98/

(0)
Xaiat的头像Xaiat超级会员管理员
上一篇 2024年1月4日 09:15
下一篇 2024年1月6日 09:34

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Xaiat 人工智能艾特 让人人更懂AI