? 2010-2015 河北J9直營集團官方網(wǎng)站科技有限公司 版權(quán)所有
網(wǎng)站地圖
圍棋被攻克之后,多人在線戰(zhàn)術(shù)競技游戲(MOBA)已經(jīng)成為測試檢驗前沿人工智能的動作決策和預(yù)測能力的重要平臺?;隍v訊天美工作室開發(fā)的熱門 MOBA 類手游《王者榮耀》,騰訊 AI Lab 正努力探索強化學(xué)習(xí)技術(shù)在復(fù)雜環(huán)境中的應(yīng)用潛力。本文即是其中的一項成果,研究用深度強化學(xué)習(xí)來為智能體預(yù)測游戲動作的方法,論文已被AAAI-2020接收。
此技術(shù)支持了騰訊此前推出的策略協(xié)作型 AI 「絕悟」1v1版本,該版本曾在今年8月上海舉辦的國際數(shù)碼互動娛樂展覽會China Joy首次亮相,在2100多場和頂級業(yè)余玩家體驗測試中勝率達到99.8%。
除了研究,騰訊AI Lab與王者榮耀還將聯(lián)合推出“開悟”AI+游戲開放平臺,打造產(chǎn)學(xué)研生態(tài)。王者榮耀會開放游戲數(shù)據(jù)、游戲核心集群(Game Core)和工具,騰訊AI Lab會開放強化學(xué)習(xí)、模仿學(xué)習(xí)的計算平臺和算力,邀請高校與研究機構(gòu)共同推進相關(guān)AI研究,并通過平臺定期測評,讓“開悟”成為展示多智能體決策研究實力的平臺。目前“開悟”平臺已啟動高校內(nèi)測,預(yù)計在2020年5月全面開放高校測試,并且在測試環(huán)境上,支持1v1,5v5等多種模式;2020年12月,我們計劃舉辦第一屆的AI在王者榮耀應(yīng)用的水平測試。

在競爭環(huán)境中學(xué)習(xí)具備復(fù)雜動作決策能力的智能體這一任務(wù)上,深度強化學(xué)習(xí)(DRL)已經(jīng)得到了廣泛的應(yīng)用。在競爭環(huán)境中,很多已有的 DRL 研究都采用了兩智能體游戲作為測試平臺,即一個智能體對抗另一個智能體(1v1)。
其中 Atari 游戲和棋盤游戲已經(jīng)得到了廣泛的研究,比如 2015 年 Mnih et al. 使用深度 Q 網(wǎng)絡(luò)訓(xùn)練了一個在 Atari 游戲上媲美人類水平的智能體;2016 年 Silver et al. 通過將監(jiān)督學(xué)習(xí)與自博弈整合進訓(xùn)練流程中而將智能體的圍棋棋力提升到了足以擊敗職業(yè)棋手的水平;2017 年 Silver et al. 又更進一步將更通用的 DRL 方法應(yīng)用到了國際象棋和日本將棋上。
本文研究的是一種復(fù)雜度更高一籌的MOBA 1v1 游戲。即時戰(zhàn)略游戲(RTS)被視為 AI 研究的一個重大挑戰(zhàn)。而MOBA 1v1 游戲就是一種需要高度復(fù)雜的動作決策的 RTS 游戲。相比于棋盤游戲和 Atari 系列等 1v1 游戲,MOBA 的游戲環(huán)境要復(fù)雜得多,AI的動作預(yù)測與決策難度也因此顯著提升。以 MOBA 手游《王者榮耀》中的 1v1 游戲為例,其狀態(tài)和所涉動作的數(shù)量級分別可達 10^600和 10^18000,而圍棋中相應(yīng)的數(shù)字則為 10^170和 10^360,參見下表 1。

此外,MOBA 1v1 的游戲機制也很復(fù)雜。要在游戲中獲勝,智能體必須在部分可觀察的環(huán)境中學(xué)會規(guī)劃、攻擊、防御、控制技能組合以及誘導(dǎo)和欺騙對手。除了玩家與對手的智能體,游戲中還有其它很多游戲單位,比如小兵和炮塔。這會給目標(biāo)選擇帶來困難,因為這需要精細的決策序列和相應(yīng)的動作執(zhí)行。
此外,MOBA 游戲中不同英雄的玩法也不一樣,因此就需要一個穩(wěn)健而統(tǒng)一的建模方式。還有一點也很重要:MOBA 1v1游戲缺乏高質(zhì)量人類游戲數(shù)據(jù)以便進行監(jiān)督學(xué)習(xí),因為玩家在玩 1v1 模式時通常只是為了練習(xí)英雄,而主流 MOBA 游戲的正式比賽通常都采用 5v5 模式。
需要強調(diào),本論文關(guān)注的是 MOBA 1v1 游戲而非MOBA 5v5 游戲,因為后者更注重所有智能體的團隊合作策略而不是單個智能體的動作決策??紤]到這一點,MOBA 1v1游戲更適合用來研究游戲中的復(fù)雜動作決策問題。
為了解決這些難題,本文設(shè)計了一種深度強化學(xué)習(xí)框架,并探索了一些算法層面的創(chuàng)新,對 MOBA 1v1 游戲這樣的多智能體競爭環(huán)境進行了大規(guī)模的高效探索。文中設(shè)計的神經(jīng)網(wǎng)絡(luò)架構(gòu)包含了對多模態(tài)輸入的編碼、對動作中相關(guān)性的解耦、探索剪枝機制以及攻擊注意機制,以考慮 MOBA 1v1 游戲中游戲情況的不斷變化。
為了全面評估訓(xùn)練得到的 AI 智能體的能力上限和策略穩(wěn)健性,新設(shè)計的方法與職業(yè)玩家、頂級業(yè)務(wù)玩家以及其它在 MOBA 1v1 游戲上的先進方法進行了比較。
對需要高度復(fù)雜的動作決策的 MOBA 1v1 游戲 AI 智能體的構(gòu)建進行了全面而系統(tǒng)的研究。在系統(tǒng)設(shè)計方面,本文提出了一種深度強化學(xué)習(xí)框架,能提供可擴展的和異步策略的訓(xùn)練。在算法設(shè)計方面,本文開發(fā)了一種用于建模 MOBA 動作決策的 actor-critic 神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的優(yōu)化使用了一種多標(biāo)簽近端策略優(yōu)化(PPO)目標(biāo),并提出了對動作依賴關(guān)系的解耦方法、用于目標(biāo)選取的注意機制、用于高效探索的動作掩碼、用于學(xué)習(xí)技能組合 LSTM 以及一個用于確保訓(xùn)練收斂的改進版 PPO——dual-clip PPO。
在《王者榮耀》1v1 模式上的大量實驗表明,訓(xùn)練得到的 AI 智能體能在多種不同類型的英雄上擊敗頂級職業(yè)玩家。
考慮到復(fù)雜智能體的動作決策問題可能引入高方差的隨機梯度,所以有必要采用較大的批大小以加快訓(xùn)練速度。因此,本文設(shè)計了一種高可擴展低耦合的系統(tǒng)架構(gòu)來構(gòu)建數(shù)據(jù)并行化。具體來說,這個架構(gòu)包含四個模塊:強化學(xué)習(xí)學(xué)習(xí)器(RL Learner)、人工智能服務(wù)器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。如圖 1 所示。

AI 服務(wù)器實現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡?。記憶池是?shù)據(jù)存儲模塊,能為RL 學(xué)習(xí)器提供訓(xùn)練實例。這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設(shè)計和環(huán)境邏輯上。這樣的系統(tǒng)設(shè)計也可用于其它的多智能體競爭問題。
RL 學(xué)習(xí)器中實現(xiàn)了一個 actor-critic 神經(jīng)網(wǎng)絡(luò),其目標(biāo)是建模 MOBA 1v1 游戲中的動作依賴關(guān)系。如圖2所示。

5.dual-clip PPO:這是 PPO 算法的一種改進版本,使用它是為了確保使用大和有偏差的數(shù)據(jù)批進行訓(xùn)練時的收斂性。如圖3所示。

測試平臺為熱門 MOBA 游戲《王者榮耀》的 1v1 游戲模式。為了評估 AI 在現(xiàn)實世界中的表現(xiàn),這個 AI 模型與《王者榮耀》職業(yè)選手和頂級業(yè)余人類玩家打了大量比賽。實驗中 AI 模型的動作預(yù)測時間間隔為 133 ms,這大約是業(yè)余高手玩家的反應(yīng)時間。另外,論文方法還與已有研究中的基準方法進行了比較,其中包括游戲內(nèi)置的決策樹方法以及其它研究中的 MTCS 及其變體方法。實驗還使用Elo分數(shù)對不同版本的模型進行了比較。
表 3 給出了AI和多名頂級職業(yè)選手的比賽結(jié)果。需要指出這些職業(yè)玩家玩的都是他們擅長的英雄??梢钥吹?AI 能在多種不同類型的英雄上擊敗職業(yè)選手。

實驗進一步評估了 AI 學(xué)習(xí)的策略能否應(yīng)對不同的頂級人類玩家。在2019年8月份,王者榮耀1v1 AI對公眾亮相,與大量頂級業(yè)余玩家進行了2100場對戰(zhàn)。AI勝率達到99.81%。


圖 5 展示了訓(xùn)練過程中 Elo 分數(shù)的變化情況,這里給出的是使用射手英雄「狄仁杰」的例子??梢杂^察到 Elo 分數(shù)會隨訓(xùn)練時長而增長,并在大約 80小時后達到相對穩(wěn)定的水平。此外,Elo 的增長率與訓(xùn)練時間成反比。

為了理解論文方法中不同組件和設(shè)置的效果,控制變量實驗是必不可少的。表 5 展示了使用同樣訓(xùn)練資源的不同「狄仁杰」AI 版本的實驗結(jié)果。

本文提出的框架和算法將在未來開源,而且為了促進對復(fù)雜游戲的進一步研究,騰訊也將在未來把《王者榮耀》的游戲內(nèi)核提供給社區(qū)使用,并且還會通過虛擬云的形式向社區(qū)提供計算資源。