歷史最高分 騰訊絕悟AI斬獲Minecraft AI競賽冠軍

來源:雷鋒網

絕悟AI開始挑戰更復雜的開放世界游戲環境了。Minecraft (中文譯名《我的世界》) 是全球最暢銷的開放世界3D游戲。隨機生成的開放地圖、自由靈活的玩法、多線程長鏈條任務,給AI研究帶來了極大挑戰。針對Minecraft的復雜環境,游戲AI賽事MineRL邀請全球程序員在4天時間內用一臺計算機訓練AI找到游戲中的鉆石。

訪問:

阿里云服務器精選特惠 爆款免費試用3個月

12月8日,第三屆MineRL競賽主賽道 (research track) 發布成績,AI 的“鉆石之夢”向前踏進了一大步:騰訊AI Lab“絕悟”以76.970分的絕對優勢奪冠。研究成果已發布在Arxiv上,算法框架可復用于其他復雜決策環境。


(論文鏈接:https://arxiv.org/abs/2112.04907)

MineRL競賽由卡內基·梅隆大學、微軟、DeepMind、OpenAI,聯合機器學習頂級會議NeurIPS共同舉辦,極富挑戰性的賽題持續吸引全球開發者關注。今年賽事共有59支團隊、近500名選手投身其中,其中不乏世界頂級學府和研究機構的科研強隊。競賽的研究主題是:訓練樣本高效的Minecraft AI智能體。

騰訊AI Lab創新性地通過分層強化學習(Hierarchical Reinforcement Learning)、表示學習(Representation Learning)、自模仿學習(Self-imitation Learning)、集成行為克隆(Ensemble Behavior Cloning)等算法高效實現比賽目標。



(絕悟AI以壓倒性優勢獲得歷史最高分,今年榜單詳見鏈接)

極度多樣的環境、完全靠隨機種子生成的地圖、長決策序列與復雜的技能學習、高自由度玩法帶來的海量策略偏好都增加了Minecraft AI研究的難度。比如,為了讓AI在15分鐘內找到鉆石,AI需要經歷徒手采集原木、合成木板、木棍與木鎬,采集到鐵礦,經過一系列加工才能合成鉆石。

此外,主辦方還制定了種種嚴苛的規則:包括禁止參賽者編寫規則、游戲環境甚至將背包信息與動作空間加密、且不允許使用預訓練模型,只允許與環境最多交互八百萬次,每個參賽隊伍只能使用6核CPU與半張NVIDIA K80顯卡訓練4天——這個配置幾乎對于所有高校實驗室與個人研究者都可以負擔的。

這次比賽的目的在于促進樣本高效 (Sample-efficient) 游戲AI算法的發展。目前流行的強化學習算法一般需要多達成百上千萬次的試錯來尋找最優流程,耗費大量的時間和計算資源。而純靠人類數據的模仿學習算法雖然更快,但性能上往往不盡如人意。


(Minecraft 游戲截圖)

絕悟AI創新性地提出了一種樣本高效的基于分層強化學習(Hierarchical Reinforcement Learning)的解決方案。數據表明,騰訊AI Lab推出的上層控制器的預測準確率可以達到99.95%,也就是說,AI從人類數據中學到了一套幾乎不出錯的宏觀策略,每時每刻都清晰地知道自己下一步的正確動向。

在狀態空間表征上,Minecraft游戲遇到的最大挑戰在于如何理解復雜的開放地圖。首先被選中的是近年來熱門的表示學習方法 (Representation Learning)。但研究人員很快發現,已有方法只適用于2D場景,在MineCraft游戲環境里效果很差。于是騰訊AI Lab設計了一種“基于動作感知”(Action-aware Representation Learning)的新穎算法,用來捕捉每個動作對環境產生的影響,形成注意力機制。實驗表明,該算法可以顯著提升智能體獲得資源的能力與效率。


(不同動作的可視化結果,AI學會了關注當前圖像中的關鍵區域)

隨著游戲推進,智能體與人類的策略出現了很大的分歧。此時,人類數據已經很難用于指導AI。絕悟AI使用了自模仿學習 (Self-imitation Learning)的思想,提出了基于鑒別器的自模仿學習算法,AI可以從自身過往的成功與失敗中獲得經驗與教訓,并在察覺到當前狀況不妙的時候,主動往更好的方向修正。對比實驗證明,在加入自模仿策略后,智能體探索到的行為更加一致,也可以顯著降低進入危險區域的概率。

對于合成物品等需要長鏈條的動作序列的任務,研究人員也做了細致的優化。通過動作序列一致性過濾 (Consistency Filtering) 與基于投票的集成學習(Ensemble Learning),模型在合成物品階段的成功率從35%提升到96%,一舉將最薄弱的鏈條扭轉為了最穩定的制勝點。

利用高度復雜、高度定制化的游戲場景作訓練場,騰訊 AI Lab 的深度強化學習智能體正不斷走近現實。棋牌游戲 AI “絕藝”從圍棋棋盤逐步走向象棋、麻將,策略協作型 AI “絕悟”從MOBA走向FPS、RTS,再到如今的 3D開放世界 MineCraft。它們邁向全新挑戰的每一步,都讓AI離解決現實問題、科技向善的大目標更近了一步。

隨著虛實集成世界逐步變成現實,這些研究的經驗、方法與結論,將在真實世界創造更大的實用價值。

關鍵詞: Tencent 騰訊 歷史最高分 騰訊絕悟AI斬獲Minecraft AI

推薦

直播更多》

關閉

資訊更多》

焦點

国产精品亚洲一区二区麻豆| 亚洲伦另类中文字幕| 亚洲色图国产精品| 亚洲日韩精品无码一区二区三区| 亚洲精品成人在线| 亚洲成aⅴ人片久青草影院| 老司机亚洲精品影院在线观看| 亚洲国产精华液2020| 亚洲国产AV无码一区二区三区 | 日韩亚洲国产综合高清| 国产精品亚洲自在线播放页码 | 亚洲午夜未满十八勿入网站2| 伊人亚洲综合青草青草久热| 亚洲精品国产电影| 国产亚洲精品国看不卡| 亚洲精品国产字幕久久不卡| 国产亚洲一区二区三区在线| 亚洲国产精品一区第二页| 久久精品亚洲综合一品| 亚洲无删减国产精品一区| 久久亚洲日韩看片无码| 亚洲国产夜色在线观看| 中中文字幕亚洲无线码| 亚洲精品无播放器在线播放 | 五月婷婷亚洲综合| 久久亚洲国产精品五月天婷| 国产亚洲精品免费| 亚洲国产精品13p| 美腿丝袜亚洲综合| 久久综合图区亚洲综合图区| 亚洲日本中文字幕| 亚洲人成在线中文字幕| 亚洲欧美日韩一区二区三区| 国产成人精品亚洲| 曰韩亚洲av人人夜夜澡人人爽| 亚洲国产精品va在线播放| 亚洲高清美女一区二区三区| jlzzjlzz亚洲jzjzjz| 久久无码av亚洲精品色午夜| 亚洲一区二区三区乱码A| 亚洲AV综合色一区二区三区|