DeepMind打造加強(qiáng)版AlphaGo 助力突破認(rèn)知及推理挑戰(zhàn)
谷歌母公司 Alphabet 旗下頂尖 AI 實(shí)驗(yàn)室 DeepMind 曾因其 AI 系統(tǒng) AlphaGo 擊敗頂尖人類圍棋選手、AlphaStar 贏得星際爭(zhēng)霸 2 而爆紅全球。本周,它又披露新的游戲 AI 系統(tǒng)。
與此前開(kāi)發(fā)的游戲系統(tǒng)不同,DeepMind 的 AI 新作 Player of Games 是第一個(gè)在完全信息游戲以及不完全信息游戲中都能實(shí)現(xiàn)強(qiáng)大性能的 AI 算法。完全信息游戲如中國(guó)圍棋、象棋等棋盤游戲,不完全信息游戲如撲克等。
這是向能夠在任意環(huán)境中學(xué)習(xí)的真正通用 AI 算法邁出的重要一步。
Player of Game 在象棋、圍棋這兩種完全信息游戲和德州撲克、蘇格蘭場(chǎng)這兩種不完全信息游戲中與頂尖 AI 智能體對(duì)戰(zhàn)。
從實(shí)驗(yàn)結(jié)果來(lái)看,DeepMind 稱 Player of Games 在完全信息游戲中的表現(xiàn)已經(jīng)達(dá)到了“人類頂級(jí)業(yè)余選手”水平,但如果給予相同資源,該算法的表現(xiàn)可能會(huì)明顯弱于 AlphaZero 等專用游戲算法。
在兩類不完全信息游戲中,Player of Games 均擊敗了最先進(jìn)的 AI 智能體。
深藍(lán)、AlphaGo 等 AI 系統(tǒng)僅擅長(zhǎng)玩一種游戲
計(jì)算機(jī)程序挑戰(zhàn)人類游戲選手由來(lái)已久。
20 世紀(jì) 50 年代,IBM 科學(xué)家亞瑟?塞繆爾(Arthur L. Samuel)開(kāi)發(fā)了一個(gè)跳棋程序,通過(guò)自對(duì)弈來(lái)持續(xù)改進(jìn)其功能,這項(xiàng)研究給很多人帶來(lái)啟發(fā),并普及了“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語(yǔ)。
此后游戲 AI 系統(tǒng)一路發(fā)展。1992 年,IBM 開(kāi)發(fā)的 TD-Gammon 通過(guò)自對(duì)弈在西洋雙陸棋中實(shí)現(xiàn)大師級(jí)水平;1997 年,IBM 深藍(lán) DeepBlue 在國(guó)際象棋競(jìng)賽中戰(zhàn)勝當(dāng)時(shí)的世界棋王卡斯帕羅夫;2016 年,DeepMind 研發(fā)的 AI 系統(tǒng) AlphaGo 在圍棋比賽中擊敗世界圍棋冠軍李世石……
這些 AI 系統(tǒng)有一個(gè)共同之處,都是專注于一款游戲。比如塞繆爾的程序、AlphaGo 不會(huì)下國(guó)際象棋,IBM 的深藍(lán)也不會(huì)下圍棋。
隨后,AlphaGo 的繼任者 AlphaZero 做到了舉一反三。它證明了通過(guò)簡(jiǎn)化 AlphaGo 的方法,用最少的人類知識(shí),一個(gè)單一的算法可以掌握三種不同的完全信息游戲。不過(guò) AlphaZero 還是不會(huì)玩撲克,也不清楚能否玩好不完全信息游戲。
實(shí)現(xiàn)超級(jí)撲克 AI 的方法有很大的不同,撲克游戲依賴于博弈論的推理,來(lái)保證個(gè)人信息的有效隱藏。其他許多大型游戲 AI 的訓(xùn)練都受到了博弈論推理和搜索的啟發(fā),包括 Hanabi 紙牌游戲 AI、The Resistance 棋盤游戲 AI、Bridge 橋牌游戲 AI、AlphaStar 星際爭(zhēng)霸 II 游戲 AI 等。
這里的每個(gè)進(jìn)展仍然是基于一款游戲,并使用了一些特定領(lǐng)域的知識(shí)和結(jié)構(gòu)來(lái)實(shí)現(xiàn)強(qiáng)大的性能。
DeepMind 研發(fā)的 AlphaZero 等系統(tǒng)擅長(zhǎng)國(guó)際象棋等完全信息游戲,而加拿大阿爾伯特大學(xué)研發(fā)的 DeepStack、卡耐基梅隆大學(xué)研發(fā)的 Libratus 等算法在撲克等不完全信息游戲中表現(xiàn)出色。
對(duì)此,DeepMind 研發(fā)了一種新的算法 Player of Games(PoG),它使用了較少的領(lǐng)域知識(shí),通過(guò)用自對(duì)弈(self-play)、搜索和博弈論推理來(lái)實(shí)現(xiàn)強(qiáng)大的性能。
更通用的算法 PoG:棋盤、撲克游戲都擅長(zhǎng)
無(wú)論是解決交通擁堵問(wèn)題的道路規(guī)劃,還是合同談判、與顧客溝通等互動(dòng)任務(wù),都要考慮和平衡人們的偏好,這與游戲策略非常相似。AI 系統(tǒng)可能通過(guò)協(xié)調(diào)、合作和群體或組織之間的互動(dòng)而獲益。像 Player of Games 這樣的系統(tǒng),能推斷其他人的目標(biāo)和動(dòng)機(jī),使其與他人成功合作。
要玩好完全的信息游戲,需要相當(dāng)多的預(yù)見(jiàn)性和計(jì)劃。玩家必須處理他們?cè)谄灞P上看到的東西,并決定他們的對(duì)手可能會(huì)做什么,同時(shí)努力實(shí)現(xiàn)最終的勝利目標(biāo)。不完全信息游戲則要求玩家考慮隱藏的信息,并思考下一步應(yīng)該如何行動(dòng)才能獲勝,包括可能的虛張聲勢(shì)或組隊(duì)對(duì)抗對(duì)手。
DeepMind 稱,Player of Games 是首個(gè)“通用且健全的搜索算法”,在完全和不完全的信息游戲中都實(shí)現(xiàn)了強(qiáng)大的性能。
Player of Games(PoG)主要由兩部分組成:
一種新的生長(zhǎng)樹(shù)反事實(shí)遺憾最小化(GT-CFR)
一種通過(guò)游戲結(jié)果和遞歸子搜索來(lái)訓(xùn)練價(jià)值-策略網(wǎng)絡(luò)的合理自對(duì)弈。
在完全信息游戲中,AlphaZero 比 Player of Games 更強(qiáng)大,但在不完全的信息游戲中,AlphaZero 就沒(méi)那么游刃有余了。
Player of Games 有很強(qiáng)通用性,不過(guò)不是什么游戲都能玩。參與研究的 DeepMind 高級(jí)研究科學(xué)家馬丁?施密德(Martin Schmid)說(shuō),AI 系統(tǒng)需考慮每個(gè)玩家在游戲情境中的所有可能視角。
雖然在完全信息游戲中只有一個(gè)視角,但在不完全信息游戲中可能有許多這樣的視角,比如在撲克游戲中,視角大約有 2000 個(gè)。
此外,與 DeepMind 繼 AlphaZero 之后研發(fā)的更高階 MuZero 算法不同,Player of Games 也需要了解游戲規(guī)則,而 MuZero 無(wú)需被告知規(guī)則即可飛速掌握完全信息游戲的規(guī)則。
在其研究中,DeepMind 評(píng)估了 Player of Games 使用谷歌 TPUv4 加速芯片組進(jìn)行訓(xùn)練,在國(guó)際象棋、圍棋、德州撲克和策略推理桌游《蘇格蘭場(chǎng)》(Scotland Yard)上的表現(xiàn)。
在圍棋比賽中,AlphaZero 和 Player of Games 進(jìn)行了 200 場(chǎng)比賽,各執(zhí)黑棋 100 次、白棋 100 次。在國(guó)際象棋比賽中,DeepMind 讓 Player of Games 和 GnuGo、Pachi、Stockfish 以及 AlphaZero 等頂級(jí)系統(tǒng)進(jìn)行了對(duì)決。
在國(guó)際象棋和圍棋中,Player of Games 被證明在部分配置中比 Stockfish 和 Pachi 更強(qiáng),它在與最強(qiáng)的 AlphaZero 的比賽中贏得了 0.5% 的勝利。
盡管在與 AlphaZero 的比賽中慘敗,但 DeepMind 相信 Player of Games 的表現(xiàn)已經(jīng)達(dá)到了“人類頂級(jí)業(yè)余選手”的水平,甚至可能達(dá)到了專業(yè)水平。
Player of Games 在德州撲克比賽中與公開(kāi)可用的 Slumbot 對(duì)戰(zhàn)。該算法還與 Joseph Antonius Maria Nijssen 開(kāi)發(fā)的 PimBot 進(jìn)行了蘇格蘭場(chǎng)的比賽。
結(jié)果顯示,Player of Games 是一個(gè)更好的德州撲克和蘇格蘭場(chǎng)玩家。與 Slumbot 對(duì)戰(zhàn)時(shí),該算法平均每 hand 贏得 700 萬(wàn)個(gè)大盲注(mbb / hand),mbb / hand 是每 1000 hand 贏得大盲注的平均數(shù)量。
同時(shí)在蘇格蘭場(chǎng),DeepMind 稱,盡管 PimBot 有更多機(jī)會(huì)搜索獲勝的招數(shù),但 Player of Games 還是“顯著”擊敗了它。
研究關(guān)鍵挑戰(zhàn):訓(xùn)練成本太高
施密德相信 Player of Games 是向真正通用的游戲系統(tǒng)邁出的一大步。
實(shí)驗(yàn)的總體趨勢(shì)是,隨著計(jì)算資源增加,Player of Games 算法以保證產(chǎn)生更好的最小化-最優(yōu)策略的逼近,施密德預(yù)計(jì)這種方法在可預(yù)見(jiàn)的未來(lái)將擴(kuò)大規(guī)模。
“人們會(huì)認(rèn)為,受益于 AlphaZero 的應(yīng)用程序可能也會(huì)受益于游戲玩家。”他談道,“讓這些算法更加通用是一項(xiàng)令人興奮的研究。”
當(dāng)然,傾向于大量計(jì)算的方法會(huì)讓擁有較少資源的初創(chuàng)公司、學(xué)術(shù)機(jī)構(gòu)等組織處于劣勢(shì)。在語(yǔ)言領(lǐng)域尤其如此,像 OpenAI 的 GPT-3 這樣的大型模型已取得領(lǐng)先性能,但其通常需要數(shù)百萬(wàn)美元的資源需求,這遠(yuǎn)超大多數(shù)研究小組的預(yù)算。
即便是在 DeepMind 這樣財(cái)力雄厚的公司,成本有時(shí)也會(huì)超過(guò)人們所能接受的水平。
對(duì)于 AlphaStar,公司的研究人員有意沒(méi)有嘗試多種構(gòu)建關(guān)鍵組件的方法,因?yàn)楦吖軅冋J(rèn)為訓(xùn)練成本太高。根據(jù) DeepMind 披露的業(yè)績(jī)文件,它在去年才首次盈利,年收入達(dá)到 8.26 億英鎊(折合約 69 億人民幣),獲得 4380 萬(wàn)英鎊(折合約 3.67 億人民幣)的利潤(rùn)。從 2016 年~2019 年,DeepMind 共計(jì)虧損 13.55 億英鎊(折合約 113 億人民幣)。
據(jù)估計(jì),AlphaZero 的訓(xùn)練成本高達(dá)數(shù)千萬(wàn)美元。DeepMind 沒(méi)有透露 Player of Games 的研究預(yù)算,但考慮到每個(gè)游戲的訓(xùn)練步驟從數(shù)十萬(wàn)到數(shù)百萬(wàn)不等,這個(gè)預(yù)算不太可能低。
結(jié)語(yǔ):游戲 AI 正助力突破認(rèn)知及推理挑戰(zhàn)
目前游戲 AI 還缺乏明顯的商業(yè)應(yīng)用,而 DeepMind 的一貫理念是借其去探索突破認(rèn)知和推理能力所面臨的獨(dú)特挑戰(zhàn)。近幾十年來(lái),游戲催生了自主學(xué)習(xí)的 AI,這為計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車和自然語(yǔ)言處理提供了動(dòng)力。
隨著研究從游戲轉(zhuǎn)向其他更商業(yè)化的領(lǐng)域,如應(yīng)用推薦、數(shù)據(jù)中心冷卻優(yōu)化、天氣預(yù)報(bào)、材料建模、數(shù)學(xué)、醫(yī)療保健和原子能計(jì)算等等,游戲 AI 研究對(duì)搜索、學(xué)習(xí)和博弈推理的價(jià)值愈發(fā)凸顯。
“一個(gè)有趣的問(wèn)題是,這種水平的游戲是否可以用較少的計(jì)算資源實(shí)現(xiàn)。”這個(gè)在 Player of Games 論文最后中被提及的問(wèn)題,還沒(méi)有明確的答案。
關(guān)鍵詞: DeepMind 加強(qiáng)版 AlphaGo 助力 突破認(rèn)知及
推薦
-
AI卷入俄烏戰(zhàn)爭(zhēng) 人工智能被用于竊聽(tīng)士兵在戰(zhàn)場(chǎng)上的通信內(nèi)容
在俄烏戰(zhàn)爭(zhēng)中,一種人工智能(AI)工具正在被用于竊聽(tīng)俄羅斯士兵在戰(zhàn)場(chǎng)上的通信內(nèi)容。該工具是由美國(guó)人工...
來(lái)源:智東西 -
整體需求不振DDR4持續(xù)跌價(jià) 目前仍未有止跌趨勢(shì)
眾所周知,DRAM 作為存儲(chǔ)器中的重要組成部分,在半導(dǎo)體產(chǎn)業(yè)鏈當(dāng)中也是具有舉足輕重的地位,不過(guò),DRAM...
來(lái)源:愛(ài)集微 -
雷諾首席執(zhí)行官 計(jì)劃為電動(dòng)汽車業(yè)務(wù)設(shè)立一個(gè)單獨(dú)部門
雷諾首席執(zhí)行官 Luca de Meo 本周二表示,公司計(jì)劃為電動(dòng)汽車業(yè)務(wù)設(shè)立一個(gè)單獨(dú)的部門,最終該部門可...
來(lái)源:愛(ài)集微 -
通用汽車制定全球連續(xù)性計(jì)劃 以減輕汽車行業(yè)面臨的不確定性
通用汽車公司本周一表示,已與其合作伙伴和供應(yīng)商制定了一項(xiàng)全球連續(xù)性計(jì)劃,以減輕中國(guó)疫情爆發(fā)后汽車...
來(lái)源:愛(ài)集微 -
歐盟抱團(tuán)突圍振興半導(dǎo)體 各國(guó)都在尋求領(lǐng)導(dǎo)地位
歐盟委員會(huì)公布了投入超過(guò)430億歐元的《歐洲芯片法案》(A Chips Act for Europe)。4月初,西班牙宣...
來(lái)源:人民郵電報(bào) -
元宇宙興起 Web3.0再次成為各大廠商關(guān)注焦點(diǎn)
近日,隨著元宇宙的興起,Web3 0又再次成為各大廠商關(guān)注的焦點(diǎn)。中國(guó)證監(jiān)會(huì)科技監(jiān)管局局長(zhǎng)姚前發(fā)表文章...
來(lái)源:科技日?qǐng)?bào) -
北京市組織召開(kāi)廣告牌匾規(guī)范治理工作推進(jìn)會(huì)
信息導(dǎo)覽、手機(jī)充電、5G微基站……曾一度被人們遺忘的街頭公用電話亭將被賦予更多便民服務(wù)功能,這是記...
來(lái)源:科技日?qǐng)?bào) -
年度全國(guó)十大考古新發(fā)現(xiàn)終評(píng)會(huì) 以網(wǎng)絡(luò)會(huì)議形式在京舉行
近日,由中國(guó)文物報(bào)社、中國(guó)考古學(xué)會(huì)主辦的2021年度全國(guó)十大考古新發(fā)現(xiàn)終評(píng)會(huì)以網(wǎng)絡(luò)會(huì)議形式在京舉行。...
來(lái)源:科技日?qǐng)?bào) -
銳捷網(wǎng)絡(luò)舉辦發(fā)布會(huì) 正式發(fā)布U空間解決方案
前段時(shí)間,疫情下的深圳貢獻(xiàn)了一個(gè)名場(chǎng)面:需遠(yuǎn)程辦公的打工人扛著主機(jī)回家,生動(dòng)詮釋了人在主機(jī)在的打...
來(lái)源:人民郵電報(bào) -
科學(xué)家收集123984張核磁共振腦掃描圖 繪制全生命周期人腦發(fā)育圖
英國(guó)《自然》網(wǎng)站6日公開(kāi)的一篇論文,描述了覆蓋人類整個(gè)生命周期的大腦發(fā)育標(biāo)準(zhǔn)參考圖。這些參考圖根據(jù)...
來(lái)源:科技日?qǐng)?bào)
直播更多》
-
特斯拉公司CEO埃隆馬斯克 向Twitter發(fā)出收購(gòu)要約
和外界預(yù)期的一樣,特斯拉公司 CEO 埃...
-
特斯拉公司CEO埃隆馬斯克 向Twitter發(fā)出收購(gòu)要約
和外界預(yù)期的一樣,特斯拉公司 CEO 埃...
-
筆記本電腦代工廠廣達(dá)發(fā)布公告 配合防疫政策暫時(shí)停工
筆記本電腦代工廠廣達(dá)今(13)日發(fā)布公告...
-
英特爾公司宣布斥資30億美元 擴(kuò)建美國(guó)奧勒岡州D1X工廠
英特爾公司宣布斥資 30 億美元,擴(kuò)建...
-
莆田電信積極組織開(kāi)展安全運(yùn)營(yíng)專項(xiàng)工作 強(qiáng)化員工安全意識(shí)
為全面落實(shí)穩(wěn)字當(dāng)頭、穩(wěn)中求進(jìn)的云網(wǎng)安...
-
精準(zhǔn)落實(shí)優(yōu)惠稅率 河北高企稅費(fèi)減免超百億元
近日,記者從河北省稅務(wù)局獲悉,2021年...
資訊更多》
-
合作伙伴解約高管...
-
全球PC出貨量降至8...
-
半導(dǎo)體行業(yè)正在努...
-
國(guó)網(wǎng)新源山東沂蒙...
-
與發(fā)達(dá)地區(qū)同頻共...
-
廣州聯(lián)通深入推進(jìn)...
焦點(diǎn)
- 奇瑞新能源一季度達(dá)成50013輛銷量 實(shí)現(xiàn)255.4%同比增長(zhǎng)
- 昆山重新調(diào)整劃定5個(gè)靜態(tài)管理區(qū) 延長(zhǎng)靜默期7天
- 受蘋果用戶隱私政策調(diào)整影響 科技巨頭2022年?duì)I收將減少近160億美元
- 加快湖北數(shù)字化轉(zhuǎn)型 5G信息技術(shù)重塑制造業(yè)發(fā)展形態(tài)
- 斯坦福大學(xué)團(tuán)隊(duì)發(fā)表論文 展示大腦運(yùn)動(dòng)皮層神經(jīng)網(wǎng)絡(luò)如何實(shí)現(xiàn)新記憶索引
- 廣東首座華南唯一 廣州匯云數(shù)據(jù)中心入選2021年國(guó)家新型數(shù)據(jù)中心名單
- 慢性疾病嚴(yán)重威脅我國(guó)居民健康 低齡化趨勢(shì)明顯
- 消除線路施工安全隱患 智慧光網(wǎng)云守護(hù)系統(tǒng)成為工地“火眼金睛”
- IMT-2020推進(jìn)組蜂窩車聯(lián)工作組第二十次全體會(huì)議 近日在線上舉行
- 氣候變暖將珊瑚推向耐熱極限 人工智能助力尋找耐熱珊瑚