DeepMind打造加強(qiáng)版AlphaGo 助力突破認(rèn)知及推理挑戰(zhàn)

來(lái)源:智東西

谷歌母公司 Alphabet 旗下頂尖 AI 實(shí)驗(yàn)室 DeepMind 曾因其 AI 系統(tǒng) AlphaGo 擊敗頂尖人類圍棋選手、AlphaStar 贏得星際爭(zhēng)霸 2 而爆紅全球。本周,它又披露新的游戲 AI 系統(tǒng)。

與此前開(kāi)發(fā)的游戲系統(tǒng)不同,DeepMind 的 AI 新作 Player of Games 是第一個(gè)在完全信息游戲以及不完全信息游戲中都能實(shí)現(xiàn)強(qiáng)大性能的 AI 算法。完全信息游戲如中國(guó)圍棋、象棋等棋盤游戲,不完全信息游戲如撲克等。

這是向能夠在任意環(huán)境中學(xué)習(xí)的真正通用 AI 算法邁出的重要一步。

Player of Game 在象棋、圍棋這兩種完全信息游戲和德州撲克、蘇格蘭場(chǎng)這兩種不完全信息游戲中與頂尖 AI 智能體對(duì)戰(zhàn)。

從實(shí)驗(yàn)結(jié)果來(lái)看,DeepMind 稱 Player of Games 在完全信息游戲中的表現(xiàn)已經(jīng)達(dá)到了“人類頂級(jí)業(yè)余選手”水平,但如果給予相同資源,該算法的表現(xiàn)可能會(huì)明顯弱于 AlphaZero 等專用游戲算法。

在兩類不完全信息游戲中,Player of Games 均擊敗了最先進(jìn)的 AI 智能體。

深藍(lán)、AlphaGo 等 AI 系統(tǒng)僅擅長(zhǎng)玩一種游戲

計(jì)算機(jī)程序挑戰(zhàn)人類游戲選手由來(lái)已久。

20 世紀(jì) 50 年代,IBM 科學(xué)家亞瑟?塞繆爾(Arthur L. Samuel)開(kāi)發(fā)了一個(gè)跳棋程序,通過(guò)自對(duì)弈來(lái)持續(xù)改進(jìn)其功能,這項(xiàng)研究給很多人帶來(lái)啟發(fā),并普及了“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語(yǔ)。

此后游戲 AI 系統(tǒng)一路發(fā)展。1992 年,IBM 開(kāi)發(fā)的 TD-Gammon 通過(guò)自對(duì)弈在西洋雙陸棋中實(shí)現(xiàn)大師級(jí)水平;1997 年,IBM 深藍(lán) DeepBlue 在國(guó)際象棋競(jìng)賽中戰(zhàn)勝當(dāng)時(shí)的世界棋王卡斯帕羅夫;2016 年,DeepMind 研發(fā)的 AI 系統(tǒng) AlphaGo 在圍棋比賽中擊敗世界圍棋冠軍李世石……

這些 AI 系統(tǒng)有一個(gè)共同之處,都是專注于一款游戲。比如塞繆爾的程序、AlphaGo 不會(huì)下國(guó)際象棋,IBM 的深藍(lán)也不會(huì)下圍棋。

隨后,AlphaGo 的繼任者 AlphaZero 做到了舉一反三。它證明了通過(guò)簡(jiǎn)化 AlphaGo 的方法,用最少的人類知識(shí),一個(gè)單一的算法可以掌握三種不同的完全信息游戲。不過(guò) AlphaZero 還是不會(huì)玩撲克,也不清楚能否玩好不完全信息游戲。

實(shí)現(xiàn)超級(jí)撲克 AI 的方法有很大的不同,撲克游戲依賴于博弈論的推理,來(lái)保證個(gè)人信息的有效隱藏。其他許多大型游戲 AI 的訓(xùn)練都受到了博弈論推理和搜索的啟發(fā),包括 Hanabi 紙牌游戲 AI、The Resistance 棋盤游戲 AI、Bridge 橋牌游戲 AI、AlphaStar 星際爭(zhēng)霸 II 游戲 AI 等。

這里的每個(gè)進(jìn)展仍然是基于一款游戲,并使用了一些特定領(lǐng)域的知識(shí)和結(jié)構(gòu)來(lái)實(shí)現(xiàn)強(qiáng)大的性能。

DeepMind 研發(fā)的 AlphaZero 等系統(tǒng)擅長(zhǎng)國(guó)際象棋等完全信息游戲,而加拿大阿爾伯特大學(xué)研發(fā)的 DeepStack、卡耐基梅隆大學(xué)研發(fā)的 Libratus 等算法在撲克等不完全信息游戲中表現(xiàn)出色。

對(duì)此,DeepMind 研發(fā)了一種新的算法 Player of Games(PoG),它使用了較少的領(lǐng)域知識(shí),通過(guò)用自對(duì)弈(self-play)、搜索和博弈論推理來(lái)實(shí)現(xiàn)強(qiáng)大的性能。

更通用的算法 PoG:棋盤、撲克游戲都擅長(zhǎng)

無(wú)論是解決交通擁堵問(wèn)題的道路規(guī)劃,還是合同談判、與顧客溝通等互動(dòng)任務(wù),都要考慮和平衡人們的偏好,這與游戲策略非常相似。AI 系統(tǒng)可能通過(guò)協(xié)調(diào)、合作和群體或組織之間的互動(dòng)而獲益。像 Player of Games 這樣的系統(tǒng),能推斷其他人的目標(biāo)和動(dòng)機(jī),使其與他人成功合作。

要玩好完全的信息游戲,需要相當(dāng)多的預(yù)見(jiàn)性和計(jì)劃。玩家必須處理他們?cè)谄灞P上看到的東西,并決定他們的對(duì)手可能會(huì)做什么,同時(shí)努力實(shí)現(xiàn)最終的勝利目標(biāo)。不完全信息游戲則要求玩家考慮隱藏的信息,并思考下一步應(yīng)該如何行動(dòng)才能獲勝,包括可能的虛張聲勢(shì)或組隊(duì)對(duì)抗對(duì)手。

DeepMind 稱,Player of Games 是首個(gè)“通用且健全的搜索算法”,在完全和不完全的信息游戲中都實(shí)現(xiàn)了強(qiáng)大的性能。

Player of Games(PoG)主要由兩部分組成:

一種新的生長(zhǎng)樹(shù)反事實(shí)遺憾最小化(GT-CFR)

一種通過(guò)游戲結(jié)果和遞歸子搜索來(lái)訓(xùn)練價(jià)值-策略網(wǎng)絡(luò)的合理自對(duì)弈。

在完全信息游戲中,AlphaZero 比 Player of Games 更強(qiáng)大,但在不完全的信息游戲中,AlphaZero 就沒(méi)那么游刃有余了。

Player of Games 有很強(qiáng)通用性,不過(guò)不是什么游戲都能玩。參與研究的 DeepMind 高級(jí)研究科學(xué)家馬丁?施密德(Martin Schmid)說(shuō),AI 系統(tǒng)需考慮每個(gè)玩家在游戲情境中的所有可能視角。

雖然在完全信息游戲中只有一個(gè)視角,但在不完全信息游戲中可能有許多這樣的視角,比如在撲克游戲中,視角大約有 2000 個(gè)。

此外,與 DeepMind 繼 AlphaZero 之后研發(fā)的更高階 MuZero 算法不同,Player of Games 也需要了解游戲規(guī)則,而 MuZero 無(wú)需被告知規(guī)則即可飛速掌握完全信息游戲的規(guī)則。

在其研究中,DeepMind 評(píng)估了 Player of Games 使用谷歌 TPUv4 加速芯片組進(jìn)行訓(xùn)練,在國(guó)際象棋、圍棋、德州撲克和策略推理桌游《蘇格蘭場(chǎng)》(Scotland Yard)上的表現(xiàn)。

在圍棋比賽中,AlphaZero 和 Player of Games 進(jìn)行了 200 場(chǎng)比賽,各執(zhí)黑棋 100 次、白棋 100 次。在國(guó)際象棋比賽中,DeepMind 讓 Player of Games 和 GnuGo、Pachi、Stockfish 以及 AlphaZero 等頂級(jí)系統(tǒng)進(jìn)行了對(duì)決。

在國(guó)際象棋和圍棋中,Player of Games 被證明在部分配置中比 Stockfish 和 Pachi 更強(qiáng),它在與最強(qiáng)的 AlphaZero 的比賽中贏得了 0.5% 的勝利。

盡管在與 AlphaZero 的比賽中慘敗,但 DeepMind 相信 Player of Games 的表現(xiàn)已經(jīng)達(dá)到了“人類頂級(jí)業(yè)余選手”的水平,甚至可能達(dá)到了專業(yè)水平。

Player of Games 在德州撲克比賽中與公開(kāi)可用的 Slumbot 對(duì)戰(zhàn)。該算法還與 Joseph Antonius Maria Nijssen 開(kāi)發(fā)的 PimBot 進(jìn)行了蘇格蘭場(chǎng)的比賽。

結(jié)果顯示,Player of Games 是一個(gè)更好的德州撲克和蘇格蘭場(chǎng)玩家。與 Slumbot 對(duì)戰(zhàn)時(shí),該算法平均每 hand 贏得 700 萬(wàn)個(gè)大盲注(mbb / hand),mbb / hand 是每 1000 hand 贏得大盲注的平均數(shù)量。

同時(shí)在蘇格蘭場(chǎng),DeepMind 稱,盡管 PimBot 有更多機(jī)會(huì)搜索獲勝的招數(shù),但 Player of Games 還是“顯著”擊敗了它。

研究關(guān)鍵挑戰(zhàn):訓(xùn)練成本太高

施密德相信 Player of Games 是向真正通用的游戲系統(tǒng)邁出的一大步。

實(shí)驗(yàn)的總體趨勢(shì)是,隨著計(jì)算資源增加,Player of Games 算法以保證產(chǎn)生更好的最小化-最優(yōu)策略的逼近,施密德預(yù)計(jì)這種方法在可預(yù)見(jiàn)的未來(lái)將擴(kuò)大規(guī)模。

“人們會(huì)認(rèn)為,受益于 AlphaZero 的應(yīng)用程序可能也會(huì)受益于游戲玩家。”他談道,“讓這些算法更加通用是一項(xiàng)令人興奮的研究。”

當(dāng)然,傾向于大量計(jì)算的方法會(huì)讓擁有較少資源的初創(chuàng)公司、學(xué)術(shù)機(jī)構(gòu)等組織處于劣勢(shì)。在語(yǔ)言領(lǐng)域尤其如此,像 OpenAI 的 GPT-3 這樣的大型模型已取得領(lǐng)先性能,但其通常需要數(shù)百萬(wàn)美元的資源需求,這遠(yuǎn)超大多數(shù)研究小組的預(yù)算。

即便是在 DeepMind 這樣財(cái)力雄厚的公司,成本有時(shí)也會(huì)超過(guò)人們所能接受的水平。

對(duì)于 AlphaStar,公司的研究人員有意沒(méi)有嘗試多種構(gòu)建關(guān)鍵組件的方法,因?yàn)楦吖軅冋J(rèn)為訓(xùn)練成本太高。根據(jù) DeepMind 披露的業(yè)績(jī)文件,它在去年才首次盈利,年收入達(dá)到 8.26 億英鎊(折合約 69 億人民幣),獲得 4380 萬(wàn)英鎊(折合約 3.67 億人民幣)的利潤(rùn)。從 2016 年~2019 年,DeepMind 共計(jì)虧損 13.55 億英鎊(折合約 113 億人民幣)。

據(jù)估計(jì),AlphaZero 的訓(xùn)練成本高達(dá)數(shù)千萬(wàn)美元。DeepMind 沒(méi)有透露 Player of Games 的研究預(yù)算,但考慮到每個(gè)游戲的訓(xùn)練步驟從數(shù)十萬(wàn)到數(shù)百萬(wàn)不等,這個(gè)預(yù)算不太可能低。

結(jié)語(yǔ):游戲 AI 正助力突破認(rèn)知及推理挑戰(zhàn)

目前游戲 AI 還缺乏明顯的商業(yè)應(yīng)用,而 DeepMind 的一貫理念是借其去探索突破認(rèn)知和推理能力所面臨的獨(dú)特挑戰(zhàn)。近幾十年來(lái),游戲催生了自主學(xué)習(xí)的 AI,這為計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車和自然語(yǔ)言處理提供了動(dòng)力。

隨著研究從游戲轉(zhuǎn)向其他更商業(yè)化的領(lǐng)域,如應(yīng)用推薦、數(shù)據(jù)中心冷卻優(yōu)化、天氣預(yù)報(bào)、材料建模、數(shù)學(xué)、醫(yī)療保健和原子能計(jì)算等等,游戲 AI 研究對(duì)搜索、學(xué)習(xí)和博弈推理的價(jià)值愈發(fā)凸顯。

“一個(gè)有趣的問(wèn)題是,這種水平的游戲是否可以用較少的計(jì)算資源實(shí)現(xiàn)。”這個(gè)在 Player of Games 論文最后中被提及的問(wèn)題,還沒(méi)有明確的答案。

關(guān)鍵詞: DeepMind 加強(qiáng)版 AlphaGo 助力 突破認(rèn)知及

推薦

直播更多》

關(guān)閉

資訊更多》

焦點(diǎn)

亚洲精品第一国产综合境外资源 | 精品亚洲AV无码一区二区| 亚洲成a人片在线观看日本麻豆| 亚洲色成人四虎在线观看| 亚洲国产精品成人久久久| 亚洲视频日韩视频| 久久精品国产亚洲av麻豆色欲| 久久亚洲国产伦理| 婷婷精品国产亚洲AV麻豆不片| 亚洲精品国产字幕久久不卡| 亚洲人成色77777| 国产亚洲精品a在线观看app| 国产亚洲精品国产| 亚洲av无码片在线播放| 亚洲AV日韩AV永久无码久久| 久久久久亚洲Av片无码v| 亚洲国产精品久久久久久| 一区二区三区亚洲| 噜噜噜亚洲色成人网站∨| 久久亚洲美女精品国产精品 | 亚洲a∨无码一区二区| 亚洲美国产亚洲AV| 久久亚洲欧美国产精品| 亚洲 无码 在线 专区| 亚洲精品老司机在线观看| 三上悠亚亚洲一区高清| 亚洲人成人无码网www电影首页| 亚洲一区二区三区自拍公司| 亚洲国产精品无码久久SM| 亚洲电影免费在线观看| 亚洲高清无在码在线电影不卡| 亚洲国产美女精品久久| 亚洲一区无码中文字幕| 亚洲1区1区3区4区产品乱码芒果| 亚洲精品在线免费观看视频| 亚洲最大免费视频网| 亚洲成a人片在线不卡| 亚洲日韩一中文字暮| 国产精品久久亚洲一区二区| 亚洲国产综合无码一区二区二三区 | 亚洲免费福利在线视频|