【數學心】第571章 AI “賭神”完勝人類撲克冠軍，以1敵5…

繁简轉換
[繁]
[简]

選擇背景顏色

選擇字體大小
[特大]
[大]
[中]
[小]

[回報錯誤]

《數學心》第571章 AI “賭神”完勝人類撲克冠軍，以1敵5…

　　AI 在多人撲克裡超越人類的表現，為 AI 與博弈理論發展樹立了新的裡程碑。

　　六人無限德州撲克是世界上最流行的撲克形式。日前，卡內基梅隆大學與 Facebook AI 合作開發的人工智能程序“Pluribus”，擊敗了六人無限德州撲克的職業選手。

　　在一項包含 13 名職業選手的實驗中，Pluribus 一次對戰 5 名職業選手，共進行了 10，000 手牌，並最終取得勝利。這些職業選手都曾在撲克競技遊戲裡贏得超過 100 萬美元。

　　在另一項實驗中，每位職業選手要對陣 5 個 Pluribus。在 5000 手牌的對陣中，Pluribus 擊敗了撲克專家 Darren Elias 和 Chris“Jesus”Ferguson——他們前者保持著世界撲克巡回賽冠軍最多的紀錄，後者贏得了 6 項世界撲克系列賽冠軍。

　　當地時間 7 月 11 日，《科學》雜志發表了描述這一成就的論文(DOI: 10.1126/science.aay2400)。

　　Pluribus 由卡內基梅隆大學計算機教授 Tuomas Sandholm 與 Facebook AI 部門科學家 Noam Brown 共同開發。

　　Tuomas Sandholm 依托過去 16 年在卡內基梅隆大學實驗室開發的戰略推理技術，創立了兩家公司——Strategic Machine和 Strategy Robot。前者將這些技術應用於撲克、遊戲、商業和醫學領域，而後者則將它們應用於國防和智能領域。

　　Noam Brown 在 Facebook AI 工作的同時在卡內基梅隆大學攻讀了計算機學博士學位。二人早前開發了雙人撲克 AI Libratus，在 2017 年擊敗了四名撲克職業選手。

　　多人博弈裡程碑

　　“Pluribus 在多人撲克裡超越人類的表現，將成為 AI 與博弈理論領域公認的裡程碑，” Pluribus 開發者 Sandholm 說，“目前為止，策略推理中的超人 AI 裡程碑僅限於兩方競爭。在如此複雜的遊戲中擊敗其他五名選手的能力為使用 AI 解決各種現實問題開辟了新的機會。”

　　為什麽科學家總是喜歡讓 AI 在各種棋牌類遊戲裡進行突破?這是因為棋牌遊戲自古以為都被認為是人類智力活動的象征，模仿人類的 AI 自然要以此為目標。

　　不過根據棋牌規則，不同棋牌類型的遊戲的博弈難易各不相同。根據信息的公開程度，我們可以將棋牌博弈分為“完全信息類”和“不完全信息類”。

　　“完全信息類”博弈包括國際象棋、圍棋等，它們的盤面信息都是公開的，對弈雙方接收到的信息完全。在此類博弈中，AI 每次只需要根據當前盤面，搜索計算各種情況下自己的勝率。為了提高搜索效率，一般需要對搜索過程中產生的“博弈樹”進行廣度和深度剪枝。就是我們平常下棋時常說的算多遠和算多準。

　　“非完全信息類”博弈包括德州撲克、橋牌、麻將等遊戲。以德州撲克為例:每個玩家有 2 張牌作為“底牌”，同時還有 5 張公共牌。玩家選擇 5 張公共牌裡的 3 張，與手裡的 2 張底牌組合，

最後以期得到最好的 5 張牌的組合。按照“Card Ranking”決定最後的勝者。　　由於遊戲中每個人無法看到對手手裡的牌，這要求參與者具備更複雜的推理能力，不僅要看對手打了什麽牌，還要猜測對手手裡有什麽牌，並根據對手行動暗示出的信息，來計算自己的最優出牌法。這給 AI 帶來了更嚴峻的挑戰。AI 不僅要學會根據不完全信息進行複雜決策，還要應付對手的虛張聲勢、故意示弱等招數。遊戲的人數的也將改變 AI 的應對難度。

　　實驗中使用的撲克遊戲界面。圖片來源:Facebook

　　在所有雙人遊戲裡，“表現過人”的 AI 都是通過近似納什均衡實現的。在納什均衡裡，只要另一位玩家的策略保持不變，任何人都不能從改變策略中獲益。雖然 AI 的策略只能保證比賽結果不比平局更差，但如果 AI 的對手犯了錯誤而無法維持均衡時，AI 將取得勝利。

　　在兩人以上的比賽中，采取納什均衡將是一種失敗的策略。因此 Pluribus 摒棄了理論上成功的保證，采取了一種新的能一直擊敗對手的策略。

　　人類做不到的策略

　　“進行六人遊戲，而不是一對一，這需要 AI 對遊戲策略進行根本改變，” Pluribus 開發者 Brown 表示，“我們為 Pluribus 的表現感到高興，並相信它的一些比賽策略甚至可能改變職業選手的比賽方式。”

　　Pluribus 的算法在其策略中創造了一些令人驚訝的特征。例如，大多數人類選手會避免“反主動下注(donk betting)”——它通常被視為一種沒有戰略意義的弱勢舉動。但 Pluribus 比被它擊敗的職業選手更頻繁地使用這一策略。

　　“Pluribus 的主要優勢在於它能運用混合策略，”職業選手 Elias 表示，“這與人類試圖做的事情是一樣的。對於人類，這是執行問題——以完全隨機的方式做到這一點並且持續這樣做。大多數人都做不到。”

　　曾在撲克職業生涯裡獲得了近 200 萬美元的收入的 Gagliano 在與 Pluribus 比賽後說:“有些策略是人類根本就不會去做的，尤其包括它的投注規模。”

　　Pluribus 在具有統計意義的情況下取得了穩固的勝利令 Gagliano 尤其印象深刻:“機器人不只是和一些職業選手對壘。它已經成為世界上最好的選手之一。”

　　有限前瞻搜索算法

　　進一步剖析 Pluribus 會了解到，它的各種策略是基於一種新的有限前瞻算法，這正是它能夠打敗多個人類撲克玩家的原因。這是完全信息博弈的標準方法，但在非完全信息博弈中卻極具挑戰性。

　　Pluribus 首先通過和 6 個它自己的副本玩的場景來計算一個“藍圖”策略，這讓它能在第一輪下注。之後，Pluribus 將在更細粒度的博弈抽象中更詳細地搜索可能的變動。這時，它會展望未來的幾步，由於計算量的限制，它並不會推演到博弈的最後。

　　具體來說，在子博弈的葉子上，AI 考慮了每個對手和自己可能會在剩下的比賽中采用的五個可能的延續策略。可能的延續策略的數量很多，但研究人員發現他們的算法只需要考慮每個葉子的每個選手的五個延續策略來計算強大、平衡的整體策略。

　　Pluribus 也試圖變得不可預測。例如，如果人工智能擁有最好的一手牌，那麽投注就有意義，但是如果人工智能只有在擁有最好的一手牌時才投注，那麽對手就會很快趕上來。因此，Pluribus 計算出各種可能，並在所有可能性中保持平衡的策略。

　　盡管德州撲克是一種極其複雜的遊戲，但 Pluribus 有效地利用了計算。最近在遊戲中取得裡程碑式進展的 AI 使用了大量服務器和 GPU;雙人撲克 AI Libratus 需要大約 1500 萬個小時來開發策略，在實時遊戲中使用了 1400 個 CPU 核心小時。而 Pluribus 僅使用了 12，400 個核心小時就計算出了藍圖策略，並且在現場遊戲中僅使用了 28 個核心小時。

　　面對 AI 技術的不斷突破，很多人會顧慮 AI 發展對人類的威脅，然而把握技術應用大門的鑰匙仍掌握在人類自己手中，正如愛因斯坦所說:“科學，究竟是給人帶來幸福還是帶來災難，全取決於人自己。”

鍵盤左右鍵 ← → 可以切換章節