大多数AI系统擅长针对特定问题生成特定响应。如今,人工智能在各个领域都可以超越人类。对于AI来说,它可以完成任何任务;它需要在没有补充指导的情况下概括,学习和理解新情况。但是,由于人类可以从最广泛的意义上将象棋和扑克视为游戏,因此教一个单一的AI玩这两种游戏具有挑战性。
完美信息游戏与不完美信息游戏
人工智能系统在掌握象棋这样的完美信息游戏方面相对成功,其中任何一个游戏者都没有隐藏任何东西。每个玩家都可以看到整个棋盘以及所有情况下的所有可能动作。借助AlphaZero等机器人,人工智能甚至可以将强化学习与搜索(RL + 搜索 )相结合,以自学自如地掌握这些游戏。
与完美信息游戏和单一代理设置不同,不完美信息游戏面临的关键挑战是动作的价值可能取决于其选择的概率。因此,该团队指出,至关重要的是包括发生不同动作序列的可能性,而不仅仅是仅动作序列的可能性。
反叛
脸书最近推出了基于递归信念的学习(ReBeL)。它是一种通用的RL + 搜索 算法,适用于所有两人零和游戏,包括不完全信息游戏。 反叛 以RL + 搜索 算法为基础,该算法已在完美信息游戏中证明是成功的。但是,与以往的AI不同,ReBeL通过考虑每个玩家可能对游戏当前状态(称为公共信念状态(PBS))的不同视图的概率分布来做出决策。例如,ReBeL可以评估其扑克对手认为的机会。
以前的RL + 搜索 算法在诸如扑克之类的不完美信息游戏中会崩溃,在这种游戏中,人们并不了解完整的信息(例如,玩家在扑克中将自己的牌保密)。这些算法为每个动作提供固定值,而不管是否选择了该动作。例如,在国际象棋中,无论是频繁选择还是很少选择,正确的选择都是不错的选择。但是在像扑克之类的游戏中,玩家虚张声势越多,它的价值就会下降,因为对手可以改变策略来召唤更多的虚张声势。因此,对Pluribus扑克机器人进行了一种训练方法,该方法在实际游戏过程中而非之前使用搜索。
通过考虑每个玩家的观点,ReBeL可以像完美信息游戏一样对待不完美信息游戏。 脸书开发了一种改良的RL + 搜索 算法,ReBeL可以利用该算法来处理不完全信息游戏的更高维度的状态和动作范围。
实验表明,ReBeL在大型两人零和不完全信息游戏(例如骗子的骰子和扑克)中非常有效。 反叛 甚至在单挑无限注德州扑克的基准游戏中击败了顶尖的人类专业人士,从而获得了超人的表现。
为了达到相同目的,已经进行了数项工作。但是,ReBeL使用的专家领域知识要比以前的任何扑克AI都要少得多。这是构建通用AI的关键一步,可以解决涉及隐藏信息的复杂现实世界问题,例如谈判,欺诈检测,网络安全等。

局限性:
反叛 is the first AI to empower RL+Search in imperfect-information games. However, there are some limitations to its current implementation, as listed below:
- Foremost, the computation required for 反叛 grows heavy in certain games(such as Recon Chess) with strategic depth but minimal common knowledge.
- 反叛 relies on knowing the exact rules of the game.
- 反叛 ’s theoretical guarantees are restricted to two-player zero-sum games, which are comparatively unusual in real-world interactions.
尽管如此,ReBeL在基准游戏中的可利用性较低,并且是朝着创建更通用的AI算法迈出的重要一步。为了促进进一步的研究,Facebook已将ReBeL的实现开源到Liar's Dice。
的GitHub: (For 反叛 for Liar’s Dice) //github.com/facebookresearch/rebel?
资源: //ai.facebook.com/blog/rebel-a-general-game-playing-ai-bot-that-excels-at-poker-and-more
相关论文: //arxiv.org/pdf/2007.13544.pdf