用大语言模型低成本破解黑白棋

来源:电脑报
关键字:破解黑,白棋,规则
发布时间:2024-02-01 11:22

　　白二娃

　　黑白棋基本规则

　　黑白棋也就是翻转棋（Reversi），又名奥赛罗棋（Othello），这个名字源自莎翁名剧《奥赛罗》，用剧中黑人男主和白人女主角之间的相爱相杀和反转来比喻黑白棋的各种反转。

　　开局时，棋盘正中先黑白相对放4枚棋子，然后黑子先行双方轮流落子。只要落子后和棋盘上任一己方的棋子在一条线上（横、直、斜线皆可）夹着对方棋子，就能将对方的这些棋子转变为己方棋子（翻面）。下子的地方必须能翻转棋子。一步棋可以在数个方向上翻棋，任何被夹住的棋子都必须被翻转过来。游戏结束时棋盘上棋子多的一方获胜。若棋数一样，则为和局。

　　由于这种特殊的规则，黑白棋不但拥有理论上1028 种变化，而且道路只剩6 个空位的残局仍然充满变化，需要极深的思维层次，对专业选手来说计算都殊为不易，常常出现后期大翻盘。

　　策梅洛定理

　　想要破解棋类游戏就离不开德国数学家策梅洛在1913 年发表的定理：在双方皆拥有完全资讯，并且没有运气成分的有限游戏中，那先行或后行者一方，必然有必胜或必不败的策略。这不是一句显而易见的废话，而是完全信息博弈论的基石。比如围棋这类游戏先手就有巨大优势，必须用贴目规则制衡。而如果我们发现某个游戏有必不败的策略时，我们才能说这个游戏公平且已经被破解了。

　　已破解游戏分为三个强度。强解：找到在任何状态入局都有最佳结局的算法。这需要穷尽游戏所有分支。弱解：找到某个解法保证从游戏开始直到必胜或至少平局。这只需要数学求证不需求出所有解。超弱解：理论上证明有必胜或平局的解，但不需要给出具体解法。

　　目前，五子棋在1993 年被破解，证明了无平衡规则时，先手方必胜。而去年10 月日本的计算机科学家滝沢拓己（Hiroki Takizawa）找到了黑白棋的弱解，证明双方必然可以平局，也就是说黑白棋绝对公平。

　　虽然在国际象棋和围棋等项目上人类已经下不赢人工智能，但我们还没有找到最优解，因此这几种棋还没有被破解。

　　用大语言模型下棋

　　在计算机科学的襁褓时期，破解国际象棋等棋类游戏一直是体现人工智能能力的重大课题，直到深蓝和阿尔法狗战胜人类，让人们意识到人工智能在这种双方皆拥有完全资讯的棋类游戏中已经拥有战胜人类的能力。

　　大语言模型本质是训练大型神经网络准确预测文本中的下一个词。OpenAI 的成功证明了AI可以用语言映射现实世界。

　　回到黑白棋，棋盘使用字母和数字记录每一步棋的纵横坐标，这样棋谱就是一串类似“F5D6C3D3C4F4”的文本，而大语言模型的专业就是预测文本。开发者用2000 万个棋谱训练了一个GPT的变体神经网络模型OthelloGPT。这个AI 不需要会下棋，它只需要预测接下来最可能出现的字符串即可。利用AI 帮助对棋路的分析时就极大降低了搜索算法的算力需求，让本来无法用当前算力解决的问题有了解决的希望。

　　滝沢拓己借此强化了一个强大下棋程序Edax，使用MN-J（目前排位11）的超算找到了一条最佳策略的分支。这样如果有两个算力无穷的神仙来下黑白棋，他们最后也只能按这条最佳路线下成平局，而且永远是平局。

　　这说明黑白棋是非常公平的棋类游戏，先手和后手都没有因此获得一点优势，这和高水平专业棋手的体会一致。他们找到的是一个弱解，也就是不单证明了有最优解而且找到了一条从开局到最终平局的最佳策略。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容