让AI学会下棋、成为“棋类大师”,一直是人工智能领域广为研究的课题。近日,来自伦敦大学学院的Kamlish等人公布了他们另辟蹊径的研究试验——SentiMate,一种采用自然语言处理方法,通过训练网络评论文本来学习国际象棋的算法。它通过分析专家解说员的反应,对象棋动作的质量进行评价。
在SentiMate之前,人工智能主要通过不断地对弈训练学习围棋。2016年击败围棋世界冠军李世石的AlphaGo使用神经网络,与人类棋手的棋谱进行训练,学习如何下围棋。到了2018年,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,通过自我对弈进行强化学习。
与Alpha系列采用神经网络、自我训练的方法不同,SentiMate尝试了一条自然语言学习路径。该团队首先收集来自网络的2700条国际象棋游戏评论文本,然后建立了一个分类器,该分类器能够在大量评论数据集中提取描述象棋动作质量的评论。他们还在象棋评论数据的基础上训练了一个情绪分析模型,分析人们通过语言所传递出的正向情绪来评估象棋的动作质量,从而指导机器人在棋局中的下一步行动。研究人称,这两个模型都达到了90%以上的分类精度。在此基础上,他们提出了一个象棋引擎sentimate,它基于预先训练的情绪评估功能来评估象棋的动作。
让研究人员感到惊讶的是,SentiMate已有能力理解国际象棋的一些基本原则和制定几个关键策略。《麻省理工科技评论》据此评价称,虽然SentiMate从未战胜过传统训练路径下的象棋机器人,很难被称作AlphaGo那样的“象棋大师”,但这个新路径展示了利用更少的游戏数据、更低的计算需求,通过语言分析的方法来研究象棋游戏的前景。
“自然语言处理的下一步是将机器学习到的信息转变为切实的行动,来解决真实世界的任务”,研究人员对《麻省理工科技评论》表示,SentiMate所采用的学习技术还可以用来分析体育赛事,预测金融活动。“毕竟还有大量的书籍、博客和论文都在等待学习”。