DeepMind希望教机器人玩棋盘游戏

掌握具有抽象目标的物理系统是AI中尚未解决的挑战。为了鼓励开发可能克服的技术,DeepMind的研究人员为物理引擎MuJoCo创建了自定义场景,该场景要求AI代理随时间协调感知,推理和运动控制。他们认为,已公开提供的库可以帮助弥合抽象计划和具体控制之间的鸿沟。

机器学习的最新工作已导致能够掌握棋盘游戏(例如Go,国际象棋和将棋)的算法。这些算法观察游戏的状态,并直接通过其动作来控制这些状态,这与人类不同,人类不仅会推理动作,而且会看着棋盘并用手指实际操作游戏。除游戏外,现实世界中的许多问题还需要感知,规划和执行的结合,即使领先的算法也大多无法捕获。

DeepMind希望教机器人玩棋盘游戏

团队的解决方案是一系列挑战,这些挑战将游戏(如井字游戏,推箱子)中的任务嵌入到代理商必须控制身体才能执行动作的环境中。例如,要放置单个井字游戏,座席必须使用9自由度的手臂到达板上并触摸板上的相应位置。学习打井字游戏和执行伸手动作完全在当前AI方法的能力之内,但是大多数特工在同时面对两个问题时都在挣扎。

在基于推箱子的MuJoBan中,位于网格上的代理商必须将盒子推到目标位置。一次只能推一个盒子,而只能推而不是拉盒子。MuJoXo与井字游戏类似​​,具有随机性,可确保棋子在板上的排列不完全。最后一场比赛,MuJoGo,是一个7×7棋盘,设计用于大约50个动作(2.5秒)。

在实验中,研究人员设计了示例代理来完成各种游戏任务。代理使用计划程序模块将地面真人游戏状态映射到目标状态,并规划达到这些状态所需的动作。他们还利用辅助任务来鼓励坐席遵循指示,以便当坐席执行导致指示所指示的游戏动作的动作时,坐席将获得奖励。(“奖励”是指可以增强理想行为或游戏动作(视情况而定)的积极反馈。)

研究人员报告说,在经过大量培训后,这些代理无法解决MuJoBan中超过一半的水平,他们将这些归咎于多步推理和控制挑战的结合。最简单的代理需要大约一百万场游戏才能“令人信服”地播放MuJoXo,即使经过数十亿步的培训,它也没有显示出MuJoGo取得任何进展的迹象。

“使用感觉运动控制需要长时间推理和决策的问题尚不能以端到端的方式解决。这些问题在人类行为中经常出现,但仍然难以解释,并且很少在受控的实验环境中进行研究。”研究人员在描述这项工作的论文中写道。“我们希望这里提供的环境能够刺激人们研究如何将这些功能连贯地引入下一代AI代理。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除。