深心推出了MuZero,该MuZero可以在任务中获得超人性能,而无需了解其基本动态

0
2584
图片作者 费利克斯·密特迈尔Pixabay

以前,DeepMind使用强化学习来教程序以掌握各种游戏,例如中文棋盘游戏‘Go,’日本战略游戏‘Shogi,’国际象棋和具有挑战性的Atari电子游戏,其中较早的AI程序在训练过程中首先教了规则。

深心推出了MuZero算法,该算法(通过将基于树的搜索与学习的模型相结合)可以在几个具有挑战性和视觉复杂的领域中实现超人的性能,而无需了解其基本动态。 MuZero学习了一个模型,该模型在迭代应用时可以预测与计划最直接相关的数量。

团队依靠的原则是“look-ahead search.”通过这种方法,MuZero会根据对手估算出许多潜在的举动’的回应。虽然在象棋这样的复杂游戏中可能有许多动作,但MuZero优先考虑最相关和最合适的动作,了解成功的战术,并避免失败的战术。在不首先了解规则的情况下,它甚至可能击败早期的程序。

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

MuZero可以从零开始,通过反复试验,可以发现世界’的规则并使用它们来实现超人的表现。系统第一次可以了解世界的运作方式,并了解我们之前针对象棋等游戏所见过的超前计划。 MuZero在对抗Atari方面表现出色’帕克曼女士(Pac-Man)女士,尽管仅限于考虑未来可能采取的六到七个举措。

MuZero的更重要应用(例如视频压缩)正在取得进展,迄今为止,它们已将压缩率提高了5%。考虑到大量不同的视频格式和众多的压缩模式,这被认为是一项艰巨的任务。研究人员还致力于针对个性化药物生产的机器人程序设计和蛋白质体系结构设计。

南安普敦大学的温迪·霍尔教授(也是英国成员)’的AI理事会)认为,尽管团队不断努力改进其算法’表现并将结果应用于社会’受益,他们的工作可能会产生意想不到的后果。

美国空军报告说,已利用涵盖MuZero(于去年公开发行)的早期研究论文设计了一种AI系统,该系统可以从U-2间谍飞机向特定目标发射导弹。该团队严格反对AI制造致命武器。因此,DeepMind已签署了《致命自主武器承诺》,该宣言宣称,致命技术应始终由人类控制,而不是基于AI的算法。

该团队认识到,在实现与人脑一样实用和强大的算法时,还面临着一些挑战。他们认为第一步是了解获得智慧的含义。世界没有提供规则手册;因此,必须丰富AI所能做的事情,以构建可以计划并期待没有人提供规则手册的问题的AI。

Paper: //www.nature.com/articles/s41586-020-03051-4

Full Paper: //arxiv.org/pdf/1911.08265.pdf

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.