研究人员检查三种内在动机类型,以激发强化学习(RL)代理的内在目标

多伦多大学媒介研究所和Google Brain

0
850
Source: //arxiv.org/pdf/2012.11538.pdf

强化学习(RL)使工具能够直接从高角度图像输入(例如运动,机器人操纵和游戏)中决策并解决未知环境中的复杂问题。但是,这些成功是建立在对手工制作的奖励功能进行深入监督的基础上的。代理商会根据他们的表现受到奖励和惩罚,并最终学习最大化奖励和最小化惩罚的奖励功能。但是,设计信息丰富的奖励功能成本高昂,耗时且容易出错。同样,这些困难会随着相关任务的复杂性而增加。

与RL代理不同,自然代理无需内在分配即可学习内在目标。例如,未指派孩子爬行,但是他们自然地爬行并玩耍以探索周围的环境。这激励了研究人员识别并为RL代理提供不依赖于特定任务的数学目标,并且可以将其应用于任何未知环境。

最近,多伦多大学媒介研究所的研究人员和Google Brain研究了三种内在动机类型,以刺激RL特工的内在目标。可以观察到,与任何任务奖励相比,所有三个内在目标与人类行为相似性度量的相关性都更高。

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

研究人员测试了以下三种常见的内在动机类型,同时评估了没有奖励的行为者:

•输入熵鼓励遇到稀有的感觉输入(由学习的密度模型衡量)
•通过获取信息来奖励代理商学习其环境规则。
•通过授权,特工将其对自己的感觉输入或环境的影响最大化,从而获得奖励。

该团队收集了不同环境和行为的不同数据集,并回顾了计算代理目标以进行评估。他们分析了内在目标和受监督目标(例如任务奖励和人类相似性)之间的相关性,并建立了不同内在目标之间的关系,而无需为每个目标训练新的代理人。

//arxiv.org/pdf/2012.11538.pdf

研究人员使用了三种Atari游戏环境中的1亿帧来训练7名有任务奖励和无任务奖励的RL特工。由于3D游戏Minecraft环境仿真的速度比Atari慢,因此每个代理人应用了1200万帧。人们的行为被视为实现人类相似性目标的基础,团队评估了共享环境中代理商与人类行为之间的相似性。

在所有环境中,所有经过检查的内在目标与人类相似性的关联都比任务奖励所关联的紧密。当设计行为像人类的一般代理人时,它建议在任务奖励方面固有的目标。还应注意的是,输入熵和信息增益是相似的目标,而授权可能会提供互补的好处,因此,他们建议未来结合内在目标的工作。

人类数据集目前相对较小,无法识别人类相似性值,并且不清楚人类玩家收到了什么指令。使用其他人员数据并控制玩家的指令可以帮助该地区的工作。该团队表示,要将业务代表观察值分配给存储桶,他们已经缩小了它们的规模。这很简单,但是不能说明图像之间的语义相似性。因此,他们建议在以后的工作中使用深度神经网络学习表示形式。

纸: //arxiv.org/pdf/2012.11538.pdf

Codes: //danijar.com/project/agenteval/

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.