深心协调了现有的神经网络限制以胜过神经符号模型

0
4136
深思

神经网络在各种感知任务中都取得了成功。但是,据指出,它们在解决需要更高层次推理的问题上无效。最近对两个最近发布的视频问答数据集(CLEVRER和CATER)进行的实验表明,神经网络无法充分说明视觉场景的时空和构图结构。

另一方面,假定将算法与符号推理技术相结合来预测,解释和考虑反事实可能性的神经符号模型比神经网络更适合。它利用了几个独立学习的模块,例如:

  • 神经网络“感知”前端来检测物体
  •  动力学模块可以推断对象随时间的行为
  • 表示问题的符号统计语义解析器
  •  手工编码的符号执行器解释输入并预测答案

但是,DeepMind的研究人员断言,在正确的测试条件下,神经网络的性能优于神经符号模型。例如,在某些符号领域(如语言)中,神经网络的分类或预测性能优于混合神经符号方法。因此,研究人员已将视频领域中现有的神经网络局限性与符号领域的成功相结合。 

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

通过为整个神经网络层设计一个关于视频的时空推理的神经网络体系结构(学习了组件,并且所有标准表示都分布了而不是符号或局部符号),实现了这种协调。 

//arxiv.org/pdf/2012.08508.pdf

所提出的神经网络架构利用注意力来有效地集成信息。一个重要方面是自我监督(意味着模型使用基本的动力学原理来推断视频中被掩盖的对象,以提取更多数据),这使我们的模型能够学习更好的表示并实现更高的数据效率。 

该架构保证了视频中的视觉元素与高级推理必不可少的物理项目相对应。由于神经网络具有灵活性,因此无需对系统内部工作进行任何手动更改即可将相同的体系结构和算法应用于各种任务。

结果对于可以推理其经验的机器的开发具有许多意义。与先前的研究结果相反,基于完全分布式表示的模型可以很好地在测量高级认知功能的基于视觉的任务上执行。 

研究小组指出,在所有问题上,生成的模型均优于CLEVRER数据集上的神经符号模型,在反事实问题上具有最大优势。 CLEVRER数据集借鉴了心理学的见解,由20,000个5秒的物理引擎生成的碰撞对象视频以及超过300,000个问题和答案组成,这些问题和答案集中在四个逻辑推理元素上:描述性,解释性,预测性和反事实性。 

研究人员宣称其成功方法的关键方面如下:

  • 自我关注以有效地整合信息
  • 在正确的抽象级别对输入进行软离散 
  • 自我监督学习,从每个样本中提取更多信息。

他们的神经网络已经将某些最佳的神经符号模型的性能与训练数据减少了40%(没有预先训练或标记的数据)相匹配,这使人们相信,与神经符号模型相比,神经网络肯定需要更多数据。 

结果还表明,深度网络可以复制许多人类的认知和推理属性,并可以从分布式表示的灵活性和表达能力中受益。该团队说,大规模的神经语言模型无需显式训练即可显式地获得算术推理和类比。这表明当扩展更多数据并使用更大,更高效的体系结构时,当前的神经网络局限性得到了增强。他们希望提出新的挑战性任务,以凭经验确定神经网络可以实现的全部范围。

纸: //arxiv.org/pdf/2012.08508.pdf

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.