使用CNN和变压器将感应图像偏置编码为模型的新方法

0
2591
Source: //compvis.github.io/taming-transformers/

海德堡大学的研究人员最近提出了一种新颖的方法,可以有效地将感应式图像偏置编码到模型中,同时保留所有变压器的灵活性。这种方法将卷积神经网络(CNN)中归纳偏置的有效性与变压器的表达能力相结合,以建模和合成高分辨率图像。

变形金刚的局限性

变压器在学习顺序数据上的远程交互方面已显示出令人鼓舞的结果,并已被用于语言任务,并逐渐适应强化学习,音频和计算机视觉。 

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

在进行交互之前,变压器架构不包含内置电感。因此,可以自由地了解其输入之间的复杂关系。但是,这也表明它必须学习所有关系,使得它们对于高分辨率图像之类的长序列在计算上不可行。因此,由于成对的相互作用,提高了变压器的表现力,并增加了计算成本。

//arxiv.org/pdf/2012.09841.pdf

新颖的方法

海德堡大学的研究人员提出了一种使用(CNN)卷积神经网络解决此问题的方法。通过使用所有位置上的共享权重,CNN表现出很强的局部偏见和对不变性的偏见。他们使用CNN来学习图像成分的上下文相关词汇,并使用转换器有效地在图像中对它们的成分进行建模。 

引入的方法将图像表示为上下文丰富的视觉部分的密码本中感知丰富的图像成分的组成,而不是用像素表示它们。合成的描述长度显着减少,从而允许使用转换器体系结构对图像中的全局相关性进行有效建模。在无条件和有条件的设置下,所生成的图像都是真实且高分辨率的。

此外,他们还使用对抗性方法来确保本地零件的词典捕获感知上重要的本地结构,从而消除了使用变压器架构对低级统计数据建模的需求。允许变压器专注于远程建模关系使他们能够生成高分辨率图像。该方法使用有关所需对象类别或空间布局的条件信息直接控制生成的图像。

所提出的方法保留了变压器的优点,其性能优于基于卷积架构的基于SOTA码本的方法。研究人员说,卷积和变压器体系结构一起可以模拟我们视觉世界的构成本质。 CNN和变压器的结合发挥了互补优势的全部潜力,并代表了基于变压器的架构的首个高分辨率图像合成结果。

纸: //arxiv.org/pdf/2012.09841.pdf

Github: //compvis.github.io/taming-transformers/

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.