开放AI引入了DALL·E:一种可通过文本描述创建图像的神经网络

0
3567
资源: //openai.com/blog/dall-e/

开放AI最近训练了一个名为DALL·E的神经网络,该神经网络通过文本描述为自然语言可表达的各种概念创建图像。 

可以教一个广泛的神经网络来使用GPT-3模型执行各种文本生成任务。使用图像GPT-3,可以使用同一神经网络生成高精度图像。 DALL·E是120亿参数版本的 GPT-3 经过培训,可以使用文本-图像对数据集根据文本描述创建图像。  

与GPT-3相似,DALL·E是一个仅用于解码器的简单变压器。它将文本和图像都作为单个数据流,包含1280个令牌,文本256个和图像1024个。它使用最大的可能性进行模制以生成所有令牌,一个接一个。它在其64个自我关注层的每一层都有一个蒙版,允许所有图像令牌都参与所有文本令牌。根据层的不同,它对文本标记使用标准的因果掩码,对具有列,行或卷积注意模式的图像标记使用稀疏注意。

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

该训练过程允许DALL·E从头开始生成图像,并重建现有图像的矩形区域,该区域延伸到右下角。 DALL·E可以为探索语言组成结构的许多句子创建合理的图像。 

DALL·E具有独特的功能,例如: 

  • 创建动物和物体,动物嵌合体和表情符号的拟人化版本。
  • 以合理的方式将不相关的概念组合起来以合成对象,其中某些对象不太可能在现实世界中存在。 
  • 渲染文字
  • 将转换应用于现有图像
//openai.com/blog/dall-e/

控制属性并绘制多个对象

DALL·E可以修改对象的属性及其出现的次数。同时控制对象,它们的特征及其空间关系具有挑战性。例如,短语“戴红色帽子,黄色手套,蓝色衬衫和绿色裤子的刺猬”。为了精确地解释表情,DALL·E必须准确地将每件服装与动物组成,并形成诸如(帽子,红色),(衬衫,蓝色),(手套,黄色)和(裤子,绿色)的关联。它们之间。

这项工作称为变量绑定,并且团队已经测试了DALL·E执行此操作的能力,以实现相对定位,堆叠对象以及控制多个属性。但是,DALL·E的性能还取决于字幕的表达方式。在引入多个项目时,DALL·E会混淆对象及其颜色之间的关联,并且成功率会降低。 

可视化透视图和三维

DALL·E还可以控制场景的视点和渲染场景的3D样式。研究人员通过测试DALL·E能够恢复旋转头的平滑动画,从而从一系列等距角度的角度重复绘制每个角度的知名人物的头部。

可视化内部和外部结构

DALL·E可以渲染内部结构的横截面图,并可以渲染带有宏观照片的外部网络。使用“极端特写视图”和“ x射线”样式的样本可以观察到这一点。

推断上下文细节

据说将文本翻译为图像的规格不足,因为单个标题可以对应许多可能的图像,因此图像不是唯一确定的。针对DALL·E,在以下三种情况下研究了这些规格不足: 

  • 交替的方式,设置和时间
  • 在几种不同情况下渲染同一对象
  • 创建带有特定文字的对象图像。

与3D渲染引擎(在其中必须明确定义输入)不同,DALL·E在描述未明确说明图像应包含的特定特征时,可以从本质上“填补空白”。  

零拍推理

GPT-3具有零击推理功能,这意味着它仅需执行描述即可完成许多任务,而无需任何额外培训即可生成答案。例如,当出现短语“一个人在公园walking狗”时,它会使用GPT-3译成法语,从而产生“ un homme Quipromèneson Chien Dans le parc”。

同样,尽管没有对神经网络进行任何修改,但该团队发现DALL·E将这项技能扩展到了视觉领域,并且在正确提示时可以执行多个图像到图像的翻译任务。

此外,DALL·E还了解了地理事实,地标和街区。但是,它对这些概念的了解在某些方面是精确的,但在其他方面却是有缺陷的。

涉及生成模型的工作可能会产生重大而广泛的社会影响。该团队计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对特定工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

资源: //openai.com/blog/dall-e/

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.