Nvidia提出了一种神经对话头视频合成AI模型,使视频会议的带宽效率提高了10倍

0
1286
//nvlabs.github.io/face-vid2vid/

英伟达研究人员介绍了一种AI系统,该系统使用一个源图像和一个驾驶视频生成一个人的逼真的谈话视频。源图像对个人的外观进行编码,而驾驶视频则指导最终视频中的运动。 

研究人员提出了一种纯神经渲染方法,其中,在不使用3D人体头部图形模型的情况下,使用深度网络以单次设置来渲染会说话的视频。与基于3D图形的模型相比,基于2D的方法具有各种优点,例如:

  1. 它避免了通常很难且昂贵的3D模型获取。
  2. 基于2D的技术可以适当地合成头发,胡须等。相反,要获得这些区域的精确3D几何形状是一项挑战。
  3. 他们可以直接在源图像中合成配件,例如眼镜,帽子和围巾,而无需3D模型。

但是,由于缺少3D图形模型,因此现有的基于2D的单发说话头方法只能从原始角度合成说话头。他们无法从唯一的角度渲染谈话头。 

所提出的方法解决了固定视点限制的问题,并实现了局部自由视图综合。人们可以在原始视图的大部分区域中自由更改会说话的人的视点。

该模型首先从参考图像中提取外观特征和3D规范生命点。由此,针对合成视频计算并生成源关键点。该系统将关键点表示分解为特定于人的规范关键点和与运动相关的转换,使用3D关键点对面部外观和几何印象进行建模,创建带有面部和头部姿势信息的讲话头合成视频。 

//www.youtube.com/watch?v=nLYg9Waw72U&feature=emb_logo

Nvidia的Maxine软件开发套件 用于视频会议服务的软件可以满足高质量视频会议的要求。 Maxine帮助开发人员在其应用程序中构建和部署基于AI的功能,而无需创建大量相似的资源元素。  

随机中断,抖动,冻结等通常是由于视频会议应用程序对带宽的需求过大而导致的。新颖的方法减少了带宽需求,从而大大降低了成本。这是通过仅发送人脸的关键点表示并使用生成的对抗网络(GAN)合成会说话的头在接收方重建源视频来实现的。与商业H.264标准相比,此方法可以将带宽减少十分之一。

//nvlabs.github.io/face-vid2vid/web_gifs/teaser.gif

大多数视频通话系统通过员工的Internet连接传输压缩的视频信号(包含大量像素打包的图像流),而该连接经常无法控制负载。在Nvidia提出的方法中,传输的数据仅限于呼叫者的眼睛,鼻子和嘴巴周围的某些关键点位置。

研究人员还包括一个预先训练的面部识别网络和一个预先训练的头部姿势估计器,以确保生成的图像的头部姿势和角度准确且可以接受。

在对说话人头合成任务(例如视频重建,运动传递和面部重定向)进行检查时,所提出的方法优于其他方法,例如 FOMM少拍vid2vid(fs-vid2vid)和 双层神经化身(双层) 在基准数据集上。 

纸: //arxiv.org/pdf/2011.15126.pdf

Github: //nvlabs.github.io/face-vid2vid/

广告deeplearning.ai与一名学习者的深度学习专业化横幅,戴着眼镜在笔记本电脑上。

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.