圣母大学和Facebook AI研究提出“ 图2”,这是一种实时的6DoF 3D人脸姿势估计,无需人脸检测或地标定位

0
937
Source: //arxiv.org/pdf/2012.07791.pdf

脸书 AI和圣母大学研究团队的一项新研究提出了一种新颖的实时六自由度(Degrees of Freedom) 3D面部姿势估计技术, 命名 图2,无需人脸检测或地标定位即可使用。 

6 DoF 表示身体在3D空间中以六种不同方式运动的自由度。除了3自由度,6自由度面部姿势估计中已经存在的偏航,俯仰和滚动旋转运动之外,还添加了前/后,上/下和左/右变量。所提出的技术可以直接估计所有脸部的6DoF 3D脸部姿势,即使是在非常拥挤的图像中,也不需要脸部检测步骤。

//arxiv.org/pdf/2012.07791.pdf

当前的面部检测技术包括两个步骤。第一步是在照片中的每个面孔周围放置一个边框。下一个通常是面部标志检测,包括定位特定的面部特征,例如眼中心和鼻尖。此过程对于许多基于面部的推理任务都有效,但是会遇到 高计算成本,尤其是在SOTA模型中。而且,当面部检测器被更新时,地标检测器倾向于针对特定的面部检测器被重新优化。

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

圣母院和Facebook研究人员说 估计面部的6 DoF刚性变换比面部界标检测更简单。同样,6 DoF提供的信息比人脸边界框标签还多。

//arxiv.org/pdf/2012.07791.pdf
//arxiv.org/pdf/2012.07791.pdf

所提出的方法估计给定图像中每个脸部的6DoF姿势,表示旋转和3D脸部平移。由于可以将6DoF人脸姿势转换为外部相机矩阵,以将3D人脸投影到2D图像平面, 预测的3D人脸姿势可进一步用于获得准确的2D人脸边界框。面部检测因此成为该过程的副产品,从而减少了计算开销.

通过用“ 6DoF姿态估计”替换“针对人脸边界框检测的训练”,可以对齐输入图像中的所有3D人脸形状。当姿势将具有已知几何形状的3D形状与图片中的面部区域对齐时,可以根据大小和形状调整生成的面部边界框,以匹配特定的研究需求。

img2pose模型是使用小型且快速的ResNet-18主干构建的,并在WIDER FACE训练集上进行了训练,该训练集具有弱监督标签和带有人工注释的地面真实姿势标签。两个数据集AFLW2000-3D和BIWI数据集用于img2pose的测试。尽管没有在边界框标签上进行优化,但它在实时运行时的性能优于SOTA面部姿势估计器,并且在地标检测上超过了可比的复杂度模型。

该团队认为,所提出的直接多面方法是第一个估计3D人脸的6DoF刚性变换而无需人脸检测或人脸界标定位的方法。该方法有望在将来提高诸如对象和关键点检测等任务的准确性。

纸: //arxiv.org/pdf/2012.07791.pdf

的GitHub: //github.com/vitoralbiero/img2pose

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.