谷歌 AI版本‘Objectron Dataset’由15,000个带批注的视频和4M个带批注的图像组成

0
3774
资源: //ai.googleblog.com/2020/11/announcing-objectron-dataset.html

随着以照片训练的机器学习模型的新进步,计算机视觉任务已达到非凡的准确性。除了这些进步之外,对3D对象的理解还具有推动更广泛的应用程序(例如机器人技术,增强现实,自主性和图像检索)的巨大潜力。

2020年初,Google发布了 MediaPipe Objectron。该模型旨在用于移动设备的实时3D对象检测。该模型在完全注释的真实3D数据集上进行了训练,可以预测对象’ 3D bounding boxes.

尽管如此,由于与2D任务相比缺少大型现实数据集,因此以3D方式理解对象仍然是一个巨大的挑战。迫切需要以对象为中心的视频数据集,以使研究社区能够增强对3D对象的理解。这必须捕获更多的对象’的3D结构并匹配用于视觉任务的数据格式,例如视频或摄像机流。 

广告 Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

牢记以上几点,Google发布了 Objectron数据集,收集以对象为中心的短视频剪辑,从多个角度捕获更广泛的熟悉对象集。每个视频剪辑都带有增强现实会话元数据,其中包括稀疏点云和相机姿势。数据包含每个对象的手动注释的3维边界框,以描述对象’的位置,方向和尺寸。数据集包含约15,000个带注释的视频剪辑,以及从地理多样的样本中收集的超过400万个带注释的图像。

3D物体检测解决方案

除了数据集外,Google还为以下类别的对象(鞋子,椅子,杯子和照相机)共享了3D对象检测解决方案。这些模型已在Google中发布’用于实时和流媒体(即MediaPipe)的可定制机器学习解决方案的开源框架。 MediaPipe还支持机器学习解决方案,例如设备上的实时手,虹膜和身体姿势跟踪。

在这些新版本中,使用了两阶段体系结构。

  •  第一阶段采用TensorFlow对象检测模型并找到对象的二维裁剪。 
  • 第二阶段使用阶段1中的裁剪图像估算3维边界框,同时计算对象’s二维裁剪。

Github: //github.com/google-research-datasets/Objectron/

教程: //github.com/google-research-datasets/Objectron/#tutorials

资源: //ai.googleblog.com/2020/11/announcing-objectron-dataset.html

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.