萨里大学的研究人员开发了一种方法,将狗的照片转换成详细的3D模型。
培训材料?不是真正的狗,而是来自热门游戏侠盗猎车手V(GTA V)的虚拟世界的计算机生成的图像。
参与这项研究的研究生莫伊拉·肖特说,分享研究“我们的模型是在CGI狗上训练的,但我们能够用它从真实动物的照片中制作3D骨骼模型。这可以让自然资源保护主义者发现受伤的野生动物,或者帮助艺术家在虚拟世界中创造更现实的动物。
到目前为止,教人工智能3D结构的方法涉及使用真实照片以及物体实际3D位置的数据,这些数据通常是通过运动捕捉技术获得的。
然而,当将这些技术应用于狗或其他动物时,往往有太多的动作需要跟踪,让狗保持足够长的时间是困难的。
为了构建他们的狗数据集,研究人员修改了GTA V的代码,通过一个被称为“modding”的过程,用狗化身替换了它的人类角色。
使用GTA—V生成的合成狗数据集示例。资料来源:萨里大学。
研究人员制作了118段视频,捕捉了这些虚拟狗在不同环境条件下的各种动作——坐着、走着、叫着和奔跑。
这最终导致了“DigiDog”的创建,这是一个包含27,900个狗活动画面的丰富数据库,以现实世界数据收集所不允许的方式捕捉到了这些画面。
有了数据集,接下来的步骤使用了Meta的DINOv2 AI模型,以其强大的概括能力,并使用DigiDogs对其进行微调,以准确预测单视图RGB图像的3D姿态。
研究人员证明,使用DigiDogs数据集进行训练,比在现实世界数据集上训练的狗姿势更准确,更逼真,这要归功于捕捉到的狗的外观和动作的多样性。
通过彻底的定性和定量评价,证实了该模式的业绩得到了提高。
在合成数据集DigiDogs上训练的模型与仅使用真实数据集RGBD—Dogs训练的模型相比显示出更高的准确性。如果你仔细观察预测映射(粉红色)和地面实况(绿色),你可以看到这一点,这是在右手边改进的。资料来源:萨里大学。
虽然这项研究代表了3D动物建模的一大步,但该团队承认还有更多的工作要做,特别是在改进模型预测图像深度方面(z坐标)的方式方面。
Shooter描述了他们工作的潜在影响,他说:“3D姿势包含的信息比2D照片多得多。从生态到动画–这个巧妙的解决方案有很多可能的用途。
的 纸在IEEE/CVF计算机视觉应用冬季会议上获得最佳论文奖。
它为野生动物保护和VR 3D对象渲染等领域提供了更好的模型性能打开了大门。