研究人员在GTA—V中构建合成狗数据集以创建3D模型

390 0 0

萨里大学的研究人员开发了一种方法，将狗的照片转换成详细的3D模型。

培训材料？不是真正的狗，而是来自热门游戏侠盗猎车手V（GTA V）的虚拟世界的计算机生成的图像。

参与这项研究的研究生莫伊拉·肖特说，分享研究“我们的模型是在CGI狗上训练的，但我们能够用它从真实动物的照片中制作3D骨骼模型。这可以让自然资源保护主义者发现受伤的野生动物，或者帮助艺术家在虚拟世界中创造更现实的动物。

到目前为止，教人工智能3D结构的方法涉及使用真实照片以及物体实际3D位置的数据，这些数据通常是通过运动捕捉技术获得的。

然而，当将这些技术应用于狗或其他动物时，往往有太多的动作需要跟踪，让狗保持足够长的时间是困难的。

为了构建他们的狗数据集，研究人员修改了GTA V的代码，通过一个被称为“modding”的过程，用狗化身替换了它的人类角色。

使用GTA—V生成的合成狗数据集示例。资料来源：萨里大学。

研究人员制作了118段视频，捕捉了这些虚拟狗在不同环境条件下的各种动作——坐着、走着、叫着和奔跑。

这最终导致了“DigiDog”的创建，这是一个包含27,900个狗活动画面的丰富数据库，以现实世界数据收集所不允许的方式捕捉到了这些画面。

有了数据集，接下来的步骤使用了Meta的DINOv2 AI模型，以其强大的概括能力，并使用DigiDogs对其进行微调，以准确预测单视图RGB图像的3D姿态。

研究人员证明，使用DigiDogs数据集进行训练，比在现实世界数据集上训练的狗姿势更准确，更逼真，这要归功于捕捉到的狗的外观和动作的多样性。

通过彻底的定性和定量评价，证实了该模式的业绩得到了提高。

在合成数据集DigiDogs上训练的模型与仅使用真实数据集RGBD—Dogs训练的模型相比显示出更高的准确性。如果你仔细观察预测映射（粉红色）和地面实况（绿色），你可以看到这一点，这是在右手边改进的。资料来源：萨里大学。

虽然这项研究代表了3D动物建模的一大步，但该团队承认还有更多的工作要做，特别是在改进模型预测图像深度方面（z坐标）的方式方面。

Shooter描述了他们工作的潜在影响，他说：“3D姿势包含的信息比2D照片多得多。从生态到动画–这个巧妙的解决方案有很多可能的用途。

的纸在IEEE/CVF计算机视觉应用冬季会议上获得最佳论文奖。

它为野生动物保护和VR 3D对象渲染等领域提供了更好的模型性能打开了大门。

文章版权归作者所有，未经允许请勿转载。

yundic

335

yundic

395

yundic

390

yundic

yundic

297

yundic

134

暂无评论

暂无评论...