搜索详情-综述网

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回

基于深度学习的三维建模文献综述

 2022-07-31 04:07  

  1. 文献综述(或调研报告):

人体姿态采集介绍

人体姿态采集指的是从RGB图像中得到人物的姿态信息,这里的姿态信息指的是人体的主要关节点以及骨架信息。人体姿态采集在许多领域都有应用,比如虚拟现实/增强现实,游戏领域,虚拟穿衣,电影/动画制作。在这些应用中,我们可以将图形、特效、艺术造型等加载在事先制作好的3D人体模型上,如果能够实现人体姿态采集,那么渲染出的人体模型就能够随着图像中人物的动作而做出相应的动作。

尽管我们可以通过一些更加复杂的手段来实现人体姿态采集的目标,比如使用多台RGBD深度相机[1]或者3D扫描仪,但是这样做带来的缺点就是需要更加专业的设备、场景搭建和复杂的数据处理,实用性大大受限。而RGB图像在现实生活中很容易就能获得,如果能够仅仅通过RGB图像采集到人物的姿态,那么上面提到的种种应用都能扩展到更广泛的场景。

目前对人体姿态采集的研究主要分为传统算法[2]和基于深度学习的算法,由于本次课题是基于深度学习的人体姿态采集,且深度学习在这一任务上能够适应广泛的场景并且有着较高的准确率,因此本文只对使用深度学习进行人体姿态采集的文献进行综述。

基于深度学习的方法

深度学习的主要思想是构建一个多层的神经网络模型,每一层神经网络中含有若干个神经元,这些神经元都是在模型训练过程中可以变动的参数,用于对上一层网络的输出进行处理。整个模型接受输入之后,经过神经网络的处理,输出一个该模型的预测信息,这个预测信息与真实信息之间会存在误差,通过反向传播算法[3],可以不断调整模型中各层神经网络的参数以使这个误差朝着不断减小的方向移动,在多次的迭代之后达到一定的准确率。为了提升准确率,深度学习的模型训练往往需要很大的训练数据集,以保证模型能有效地去除噪声并提取出关键信息,数据集太小容易导致模型过拟合,即在训练集上的准确率极高但在其他输入数据上的准确率极低。以图像处理方向为例,根据任务的复杂度往往需要上万张图片或者几十万张图片。因此手工标注是不现实的,一般的解决方案是采用已有的比较成熟的数据集,或者在有些任务中,数据集可以通过计算机程序来批量生成。

对应人体姿态采集的任务,在数据集方面,需要以含有人物姿态的RGB图像作为输入,以对应的姿态信息作为输出。目前已经有一些比较成熟的数据集比如COCO[4],Human3.6M[5],MPI-INF-3DHP[6]等等,现有工作基本上都是在这些数据集的基础上进行模型的训练和验证。Human3.6M数据集是2014年发布的一个用于人体姿态采集的数据集,它的特点是共含有360万个3D姿态数据以及对应的图像,并且包含了很多不同的场景,可以满足深度学习的需要。

在神经网络模型方面,人体姿态采集一般采用的是卷积神经网络模型(Convolutional Neural Network,CNN)[7]。卷积神经网络模型非常适合用于图像处理相关的任务,它能够充分利用图像的空间信息,从不同维度提取出图像的一些特征信息,并且经过训练,能够有效地排除图像中的干扰信息,比如场景或者人物衣着的不同,人物在图像中的位置和大小变化等。

基于深度学习的人体姿态采集总体上可以分为2D姿态的估计[8]和3D姿态的估计,2D人体姿态是指人体各关节在图像二维平面分布的一种描述,通常用线段或者矩形来描述人体各关节在图像二维平面的投影,三维人体姿态是指人体目标在真实三维空间中的位置和角度信息,通常用三维坐标或者一些更加复杂的模型[9]来表述估计的姿态,下面将分别进行介绍。

2D人体姿态采集

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。