基于ORB-SLAM2的三维稠密地图重建文献综述

 2022-09-15 03:09

文献综述(或调研报告):
国内外对SLAM(即时定位与建图技术)的研究源于上世纪80年代,经过近40年的发展。SLAM所应用的传感器从声纳到激光雷达再到各种类型相机,发展到现在基于视觉传感器的SLAM系统,过查阅相关基于视觉传感器的即时定位与建图(visual-SLAM)的相关文献,研究了如何从图像中获取运动信息、如何从图片信息中恢复三维世界场景。其中涉及相机标定技术、特征提取技术、位姿优化、点云拼接以及点云滤波等技术。

视觉测量中,相机获取的数据至关重要,相机数据的质量决定了SLAM系统中位姿估计、地图重建的精度。相机的数学模型在理想状态下是“针孔模型”但是由于制造与工艺的原因,光学系统存在非线性几何失真,使得得到的图像存在几何畸变,故需要进行相机标定以进行修正。标定方法[1]有如下:1.传统的标定方法,通过已知的标定物上坐标已知的点与图像点进行对应,再进行相机模型内外参数的计算,但求解精度需要由标定物的精度保证,应用场合较少。2.相机自标定法,利用场景约束或者相机运动约束进行标定。3.主动视觉标定法,根据已知的运动,计算相机的参数。4.线性法,这种方法不考虑相机的畸变,精度不高。5.非线性法,在考虑畸变后,利用多个对应点的迭代,求解,计算量大。6.“张正友标定法”[2],是一种目前比较流形的相机标定技术,观察不同方向上的平面图案,对镜头的径向畸变进行建模,基于最大似然准则随模型进行非线性改进,该技术易于使用,比较灵活。实验所使用的ZED相机能够测出图像的深度,要能够构建出精度较高的点云模型必须对相机进行较为准确的标定。

视觉SLAM系统随着近些年的研究发展,逐渐发展出各种基于不同方法的SLAM系统,这些系统应用于不同的相机、应用不同的场景。视觉SLAM目前流形的架构是以前端做位姿估计、后端进行优化、回环检测减小累积误差、建图等四大模块。对目前的SLAM系统进行分类,mu以传感器形式不同分为:单目SLAM系统、双目SLAM系统、RGB-D SLAM系统、多目 IMU的SLAM系统以及激光SLAM系统。也可以基于前端的方法不同分为:基于特征点的SLAM系统、基于像素梯度的SLAM系统。以后端分类可以分为:以BundleAdjustment(捆绑调整)为代表的非线性优化的后端SLAM、以滤波器概率估计为基础的后端SLAM。

早期人们对图像信息的提取是基于寻找能够具有代表性的点,不受光照、尺度变换、物体运动影响。以此人们提出图像角点检测,代表性的算法有Harris角点检测[3]、Moravec角点检测[4]、Shi-Tomasi角点检测[5]以及FAST角点检测[6]等方法,这类方法以图像梯度为特征对图像像素进行筛选但缺少鲁棒性、尺度不变性等特点。之后在此基础上提出以关键子、描述子合成的特征点以增加尺度不变性、鲁棒性。代表性的算法有SIFT[7]、SURF[8]、ORB[9]检测。这些方法均含有关键子、描述子,具有良好的鲁棒性、尺度不变性,缺点是计算量大,ORB特征点相较于其他两种算法既保证了精度又提升了速度。相对于特征点法,目前也有基于像素梯度的直接法,即不依赖提取图片特征点,而是利用图像像素,最大限度利用图像信息。

Davison提出的MonoSLAM系统[10]是第一个实时单目SLAM系统,以扩展卡尔曼滤波为后端,追踪前端稀疏特征点,依据相机采集的数据进行离线定位与建图。由于是稀疏特征点的SLAM系统,故应用场景有限,特征点容易丢失。之后Klein等人提出的PTAM(Parallel Tracking and Mapping)提出了将跟踪与建图并行化[11],跟踪部分由SLAM系统额前端实时进行,而对地图重建的优化放在后端,提出了前端、后端的概念,而且使用了非线性优化的方案,引入关键帧,更加高效的处理相机传输的图像。在此之后,ORB-SLAM的方案被提出[12],该方案依旧是传统SLAM方案的构架,ORB特征点对于计算机系统的需求更低,可实时计算,且特征点区分性更好,精度更高,提出了回环检测概念,有效的减少累计误差,在此基础上以三线程(Tracking 、Co-visibility Graph、Essential Graph)进行SLAM系统,此后又提出ORB-SLAM2系统应用于双目SLAM系统。LSD-SLAM(Large Scale Direct monocular SLAM)系统[13]是不需要计算特征点构建半稠密地图点方法,利用图片像素梯度估计相机运动,使用该方法可以在CPU上实现半稠密场景重建,直接法少去了计算大量特征点对计算机的负担。Forster等人提出基于稀疏直接法的视觉里程计即SVO(Semi-direct Visual Odometry)[14]该方法即跟踪了一些特征点又利用像素梯度估计相机运动,二者混合使用,这种方法速度快,提出了深度滤波器,使深度估计速度更快,适用于实时输出设备。RTAB-MAP(Real Time Appearance—Based Mapping)[15]是应用在RGB-D相机的经典方案,是基于特征点的视觉里程计、回环检测、后端优化、点云、三角网格地图,更为实用。相机 IMU组成的SLAM系统,运用IMU(惯性传感器)数据融合相机数据弥补在高速情况下相机传感器的运动模糊、特征缺失,运用相机传感器去弥补IMU的数据漂移,二者互补。目前又有基于深度学习提出语义SLAM,对图片场景深度的估计采用机器学习的方式。

通过相机产生的数据,能够通过多视几何原理恢复出图像像素点对应的世界坐标,在对应各自的图像色彩即可恢复出周围环境信息,以点云的方式构建周围世界。对于生成的点云由于噪声的影响,点云会产生漂移,需要对收集的点云进行去噪,删去离群点。目前对于点云滤波算法的研究有:双边滤波、高斯滤波、分箱滤波、随机采样一致性滤波以及半径滤波等,通过将关键帧产生的点云数据进行滤波拼接,生成精度较高的稠密点云地图。

综上所述,在现有的硬件条件支持下,实现机器人定位并实时输出稠密点云的目标。ORB-SLAM2系统框架相较于其他SLAM框架更满足实时性要求,精度更高[16]。利用 ORB特征检测对深度相机所拍摄的彩色序列图像进行视觉特征的快速提取与匹配,结合ICP算法,实时估计相机位姿;在相机位姿优化操作中添加ICP误差约束,应用图优化算法对深度相机所获取的彩色图像的投影误差以及深度图像的反投影误差进行联合优化,得到相对精确的相机位姿与三维稀疏点云;利用估计得到的相机位姿对关键帧所对应的稠密图像点云进行拼接融合,对获取的点云数据进行点云滤波、点云拼接,弥补ORB-SLAM2中只能构建稀疏点的不足。从而得到稠密点云表示的机器人室内导航点云地图。

参考文献

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。