基于场景识别的服务机器人室内语义建图文献综述

 2022-09-27 02:09

文献综述(或调研报告):

  1. 语义场景识别

在机器人学和计算机视觉界都对基于视觉的语义场景分类进行了探讨。Xiao和Torralba等人发起的SUN(Scene UNderstanding)向前推动了这一领域的研究[1][2],并发布了一些基准论文。最近,[3]通过为此任务训练卷积神经网络,在SUN基准测试中显著改进了语义场景分类。

吴等人[1]使用基于中心特征[2]存粹基于外观的方法来解决机器人视觉场景分类问题。他们的系统已经在六个不同公寓的图像序列上进行了训练,能够区分如客厅和澡堂等典型的语义房间类别。[3]提出了一个类似的系统,并在同一个数据集上进行了测试。相比于[1]他们使用了在密集网格中提取的SIFT特征。尽管两篇论文都使用了一种留有一个样本的方法来进行训练和测试(换言之,使用6所房屋中的5所收集的数据来惊喜训练,使用另外一所的数据进行测试),公寓之间的视觉相似性很高,因此训练和测试数据之间的相似性也很高。

上述语义场景识别的系统之间的一个共同点是,它们依赖从图像中提取并用于分类的人工提取特征的固定功能集。比如说,[3]使用了密集SIFT,[1]使用了CENTRIST [2],[4]依赖于SURF和CRFH,如此等等。然而,在计算机视觉界的一个新趋势,尤其实在目标识别和检测领域是利用深度卷积神经网络(ConvNets)开发学习到的特征。这种趋势最突出的例子是每年的ImageNet Large Scale Visual Recognition Challenge,其中在过去两年内,许多参与者都使用了ConvNet特征。卷积神经网络的概念并不新鲜,它曾被LeCun等人[5]提出用于识别手写的数字。自从算法的改进,诸如丢包以及线性矫正单元[6],[7],以及GPU广泛用于训练这些模型以来,它们的普及率一直在上升。几个研究小组已经表明,ConvNet在使用人工标定的特征时,在目标分类与检测方面优于更经典的方法。最近[8]使用ConvNet在语义场景分类的任务中击败了所有的竞争方法。

  1. 视觉传感器下机器人定位与地图构建(SLAM)

随着计算机视觉的迅猛发展,许多研究者将计算机视觉应用到移动机器人自主定位和地图构建中。基于视觉的自主定位和建图能在实现自主避障、路径规划、跟踪控制等复杂任务中精确的估计机器人位姿,同时实时地重建场景。2014-2015年西班牙的Raacute;ul Mur-Artal博士提出实现完成了ORB-SLAM[9],它采用ORB特征来进行跟踪、地图创建、重定位和回路检测,同时通过优化姿态图使环路闭合。它是一套基于单目、双目以及RGB-D的完整方案,可以实现地图重用、回环检测以及重新定位的功能。ORB_SLAM2由3 1个平行线程组成,包括跟踪、局部建图、回环检测以及在回环检测后的全局BA优化。第四个线程仅在回环检测并确认后才执行。系统运用了基于DBOM2嵌入式位置识别模型进行重定位,来防止跟踪失败、或已知地图场景重初始化、回环检测等。系统使用ORB特征进行追踪、建图和位置识别任务,该特征的优点是具有旋转不变性和尺度不变性。并且能够迅速的提取特征和进行匹配,能够满足实时操作的需求,能够在基于词袋的位置识别过程中,显示出良好的精度。ORB-SLAM系统可通过加入语义信息来完成语义地图的建立。

  1. 语义地图的建立

在机器人学领域中,语义建图是一个被广泛研究的问题。相较于传统的SLAM方法而言,语义建图在动态环境中具有更好的鲁棒性;可以通过添加语义约束来获得地图的先验信息,得到更高精度的建图结果;除此之外,能够更好地进行回环检测,并在一些人机交互的过程中得到更好的效果。R.A.Newcombet[10]提出了Kinect Fusion,实现了基于RGBD的实时三维重建,根据深度图像生成点云数据,采用ICP算法迭代求解相机位姿,之后将点云数据融合到场景的三维模型中。T.Whelan[11]提出了Elastic fusion,实现了基于RGBD的实时三维重建。对相机的位姿估计也是采用ICP算法,但采用了不断优化重建 map 的方式,提高重建和位姿估计的精度。J. McCormac等人[12]通过结合卷积神经网络和Elastic Fusion建图系统,将CNN对场景的语义理解融合到了地图构建中,能够高效建立语义三维图;Niko Sunderhauf等人[13]采用了能够在线学习识别新语义类型的一系列一对多分类器来补全卷积神经网络,通过机器人在具有不同语义环境的一系列位置进行实时建图来评估系统的分类准确率,展示了语义信息是如何促进自动物体识别的表现以及语义建图如何被应用于在导航过程中调节机器人的行为。这些研究推动了语义建图的发展,但仍然还有着非常大的提升空间,具备着较大的挑战。

近年来,随着机器学习的热潮涌来,推动了机器视觉的快速发展,移动服务机器人也随之成为了热点。已经有将神经网络运用到建图系统中,但对于移动机器人应用上还是具有局限。对于服务机器人实际应用中面临的可迁移(transferable)和可扩展(expandable)两个关键问题,仍需要在未来的研究中加以解决。随着技术的不断发展,在未来面向移动机器人的场景分类和语义建图也将会取得进一步的成果。

  1. J. Wu, H. I. Christensen, and J. M. Rehg, “Visual place categorization: Problem, dataset, and algorithm,” in Intelligent Robots and Systems, 2009. IROS 2009. IEEE/RSJ International Conference on. IEEE, 2009, pp. 4763–4770.
  2. J. Wu and J. M. Rehg, “CENTRIST: A visual descriptor for scene categorization,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 33, no. 8, pp. 1489–1501, 2011.
  3. A. Ranganathan, “PLISS: Detecting and Labeling Places Using Online Change-Point Detection.” in Robotics: Science and Systems, 2010
  4. J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba, “Sun database: Large-scale scene recognition from abbey to zoo,” in Computer vision and pattern recognition (CVPR), 2010 IEEE conference on. IEEE, 2010, pp. 3485–3492.
  5. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, vol. 1, no. 4, 1989.
  6. G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov, “Improving neural networks by preventing coad aptation of feature detectors,” arXiv preprint arXiv:1207.0580,2012.
  7. G. E. Dahl, T. N. Sainath, and G. E. Hinton, “Improving deep neural networks for LVCSR using rectified linear units and dropout,” in Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp. 8609–8613.
  8. B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva, “Learning Deep Features for Scene Recognition using Places Database.” NIPS, 2014.
  9. R. Mur-Artal and J. D. Tardoacute;s, 'ORB-SLAM2: An Open-Source SLAM System for Monocular, Stereo, and RGB-D Cameras,' in IEEE Transactions on Robotics, vol. 33, no. 5, pp. 1255-1262.
  10. Newcombe, Richard A., et al. 'Kinect Fusion: Real-time dense surface mapping and tracking.' IEEE International Symposium on Mixed and Augmented Reality IEEE Computer Society, 2011:127-136.
  11. Whelan, Thomas, et al. 'Elastic Fusion: Dense SLAM Without A Pose Graph.' Robotics:Science and Systems2015.
  12. J. McCormac, A. Handa, A. Davison and S. Leutenegger, 'SemanticFusion: Dense 3D semantic mapping with convolutional neural networks,' 2017 IEEE International Conference on Robotics and Automation (ICRA), Singapore, 2017, pp. 4628-4635.
  13. Niko Sunderhauf, Feras Dayoub, Sean McMahon, Ben Talbot, etc. Place Categorization and Semantic Mapping on a Mobile Robot, ICRA 2016.
  14. W. J. Scheirer, A. Rocha, A. Sapkota, and T. E. Boult, “Towards open set recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), vol. 36, July 2013.

资料编号:[194210]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。