基于Jetson TX2的高架草莓采摘机器人视觉系统研究文献综述

 2022-09-29 11:09:49

文献综述(或调研报告):

相关文献中有很多草莓检测的方法

  1. 基于颜色特征的检测方法。

一种较为简单的识别办法就是基于草莓明显的颜色特征来识别[2][3][4][5],由于大多数品种的草莓成熟之后呈现鲜艳的红色,而未成熟的草莓呈现青色,可以通过颜色准确的分辨开来。在高架栽培模式中,环境大多为暗色,茎秆也与草莓果实有着明显的区别,所以此方法是可行的。当直接应用颜色特征时,首先需要找出HSV颜色空间中,成熟草莓的对应区间,获得相应阈值,之后在图片中分割符合此阈值的区域,经过降噪滤波去孔洞处理,得到草莓的位置信息,进一步得到草莓的最大外接矩形框。此方案虽然简单,但是缺点也很明显,在光照、遮挡等复杂情况下,可能会出现判断错误的情况。在实际情况下,不可避免的在不同光照情况下,进行草莓采摘工作。

  1. Harr级联分类器。

为了解决这个问题,一种解决思路是,通过特征描述子结合分类器的方法检测草莓。例如,文献[1]采用Harr级联分类器,在图像识别之前,训练出属于草莓果实的Harr级联数据特有特征,之后,提供给训练器大量的正样本(含有草莓的图片)和大量的负样本数据(不含有草莓的图片),训练器可以自己训练找出草莓本身所特有的特征,并生成若干个弱分类器,所有的弱分类器组成一个强分类器。需要注意的是,训练正样本和负样本数目必须很高,论文中采用104级数据。并且在每级分类器的错误率小于30%时进入下一级,一共训练了20级。这样,就可以通过草莓本身特征来找到草莓在图像中的具体位置,然而,我们并不能知道我们找到的草莓是否应该被采摘下来,此时,就可以对判断之后的图像进行颜色区分,从而判断成熟度是否已经达到要求。论文中进行了H(色调)的区分,并且设定阈值。可以较为准确的判断图像中是否出现了应该采摘的草莓,并且得到位置。但是此种方法其实和单纯采用颜色识别的弊端类似,在不同光照情况下容易错判,并且,在论文中作者也表示了对待静态图片的识别准确率只有85%,远远达不到此设计要求的94%。所以这种方法需要改进的地方还有很多。

  1. 基于HOG SVM的多尺度滑动窗口。

为了解决精度问题,有人采用了HOG SVM的方法[6]进行训练。梯度方向直方图(Histogram of Oriented Gradient,HOG)是2005年CVPR会议上,法国国家计算机科学及自动控制研究所的Dalal等人提出的一种解决人体目标检测的图像描述子,该方法使用HOG特征来表达人体,提取人体的外形信息和运动信息,形成丰富的特征集。现在被广泛应用于特征提取。HOG具体步骤为检测窗口、归一化图像、计算梯度、对于每一个cell块对梯度直方图进行规定权重的投影、对于每一个重叠block块内的cell进行对比度归一化。HOG的优点:HOG表示的是边缘(梯度)的结构特征,因此可以描述局部的形状信息;位置和方向空间的量化一定程度上可以抑制平移和旋转带来的影响;采取在局部区域归一化直方图可以部分抵消光照变化带来的影响;由于一定程度忽略了光照颜色对图像造成的影响,使得图像所需要的表征数据的维度降低了。得益于分块分单元的处理方法,也使得图像局部像素点之间的关系可以得到很好表征。HOG的缺点:描述子生成过程冗长,导致速度慢,实时性差;很难处理遮挡问题。由于梯度的性质,该描述子对噪点相当敏感。支持向量机(Support Vector Machine ,SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。使用将HOG描述子与SVM分类器结合之后,可以通过提取正样本和负样本的HOG特征,进而送入SVM中进行训练,在设置合适的参数之后,即可分开正负样本。训练得到分类器模型后,即可调用已训练的分类器模型识别草莓。一般认为,该方法有着较高的识别准确率。在草莓定位检测问题中,采用多尺度滑动窗实现草莓定位:以不同尺度的窗口在待测图片上顺序滑动,若检测到在某个尺度下,窗口大小和图中草莓大小相符即视为定位到了草莓的位置。一般认为,由于窗口会遍历图片,总存在某个窗口滑动到了草莓的最小外接矩形上。此方法有着较高的准确率,因此拟采用该方法来获得的高架草莓样本数据集。另外一种稍作改进的办法就是在HOG的基础上添加颜色空间中的H分量,其他完全相同,经过训练之后经多尺度滑动窗口测试,发现添加了H分量特征的方法会在一定程度上提升定位准确率。

  1. 基于深度学习CaffeNet的草莓识别

基于深度学习中较为成熟的目标检测(object detection)算法实现草莓检测实提高高架草莓检测准确率的有效途径之一。其中可以使用CNN[8]进行识别与定位;也可以使用R-CNN[9]等。2012年在ILSVRC比赛中,有人提出了AlexNet网络,针对2012年的这组数据集Caffe也定义了自己的结构,被称为CaffeNet,在迭代30多万次的情况下精度提高了0.2个百分点。用ReLU代替了Sigmoid,只需要一个阈值就可以得到激活值,节省了复杂的运算。在成熟草莓的识别方面[6],CaffeNet对枝叶遮挡和相互重叠情况下成熟草莓识别率大大提升,运行时间也有明显缩短。

  1. 基于深度学习YOLOv3的草莓检测。

本项目拟采用的深度学习算法YOLOv3[7]具有在实时物体检测方面十分良好的性能。它采用了新的网络结构Drknet-53(含有53个卷积层),借鉴了残差网络(residual network),在一些层之间设置了快捷链路(shortcut connections)。YOLOv3采用了3个不同尺度的特征图来进行对象检测,卷积网络在79层之后,经过下方几个卷积层得到了一种尺度的检测结果,用于检测的特征图有32倍的下采样,感受野较大,适合检测图像中尺寸比较大的对象。在79层的特征图作上采样,然后与第61层特征图融合(Concatenation),这样得到91层较细粒度的特征图,同样经过几个卷积层后得到相对输入图像16倍下采样的特征图。它具有中等度的感受野,适合检测中等尺度的对象。在91层特征图再次上采样,并与第36层特征图融合,最后得到相对输入图像8倍下采样的特征图。它的感受也最小,适合检测小尺寸的对象。另外,YOLOv3具有9种尺度的先验框,在COCO数据集这9个先验框是:(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)。对象分类使用逻辑回归(logistic),支持多标签对象,本项目只有一种对象——草莓,可采用二分类器代替。YOLOv3在速度上明显优于大部分近几年出现的深度学习算法比如SSD,FCN等,在精确率上稍稍弱于RetinaNet,Mask R-CNN等two-state目标检测框架。在机器人采摘草莓的项目中,在满足草莓定位准确度的要求下,应具有较高的识别速度,因此本文采用YOLOv3。

[1]侯贵洋,赵桂杰,王璐瑶.草莓采摘机器人图像识别系统研究[J].软件,2018,39(06):184-188.

[2]赵玲,周桂红.基于颜色特征的草莓成熟度识别技术研究[J].河北农业大学学报,2017,40(02):97-101.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版