基于移动平台的目标检测技术应用文献综述

 2022-07-15 07:07

文献综述

前言

卷积神经网络的概念最早的提出源于每个动物的神经元只会处理一小块区域的视觉图像,相当于CNN中卷积核的处理过程。后来又提出了神经认知机的概念,神经认知机包含两类神经元,一类是用来提取特征的S-cell,对应于现在的CNN中卷积核的滤波操作;一类是用来抗变得C-cell,对应于现在的CNN中激励函数、池化等操作。ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)作为机器视觉领域的奥林匹克,每年都吸引来自全世界的研究小组,他们用自己组开发的机器视觉模型/算法解决图像分类、定位、检测等问题。2012年,当Alnext模型的提出,在前五测试错误率top 5项目上达到15.4%的好成绩。排在它后面的成绩是26.2%,说明CNN相对其它方法具有令人震惊的优势,这在机器视觉领域引起了巨大的震动。从2012年起CNN就正式迎来了它的热潮。随后的几年时间内,各种cnn模型如VGGnet,Inception,Resnet,也都一一被提出,也不断刷新着ILSVRC top1和top5的记录。而轻量级网络模型mobilenet的提出,也使得将cnn迁移到移动端变得更加轻便可行。本课题将使用mobilenet进行迁移学习,并移植到移动端完成app相关功能的开发。

正文

Cnn的几个经典模型主要运用在图像分类,图像定位,图像检测中。而本课题主要研究的是图像分类。图像分类主要指将输入图像进行硬分类或模糊分类。对于人类来说,这是出生后就应当学会的第一个技能,并在成人后能够做到非常轻松自然地做到这一点。无论我们看到图片还是真实景象,都能够马上对其进行判断并打上标签,有时候这种行为就是下意识的。这种识别技术主要基于人们的先验知识与环境,而这些是我们的机器所无法拥有知识的。当我们的电脑看到一副图片时,机器只是看到一个由像素值组成的矩阵,比如说32*32*3,其中32表示其分辨率或图像大小,3表示RGB三原色。为了把问题阐述清楚,我们这里定义一个JPG格式的彩色图像,大小为480*480,那么表示的矩阵就是480*480*3。矩阵里每一点取值范围0-255,表示为该点的像素强度(灰度值)。在我们人类进行图像识别的时候,这些像素点并没有意义,它们只是作为机器进行图像识别的输入而已。机器的输出,可以是一组概率值,这组概率值表明了当前的图像是某一类图像的可能性有多大。

我们想要计算机做的是分辨出所有给出的图中所具有的独特特征,例如说狗图或猫图的独特特征,这些特征是在某一分类图中一致,而跟其它类型图不同。这件事在我们自己的脑中同样也是自动完成的。例如,当我们看一副狗图时,我们能够根据图中物体的爪子或4条腿分辨其是小狗。类似地,计算机也可以通过寻找一些低等级特征,例如边缘或纹理等,并由此通过一系列卷积层来建立更抽象的概念,来实现分类识别。大体上这就是CNN所做的事。针对CNN的具体行为,一个更加细化的视角是,用户将图像经过一系列卷积、非线性、池化、以及全连通层后,获得了输出结果。

CNN的第一层通常是一个卷积层,它的输入例如是一个224times;224times;3的图像,3代表RGB三个通道,意味着这是一张彩色图片。而过滤器,或者称之为卷积核filter,用它来按照一定的步长来扫描整个图片。他的通道数量必须和输入图片的的通道数目相同,才能保证卷积运算的正确进行。事实上,这些滤波器可以看做是特征识别器。这里的特征,指的是那些直线边缘、颜色、纹理等。

例如上图所示的滤波器,可以实现识别一个向右上方弯曲的曲线,而下图一就和滤波器的形状匹配,因此卷积运算后得到是一个很大的的数字,这代表图片中的特征和滤波器所能鉴别的特征相似。而最后一张图则是一张向右下方弯曲的图片,因此它的卷积运算结果为0,表示这张图的特征不是滤波器所能识别的特征。而在实际操作中,我们会通常使用多个滤波器,他们可以为我们鉴别出各种各样的特征。而在第二层的滤波器的输入是第一层滤波器的输出,因此第二层卷积操作的运算是在第一层卷积运算的结果上运行的,他就可以识别出更高层次的特征。随着网络层次的逐渐增加,可以识别出来的特征也就越来越复杂。例如低层次可能识别出来的是物体的框架轮廓文理,而高层次可以识别出每个物体特有的特征。

检测出高阶特征后,我们通常在网络结构的最后添加一个全连通层fully connected layer。全连通层输入一个数列(无论这个输入是来自卷积层conv、线性整流ReLU层还是池化层pool),输出一个N维向量,N是由程序指定的分类类别数量。例如,对于一个数字分类程序,N就应该取10(0~9共10个数字)。这个N维向量中的每一个数字表示被分到该类的几率。例如,还是针对数字分类程序的分类结果为[0 .1 .1 .75 0 0 0 0 0 .05],这就表示这个输入的图像为1的概率有10%,为2的概率10%,为3的概率75%,为9的概率5%。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。