旋转不变的鲁棒判别图像识别技术文献综述

 2022-07-15 06:07

  1. 研究背景

随着微电子技术和计算机技术的蓬勃发展,图像识别技术创始20世纪于50年代后期,在20世纪60年代初开始兴起,经过 20 多年的发展,图像识别已受到许多学科的广泛重视,在科研与生产等众多领域,尤其在机器人方面得到广泛应用。图像识别所提出的问题,主要是研究用计算机代替人类自动处理大量物理信息,解决人类生理器官所不能解决的问题,从而部分代替人的脑力劳动。1962年,Hu首先提出了矩的概念,后来人们又总结出了7个不变矩,用来提取图像旋转不变特征,但是因为其多项式不是正交的,所以计算7个不变矩的计算量非常大。后来出现了正交矩,其中以 Zernike矩和 Pseudo- Zernike矩为代表,但是他们的多项式复杂,计算量比较大,而且出现了许多不同的计算其多项式的方法。通过求各个方向上灰度共生矩阵特征量的平均来得到旋转不变量。

二、国内外研究现状


分几个方面分别的论述一下图像识别的技术和产业发展的相关状况。

第一,图像识别技术的价值在哪里。我们把人脸作为一个生物学特征,作为一个商业化运用,只是备选的一个方案之一。生物学当中,唯一的判断的标准,其实识别从精准度的角度和不可替代的角度来讲,最精准的是虹膜,但是虹膜的识别采集成本非常高,识别的效率相对不是很高,需要等待的时间。所以这两个条件约束了整个的产业化运用只能局限在相对小众的,对识别要求极高的军工、国防等安全性非常高的远的投入,不适合大范围的推广。

第二,指纹。我们知道指纹的唯一性比较强,指纹同时采集成本是比较低的,比对成本也不高。但是为什么指纹没有成为一个特别大的可供支付、刷脸可替代的方案呢?实际上主要的原因是因为指纹的可复制性,是一个静态图像之间的比对,现在我们可以看到淘宝也好,各种各样的大量的指纹贴,指纹膜,可复制的特征,不适合支付。所以指纹现在也大致上被pass了。

第 三和第四分别是图像识别和声音识别技术。这两个在现在横向来相比,采集成本和比对的效率,以及生命特征的唯一性来讲,性价比比较高。所以现阶段来看,图像识别浮出水面,是有它的道理的,这是它的价值。商业特征的应用场景到底在哪里。

图像识别的应用场景是非常宽泛的,现在主要两块,一个是金融行业,一个是安保行业。金融行业,已经从马云的蚂蚁金服演示中看到了场景,通过刷脸进行支付,显然刷脸可以付钱了,为什么不可以签收快递呢,下一步淘宝应该会把淘宝签收快递的功能打通。我相信有一天,我们会收到无人机送来的快递,无人机在你的面前拍一张照片,进行对比,就知道这个用户就是需要的用户,完成整个的支付过程。实际上这种场景,是经过多方面的讨论和认证的。基于这样的场景,是跟第三方的支付认证相关的,包括我们看到的腾讯的银行,第一张远程开卡,就是通过图像识别的技术,把人证合一进行认证,这样远程开户,远程开卡的功能,在我们的券商,在我们的网络银行上面,应该有广泛的应用。

对于安保行业来说,刷脸开门,现阶段,图像识别的应用应该说达到了一个可具备商业化的水平,我们举个例子,在去年的时候,香港有一个导演叫许鞍华,他在南京地铁中丢了一个他的皮包,这个案件的破获,只花了5个小时。视频监控里面获取了一张照片截图,截到了嫌疑人的照片,是极其模糊的,侧脸的照片,如果肉眼比对,发现不了什么。但是有一家非上市公司,在这里不能提供他的公司名称,他们通过一个图像还原技术,把那个照片还原出可能嫌疑人的样子,清晰照,用这个照片到图库当中比对,锁定嫌疑人的身份,把嫌疑人抓获,只需要了5个小时的时间。现在安防领域的监控,我们可以看到各个省市以及地级市,都在上大量的视频监控,图像识别的大平台。在整个安防的投入当中,上一代的安防只是静态的记录下来数据,但是下一代的安防,是对实时数据的采集、辨认,就是一个核心的技术,这个技术,图像识别在其中发挥的作用是很大的。

我 们再拓展一下,未来的商业用途,到底有没有第二代图像识别技术的潜在的应用的场景呢。我们说在未来,应该说原来整个确定身份的身份证,但是证和人的比对需要人工来完成。如果我们直接界定,达到了这样的一个标准,实际上每个人所对应的唯一的ID就是脸部的生物特征。这个识别了以后,所有的地方都可以用刷脸的方式,所有的地方都可以用刷脸去开门,用刷脸去做各种各样的事情。你刷脸的数据,包括你去坐火车、坐飞机、去哪儿吃饭、购物、收快递等等,这些数据都会掌握到图像识别中,刷脸的数据将取代现在线上的点击量.

现在信用卡、银行卡消费的数据,其实有助于知道用户消费习惯和消费数据,做大数据的营销和征信,但是刷脸时代来临之后,这个的价值更大了。有很多张卡,但是只有一张脸,这是唯一的。刷脸数据是2.0时代当中,我们重点看到的。

为什么在这个时间段,图像识别的技术会大范围的爆发出来,大范围的应用起来,成熟度到底怎么样呢?我们首先要界定一下图像识别技术要达到产品化的应用,是两阶段的过程。第一阶段,需要获取大量的样本数据,这些数据是用于训练的,训练的是学习算法,这个是深度学习算法,把这些数据和相互人之间的关系提取出来,进行一个特别的比对。耦合度高,超过一定的水平之后,我们会认定这两个人是一个人,但是这个模型是需要投入大量的成本,这个成本包括优化的成本,包括数据训练的成本,包括运算的成本,我们当时图像识别的一个业内的公司,这家公司的创始人,曾经说,图像识别的技术意味着什么呢?太上老君的炼丹炉,有了这个炉之后,大数据是炉子炼的原料,解决计算能力资源的稀缺。因此这些合在一起,形成了现在图像识别大爆发的时代,就是我们说的技术上的突破。

但是在产业上面的应用来看,目前我们可以看到,美国和以色列的图像识别,特别是动态识别的水平是国际领先的。全网的实时监控当中,FBI在去年推出了他们的下一代的电子识别系统,总的投入是超过10亿美金的。在美国将来无论是在什么地方犯了事,监控锁定犯罪嫌疑人,进行全网追捕。

国内是什么水平呢?顶尖的学术水平,就代表着国内产业发展的阶段。目前主要是三种力量,一个是清华大学的苏光大教授,他是中国的图像识别之父。第二个是中科院的自动化所的李教授,他早年在微软的亚洲研究院当中获得了非常高的成就,后来到了中科院的自动化所,专攻图像识别。在奥运会当中,以及后来很多的图像识别的应用当中,提供了比较好的技术。第三支就是香港中文大学的汤晓鸥教授的团队,每年会进行学术界的比赛,他是高记录的保持者。目前的识别率是超过了人类的脸部识别的总体水平,汤教授帮助讯飞在语音识别领域之后,在图像识别的领域当中,建立了自己的行业地位。所以国内基本上目前是这样的发展阶段,我们去推导下面的阶段,我们怎么去甄别图像识别的技术,到底哪一家靠谱,哪一家不靠谱,我们可以提出一些关键的甄别的关键点。这些点在哪里呢?

第一,我们要区分的,动态和静态配合式的识别还是非配合式的识别。配合式的就是像蚂蚁金服那样的,需要数据的比对方进行配合,可以很好的去采集正脸的二维的数据。另外,就是非配合式的,非配合式的没有办法对排除方的配合,是需要随机采集的图片进行比对,这个识别的效果会差一些,但是识别的时效性会很高。

这两种模式当中,我们关注三点。

第一点,你的人脸建模当中到底提取了多少个特征点进行比对,这个跟我们人脸上面的一些特征是关键节点,每个人的差异很大,而你选取的特征点的数据越多,比对的准确率就会越高。我们也采访了一些专家,他们目前能够做到的特征点的比对,应该是在700个点以上。目前大部分做刷脸的门禁这样系统产品的公司,特征点的选取大概是在50个左右。所以我们去做调研和交流,可以问一下整个公司图像识别建模当中特征点的数量。


第二点,图像识别数据库的数据样本和大小,这是一个非常重要的指标。样本及大小,是我们可供的数据集,这些必须要对人脸,比如说一个人有500张照片,拍的都是他的脸,不同的角度和位置、光线,把这些数据进行合理的清洗,供机器去训练包括比对和识别之后,可以告诉你是识别对了还是识别错了,这样的样本数非常重要,有助于训练,提高模型的准确率。因此可标签的数据样本集的大小,这个大小目前至少是百万以上的级别,才会使得现在识别率能够提升到世界领先的水平,这个也是可以甄别的关键点之一。

第三点,是不是你的商业模式能够对你的整个的数据的获取,我们说人脸数据的比对,形成一个正循环的模式。实际上数据来源,人脸的样本来源,是来源于两个非常重要的渠道,美图秀秀和美颜照相机,这是一个商业的互换,这个数据,因为考虑到做一个脱敏的处理,剩下的只有几百个关键的特征点的数据,其他的都被略去,用脱敏的技术之后,形成了从获取数据到训练模型,再到优化模型,持续的反馈结果,获取新的数据,这样的一个正循环的过程。有了这个以后,你的模型的数据就会获取的很好了,这是商业模式上非常重要的一个指标。

如果有了这三个指标之后,应当说同时具备了这三个,可能是在图像识别领域当中有非常大的领先优势,或者是未来发展潜力的东西。同时我们在直观的性能方面去分析,直观的到底识别的表现上有两个非常重要的指标,一个是识别的准确率,我们界定了刚才说的学术界当中,每年一比的图像识别大赛,现在基本上测试水平都在95%以上,但是是人和图片之间相互比对,说明是这个人,这算一个,再比对一个,又对了,算第二个。所有的人和照片都是匹配好的,最后正确率在99.2%左右,这是我们说的目前的正常的比对方法。

还有一个非常重要的方法,我们看到商业银行和淘宝在内的一些图像识别的技术,会提出一个错误率的问题,这个数据,目前来看可以做到十万分之一的错误率,别人拿着我的身份证去比对,如果机器能够区分出来,是不通过,这是对的。如果机器把我的身份证给别人的时候也通过了,这可能就是一个错误的,错误率要在十万分之一左右才可以,目前能达到这样错误率的公司是屈指可数的,这是一个识别准确率的问题.

另外还是在多大样本中可以实现这样的准确率,这个是至关重要的。一个公司里面也就是两三百个人,在这些人当中,挑选出来通过,没有什么难度。但是在公安部的大平台当中,省级的平台当中,都是上亿人的身份证照片中,要准确的挑出来十个或者是一百个候选人,这个范围缩小到这个概率当中,你的准确率能有多大,这是一个很重要的指标。

第二点,识别的速度问题。同样还是刚才我们说到的样本集的大小决定了识别的速度。本身你在可供比对的样本中,没有很大的数据,比如说是成千上万的,识别的数大家都是差不多,都是在1秒之内作出反映,但是如果在一个上亿的大的样本当中,去把照片准确的识别出来,这样对时间的要求,对效率反映的要求就提高了。所以识别速度是一个很重要的指标。

以上我们说了五个指标,我们说这个确实是可以对公司的具体能力和技术进行综合判断的。

基于以上我们说的这些,关注的公司是有识别技术的公司,这个识别技术是图像识别的技术。我们前面讲了,本身国内发言的几支学术界的力量大家非常清楚,来源于哪一支,背靠着哪一支强大的学术团队,研究团队的力量,使得这家公司是一个很好的位置。比如说我们前面讲到的科大讯飞,在汤晓鸥教授的支持下,他们的团队是学术界第一的力量在支持他们,这是一个资源性的优势。比如说川大智胜,这个和李教授他们有密切的合作,同时他们自己在图象识别领域当中,也有自己独特的技术,承担着国家大量的科研基金的项目,同时我们也特别强调一个就是川大智胜的图像识别技术,是目前我们看到的人机交互,因为这个和二维的平面识别有很大的区别,优势非常明显,因为采集到了五官之间立体曲面之间的结合,所以采集到的数据量更丰富。可供比对的特征也是更多的,我们之前在视频当中找到拍到的侧脸,不清晰的照片,很难去识别出来犯罪嫌疑人到底是谁,是因为我们二代身份证库当中,本身就是只有正脸的可供比对的数据。三代或者是四代身份证采集数据的过程当中生物特征肯定要被提取出来,首先是指纹,三维的图像识别会更快,三代四代可能就会被提取。

一旦需要被提取到三维的人脸的数据,那么这个时候川大智胜作为国内目前唯一一家有产品和技术的公司,面临的是广阔的市场。但是我们同时也要看到,三维图像识别虽然有非常惊人的优势,同时劣势也是非常明显的,特征点的选取,包括侧脸的选取,是有难度的。同时表情的因素,其实对于数据处理的影响,没有在立体表情的因素那么好,提取的时候效率是偏低的,消耗的数据也非常大。所以现在来看,我们能够看到的应用场景目前还是小范围的,包括像美国对犯罪的有案底的犯人,我们国内目前在监狱当中也逐步的推广,将来全民都要采集,这肯定是一个非常巨大的市场。同时这家公司在图像识别公司当中,技术特点和现在持续的对三维图像识别加码,有一个项目是1.8个亿,要投入到研发当中,国家自然科学基金也已经持续的支持他们三维图像识别的学术研究的项目,已经支持了很多年。所以在这个领域,应该是到了开花结果的地步。所以这一点,我们特别提示大家要关注这个公司,在技术上确实是有稀缺性的。

科大讯飞,就是典型的我们刚才讲的商业模式,可以实现图像识别数据正循环的公司,是拥有互联网端的入口的。之前在语音的领域当中,讯飞语音云走的就是这样的模式,我获取的是你语音的数据,用你的数据持续的训练我后台的算法,使得他们提升和保持和其他竞争对手的领先优势。这样的话,数据端的循环,从语音的这个领域当中,复制到图像识别,就是图像识别当中。大家如果关注讯飞,大家可以看到,在上个星期的时候,推出了双重生物特征的识别的因素,双重是什么呢?两重加密以后,确实就是这个人,把出错的概率降到非常低的水平。同时识别,双重加密之后,这个身份验证的过程可以做到数量级上面的提升。

有了这样一种开放云的平台之后,讯飞的数据正规化的过程也在逐步的建立,他下一步会和非常多的第三方的应用方合作,包括可以刷脸开锁的智能硬件方面,包括和电话银行,电话客服,还有邮箱去实现他的数据入口的正循环的过程。我们核心的问题就是以上的这样的一些判断的标准来去甄别的。我认为讯飞实际上是非常有希望的图像识别的公司。我们在报告当中,也提到了讯飞是一个生态级的公司,不光是在图像识别的这个领域当中有比较强的资源优势和技术优势,以及商业模式的优势。同时在我们整个的人工智能领域当中,讯飞超脑可以不断的用它孵化,基于学习的模式,从语音迁移到现在的图像,下一步迁移到语义当中,不断的做技术的衍生,这样的生态链一旦形成的话,在人工智能产业的地位是不可动摇的。所以人工智能整个的产业,我们想推的是科大讯飞。

图像识别的领域当中,讯飞的优势也是非常明显的,同时我们也是看好川大智胜拥有的三维图像识别的技术。其他的品牌公司,我们可以看到欧比特收购的公司,在安防领域的图像识别当中,在监狱当中是超过50%的,在产品化方面也做的非常好。其他的两家,刚刚推出了自己的识别技术,现在了解的信息当中,还没有办法很好的甄别他们现在是否拥有满足我们以上的五个标准。在以后的调研和跟踪当中,我们会对他们的标准进行梳理和进一步的分解。这是对识别类公司的分析.

下一个阶段,我们觉得还有比较好的投资机会,除了第一类识别类的,第二类应该是数据资源类的,数据资源目前来看就是视频资源,有比较好的视频资源的公司,可以通过视频资源进行持续的深度学习的算法和优化,也许他自己没有这个技术和能力,但是可以通过技术合作的方式,找到研发团队或者是公司进行合作,共同开发优势。目前在视频资源当中的这些公司进行梳理的话,我觉得东方网力在这个当中步子迈的最前。目前产品端还是没有关于图像识别成型的产品推出来,但是他的应用是在于多年的视频数据的积累。这个是和后期有密不可分的关系。先收购了广州的安防领域的视频监控的智能化的公司,这个步子一迈出去,布局的意图非常的明显。摄象头公司会往视频的公司侵占,后面的公司将来可能会往存储的环节去挤压,有可能将来会把分析和存储在一个环节当中就完成了,这个时候面临的压力是比较大的,所以转型的动力也是最迫切的,意愿也是最强烈的。

三、发展趋势及展望

总体总结下来,现在图像识别技术大爆发,并不是偶然的,应该说很好的满足了我们讲的人工智能的三大条件。深度学习的算法,大数据和云计算,这三个条件成熟了以后,在拐点到来的时候,大规模的商业化应用是水到渠成的。下一个阶段,基于计算机视觉的应用,在视频监控领域当中,对人的行为模式的识别、跟踪和分析,这些都会成为一个非常大的市场,成熟度还有待于进一步的检验。但是这个市场我们已经都看得到了,所以现在我跟大家探讨图像识别的产业的发展机会,我觉得其实大家需要关注的不仅仅在于图像识别技术本身的发展,也不仅仅在于哪几家上市公司拥有哪几项技术,而是看到背后代表的是整个计算机视觉的兴起。

人工智能报告当中也提到过,计算机视觉的1.0版本,是对静态图像的识别,2.0版本,肯定是动态视频内容的理解和学习,包括像谷歌的无人驾驶汽车,包括报告里面提到过的以色列的那个公司,也是纳斯达克上市的,他们用计算机视觉的技术实现了汽车的辅助的无人驾驶。在这个领域当中,实际上计算机视觉可供开发的应用非常丰富的。现在还有一个法律的问题,就是允许不允许无人驾驶的汽车上路,合法不合法的问题,大家不用担心这个问题。因为这个公司IPO的时候,这个公司的CEO说过一句话,他说现在还在担心无人驾驶的汽车上路合法不合法,但是我可以肯定的告诉你,十年以后,人开车上路是不合法的,这肯定是一个大的方向和趋势。这就是我从人工智能的领域延伸出来的,图像识别只是一个点,更多的还有待于大家去一点一点的发掘。

四、参考文献

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。