基于深度学习的图像语义分析系统文献综述

 2022-08-12 11:08

一、文献综述

(一)国内外研究现状

1.国外研究现状

国外的OCR[9]技术应用相对成熟。包括IBM、Motorola、HP和Microsoft等世界型大公司都陆续展开了这方面的研究[3]。在他们的产品中绑定OCR技术。光符识别设备把报纸、杂志和其它印刷材料上的印刷字符读取到计算机内存。OCR软件可以和任何流行的操作系统一起使用。除了识别印刷字符之外,OCR 也可能识别栏目布局。这种布局会在报纸中出现。例如:微软公司最新推出的办公套件——Microsoft Office XP中,不仅加强了原有对手写输入的支持,还新增加了光学字符识别(OCR)的工具组件。字符识别产品的广泛应用推动了模式识别等相关理论的发展,促进了计算机应用的普及。 2008年,Google 也宣布它将开始在网络蜘蛛中使用OCR技术,这样就可以识别许多非格式化文本和图像并将其索引至数据库。

2.国内研究现状[5]

中科院自动化所刘成林研究员、华中科技大学白翔教授、北京科技大学殷绪成教授、华南理工大学金连文教授、中国科学院大学叶齐祥教授以及中科院深圳先进技术研究院乔宇研究员、黄伟林博士等在历届 ICDAR 自然场景文本检测竞赛中获得了令人瞩目的成绩。特别是, 华中科技大学白翔教授受邀作为 ICDAR 自举办 26 年来以来第一位来自中国的主讲嘉宾在日本京都举办的 ICDAR2017上作大会特邀报告, 展现了中国学者在此领域的影响力。一些国内研究机构, 比如中科院自动化所、北京大学、清华大学、 华中科技大学、北京科技大学、三星中国研究院、 腾讯、百度、旷视科技等, 在 ICDAR 组织的一系列活动中表现活跃。2011 年, 由清华大学与中科院自动化所合办的第十一届文档分析与识别国际会议 (ICDAR 2011) 在北京举办 (ICDAR 首次在国内举办), 清华大学丁晓青教授担任了大会主席。 2017 年, 由华中科技大学白翔教授等组织了 ICDAR 2017 自然场景中的中文文本识别竞赛 (RCTW-17), 共有来自高校、企业的17 支队伍参赛了 RCTW-17 竞赛。2017 年, 中科院自动化所刘成林研究员领导的模式分析与学习团队 (PAL 团队) 与法国拉罗切尔大学、三星中国研究院等单位合作举办了多语言场景文本检测与语种判别的竞赛, 发布了包括 9 种语言, 18000 幅图像的多语言场景文本数据库。国内研究团队在包括 TPAMI、TIP、PR、 CVPR 等各类主流国际期刊、会议的投稿数量逐年增加, 在本次 ICDAR 2017 会议中来自国内学者的投稿论文数高居第一。此外, 国内研究团队在该领域各项竞赛中也取得了瞩目的成绩,在 第 14 届国际文档分析与识别会议 (ICDAR 2017) 所组织的各项技术竞赛中, 中科院自动化所刘成林研究员领导的 PAL 团队在页面目标检测、中世纪文档版面分析、视频阿拉伯文本检测与识别、中文场景文本阅读等竞赛中获得了 8 项任务的第一名、2 项任务的第二名的突出成绩。华南理工大学金连文教授带领的团队, 通过构建高性能的基于深度学习的文本检测与识别系统[2], 在场景文本检测, 端到端场景文本检测及识别[1]两项任务中取得第一名的好成绩,在语种分类任务中以 0.4 % 的微弱差距位居第二名. 北京科技大学殷绪成教授团队再次 (连续三届) 荣获鲁棒阅读竞赛冠军。

尽管国内学者在自然场景文本检测领域取得了一些令人瞩目的成果, 在本领域重要的外文期刊上也发表了英文综述性论文, 然而我们以自然场景文本检测为关键词在国内中文期刊数据库中进行检索时却遗憾地发现, 除了出现个别手写文本识别的综述外, 关于自然场景文本检测的中文综述几近空白。据我们所知, 最近的英文综述发表至今已逾两年, 然而在这两年以来, 一些新的测试数据库与一些新的检测结果的推出, 以及一些新型深度学习方法在自然场景文本检测领域的应用都极大地推动了相关技术的发展。此外, 计算机视觉领域中的一些新的研究成果, 比如目标显著性检测、视觉上下文等, 也被引入到自然场景文本检测领域, 进一步提升了文本检测性能[15]。基于上述情况, 有必要对自然场景文本检测领域的相关研究工作进行全面综述和讨论。本文系统综述了自然场景文本检测技术的研究进展和目前面临的挑战与困难, 以期为研究人员进一步深入研究自然场景文本检测以及拓展其应用领域提供帮助, 并期待能够启发更多的创新性工作。

(二)研究主要成果

1. 基于区域建议的自然场景文本检测方法

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。