基于标记嵌入的跨模态信息检索方法文献综述

 2022-11-29 04:11

随着多媒体数据的爆炸式增长,对大规模数据集进行高效、准确的相似性搜索已成为一个具有挑战性的问题[1]。多媒体大数据的出现引发了基于内容的图像检索技术在研究领域的兴起[2]。哈希法是一种近邻搜索方法,在大规模图像检索中得到了广泛的应用[3]。

为了便于跨模态检索,近年来提出了许多多模态哈希方法。一般来说,哈希的目的是将高维数据编码为紧凑的二进制代码,同时保留原始空间中的相似数据[4]。使用二进制散列码表示,可以显著降低数据点的存储成本。此外,基于散列的搜索能够实现恒定的或次线性的时间复杂度。因此,哈希由于其低存储成本和快速的查询速度而成为大规模数据集中高效搜索的一种很有前途的选择[5]。

哈希可以粗略地分为两类:有监督哈希和无监督哈希[6]。无监督哈希试图集成数据属性,以维护训练数据之间的测量结构,如数据分布和流形结构。但是,在没有指导的情况下,它们往往无法达到令人满意的检索性能[7],这些方法不能利用语义标签等超监督信息来进一步提高搜索精度。考虑到标签信息,有监督的哈希方法试图通过保存每对样本之间的相似性来将原始数据映射到压缩空间[8],表现出比无监督的多模态散列方法更高的精度。因此,近年来,有监督的多模哈希算法受到了越来越多的关注。

标签一致矩阵分解哈希(LCMFH)作为一种新的有监督的多模哈希方法,直接使用语义标签指导散列学习过程。它首先将异构数据矩阵联合分解为最新的语义空间,使统一表示成为以标签为系数的语义特征的线性组合。接下来,通过量化未确定的表示来产生散列码。此外,该方法还学习了样本外扩张的线性投影矩阵。因此,在搜索阶段,可以直接利用线性投影生成二进制散列码。实验结果表明,该方法在检测精度和可扩展性方面均优于目前最先进的超监督多模态哈希算法[1]。

近年来,深度神经网络在图像分类、分割、目标检测、图像检索等多种视觉和多媒体任务中表现出良好的性能。深度神经网络能够自动学习强大的高层表示,能够很好地捕捉输入数据的语义结构。因此,提出了同时学习特征表示和哈希函数的深度跨模态哈希(deep cross-modal hashing, DCMH)方法。与手工哈希方法相比,这些深度哈希方法结合了特征表示学习和哈希函数学习,从而能够有效地对特征表示进行哈希函数学习优化。然而,这些深度哈希方法仍然使用二进制量化函数来生成哈希代码,这使得它们对数值的变化非常敏感[9]。在现有的深度散列框架中,两个不同样本配对样本的哈希码被强制设置为相同的。一般来说,他们首先通过对不同模态的深层神经网络分别学习特征表示,然后最小化不同模态特征之间的损失,建立模态关系。这些深度跨模态方法的不足之处在于,仅仅对具有多模态的神经网络的最后一层施加约束,是无法充分刻画多模态数据之间的复杂关系的[10]。

深度学习被应用于图像特征的自动提取,特征的深度学习被用于图像检索中的监督哈希[11]。基于深度卷积神经网络(CNN)的散列方法,将相似性指标矩阵分解为样本的散列码,并利用得到的散列码对CNN进行训练。然而,随着图像数目的增加,矩阵分解的计算时间急剧增加。深度成对监督哈希算法,利用图像对训练由两个CNN组成的神经网络。然而,在训练过程中并没有对哈希码施加二进制约束。这会影响生成的哈希代码的质量。

早期的散列方法使用手工制作的全局特征[12]。卷积神经网络(CNNs)与传统的SIFT等特征相比较,能够得到图像的内在特征,在目标检测中表现出良好的性能,是一种人工神经网络。由于它的IW共享结构和生物神经网络更相似,所以可以减少WITs的数量,从而可以减少网络模型的复杂度[13]。它已成为深度学习领域的一个研究热点。然而,卷积神经网络生成的图像维数较高,存在维数灾难。当使用传统的近邻搜索方法对较大的图像数据进行检索时,检索速度会急剧下降,这很难应用到大尺度数据中,以实现对大尺度高维图像数据的有效检索,研究人员提出了近似最近邻(ANN)。

学习用于图像检索的好的散列函数应该满足两个原则:1)精度目标,是获得以平均平均精度(MAP)或其他度量标准衡量的良好性能;2)效率目标,是减少在学习的二进制空间中搜索所需的时间[14]。基于深度网络的哈希,其成功主要来自于从深度网络架构中学习到的强大的图像表示。这些方法可以同时学习图像的表示和二进制哈希码,并且具有较高的性能。例如,以逐点方式学习哈希码和图像表示的方法;深度双监督哈希(DPSH)来同时进行哈希码学习和特征学习;基于深度语义排序的学习哈希函数的方法,该方法对多标签图像保留了多级语义相似性。此外,还有用于三监督哈希的快速深度网络,基于深度草图哈希法(deep sketchhashing, DSH)用于手绘草图的图像检索等。使用线性扫描来寻找邻居仍然很耗时,特别是在大型数据集(例如,数百万或数十亿的图像)之前。

深度学习革命显示了卷积神经网络(CNN)的不可预测的特征表示能力,这在许多视觉任务中得到了证明,如图像分类等。这些成果都归功于CNN的能力。哈希技术也得益于CNN的改进,可以获得具有图像语义特征的高质量二进制码。近年来,人们提出了几种基于CNN的hashing方法,如CNNH、DNNH等,证明了基于CNN的哈希所获得的二进制码具有令人满意的性能。随着有线电视新闻网的发展,有必要研究新的算法来学习更有效的低比特二进制码,充分利用有监督的信息来获取更具代表性的特征[15]。

[1]Di Wang, Xinbo Gao, Xiumei Wang, Lihuo He. Label Consistent Matrix Factorization Hashing for Large-Scale Cross-Modal Similarity Search. IEEE TPAMI, 2018.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。