基于TensorFlow的图像注解生成实现文献综述

 2022-10-27 10:10
  1. 文献综述:
  2. 机器学习

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。

机器学习主要可以分为监督学习和无监督学习,监督学习的训练集是由人标注的。无监督学习的训练集没有人为标注的结果。半监督学习介于监督学习与无监督学习之间。

  1. 卷积神经网络CNN

卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络包含卷积层,线性整流层,池化层,损失函数层。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。

  1. 递归神经网络RNN

时间递归神经网络可以描述动态时间行为,因为和前馈神经网络接受较特定结构的输入不同。单纯递归神经网络因为无法处理随着递归,权重指数级爆炸或消失的问题,难以捕捉长期时间关联,所以结合LSTM网络能解决这个问题。RNN将状态在自身网络中循环传递,因此可以接受更广泛的时间序列结构输入。递归神经网络通常包含编码器和解码器。编码器将输入序列编码为一个固定长度的隐藏状态,解码器用于将编码后的信息解码为人类可识别的信息。此外,用两个复发神经网络双向读取一个序列可以使人工智能获得“注意力”。

  1. LSTM网络

长短期记忆网络是 RNN 中一个特殊的类型。由Hochreiter amp; Schmidhuber (1997)提出,之后也得到了很多人们的改进调整。 LSTM主要是为了避免长时期依赖的问题。它们的本质就是能够记住很长时期内的信息,而且非常轻松就能做到。所有循环神经网络结构都是由完全相同结构的模块进行复制而成的。

  1. TensorFlow

TensorFlow是一个采用数据流图,用于数值计算的开源软件库。节点表示数学操作,线则表示在节点间相互联系的多维数据数组,即张量。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU或GPU,服务器,移动设备等等。TensorFlow 最初由Google大脑小组的研究员和工程师们开发出来,用于机器学习和深度神经网络方面的研究,但这个系统的通用性使其也可广泛用于其他计算领域。

  1. 自然语言处理NLP

自然语言处理是人工智慧和语言学领域的分支学科。自然语言生成系统把计算机数据转化为自然语言。本文主要用到的是word2vec、sequence to sequence的方法。Word2vec是一组用于生成文字嵌入的相关模型。Word2vec将输入的大量文本作为输入,并生成一个向量空间,通常为几百个维度,每个唯一的单词在语料库中被分配一个相应的空间向量。字向量位于向量空间中,使得共享语料库中公共上下文的单词在空间中彼此靠近。Seq2Seq模型中可分成编码器和译码器两部分,它们通常是两个不同的神经网络。优点有:(1)编码LSTM来将输入映射为固定长度的词向量,然后输入到解码 LSTM去训练。(2)用了更深、更复杂的LSTM。(3)采用了反序输入的方法,效果显著。

Reference:

[1] 周志华. 机器学习[M]. 清华大学出版社, 2016.

[2] 杨阳,张文生.基于深度学习的图像自动标注算法[J].数据采集与处理,2015,30(1):88-98.DOI:10.16337/j.1004-9037.2015.01.008.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。