基于深度学习的视频描述生成文献综述

 2022-09-27 02:09

文献综述(或调研报告):

视频描述生成早先的解决方法将问题分为两个阶段,第一个阶段是从视频中提取出语义内容,如主语、动词、宾语等,然后再根据概率模型和某种固定的模式生成完整的句子。虽然这种方法将视频描述生成问题简化为两个步骤:语义内容提取和语句生成,但是该方法中语句的生成是按照某种固定的模式,这种方式无法满足人类语言的丰富性,只能生成一些结构简单的句子。

2015年Venugopalan先后提出了两种端到端的神经网络模型,开启了视频描述生成领域的深度学习时代。近年来视频描述生成领域的深度学习模型大部分基于编码器-解码器的结构,将端到端神经网络的设计分为两个部分:编码器负责对视频数据提取图像特征和时序特征,解码器负责将编码器提取的视频特征转化为视频描述语句。近年来视频描述生成领域的论文主要的研究对象是编码器和解码器的设计,其次还有对训练方法、损失函数的研究,还有些论文将音频数据也作为编码器的输入。

对于编码器的设计来说,最早的模型采用卷积神经网络(CNN)来提取视频特征,其中最典型的的模型是Mean Pooling模型[6],也被称为LSTM-YT模型,YT指的是该模型基于YouTube数据进行训练。LSTM-YT模型是视频描述领域最早的端到端神经网络模型。该模型使用多个CNN对每个视频帧分别提取图像特征(对于每帧最终提取一个4096维的图像特征),并对CNN提取到的不同帧的相同位置的图像特征进行Mean Pooling操作,得到单个4096维的图像特征,并输入给RNN第一层的每一个LSTM单元,RNN第二层的LSTM输出生成的语句。该模型直接将不同视频帧的同一位置的图像特征进行求平均值操作并输入LSTM单元,完全忽略了视频帧的时序信息,因此模型难以提取到视频帧的时序结构。还有一类卷积神经网络模型,称为3D CNN模型,该结构不仅能够提取视频中的图像特征,还能够提取视频中的时序特征。3D CNN与普通的CNN的区别在于,普通CNN对视频数据进行卷积操作时,卷积核会对所有帧的图像进行卷积操作并求和,因此得到的卷积结果是二维的;与之不同的是,3D CNN对相邻几帧的图像进行卷积操作并求和,因此得到的卷积结果是三维的,多了时间维度。因此,3D CNN能够提取到视频中的时序特征。

另一类编码器采用RNN作为主体结构,最典型的模型是S2VT[1]。S2VT使用两层RNN,第一层输入视频的图像帧数据,第二层输出相应的视频描述语句。同时,S2VT使用了LSTM单元、Encoder-Decoder结构和词嵌入技术。RNN第一层的图像帧数据由CNN(预训练的AlexNet和VGG)提取特征后输入,包括RGB图像数据和光流(Optical Flow)数据。

还有一些比较复杂的编码器结构,典型的有HRNE[15],GRU-RCN[22]和SibNet[21]模型。HRNE[15]参考将卷积核作为滤波器的方法,将LSTM作为滤波器,在CNN提取的图像特征之上提取时序特征。使用GoogLeNet和C3D共同提取图像特征,将图像特征分段后输入两层LSTM,第1层LSTM提取每一段图像特征的时序特征:对于每一段图像特征,对LSTM的输出结果求平均值,得到代表该段的时序特征;第2层LSTM在第1层LSTM输出的时序特征的基础上进一步提取时序特征,将第2层LSTM的输出结果求平均,得到的特征代表分段图像特征的段与段之间的依赖关系。RCN是Recurrent Convolutional Networks,顾名思义,是将RNN和CNN结合在一起的一种新型的网络结构。GRU-RCN[22]是使用了GRU(Gated Recurrent Unit)的RNN和CNN结合在一起的RCN,能够同时提取视频的空间和时序特征(Spatio-Temporal Features)。GRU-RCN模型中使用的GRU经过了修改,使用了较稀疏的连接,充分利用了视频帧之间变化较小的特点,大大减少了模型的参数量。GRU-RCN将卷积神经网络每一层的特征量输入一层RNN,L层卷积神经网络对应L层RNN,RNN的time step数与视频帧数相同,不同帧的图像输入CNN后得到的图像特征输入RNN不同time step的GRU。不同层的RNN之间若有连接,则模型升级为Stacked GRU-RCN。SibNet[21]是Sibling Network的缩写。顾名思义,SibNet的Encoder由两部分组成:Content Branch和Visual-Semantic Branch。Content Branch负责encode视觉内容信息,得到特征矩阵;Visual-Semantic Branch负责encode视频的语义信息,得到特征矩阵。

解码器部分大多采用一层RNN,基于编码器的改进主要分为两个方面。一个方面是引入注意力机制,另一个方面是引入Attributes信息。Soft Attention方法[7]第一次将注意力机制引入了视频描述生成领域。H-RNN[14]中的Attention Mechanism同时考虑了时序和空间上的attention,这能在视频数据中存在小目标以及难以定位的目标时,提升模型的效果。

将attributes信息引入解码器的模型有LSTM-TSA[17]和HMM[20]。LSTM-TSA模型利用视频中的Attributes作为辅助信息提升Video Captioning的效果,而Attributes是比Video Captioning更容易获得的信息,可通过MIL模型(在[17]中获取参考论文)获得。LSTM-TSA模型的核心是Transfer Unit,该单元将视频帧图像中出现的Attributes(静态)和视频的Attributes(动态)通过MIL(Multiple Instance Learning)提取后的特征Ai和Av作为输入,同时输入当前单词Wt以及上一个time step的隐藏状态ht-1。Transfer Unit的输出是g(Ai,Av),是一个关于Ai,Av,Wt,ht-1四个变量的复杂函数值,详见论文。HMM全称Hierarchical Memory Model。HMM将Memory Networks和Neural Turing Machines应用于Video Captioning。简单来说,HMM的目的是将Attributes引入LSTM-RNN Decoder,类似LSTM-TSA,利用Attributes提升模型效果。与LSTM-TSA设计出Transfer Unit将Attributes引入LSTM不同,HMM借鉴Memory Networks和Neural Turing Machines的思想,设计了三个Memories: Textual Memory, Visual Memory, Attribute Memory,用于分别储存Decoder的隐藏状态,Attended Video Representation和Semantic Attributes。HMM将Decoder的LSTM的输入多加了Attributes这一项,并通过上述三个Memories控制Attributes的分布。HMM使用2D/3D CNN提取视频的空间时序特征,在每一个time step,HMM将提取到的视频特征与Textual Memory中读取的信息通过计算得到Attended Video Representation。HMM将Attended Video Representation写入Visual Memory后,将Textual Memory和Visual Memory存储的信息通过一个gate得到控制Attributes分布的变量st。HMM将st和视频中提取的Attributes(通过MIL(Multiple Instance Learning)从视频中提取)通过计算得到最终的Attributes,并将该Attributes与上一time step的隐藏状态ht-1、LSTM的存储状态量ct-1和上一time step网络的预测单词yt-1共同作为LSTM的输入,输出当前time step的隐藏状态ht

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。