面向视频的多模态摘要生成与交互系统文献综述

 2022-09-29 11:08:00

文献综述(或调研报告):

从视频中高效获取特定信息的一个有效途径是生成视频摘要。所谓视频摘要,是指以自动或半自动的方式,通过分析原始视频存在的时空冗余,从中提取有意义的片段或帧,进而实现对原始视频的高度概括。根据摘要的呈现形式,视频摘要一般分成静态视频摘要和动态视频摘要。

静态视频摘要是指从原始视频流中抽取一系列的静态语义单元来表示视频内容。目前的静态视频摘要的主要研究方向普遍是基于关键帧,因此核心就在于关键帧的选取,要尽可能地反映视频的主要信息。

经典的关键帧提取算法主要通过分析视频的底层视觉特性(包括颜色、纹理、运动等)来区分视频各帧之间的差异。例如,Wolf[1]通过分析每个图像帧的光流场强度来判断其运动强度,然后选取出运动强度较小的图像帧作为关键帧。这样做的依据是镜头的短暂停留本身反映了它的重要性,但是光流法的运算量很大,而且运动量小的帧并不一定不重要。Zhang[2]等人通过比较帧间的显著变化来选取关键帧,这样做计算简便,可以根据关键帧的数量需求来调整阈值,但是在镜头快速运动时,很容易选择过多的关键帧。Gresle[3]等人通过计算镜头活动性来选择局部最小值的帧作为关键帧。Zhuang[4]、Ferman[5]等人对镜头用聚类算法处理,然后再分别从每一类中选择有代表性的帧作为关键帧。

近些年,随着深度学习的快速兴起,在2010至2017的ILSVRC挑战赛上[16],诸如AlexNet[6]、VGGNet[7]、GoogleNet[8]、ResNet[9]等经典神经网络的涌现,已经让图像特征提取的发展达到了空前的高度。以此为基础,这些图像特征提取的网络被用来和适合于序列任务的循环神经网络RNN相结合,基于长短期记忆神经网络LSTM(一种特殊的RNN)实现关键帧提取的方法已经渐渐走上舞台,其中根据训练方式具体可以划分为监督学习和无监督学习。Zhang[10]等人采用监督学习,用GoogleNet提取视频每帧的信息,在LSTM网络上使用DPP结构(DPP-LSTM),保证选取的关键帧差异大。Mahasseni[11]等人则是采用一种对抗学习框架去训练DPP-LSTM,实现无监督学习。Zhou[12]等人同样是采用无监督学习,规定视频摘要为一个顺序决策过程,开发了一个深度摘要网络(DSN)来总结视频,并基于强化学习来训练它,取得了能和大多数监督方法一比高下的成果。整体来说,静态视频摘要仍然有着很大发展空间,人们所使用的技术也越来越成熟。

动态视频摘要相较于静态视频摘要,最主要的区别在于前者保留了视频的动态信息,通常以镜头、片段的方式来表示,常用的形式有视频缩略、精彩片段等等。值得一提的是,Rav-Acha[13]等人于2006年提出了视频浓缩的概念。视频浓缩属于动态视频摘要,但和其他视频摘要有一个本质区别:它打破了以帧为基本单位的固有想法,通常来说是基于对象。视频浓缩的主要流程为:首先进行背景建模与运动目标检测[14], [15], [17], [18],然后提取各个目标的运动轨迹[19], [20], [21],对轨迹进行组合优化,将时序改变后的前景与建立的背景模型无缝融合[22],得到最终的摘要视频。虽然视频浓缩在去除时空冗余层面基本做到了极致,但它也有很多缺点,譬如只适合拍摄角度不变的视频,实现过程比较复杂,像素级别的处理存在很多瑕疵,而且不可逆地破坏了目标之间的隐性相关关系及活动间的时序性。这些缺点都或多或少限制了视频浓缩的推广。

视频摘要的本质是将视频主要信息根据需求呈现给用户,因此最终还是要服务于用户与视频的交互。传统的视频交互手段比较单一,主要是通过拖拽视频的进度条和快进、快退来实现视频定位。这样的交互比较盲目,既很难定位到自己想要的位置,又很容易遗失重要信息。Dragicevic[23]等人对界面交互的直接性做了分析,认为衡量用户界面控制的直接程度主要基于这几个因素:用户动作和系统响应的时空距离、不相似程度和自由度差异等。因此他们提出了一种直接拖拽视频目标的视频交互手段,能够更好地观测视频中的运动目标。Goldman[24]等人综合考虑了更多视频交互的辅助性手段,比如引入视频注释,包括描述性标签、说明性草图、表示对话或想法的气泡框、表示动作的路径箭头、超链接区域等。Barnes[25]等人结合视频摘要,将视频的关键帧以长矩形条的形式展示,并允许用户通过关键帧实现视频定位,还可以根据用户需求实现视频片段里关键帧的密度缩放。Liu[26]等人首次提出将视频摘要以螺旋的形式呈现,在兼顾自然与美观的视觉效果的同时,更充分地利用了空间。螺旋形摘要同样也支持关键帧定位视频、关键帧密度控制,还引入了饼状图、热度图等形式来呈现视频的语义理解。总体来说,视频交互的范围很广且没有标准答案,将其与视频摘要有机结合,并尽可能地引入多样化的交互手段,是目前主要的研究方向。

  1. W. Wolf. Key Frame Selection by Motion Analysis[C]. In: Proc. IEEE Int.Conf. Acoust, Speech and Signal Proc. 1996.
  2. Hong Jiang Zhang, Jianhua Wu, Di Zhong, and Stephen W. Smoliar. An Integrated System for Contentbased Video Retrieval and Browsing[J]. Pattern Recognition,1997,30(4): 643.
  3. Gresle P O, and Huang T S. Gisting of Video Documents: A Key Frames Selection Algorithm Using Relative Activity Measure [C]. In: The 2nd Int. Conf.on Visual Information Systems,1997.
  4. Yueting Zhuang, Yong Rui, T.S. Huang, and S. Mehrotra. Adaptive Key Frame Extraction Using Unsupervised Clustering [C]. Proc. of IEEE Int. Conf. on Image Processing, 1998.
  5. Ahmet M. Ferman, and A. Murat Tekalp. Multiscale Content Extraction and Representation for Video Indexing [J]. Multimedia Storage and Archival Systems (Dallas, TX), 1997-11.
  6. Alex Krizhevsky, I Sutskever, and G Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 1106–1114, 2012.
  7. K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
  8. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.
  9. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In CVPR, 2016.
  10. Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In ECCV, pages 766–782. Springer, 2016.
  11. Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In CVPR, 2017.
  12. Kaiyang Zhou, Yu Qiao, Tao Xiang. Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward[J]. 2017.
  13. A. Rav-Acha, Y. Pritch and S. Peleg. “Making a long video short: Dynamic video synopsis”. In: Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 2006: 435–441.
  14. Jain R, Nagel H H. On the analysis of accumulative difference pictures from image sequences of real world scenes.[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 1979, 1(2):206-214.
  15. Gloyer B, Aghajan H K, Siu K Y, et al. Video-based freeway-monitoring system using recursive vehicle tracking[J]. Proc Spie, 1995, 2421:173-180.
  16. Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
  17. Olivier B, Marc V. ViBe: a universal background subtraction algorithm for video sequences.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2011, 20(6):1709-1724.
  18. S. Brutzer, B. Hferlin, and G. Heidemann. Evaluation of background subtraction techniques for video surveillance. In Proc. IEEE Conf. Computer Vision Pattern Recognition, pages 1937–1944, 2011. 3
  19. B. Coifman, D. Beymer, P. McLauchlan, J. Malik A real-time computer vision system for vehicle tracking and traffic surveillance Transportation Research Part C, 6 (1998), pp. 271-288.
  20. Aphrodite Galata, Neil Johnson, and David Hogg. Learning variable length markov models of behaviour. Computer Vision and Image Understanding (CVIU) Journal 81, March 2001, 398–413.
  21. Michael Kass, Andrew Witkin, and Demetri Terzopoulos. Snakes: Active contour models.International Journal of Computer Vision, 1988, 1:321– 331.
  22. Peacute;rez Patrick, Gangnet Michel, Blake Andrew. Poisson image editing. SIGGRAPH (2003).
  23. Pierre Dragicevic, Gonzalo Ramos, Jacobo Bibliowicz, Derek Nowrouzezahrai, Ravin Balakrishnan, and Karan Singh. Video browsing by direct manipulation. In CHI, pages 237–246, 2008.
  24. Dan B. Goldman, Chris Gonterman, Brian Curless, David Salesin, and Steven M. Seitz. Video object annotation, navigation, and composition. In UIST, pages 3-12, 2008. 5.
  25. C. Barnes, D. B. Goldman, E. Shechtman, and A. Finkelstein, “Video tapestries with continuous temporal zoom,” in ACM SIGGRAPH rsquo;10, 2010, pp. 89:1–89:9.
  26. Liu Y J, Ma C, Zhao G, et al. An Interactive SpiralTape Video Summarization[J]. IEEE TRANSACTIONS ON MULTIMEDIA, 2016, 18(7):1269-1282.

资料编号:[194440]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。