基于对比学习的视频拆条方法研究与应用文献综述

 2023-05-27 20:32:54

文献综述

一、背景随着视频数据的持续增长,视频信息的可用性和数量显著增加,高效的视频检索与分析变得越来越重要。

结构化分析是一种有效的方法,可以使数据更容易被访问。

与文本分析中,对单词、句子、段落的细粒度进行分析类似,视频数据也可以在帧(frame),镜头(shot)和场景(scene)级别进行分析。

视频拆条任务所研究的就是将一个视频,根据其语义,拆分成各个场景的过程。

一般来说,镜头(shot)是由一台相机在一段时间内连续拍摄的,在视觉上是连续的;而场景(scene)是更高级的语义单位。

场景由一系列镜头组成,以呈现视频中语义连贯的部分。

如图1所示,当我们仅看图(a)中的单个镜头时(如镜头B),我们不能推断出当前视频正在讲述什么;只有我们看到场景中的所有镜头,如图(b)所示,我们才能意识到这个女人在舞会上邀请一对夫妇跳舞。

现有的技术可以根据简单的视觉特征轻易地将视频划分为镜头,但是识别构成场景的镜头序列十分具有挑战性,因为它需要更高层次的语义理解,去发现语义相同、视觉上不同的镜头之间的关联。

图1 场景中的镜头序列关于视频理解已经有了广泛的研究,这一领域取得了巨大的进步,但近年提出的方法都是基于监督学习的[10,11,12,17]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。