基于对比学习的视频拆条方法研究与应用文献综述-综述网

文献综述

一、背景随着视频数据的持续增长，视频信息的可用性和数量显著增加，高效的视频检索与分析变得越来越重要。

结构化分析是一种有效的方法，可以使数据更容易被访问。

与文本分析中，对单词、句子、段落的细粒度进行分析类似，视频数据也可以在帧（frame），镜头（shot）和场景（scene）级别进行分析。

视频拆条任务所研究的就是将一个视频，根据其语义，拆分成各个场景的过程。

一般来说，镜头（shot）是由一台相机在一段时间内连续拍摄的，在视觉上是连续的；而场景（scene）是更高级的语义单位。

场景由一系列镜头组成，以呈现视频中语义连贯的部分。

如图1所示，当我们仅看图(a)中的单个镜头时（如镜头B），我们不能推断出当前视频正在讲述什么；只有我们看到场景中的所有镜头，如图(b)所示，我们才能意识到这个女人在舞会上邀请一对夫妇跳舞。

现有的技术可以根据简单的视觉特征轻易地将视频划分为镜头，但是识别构成场景的镜头序列十分具有挑战性，因为它需要更高层次的语义理解，去发现语义相同、视觉上不同的镜头之间的关联。

图1 场景中的镜头序列关于视频理解已经有了广泛的研究，这一领域取得了巨大的进步，但近年提出的方法都是基于监督学习的[10,11,12,17]。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付