本文是一篇计算机论文,本文采用了哈希技术来提取视频特征。基于哈希的特征提取算法是在基于卷积神经网络的基础上,加入了哈希层,通过控制哈希层的节点来控制特征维度。实验结果表明,在特征维度相同的情况下,本文提出的哈希算法在检索精度上明显优于其他哈希方法,在检索速度上明显快于其他特征编码方法。这也表明,本文提出的哈希模型不仅能够学习视频帧的高级语义特征,还能降低存储开销,提升检索速度。
第一章 绪论
1.1研究背景以及研究意义
近年来,随着互联网的发展以及智能设备的普及,社交网络和其他信息平台上出现多种多样的多媒体数据,如文本、图像、音频以及视频数据等。特别是因网络社交平台兴起而出现的短视频受到用户青睐。相较于传统的文字、图像传播特性,短视频“视听兼备”的内容形式能够吸引更多用户。据《2020 中国网络视听发展研究报告》显示,截至 2020 年 10 月,我国短视频用户规模达 8.18 亿,占网民总数的 87%。此外,得益于 4G 技术的普及、5G 通讯技术日趋成熟以及移动智能设备的完善,短视频的碎片化、社交化等特性能够更好的满足用户的个性化需求。如何从海量的视频数据库中快速检索到用户感兴趣的视频成为大数据时代的一个有意义的课题。
传统的视频搜索方法依赖文本关键字,即人为对视频数据加以注释、标签等信息,依靠文本信息实现视频搜索。然而,视频信息与语义信息之间的关系并非是一一对应关系,很难用文本将视频信息完全描述。同时,人为标注的标签信息存在很强的主观性,不同标注者对同一段视频有不同的理解和标注,不能客观准确的描述视频信息,难以满足用户的检索需求。因此,基于内容的视频检索(Content-Based Video Retrieval,CBVR)[1]方法应运而生。
基于内容的视频检索主要是针对视频数据的结构特性,对视频内容进行有效分析并提取视觉特征与语义描述符,通过计算视频特征的相似性,从数据库中检索出相关视频内容。其主要特点是直接根据视频内容进行检索,不需要人工对视频内容进行分析标注。相较于基于文本的视频检索方法,CBVR 的检索结果更加客观高效,同时准确率也有所提高。目前,CBVR已经成为计算机视觉领域的研究热点[2]。
1.2基于内容的视频检索发展现状
基于内容的视频检索最早起步于国外,近十几年来受到越来越多的研究者关注。目前,在国际上举办了大量有关视频检索的学术会议及竞赛,旨在让相关研究者互相交流学习、促进技术进步。例如,由国际计算机学会(ACM)举办的国际会议 ACM International Conference on Multimedia(ACM MM),进一步推动了视频分析和检索领域的发展。此外,在进行实验结果性能测评的时候,很多文献都会用到 TRECVID 提供的数据集。TRECVID 每年举行一次,年初公布本年度的会议指南,并且提供大量的测试数据以及评价标准供学者们测试交流,代表了视频检索领域最前沿的研究方向。
国外对基于内容的视频检索研究起步较早,目前,比较知名的具有代表性的系统有:
IBM 公司利用图像浅层视觉特征和目标运动特征,以及摄像机旋转信息开发出首个商业化的基于图像内容的检索系统 QBIC[3]。该系统支持多种查询方式,如根据系统提供的标准范图、手绘草图或者动态视频片段等进行检索。在进行检索时,QBIC 提取输入图像或视频的颜色、纹理等特征,并按照用户选择的查询方式与数据库中的内容进行匹配,根据匹配结果反馈与查询内容相关的图像给用户。美国哥伦比亚大学研发出 VideoQ 系统[4],该系统是以文本和视觉特征相结合的方式实现的,不仅支持传统的以关键字的形式进行匹配的查询方式,同时扩展了按照视频内容的视觉特征进行查询的方式。此外,该系统还能对视频中对象进行自动分割与追踪。美国哥伦比亚大学基于贝叶斯概率论和香农信息论的关键帧选取方法,开发出 Visual Seek 系统[5],该系统给用户提供了一种在 web 上搜索图像或视频的工具,其检索原理是利用图像中不同区域的空间关系和颜色、纹理特征进行相似度匹配。此外,Visual Seek查询方式多种多样,包括图像特征、注释或手绘草图等。
第二章 相关技术和研究现状
2.1视频数据的结构化分析
通常,可以将视频数据自上而下分为四个层次结构,即视频序列、场景、镜头以及帧。帧可以看作是静止的图像,是视频数据中的最小单元结构;镜头是由视频记录设备运行一段时间形成的若干帧序列,相邻帧的内容几乎完全相同;场景通常由一个或多个内容相似的镜头按照特定的时间顺序组成;视频序列是由若干场景按照特定顺序组成的图像序列,这些图像序列与对应的音频、文字就形成了视频流。视频数据的层次结构关系如图 2.1 所示。
2.2基于内容的视频检索流程
基于内容的视频检索就是通过提取视频特征建立索引,与查询内容进行相似性匹配,从而得到检索结果的一种检索方法。基于内容的视频检索流程如图 2.2 所示。首先对视频数据库中的视频数据进行处理,包括关键帧提取、特征提取以及特征表示等过程,建立一个特征索引数据库。然后系统根据用户提交的查询内容,提取特征并建立特征索引。最后将查询内容的特征索引与数据库中的索引进行相似性匹配并将匹配结果按照相似度排序,输出检索结果。
随着互联网的迅速发展,数字视频在网络上呈爆发式增长。在 2.1 节中提到,视频可以看作是由若干场景按照特定顺序组成的图像序列。为了提高视频分析处理的速度,需要一种对视频内容进行压缩与总结的方法,即在不观看视频的情况下提取代表视频主要内容的图像帧。视频关键帧提取是捕获视频主要信息的一个过程,对于存储和管理大规模视频数据是非常有效的,其目的是从视频中提取能反应共同特征的帧,减少视频的冗余信息,同时降低存储开销。
基于镜头的关键帧提取[8]方法首先将视频以镜头为单位进行分割,然后依据某种规则选取每个镜头中具有代表性的帧作为关键帧。常见的基于镜头的关键帧提取方法有帧平均法和直方图平均法。 帧平均法通过计算视频镜头中所有帧特定位置的像素平均值,然后选择与像素平均值最接近的帧作为关键帧。直方图平均法通过计算视频镜头中所有帧的直方图平均值,然后选择最接近平均直方图的帧作为关键帧。上述方法计算容易、复杂度低,并且提取的帧具有一定代表意义。然而,这些方法忽略了当前视频镜头中内容的复杂性,关键帧的数量被限制为固定值,使得提取出的关键帧不能完全描述复杂的视频镜头中的内容。
第三章 基于聚类分析的关键帧提取方法................... 13
3.1频数据预处理........................................... 13
3.2视频帧聚类.......................................... 13
第四章 视频特征提取与表示................................. 20
4.1基于卷积神经网络的特征提取............................ 20
4.2基于池化的特征表示......................................................... 21
4.3基于深度哈希模型的特征提取与表示....................................... 24
第五章 基于内容的视频检索方法设计与实现................................. 30
5.1整体框架................................... 30
5.2查找策略....................................... 31
5.3相似度度量方法................................... 31
第五章 基于内容的视频检索方法设计与实现
5.1 整体框架
第二章描述了基于内容的视频检索流程,主要包括线下视频数据库的处理以及线上检索部分。图 5.1 展示了视频数据库线下处理部分,主要涉及视频关键帧提取、视频帧的特征提取及表示,然后将提取出的特征索引存放至索引数据库中。
图 5.2 展示了线上检索部分,首先对用户输入的查询图像进行处理,处理过程与数据库处理过程类似。然后将得到的特征索引与数据库中的索引进行匹配,按照相似度排名返回检索结果。
第六章 总结与展望
6.1总结
随着 4G 技术的普及、5G 通讯技术日趋成熟以及移动智能设备的完善,视频数据急剧增长,从海量视频数据库中快速检索出目标视频的需求日益显著。本文在分析了基于内容的视频检索的国内外现状之后,对 CBVR 的关键技术进行了研究,提出了一套完整的视频检索方法。本文的主要工作总结如下:
对基于聚类的关键帧提取方法进行了优化,提出一种根据视频内容自动获取关键帧数量的方法。首先提取视频帧的颜色直方图特征,计算相邻帧之间的帧差值的平均值,统计帧间差大于平均帧差值的帧的数量,即关键帧数量。实验结果表明,本文提出的基于 K-Means 聚类的自适应关键帧提取算法在压缩率和保真度两项指标上表现明显好于传统的关键帧提取算法。
在特征提取方面,在深入分析了传统的特征算法与基于深度学习的特征提取算法的优缺点后,本文从两个角度分别设计了基于池化的特征提取与表示方法和基于哈希技术的特征提取与表示方法。
考虑到 CNNs 提取的特征维度较高,并且都是浮点类型的数据,存储开销较大。因此,本文参考池化降维的方法对高维特征进行进一步特征表示。普通的池化是在同一特征通道上对特征图进行采样,而本文提出的特征池化是针对不同通道的特征图进行采样,尽可能减少特征表示过程中信息丢失。实验结果表明本文提出的池化特征方法在检索精度上明显优于其他特征编码方法。
为了进一步提高检索速度,本文采用了哈希技术来提取视频特征。基于哈希的特征提取算法是在基于卷积神经网络的基础上,加入了哈希层,通过控制哈希层的节点来控制特征维度。实验结果表明,在特征维度相同的情况下,本文提出的哈希算法在检索精度上明显优于其他哈希方法,在检索速度上明显快于其他特征编码方法。这也表明,本文提出的哈希模型不仅能够学习视频帧的高级语义特征,还能降低存储开销,提升检索速度。
参考文献(略)