本文是一篇计算机论文,本文主要研究图像描述任务中的注意力和注意力机制监督方法,所提出的注意力准确性度量方法和注意力机制监督图像描述方法为注意力评估和图像描述带来明显的提升。
1 绪论
1.1 选题背景及研究意义
随着移动通讯技术的快速发展,互联网流量及数据爆炸式增长。据统计数据显示,2013年至2020年,我国移动互联网接入流量由13亿GB增长至1656亿GB,年均复合增长率高达99.86%。面对这些爆炸式增长的数据,处理这些数据需要耗费大量的人力成本和时间成本。面对还在持续增长的数据,使用人力对数据进行处理杯水车薪。因此需要依靠计算机的计算能力,设计出人工智能软件,来实现数据的自动化处理和高效处理。
对于图像、文本等单一模态下的数据处理任务,学术界已经进行了数十年的研究,在机器翻译[1]和图像分类[2]等领域,行业已经比较成熟,产出的技术遍布于人们的日常生活之中,服务于各行各业。对于图像文本等多模态数据,不同模态数据之间存在关联性,能够进行数据互补,使得认知更加全面。同时,当某一模态数据缺失时,其他模态数据可以维持任务的进行,因此多模态数据具有巨大的潜力。然而,由于不同模态数据之间的异构性,如何处理组合不同模态的数据还是一个难题,多模态数据也需要更加深入的研究。
图像描述技术是多模态数据分析领域的经典应用问题,其目标是:将图像输入机器,机器根据图像中的内容生成相应的文字描述(如图1.1所示)。该任务可以应用于自动图像检索[3]、图像审核、机器助盲等领域,因此具有广泛的应用前景。然而,该任务存在巨大挑战。图像描述任务不仅需要识别出图像中重要的对象,同时还需要识别出各个对象的属性和对象之间的关系,这需要对视觉信息有更深入的理解,对视觉任务有更高的要求。除上述的信息之外,在一段完整的描述中,还有其他不可缺少的部分(例如介词),在生成描述时也要考虑到句子的语法和语义,需要对语言处理有更深的理解。上述提到的这些难点与图像描述的性能息息相关,如何应对这些难点来生成更好的文字描述也是学术界与工业界的研究热点。
1.2 国内外研究现状
近十几年来,图像描述任务吸引大量的研究人员的关注,其跨文本与图像的特性,也带来很大的挑战,研究者一般需要同时掌握文本知识与视觉知识才能对图像描述有更深的认知。注意力模型的流行,为图像描述质量带来显著的性能提升,大量研究人员通过改善注意力机制的准确性以提高图像描述的性能。研究者们主要在改善图像描述模型的结构、提升视觉注意力机制的对齐效果和注意力评估与诊断等方面开展研究。下面将围绕以上三个方面介绍国内外研究现状。
1.2.1 图像描述
根据图像描述的发展历程,可以大致将图像描述分为两类,一类是传统图像描述方法,一类是基于深度学习的图像描述方法。
(1)传统图像描述方法
传统图像描述方法与基于深度学习的图像描述方法的差异主要表现在两个方面,一个是特征的选择,另一个是生成描述的方法。传统方法大多使用手工特征来进行图像描述。手工特征包括区域颜色特征、局部描述特征[4]、梯度直方图特征[5]、尺度不变特征变换[6](Scale-Invariant Feature Transform,SIFT)特征等,这些特征的表征能力有限,是制约传统方法性能的一部分因素。在方法上,传统方法主要使用基于模板的方法或基于检索的方法。
另外一类基于检索的方法则基于图像间的相似性,选择候选库中相似图片的描述并进行一定程度修改得到。例如,Gong等人[9]提出使用堆叠辅助嵌入的方法让模型能够结合大量弱标签的数据进行词嵌入,从而生成描述;Ordonez等人[10]则提出一个数据库作为图像描述检索的语料库。Sun等人[11]提出将视觉与文本语料库结合起来,使用更丰富的语料库来进行图像描述的检索。尽管这些方法也可以获得语法上正确的描述,但是由于并不是从图像内容上直接生成的描述,这些描述缺乏原图中的具体描述,容易缺失图像中的关键内容,而且十分依赖侯选库,增加了数据成本。
2 基于自底向上特征的图像描述注意力准确性度量方法
2.1 引言
基于注意力的深度神经网络已经被广泛应用于图像描述领域,为图像描述的性能带来很大的提升。为评估注意力模块的有效性,大量研究通过对有限示例的可视化进行定性分析。但这种分析方式过于主观,不利于模型之间的比较,同时也不利于更好地探究注意力模块在模型中的潜力。定量评估的结果不受主观影响,从而更有说服力,因此,注意力机制应该引入更多定量评估指标,开展更多相关的研究。
对于图像描述中软性注意力机制,所有的图像区域对最终的图像表征有不同程度的贡献。因此,一个理想的注意力评估指标应该仔细考虑所有图像区域的注意力权重分布。在参考了一些关于注意力评估的研究[42,43]之后,本文发现这些工作提出的评估指标都有所不足,没有达到理想评估指标的要求,无法准确评估基于区域特征的软注意力机制,也无法为相关注意力模型的性能提升提供视觉上的解释。
本文根据上述缺陷及当前图像描述任务的需要,提出一种用于图像描述模型中视觉注意力评估的新指标。将自底向上的图像区域进行软加权投票,从图像区域的注意力权重中生成注意力热力图。注意力机制的准确性可以通过视觉标注内的热力图覆盖率来评估。该测评指标同时考虑自底向上图像区域的注意力权重分布和注意力机制的对齐能力,为图像描述性能提供更一致的注意力评估。
2.2 基于注意力机制的描述模型
本节首先介绍图像描述任务中常用的注意力模块。不同的注意力模块之间的区别主要体现在提取注意力的部分,而注意力模块的输入和输出部分的构造是基本相同。具体来说,注意力模块的输入是图像的特征和词的特征。给定一张输入图像I,它首先被分成多个不同的区域B=(𝑏1,𝑏2,...,𝑏𝑘),在网格特征中,这些区域是网格中的不同块,均匀分布在图像上,而在自底向上特征中,这些区域代表置信度高的目标区域,不规则地分布在图像上。特征提取网络将这些区域内的信息进行特征提取,得到每一个区域的特征向量V=(𝑣1,𝑣2,...,𝑣𝑘),这些特征向量就是注意力模块的输入之一。词的特征(词向量)的生成和图像特征的生成有所不同,由于图像描述任务是一个连续的任务,需要结合上下文信息。而对于上下文来说,图像的内容是不变的,但已获得的单词在不断增加,图像描述在不断地完善,表达的内容在不断变化,所以每一时刻输入的词通常都是不一样的。因此,对于解码网络,除了最初时刻的输入是通用起始符的词向量,其他时刻的输入均是上一时刻得到的单词的词向量,而这些单词是通过对上一时刻输出的单词概率采样得到的。注意力模块的本质是用注意力对图像特征进行加权,让与目标对象有关的图像特征拥有更高的权重,更有利于生成对应的内容。因此,注意力模块的输出是加权后的图像特征向量。
3 基于组的注意力机制监督图像描述模型 .................................. 18
3.1 引言 ............................ 18
3.2 基于组的注意力机制监督图像描述模型 .......................... 19
4 总结与展望 ..................................... 36
4.1 总结 ................................ 36
4.2 展望 ................................. 36
3 基于组的注意力机制监督图像描述模型
3.1 引言
尽管注意力机制很受欢迎,但注意力机制[26,66]的对齐能力仍远低于预期。图3.1展示的是最先进的图像描述模型[13]生成的图像描述和其注意力机制认为目标所在的区域。生成单词时,视觉注意力集中在不相关的图像区域上,导致研究人员不希望的行为出现,例如对象幻觉[67]。模型幻想出没有出现在图像中的“鼓(drum)”。
注:左边的图像是原始图像,右边的图像是目标的最关注区域,目标是描述中用斜体加粗标出的单词。
最近,有很多研究者努力改善注意力机制。传统的方法[42,43,44]引入注意力机制监督,在图像描述生成的过程中,将代表目标对象的单词和相应图像区域正确关联起来。这些方法显著地提高图像描述的对齐能力。然而,图像描述性能上的提升与视觉对齐性能上的提升并不一致。
视觉对齐和图像描述之间的不一致主要来自两个方面。一方面,一般图像描述注意力准确性度量方法的适用范围有限。另一方面,在单词和图像区域之间,现有的关联方式并不是最优的。最近的注意力机制监督方法将目标标注视为强监督的标签,强制注意力模型在生成对应词的时候对齐到目标图像区域。然而,如图3.2所示,视觉标注中存在噪声干扰。大量的视觉标注包含背景杂物或是遮挡物,关注这些视觉标注的整体不可避免地会产生错误的认知。在描述场景或是密集的目标对象时,这种现象会更加严重。同时,视觉标注的整体可能不是最能引导模型生成对应单词的内容。
4 总结与展望
4.1 总结
本文介绍图像描述的研究背景和意义以及图像描述任务的现状,针对图像描述注意力机制中,注意力评估结果低于预期、注意力评估结果与图像描述性能不一致和用于生成注意力机制监督信息的视觉标注存在背景噪声与遮蔽干扰等不足,开展对于图像描述任务的研究。本文的主要贡献如下:
(1)提出一种基于自底向上特征的图像描述注意力准确性度量方法。针对一般的注意力准确性度量方法不适用自底向上的区域特征的不足,本文提出图像区域注意力准确性(PAC)指标。首先,对自底向上的图像区域做加权投票,将图像区域级别的注意力权重分布转换成像素级别的注意力热力图。视觉标注内的热力图覆盖率表示单词的注意力准确分数。使用统计方法,统计注意力准确分数大于预设阈值的名词个数和不同描述中的名词个数,通过计算基于生成描述的准确率和基于真实描述的召回率,以调和平均数的方式计算图像描述模型的注意力准确性。在两个常用数据库上结果表明,本文提出的注意力准确性度量方法能够更加客观地评估图像描述模型中注意力机制的准确性,且与图像描述质量有更强的一致性。
(2)提出一种基于组的注意力机制监督图像描述模型,重点解决注意力机制监督图像描述方法上,生成监督标签的视觉标注存在背景噪声和其他对象的遮挡干扰、强监督方式迫使注意力模块对多个图像区域分配相同的注意力权重影响注意力机制的区别性等不足。首先,本文提出了富含目标视觉信息的图像区域挖掘策略,引入更多信息丰富的图像区域,减少有噪图像区域的影响。其次,提出基于组的注意力机制监督方法,以弱监督的方式,让注意力更关注与目标有关的图像区域,进一步减少有噪图像区域的影响。富含目标视觉信息的图像区域参与训练后,注意力对与目标有关且更有利于模型生成目标词的图像区域更加关注,从而保留注意力机制的区别性,并提升注意力机制的鲁棒性。实验结果表明,所提出的模型能够为基础模型带来描述质量上的提升,同时,在多个注意力评估的指标上也有明显提升。
参考文献(略)