本文是一篇计算机论文,本文介绍了图像描述生成任务的研究背景和意义以及图像描述任务的现状,针对图像描述注意力关注不准确、图像特征编码方法缺乏细粒度的特征表示等问题开展了研究。
1绪论
1.1选题背景及研究意义
自第三次工业革命以来,随着计算机和互联网的迅猛发展人类进入了互联网时代,大数据成为这个时代最为显著的标志之一。互联网流量和数据量的持续增长给数据处理带来了巨大的挑战。传统的人工数据处理方式在处理海量数据时效率低下,成本高昂。在这一背景下,设计人工智能软件能够显著减少人力成本和时间成本,可以为互联网技术的进一步发展提供有力支持。
文本和图像是当前网络信息的主流表现形式,这些数据形态为人工智能技术的发展提供了重要的支持。对于处理单一数据模态的任务,如图像分类、目标检测、机器翻译和问答系统等,学术界已经进行了长期的全面研究,领域发展已经比较成熟,相关技术也已广泛应用于我们的生活中。但是,目前跨模态数据处理的研究和应用尚处于初级阶段,具备极大的研究潜力。其中,图像描述生成任务是计算机视觉和自然语言处理紧密结合的综合任务,因此备受学者们的关注。图像描述生成任务的目的是让计算机观察图像内容并自动生成自然语言描述,以实现对场景的理解。由于人类的交流很大程度上依赖于自然语言,因此,让计算机能够准确地描述视觉世界将会带来大量的应用,如产生自然的人类机器人互动、幼儿教育、信息检索和视障辅助等。此外,跨模态数据处理的研究还可以在多个领域发挥重要作用,例如自动驾驶、医疗影像分析和智能家居等。
然而,图像描述生成技术由于其跨文本与图像的性质,为研究带来了许多挑战。图像描述生成不但要对图像中的目标和场景进行识别,还需要建模不同目标属性和目标之间的相互关系,这需要对图像的视觉信息进行深入的理解。此外,在生成描述时还需要考虑自然语言的语法和语义,因此还需要对自然语言处理有较深的理解。以上两点是影响图像描述生成方法性能的最大因素,如何解决这些问题,生成更加准确、流畅的图像描述成为学术界的一大热点。
1.2国内外研究现状
由于图像描述生成具有跨文本与图像的性质,为研究带来了许多挑战。它需要全面理解图像中视觉实体间的相互作用,并建立细致的视觉线索,同时学习每个生成单词与其之间隐藏相关性。近年来,随着深度神经网络在计算机视觉和自然语言处理任务中的应用和发展,不断提出的各种新方法启发了人工智能研究人员在这些以前分离领域的交集中探索新的研究。由于图像描述生成任务必须平衡对视觉线索和自然语言的理解,因此对该任务的研究有利于推动这两个传统上不相关领域的交叉点在很大程度上实现变革。根据图像描述的技术的发展历程,总体可以将其分为两类:传统描述生成方法和基于深度学习的描述生成方法。下面将对图像描述生成任务进行概述,并介绍传统描述方法和基于深度学习的描述方法各自的研究现状。
1.2.1图像描述生成概述
图像描述生成任务的目标是用自然语言描述图像的视觉内容,通过构建图像编码模型和语言生成模型使得视觉信息和语言信息相结合,生成关于图像内容的描述句子。神经科学研究已经阐明了人类视觉和语言生成之间的联系。但是,在人工智能领域中,研究能够同时处理图像和生成语言的架构是最近的火热研究方向。这些研究工作的目的是找到有效方法来编码图像,提取图像中的信息,并在保持语言流畅性的同时,生成视觉和文本元素之间的潜在关联,最终将其转换为单词序列。图像描述生成可以看成是一个从图像到单词序列的序列生成问题。描述生成过程主要分为两个步骤:图像的编码步骤和文本生成步骤。在图像编码步骤中,输入的图像被编码为一个或多个特征向量,这为第二个生成步骤准备输入,该步骤产生了根据给定词汇表解码的单词或单词序列。
2相关理论
2.1语言生成模型
语言生成模型是许多自然语言处理任务的重要部分。其主要任务是预测给定单词序列在句子中出现的概率,使得机器能够理解和处理自然语言。通过模拟自然语言的随机过程,为机器自然地理解和处理人类语言提供支持。
应用于图像描述生成的主要语言建模策略可分为:(1)基于LSTM的方法;(2)基于Transformer的全注意方法。下面将分别对这两类语言模型进行介绍。
2.1.1基于LSTM的语言模型
LSTM[39]是一种特殊的RNN网络,能够高效地处理长序列数据,在文本生成、机器翻译、语音识别、图像描述生成和视频标记等任务中有着广泛应用。相较于原始的RNN,LSTM通过记忆单元(Memory Cell)和门控机制(Gates)的设计,成功解决了RNN难以解决的长期依赖和容易出现梯度消失的问题,网络性能提升的同时更易于训练。LSTM的核心包括三种门控单元:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate),它们能够控制信息的流动和记忆单元的更新,从而有效地处理长序列数据。总之,LSTM是一种强大的序列建模工具,具有丰富的应用场景和广泛的研究价值。
2.2数据集
与其它通过数据驱动的任务一样,图像描述生成模型的训练与测试需要依赖大型数据集和满足人类主观评价的自动评估指标来实现。
图像描述数据集包含图像和与之关联的一个或多个描述。为每幅图像提供多个人类生成的参考描述具有更强的代表性和参考性。除了图像描述的数量外,其描述的其它特征(如平均句子长度和总的词汇表大小)也会对图像描述生成算法的设计和最终的性能产生很大影响。需要注意的是,数据集描述中的术语的分布通常包含许多出现次数极少的非常见词汇,因此,常见的做法是在词汇表中剔除这些出现次数低于某个阈值的词语。该阈值的选择要使得词汇表能够较好地模拟人类描述词汇丰富度和多样性。
目前该领域通常都会在一些公认的标准数据集来训练和测试各自所提出的方法,以便能够公平地比较不同模型的性能。通过在一些公共数据集上比较不同的模型性能很好地推动了图像描述生成领域的发展。从这个意义上说,标准的数据集应该包含大量的通用域图像,并且每个图像都应该附带有多条人工标注的图像描述。
早期的图像描述模型[20][22][23]通常在Flickr30K数据集上进行训练和测试,该数据集中的图片从Flickr网站上收集来,含有3万多张图片,主要包含关于日常活动、事件和场景等内容,每张图片附带5条人工标注的描述句子。
3基于混合注意力的图像描述生成模型.......................12
3.1引言...................................12
3.2基于混合注意力的图像描述生成模型.....................14
4基于多粒度特征融合的图像描述生成模型...........................25
4.1引言......................................25
4.2基于多粒度特征融合的图像描述生成模型....................26
5总结与展望....................................34
5.1总结.............................................34
5.2展望.........................34
4基于多粒度特征融合的图像描述生成模型
4.1引言
有效的图像编码方法即抽取图像内容特征是图像描述生成任务所面临的首要挑战。随着CNN的出现和发展,几乎所有视觉输入的模型在性能方面都得到了很大的改进,图像描述生成任务的图像编码过程也是如此。对于最简单的编码方式,首先通将图像输入至CNN中,然后将CNN的全连接层的输出作为图像的特征提取出来,将其输入到语言模型中进行解码生成描述。具体地,Vinyals等人[13]首次提出了该方法,其所采取的CNN网络是在ImageNet数据集上进行预先训练的GoogleNet[57],所提取的图像特征向量被输入到语言模型的LSTM的初始隐藏状态作为后续解码过程的输入。同年,Szegedy等人[20]使用从AlexNet[21]中提取的全局特征作为语言模型的输入。这两种方法只在初始的时间步骤输入图像特征。而Mao等人[22]和Donahue等人[23]在语言模型的每个时间步骤都输入由VGG[24]网络提取的全局图像特征。然而,这种方式也导致了图像信息的过度压缩和细粒度的缺失,因为所有图像信息都用一个长度有限的向量表示,这使得图像描述生成模型很难依据输入的图像特征向量产生准确、详细的描述。
由于全局CNN特征表示的缺点,往后的大多数方法[25][14][27]都增加了图像编码的细粒度级别,不直接取全连接层输出的一个向量作为图像特征表示,而是取其网格特征。从机器翻译的角度来看,注意机制在广泛的任务中表现出了非常优异的性能,并赋予图像描述生成网络架构能够动态地调整视觉特征编码,具有更大的灵活性和更细的粒度。但是进入一个网格的各种几何信息与无法反应有意义的图像内容,语言模型无法学习到丰富的语义信息。
5总结与展望
5.1总结
本文介绍了图像描述生成任务的研究背景和意义以及图像描述任务的现状,针对图像描述注意力关注不准确、图像特征编码方法缺乏细粒度的特征表示等问题开展了研究。本文主要贡献如下:
(1)提出一种基于混合注意力的图像描述方法。当前机器注意力机制被广泛地应用于图像描述生成任务中。这种机制通过动态地关注于不同图像区域来引导单词的生成。然而,现有的注意模型在没有明确监督的情况下,可能无法集中在正确的区域上,对单词的预测产生误导。本研究通过编码人类在图像描述生成任务中所感知的丰富信息,将机器注意力与人类描述注意力相结合,对自下而上注意力进行重新加权,解决了模型产生“幻觉”描述的问题,提高了图像描述的多样性。在MS COCO数据集上的实验结果表明该方法有效地提升了现有图像描述生成方法的性能。
(2)提出一种基于多粒度特征融合的图像描述方法。旨在解决现有图像编码方法缺少细粒度信息的问题。传统的图像编码方法往往只能提取到图像的全局特征,而忽略了图像中的细节信息。因此,本文采用了视觉Transformer来提取多粒度的图像特征,克服了单一特征的局限性。具体来说,该模型从多个尺度下提取特征,并利用动态特征融合机制将这些特征进行融合,以保留图像细节信息的同时避免信息丢失。在图像描述生成任务中,该模型能够生成更加丰富、准确的描述,提高了图像描述的质量。实验结果表明,该方法在MS COCO数据集上能够有效地提升图像描述生成的性能,具有很好的应用前景。
参考文献(略)