本文是一篇计算机论文,本文着重研究弱监督三维点云语义分割问题,提高模型在弱监督条件下的分割性能,从而降低对于大规模标注数据的依赖。
第一章绪论
1.1研究背景及意义
三维点云是一种用于表示三维空间中原始几何信息的数据格式,在三维场景理解任务中常用于表示三维模型或场景,如图1.1所示。近年来,随着深度学习和计算资源的迅速发展,一些大规模三维点云公开数据集(例如S3DIS[1],ScanNetV2[2],SemanticKITTI[3])的发布,推动三维点云领域的研究和应用[4–7]。
三维点云语义分割旨在为三维点云场景中的每个点赋予对应的语义类别,其能够帮助机器对于三维场景的感知与理解,因此广泛应用于自动驾驶、增强现实、机器人等领域。现存大部分点云语义分割方法[8–10]需要在全监督条件下进行训练,依赖于完全标注的数据集[1–3],而三维场景的逐点级标注需要耗费大量的人力。例如:SemanticKITTI[3]数据集需要超过1700小时的标注时长,ScanNetV2[2]数据集中的每个室内场景(5m×5m×2m)需要平均22.3分钟的标注时长。为缓解全监督方法对于点云标注数据的依赖问题,许多学者开始研究弱监督三维点云语义分割方法[11–17],其目的在于仅使用部分或粗粒度标注数据训练模型,探索模型于不同的弱监督标注形式、不同标签量级下的分割精度。
1.2国内外相关研究工作
本节将介绍前沿弱监督三维点云语义分割方法,并将现有弱监督点云语义分割方法分为四大类:1)基于一致性约束的方法,2)基于伪标签的方法,3)基于自监督预训练的方法,4)其他方法。
基于一致性约束的方法基于一致性约束的方法利用同场景下不同视图或不同模型预测输出的一致性作为额外监督信息。Xu等人[11]提出首个弱监督点云语义分割方法,利用多分支监督以及基于拉普拉斯矩阵的图无参平滑项,使用10%的监督数据取得与先前全监督网络相匹配的语义分割精度。由于缺少可学习的拓扑关系,以及使用拉普拉斯矩阵引入极高的计算复杂度,此方法不能直接应用在大规模点云上,并且此方法仅使用点级别的监督,难以对语义内容进行建模。Yang等人[18]提出一种多实例学习衍生的Transformer模型[19],基于多实例学习的正包(positive bag)与负包(negative bag)探索成对的点云级别监督。Hu等人[20]基于点邻域查询充分利用有限的监督信息,进一步将实现全监督模型性能的标注需求降低至0.1%的随机点级别标签。Wu等人[17]通过点级别以及区域级别对抗策略的双重自适应变换,加强点云上的局部与结构平滑约束。Zhang等人提出PSD[13],基于扰动自蒸馏构造一致性监督信息,为无标签点引入附加的监督信息约束图卷积层,有效地建立整个点云的图拓扑关系,实现标签点和无标签点之间的信息传播。该方法过度依赖于有标签点与无标签点之间的信息传播,因此在极少量监督数据下表现不佳。Lee等人提出基于图形信息增益的注意力网络GaIA[21],利用目标点与其邻域点之间的相对熵区分可靠信息,基于可靠信息减少每个点的熵,降低点云语义分割模型的认知不确定性。Su等人提出多原型分类网络MulPro[22],减少弱监督条件下的表征学习难度,并基于子类平均约束监督原型学习,提升弱监督点云语义分割精度。以上基于一致性约束的方法,未进一步利用无标签点生成伪标签信息,因此当监督数据极少时,语义分割精度较低。
第二章弱监督三维点云语义分割相关基础知识
2.1三维点云语义分割基础知识
三维点云语义分割任务的目的为赋予三维点云中的每个点对应的语义类别,根据用以学习的点云数据中间表示方式的差异而使用不同的特征提取方法,本节将对点云数据中间表示以及对应的特征提取方法进行介绍。
2.1.1点云数据中间表示
点云语义分割方法需要基于固定的数据中间表示进行学习,常用的点云的数据中间表示方法分为三种:1)基于多视图的数据表示;2)基于点的数据表示;3)基于体素的数据表示。
基于多视图的数据表示基于多视图的表示利用不同视点以及不同角度下的投影图像来表示点云,如图2.1所示,将点云场景转换成二维图像序列,随后利用卷积神经网络(Convolutional Neural Network,CNN)进行特征的提取,解决基于深度学习的点云早期难以表示点云数据的问题;然而由于将三维投影到二维会丢失空间几何信息,从而造成语义分割效果不佳,因而近年相关研究逐渐减少。
基于点的数据表示基于点的表示直接采用原始点云进行学习,保留点云的全部信息,能够充分表示点云的几何结构与局部细节,直接基于点进行特征提取操作,并未损失点云信息,因而语义分割效果优秀,成为近年主流的表示方式之一。
基于体素的数据表示基于体素的表示将空间划分为固定大小的三维网格空间(三维体素集合),如图2.1所示,相比于多视图表示,该方式空间信息与细节信息丢失较少,能够较为完好地表示原始点云的结构信息。此外,其利用三维卷积进行特征的学习,受益于三维卷积强大的特征提取能力,该表示能够生成优秀的语义分割效果,从而成为近年主流的表示方式之一。
2.2三维点云语义分割中的监督方式
本节主要介绍三维点云语义分割中涉及标签的三种监督方式:1)全监督(Fullysupervised);2)半监督(Semisupervised);3)弱监督(Weaklysupervised)。详细说明各监督方式的特点,同时介绍弱监督点云语义分割的一些常用实验设置。
2.2.1全监督点云语义分割
全监督点云语义分割方法训练时需要训练集中每个点都具有语义类别,此类监督方式的经典方法如PointNet[8]、KPConv[10]、RandLANet[44]等。全监督往往能产生更优秀的分割精度,但依赖于大量的人工标注数据,因此在实际应用中受标注数据成本的限制。
2.2.2半监督点云语义分割
半监督点云语义分割方法要求部分训练场景具有完整标注数据,即标注的形式与全监督相同,具有标签的场景中每个点都有标签,但具有标签的训练场景为全监督方式的一部分。半监督点云语义分割常用实验设置为:1%、5%、10%、20%等,其中实验设置X%表示随机选取X%的训练场景作为有标签场景,其他为无标签场景。这一类监督方式的经典方法如GPCL[45]、WS3D[46]、LaserMix[47]等。该类监督方式仅采用部分监督数据,但对于每个有标签场景仍需要完整的标签数据,为近年点云语义分割领域的重要子研究方向之一,但与本文所面向的弱监督学习方式存在本质区别。
第三章 基于自训练的弱监督三维点云语义分割方法 ........................ 19
3.1 研究动机与贡献 ................................ 19
3.2 伪标签相关方法 ............................... 20
3.3 基于自训练的弱监督三维点云语义分割方法 ............................ 21
第四章 基于组对比学习的弱监督三维点云语义分割方法 ................ 36
4.1 研究动机与贡献 ................................ 36
4.2 基于伪标签的弱监督三维点云语义分割方法 ............................ 37
4.3 基于组对比学习的弱监督三维点云语义分割方法 .................... 38
第五章 基于联合正负学习的弱监督三维点云语义分割方法 ............ 51
5.1 研究动机与贡献 ...................................... 51
5.2 负标签学习相关方法 ............................. 53
5.3 基于联合正负学习的弱监督三维点云语义分割方法 ................ 53
第五章基于联合正负学习的弱监督三维点云语义分割方法
5.1研究动机与贡献
现有基于伪标签的弱监督点云语义分割方法[14,23,48]只采用正标签(代表点属于某个类别)作为直接标签监督,忽略负标签(代表点不属于某些类别)这种标签形式,针对困难样本点难以生成伪标签,提供有效的监督。例如,Liu等人[23]只试图生成正伪标签来进行自训练。然而,仅从正标签中学习会存在两个问题:1)性能受到有限数量的正伪标签数量的限制,2)生成的正伪标签缺少用于比较的负样本,特别是一些相似但是属于不同类别的负样本。显然,存在一种互补的伪标签格式能够缓解以上问题,即负标签。如图5.1所示,图5.1(c)中黄色点代表“椅子”类别的正标签点(属于“椅子”类别的点),图5.1(d)中蓝色点代表“椅子”类别的负标签点(不属于“椅子”类别的点)。
本文受到二维图像领域方法[101,102]应用负标签的启发,将负标签引入弱监督三维点云语义分割任务中,并从正负两个角度优化模型。在二维图像领域中,一些先前的方法[101,102]通过单一分支的模型同时对正负标签进行学习以提高性能。然而,因为三维场景更加稀疏和复杂,该方式于点云学习中并不适用。本文观察到正标签和负标签是互斥的,即很难同时保证这两种标签的正确性,容易误导单一分支网络的学习。因此,本文提出一种创新的联合正负双分支学习(MutualPositiveNegative Bibranch Learning,MPNBL)框架,从两个不同的分支分别学习正负标签的信息,以避免两种标签信息互相误导模型。此外,本文提出一种联合正负知识蒸馏(Mutual PositiveNegative Knowledge Distillation,MPNKD)方法,帮助正负分支互相引导对方的学习,两个分支同步提升分割精度。最后,本文提出一种新颖的动态融合策略,用于融合来自两个不同分支的预测结果,其能够动态平衡不同视角下的预测。受益于以上所提出的框架或模块,本文方法可以生成更精确的预测结果,同时确保生成的伪标签的质量。
第六章总结与展望
6.1工作总结
三维点云语义分割旨在分辨三维空间中每个点的语义类别,是三维场景理解领域的重要任务。目前,全监督三维点云语义分割方法已经取得良好的效果,但弱监督条件下的分割精度仍有待提升。对此,本文分析前人研究的不足之处,从自训练、组对比学习、联合正负学习等角度提出三种方法:
1)基于自训练的弱监督三维点云语义分割方法:从自训练角度,提出一种新颖的弱监督三维点云语义分割方法。该方法通过置信度阈值筛选生成伪标签,基于生成的伪标签与初始真实标签重新训练模型,重复模型训练与伪标签生成过程直到模型收敛。实验与可视化结果表明自训练方法在极弱的监督信息下能够提供稳定的性能提升,并取得较好的语义分割效果。最终,对于性能瓶颈、阈值选择以及参数重载设置开展实验分析,探索自训练方法于弱监督三维点云语义分割领域的泛化性与鲁棒性。
2)基于组对比学习的弱监督三维点云语义分割方法:从组对比学习角度,提出一种新颖的弱监督三维点云语义分割方法。该方法通过组对比学习缓解错误伪标签累积所导致的确认偏差问题;构建正负双分支学习框架,通过双分支组对比学习进一步提升模型分割能力;利用一种新的动态阈值方法针对伪标签筛选过程中的阈值敏感问题,能够挖掘可靠且丰富的伪标签。最终,实验与可视化结果表明该方法的有效性,模型消融实验进一步证明本方法所提出的所有模块对于整体框架皆有增益。
3)基于联合正负学习的弱监督三维点云语义分割方法:从联合正负学习角度,提出一种新颖的弱监督三维点云语义分割方法。该方法将负标签引入到弱监督三维点云语义分割领域中,为困难样本提供额外监督,缓解噪声标签所导致的缺陷;结合正标签与负标签,构造联合正负双分支学习框架,迭代更新正负伪标签与优化模型。在双分支内构造联合正负知识蒸馏,引导正分支和负分支互相学习互补的知识。提出一种新颖的动态融合策略,将正负分支的预测结果动态融合,提升模型分割的鲁棒性。实验与可视化结果表明,本方法的精度优于现有的弱监督方法,甚至能够比肩一些性能优秀的全监督方法,证明本方法的先进性与有效性。模型消融实验表明,本方法提出的所有模块对于整体框架皆有增益。
参考文献(略)