代写计算机论文范本:面向分布极端不平衡数据的分类算法探讨

发布时间:2023-02-12 19:32:16 论文编辑:vicky

本文是一篇计算机论文,本文主要研究分布极端不平衡数据的分类问题,首先从算法角度进行遴选,通过将LR、KNN、SVM、DT、GBDT、RF、DF、ODLOF、ODHBOS、ODMCD、ODPCA进行对比,得出DF在分布极端不平衡数据的分类任务中有着最佳的分类性能。

第一章 绪论

1.1 课题背景

当今信息化时代下,通信技术、计算机技术、数据存储技术等日益完善,医疗、金融、工业、互联网等众多领域在飞速发展的同时,也伴随着大量的数据的生成,这些数据保留了各个领域的知识和信息,可以说是技术发展过程的“备忘录”,因此针对它们的内在价值进行分析与提取的工作,显得尤为重要。机器学习作为一门学习算法研究的学科,提供了一种主流的数据处理及分析技术,先后进行数据清洗、数据分析、训练算法模型等步骤从而得到最终的模型。其中,分类任务是机器学习的重要研究内容之一,其基本流程为基于训练样本进行模型训练,提取数据集中的关键信息,然后构建出具有较强泛化能力的分类模型[1-2]。目前,众多科研学者致力于分类问题的研究,已经提出了许多优秀的算法模型,未来分类任务仍将是科研热点之一。

传统的分类算法,通常是基于数据均衡分布的假设前提的,而这一点在现实的数据中往往很难满足,真实数据中很可能会存在某一类的样本个数相比其他类别较少的情况,一般我们将这类数据称之为不平衡数据,特别地,当样本的分布极端不平衡即少数类样本的个数只有极少数的时候,我们将其定义为分布极端不平衡的数据。对于不平衡数据特别是极端不平衡数据,分类模型在训练的过程中,逐渐地愈加关注多数类样本而忽略少数类样本,导致最终的模型对于少数类样本容易误分类,从而影响最终的模型分类性能,特别是当我们重点关注少数类样本的分类效果的时候。例如,2021年在环境学饮用水质数据分析的案例[3]中,水质根据污染程度被分为不同类别,其中影响人们身体健康的主要是严重污染程度的饮用水,因此现实问题中我们重点需要的就是找出严重污染的存在并及时采取措施治理,这便是一个研究分布极端不平衡数据的分类任务。此外,这一类问题在癌症等重症诊断[4]以及信用卡的欺诈检测[5]等领域也很常见。

1.2 面向分布不平衡数据分类问题的研究现状

现有的对于分布不平衡数据的分类问题的研究,如图1.1所示,主要分为数据和算法两个角度,其中前者进一步分为采样、特征和代价,后者通常采用的是集成学习方法。具体而言,第一种,通过各种数据重采样的方法,改变训练样本的分布,一定程度缓解甚至是消除数据的不平衡特性;第二种,考虑的是数据分布的不平衡伴随着数据特征分布的不平衡,通过采取各种特征提取、特征选择的手段构造出更易于区分的特征子集,提高少数类的分类准确率;第三种,从代价角度出发,一般的分类模型默认是平等的看待不同类别的样本,优化目标是最小化损失,可以通过引入代价敏感因子,区分不同类别误分类的代价,将优化目标转变为最小化代价,从而适应性地提高算法对不平衡数据的分类性能;第四种,集成学习方法,通过将多种机器学习算法生成的弱预测结果进行融合,充分挖掘少数类样本的信息,从而可以达到相比于单独使用某个非集成学习算法更好的效果。分布极端不平衡数据的分类问题可以视为该类问题的极端场景,解决方法主要也是基于这四个角度,只不过由于少数类样本所占的比例更小,算法模型对少数类样本和多数类样本的区分难度会进一步提高,对常用方法的要求也会更高。

计算机论文怎么写

第二章 面向分布极端不平衡数据分类问题的算法择优

2.1 问题描述

本文是面向分布极端不平衡数据做分类算法研究的,这里的分布极端不平衡数据指的是不平衡比率超过200的数据。该类数据中,样本分布极为不均,这就导致分类模型在训练过程中,逐渐地被多数类样本所影响,从而忽略少数类样本的信息。然而,在这类分类问题中,更应该受到关注的类别往往是少数类,这就产生了矛盾。为了解决这一问题,本文分别从处理不平衡数据分类问题常用的四个角度出发,研究适用于分布极端不平衡数据的分类方法。

为了论证所提方法的效果,本文选取GECCO2019竞赛数据集——德国饮用水供应组的饮用水数据集water2019以及UCI数据库中的page-blocks数据集作为实验对象,通过数据集的分类效果反映所提方法在分布极端不平衡数据及分布一般程度的不平衡数据中的表现。此外,本文基于二分类研究分类算法,对这两个初始数据集进行了相应的处理。其中,饮用水数据集water2019[3]选取严重污染的类别作为少数类,page-blocks数据集选取“wb_trans”也就是“块的原始位图中的黑白转换数”这一类别作为少数类。

本文的所有实验均是基于这两个数据集进行的,其中water2019完全具备极端分布不平衡的特性,不平衡比率超过200,且样本量较大,共有133212条样本,其中仅有239条(1.79‰)属于少数类样本,其所有特征中,pH, Cond, Turb和SAC都是水质的必要指标,其值的分布(mean±std)如图2.1所示,分别为8.53±0.05, 0.02±0.00 𝑆/𝑚, 0.13±0.01 𝐹𝑁𝑈以及4.10±0.30 𝑚−1 ,Tp和PFM是额外指标,其值的分布分别为8.04±0.89 °C 和 68.66±11.42 Hz;page-blocks不平衡程度相对较低,属于一般程度的不平衡数据集,且样本量较少,共有5472条样本,其中有560条(10.2%)属于少数类样本,其所有特征分别为height、length、area、eccen、p_black、p_and、mean_tr、black_pix、black_and和wb_trans,均是对page中的block的观察值。

2.2 评价指标

普通的分类问题,通常会选择准确率来评估学习模型的分类性能,而在分布极端不平衡数据的分类任务中,由于多数类样本占了极大多数,分类的准确率很大程度上仅能够体现出多数类样本的分类效果,而通常来说,不平衡的分类任务诸如欺诈检测、重症诊断、饮用水质检测等更多的还是关注于少数类的分类效果,因此本文将选择F1-score作为分类模型的评价指标,来对各个分类算法的分类性能进行评估。

本文着重点在于研究极端分布不平衡数据上的分类算法本身,而实际上多分类任务可以视为两两组合的二分类任务,因此本文将基于二分类进行算法研究。

深度学习(Deep Learning, DL)目前已成为各个领域的研究热点。然而,在DF被提出之前,很大一部分人群都认为DL是一种使用深度神经网络(DNNs)的机器学习方法,事实上,DNNs在涉及深度学习的视觉和音频信息的任务中取得了巨大成功,并且当前几乎所有的深度学习应用都是建立在神经网络模型上的。尽管如此,DNNs仍旧有它的局限性[6],首先 DNNs拥有非常多的超参数,并且其学习性能直接依赖于调参,毫不夸张的说,调参工作甚至占据整个科研流程很大一部分阶段,这一点与科学研究的宗旨显然背道而驰。其次,DNNs的训练需要大量的训练数据支持,这就使得DNNs无缘于仅有小规模训练数据可用的任务,而现实任务中很多场景因为高昂的标注数据的成本,缺少足够的训练数据,这就使得DNNs没有取得很好的效果。第三点,神经网络的结构必须在训练之前确定下来,通常来说,为了确保训练过程的顺利进行,模型往往会设计的更复杂,这种做法一定程度上浪费了不少的时空成本和计算成本。此外,众所周知,神经网络是黑盒模型,因此其可解释性一直是被诟病的。最后,从实际出发,即便DNNs已经取得了较大成功,在Kaggle、KDD-Cups等国际竞赛平台上组织的比赛中,RF和XGBoost往往更受欢迎。

第三章 基于混合采样的深度森林方法 ................................ 22

3.1 数据重采样方法 .................................... 22

3.2 基于混合采样的深度森林 .......................... 24

第四章 基于Top-K贪心改进的特征提取及选择的深度森林方法 .............................. 27

4.1 基于次模性质的贪心方法 ................................... 27

4.2 常见异常检测方法及基于异常检测思想的特征提取方法 .......................... 28

第五章 基于代价敏感的深度森林方法 .................................. 37

5.1 代价敏感学习方法 ........................................... 37

5.2 基于代价敏感的深度森林 ...................................... 39

第五章  基于代价敏感的深度森林方法

5.1 代价敏感学习方法

(1) 代价敏感直接学习

本文选取的分类器均是可以采用代价敏感直接学习的方法进行重构的,因此并不需要通过代价敏感元学习来间接地加入代价敏感机制。

代价敏感直接学习主要就是将代价敏感因子与分类算法模型直接结合,对分类器模型进行重构,通过引入代价敏感矩阵,将原本的最小误差这一优化目标转变为代价最小。本文重点挑选代价敏感决策树(CS-DT)、代价敏感随机森林(CS-RF)分别作为非集成学习和集成学习的代价敏感直接学习重构分类器的代表进行对比研究。

2020年Chao等[69]提出了代价敏感深度森林方法,主要用于处理基于特征预测价格的多分类任务。传统的深度森林,对于不同类别的误分类,由于认为它们对分类精度的影响程度是一致的,因此是平等对待的,这一点就导致单纯的深度森林无法直接应用于价格预测任务中。而如果考虑每次错误分类的代价,就可以使得每个错误分类都被迫地更加接近真实地价格类别,并且同时保持着令人满意的准确性。

计算机论文参考

第六章  总结与展望

6.1 工作总结

本文主要研究分布极端不平衡数据的分类问题,首先从算法角度进行遴选,通过将LR、KNN、SVM、DT、GBDT、RF、DF、ODLOF、ODHBOS、ODMCD、ODPCA进行对比,得出DF在分布极端不平衡数据的分类任务中有着最佳的分类性能。接着,分别从采样、特征和代价三个角度研究如何进一步提高深度森林的分类效果,最终得出基于Top-K贪心改进的特征提取及选择的深度森林方法在分类性能上有着最佳的表现。主要工作如下:

1. 从采样角度出发,使用过采样和欠采样相结合的混合采样方法,重新调整样本数据的分布,在一定程度上缓解数据的不平衡程度。实验表明了该方法确实可以进一步提升深度森林的分类效果。该方法数据预处理与模型训练是相互独立的,因而时间复杂度上具备一定的优势;但另一方面,该方法十分依赖于原始数据的分布,如果少数类和多数类样本的交叉程度很高,会直接限制深度森林在分类过程中的表现。

2. 从特征角度出发,将几种经典的异常检测方法计算异常因子的中间过程或者关系矩阵提取为新的特征,结合原始数据得到新的数据,采用Top-K贪心特征选择方法,选出最佳的特征子集。该方法将特征角度的数据处理和Top-K贪心的特征选择相结合,可以充分挖掘少数类与多数类样本的差异,通过实验论证,可以发现该方法有着极佳的效果。但天下并没有免费的午餐,该方法是利用时间成本换取分类效果的做法,具有较高的时间复杂度,因此只适用于较低维度的数据集,并且需要较高的算力来支持。

参考文献(略)