本文是一篇计算机论文,本文提出一种面向非平衡数据流的在线核学习算法SA-CNOGD,用于非平衡数据流的二分类问题。
第一章绪论
1.2研究背景与意义
随着我国工业生产的迅速发展和科技的日新月异,对于油气资源的需求量逐渐增加[1]。为了满足国内的石油消费需求,我国会从国外进口大量原油。受俄乌冲突、全球经济复苏拉动等因素影响,2022年上半年国际油价大幅攀升[2],因此加大油气藏勘探开发力度,夯实国内产量基础至关重要。我国非常规油气可采资源量在(890~1260)×108 t左右,是常规油气资源量的3倍左右[3]。有效开发非常规油气藏对于缓解油气供需矛盾、保障我国能源安全、具有十分关键的战略意义。
微地震监测技术是油气藏勘探开发领域的一项关键技术,其通过在井下或地面上部署检波器来监控因岩石破裂而产生的微小震动,进而获取岩石断层产生的微小地震波。对微震波进行反演定位可以确定微地震发生的准确方位,进而获取岩层的破裂走向、倾角等参数,最终达到提高石油和天然气产量的目的[4]。但由于岩体断裂引起的震动震级低、信号弱、持续时间短,容易被周围环境噪音干扰,因此收集到的微地震资料中包含较多的噪音,这为微型地震信号识别以及后续的行震源反演和定位带来了极大的困难。因此,目前微型地震探测技术的如何高效探测微小地震波,这对于勘探和勘探工作有着十分关键的作用[5]。在实际工程项目中,噪音非常复杂,常常会侵蚀微小的地震波信号,从而干扰微地震的数据处理。目前,对于微小地震波的识别大多采用了常规的微型地震波的识别技术。例如,AIC[6],波形互相关[7],STA/LTA[8]等。近年来,随着人工智能技术的不断发展,机器学习算法学习模型开始应用于地球物理领域,边银菊等人很早地应用遗传算法指导天然地动和人造爆破的识别[9]。在很早的时候,支持向量机就被张斌教授用于识别核爆炸事件与天然地动事件[10]。将逻辑回归算法与浅层神经网络相结合,Vallejos[11]提出了用于识别微小地动信号的新算法。根据现有研究表明,在微地震勘探过程中,将机器学习方法应用于微地震信号识别,可以极大地提高预测的精度。
1.3国内外研究现状
1.3.1核函数选择研究现状
对于基于核[14]的学习算法而言,核函数的选择对其学习结果起着举足轻重的作用[15],被认为是影响核方法效果的重心。核函数的选择涉及核函数种类、参数以及组合形式的选择[16]。一般基于经验来说,线性核函数常被用于高维样本,而对于低维样本,一般使用高斯核函数,样本被高斯核函数映射到高维特征空间,在新的特征空间使用样本特征进行充分地拟合。同时,常用的参数寻优算法也可用来进行核函数选择,如交叉验证法[17]、网格搜索法[18]等,将核函数类型或核函数参数看作算法需要寻优的参数,利用寻优算法选择使得算法最佳时对应的核函数形式。其中,原始数据集通过交叉验证方法被分割为训练集和验证集,首先基于训练集进行训练,然后利用验证集来评价训练所得模型的好坏,在此过程中选择最佳的核参数以使得模型具有良好的学习能力。网格搜索法是一种指定参数值的穷举搜索方法,通过对核参数进行枚举,选择在数据集上表现最佳的核函数参数。
除上述方法外,智能优化算法也可用于核函数参数的选择,如贺心皓[19]等通过粒子群优化算法优化支持向量机参数,试验结果表明,粒子群参数寻优算法在支持向量机的参数优化方面具有良好的鲁棒性;程彩凤[20]等提出基于社会情感优化算法的参数选择方法,核函数参数和惩罚参数同时被该算法优化,实验结果表明支持向量机的寻优能力通过该算法得到较大地提高,且有着良好的收敛性;刘天健[21]通过蝙蝠算法和禁忌搜索算法相结合的方式对支持向量机的核函数参数进行优化,支持向量机由此提高了分类准确率的同时增强了稳定性。
第二章基于改进Nyström的自适应加权在线核学习算法
2.1自适应加权在线核学习
在线学习的应用场景为样本序列化学习。在线学习算法顺序接收数据,在每一次收到数据之后,算法给出预测的结果。在算法作出预测后,将接收到正确的标签,用作反馈,接着算法能够有选择的修正预测机制,以期能作出更为正确的预报。在线核学习属于在线学习的一个分支,学习器通常为SVM。然而,SVM对类别分布不均衡的训练数据存在一定倾向性,这将导致算法学习效果不佳,一种常用的解决办法是在SVM优化问题的损失函数前加一个权值系数来控制超平面的偏移,针对在线学习的数据训练特点,本文提出了一种自适应加权在线凸优化,随着数据分布的不断变化,自适应地控制在线分类模型中分类超平面的偏移。传统在线核学习方法的一个挑战在于在线学习过程通常必须在内存中维护一组支持向量,以表示基于核的预测模型。
在线学习过程中,每当新的传入训练实例被错误分类时,该实例被添加到支持向量集合中,使得支持向量集合的大小不受限制,当数据量不断增多时,容易导致内存溢出。一类解决支持向量数量灾难问题的研究方向是“预算在线内核学习”,该方法在预算溢出时使用不同的预算维护策略将支持向量的数量与固定的预算大小绑定。基于Nyström的在线核学习算法(NOGD算法)是其中的一个典型算法,该方法将数据从输入空间转换到新的特征空间来逼近核函数,然后将现有的线性在线学习算法应用于新特征空间。基于该方法的思想,为进一步提高算法效率,本文提出改进的Nyström近似方法,结合自适应加权在线凸优化提出一种新的在线核学习算法,并以此算法作为面向非平衡数据流的在线多核集成学习算法的基分类器学习算法。
2.4基于CNyström的自适应加权在线核学习
2.4.2 SA-CNOGD算法
2.1和2.2节分别介绍了自适应加权在线核学习和CNyström算法的近似过程。SA-CNOGD算法基于CNyström算法和自适应加权在线凸优化问题而提出,是一种面向非平衡数据流的在线核学习算法。SA-CNOGD算法同NOGD算法一样分为两个阶段,图2.3展示了本文提出SA-CNOGD算法的总体框架。
第三章 基于规范化核对齐的在线多核集成学习 ................................ 27
3.1 基于规范化核对齐的基核函数选择方法 ....................... 27
3.1.1 核对齐 ................................. 27
3.1.2 规范化核对齐-NKTA ............................. 28
第四章 基于在线多核集成学习算法的微地震信号识别 .................... 39
4.1 微地震信号识别流程 ................................ 39
4.2 微地震信号特征提取与影响因素分析 ........................................ 41
结论 .................................. 49
第四章基于在线多核集成学习算法的微地震信号识别
4.1微地震信号识别流程
微地震信号识别的流程图如图4.1所示。
结论
对于非常规油气的开采,可以通过对微地震信号的识别为后续的反演工作奠定基础,进而改进低渗地层的渗透性,加大非常规油气资源开发力度。传统人工识别方法需要操作人员有较高的知识水平和经验且时间效率低。而AIC、能量比、相关法、分维数等方法在低信噪比情况下识别准确率不高。本文提出一种在线多核集成学习算法来进行微地震有效信号的识别,以满足对实际油田勘探开发领域的需求。本文主要的研究成果如下:
(1)本文提出一种面向非平衡数据流的在线核学习算法SA-CNOGD,用于非平衡数据流的二分类问题。在该算法中考虑到SVM对类别分布不均衡的训练数据存在一定倾向性,这将导致算法学习效果不佳,本文提出一种自适应加权在线核学习,自动调整到达的训练样本的惩罚参数,以控制分类超平面的偏移。同时,为提高大规模非平衡数据流的学习效率,综合Nyström和主元Cholesky分解迭代算法,提出了一种新的近似方法-CNyström方法,基于该近似方法,将数据从输入空间转换到新的特征空间来逼近核矩阵,然后将现有的自适应加权在线核学习算法应用于新特征空间。
(2)本文提出一种基于规范化核对齐的在线多核集成学习算法MK-SA-CNOGD,利用集成学习技术,综合多种核函数的特征映射能力,利用在线Boosting算法以SA-CNOGD算法为集成学习基分类器学习算法,进一步优化了SA-CNOGD学习算法在不平衡噪声数据流上的分类性能。在集成学习中,基分类器的分类效果影响集成后分类器的分类性能,而基于核方法的分类器的性能又直接取决于所用核函数的质量。所以,针对核对齐方法对类别分布的敏感性问题,本文利用样本类别分布信息重新定义了理想核矩阵,并用规范化核矩阵代替核矩阵提出了一种新的核函数度量方法-规范化核对齐。并将规范化核对齐方法引入其中指导MK-SA-CNOGD算法中基核函数的选择。
(3)本文应用上述方法建立微地震有效信号识别模型,以快速准确地检测到微地震事件。
参考文献(略)