本文是一篇计算机论文,本文基于机器学习算法对赖氨酸琥珀酰化位点预测进行研究,分析了提取特征的过程并在此基础上探索了特征提取方法,选择了合适的机器学习算法来构建分类器,从而更好的对赖氨酸琥珀酰化位点进行预测。
第1章 绪论
1.1 研究背景及意义
蛋白质是构成人体所有细胞和组织的重要成分,据统计蛋白质的含量约占人体内全部质量的百分之十八,氨基酸通过脱水缩合方式形成多肽链,继而进行盘曲折叠形成蛋白质,由生物体经过基因表达过程进行合成,根据人类基因组计划,人类基因组具有将近两万多个基因,但是在人类蛋白质组中蛋白质总数量就已经超过了一百万,造成这种大比例不平衡,其中不可忽视的原因之一就是蛋白质合成过程中发生了修饰[1]。
蛋白质翻译后修饰(Post-Translational Modifications,记为PTMs)是指mRNA翻译成蛋白质的过程中发生的修饰,它是调节蛋白质功能的关键性因素,导致了蛋白质类型更多元、结构更复杂以及功能更完善[2],在生物学过程和信号通路中起着难以取代的作用,并可逆地决定了细胞动力学和可塑性[3]。蛋白质中含有二十种氨基酸,其中赖氨酸是最常见的共价修饰的目标之一,可进行诸如泛素化、巴豆酰化、乙酰化、丙酰化以及丙二酰化等修饰[4],经过这些修饰,含有赖氨酸的蛋白调控作用范围将被大大拓宽。近年来,琥珀酰化修饰被发现是发生在赖氨酸上的一种新型的PTMs,引起了国内外许多研究人员的关注[5]。
琥珀酰化(Succinylation)修饰是指琥珀酰基团供体(如琥珀酰辅酶A)通过酶学或者非酶学作用将琥珀酰基团(CO-CH2-CH2-CO)共价结合到底物蛋白的赖氨酸残基的过程。琥珀酰化修饰赋予赖氨酸基团2个负电荷,能够导致更多蛋白质特性的改变,据了解得知琥珀酰基团的空间结构较大,对于蛋白质结构和功能的影响较为显著。琥珀酰化是原核细胞和真核细胞中存在的一种广泛保守的修饰类型,其协调各种生物过程,如基因表达[6],这也表明了琥珀酰化会引发赖氨酸的化学结构发生更实质性的改变[7]。琥珀酰化也参与了很多核心能量代谢途径(包括三羧酸循环、糖代谢等),影响线粒体中的代谢过程,对线粒体失调相关的疾病的研究具有重要价值。同时,琥珀酰化失调与人类许多疾病密切相关,包括炎症、癌症、结核病、神经退行性疾病以及过敏性皮炎等[8]。
1.2 国内外研究现状
近年来,由于基因测序技术的快速发展,基因数据信息越来越丰富,对于进行相关科学研究更加便利,再加上机器学习算法的普及与广泛应用,非常多的研究人员将机器学习算法运用到赖氨酸琥珀酰化位点预测研究任务中来,这类计算方法将高通量实验得到的蛋白质序列琥珀酰化位点等信息进行处理获取序列特征,输入到机器学习模型中,分析不同特征对琥珀酰化预测的影响,从而准确预测琥珀酰化位点。总结相关文献发现,一大批研究人员已开发许多快速且有效的生物信息学工具来预测琥珀酰化位点,如传统机器学习、深度学习以及宽度学习(BLS)[12]等。传统机器学习已成为预测琥珀酰化位点的常用方法,2015年,Xu等人[13]开发了一个基于SVM的预测器iSuc-PseAAC,但没有考虑到数据集的分布。2016年,Jia等人提出两个预测模型:pSuc-Lys[14]和iSuc-PseOpt[15],然而,这两个分类器缺少一些重要序列信息,此外,iSuc-PseOpt将序列耦合效应合并到伪成分上,优化了不平衡数据集,但分类器性能高度依赖于数据。Hasan等人[16]利用最新的高通量蛋白质组检测中的一些新型琥珀酰化位点的数据集,在2016年构建SuccinSite预测器,将氨基酸模式和属性引入随机森林(RF)预测琥珀酰化位点。2017年,Dehzangi等人[17]开发PSSM-Suc预测器,该预测器使用位置特定评分矩阵(PSSM)进行特征提取,并使用氨基酸进化信息来预测琥珀酰化。此后,Dehzangi等人[18]在2018年又提出SSEvol-Suc预测器,将二级结构和PSSM通过图谱双字节映射整合到AdaBoost分类器中预测琥珀酰化位点,与iSuc-PseAAC、iSuc-PseOpt、SuccinSite和pSuc-Lys预测器相比取得明显改善。同年,Hasan等人[19]通过使用逻辑回归(LR)结合不同RF评分的输出,构建GPSuc预测器。Yosvany等人[20]结合氨基酸的结构和进化信息与双链图谱,基于SVM提出Success分类器。2020年,IFS-LightGBM使用LightGBM特征选择方法和增量特征选择(IFS)方法的组合来选择提取多种类型特征信息的最佳特征子集[21]。2021年,Ge等人[22]提出SuccSPred分类器,通过融合特征和排序方法以及朴素贝叶斯来预测琥珀酰化位点。显然,基于传统机器学习算法,在预测赖氨酸琥珀酰化位点方面已经具有了很大的研究进展。但是,传统机器学习算法需要人工提取特征和基于数据的精心设计,导致对数据库的依赖,消弱了模型的泛化能力,因此,探索一种新的琥珀酰化位点识别方法是非常必要的。
第2章 理论基础
2.2 特征提取方法
2.2.1 EBGW
根据粗粒度的思想,如果完全不同的事物具有相同的特征,那么可以将它们作为一个整体来考虑。众所周知,正是由于20种不同性质的氨基酸的随机组合,蛋白质结构以及蛋白质功能的特异性和多样性等特性才得以体现[31]。因此,本文决定应用氨基酸的物理和化学性质来捕捉琥珀酰化和非琥珀酰化位点之间的特定信息。
考虑到疏水性、带电性和粗粒度的思想,本研究采用了基于分组权重的编码方案(EBGW),将这20个氨基酸分为四个基团,如表2-1表示。
2.3 机器学习算法
2.3.1 传统的机器学习算法
在生物信息学的研究领域中,传统的机器学习算法被广泛地应用于不同的任务,包括但不限于分类、聚类以及回归等等。这些算法包括逻辑回归算法、朴素贝叶斯、支持向量机、K近邻算法、随机森林、XGBoost、决策树以及LightGBM算法等等,在本研究中,为了解决特定的问题,本文选择了逻辑回归算法、支持向量机以及LightGBM算法作为主要的传统的机器学习算法。逻辑回归算法是一种经典的分类算法,具有简单快速的训练过程,并且易于解释。支持向量机也是一种强大的分类算法,适用于各种类型的数据,并且在许多实际应用中表现出色。LightGBM算法是一种基于梯度提升决策树的快速、高效的机器学习算法,其具有高准确率、低内存消耗的优点。因此,本文将重点介绍逻辑回归算法、支持向量机和LightGBM算法的原理、特点、优缺点以及在生物信息学研究中的应用等方面的详细内容。
2.3.1.1 逻辑回归算法
逻辑回归(Logistic Regression,记为LR)常用于二元分类问题,它是基于最大似然估计推导的方法,核心思想是通过建立一个输入特征和输出标签之间的映射关系来实现二元分类任务。逻辑回归的输出结果是一个概率值,表示某个样本属于某一类的可能性大小,介于0和1之间。假设我们研究的数据集中的数据服从伯努利分布,那么可以使用逻辑回归算法来实现二元分类。具体地,使用似然函数的对数变换来表示模型的拟合程度,并通过梯度下降获取模型的参数,最终得到一个可靠的分类器。但需要注意的是,逻辑回归的本质是一种线性回归模型,其输出结果经过Sigmoid激活函数处理后得到,用于进行分类任务。虽然逻辑回归模型具有一定的局限性,但在许多实际应用场景中仍然是一种非常有效的分类算法。
第3章 基于特征融合和 Stacking 集成学习的琥珀酰化位点预测 .. 26
3.1 引言 ...................................... 26
3.2 材料与方法 ........................... 26
第4章 基于密集卷积块与注意力机制模块的琥珀酰化位点预测 .... 34
4.1 引言 ........................ 34
4.2 材料与方法 ............................. 34
第5章 琥珀酰化位点在线预测平台开发 ....................... 44
5.1 引言 ............................. 44
5.2 预测功能介绍 ........................... 44
第5章 琥珀酰化位点在线预测平台开发
5.2 预测功能介绍
打开pSuc-EDBAM在线预测平台的网址,会看到如图5-1所示的主页面。根据主页面上显示的信息,可以发现,本预测平台以两种方式实现对琥珀酰化位点的预测,一是对单条序列进行预测,二是使用文件上传的方式对文件中的序列进行批处理从而得到琥珀酰化位点的预测结果。
第6章 总结与展望
6.1 总结
随着大数据的发展,赖氨酸琥珀酰化序列数据不断积累,为了更好的对琥珀酰化位点进行预测,从序列数据出发,基于机器学习对琥珀酰化位点进行研究,构建有效的模型,为识别琥珀酰化位点提供有效指导。本文工作主要包括:
1.基于特征融合和Stacking集成学习的琥珀酰化位点预测。通过特征融合和Stacking集成学习算法预测蛋白质序列中的琥珀酰化位点。具体来说,首先使用EBGW、One-Hot、CBOW、CGR和AAF_DWT提取序列信息和理化性质。然后,进行特征选择,应用LASSO为分类器选择最优特征子集,结合宽度学习、SVM、LightGBM和逻辑回归构建Stacking集成分类器。为了进一步提高模型预测精度和减少计算量,利用贝叶斯优化算法和网格搜索算法对分类器的超参数进行优化。最后,基于严格的十折叠交叉验证训练数据,在考虑了模型的训练误差的基础上,还考虑了模型的泛化误差,以便更客观地评估预测器的稳健性,对已发表文献中收集到的琥珀酰化位点数据集进行预测,预测准确率达到77.73%,AUC为0.8501。基于该数据集优于目前现有的方法,对于预测赖氨酸琥珀酰化位点具有重要意义。
2.基于密集卷积块与注意力机制模块的琥珀酰化位点预测。提出了一种新的基于密集卷积块和注意力机制模块的预测器pSuc-EDBAM,该预测器采用One-Hot来获取蛋白质序列的特征图,并通过一维CNN生成低级特征图。然后,在特征学习过程中,利用集成密集块获取不同层次的特征信息。我们还引入了注意力模块来评估不同特性的重要程度。实验结果表明,在独立测试集上,准确率达到了74.25%,AUC达到了0.8201,表明pSuc-EDBAM的预测性能优于现有的预测方法,可以有效地预测潜在的琥珀酰化位点。
参考文献(略)