本文是一篇计算机论文,本文针对当前金融信贷数据存在的问题,以及比较了常用的个人信用评估模型后,确定使用 BP 神经网络模型作为基本的个人信用评估模型,相比较传统的信用评估模型,BP神经网络更适用于信贷数据这类高维复杂的数据。
第一章 引言
1.1 研究背景
随着我国经济实力不断提高、金融市场不断开放,各种互联网金融机构不断出现,金融机构各种信贷产品不断扩展,以小额贷款及无抵押贷款等形式为代表的一系列贷款业务井喷式发展,但没有相应合理的审批步骤和监管措施与之同步发展。同时,由于互联网时代的数据量剧增,信贷数据呈现一种高维度、高噪声的特点,造成了金融机构各种贷款业务违约率大幅度提高,在一定程度上造成了金融市场的混乱。国务院金融委发布进一步开放信用评级行业的改革办法[1]。金融机构正处于一个新兴市场和转轨型经济的环境下,在 2007 年,次级抵押贷款机构由于资金无法回流导致机构倒闭,引发了全球的金融危机。在这场危机中,全球金融市场遭到破坏,一定程度上阻碍人类社会的发展[2],由此可见重视和防范金融风险的发生,保证各类金融机构在业务拓展过程中的健康稳定非常重要。近几十年,随着科学技术水平的提高,金融机构的信用评估方法已经由最初的人工评估方法逐渐过渡到近些年的数理统计模型或机器学习模型。良好性能的个人信用评估模型可以有效的减少金融机构可能发生的金融风险。
近些年,神经网络作为一种新兴的数据挖掘算法,在金融领域有着广泛的应用[3]。它具有非线性映射和并行处理的优点,通过自身的网络结构,对金融贷款数据的多维复杂特征进行学习,自动调整内部大量连接权重,尽可能的拟合数据特征。神经网络的自组织、自学习、超强记忆、高容错等能力适合处理目前类似信贷数据这种多维高噪声的非线性数据。建立性能优良的模型不仅需要好的算法,同时对建模数据也要有一定的要求。
个人信用评估模型在训练和学习的过程中使用的是金融机构本地的数据,但大部分金融机构的数据规模较小,只基于自己的数据集训练得出的模型在实际应用中存在过拟合现象,不能有效的识别出违约贷款信息。同时还存在由于贷款业务的种类特殊,某类大额贷款业务的信贷数据只有几百到几千条,如果只通过一家金融机构的数据对这类业务建模,模型效果通常难以达到要求。随着社会进步,现代社会逐渐意识到数据所有权的重要性,人工智能在各行各业的应用落地,人们对于用户隐私和数据安全的意识也在不断提高。
1.2 国内外研究现状综述
最早将信用评估问题归结为分类问题的是 1936 年统计学家 Fisher 提出的,当时美国信贷业务开始发展,很多金融结构的贷款业务也因此快速发展,金融机构在处理申请信息过程中开始对用户的信息进行信用评估,专家系统[6]是最早用于个人信用评估的系统。这套系统用以评估信贷申请人的信用程度。1941 年,统计学家 David Durand[7]通过特征维度来评估申请人的违约风险,在当时金融机构使用这种方法来区分申请人的信用好坏。1996 年,W. E.Henley 和 D. J. Hand[8]将改进的 K 近邻方法应用于金融风险评估中,相较之前方法提高了信贷数据的预测准确率。2003 年,姜明辉等人[9][10]采用线性判别法对信贷数据进行预测,通过实验证明分类树较其他传统方法有较好的结果。在 2005 年,石庆焱[11]首先通过使用逻辑回归将相关性高的特征去掉,将其结果应用于人工神经网络具有更好的效果,达到了提升模型效果的目的。2011 年,Paulius Danenas 等人[12]通过实验研究对比了多个分类器,对多个常用分类器进行实验,其结果表明通过机器学习对信贷数据进行建模具有一定的优势,但是对于分类器选择和模型的参数的调优仍是繁杂的问题。人工智能时代的来临,众多学者将神经网络应用于信用评估模型。2014 年,Stjepan Oreski[13]等学者发现当前金融机构研究的数据都是高维数据,过多不相关的特征可能会降低神经网络的预测精度。Stjepan Oreski 等学者通过遗传算法,在数据预处理中选择重要的特征,使用神经网络建模。实验结果表明,利用特征选择技术可以提高信用评估模型的准确率。2014 年,萧超武[14]等人使用随机森林作为个人信用评估模型,通过实验对比,基于随机森林的模型比传统单分类器模型具有更好的泛化性和预测精度。2018 年,Yashna Sayjadah[15]等人对比了逻辑回归和决策树以及随机森林算法对信贷数据的预测准确率,结果表明随机森林具有较高的准确率。通过对上述文献的研究,发现其中逻辑回归等线性统计方法针对目前复杂多维的非线性金融信贷数据都没有较好的拟合效果,传统的神经网络对数据的维数、数据量等都有较高要求,随机森林同样要求一定程度的数据量才得到较为理想的效果。
第二章 相关理论
2.1 信用风险与个人信用评估
信用[27],指的是一种社会关系。授信人相信受信人从而确定信任关系,在确定信任关系的过程中,授信人的判断和受信人的信用资质起着决定性作用。经济学上,指的是在经济活动中,双方通过签订合同的方式一方向另一方放贷,同时也要在契约中保证资金可以回流增值,因此经济学上的信用概念为狭义的信用概念,一般是指借贷信用。
个人信用风险[28],是指债务方不能或不愿及时的偿还债务时,所造成的对于债权方的潜在损失。分别从广义和狭义两方面来讲,从广义上来讲,个人信用风险分为两部分组成,分别是违约风险和债务人的信用等级下降对金融机构造成的潜在损失的可能性。而狭义上是指信贷风险,即债务人主观原因或客观原因所导致的违约行为发生的可能性。其中的主观原因一般和债务人的道德水平紧密相关,例如债务人的财务能力已经满足还款的条件,但主观意愿上不愿意偿还,选择恶意拖欠。而客观原因一般是指债务人并不是恶意拖欠贷款,但是在经营活动中由于不可抗力因素的影响导致遭遇了一定程度的个人经济困难,最后导致对信用资产的偿还困难。由上述可知,两种风险都是因为借款方由于主观或客观的原因造成信用状况的变化从而导致债权方的资金产生了风险,两者所包含的范围不同。信用风险包含信贷风险和信用改变所导致的风险。
当前,贷款业务作为我国众多金融机构的主要经营业务,在开展业务的过程中,合理高效的对借款人进行信用评估就显得格外重要。一旦不能对借贷人进行准确的估计,将会造成不可估量的严重后果,过高的信贷风险造成大量的违约行为发生,因此造成金融机构的资金大量损失,严重的还会导致申请破产,对各行各业都造成了难以估量的严重后果。本文所研究的对象为金融借贷风险。
2.2 个人信用评估方法对比
个人信用评估最早是基于个人的知识和经验对申请人的信用状况进行分析,判定是否可以贷款,这样的方式缺点是主观性太强,无法客观的全面的对申请人的信息资料进行全面的评估。
近些年随着计算机等众多统计方法以及机器学习方法的发展,如表 2.1 所示,近些年众多的统计学习方法和机器学习方法应用于个人信用评估模型[29]。通过对本地商业银行的调研以及对相关文献的研究发现,目前信贷数据呈现出的一种非线性、高维度、以及特征分布广泛、数据稀疏等问题。通过对比如下方法,其中通过数理统计的方法评估个人信用时,针对高维稀疏且有噪声的信贷数据时不能很好的应用。同时,传统的数理统计方法对非线性数据映射能力较差。相较而言,神经网络技术具有较强的非线性映射能力,从而减少对数据特征、范围的要求。同时,神经网络也能适用于稀疏数据和噪声数据。因此本文将 BP 神经网络作为个人信用评估的基本模型。
第三章 改进的 PSO-BP 神经网络模型的研究..................................17
3.1 PSO 优化算法的收敛性分析........................................17
3.2 PSO 算法常见改进的分析.................................18
第四章 基于联邦学习架构的个人信用评估模型.................................37
4.1 横向联邦学习架构.....................................37
4.1.1 本地客户端...............................................37
4.1.2 中央服务器.............................................38
第五章 实验与分析................................45
5.1 数据集介绍.................................................45
5.2 系统评价指标..................................................47
5.3 数据预处理................................................48
第五章 实验与分析
5.1 数据集介绍
本文所使用的数据集是 Lending club 的信贷数据集1。Lending club 是美国的一家经营借贷业务的金融公司,总部设在旧金山。它是第一个在证券委员会(SEC)注册的。公司 lendingclub 为客户提供各种类型的贷款。公司收到贷款申请时,必须根据申请人提供的信息确认是否批准贷款。金融机构风险相关的决策有两种:
(1)如果申请人可能偿还贷款,那么不批准贷款将导致公司业务的损失。
(2)如申请人不太可能偿还贷款,则批准贷款可能会令公司蒙受经济损失。
数据集的字段包括 loan_amnt、term、int_rate、installment、grade、sub_grade、emp_title、emp_length、home_ownership、annual_inc、verification_status、issue_d、loan_status、purpose、title、zip_code、addr_state、dti、earliest_cr_line、open_acc、pub_rec、revol_bal、revol_util、total_acc、initial_list_status、application_type、mort_acc、pub_rec_bankruptcies,共 28 个字段具体含义如表 5.1 所示。
第六章 总结及展望
6.1 论文工作总结
本文研究了 BP 神经网络、PSO 优化算法、遗传算法、混沌搜索、联邦学习的技术和要点,在此基础上提出联邦个人信用评分模型。针对当前众多金融机构存在信贷数据维度高,噪声高的数据,以及本身数据质量差、数据量少,从而引发的违约行为大幅度上升的问题,本文从以下三个方面进行了个人信用评估模型的构建:
(1)本文针对当前金融信贷数据存在的问题,以及比较了常用的个人信用评估模型后,确定使用 BP 神经网络模型作为基本的个人信用评估模型,相比较传统的信用评估模型,BP神经网络更适用于信贷数据这类高维复杂的数据。
(2)本文提出了 CS-GA-PSO-BP 神经网络模型,在 PSO 寻优过程中加入了遗传算法和混沌搜索,保证在训练数据过程中不易陷入局部最优,具有更好的全局寻优能力,进一步提升了 PSO-BP 神经网络模型的准确性。减少了违约行为的发生的次数,一定程度上降低了金融信贷风险。
(3)在 CS-GA-PSO-BP 神经网络模型的基础上结合联邦学习的分布式学习架构,达到不同的金融机构通过适应度值传递的方式来协同训练个人信用评估模型的目的。其训练模型过程不需要上传本地数据集,因此保证了各家金融机构数据的隐私性和安全性,也提高了模型的性能。
参考文献(略)