本文是一篇项目管理论文,通过对相关文献的阅读与学习,了解了国内外学者在信用评分研究领域的学术成果。在理论介绍方面,本文阐述了建模所应用到的多种机器学习算法原理,包括逻辑回归、K-均值聚类和决策树算法。
1 绪论
1.1 研究背景与意义
自2022年以来,“提前还贷”现象在商业银行集中爆发,该现象已成为社会经济金融领域中备受关注和讨论的热点问题。受近几年新冠疫情以及当前经济发展周期波动的影响,社会层面借款人可支配收入降低、投资渠道减少等现象普遍发生,使得个人总体预期收益呈现下降趋势,该问题致使大量借款人选择提前还贷。而在金融行业层面,一方面银行受益于利息存贷差红利,对于提前还贷业务存在畏难情绪。另一方面,银行业中间业务萎缩且总体收益项目额度增长乏力,迫使银行业对于主流贷款业务的依赖性增强。这些原因造成银行业对于“提前还贷”问题处理态度消极,并随之产生大量社会负面舆情。因此,银行业需要采取合理、有效、可行的管理策略,评估“提前还贷”行为的资金规模,提升对经营风险预测的前瞻性,做出应对“提前还贷”的决策预案。银行业现有的基础信息与用户行为数据可以支撑对“提前还贷”行为的预测。然而,银行业现有的评估手段更多着眼于信贷项目的贷前风险管理,而未覆盖“提前还贷”问题的需求。解决该问题行之有效的方式是开展贷中贷后的项目风险评估。通过一定的技术手段和算法分析现有数据中深层次的关联关系,可以有效应对大规模的“提前还贷”潮。但是银行业目前缺乏对“提前还贷”问题的技术分析手段,相关学术界也缺乏此类研究。因此,我们的目标是基于现有基础信息与用户行为数据识别出具有较高提前还贷倾向的用户,进而为银行业的信贷决策提供支持,实现对“提前还贷”风险的预警,进而促进整体金融行业个人信贷业的稳健发展。
1.2 国内外研究现状
1.2.1 国外研究现状
国外在信用风险评估方面的研究有近二百年的历史,已经具有相对完备的数据支持与体系框架,并且衍生了相关法律体系以及监管体系。基于此现状,对于如何科学地建立完善的信用评级方法,国外学者进行了大量的研究工作,在诸多方面取得了突破。
早期以专家法与统计学法为主流信用评分方法。所谓专家法,是指信用审核专家根据某些因素来确定申请者是否符合条件,尽管可以在某种程度上降低金融风险,实现信用评级,但这一切都要依靠专家们的主观判断,在同一个问题上,不同的专家可能会有不一样的见解。随着信用风控领域的不断发展,研究者从特征量化入手,将统计分析方法应用于信用评分领域中,并且随着机器学习算法不断进步,更多的学者开始在信用评分领域中运用各种具有优良性能的模型。
Mehdi等人以实际信用数据为研究对象,将神经网络和智能计算结合起来,当条件波动变化很大时,在金融二元决策方面仍取得了较为突出的成绩[5]。Maha Bakoben等人对账户行为进行聚类分析,基于帐户行为的聚类结果识别出异常帐户[6]。Jonathan采用单事件生存模型对贷款使用者在一定时间序列内发生违约的可能性进行预测,研究发现,相对于传统模型,这种模式有其性能上的优越性[7]。单一模型由于性能的限制而具有上限,已无法适应纷繁复杂的金融风控场景。Adnan采用Bagging集成人工神经网络建立信用评分模型[8]。Jasmina Nalić等人 [9]基于特征选择,采用集成学习算法的混合数据挖掘模型,由此分析得出,通过投票选择方式筛选出来的特征变量,以及集成广义线性模型和决策树模型之后,组合模型性能最佳。Keqin Chen等人[10]通常将logistic回归模型与WOE相结合,构建混合评分模型,提高信用评分的准确性,从而减少信用欺诈行为的发生。Xolani Dastile等人[11]研究了用复杂机器学习模型替代logistic回归模型所产生的影响,由此发现,从整体来看,一个分类器组合优于单个分类器表现。Eftychios Protopapadakis等人[12]使用多种算法来进行特征变量的选择,以及处理类不平衡的问题,继而组合多种分类器,并且检验了预测模型的性能。
2 理论基础
2.1 相关理论
2.1.2 变量分箱
变量分箱为一种特征工程方法,旨在提高变量可解释性和预测能力。变量分箱是对变量进行离散化的一种操作,其取值可被分割或者归并到几个分组中。变量分箱方法在连续型变量的情况下,要求在找到切分点之后,所有取值范围都被切分成几个不相交的区间。在分类型变量的情况下,采用变量分箱的方法,需把离散取值作组合,然后再划分为几个组。变量分箱方法多适用于连续变量的情况,对变量取值比较稀少的离散变量,也应做分箱处理。例如借款人地址信息一般都较为稀疏,地址信息可先在省市进行处理,以各省或各市的坏样本比率做数值化处理,经过数值化处理的变量就可以作为连续变量来进行分箱操作。
1 变量分箱的优点
(1)减小了异常值产生的影响并提高了模型的稳定性。
当数据出现异常值时,会导致模型出现不同程度的偏差,因而影响了预测效果。采用分箱方法,可减小异常值噪声特性,使得模型更加稳健。比如,把极端值置于边界分箱,能够避免极端值对模型拟合的负面影响。从某种意义上说,采用分箱操作的方式,变量平滑化,能够消除毛刺波动所造成的影响,由此提升模型稳定性。
(2)缺失值以特殊变量的形式参与分箱以降低缺失值填充过程中的不确定性。
由于某些原因导致部分特征训练数据存在缺失值,如用户输入不正确、操作人员出现错误或者数据存储出现问题等。而大部分机器学习模型都是无法处理缺失值的。分箱方法能将缺失值作为一种特征,由此可以免去主观填充带来的不确定性问题,从而增强模型的稳定性。通常的做法是,对于离散特征,将缺失值转为字符串作为特殊字符;对于连续特征,则是将缺失值作为特殊值,从而缺失值作为一个特征参与分箱。
2.2 相关算法
2.2.1 逻辑回归算法
逻辑回归(Logistic Regression)是信用评分领域中常用而又重要的分类模型。逻辑回归模型常规情况下属于广义线性模型,其首先由解释变量用多元线性回归来表示,然后使用Sigmoid激活函数来实现转换,把原输出区域从实数集转换为(0-1)。就以二项逻辑回归来说,因变量Y是一个二元变量且取值为0或者1。通常把研究对象标为“1”。给定一个解释变量X,因变量的条件期望其实是计算因变量某一水平下取值为“1”的可能性,即研究某一事件发生的概率:𝐸(𝑌|𝑋 = 𝑥) = 𝑃(𝑌 = 1|𝑋 = 𝑥) ,所以逻辑回归模型如公式2.5所示
等式左侧关注事件发生概率与未发生概率的比值,这一比例越大,表明该事件越易发生。其取值范围在0至无穷大之间。逻辑回归模型具有易实现的优点,进行分类时,计算量非常小,计算成本不高,从而能很快地得到最优解,还具有高度可解释性,在建模时可通过增加L1或L2正则项,解决多重共线性与过拟合的问题。而由于逻辑回归模型简单,在研究对象的特征空间较大时,模型取得的效果相比复杂模型取得的效果差距较大。
3 实证研究—基于某互联网银行的用户数据建立评分模型 .............. 27
3.1 数据概述 ........................................ 27
3.2 数据预处理 ................................... 27
3.3 特征工程 .......................................... 30
4 基于特征评分设计风险管理策略 ....................... 42
4.1 基于评分模型生成特征变量路径 ...................... 42
4.1.1 基于总评分的样本分群 ............................... 42
4.1.2 特征变量路径的生成 .............................. 43
5 总结与展望................................ 49
5.1 全文总结 ................................. 49
5.2 研究展望 ................................... 50
4 基于特征评分设计风险管理策略
4.1 基于评分模型生成特征变量路径
4.1.1 基于总评分的样本分群
本文将第3章得到的逻辑回归模型的输出结果做标准评分转化,传入每个用户的原始数据输出各用户的总评分,然后依据每个用户的总评分,应用K-均值聚类算法将所有用户分为低评分高占比群和低评分低占比群。
在此处运用的K-均值聚类算法,需要预先确定聚类的个数K,并且利用分割方式进行聚类。所谓分割是指:首先,将聚类变量空间随意分割成K个区域,对应K个小类,并确定K个小类的中心位置,即质心点;然后,计算各个样本观测点与K个质心点间的距离,将所有样本观测点指派到与之距离最近的小类中,形成初始的聚类解。由于初始聚类解是在聚类变量空间随意分割的基础上产生的,无法确保给出的K个小类就是客观存在的“自然小类”,所以需要多次迭代。
基于这样的设计思路,K-均值聚类算法的具体步骤为:第一步,指定聚类数K,在K-均值聚类中,应首先给出希望聚成多少类。确定聚类数目K并非易事,既要考虑最终的聚类效果,也要符合所研究问题的实际情况。聚类数目区太大或太小都将失去聚类的意义;第二步,确定K个小类的初始质心,小类质心是各小类特征的典型代表。指定聚类数目K后,还应指定下个小类的初始类质心点。初始类质心点指定的合理性,将直接影响聚类算法的收敛速度;第三步,根据最近原则进行聚类,依次计算每个样本观测点Xi(i=1,2, …,N)到K个小类质心的距离,并按照距K 个小类质心点距离最近的原则,将所有样本观测分派到距离最近的小类中,形成K个小类;第四步,重新确定K个类的质心,重新计算K个小类的质心点。质心点的确定原则是:依次计算各小类中所有样本观测点在各个聚类变量Xi(i=1,2,…,p)上的均值,并以均值点作为新类的质心点,完成一次迭代过程;第五步,判断是否满足终止聚类算法的条件,如果没有满足则返回到第三步,不断反复上述过程,直至满足迭代的终止条件。
5 总结与展望
5.1 全文总结
本文构建了用于识别借款人“提前还贷”行为风险的评分模型,并且在评分模型的基础上,设计了与之形成互为补充作用的风险管理策略。通过对相关文献的阅读与学习,了解了国内外学者在信用评分研究领域的学术成果。在理论介绍方面,本文阐述了建模所应用到的多种机器学习算法原理,包括逻辑回归、K-均值聚类和决策树算法。
在实证研究过程中,本文基于国内某互联网银行提供的用户画像及行为数据组合而成的数据集,构建了评分模型。首先对数据集进行统计性描述和预处理,经过特征工程后以AUC和KS为建模的指标,结合总体评分排序性的表现来进行模型评估,结果表明,本文构建的用于预测用户提前还款行为风险的评分模型是可行的、有效的、科学的。
通过查阅相关资料,咨询银行资深专家,了解个人信贷用户的行为特征和特征属性,考虑到对不同用户所作决策不仅要关注个人的总分表现,还要注意单个特征变量对于用户是否会提前还款造成的影响,在评分模型实际应用的情况下也应该对用户的单个特征制定规则,基于此,本文提出了对目标用户群进行特征变量路径探索的想法。首先基于评分转化的结果输出单个特征变量的各数据区间对应的分数段,由此将17个参与建模的特征变量数据转成评分,为了使单个特征规则与评分模型形成互为补充的作用,分别以总评分的高低和是否提前还贷来定义好坏样本,也就是根据本文构建的评分模型输出的总评分的高低完成对用户的“贴标签”,来进行一次决策树挖掘,再通过用户的真实标签(即是否提前还款),并使用相同的决策树方法来得到用户的行为路径,通过对比分析,来对用户的单个特征制定规则,在实际项目实践当中,对各个指标的管理优先级进行更全面的确认。
参考文献(略)