本文是一篇电子商务论文,本文通过对SMOTE算法的改进成功将决策主体对决策风险偏好的设定引入决策过程中,实现了基于机器学习的以自适应的方式调整工作行为的决策过程,达到了预期的效果。以下从技术实现、决策应用和理论探索等三个方面来归纳本研究的结论和启示。
第一章 国内外文献综述
第一节 个人信贷风险控制
一、个人信贷与个人信贷风险
金融机构的发展对于国家经济有着显著影响,而个人信贷业务是金融行业的核心组成部分之一。个人信贷是经济学上的一种以额外偿还利息为代价的借贷行为,狭义上指消费信贷,即金融机构基于个人信用评价为其提供用于日常消费行为的贷款,而广义上指基于信用为贷款人发放不限制用途的贷款(王怡轩,2020)。个人信贷业务按照贷款目的可以分为经营、消费、住房等种类(蒋心盈和林慧,2017)。对于贷款人而言,个人信贷业务能够提前满足消费者对于消费的需要,对于金融机构来说,个人信贷业务是利润可观的项目(李嘉莹,2019),而对于社会而言,个人信贷业务则是扩大消费、刺激生产力的有利渠道(邢志强,2019)。当前,金融机构的个人信贷业务已经覆盖了个人工作、学习、消费、生活等多个情景,使机构获取高效利润,但由于个人信贷业务客户量大、申请量大、时间跨度长等特点,存在着差异化的个人信贷风险。
个人信贷风险是指贷款人在贷款期间可能由于某些因素而无力还款或不愿还款的情况,包括信用、市场、操作等风险类型(王怡轩,2020)。个人信贷风险除了给金融机构造成经济损失外,还可能扰乱信贷市场平衡,破坏金融市场规范,影响整体经济的发展(卢雨欣,2021)。
第二节 SMOTE过采样
一、不平衡数据与重采样
不平衡数据是指数据集中某一类的样本数量远远小于其他类型的样本数量(He和Garcia,2009),其中,数量多的样本称为多数类样本,数量少的样本称为少数类样本(Li等,2016)。一般来说,如果数据集中少数类样本和多数类样本的比例约等于或低于3:7就可以认为该数据集存在比较明显的样本不平衡问题。现实世界中的很多数据集本身就是不平衡的,包括罕见或不频繁行为的识别(Gao等,2016)、癌症严重程度的诊断(Krawczyk等,2016)、文献关联检测(Munkhdalai等,2015)、文本情绪识别(Xu等,2015)、视频中物体识别(Gao等,2014)、信用卡欺诈检测(Jurgovsky等,2018)、设备故障检测(Kim,2018)、重大疾病检测(Vasighizaker和Jalili,2018)等等。
而在机器学习相关研究和应用中,传统分类器有时无法很好地适用于不平衡数据的分类预测(Guo等,2016),原因有三:首先,传统分类器(逻辑回归、支持向量机、决策树等)是根据平衡数据集设计的,当面对不平衡数据集时,对少数类样本的学习能力不足(López等,2013);其次,由于评估分类模型的指标一般为全局性能指标,如准确率,当对不平衡数据进行模型评估时很容易出现少数类样本被错分到多数类样本的情况,但即使在这种情况下分类器的准确性也能保持一个较高水平,但这种准确性却是没有意义的(Loyola-González等,2016);最后,在不平衡数据的分类预测中,分类器可能将少数类样本视为噪声样本,而噪声样本反而可能被错误地识别为少数类样本,因为这两种样本在数据集中表现出的都是罕见的特征(Beyan和Fisher,2015)。此外,不平衡数据分类预测问题的难度不仅体现在数据分析层面,还体现在实践应用方面。分析者在实际应用中有时同时关心假正例和假负例,有时则更重视被错分的少数类样本。一方面,分析者在部分不平衡数据集分类预测中同时关注假正例和假负例,如在信用卡盗刷预测中,如果正常使用样本错分为盗刷,则会给用户的使用体验造成严重影响;而如果盗刷样本被错分为正常使用,那么就可能会给用户带来巨大的财产损失。另一方面,在部分不平衡数据集分类预测中,少数类样本相较于多数类样本更加重要,分析者们更加关注少数类样本的预测结果,对于少数类样本分错的容忍度也更低,如在疾病检测中,患病样本为少数类样本,健康样本为多数类样本,当健康样本错分为患病样本时,该健康患者只是再多做一次检查;而当患病样本错分为健康样本时,该患病患者可能就耽误的治疗时机。
第二章 SMOTE改进算法的基础理论
第一节 风险偏好理论
基于机器学习的个人信贷风险控制的一般做法通常是把用户的信贷违约行为视为一个二元分类问题(是否违约),利用信贷企业在过去所积累的大量历史用户行为数据对成熟的机器学习模型进行训练,通过对样本数据的拟合找到令模型工作效果最佳的参数组合,再将业务中新产生的个人信贷申请输入训练好的机器学习模型,由模型来预测每一份信贷申请在未来是否会违约,进而决定是否要通过待审核的信贷申请。
这种基于机器学习的个人信贷风险控制技术已经在过去的学术文献中得到了广泛的关注和研究。相较于传统的人工审核方式,这种由数据驱动的信贷风险控制技术为信贷企业的业务决策提供了一种成本更低、效率更高的自动化信贷风险控制手段。但是,大多数此类方法普遍过分依赖于自动化算法对于业务决策的作用,忽略了信贷风险控制的金融属性和业务特点。
信贷业务是一项传统的重要金融业务,是现代商业社会中个人与机构获得融资的重要渠道,与其他大多数金融业务一样,其业务决策具有风险与回报并存的特点,所以决策主体在主观上对待风险的态度,即风险偏好,往往对决策策略有十分重要的影响,即便是针对于同一个决策主体,在不同的决策情境下,其对风险的偏好可能都会有十分显著的差异,比如,在个人信贷业务的风险控制中,决策主体可能会根据不同的信贷产品(车贷、房贷、消费贷等),不同的宏观经济环境不断调整其风险偏好,从而拟定出不同的信贷审核策略。决策主体只有清楚的了解自身对于风险的偏好,才能做出科学的决策,并获得良好的经济回报。所以,决策主体的风险偏好理应在数据驱动的信贷风险控制技术中发挥其应有的作用。
第二节 自适应SMOTE算法
正如本文第一章第二节的详细介绍,样本不平衡是机器学习任务中常见的一类问题,尤其在目标异常检测、用户行为识别等应用场景里十分典型,以本文所研究的个人信贷风险控制这个应用为例,在大量的历史用户信贷申请记录中,通常只会有较小比例的记录发生违约行为,机器学习模型需要从这些数据中学习识别信贷风险的能力。
在包括个人信贷风险识别在内的许多机器学习实践任务中,样本不平衡会对模型的性能造成显著的负面影响,这是因为大多数基于梯度优化的机器学习模型是通过在模型训练阶段反复的加强对所见样本特征的“学习”来获得识别目标变量的能力。简单来说,模型在训练中见过的某类样本越多,模型对这类样本特征的“印象”就越深刻,在随后的预测中识别这类样本的正确率也就越高,而对于那些少数类样本,模型缺乏足够多的机会对其特征进行充分的学习,其结果就是训练好的模型会将绝大多数甚至是全部测试样本都识别为多数类样本所属的标签,在这种情况下,虽然测试结果的总体准确率得分依然较高,但是模型并没有真正获得识别不同标签类别数据样本的能力。
为了解决这一问题,人们提出了各种解决方案,最为典型的两种方案是欠采样和过采样。两种解决方案的最终目的都是为了使不同类别标签的样本数量达到基本平衡,令机器学习模型对不同类别标签获得相对公平的学习能力。考虑到欠采样方法在实际应用中可能丢弃相当一部分有价值的信息这一缺点,本文选择过采样来解决样本的不平衡问题。
第三章 SMOTE改进算法的实现 ....................... 28
第一节 基本思路 ...................... 28
一、合成样本的分布 .................................... 28
二、合成样本的分配 .................................. 29
第四章 个人信贷风险控制实验验证 .............................. 37
第一节 数据集描述 .......................................... 37
第二节 数据预处理 .................................. 40
第五章 结论与展望 ................................ 46
第一节 研究结论与启示 ................................... 46
第二节 研究不足及展望 ................................ 47
第四章 个人信贷风险控制实验验证
第一节 数据集描述
本研究所使用的数据集下载自天池大数据众智平台⑨,数据集以金融风险控制领域的个人信贷业务为背景,涵盖了80万条关于个人信贷业务的相关记录,每一条记录描述了用户在提出信贷申请时有关贷款金额、利率、用户个人资料、用户行为等等各方面与信贷业务相关的详细情况,更重要的是,数据集提供了每一条信贷申请记录事后是否发生违约的标识,这为基于有监督机器学习的信贷风险控制研究提供了便利条件。
数据集包含47个特征字段,这些数据特征主要涵盖了个人信贷申请信息、信贷产品信息、用户人口统计信息、用户的信用等级、用户的行为数据等不同方面,表4-1详细说明了数据集中所有特征字段的相关描述。
第五章 结论与展望
第一节 研究结论与启示
本文以个人信贷风险控制为背景进行了以决策风险偏好为导向的SMOTE算法的改进和应用研究,着重阐述了与研究主题相关的已有研究、理论基础、技术实现思路和实验验证等内容。从实验验证的分析结果来看,本文通过对SMOTE算法的改进成功将决策主体对决策风险偏好的设定引入决策过程中,实现了基于机器学习的以自适应的方式调整工作行为的决策过程,达到了预期的效果。以下从技术实现、决策应用和理论探索等三个方面来归纳本研究的结论和启示。
从技术实现的角度来说,本文通过以决策风险偏好为导向的SMOTE改进算法实施过采样,使得机器学习模型能够有选择性的对具有不同效用的样本调整训练学习的强度。当决策系统设定为风险偏好型时,机器学习模型将相对弱化对高风险、高价值样本特征的学习,这意味着会有一定数量的正例样本被错误的识别为负例样本,即有一定数量的高价值水平的实际违约样本被审批通过,其结果就是模型预测取得了更高的精确率和更低的召回率;反过来,当决策系统设定为风险厌恶型时,机器学习模型将加强对高风险样本特征的学习,那么一定数量的负例样本就很可能被错误的识别为正例样本,即有一定数量的高风险的实际守约样本被审批拒绝,其结果就是模型预测取得了更低的精确率和更高的召回率。本文实证研究的结果很好的验证了这一点,这说明通过在过采样过程中调整合成样本在特征空间上的分布的确能够以预期的方式影响机器学习模型的学习训练效果。这对于金融业务决策等具有显著决策风险特点的决策支持系统而言具有积极的现实意义。
参考文献(略)