本文是一篇电子商务论文,本研究通过Lending Club交易数据的描述性统计以及提取的规则分析,该平台的用户主要集中在B、C两个等级,而且和拍拍贷相比,该平台信用等级划分制度较好,能够较好的帮助平台剔除信用差的用户。另外,通过对提取规则的分析,Lending Club平台用户的还款记录和银行信息信用卡消费情况等能够较好的帮助投资人预测借款人的还款行为。
1 绪论
1.1 研究背景与意义
1.1.1 研究背景
近年来,随着互联网科技的日益成熟,尤其是移动互联网的快速发展和普及,网络成为及时快速、打破空间沟通障碍、降低交互成本的重要工具,不仅影响了传统的衣食住行等服务行业,传统的金融行业也受到了深远影响,出现了新型的金融发展模式,其中民间借贷也出现了新的模式——P2P网络借贷模式。P2P网络借贷(Peer-to-Peer Lending,即个体对个体的借贷)是指借贷双方不再依赖传统金融机构而是利用网络平台实现借贷。P2P模式下,借款人和投资人的信息、资金、合同和交易流程等都是通过P2P借贷平台进行操作,实现了直接向其他人借用资金的行为。与传统金融模式相比,P2P网络借贷平台不仅可以帮助借款人在低成本的情况下选择便宜可靠的借贷方式,帮助投资人分散风险,还解决了传统金融模式下出现的中小企业融资难,借贷成本高的问题[1]。
P2P的高收益、低成本、速度快、方便灵活、交易对象范围广等优点使其一经推出,便受到广大用户的喜爱,尤其是中小型企业主、个体工商户、大学生、农民等用户的欢迎。2005年3月,Zopa在英国创立,标志着全球P2P网贷行业的开始,凭借其高效快捷的业务模式,Zopa很快成为英国第一家交易额超过15亿美元的借贷平台。随后两年,Prosper公司、Lending Club公司相继在美国成立,并发展成为美国借贷规模最大的两家公司。现如今P2P网络借贷模式的影响力已遍布全球,西班牙、加拿大、德国、日本、韩国等国家都有P2P网贷平台,且规模越来越大,预计2024年,全球范围内的P2P行业规模将增长至8,978.5亿美元。
1.2 P2P信用风险国内外研究现状
信用风险指的是在交易过程中参与交易的某一方不能履行合约上规定的义务,使另一方蒙受经济损失的风险[15]。P2P网贷信用风险分为广义和狭义两种,其中狭义信用风险指的是P2P网贷的个人信用风险,即网络借贷中借款人未能按照合同按时归还本金和利息而给投资人造成经济损失的风险,包括借款人违约还款和提前还款两种行为。P2P广义信用风险包括个人信用风险和平台信用风险。本文研究的信用风险主要指P2P 狭义风险,即个人信用风险。
1.2.1 P2P信用风险形成机制
对于P2P网贷中借款用户信用风险产生的原因,研究学者主要从信息不对称和羊群效应角度进行研究。Steelman提出P2P网贷属于“匿名交易”,信息不对称一直存在,另外借款人不需要提供担保和抵押,导致了更大的信用风险[16]。Lin等也认为在P2P网络借贷中,借款人和投资者之间的“信息鸿沟”是驱动逆向选择的重要因素[17],投资者处于产业链的最末端,信息的可靠性是其面临的最大风险之一[18]。Shen等通过对Proposer平台上借款记录的分析,得出投资者更乐意投资风险高、利率高的投资标的,再加上从众效应的影响,使得平台的风险加重[19]。类似的,Ceyhan等利用Prosper平台的数据得出由于信息不对称问题,投资者的投资行为存在羊群效应[20]。Lee等通过对韩国P2P网贷平台Profunding交易数据的分析证实了P2P网贷中存在明显的羊群效应。如果投资标的吸引的投资者越多,借款人和投资者的互动越多,该投资标的的吸引力就会越大,从而吸引更多的投资者参加[21]。李悦雷等分析了国内拍拍贷平台的交易情况,指出国内P2P网络借贷行业同样存在非常明显的羊群行为[22]。
2 理论基础
2.1 模型的透明度
透明度高的模型有较好的可理解性和可解释性。通常,透明度高的模型其算法透明度高、可分解性高、模仿性强;其中:
(1)算法透明度表示用户能够理解模型从输入到输出过程的程度,算法透明度高的模型,用户可以很好的理解模型在每个情形下将如何做出判断。
(2)模型的可分解性表示模型分别解释每个部分(如输入、参数、输出等)的能力,模型的可分解性越高,其可理解性也越高,同时可以更好的解释不同的用户行为。
(3)模型的可模拟性表示模型可以被人类模仿或思考的能力,模型越简单,其可模拟性越强,反之可模拟性越差。
因此,为了构建可理解性高的模型,本文在构建模型时尽量保证模型的透明,构建算法透明度高、可分解性强、可模拟性强的模型。
2.2 模型性能评价指标
本研究的目的是对P2P网贷平台的借款人进行正确预测,预测借款人是正常还款、违约还款、提前还款的哪一类,属于多分类问题。在传统的二分类问题中,混淆矩阵(Confusion Matrix)又称为错误矩阵,如表2-1所示,是呈现分类效果并评价模型分类效果优劣的基本工具。
在表2-1中,各项变量的含义分别为:
TP(真正例)—实际类别是正类,模型预测为正类,即被模型正确预测的正类数据。
FP(假正例)—实际类别是负类,模型预测为正类,是第一类错误,即模型错误的把负类数据标记为正类。
FN(假负例)—实际类别是正类,模型预测为负类,是第二类错误,即模型错误的把正类数据标记为负类。
TN(真负例)—实际类别是负类,模型预测为负类,即被模型正确预测的负类数据。
本文研究的问题属于多分类问题,有三个类别,会产生三个二分类混淆矩阵,因此要综合考察所构建模型的优劣时候就需要使用宏平均(macro-average)和微平均(micro-average)[71]。
3 信用风险评估模型构建............................... 14
3.1 数据离散................................... 14
3.2 规则提取................................... 15
3.3 规则集成.................................... 16
4 信用风险评估的实证研究...................................... 17
4.1 数据收集和处理...................................... 17
4.1.1 拍拍贷数据预处理........................................... 17
4.1.2 Lending Club数据预处理 .......................... 18
5 研究总结与展望.................................... 42
5.1研究总结........................................... 42
5.2网贷信用风险管理建议........................................ 43
5.3研究不足与展望..................................... 44
4 信用风险评估的实证研究
4.1 数据收集和处理
为了验证本文提出的信用评估模型,分别使用国内拍拍贷和国外Lending Club数据集进行实验。使用国内外两个知名平台进行验证,一方面是因为国内外P2P网络借贷行业发展差异较大,借款用户特征差异较大,通过对这两个平台借款人信用风险的评估,可以比较客观的反映出所提模型的优劣;另一方面,可以通过提取的规则找到国内外P2P平台借款用户特征的不同,为国内外P2P更好的发展提供一些建议,帮助投资人做出更好的判断。
4.1.1 拍拍贷数据预处理
拍拍贷(上海拍拍贷金融信息服务有限公司)是我国首家P2P网络借贷平台,于2007年6月成立于上海,并于2017年在美国纽交所成功上市。截止2019年6月30日,拍拍贷已累计借款用户1,340万人,累计投资用户64万多人,实现了持续增长。另外,拍拍贷利用大数据、云计算、人工智能等科技建立了“魔镜”大数据风控体系,应用于风险控制,精准营销等。作为国内首家无担保纯信用P2P平台,同时也是国内第一家获得“金融信息服务”经营范围许可,得到政府认可的互联网金融平台,拍拍贷为研究如何构建安全、高效的借贷平台,如何规范个人借贷行为提供了范本。
本文利用拍拍贷魔镜杯数据应用大赛提供的业务数据对所构建的基于规则集成技术的P2P信用风险多分类模型进行验证。本数据集借款时间跨度为2015年1月1日到2017年1月30日,涉及的借款人属性维度共21个,包括借款人基本信息如年龄、性别等,认证信息如手机认证、户口认证、视频认证等,信用信息如初始评级、历史逾期还款数、历史正常还款数等;借款信息如借款金额、借款期限等。同时提供了还款特征表,包括每期标的还款计划、还款记录、还款状态,其中还款状态包括“未还款”、“已正常还款”、“已逾期还款”、“已提前还清该标全部欠款”、“已部分还款”。在删除尚未到期、数据不全的记录后,根据标的借款期限和还款特征表,对借款用户进行分类,包括正常用户、提前还款用户、违约用户。根据分类,最终得到正常还款用户记录50,524条,提前还款用户记录20,259条,违约还款用户记录41,301条,共112,084条记录,其中违约率为36.84%,提前还款率为18.07%。
5 研究总结与展望
5.1研究总结
随着互联网技术的快速发展,P2P网络借贷迅速兴起,自2005年第一家P2P平台Zopa在英国成立后,15年的时间内P2P网贷模式已遍布世界七大洲的各个国家。据艾瑞媒体报告,2018年全球网贷交易规模达到6,315亿美元,2020年预计达到15,781.3亿美元,其中中国的网贷普及率更是位居世界前列,2018年中国的网贷交易额成为全球最高,为1,789亿美元。但是在P2P网贷行业呈现迅速发展的态势之下,P2P网贷行业也遇到了一系列的风险与挑战,尤其是在市场尚未发展成熟的中国等国家,滋生了大量的问题平台。其中,信用风险问题成为阻碍P2P网贷行业健康发展的最大挑战。借款人不能按照合同约定按时还款,甚至出现携款潜逃等恶劣行为,给平台和投资者造成了巨大的经济损失,严重影响了平台的正常运营,因此如何利用平台交易数据合理有效的构建信用风险评估模型,准确的对借款人的信用风险做出判断,对平台的正常运营、风险控制以及行业的良性发展至关重要。
虽然P2P借款人的信用风险问题已经引起了学者的广泛关注,但以往的学者主要研究借款人的违约风险,忽略了对借款人提前还款行为的研究。而借款人的提前还款和违约都属于不按合同按时还款的行为,都会给投资者和平台造成经济损失,而且现在大多数网络借贷平台并没有对提前还款行为采取一定的惩罚措施,导致这一行为更加频繁的出现,因此不同于以往学者对P2P借款人信用风险的评估,本文同时考虑提前还款行为和违约行为,构建多分类信用评估模型。另外,以往的研究侧重模型的评估表现,注重预测结果的准确性,忽视了模型的可理解性,忽略了对借款人行为的分析解释,影响了模型的信任度和应用,因此本研究在构建信用风险评估模型的同时尽量保证模型的可解释性,构建基于规则的多分类信用评估模型,在对借款人进行信用风险评估的同时生成简单易懂的评估规则,理解借款人不同还款行为的特征,增加用户对模型的信任,帮助投资者和平台更好的对信用风险做出评估。
参考文献(略)