笔者通过数据获取、数据清洗、违约标记、指标筛选、模型建立和模型验证等流程,基于 5 种不同的的指标筛选方法分别构建了 5 个基于逻辑回归方法的信用评分模型,综合考虑模型批量评级结果,以及 ROC曲线和 KS 曲线分别对模型区分能力方面的有效性评估,得出基于广义交叉验证法、逐步回归法和 Boruta 法筛选的指标建立房地产企业的信用评分模型是 5种方法中较优的选择。
第一章 绪论
第一节 研究背景和研究意义
一、研究背景
(一)房地产行业债务现状分析
我国房地产市场在经历了过去二十年的快速发展、房价屡创新高的“黄金时期”后,在国家层面去杠杆化、“房住不炒”等政策导向下,自 2016 年四季度以来,房地产企业开发贷、公司债以及非标融资开发贷等融资渠道先后收紧,融资成本不断攀升。此外,随着 2018 年 4 月 27 日由央行、银保监会、证监会、外管局等四部委联合发布的《关于规范金融机构资产管理业务的指导意见》[1]的出台,诸如表外理财借道非银通道向房地产行业流动的渠道也将受到彻底约束。2020 年 8 月中国人民银行党委书记、中国银行保险监督管理委员会主席郭树清在《求是》杂志上撰文指出“房地产是威胁金融安全的最大 灰犀牛 ”[2]。
基于房地产行业固有的运作模式和即将迎来的信用债偿债高峰,房地产企业的信用违约风险,特别是短期偿债风险不断加大,成为市场关注的焦点,具体主要体现在以下方面:
(1)行业固有的资金密集与高负债率特性:房地产企业由于土地和建设成本较高,本身即为一个负债经营的资金密集型行业[3] [4],房地产企业资产负债率相较其他一般工商企业偏高,同时资金占用周期较长,房地产企业长期存在较大的融资需求。房地产企业负债一般按其偿还期限的长短分为流动负债和长期负债。流动负债一般包括短期借款、应付短期债券、应付票据、应交税金、应付购货款、应付工程款、应付分包工程款、应付工资、应付投资者利润、应付股利和其他应付款、预收销货款、预收购房定金、预收代建工程款、预提费用以及从成本费用中提取的职工福利费等。长期负债一般包括长期借款、长期应付款、应付长期债券等。
.....................
第二节 国内外相关研究动态及文献综述
一、国外相关研究及文献
Fisher(1936)[12]提出了判别分析的方法,为归类问题的分析奠定理论可能,David Durand(1941)[13]首次提出将 Fisher 的判别分析应用于贷款好坏的判断,随着统计学和计算机科学的进步,进一步处理大量数据成为一种便捷的可能,Altamn(1968)[14]建立了基于线性回归的 Z-score 判别分析模型,Orgler(1970)同样做了类似基于贷款人的线性回归模型,Grablowsky(1981)[15]等学者提出 Probit 回归亦能作为信用模型构建的方法,并分析了逻辑回归和Probit 的优缺点。Wiginton(1980)[16]在信用评分中首次引入了逻辑回归,而后 Bensic(2005)[17]等学者进一步证明逻辑回归是一种准确和有效的评分卡开发方法,随着统计分析技术的进步,Jensen H L (1992)、Koh H C(2004)、Siddigi(2006)等[18]- [24]利用更多的方法进行信用评分模型的开发,包括决策树、神经网络技术、支持向量机技术、数据挖掘技术等,相关技术都具备各自的优缺点。
在模型结果验证方面,ROC[25]曲线作为二分模型常用的评估方法,常用作模型分类效果的检验手段,此外 KS 指标也是衡量好客户、坏客户区分能力上的关键指标。
二、国内相关研究及文
石庆炎(2004)[26]使用银行数据,对比了使用神经网络方法相比逻辑回归在建立评分卡模型上的优缺点,并认为逻辑回归在现阶段中国的适用性更强。吴俊(2008)[27]使用 Cox 方法基于某银行数据建立了适用于该银行的信用评分模型,张成虎(2009)[28]、庞素琳(2009)[29]、李海娇[30]分别基于神经网络和Boosting 技术开发了信用评分模型并论述了各自模型的有效性和稳健性,更多的学者开始关注和比较不同的模型开发方法建立的信用评估模型的优劣比较这一问题,相关研究包括晏艳阳(2010)[31]对于逻辑回归和支持向量机研究的比较,储蕾(2014)[32]对于神经网络和支持向量机的比较,白金瑞(2012)[33]对于神经网络方法和逻辑回归方法在组合模型的效果问题进行讨论,邹谨(2012)[34]尝试构建混合模型对信用风险评价等。
.........................
第二章 相关概念及理论
第一节 信用风险相关概念
一、信用风险度量及其重要性
一般而言,信用风险衡量的是融资人或交易对手(以下简称“主体”)不能按时偿还债务的可能性。信用风险管理核心要素主要包括对于违约可能性的管理,即主体有多大的可能性产生违约事件,其次是对于违约后果严重性的管理。基于以上两个核心信用风险管理要素,在风险计量方法上,区分了针对主体和针对债项的评级和管理,对应着违约概率 PD(probability of default)的计量和违约损失率 LGD(loss given default)的计量。
两个核心信用风险要素中,应当予以首要关注的是第一个要素,即对于违约可能性的管理,因为信用风险产生损失的源头是违约,如果主体不发生违约,也就没有管理违约后果的必要了。
信用风险主体信用评级模型力求解决的问题就是针对第一个核心风险要素的前瞻性判断,针对此问题的解决,在统计的意义上也分两个层级:一是基数(cardinal number)层次,即模型直接给出了主体的违约概率绝对值,二是序数(Ordinal number)层级,模型给出了某集合中主体信用风险大小的排序。
.............................
第二节 本文理论方法概述
本文研究比较使用随机森林法、相对重要性比较法、广义交叉验证、逐步回归法、Boruta 法 5 种常见的入模指标筛选方法得出的对于违约状态影响最为显著的指标,通过逻辑回归构建信用评分卡模型,完成模型开发后,对不同指标筛选方法的模型优缺点进行定性分析探讨,并使用 KS 和 ROC 方法对模型稳定性、有效性进行定量检验。经检验后的模型为房地产行业进行批量评级,提出较优的房地产企业信用评分模型的构建方法。
以下分别对模型开发指标筛选方法、模型构建方法、模型验证方法、统计分析工具进行进一步说明。
一、模型开发指标筛选方法
本文使用的信用评分模型指标筛选方法主要基于 5 种理论和实务中均较为常见的指标重要性判断的统计方法和筛选过程,包括随机森林法、相对重要性法、广义交叉验证法、自变量的逐步自回归法、Boruta 法,以下对相关方法的核心概念和在 R 语言中的具体实现方式进行梳理:
(1)随机森林法
随机森林[47]是利用多个决策树对样本进行训练、分类并预测的一种算法,主要应用于回归和分类场景。在对数据进行分类的同时,还可以给出各个变量的重要性评分,评估各个变量在分类中所起的作用,其过程可以简要描述如下:
1.用有抽样放回的方法(bootstrap)从全样本中选取 n 个样本作为一个训练集;
2.用抽样得到的样本集生成一棵决策树。在生成的每一个结点随机不重复的选择 d 个特征,使用这 d 个特征分别对全样本进行划分,找到最佳的划分特征(可用基尼系数、增益率或者信息增益判别);
3.重复步骤 1 到步骤 2 共 k 次,k 即为随机森林中决策树的个数;
.............................
第三章 模型所需数据准备........................ 23
第一节 数据的获取..........................23
一、建模样本数据获取.............................. 23
二、违约样本数据获取....................... 24
第四章 变量筛选结果及比较........................... 29
第一节 使用随机森林法筛选入模指标.........................29
第二节 使用相对重要性比较法筛选入模指标...........................30
第三节 使用广义交叉验证法筛选入模指标............................30
第五章 信用评分模型的建立、运用及有效性验证............................ 33
第一节 基于逻辑回归建立评分模型..........................33
一、使用随机森林法筛选的指标基于逻辑回归建立评分卡..................... 33
二、使用相对重要性法筛选的指标基于逻辑回归建立评分卡 ...................... 33
第六章 验证后模型的具体运用及建议
第一节 基于验证后模型的具体结果运用
使用通过有效性验证后的三种模型分别对全样本进行逐一批量评级,得到3 个风险评级结果,每种结果按得分高低进行排序(分数越低,信用风险越大),选取分数最低的 30 家主体进行风险提示。进一步筛选,对于重复出现在风险提示名单中的主体对其信用风险应给予高度关注。
一、基于广义交叉验证法建立模型风险提示名单
基于广义交叉验证法模型批量评级结果来看,分数最低的 30 家公司名单为:上海谊盛实业股份有限公司、西安创典全程地产顾问股份有限公司、深圳市房谱网络科技股份有限公司、深圳星河智善生活股份有限公司、江西盈科行网络信息股份有限公司、乐生活智慧社区服务集团股份有限公司、宇超电力股份有限公司、盐城鹤鸣亭传媒股份有限公司、四川新港联行置业股份有限公司、银川中房物业集团股份有限公司、南京栖霞建设物业服务股份有限公司、海南第一成美物业管理股份有限公司、筑建城市发展(山东)股份有限公司、宁波新日月酒店物业股份有限公司、云南实力物业服务股份有限公司、广州市龙能城市运营管理股份有限公司、西安荣鑫物业管理股份有限公司、江苏金新城物业服务股份有限公司、山西田森物业管理股份有限公司、天津万事兴物业服务集团股份有限公司、长春赢时物业服务股份有限公司、四川景灿物业服务股份有限公司、中交物业有限公司、上海明华物业管理有限公司、河南正商物业管理有限公司、怡家园(厦门)物业管理有限公司、禹洲物业服务有限公司、青岛海尔地产服务有限公司。
......................
第七章 总结与展望
第一节 研究结论
综上可以看出,本文研究基于沪深交易所房地产上市公司、全国中小企业股份转让系统挂牌房地产公司和银行间市场、交易所市场公开发行债券的房地产企业发行人披露的数据,通过数据获取、数据清洗、违约标记、指标筛选、模型建立和模型验证等流程,基于 5 种不同的的指标筛选方法分别构建了 5 个基于逻辑回归方法的信用评分模型,综合考虑模型批量评级结果,以及 ROC曲线和 KS 曲线分别对模型区分能力方面的有效性评估,得出基于广义交叉验证法、逐步回归法和 Boruta 法筛选的指标建立房地产企业的信用评分模型是 5种方法中较优的选择。
基于本文推荐的三种方法构建得出的评分卡以及行业的批量评级结果分布特征来看,房地产行业的评级结果呈现较为明显内部分化特征,对结果进行进一步检视可看出,部分营业收入低(广义交叉验证模型中 TOTAL_OPER_REV指标)、规模较小、盈利能力较弱(逐步回归模型中 GROSSPROFITMARGIN指标、逐步回归模型中 EBITTOGR 指标)、资产负债水平较高(广义交叉验证模 型 中 DEBTTOASSETS 指 标 )、 现 金流 回 收 较 慢( 逐 步回 归 模 型 中SALESCASHINTOOR 指标、Botura 模型中 OCFTOSALES 指标)的房地产公司面临更为显著的违约可能性,建议投资者在投资符合以上特征的信用产品时需要高度关注此类发行人的违约风险。
进一步的,本文研究基于所得出的较优的指标筛选方法构建的信用评分模型对全样本分别进行逐一批量评级,综合考虑三个模型的批量评级结果,列示了风险较大的房地产企业名单,投资者可将此评级做为一定的参考,以降低投资风险,建议投资者关注信用优良的房企,此类企业具有稳定良好的市场表现,对于评级明显低于行业平均的房企,风险大且难以获得超额收益,需尽量规避,房地产企业也可做一定的参考用于计量自身的信用风险水平、做好自己的信用风险管理,同时也建议监管部门高度关注前述主体的信用风险。
参考文献(略)