本文是一篇会计论文,笔者 在特征变量的构造上,根据基尼方差这个特征区间的违约鉴别能力最大的情况下反推一个指标数值区间的最优划分的临界点,由此得到了由指标数值区间拆分成的、违约鉴别能力最强的特征变量。
1 绪论
1.1 研究背景及意义
1.1.1 研究背景
小企业在国民经济中发挥着重要作用。据国家统计局公布的数据,截至2020年,中国小企业占企业总数的80%以上,创造了60%以上的国内生产总值,提供了50%以上的税收。而小企业由于其内部管理制度不健全、受宏观经济环境的影响较大,难以在融资市场获得资金支持[1]。因此,对小企业进行违约判别就显得尤为重要,小企业的违约判别模型可为银行贷款决策与企业融资提供了重要依据
企业违约判别(Discrimination of enterprise default)是通过揭示企业内部的财务因素、非财务因素和企业外部的宏观环境因素等准则层的变量xij和违约状态yj之间的函数关系并建立大数据模型,然后将新客户的特征数据xij代入模型中,实现对新客户违约状态ŷj的判别。
任何一个违约判别模型都需要变量,不同变量构建的违约判别模型精度不同。第一种方式是把指标(feature)作为变量,第二种方式把指标拆分成不同特征(Sub-feature)。例如,“年龄”拆分成“青少年”、“中年”、“老年”等不同的特征变量,“收入”拆分成“高收入”、中等收入”、“低收入”等不同的特征变量,而“中年”、“高收入”等特征的客户往往具有更强的清偿能力,更不容易违约。显而易见,后者特征变量(Sub-feature)比前者(feature)更能反映违约状态。因此,本研究采用特征(Sub-feature)作为变量建立违约判别模型。
1.2 研究综述
国内外学者在指标体系的构建、财务报告欺诈预测和企业违约预测等方面进行了大量的研究,取得了丰富的成果。本研究从涉及的科学问题为出发点,主要从特征变量构造的研究、指标组合遴选的研究、小企业违约判别模型三个方面,对现有国内外研究进行梳理与总结。
1.2.1 特征变量构造的研究现状
(1) 基于指标构建的研究现状
Lin SM, Ansell J and Andreeva G(2012)使用财务比率指标构建企业破产预测模型[2]。Dong Wei, Liao Shaoyi and Zhang Zhongju(2018)从社交媒体数据中提取出情感指标以构建企业欺诈判别模型,提高了模型精度,补充了指标体系[3]。Brown NC, Crowley RM and Elliott WB(2020)通过贝叶斯主题建模算法将年度财务报告中的内容转化为文本特征,再结合企业的财务指标进行企业财务错报检测[4]。Bertomeu J, Cheynel E, Floyd E, et al(2021)使用财务、治理、审计、市场信息和宏观环境指标对会计错报进行检测[5]。Mahajan PD, Maurya A and Megahed A(2021)在非财务指标的基础上,补充了趋势指标来对企业的收入变化进行类别预测[6]。Luong TM and Scheule H(2021)使用借款人信息、贷款合同和宏观环境指标,提高了抵押贷款违约预测模型的精度[7]。迟国泰,章彤和张志鹏(2021)将上市公司的ST概率预测值与其它指标数据一同作为自变量代入BP神经网络模型中预测公司的ST状态,提高了预测模型的准确率[8]。沈隆,周颖和赵轩铎(2022)使用财务、非财务、宏观环境指标构建了企业的违约预测模型[9]。
2 基于最优特征变量组合的违约判别模型原理
2.1 指标的拆分原理
2.1.1 数值型指标的拆分原理
数值型指标的拆分,是根据基尼方差最大时特征区间的违约鉴别能力最大,反推一个指标数值特征区间的最优划分的临界点。具体步骤是:先将每个指标等宽划分为100个特征区间,逐步合并基尼方差最小的相邻两个区间至特征区间个数为2。再根据每次合并后对应的特征区间的基尼方差平均值最大反推一个指标的最优特征区间。最后用虚拟变量编码方法将每个最优特征区间定义为一个特征变量。
2.1.2 非数值型指标的拆分原理
非数值型指标的拆分,是直接将指标的每个特征值都拆分为一个特征变量[45]。 与数值型指标的拆分原理的不同是,非数值型指标不需要计算基尼方差,直接根据每个指标的特征值划分特征变量。
2.2 决策树违约判别模型的构建原理
2.2.1 决策树违约判别模型节点划分标准
本文构建的决策树违约判别模型是以基尼增益(Gini Gain)[39]最大时,对应的指标及其特征区间作为决策树违约判别模型节点划分的标准。 客户节点的划分分为两种情况:
一是数值型指标是以指标数值对应的分箱区间xic作为节点划分的标准,在区间内的客户被划分在左端,在区间外的客户被划分在右端。
二是非数值型指标是以特征值xiq作为节点划分的标准,特征值等于xiq的客户被划分在左端,特征值不等于xiq的客户被划分在右端。
为了确定分裂节点的指标及其特征区间,需要先计算指标的每个特征区间在分裂节点的基尼指数值、左端客户的基尼指数值、右端客户的基尼指数值,再计算该指标的每个特征区间作为分裂节点时的基尼增益值。
3 违约判别模型的构建 .............................. 15
3.1 指标的赋值 ..................................... 15
3.1.1 数值型指标的赋值 ...................... 15
3.1.2 非数值型指标的赋值 ................................ 15
4 中国小企业的实证分析 ......................................... 27
4.1 样本数据 ................................... 27
4.1.1 数据来源 ................................. 27
4.1.2 样本的划分 ........................ 28
5 结论 ..................................... 40
5.1 主要结论 .................................... 40
5.2 主要创新与特色 .......................... 40
4 中国小企业的实证分析
4.1 样本数据
4.1.1 数据来源
本研究的实证样本数据来源于中国某区域性商业银行总行的信贷数据库,包括中国京、津、沪、渝等28个城市1 994-2 012年共18年的3 045个小企业贷款违约数据,2 995个非违约客户,50个违约客户,不平衡比率接近60:1。其中小企业是按照中华人民共和国工业和信息化部、国家发展和改革委员会、国家统计局、财政部四部委2017年发布的《中小企业划型标准规定》[54]的规定划分的。
本研究的小企业贷款违约数据包含81个指标,其中48个财务因素指标,27个非财务因素指标和6个宏观环境指标。以未足额偿还本息的企业作为违约样本(y=1),足额偿还本息的企业作为非违约样本(y=0)。
本研究采用专家打分法对“X49相关行业从业年限”、“X74法人代表信用卡记录”等26个非数值型指标赋值,在上文3.1.2中已进行详细描述,因此这里不再赘述。表4.1给出了指标标准化前、后的数值。
5 结论
5.1 主要结论
(1) 在由32个关键特征变量构成的最优特征组合中,“法人代表信用卡记录”的特征值为最差记录、即“有违约记录”时更容易违约,“存货周转率”的特征值处于最低周转区间[0.00,5.87)、即存货周转慢的企业更容易违约,“城市居民人均可支配收入”的特征值处于最低收入区间[3058.00,9692.40)的城市中的小企业贷款更容易违约。
(2) “城市居民人均可支配收入”的最低区间[3058.00,9692.40)和较低区间[9692.40, 10687.56)两个特征变量都对小企业违约具有影响,其在32个影响因素中重要程度排序分别是第3和第18位,说明这两个变量对应的指标“城市居民人均可支配收入”是一个重要的指标;类似的指标还有“营业收入增长率”和企业负责人的“家庭月收入”等指标,它们都有两个特征的变量对违约状态有直接的影响。
(3) 在小企业违约风险的影响因素中,企业内部非财务因素比企业内部财务因素和外部宏观条件更重要。企业内部非财务因素准则层的关键特征变量重要度占比51.90%,内部财务因素准则层的重要度35.07%、比企业外部宏观条件准则层的重要度13.03%更大,因此企业内部非财务因素更重要。
参考文献(略)