本文是一篇计算机论文,本文研究了指标层面的财务粉饰识别问题。针对当前缺乏指标层面的财务粉饰数据集,提出了一个财务指标粉饰数据集,并基于该数据集提出了针对财务指标粉饰识别的多标签分类模型LSTMM。
1 绪论
1.1 研究背景
财务粉饰研究可以追溯到20世纪初,当时有关会计和财务报表的研究开始兴起。随着资本市场的发展,对公司财务信息的需求也不断增加,以便投资者和其他利益相关者评估公司的经营状况和财务状况。然而,随着越来越多的公司试图通过粉饰其财务报表来吸引投资者,人们因此开始关注财务粉饰问题。此外,随着全球经济的快速发展,对企业治理和企业责任的关注也不断增加。在这种情况下,财务粉饰成为了一个重要的研究课题,它涉及到了公司道德和法律责任等方面。因此,财务粉饰研究是由对公司财务信息的需求,对公司治理和责任的关注,以及对道德和法律责任的关注等多种因素共同推动的。
财务粉饰的研究受到过国际金融危机的影响,在随后的几年中得到了加强。金融危机暴露了许多公司在其财务报表中进行粉饰的问题,进一步引发了公众对公司财务信息真实性的关注。此后,随着全球金融市场的发展,越来越多的公司需要在国际范围内进行融资,因此对公司财务信息的透明度和可靠性的要求也不断提高。在过去的几十年中,财务粉饰已经发展成为一个广泛研究的课题,并在全球范围内得到了广泛的关注。研究人员通过对公司财务报表的分析,试图揭示公司是否在其财务报表中进行了粉饰,并对财务粉饰的原因和影响进行了深入的研究。
财务报表是反映企业财务状况的重要工具。然而,一些上市公司为了避免监管、营造企业形象和前景,不惜冒险篡改财务报表,进行财务造假。这种不正当行为已经成为影响国内外证券市场健康发展的一个重要因素,扰乱了资本市场秩序。自美国安然公司的财务造假事件以来,许多世界级大公司被曝出存在财务造假问题,如美国通讯公司世通(WorldCom)、制药公司默克(Merck)和办公设备公司施乐(Xerox)等。在中国,随着市场经济和证券行业的蓬勃发展,各行各业披露的财务造假问题也是屡见不鲜。仅证监会每年公布并处理的上市企业财务造假案件就在不断增加。这些恶劣的财务造假案例短期内会导致市场行情异常波动,从而导致证券市场不稳定,长期而言会影响各类投资者的信心和整个行业的健康发展。
1.2 国内外研究现状
本节从财务粉饰手段、财务粉饰识别、机器学习技术在财务粉饰识别中的研究进行综述。
(1) 财务粉饰手段研究
早在1999年,就有研究表明高估资产和收入是阿财务粉饰最为常见的手段[1]。随着时间的推移,财务粉饰手段不断提高,不再局限于虚构收入和资产。虚构资产、虚构收入和虚减成本是公司主要使用的手段,财务粉饰一般会对公司自身的财务状况造成不利影[2-3]。国内的研究表明,财务粉饰与法人股比例、执行董事比例、内部控制制度和监事会规模呈正相关关系,而与流通股比例和董事会规模呈负相关关系[4]。财务粉饰的手段可以归为三类:损害公司利益的粉饰、虚增资产和收入类粉饰、故意掩饰或不披露事项粉饰。有研究表明其目的是蒙蔽报表使用者,通常采用去重大遗漏或误导性描述相关交易、事项及其他重要信息;伪造或篡改财务记录、原始证明文件或正常交易事项;误用、忽视会计准则、会计政策及其他权威文件、程序;忽略或不完全披露与交易有关的会计准则、会计政策或遗漏金额列报[5]等方法。在面临市场困境时,上市公司更可能采取突破市场红线的行为。公司会发生财务粉饰的原由归因于公司管理人员的贪婪和本身粉饰的后果不严重、成本低和压力小,公司高管为了欺骗股东和企业投资人会不顾后果采取财务粉饰方式。此外,如果公司的最大股东是国土资源局,那么公司发生财务粉饰的可能性更大[6]。
国内,通过案例对比张大翠[7]总结了财务粉饰的主要手段,包括虚增资产和收入以及违规披露信息等。岳殿民[8]还将财务粉饰归类为财务报表粉饰和会计信息违规披露两类,财务报表粉饰指在信息披露前操纵实质业务,如虚增资产、收入和利润等。会计信息违规披露则指披露过程中的不实行为,如不按时、不公开、不完全或虚假披露等。这些研究为后续的相关研究提供了理论基础。现行上市公司审计范围局限在财务,而财务粉饰的手段应更广泛地关注企业供应链上每一个客户与公司内部人员的往来关系,以防止权力过大的造成的危险后果[9]。此外COSO指出,财务粉饰的常用手段包括真实收入未到账时便将其确认、虚构当期经营的收入和资产,以及不对费用和负债入账、滥用资产和没有合理披露重点信息等其他手段[10],财务粉饰的范围还包括利用关联方交易和违规挪用客户资金等手段[11]。在实际操作中上市公司存在故意使用不当的股权投资核算方法计算投资收益、虚构交易行为,将投资收益入账到营业性收入中等[12]。因此,审计应更广泛地关注企业内外部关系,以便发现和防范财务粉饰行为。
2 相关理论及技术简介
2.1 财务报表概述
在中国,根据《公司法》和《证券法》的规定,上市公司和非上市公众公司都需要定期发布年度财务报告。同时,非公开发行债券的公司也需要发布年度财务报告。具体而言,根据中国证监会的规定上市公司需要按照以下要求定期发布年度财务报告:
年报内容:年度报告应当包括财务报表、董事会报告、监事会报告、会计师事务所审计报告、法定公告、股东大会决议等内容。 年报披露时间:上市公司应当在每年的3月31日之前披露上一年度的年度报告。
年报披露地点:上市公司应当将年度报告披露在上交所、深交所和公司网站等指定的披露平台上。企业年报是上市公司的重要财务信息披露文件,通常由以下几个部分组成,如表2.1所示。
本文主要根据企业的财务报表数据进行分析与研究。财务报表是企业财务信息披露的重要工具,可以反映企业的财务状况、经营成果和现金流量等方面的信息,对于投资者、债权人、政府等外部利益相关者了解企业状况、做出决策具有重要意义。
财务报表主要包括资产负债表、利润表和现金流量表三个部分。资产负债表是反映企业财务状况的重要报表,它以某一特定日期为基础,清晰地表述了企业资产、负债和所有者权益的关系。资产负债表按照会计核算基础分为现金流量表与非现金流量表。现金流量表反映了企业现金及现金等价物流入和流出的情况,其目的是衡量企业现金及现金等价物的净增加或减少额。非现金流量表则反映了除现金流量外的其他经济资源的增减变化情况,例如固定资产、无形资产等。
3 指标层面的财务粉饰数据集构建 ...................... 21
3.1 财务报表数据集构建 .......................... 21
3.1.1 数据获取 .................................... 21
3.1.2 缺失值处理 .......................................... 25
4 基于机器学习的财务指标粉饰识别研究 ........................ 33
4.1 财务指标粉饰分析 .................................. 33
4.2 LSTMM模型 ............................. 35
5 总结与展望 .................................... 43
5.1 总结 ............................................ 43
5.2 展望 ....................... 43
4 基于机器学习的财务指标粉饰识别研究
4.1 财务指标粉饰分析
本节主要分析指标层面的财务报表粉饰数据,并进行数据可视化展示。 通过对违规企业的案例分析,我们发现资产负债表和利润表是容易被财务粉饰的领域。在粉饰样本中,共有74个粉饰指标,存在于资产负债表的占总数51.4%,存在于利润表的占总数25.7%,存在于现金流量表中的占总数23%。如图4.1所示。
粉饰指标数排名前10的频数图如图4.2所示。排名第一的是营业收入,是企业经营过程中确认的营业收入;接着是净利润,即公司实现的净利润;应收账款净额,为应收账款与应收账款坏账准备的差额。应收账款是公司因销售商品、产品、材料、提供劳务及办理工程结算等业务,而应向购买单位或接受劳务单位收取的款项;营业成本,是企业确认的营业成本;归属于母公司所有者的净利润,合并报表净利润中归属于母公司所有者的净利润;利润总额,公司实现的利润总额;其他应收款净额,为其他应收款与其他应收款坏账准备的差额;应付账款,公司购买原材料、商品或接受劳务供应等而应付给供应单位的款项;存货净额,“存货”与“存货跌价准备”之差额;固定资产净额,固定资产净额为固定资产原价除去累计折旧和固定资产减值准备之后的净额。频数前10名的粉饰指标都存在于资产负债表和利润表报表,代表企业在这两报表中可操作空间大。
5 总结与展望
5.1 总结
本文研究了指标层面的财务粉饰识别问题。针对当前缺乏指标层面的财务粉饰数据集,提出了一个财务指标粉饰数据集,并基于该数据集提出了针对财务指标粉饰识别的多标签分类模型LSTMM,主要工作如下。
(1) 阐述了财务粉饰研究的研究价值与意义,并从财务粉饰手段和财务粉饰识别方法这两个角度介绍了目前财务粉饰的国内外研究现状,并对这些方法的优缺点进行了总结和归纳。
(2) 介绍了财务粉饰的相关理论和机器学习的相关技术,文本多标签分类相关技术,主要包括决策树、随机森林、逻辑回归、XGBoost和LSTM模型,并分析了这些技术的优缺点及其计算过程。
(3) 构建了一个财务指标粉饰数据集。与目前的财务报表数据集相比,该数据集的最大特点是增加了报表粉饰样本,且赋予了每一个特征指标粉饰标签。进一步通过实验评估了主流机器学习模型在所构建数据集上的表现。
(4) 提出了一个LSTMM模型,用于解决企业财务报表中的粉饰指标识别问题,该模型由LSTM和MLP模型组成,其中LSTM提取特征向量, MLP通过特征映射、特征组合和分类决策等过程,将高维的特征向量转化为分类结果,并通过反向传播算法来优化模型的性能。本文通过大量对比实验证明了LSTMM模型的有效性。
参考文献(略)