相关文章推荐
虚心的长颈鹿  ·  django rest framework ...·  2 月前    · 
老实的灭火器  ·  c# .net core ...·  9 月前    · 
非常酷的消防车  ·  Java 高级面试题 ...·  1 年前    · 

本文摘自厦门大学会计发展研究中心/管理学院会计学系熊枫副教授、厦门大学管理学院会计学系许欣博士和澳大利亚蒙纳什大学安哲副教授合作题为《Using Machine Learning to Predict Corporate Fraud: Evidence Based on the GONE Framework》的论文,在 Journal of Business Ethics 在线发表。


图片


01

引言

企业舞弊由于其破坏性的影响,侵蚀了投资者的信心,扰乱了市场秩序,一直以来都吸引着从业者和监管者的极大关注。伴随着经济的快速增长,二十一世纪以来,企业舞弊在中国资本市场有增加的趋势。2008年至2020年间,中国证监会共发布了7,285份处罚公告,其中482家公司因违规事件受到处罚。平均而言,中国证监会需要1.76年的时间来调查和揭露舞弊案件。因此,准确有效地预测企业舞弊是中国资本市场面临的一大挑战。在信息技术时代,新的信息渠道以及机器学习算法,将有助于提高企业舞弊预测模型的准确度。因此,本文基于GONE框架(Bologna等,1993),使用了一套更为全面的输入变量以及新的机器学习算法,来提高企业舞弊的预测准确度,为监管者和投资者提供更准确的公司舞弊预警。与此同时,通过实证研究确认了社交媒体作为暴露因子Exposure的重要性,充实了社交媒体对企业实施监督的相关文献。

02

企业舞弊成因与预测

正如所有的预测模型,企业舞弊预测基于对企业舞弊起因的确认。Cressey(1953)提出了著名的舞弊三角理论(激励、机会和合理化),而Bologna(1993)进一步提出了GONE理论框架(贪婪、机会、需求和暴露)。近年来,随着社交媒体等新信息渠道的兴起,将新媒体信息融入现有的企业舞弊预测模型,一方面将有助于拓展社交媒体增量信息的相关文献,另一方面将提高现有企业舞弊预测模型的准确度。

GONE框架表明,公司欺诈是由四个主要因素造成的,即贪婪、机会、需求和暴露。贪婪指的是个人内在或人格属性方面的伦理和道德品格,它在人们的行为和认知中起着重要作用。因此,组织中关键人物的道德意识和认知对公司舞弊的可能性会产生重大影响,比如高管的年龄、教育、学术背景和职业资格。机会(实施舞弊的机会)指的是公司治理结构,如独立董事监督等,将有助于减少企业实施舞弊的可能。就需求而言,一个重要的舞弊动机是经济需求,包括提高公司业绩、股价及个人利益,如通过改善公司运营和股票市场表现,满足现有债务合同中的契约,以有利的条件筹集资金,避免在证券交易所被停牌;或者是管理者掩盖不断恶化的业绩以获得报酬。暴露是指舞弊被揭露的可能性和欺诈被揭露后的惩罚程度。揭露舞弊的可能性与外部监督的程度有关,包括审计师、媒体等,如较大的审计公司能更好地监督上市公司,而审计师的变化会削弱外部监督的有效性,从而使欺诈活动更难发现;在媒体的聚光灯下,企业往往会提高董事会的效率及治理违规概率;当企业面临更高程度的舞弊惩罚,则更不可能实施舞弊。

媒体的监督作用在于对企业的公众形象产生影响,以及吸引监管机构的注意,从而显著地增加了企业舞弊的成本。近年来,越来越多的研究文献展示了社交媒体在企业信息披露中的价值,但较少实证研究证明社交媒体在企业舞弊中的信息作用。

03

机器学习在公司治理(预测)中的应用、机遇与挑战

随着机器学习算法的发展,使用机器学习模型来解决会计和财务问题成为了一大趋势,其中包括各种算法模型及数据来源,如支持向量机模型(Cecchini等,2010)、逻辑回归模型(Perols,2011)、基于管理层讨论文本特征的随机森林模型(Purda和Skillicorn,2015)等。近年来的研究还包括基于原始会计数字的RUBoost模型(Bao等,2020),以及基于梯度提升回归树算法模型的企业重大错报行为研究(Bertomeu等,2021)。

使用机器学习模型来预测公司舞弊面临着四大挑战。第一也是最重要的,是确保输入的数据变量正确且恰当,即涵盖应该包含的各项企业舞弊动因。前述文献的输入变量更多的是原始数据,缺少一个特定的理论框架给予数据选择上的理论支撑;另一方面则是缺少对不同算法模型的比较以及不同企业舞弊类型的进一步分类检验。其余挑战包括确保企业舞弊预测模型中企业舞弊样本符合匹配要求、预测模型中赋予正确的参数、以及不同的预测模型可以适用于不同的(特别是像中国这样的新兴)资本市场。

04

机器学习模型及其舞弊预测性能(准确度)评估

本文采用了三种集合学习模型(RF,GBDT和RUSBoost模型)以及三种传统的机器学习模型(LR、SVM和ANN模型)来预测企业欺诈,并使用Scikit-Learn来构建预测企业欺诈的机器学习模型。研究结果发现,通过一系列指标,如AUC值,精确率和召回率,以及NDCG@k、Precision@k和Recall@k来衡量欺诈预测模型的能力,本文发现随机森林(RF)模型在企业舞弊预测方面表现更好,尤其是预测更严重的欺诈行为(即虚构资产和编造利润)方面。进一步研究表明,比起其他变量,从属于“暴露因子”的社交媒体变量的重要性最为显著。

05

结论、贡献与启示

本文基于GONE理论框架,融入以社交媒体为主的“贪婪因子”,构建了一个基于随机森林(RF)算法的企业舞弊预测模型。本文首先提升了现有预测模型的准确度,有助于监管部门以及投资者提前发现企业舞弊。其次,本文确认了社交媒体信息的重要性,一方面拓展了社交媒体信息增量作用的相关研究文献,另一方面也拓展了企业舞弊因子的相关研究。最后,本文通过对六种机器学习方法进行对比,展示了随机森林(RF)在预测企业舞弊方面的算法优势。随着商业模式的变革,企业舞弊形式及其动因也会随之改变,后续研究可以尝试融合不同来源的数据以及更新因子的衡量指标,以进一步提高预测准确度。