基于机器学习的中国上市公司财务舞弊的识别研究

吕钟林¹

扫码查看

作者信息

1. 上海财经大学
折叠

摘要

从经济金融进步的历史过程来看，在金融体系发展初期银行往往扮演着主导角色，但随着经济参与主体丰富程度的提升，金融体系日益复杂，资本市场的地位变得越来越重要。截止2022年末我国三大证券交易所——深圳证券交易所、上海证券交易所和北京证券交易所共有近5000家上市公司，总市值达近80万亿。自公开募资市场问世以来，上市公司的财务舞弊一直是一个持续存在的现象。这种不端行为对市场秩序构成了严重的破坏，给社会带来了极大的不安全感，同时也威胁到了国家和企业的切实利益。此外，财务舞弊行为因其隐蔽性和复杂性，往往难以及时被察觉，通常需要经过数年的调查和深入挖掘，才能最终确定是否存在财务舞弊行为并予以相应的处罚。这是因为财务舞弊行为往往涉及众多数据和复杂的交易信息，需要耗费大量时间和精力来进行彻底的调查和分析，同时财务舞弊行为往往有意地隐蔽痕迹，掩盖其真实面貌，使得其被发现的难度更大。随着信息科技的迅速发展，数据挖掘技术已经成为大数据分析时代不可或缺的重要工具。同时，深度学习正在逐渐取代传统机器学习算法。神经网络作为深度学习的代表模型，具有出色的高性能处理能力，同时具备强大的深度学习和联想存储能力，可以有效地处理海量数据。本文旨在比较神经网络模型和传统逻辑回归模型在识别能力上的差异，并通过优化模型参数来提高模型的准确性和可靠性。本文首先建立了一个指标体系，从三十九个指标中筛选出三十个具有显著差异的特征指标。然后选择1999年至2021年间的舞弊和非舞弊上市公司，根据舞弊和非舞弊样本1:3的比例选取了8134个数据样本，并将1999年至2020年样本分类为训练集和测试集，2021年数据作为预测数据验证模型的实际预测能力。在选取好样本后，构建了逻辑回归模型和BP神经网络模型，并采用科学的方法确定了模型的初始参数。通过对模型的初步测试，发现逻辑回归模型的准确率达到了85.56％,神经网络模型的准确率达到83.00％,通过进一步优化学习率、迭代次数、求解器算法和引入交叉验证法，实现了最佳的神经网络模型。本文的创新点为本文使用的与财务舞弊相关的样本数量大大增加，与前人研究该问题的几百个样本相比，本文样本增加至近9000个，增强了模型的训练机会和拟合能力;同时在指标体系中加入了新的研究指标，利用二级市场的股票表现指标完善了模型的解释机制;最后在模型中引入交叉验证的方法，有效缓解了换组样本就换组参数组合的尴尬问题，从中找到适应能力最强的一组参数，进一步提高模型的泛化能力。通过对比传统机器学习和深度学习在辨别财务舞弊方面的表现，本文发现神经网络模型的识别效果更佳，而且经过优化参数，可以显著提高识别效果。本文经过实证，得出以下结论:(1)本文选用的BP神经网络模型，当模型设置学习率为0.001,迭代次数为10000次，L-BFGS作为模型的求解器算法，第一层和第二层隐藏层节点数分别为6和5时，财务舞弊的识别效果最优，准确率可达95.66％,F1Score得分可以达到0.9073;(2)对于2021年公司舞弊的预测结果，准确率可以达到94.51％,F1Score得分达到0.8725,拥有不错的泛化能力。本文旨在探讨神经网络技术在舞弊识别方面的应用，并为后续深入研究提供参考。通过对财务舞弊识别模型的研究，希望可以为公司高管、审计人员、监管机构和投资者提供有价值的新方法。

关键词

上市公司/财务舞弊/神经网络/机器学习

引用本文复制引用

授予学位

硕士

学科专业

金融

导师

张同斌

学位年度

2023

学位授予单位

上海财经大学

语种

中文

中图分类号

段落导航