基于多源异构数据特征下的财务舞弊识别研究*

来源:国际商务财会
关键字:多源异构,数据融合,财务舞弊
发布时间:2024-09-07 15:22

　　程新尧

　　（重庆工商职业学院）

　　【摘要】在大数据背景下，财务数据展现出多源异构性。文章构建了基于多源异构数据融合的财务舞弊识别模型，通过整合不同类型数据，增强数据间的互补性和关联性，以识别财务舞弊。文章的模型构建涵盖数据采集、数据预处理、模型训练、模型预警等阶段，确保了模型识别的有效性。数据预处理阶段通过数据清洗和特征工程提高数据质量，在模型训练时利用数据挖掘和集成融合算法提升模型预测精度和稳定性，从而提高财务舞弊识别的准确性，为企业有效应对舞弊风险提供有力支持。

　　【关键词】多源异构；数据融合；财务舞弊

　　【中图分类号】F275

　　一、引言

　　中国的资本市场始终处于不断变革和快速发展的状态，位于市场经济体制改革的前沿。成熟的资本市场能够为企业提供一个公平、高效的融资环境。会计应当真实客观地反映企业的财务状况、经营成果以及现金流量，然而管理层的舞弊行为破坏了这一基本职能。财务报告质量直接影响会计信息使用者的经济决策，如不能及时发现管理层的舞弊行为，将会给投资者带来巨大的经济损失。传统的财务舞弊识别方法存在明显的局限，这些方法通常仅依赖企业发布的财报数据，而这些数据可能本身已经受到管理层操纵。财务舞弊手段多样且极其隐蔽，单一的识别技术也往往难以全面识别所有的舞弊手段。

　　近年来，基于机器学习、数据挖掘等技术逐步应用于舞弊识别领域，现有研究多以结构化数据作为研究基础，对半结构化、非结构化数据涉及较少。大数据时代下，产生了大量的来自不同数据源的半结构化、非结构化数据，数据显现出多源异构特征。事实上，财务报告中的文本（如管理层讨论与分析[1]）、企业新闻与公告、媒体评论乃至图像视频等半结构化、非结构化数据对于识别财务舞弊同样具有重要价值。因此，如何合理利用多源异构数据监测管理层的舞弊行为，是当前财务舞弊识别领域面临的重要挑战。本文构建了一种基于多源异构数据融合的财务舞弊识别模型，旨在克服传统识别方法的局限性，并充分发掘多源异构数据在揭露财务舞弊方面的潜力，对于检测和打击财务舞弊行为具有重要意义。

　　二、大数据背景下财务数据的多源异构特征

　　在大数据背景下，数据的特征通常被概括为“4V” 模型，即数据量大(Volume)、结构多样(Variety)、高速增长(Velocity) 和低价值密度(Value) 的特征，多源异质化的海量数据打破了以往会计信息来源单一、估量计算不准确的情况[2]。在大数据背景下，财务数据展现出显著的多源异构性，具有以下特征。

　　大规模性：在信息技术快速革新的背景下，形成了庞大的财务数据集，需要用到大数据技术进行处理分析，从而揭示财务数据背后深层次的内在逻辑。

　　多源性：财务数据不仅包括传统的会计记录和财务报表，还涵盖了业务数据、内部决议、市场交易、社交媒体、新闻报道等不同源的多维度内外部信息。

　　异构性：财务数据的格式和类型多种多样，包括结构化数据，如财务指标、交易记录，以及半结构化、非结构化数据如文本、图像和声音等。这就要用不同的技术和方法对不同类型的数据进行存储、处理和分析。

　　复杂性和关联性：财务数据之间存在复杂的内在联系，大数据时代的海量信息, 表面上看是分散的、质量参差不齐的、不同源的，但在逻辑上却是统一的, 这就需要对这些信息进行深度分析、实时分析[3]。利用关联规则分析、机器学习、数据挖掘等方法，帮助识别这些模式和联系，提取有价值的信息。

　　三、数据融合

　　数据融合是多学科交叉的研究领域，在文献中与信息融合、信息集成、数据聚合等术语通常可以交互使用[4]。数据融合是指通过特定的方法对不同类型信息来源或关系数据进行综合分析, 最终可以利用所有信息共同揭示研究对象的特征，以获取更全面、客观的计量结果[5]。运用数据融合技术对财务数据进行综合分析，从而挖掘出更全面、客观的信息，揭示财务关联模式，检测预警风险，增强财务决策支持。

　　四、基于多源异构数据融合的财务舞弊识别

　　模型构建

　　多源异构数据融模型通过整合不同来源与类型的数据，增强了数据之间的互补性与关联性，揭示潜在舞弊模式。研究要求对多源异构数据进行有效的融合和分析。这一综合性构建模型的过程不仅在于解决数据的复杂性，更在于整合不同数据源构建高效可靠的识别反馈机制。基于此，本文从数据采集、数据预处理、模型训练、模型预警四个阶段，构建了基于多源异构数据融合的财务舞弊识别模型。结构化数据、半结构化数据和非结构化数据在多源异构数据的背景下都具有不可替代的作用，有助于揭示潜在的舞弊行为。通过综合运用多源异构数据，可以更全面地揭示潜在的舞弊行为。

　　（一）数据采集

　　在构建基于多源异构数据融合的财务舞弊识别模型中，数据采集通过收集不同结构数据形成数据集。本文从结构化、半结构化以及非结构化三类数据进行讨论。

　　1. 结构化数据的采集

　　结构化数据通常以数据库形式储存，如Excel表格或SQL 数据库。这类数据高度组织，易于检索和分析。结构化数据的采集本研究主要关注以下方面：

　　财务报表数据在传统舞弊识别研究中占主要地位，这些报表提供了企业财务状况、经营成果和现金流量的详细信息。管理层可能通过操纵这些报表，隐藏真实的财务状况误导报表使用者。在传统的舞弊识别研究当中通过对财务报表数据的深入分析，可以寻找出与行业标准、历史数据或同行业其他公司相比异常的财务指标，以识别财务舞弊。

　　交易记录在财务舞弊识别中也有着重要的应用。交易记录提供了企业资金流动的详细信息，有助于发现异常交易行为和潜在的舞弊迹象。通过分析交易记录，监测企业的资金流动，以发现异常资金活动。

　　预测数据可以帮助企业提前了解未来的财务状况和经营成果，从而识别潜在的舞弊风险。在舞弊识别的应用中，预测数据提供了一个基准，用于评估公司的实际表现与预期之间的偏差。但预测数据也存在一定的不确定性，需要结合其他数据进行综合分析，以提高舞弊识别的准确性和可靠性。

　　2. 半结构化数据的采集

　　半结构化数据介于结构化数据和非结构化数据之间，其数据不符合严格数据库结构。例如财务报告中的文字信息、公告、经济决策、合同等信息。仅依靠报告中的报表数据对舞弊进行分析存在局限性，财务报告中的文字信息，也包含了对企业财务状况、经营成果和现金流量的详细信息。当管理层发生舞弊行为时，这些文字信息中可能包含含糊不清或者误导性陈述，特别是文字中表现出过于乐观或悲观的态度，可能是管理层试图掩盖某些问题来误导投资者。

　　例如通过企业发布的公告、决策信息，可以了解管理层经营策略和风险偏好，结合企业的投融资决策，评估决策的合理性。还可以分析财务决策与实际业绩之间的关联性，从而识别潜在的舞弊风险。合同信息揭示了公司与合作伙伴的关系和业务往来，当合同中存在显失公平的条款或出现合同频繁变更、未按时履约等迹象，可能反映出管理层的财务舞弊行为。

　　3. 非结构化数据的采集

　　社会新闻报道、网络评论、市场信息等非结构化信息，对舞弊的识别也有重要意义。例如，企业异常积极的公关可能暗示着公司试图掩盖某些负面信息。

　　企业的发布会、公开会议所产生的视频和音频资料能够捕捉到公司高管的言行举止，通过分析语音中的细微变化，可以反映管理层对公众所表达的态度。

　　市场信息则为财务舞弊识别提供了基本宏观环境信息。如果公司在行业整体下滑的情况下仍保持出色业绩，或者与市场趋势存在显著差异，则需要关注业绩的合理性。

　　（二）数据预处理

　　1. 数据清理

　　财务数据虽显现出多源异构特征，但对数据的处理却有高度准确性和一致性的需求，以避免产生误导信息。因此，数据清洗就需要运用到多种方法来处理这些不同类型的数据。此外，数据的时间序列特征能够对企业财务状况的趋势分析和预测提供支持，然而不同源的数据在表达方式上不一致，因此需要对数据进行标准化处理。数据清洗过程中还需要正确地识别异常值，这些异常值可能是由输入错误、管理层舞弊或其他事件所引起。

　　2. 特征工程

　　特征工程不仅能够提高模型的性能，还能够帮助研究者发现数据中所隐藏的关联模式，可以有效地从多源异构财务数据中提取出有助于舞弊识别的信息，从而提高舞弊识别的准确性和效率。多源异构特征下的财务数据存在多种形式的数据类型，特征工程需要针对不同类型的数据进行处理和转换，以便提取出有效的特征。由于财务数据的维度高数据量大，可能会导致模型的过拟合和计算效率低下。特征工程需要进行适当的降维处理，如主成分分析（PCA）、线性判别（LDA）等，以减少特征的维度并保留关键信息。同时，对特征进行归一化处理，将特征的尺度统一到相同的范围内，可以提高模型的训练效率和稳定性。对于半结构和非结构化数据的特征工程需要结合具体的应用场景和数据特点进行定制化处理。对于社交媒体上的言论，需要提取相关话题、情感倾向等特征；对于视频中的管理层行为，需要提取相关动作、表情和场景等特征。此外，对半结构化和非结构化数据的特征工程还需要考虑数据的可解释性以及泛化能力等。

　　（三）模型训练

　　在财务舞弊识别研究中，模型训练是至关重要的一环。在多源异构数据的基础上，通过数据挖掘和集成融合算法，获取财务舞弊特征识别的关键指标，通过对不同数据源的分类识别结果，进而获得更精准的分类决策。该过程涉及到单一模型的构建、集成模型构建、模型的优化以及验证等步骤。

　　1. 单一模型构建

　　单一模型构建是模型训练的基础，每个单一模型都是一个独立的分类器，对财务舞弊行为进行初步识别。这些模型通过各自的算法和机制，能够捕获样本中不同角度的信息，从而对舞弊行为做出判断。可以尝试采用多种机器学习算法来构建单一模型，例如支持向量机、决策数、神经网络等。还可以引入像决策树这类解释性更强的模型算法，以便更好地解释模型是如何根据财务特征识别财务舞弊的。

　　2. 集成模型构建

　　为了提高模型的预测精度和稳定性，可以进一步采用集成的方法，将多个单一模型进行组合，形成集成模型。集成模型包括Bagging 和Boosting 两种常见的集成策略。集成模型通过组合多个单一模型，可以减小单一模型可能存在的过拟合或欠拟合问题，提高整个模型的稳定性和泛化能力，以提高模型在预测数据上的表现。不同的单一模型可能擅长处理不同类型的数据或捕获不同的特征。集成模型，可以综合利用它们的优点，提高整体识别性能。

　　3. 模型优化

　　模型优化旨在通过调整模型参数、改进模型结构从而提高模型的预测精度。在财务舞弊识别中，通常舞弊案例的数量远少于非舞弊案例。这种数据不平衡性可能导致模型的识别结果偏向于非舞弊案例。在模型优化中采用适当的调整损失函数或引入SMOTE 算法，可以应对数据的不平衡性。同时在多源异构数据特征下，财务指标的维度很高，容易出现过拟合现象，即模型在训练集数据上表现良好但在测试集数据上表现不佳的情况。通过调整模型复杂度、使用交叉验证等，以提高模型在预测集上的泛化能力。

　　（四）模型预警

　　模型会通过对多种关键指标的实时监测和深入分析，及时发现并警示潜在的舞弊行为，就需要用到指标对异常行为进行预警。历史数据在模型预警中发挥着“参照系”的作用。模型会通过对企业历史财务数据的深入挖掘和分析，建立起一个基准线，当模型发现当前数据出现显著偏离时，就会发出预警信号。模型预警的输出不仅包括关键指标的异常信息，还会根据这些信息的综合评估结果，运用定性与定量的方式确定预警层级，每个层次都对应着不同的应对措施和紧急程度。这种预警等级的划分，有助于企业根据风险的影响程度和紧急程度，制定应对策略，从而更有效地防控舞弊风险。

　　五、结论与展望

　　本文探究了多源异构数据在揭露财务舞弊方面的应用，通过整合结构化数据、半结构化数据及非结构化数据，挖掘了各类数据在揭露潜在舞弊行为中的独特价值。不仅能从财务指标这一基础层面进行审视，更能结合管理层行为、经营情况、市场动态等多源信息。此外，本文在模型构建时采用了数据挖掘、机器学习、集成算法等技术，构建了单一识别模型、集成识别模型。通过集成不同的单一模型，可以综合各个单一模型的优点，提高整体识别性能。

　　展望未来，期待大数据与人工智能技术的持续发展能进一步推动该领域的发展。特别是，通过更深入地运用自然语言处理、图像识别、视频处理等尖端技术，我们可以从海量的非结构化数据中提炼出更多有价值的信息。同时，跨学科的合作与交流也将推动该领域发展，有望构建出一个更加全面、科学的舞弊识别体系。

　　但也要注意多源异构数据在舞弊识别研究中存在的风险。多源异构数据可能来源不同，数据质量也参差不齐，特别是非结构化数据的可靠性和完整性可能难以保证。同时，多源异构数据可能会涉及到个人隐私和商业秘密，要避免不当的数据处理或者数据外泄，防止可能导致的法律风险和信誉损失。

　　主要参考文献：

　　[1] 赵纳晖, 张天洋. 基于MDA 文本和深度学习模型的财务报告舞弊识别[J]. 会计之友,2022(08):140-149.

　　[2] 程平, 赵子晓. 大数据对企业财务决策的影响探析[J].财务与会计,2014(10):49-50.

　　[3] 王民, 佘晓燕. 大数据时代“会计工厂”的构建[J].会计之友,2015(03):96-99.

　　[4] 陈科文, 张祖平, 龙军. 多源信息融合关键问题、研究进展与新动向[J]. 计算机科学,2013,40(08):6-13.

　　[5] 许海云, 董坤, 隗玲等. 科学计量中多源数据融合方法研究述评[J]. 情报学报,2018,37(03):318-328.

　　责编：梦超

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容