财务操纵行为识别方法、装置、电子设备及介质

文献发布时间：2023-06-19 12:14:58

技术领域

本发明涉及大数据领域，具体而言，本申请涉及一种财务操纵行为识别方法、装置、电子设备及介质。

背景技术

为了维持股价、业绩考核及筹集资金等方面的目的，上市公司经常会使用各种“财务技巧”来发表其财报，即所谓的财务操纵。

财务操纵可以大致分为两类：第一类涉及在通用会计系统，会计准则和相关法律所允许的范围内使用剩余权力来创建会计规则，以便有意处理相关会计数据获得一定的行为预期。它在会计规则框架内起作用，因此是对会计的法律操纵。第二类是不受会计规则约束的协议，在其外部进行会计处理通常表现为严重违反当前的会计系统，会计标准和相关法律法规。这种类型的会计处理是非法的会计处理。提供的财务信息不是真实的，即失真的财务信息。本发明中所指的财务操纵是指后者，具体而言，就是未及时披露公司重大事项、未依法履行其他职责、业绩预测结果不准确或不及时、信息披露虚假或严重误导性陈述等情况。

实现对上市公司的财务操纵的有效识别无论对于监管者还是广大的投资者来说，都至关重要。目前来说，为了识别上市公司是否存在财务操纵，一般需要聘请具有专业财务知识、了解上市公司经营情况的专业人员，通过对上市公司的公开财务数据、经营数据进行繁琐的分析方能获得。因此，有必要提出一种通用的财务操纵行为识别模型，以实施对上市公司的财务操纵行为的自动识别，最终提升对财务操纵的识别效率、识别效果，降低识别成本。

发明内容

为了实现上述技术目标，本发明第一方面提供了一种财务操纵行为识别方法，其详细技术方法如下：

一种财务操纵行为识别方法，其包括：

构建财务操纵行为识别模型；

获取待识别公司的关键特征数据；

将获取到的关键特征数据输入至构建好的所述财务操纵行为识别模型，以识别出所述待识别公司是否存在财务操纵行为。

在一些实施例中，所述构建财务操纵行为识别模型包括：

确定候选特征集，所述候选特征集包括若干财务特征和若干非财务特征；

获取样本集，所述样本集包括正样本和负样本，所述正样本为存在财务操纵行为的公司样本，所述负样本为不存在财务操纵行为的公司样本；

使用所述样本集对所述候选特征集中的各特征进行显著性差异分析以获得若干关键特征，其中，所述关键特征在所述正样本和所述负样本中存在显著差异；

对所述关键特征进行逻辑回归分析，获得所述财务操纵行为识别模型。

在一些实施例中，所述使用所述样本集对所述候选特征集中的各特征进行显著性差异分析以获得若干关键特征包括：

采用单因素检测法对所述候选特征集中的各特征进行显著性差异分析，以获得包括有第一数量的所述候选特征的第一关键特征集；

采用多变量逻辑回归分析法对所述候选特征集中的各特征进行显著性差异分析，以获得包括有第二数量的所述候选特征的第二关键特征集；

合并所述第一关键特征集和所述第二关键特征集，以获得包括有第三数量的所述候选特征的第三关键特征集；

采用因子分析法对所述第三关键特征集进行筛选，以获得最终的所述关键特征。

在一些实施例中，所述正样本的数量与所述负样本的数量相等。所述正样本的数量与所述负样本的数量相等且成对出现，对应的所述正样本和所述负样本属于同一交易所、同一行业且总市值的差异在预定范围内。

在一些实施例中，所述单因素检测法为非参数检测法。

在一些实施例中，所述财务操纵行为识别模型为多变量逻辑回归模型，其表示如下：

其中：Y为存在财务操纵的概率，X

本发明第二方面提供了一种财务操纵行为识别装置，其包括：

建模模块，用于构建财务操纵行为识别模型；

获取模块，用于获取待识别公司的关键特征数据；

识别模块，用于将获取到的关键特征数据输入至构建好的所述财务操纵行为识别模型，以识别出所述待识别公司是否存在财务操纵行为。

在一些实施例中，所述建模模块包括：

确定子模块，用于确定候选特征集，所述候选特征集包括若干财务特征和若干非财务特征；

获取子模块，用于获取样本集，所述样本集包括正样本和负样本，所述正样本为存在财务操纵行为的公司样本，所述负样本为不存在财务操纵行为的公司样本；

关键特征选择模块，用于使用所述样本集对所述候选特征集中的各特征进行显著性差异分析以获得若干关键特征，其中，所述关键特征在所述正样本和所述负样本中存在显著差异；

模型训练子模块，用于对所述关键特征进行逻辑回归分析，获得所述财务操纵行为识别模型。

本发明第三方面提供了一种电子设备，其包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面所述的财务操纵行为识别方法。

本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面所述的财务操纵行为识别方法。

本发明通过构建财务操纵行为识别模型实现对待识别公司是否存在财务操纵的自动识别，其显著地提升了对上市公司的财务操纵的识别效率、识别效果，并显著降低了识别成本。

附图说明

图1为本发明第一个实施例提供的财务操纵行为识别方法的流程图；

图2为本发明第一个实施例提供的财务操纵行为识别方法的流程图；

图3为本发明第二个实施例提供的财务操纵行为识别装置的结构框图；

图4为本发明第二个实施例提供的财务操纵行为识别装置的结构框图；

图5为本发明第三个实施例提供的电子设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

如图1所示，本实施例提供的财务操纵行为识别方法100包括如下步骤：

S101、构建财务操纵行为识别模型。

具体的，如图2所示，步骤S101包括包括如下子步骤：

S1011、确定候选特征集，所述候选特征集包括若干财务特征和若干非财务特征。

如本领域一般技术人员所能知晓的，财务操纵的痕迹必然能在公司经营和财务数据中反映出来，因此我们选择从公司的经营数据和财务数据中确定候选特征集，即：候选特征集中的各候选特征均可能与财务操纵之间存在关联。当然，这些候选特征的确定是基于本领域已有的研究成果的基础上的。

候选特征从属于两类：财务指标与非财务指标。财务指标体系又被细分为偿债能力、盈利能力、资产质量、盈利质量、营运能力、现金流量、发展潜力、联交易度、风险水平几个维度，非财务指标体系又被分为以下几个方面：公司治理、公司经营、经营风险、审计信息。

可选的，本实施例中，最终确定的候选特征集所包括的候选特征及定义如表1所示：

表1.候选特征及定义

S1012、获取样本集，所述样本集包括正样本和负样本，所述正样本为存在财务操纵行为的公司样本，所述负样本为不存在财务操纵行为的公司样本。

可选的，我们将在2012年1月1日至2020年9月30日期间已被证监会正式通知并受到行政制裁的上市A股财务操纵公司确认为正样本，其中不包括对财务操纵公司的通报批评、公开谴责等一般通知，我们获取到263个正样本。样本公司的财务数据，经营数据和公司治理数据均来自wind数据库。

接下来，我们通过如下过程对样本实施进一步的筛选：

1、对于连续两年及以上时长存在财务操纵行为的公司，根据证监会的处罚时间，把主要的被发现的操纵行为的出现的第一年的数据作为研究的所采用的数据；

2、由于经营模式和业绩指标的评价标准与通常的公司并不相同，剔除金融、保险等上市公司；

3、剔除部分财务数据不全而无法获取到完整指标体系的公司：

4、剔除在证监会通报处罚日前后交易日均处于停牌中的公司。

经过上述筛选后，最终获得132个存在财务操纵样本。这些样本被通报处罚的原因不同，有处罚涉及一项原因的，也有多种原因并罚的，本发明中不进行特别区分。

与此同时，按照1：1的比例选取与财务操纵样本同一交易所、同一年份、同一行业、总市值最为接近的非财务操纵上市公司，作为负样本。

完成上述的样本的选取和筛选后，最后确定的样本量为132家有财务操纵行为的上市公司作为正样本组，132家与之一一对应的非财务操纵上市公司作为负样本组，样本总数共计为264家上市公司。通过上述方式构建的样本集，能够控制行业、年度、规模等因素的影响。

S1013、使用所述样本集对所述候选特征集中的各特征进行显著性差异分析以获得若干关键特征，其中，所述关键特征在所述正样本和所述负样本中存在显著差异。

可选的的，步骤S1013的具体实施步骤如下：

S10131、采用单因素检测法对所述候选特征集中的各特征进行显著性差异分析，以获得包括有第一数量的所述候选特征的第一关键特征集。

在实施对所述候选特征集中的各特征进行显著性差异分析之前，首先进行样本规模的单变量检验，以排除公司规模对两组数据的影响。具体的，在正样本组和负样本组中将总市值作为检验变量进行非参数检验，将总市值和行业作为检验变量，是否存在财务操纵行为作为分组变量，分别用0、1代表存在财务操纵行为和不存在财务操纵行为。此步骤的目的在于检验正样本组与负样本组之间是否受到公司规模(总市值)的影响。

样本规模的单变量检验中对公司规模进行曼-惠特尼检验的结果。结果显示在正样本组和负样本组中，公司规模的分布大致相同，排除公司规模因素的干扰。统计结果见表2:

表2.公司规模进行曼-惠特尼检验的结果

结果显示渐进显著行为0.950，在0.05的显著性水平上未通过。说明两组数据在总市值上没有明显差异，即，可以排除公司规模对两组数据的影响。

本实施例中，实施对候选特征集中的各特征的显著性差异分析，具体过程如下：

在正样本组和负样本组中进行非参数检验，依次将候选特征X1-X35作为检验变量，是否存在操纵行为作为分组变量，并对分组变量进行定义，正样本组设为0，负样本组设为1。

在正样本组和负样本组中进行非参数检验得出35个候选特征中，哪些特征在正样本组和负样本组中存在显著差异，各候选特征的描述性统计结果如表3所示：

表3.各候选特征的描述性统计结果

从表3中的数据可见，在正样本组和负样本组中，候选特征X2、X5、X7、X10、X14、X18、X19、X22、X34显著性均在0.05的水平上通过，这表明这些候选特征在两组数据中存在着显著性差异；其余候选特征的显著性分别为均大于0.05，这表明这些候选在两组数据中的分布大致相同。因此，执行完本步骤中，我们最终选取X2、X5、X7、X10、X14、X18、 X19、X22、X34共8个候选特征作为第一关键特征集。

S10132、采用多变量逻辑回归分析法对所述候选特征集中的各特征进行显著性差异分析，以获得包括有第二数量的所述候选特征的第二关键特征集。

通过逻辑回归法寻找两组样本中有显著性差异的候选特征。选择逻辑回归分析的目的在于其用于研究X对Y的影响，并且对X的数据类型没有要求，X可以为定类数据，也可以为定量数据，但要求Y必须为定类数据，并且根据Y的选项数，使用相应的数据分析方法。由于我们选取的因变量指标中既含有定量数据也含有定类数据，而自变量为定类数据，因此逻辑回归法符合我们对数据处理的要求。

将Y作为因变量，将X1-X35作为协变量，通过二元逻辑回归法寻找两组样本中有显著性差异的候选特征。如下表4所示，通过逻辑回归(筛选变量的方式为Forward方式)，最终进入方程中的变量包括X7、X14、X18、X19、X22、X35。

表4.逻辑回归进入方程中的变量

因此，我们最终选取X7、X14、X18、X19、X22、X35共6个候选特征作为第二关键特征集。

S10133、合并所述第一关键特征集和所述第二关键特征集，以获得包括有第三数量的所述候选特征的第三关键特征集。

对单因素检测法获取到的第一关键特征集X2、X5、X7、X10、X14、X18、X19、X22、X34和多变量逻辑回归分析法获取第二关键特征集X7、X14、X18、X19、X22、X35进行合并，获得第三关键特征集，其包括X2、X5、X7、X10、X14、X18、X19、X22、X34、X35，共10个特征。

S10134、采用因子分析法对所述第三关键特征集进行筛选，以获得最终的所述关键特征。

虽然，第三关键特征集中的各特征均与财务操纵之间存在较大的关联，但是，其所包括的各特征之间的关联度可能较大，即，特征之间可能会存在多元共线性，因此为了保证后续的识别模型的有效性和可解释性，有必要对第三关键特征集进行进一步的降维处理，以去除特征之间的多元共线性。可选的，本实施例采用多元因子回归分析法实施降维处理，以期最终形成少量的几个主要因子构建起财务操纵行为识别模型。

通过多元因子回归分析，我们可以将得到的若干个自变量指标的共同影响维度，并通过旋转后的因子载荷矩阵得到公因子的决定性指标，缩小自变量指标的个数，使其更好的适应逻辑回归。

如表5，在公因子选择的过程中，我们使用了三种不同的方式。第一种为最普遍的情况，只将特征值大于1的维度考虑进来，即提取前四个公因子。这种方法覆盖的原变量的信息只能达到68.263％，其水平较低。第二种通过提取5个公因子，其中有四个公因子特征值在1 以上，第五个公因子特征值为0.835也接近于1，能够覆盖原变量77.543％的数据信息，这说明该组数据信息能被很好的解释。第三种由于第6个公因子的特征值为0.810，也十分接近于 1，而且提取的原变量的信息覆盖概率可以达到86.541％，但是改方法选择的维度过于冗余，且在该方法下对控制组进行财务操纵行为识别时，其正确率仅有68％，低于前两种方法，因此不作为选择。综上所述，我们选取第二种方法进行因子分析。

表5.因子分析的总方差解释

从旋转后的成分矩阵表6可以看出，五个公因子维度共由以下几个变量指标决定：X34、 X14、X2、X18、X5、X19、X22。

表6.旋转后的成分矩阵

即，经过因子分析法的降维处理后，最终确定的关键特征为X2、X5、X7、X10、X14、X18、X19、X22、X34。

S1014、对所述关键特征进行逻辑回归分析，获得所述财务操纵行为识别模型。

仍采用前文中的样本集的数据，对通过因子分析得到的关键特征执行logistic回归分析(筛选变量的方式为Forward方式)。

根据表7所示，我们得到了以下检验财务操纵行为的回归方程：

表7.最后进入方程中的变量

S102、获取待识别公司的关键特征数据。

即从公开数据中获取到待识别公司的下述7个关键特征的数据：流动比率X2、货币资金流动资产比X5、现金流量对流动负债比率X14、预付账款占流动资产的比重X18、应收账款占流动资产的比重X19、股权集中度X22、全部资产现金回收率X24。

S103、将获取到的关键特征数据输入至构建好的所述财务操纵行为识别模型，以识别出所述待识别公司是否存在财务操纵。

按照现有模型估算A股市场(剔除金融、保险等行业以及ST和*ST等的个股)中的3063 家上市公司中，共有1869家公司经过检验存在财务操纵迹象，占比61.02％。

如表8所示，根据行业分类可得，采掘行业存在财务操纵情况的公司比例最多，占全行业的77.78％。其次是建筑材料、交通设备、轻工制造、餐饮旅游行业，存在操纵行为的上市公司比例均占各自行业的70％以上。而存在操纵行为比例最少的行业为房地产、黑色金属、交通运输和有色金属行业，均在50％以下。下表7是各行业存在财务操纵的公司比例：

表8.各行业存在财务操纵的公司比例

不过在这里值得注意的是，我们并不能直接武断地认定如果某一公司属于某个行业，则它存在财务操纵的可能性就更高。原因主要有以下两点：第一点是预测公司的选取的样本容量本身有多有少，上市公司在行业分布上本来也并不均衡，从事机械设备和信息服务的公司本身就要比从事综合类和交通运输类的公司要多。从上表7中的列示可知电子行业和综合行业的财务操纵行为比例均在70％左右，然而电子行业的样本容量高达241家，而综合行业只有10家，样本容量相差近24倍，因此综合行业的财务操纵行为的比例本身就可能存在比较大的偶然性和不准确性。第二点是实施例中的财务操纵行为识别的阈值设置的问题。本实施例的阈值设置在50％得出了上表中的结果，数值越接近于1，表明越有可能在信息披露中出现操纵行为。当将阈值提升时，行业的操纵行为比也必将发生改动，进而影响我们对整个行业是否更倾向于财务操纵的判断。

实施例二

本实施例提供了一种财务操纵行为识别装置200，如图3所示，本实施例提供的财务操纵行为识别装置200包括：

建模模块201，用于构建财务操纵行为识别模型。

可选的，如图4所示，建模模块201进一步可以包括：

确定子模块2011，用于确定候选特征集，所述候选特征集包括若干财务特征和若干非财务特征；

获取子模块2012，用于获取样本集，所述样本集包括正样本和负样本，所述正样本为存在财务操纵行为的公司样本，所述负样本为不存在财务操纵行为的公司样本；

关键特征选择模块2013，用于使用所述样本集对所述候选特征集中的各特征进行显著性差异分析以获得若干关键特征，其中，所述关键特征在所述正样本和所述负样本中存在显著差异；

模型训练子模块2014，用于对所述关键特征进行逻辑回归分析，获得所述财务操纵行为识别模型。

获取模块202，用于获取待识别公司的关键特征数据。

识别模块203，用于将获取到的关键特征数据输入至构建好的所述财务操纵行为识别模型，以识别出所述待识别公司是否存在财务操纵。

由于所述本实施例提供的财务操纵行为识别装置200的各功能模块的处理过程与前述实施例二中的财务操纵行为识别方法100的处理过程一致，因此本实施例不再对财务操纵行为识别装置200的各功能模块的处理过程进行重复描述，可以参考实施例一的相关描述。

实施例三

图5为本申请实施例提供的电子设备300的结构示意图，如图5所示，该电子设备300 包括处理器301和存储器303，处理器301和存储器303相连，如通过总线302相连。

处理器301可以是CPU，通用处理器、DSP，ASIC，FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可以包括一通路，在上述组件之间传送信息。总线302可以是PCI总线或EISA 总线等。总线302可以分为地址总线、数据总线、控制总线等。为了便于表示，图中仅以一条粗线表示，但是并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可以储存信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储本申请方案的应用程序代码，并由处理器301来控制执行。处理器 301用于执行存储器303中存储的应用程序代码，以实现实施例一中的财务操纵行为识别方法。

本申请实施例最后还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现实施例一中的财务操纵行为识别方法。

上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解，实施例中的描述仅仅是示例性的，在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的，而不是由实施例中的上述描述来限定的。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张军欢;郑茗译;
专利申请人：北京航空航天大学;

上一篇：一种连续可调的内波造波装置
下一篇：一种抓取区域的识别方法、装置、电子设备及存储介质