基于大数据的风险预测方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及风险预测技术领域，具体而言，涉及一种基于大数据的风险预测方法。

背景技术

风险预测是指构建企业历史数据与违约状态之间的对应关系，揭示企业的经营发展状况，进而对企业在未来是否会发生违约做出预判。近年来，我国中小企业发展快、分布广、数量多，在缓解就业压力、促进社会稳定方面具有重要作用，同时也存在一些风险企业，因此对企业进行风险预测非常必要。企业风险预测本质上是一个分类问题，即将企业信用水平分成高风险和低风险两类。企业风险预测模型分为三大类，一是基于数学理论的风险预测方法，二是基于机器学习的风险预测方法，三是动态预测方法。其中，基于数学理论的风险预测方法使用数学统计、概率论、模糊数学等方法，预测企业风险，运算中可以观察到其运算过程；基于机器学习的信用风险预测方法使用算法自动从历史经验中学习，获取规律并应用到新场景中，能够有效减少人力物力成本；动态预测方法重视时间的延续性，对中小企业多年数据进行分析。

公开号为CN116090598A的发明专利申请提供了一种企业风险预测方法及装置，通过获取当前企业基本信息和企业分类框架，将当前企业基本信息和企业分类框架输入基于企业类型训练数据创建的企业类型模型中，得到当前企业类型；获取当前企业状态，将当前企业状态、当前企业类型和当前企业基本信息输入基于企业风险训练数据创建的企业风险模型中，得到企业风险结果，可以实现多因素影响下的企业风险实时分析，具有良好的通用性和应用范围，但是上述方法仅针对企业某一时间点的风险状态进行分析，没有考虑风险影响因素的时间延续性。

有鉴于此，特提出本申请。

发明内容

本发明的目的在于提供一种基于大数据的风险预测方法，结合不均衡数据集处理方法、提升树模型、深度神经网络算法和长短记忆网络构建评价指标体系，对企业风险进行预测。利用不均衡数据集处理方法进行数据扩充、利用提升树模型对评价指标进行降维筛选，最终确定风险指标体系。利用深度神经网络对信用风险影响指标进行二次筛选，同时与长短记忆网络进行残差连接，将数据输入到训练好的模型中，进行企业信用风险预测，解决现有技术仅针对企业某一时间点的风险状态进行分析，没有考虑风险影响因素的时间延续性的问题。

本发明通过下述技术方案实现：

提供一种基于大数据的风险预测方法，包括以下步骤：建立企业财务数据库，所述企业财务数据库中包含多个目标企业对应的财务数据子库，所述财务数据子库中包含多个年头的历史财务数据；基于所述企业财务数据库，建立风险指标体系；基于机器学习方法和时间序列预测方法，建立风险预测模型；将所述风险指标体系中的数据分为训练集和测试集；利用所述训练集对所述风险预测模型进行训练；将所述测试集输入训练好的风险预测模型中，得到风险预测结果。

进一步的，所述建立风险指标体系的方法为：按照速动比率、资产负债率、营业利润率、销售净利率、资产报酬率、资产周转率、营业收入现金含量、资产增长率和收入增长率，将每一个财务数据子库的数据分为九个指标类，得到所述风险指标体系。

进一步的，所述建立风险指标体系之后，包括以下步骤：将九个指标类进行两两分组，获取每一组中两个指标类之间的关联度；设置关联度阈值；筛选出关联度大于所述关联度阈值的所有组合，并对筛选出的所有组合进行合并，得到初筛结果；获取所述初筛结果中每一个指标类的增益；设置增益阈值，筛选出增益大于所述增益阈值的所有指标类，得到所述风险指标体系。

进一步的，所述关联度的获取方法为：建立第一关联系数计算模型；根据所述第一关联系数计算模型获取每一组中两个指标类之间的关联系数，建立关联系数矩阵R；获取所述关联系数矩阵R的逆矩阵R

进一步的，

所述第一关联系数计算模型的表达式为

进一步的，所述关联系数矩阵

进一步的，所述建立企业财务数据库之后，还包括以下步骤：对每一个指标类中的数据依次进行数据清洗、填充缺失数据、数据标准化处理和均衡处理。

进一步的，所述均衡处理的方法为：设置样本数量阈值；从经过数据标准化处理后的多个指标类中筛选出样本数量小于所述样本数量阈值的多个指标类；针对筛选出的每一个指标类执行以下步骤：从指标类中随机选择一个数据作为样本数据，将指标类中除所述样本数据外的每一个数据作为邻近数据；在所述样本数据与每一个邻近数据之间随机生成一个新样本数据，将所有新样本数据加入原始的指标类中，得到新的指标类。

进一步的，所述风险预测模型包括依次连接的输入层、长短期记忆网络、第一卷积层、第一池化层、第二卷积层、第二池化层、全连接层和输出层；所述第一卷积层的卷积核大小和所述第二卷积层的卷积核大小均为3×3；所述第一池化层的池化核大小和所述第二池化层的池化核大小均为2×2；所述输出层为支持向量机。

进一步的，所述建立风险预测模型之后，包括以下步骤：在所述长短期记忆网络与所述第一卷积层之间进行残差连接。

本发明与现有技术相比，具有如下的优点和有益效果：充分利用了企业内多年历史财务数据的庞大数据基础，建立了风险指标体系；将机器学习方法与时间序列预测方法相结合，建立了风险预测模型，一方面机器学习能够对大量数据进行处理，另一方面时间序列预测方法能够结合历史数据之间的时间延续性和关联性，从而能够有效地对企业风险进行预测。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的基于大数据的风险预测方法流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

本实施例提供一种基于大数据的风险预测方法，结合不均衡数据集处理方法、提升树模型、深度神经网络算法和长短记忆网络构建评价指标体系，对企业风险进行预测。利用不均衡数据集处理方法进行数据扩充、利用提升树模型对评价指标进行降维筛选，最终确定风险指标体系。利用深度神经网络对信用风险影响指标进行二次筛选，同时与长短记忆网络进行残差连接，将数据输入到训练好的模型中，进行企业信用风险预测。

该方法的整体实施流程如图1所示，包括以下步骤：

步骤1：建立企业财务数据库。该企业财务数据库中包含多个目标企业对应的财务数据子库，并且每一个财务数据子库中包含多个年头的历史财务数据。

企业财务状况可以直接反映其实际经营状况、未来发展趋势及现金流状态，多方面因素共同影响作用于企业风险状况。由于外界并不会在企业发生风险的当年得知企业的财务状况，所以风险公司的历史财务数据是预测该企业是否会发生风险的主要依据；并且，企业的经营状况具有连续性，每一年的企业财务数据之间的相关性高，影响各企业的风险影响因素之间具有相似的特征。鉴于此，本实施例通过采集多家企业多个年头的历史财务数据，建立企业财务数据库，该财务数据库中，按照企业为单位对采集的数据进行分包。

步骤2：对每一个指标类中的数据依次进行数据清洗、填充缺失数据、数据标准化处理和均衡处理。

在建立了企业财务数据库之后，首先对数据库中的数据进行清洗，查看是否存在数据缺失值的现象，如果存在数据为空的情况时，应主动填充该缺失数据，避免对后续的风险预测造成影响。本实施例采用fillna函数计算缺失数据的均值并填充，尽可能降低因为缺失数据所带来的影响。然后对数据进行标准化处理，通过Z-score标准化将不同量级数据转化为统一度量的Z-score分值进行比较，提高了数据可比性。Z-score标准化的模型表达式为：

由经过标准化后的数据仍然可能存在不平衡的问题，因此，对少数类样本进行过采样处理，避免出现因数据不平衡问题而导致预测不准确的问题。

不均衡数据集处理方法是在随机过采样方法上的改进，通过合成少数类来达到平衡数据的目的。由于随机过采样方法是一种单纯利用复制样本策略加入少数类样本的方法，因此易产生模型过拟合问题而使模型运行不理想。不均衡数据集处理方法以随机抽取少数类样本为基本思路，基于K近邻算法对相邻样本进行随机抽取，并通过样本间和相邻样本间人为合成新的样本，最大限度地解决了数据不平衡对预测结果的负面影响。

具体而言，步骤2中，均衡处理的方法为：

步骤2.1：设置样本数量阈值。

步骤2.2：从经过数据标准化处理后的多个指标类中筛选出样本数量小于所述样本数量阈值的多个指标类。

步骤2.3：针对筛选出的每一个指标类执行以下步骤：从指标类中随机选择一个数据作为样本数据，将指标类中除所述样本数据外的每一个数据作为邻近数据；在所述样本数据与每一个邻近数据之间，随机生成一个新样本数据，将所有新样本数据加入原始的指标类中，得到新的指标类。生成新样本数据可通过公式

步骤3：基于处理后的企业财务数据库，建立风险指标体系。

本实施例从企业的偿债能力、盈利能力、营运能力、成长能力和现金获取能力五个方面进行风险预测。偿债能力是衡量企业信用风险的重要指标，企业偿债能力越强，表明企业发生违约概率越低，越不存在信用风险问题；盈利能力是对企业竞争能力的评判，企业能否在市场中获取利润及获取多少利润，获利能力越强，企业风险越低；营运能力代表企业资产管理的效率水准，企业资产的流动性越强、变现能力越强，其财务风险就越低，信用风险较低；成长能力是对企业发展能力的评价，其发展态势越强，表示企业发展前景较好，其财务风险越低；现金获取能力则表明企业通过经营活动转换并获取现金的能力，现金获取能力越强，越能有足够的资金抵御风险，其信用风险较低。这些指标可以较为全面且客观地反映企业经营风险状态。

结合上述五个方面的企业风险预测因素，本实施例采用选取财务指标的方式构建企业的风险指标体系，具体包括速动比率、资产负债率、营业利润率、销售净利率、资产报酬率、资产周转率、营业收入现金含量、资产增长率和收入增长率这九个指标类。其中，资产周转率包含了固定资产周转率、总资产周转率和非流动资产周转率；资产增长率包含了净资产增长率和总资产增长率。

按照上述九个指标类，分别对每一个财务数据子库中的数据进行分类。

步骤4：对风险指标体系进行处理，得到新的风险指标体系。包括以下步骤：

步骤4.1：将九个指标类进行两两分组，获取每一组中两个指标类之间的关联度。

首先，建立第一关联系数计算模型。

第一关联系数计算模型的表达式为

然后，根据第一关联系数计算模型获取每一组中两个指标类之间的关联系数，建立关联系数矩阵R。关联系数矩阵

接下来，计算该关联系数矩阵R的逆矩阵R

根据第二关联系数可知，指标类h与指标类g之间的第二关联系数越大，表明指标类h与指标g之间的相关性越强；反之，相关性越弱。

步骤4.2：设置关联度阈值；筛选出关联度大于所述关联度阈值的所有组合，并对筛选出的所有组合进行合并，得到初筛结果。

其中，关联度阈值的大小根据实际情况而定。步骤5.2的目的是从建立的风险指标体系中，将关联度较低的指标类剔除，以此提升风险指标体系中各风险指标类之间的关联度，进一步提高风险预测的准确的。

步骤4.3：获取所述初筛结果中每一个指标类的增益。

本实施例利用提升树模型对经步骤5.2处理后的风险指标体系中每一个指标类的数据进行遍历，对指标因素进行筛选，构建合理的指标体系为进一步预测提供依据。

提升树模型，由多个弱分类器集成而构建的强分类器，是在GBDT的基础上进行改进，该模型可以解决应对不同的情况。本实施例主要利用提升树模型可以遍历所有特征的所有特征划分点的特点，对指标因素进行筛选，构建合理的指标体系为进一步预测提供依据。该算法的核心思想是对损失函数进行优化，通过多次迭代拟合出损失函数负梯度，再利用线性搜索产生最佳学习器。

其中，增益的计算公式为

通过信息增益来对指标进行筛选，当信息增益越大，说明损失下降的越多，那么当前风险指标体系中各指标类的划分就越好。因此，计算每个特征，每种可能的划分方式，从里面选出增益最大的划分，就是该节点所需要的最优划分。本实施例利用XGBoost模型通过对信息增益的计算，可以对企业风险影响指标进行初步筛选。

步骤4.4：设置增益阈值，筛选出增益大于所述增益阈值的所有指标类，得到新的风险指标体系。

步骤5：基于机器学习方法和时间序列预测方法，建立风险预测模型。该风险预测模型包括依次连接的输入层、长短期记忆网络、第一卷积层、第一池化层、第二卷积层、第二池化层、全连接层和输出层；所述第一卷积层的卷积核大小和所述第二卷积层的卷积核大小均为3×3；所述第一池化层的池化核大小和所述第二池化层的池化核大小均为2×2；所述输出层为支持向量机。

卷积神经网络是一种前馈式的神经网络，它包括卷积层，池化层和全连接层。卷积层中包含许多隐含特征，通过全连接层接收卷积核运算出的大量特征信息，并对提取出的特征进行组合。卷积层和池化层的组合可以减少参数数量，从而提高模型的运行速度。本实施例应用卷积神经网络模型的隐藏特征提取的优势，对经过提升数模型筛选出的指标进行特征提取。

其中，卷积层可以对特征进行提取。卷积层后均与池化层相连，能够在未加入以往训练参数情况下，进一步对卷积层特征提取进行降维，以增强模型鲁棒性。全连接层各神经元经多次卷积、池化等步骤全连接上一层神经元，并最终融合所提取特征得到更具区分度的特征属性。长短期记忆网络属于时间递归的神经网络，解决了循环神经网络的梯度消失问题，以及长期依赖问题。长短期记忆网络通过门控制使得模型可以有选择性地保留或放弃历史信息，同时线性连接解决梯度消失问题，使得该模型对历史信息有长时间的保存。

需说明的是，在所述长短期记忆网络与所述第一卷积层之间进行残差连接由于在神经网络训练过程中，总会出现随着网络深度的增加，随机梯度可能会出现“梯度弥散”(梯度过小致使回传的训练误差信号微弱)或“梯度爆炸”(梯度过大导致模型出现NaN)的问题，导致模型训练困难。利用残差连接减少参数数量的同时提高了模型预测准确率，均可解决网络由于深度带来的训练困难的问题，将残差连接块作用于卷积层之间，可以加快神经网络的训练，模型的准确率也有较大幅度的提升。

步骤6：将所述风险指标体系中的数据分为训练集和测试集；利用所述训练集对所述风险预测模型进行训练。

步骤7：将所述测试集输入训练好的风险预测模型中，得到风险预测结果。

综上所述，本实施例提供的基于大数据的风险预测方法，首先将经过标准化和平衡处理过的数据利用提升数模型进行特征筛选，输出各个特征重要性得分，较为客观地进行第一次信用风险指标筛选，同时选出重要程度较高的指标作为下一阶段数据输入样本。然后，将筛选过的指标体系经过深度神经网络的卷积层和池化层，可以对数据降维，并二次得到更具有影响特征；将经过深度神经网络加工后的数据输入长短记忆网络，长短记忆网络的遗忘门、输入门以及输出门经过海量数据不断迭代训练来调节自身参数；长短记忆网络易于滤除重要的特性，通过引入残差连接对第一层长短记忆网络的训练数据进行调整以确定网络模型的参数，并在训练完成之后进入第二层长短记忆网络中进行预测；最后，输出预测结果。

深度学习神经网络模型的优点是可以处理复杂非线性关系，能更有效更精确的处理复杂信息，本实施例将深度学习神经网络与长短记忆网络相结合，二者都属于监督的深度学习模型。首先，使用长短记忆网络提取栺标间的时序特征；然后，利深度学习神经网络进一步提取和挖掘经过长短记忆网络处理的融合前后时序特征之后，输出的局部和深层特征，其中长短记忆网络可以有效地记忆时间序列中历史信息的特征，模型进一步提取特征数据的局部特征征，使结果准确度更高。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：薪海科技(上海)有限公司;

上一篇：一种基于VR眼镜的AR辅助零件质量检测方法与系统
下一篇：一种大型密闭电石炉中心炉盖结构优化方法