掌桥专利:专业的专利平台
掌桥专利
首页

基于自编码神经网络的企业风险识别方法、装置及设备

文献发布时间:2023-06-19 18:37:28


基于自编码神经网络的企业风险识别方法、装置及设备

技术领域

本发明涉及互联网技术领域,尤其涉及一种基于自编码神经网络的企业风险识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着金融业的发展,债券市场取得了迅猛的发展。越来越多的企业到债券市场上发行债券、募集资金,债券的品种和数量都有了极大的增长。投资者在购买债券获得收益的同时,也要承担债券发行者可能违约带来的损失。对发债企业的信用风险的评估和预警成为债券市场参与者关注的焦点。

发明内容

基于此,有必要针对上述问题,提出了一种基于自编码神经网络的企业风险识别方法、装置、计算机设备及计算机可读存储介质。

在本发明的第一部分,提供了一种基于自编码神经网络的企业风险识别方法,所述方法包括:

获取待评估企业的企业信用数据,对待评估企业的企业信用数据进行处理,以获取与所述待评估企业的第一特征数据;

将所述第一特征数据作为入参输入预设的自编码神经网络模型,经过所述预设的自编码神经网络模型输出第二特征数据;

通过预设的误差计算公式,计算第一特征数据和第二特征数据之间的差异值;

根据计算得到的差异值确定所述待评估企业的风险水平。

可选的,所述通过预设的误差计算公式,计算第一特征数据和第二特征数据之间的差异值的步骤,还包括:

根据公式

计算所述第一特征数据和第二特征数据之间的差异值,其中,

可选的,所述根据计算得到的差异值确定所述待评估企业的风险水平的步骤,还包括:

当所述计算得到的差异值MSE大于预设阈值的情况下,确定所述待评估企业存在风险。

可选的,所述根据计算得到的差异值确定所述待评估企业的风险水平的步骤,还包括:

根据预设的差异值与风险等级之间的对应关系,确定与计算得到的差异值对应的目标风险等级。

可选的,所述获取待评估企业的企业信用数据,对待评估企业的企业信用数据进行处理,以获取与所述待评估企业的第一特征数据的步骤,还包括:

对所述企业信用数据进行预处理;

对预处理之后的企业信用数据,按照预设的特征提取算法,提取预设特征维度下的一个或多个特征数据作为第一特征数据。

可选的,所述自编码神经网络模型的训练过程包括:

确定正常样本的认定标准,根据认定标准筛选至少一个正常样本和至少一个非正常样本;

根据至少一个正常样本对所述自编码神经网络模型进行训练。

可选的,所述方法还包括:

根据至少一个非正常样本,通过预设的XGBoost分类器,获取多个特征数据的重要性,根据重要性在多个特征数据中筛选出一个或多个特征数据作为第一特征数据,所述第一特征数据为输入所述自编码神经网络模型的入模特征数据。

在本发明的第二部分,提供了一种基于自编码神经网络的企业风险识别装置,所述装置包括:

第一特征数据提取模块,用于获取待评估企业的企业信用数据,对待评估企业的企业信用数据进行处理,以获取与所述待评估企业的第一特征数据;

第二特征数据预测模块,用于将所述第一特征数据作为入参输入预设的自编码神经网络模型,经过所述预设的自编码神经网络模型输出第二特征数据;

误差计算模块,用于通过预设的误差计算公式,计算第一特征数据和第二特征数据之间的差异值;

风险水平确定模块,根据计算得到的差异值确定所述待评估企业的风险水平。

在本发明的第三部分,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前所述的基于自编码神经网络的企业风险识别方法的步骤。

在本发明的第四部分,提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器有可执行代码,当所述可执行代码在所述处理器上运行以实现如前所述的基于自编码神经网络的企业风险识别方法。

采用本发明实施例,具有如下有益效果:

采用了上述基于自编码神经网络的企业风险识别方法、装置、计算机设备及计算机可读存储介质之后,在需要对待评估企业进行信用风险评估的情况下,对于待评估企业的企业信用数据提取第一特征数据,并且基于自编码神经网络模型获取与第一特征数据对应的第二特征数据,并计算第一特征数据与第二特征数据之间的差异值,然后基于差异值来评估待评估企业所存在的信用风险情况。其中,根据自编码神经网络模型来构建企业信用风险识别和预警对模型,可以更快更准确的识别信用风险水平较差的企业,为用户决策提供有效的决策依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

其中:

图1为一个实施例中一种基于自编码神经网络的企业风险识别方法的流程示意图;

图2为一个是实施例中自编码神经网络模型的结构示意图;

图3为一个实施例中一种基于自编码神经网络的企业风险识别装置的组成示意图;

图4为一个实施例中运行上述基于自编码神经网络的企业风险识别方法的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本实施例中,提供了一种基于自编码神经网络的企业风险识别方法,可以对债券发行企业等企业是否存在信用违约风险进行识别和预警,实现对高违约概率的企业进行预测,实现违约风险的事前侦测,提高企业风险识别的准确性。

在相关的企业信用风险预警的方案中,主要是基于业务视角梳理的专家模型或以适量风险指标构成的评分卡模型进行风险识别和预警,无法准确捕捉或及时响应海量信息中的风险信号,这些方式十分依赖专家的业务经验和专业知识,对参与人员的能力有较高的要求,模型迭代的认定和过程较为繁琐,其相应的成本也比较高。

在本实施例中,基于自编码神经网络模型,构建企业信用风险识别和预警的模型,通过模型自训练、自迭代和实时预测,可以提高企业信用风险识别的准确性,为永不提供及时有效的决策依据。

具体的,请参见图1,图1给出了上述基于自编码神经网络的企业风险识别方法的流程示意图。,其中,所述基于自编码神经网络的企业风险识别方法包括如图1所示的步骤:

步骤S102:获取待评估企业的企业信用数据,对待评估企业的企业信用数据进行处理,以获取与所述待评估企业的第一特征数据。

为了对需要进行评估的企业进行信用风险的评估,在本实施例中,首先需要获取待评估企业的各种数据,在这里为对应的企业信用数据,其中,企业信用数据包括但不限于公开信源爬取的新闻舆情数据、公开披露的企业报表信息和企业工商信息、交易所发布的公司公告和市场行情信息、监管机构公示的司法诚信信息以及评级公司发布的债券与企业信用评级信息。通过获取海量的与待评估企业的信用关联的数据,从而可以通过这些数据对待评估企业是否存在信用风险进行分析和预警。

进一步的,这些直接获取到的数据可能存在缺失、重复、异常或者不适合直接进行数据分析,因此,在本步骤中,还需要对获取到的企业信用数据进行进一步的处理(例如预处理、或特征处理等)。在一个具体的时很顺利中,需要对企业信用数据进行缺失、重复、异常检查等准确性检验和处理,并且进行业务逻辑性的检验,然后,从统计分析、业务判断、衍生构建等多个维度来提取企业信用数据的一个或多个特征数据(第一特征数据)。需要说明的是,第一特征数据可以是预设的多个特征维度下的特征数据。

例如,在对企业信用数据进行数据清洗和加工之后,按照预设的特征提取算法,提取相应的一个或多个第一特征数据。

的第一特征数据即为根据待评估企业相关的外部数据源获取到的企业信用数据提取到的原始特征,表征了根据外部数据源分析得到的待评估企业的信用风险的相关特征。

步骤S104:将所述第一特征数据作为入参输入预设的自编码神经网络模型,经过所述预设的自编码神经网络模型输出第二特征数据。

进一步的,作为原始特征的第一特征数据为自编码神经网络模型的输入,输入到自编码神经网络模型,从而获取模型预测得到的第二特征数据(模型训练得到的预测特征)。

为了对如何得到第二特征数据进行说明,首先需要对构建自编码神经网络的模型(自编码神经网络模型)的过程进行说明。

具体请参见图2,其中,该自编码神经网络模型包括左右对称(左侧为编码器,右侧为解码器)的自编码神经网络,每一个圆代表一个非线性变化的神经元,每一个箭头代表数据信息流动方向,模型由左侧接受输入,右侧传递输出结果。在本实施例中,通过自编码神经网络模型可以对需要进行评估的待评估企业对应的数据(对应的特征数据)作为输入进行处理,以获取预测到的特征数据作为输出。

在本实施例中,为了对自编码神经网络模型进行训练,需要通过一定的样本来对模型进行训练。

具体的,确定正常样本的认定标准,根据认定标准筛选至少一个正常样本;然后根据至少一个正常样本对所述自编码神经网络模型进行训练。其中,在本实施例中,对未违约的企业的标签进行统计分析,调研专家意见,总结制定正常样本的认定标准。例如,根据债券市场的信用风险水平,认为没有发生违约事件且非银行类发债企业的评级不低于AA-,银行类发债企业不低于AA作为认定标准,进一步的根据该认定标准,即可筛选出一个或多个正常样本作为模型的训练样本。非正常样本为企业评级低于认定标准的企业。

进一步的,根据非正常样本(高信用风险水平)的企业样本,对预设的XGBoost分类器进行训练,输出每一个特征数据的重要性,通过重要性筛选出一个或多个入模特征(即为输入到自编码神经网络模型的第一特征数据)。

其中,XGBoost分类器采用XGBoost模型,XGBoost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器。XGBoost是一种提升树模型,所以它是将许多树模型(CART回归树模型)集成在一起,形成一个很强的分类器。

XGBoost分类器能够输出每个特征的信息增益作为重要性,通常认为重要性大于0即表示特征有一定预测力,重要性越大预测力越强。在这里,根据需求,确定以及调整重要性阈值来筛选入模特征。

在对自编码神经网络模型进行训练的过程中,通过前述筛选出来的正常样本,提取正常样本的第一特征数据,然后,将正常样本的第一特征数据输入到自编码神经网络模型,通过编码器对第一特征数据进行压缩,压缩过程是通过全连接网络和Relu激活函数组成的非线性变化层将第一特征数据进行降维的过程,通过训练模型会在该过程中保留重要信息,剔除无关信息。然后通过解码器进行复原,只有重要信息才能尽可能还原输入样本(输出的第二特征数据)。其中重要信息的提取和选择由模型在反向传播中自主学习。自编码神经网络模型通过训练,能够在解码器中高度还原正常样本的第一特征数据,异常样本由于特征分布异于正常样本,则难以还原(输出的第二特征数据)。

进一步的,对于评估数值型结果的近似程度,通常选择平均平方误差来估计二者之间的差异值(MSE)。在本实施例中将其作为损失函数评估输入(第一特征特征)与输出(第二特征数据)的偏离程度,MSE公式如下:

完成训练后,输出企业的MSE大小用于预测,MSE越小说明企业在样本中的异常水平越小。

进一步的,在本实施例,也可以采用其他的误差计算公式来评估自编码神经网络模型的输入和输出之间的损失情况,在这里不进行限定。

在自编码神经网络模型训练完成之后,即可基于该训练完成的自编码神经网络模型来对待评估企业的风险进行评估,具体的,将待评估企业的企业信用数据进行特征处理得到的第一特征数据输入到自编码神经网络模型,以获取预测得到的第二特征数据,其中,第二特征数据就是自编码神经网络模型通过编码器进行压缩以及通过解码器进行还原之后得到的特征数据。

步骤S106:通过预设的误差计算公式,计算第一特征数据和第二特征数据之间的差异值;

步骤S108:根据计算得到的差异值确定所述待评估企业的风险水平。

为了对待评估企业的信用风险进行评估,在本实施例中,是通过原始的第一特征数据和通过自编码神经网络模型预测得到的第二特征数据之间的差异值来进行评估的。具体的,通过预设的误差计算公式,计算第一特征数据和第二特征数据之间的差异值;然后根据差异值的大小来确定待评估企业所存在的信用风险大小。

具体的,对于第一特征数据

计算所述第一特征数据和第二特征数据之间的差异值,其中,

然后,在计算得到的差异值MSE大于预设阈值的情况下,确定所述待评估企业存在风险,反之,在差异值MSE小于预设阈值的情况下,确定待评估企业不存在风险。

在本实施例中,还可以对多家企业的信用风险进行评估,输出对应的MSE值,通过MSE值的大小对企业进行排序,MSE越小说明企业信用风险水平越小,通过排序的结果可以让用户了解各个不同的企业之间的信用风险的大小,以选择更适合的企业来购买债券等。

进一步的,在一个可选的实施例中,根据预设的差异值与风险水平之间的对应关系,确定计算得到的差异值对应的风险等级,根据风险等级用户可以更为直观的确定待评估企业所存在的信用风险大小。其中,差异值越大,风险等级越高,待评估企业所存在的信用风险越大;反之,差异值越小,风险等级越低,待评估企业所存在的信用风险越小,甚至不存在信用风险。

进一步的,在本实施例中,自编码神经网络模型还可以进行自训练、自迭代,以对自编码神经网络模型进行自动更新。具体的,根据定时任务或相关指标,进行自编码神经网络的自动更新训练。由于经济周期和市场环境的不断变化,需要模型实时学习和适应带来的特征变化,所以设计支持定时任务或PSI监控的模型自动更新训练。定时任务可以使得模型按固定周期进行自动训练;PSI监控是指以PSI作为模型结果稳定性指标监控,当PSI出现预警时,触发模型的自动训练,其中,PSI的计算公式如下:

其中,

模型的自训练方法是,自动生成前述定义的正常样本,然后重复前述步骤104中描述的模型训练步骤,完成最新批次的自动训练,产出最新版本的模型文件并替换原有文件。

在采用了上述自编码神经网络模型对企业信用风险进行评估的方法之后,在某券商的风险预警模型建设中,自编码神经网络对于违约企业的预测表现在全量样本上AUC达到0.9047,KS达到0.7453,表明模型具有良好的风险排序能力和区分能力。同时,异常水平按照降序排列后,在前5%的阈值上,召回率达到78.4%,也就是说,本实施例所提供的基于自编码神经网络的企业风险识别方法具备有较好的风险识别准确率。

在另一个实施例中,还提供了一种基于自编码神经网络的企业风险识别装置,如图3所示,该装置包括:

第一特征数据提取模块102,用于获取待评估企业的企业信用数据,对待评估企业的企业信用数据进行处理,以获取与所述待评估企业的第一特征数据;

第二特征数据预测模块104,用于将所述第一特征数据作为入参输入预设的自编码神经网络模型,经过所述预设的自编码神经网络模型输出第二特征数据;

误差计算模块106,用于通过预设的误差计算公式,计算第一特征数据和第二特征数据之间的差异值;

风险水平确定模块108,根据计算得到的差异值确定所述待评估企业的风险水平。

可选的,在一个实施例中,误差计算模块106还用于根据公式

计算所述第一特征数据和第二特征数据之间的差异值,其中,

可选的,在一个实施例中,风险水平确定模块108还用于当所述计算得到的差异值MSE大于预设阈值的情况下,确定所述待评估企业存在风险。

可选的,在一个实施例中,风险水平确定模块108还用于根据预设的差异值与风险等级之间的对应关系,确定与计算得到的差异值对应的目标风险等级。

可选的,在一个实施例中,第一特征数据提取模块102还用于对所述企业信用数据进行预处理;对预处理之后的企业信用数据,按照预设的特征提取算法,提取预设特征维度下的一个或多个特征数据作为第一特征数据。

可选的,在一个实施例中,如图3所示,所述装置还包括模型训练模块110,用于确定正常样本的认定标准,根据认定标准筛选至少一个正常样本和至少一个非正常样本;根据至少一个正常样本对所述自编码神经网络模型进行训练。

可选的,在一个实施例中,如图3所示,所述装置还包括入模特征筛选模块112,用于根据至少一个非正常样本,通过预设的XGBoost分类器,获取多个特征数据的重要性,根据重要性在多个特征数据中筛选出一个或多个特征数据作为第一特征数据,所述第一特征数据为输入所述自编码神经网络模型的入模特征数据。

采用了上述基于自编码神经网络的企业风险识别方法、装置、计算机设备及计算机可读存储介质之后,在需要对待评估企业进行信用风险评估的情况下,对于待评估企业的企业信用数据提取第一特征数据,并且基于自编码神经网络模型获取与第一特征数据对应的第二特征数据,并计算第一特征数据与第二特征数据之间的差异值,然后基于差异值来评估待评估企业所存在的信用风险情况。其中,根据自编码神经网络模型来构建企业信用风险识别和预警对模型,可以更快更准确的识别信用风险水平较差的企业,为用户决策提供有效的决策依据。

图4示出了一个实施例中实现上述基于自编码神经网络的企业风险识别方法的计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

技术分类

06120115631921