掌桥专利:专业的专利平台
掌桥专利
首页

一种企业风险的评估方法、装置、计算机设备及介质

文献发布时间:2023-06-19 19:30:30


一种企业风险的评估方法、装置、计算机设备及介质

技术领域

本发明涉及风险评估领域。更具体地,涉及一种企业风险的评估方法、装置、计算机设备及介质。

背景技术

供应链是关系制造型企业发展的重要因素。如果供应链上下游的企业存在经营不善等风险,将是制造型企业的重大隐患。掌握供应链上下游企业的风险情况,及时做出应对措施,是制造型企业降低风险的重要手段。然而,在相关技术的客户风险评价过程中,往往是基于客户公共信用数据进行风险评价,对于客户公共信用数据利用的充分性还可以进一步提高。

发明内容

本发明的目的在于提供一种企业风险的评估方法、装置、计算机设备及介质,以解决现有技术存在的问题中的至少一个。

为达到上述目的,本发明采用下述技术方案:

本发明第一方面提供一种企业风险的评估方法,所述方法包括:

根据获取的待评价企业的工商数据得到所述待评价企业的风险数据,所述风险数据包括多个输入特征;

基于所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型;

将所述风险数据输入到已确定所述模型参数的风险评估模型进行评估。

进一步的,基于所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型,包括:

基于所述风险数据得到所述风险评估模型的主体参数,所述主体参数包括补偿参数、刻度参数和对应于全部风险数据的权重系数;

判定所述风险数据的数据类型,并得到对应于所述数据类型的特定参数,所述特定参数包括对应于第一模型的线性模型参数和对应于第二模型的非线性模型参数;

基于所述主体参数和所述特定参数确定对应于所述风险数据的风险评估模型。

进一步的,基于所述风险数据得到所述风险评估模型的主体参数,包括:

利用所述风险数据确定所述待评估企业的负向概率;

利用逻辑回归模型得到所述权重系数和所述负向概率相关的权重公式,所述权重公式为:

其中,P为负向概率,w

根据所述负向概率确定补偿参数和刻度参数,满足以下公式:

补偿参数

刻度参数

PDO为预设的翻倍分;Odds

进一步的,判定所述风险数据的数据类型,并得到对应于所述数据类型的特定参数,包括:

判定所述风险数据的分布类型,若所述风险数据为线性分布,则所述线性模型参数包括所述负向概率得到的负正向概率比。

进一步的,基于所述主体参数和所述特定参数确定对应于所述风险数据的风险评估模型,包括:

根据所述主体参数和所述线性模型参数确定所述第一模型,

所述第一模型为:Score1=A-B×ln(Odds);

其中,Score1为所述待评价企业的评估分数,A为补偿参数,B为刻度参数,Odds为根据负向概率得到的负正向概率比,

进一步的,判定所述风险数据的数据类型,并得到对应于所述数据类型的特定参数,还包括:

判定所述风险数据的分布类型,若所述风险数据为非线性分布,则非线性模型参数为非线性编码参数,满足以下公式:

其中,WOE

进一步的,基于所述主体参数和所述特定参数确定对应于所述风险数据的风险评估模型,包括:

根据所述权重系数和所述非线性编码参数确定第二模型,

所述第二模型为

其中,w

进一步的,根据获取的待评价企业的工商数据得到所述待评价企业的风险数据,包括:

获取所述工商数据的主体情况,以得到数据处理方案;

根据所述数据处理方案对所述工商数据进行数据处理从而输出风险数据,若所述工商数据为线性分布数据,则所述数据处理方案包括预处理、归一化处理或者特征筛选处理。

进一步的,根据所述数据处理方案对所述工商数据进行数据处理从而输出风险数据,还包括:

若所述工商数据为非线性分布数据,则所述数据处理方案还包括在归一化处理前进行特征分箱处理和证据权重处理,从而输出包括多个风险数据的分箱,所述风险数据包括标识待评价企业正向的正向标签和标识待评价企业负向的负向标签。

进一步的,所述方法还包括:

将已评价企业的工商数据作为测试集和训练集对所述风险评估模型进行训练,所述测试集包括测试特征和所述已评价企业的评估分数,所述训练集包括训练特征和所述已评价企业的评估分数。

本发明第二方面提供一种企业风险的评估装置,包括:

风险数据生成单元,用于根据获取的待评价企业的工商数据得到所述待评价企业的风险数据,所述风险数据包括多个输入特征;

评估模型生成单元,用于基于所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型;

风险评估单元,用于将所述风险数据输入到已确定所述模型参数的风险评估模型进行评估。

本发明第三方面提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明第一方面的方法。

本发明第四方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的。

本发明的有益效果如下:

本发明实施例的评估方法,通过对企业的工商数据进行获取与分析生成风险数据、根据不同的风险数据确定不同的风险评估模型,从而利用对应于风险数据的评估模型进行评估,整个方法能够充分对企业的公共信息数据进行挖掘,提高风险评估的准确性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明一个实施例的评估方法的流程示意图;

图2示出本发明实施例的步骤S1的流程示意图;

图3示出本发明实施例的步骤S3的流程示意图;

图4示出本发明实施例的步骤S31的流程示意图;

图5示出本发明实施例的负向概率、负正向概率比和评估分值的示意图;

图6示出本发明实施例的逻辑回归模型的结构示意图;

图7示出不同输入特征值的情况下,估计值和代价函数的关系示意图;

图8a示出本发明实施例的证据权重处理的数据示意图;

图8b示出本发明实施例的不同输入特征对应的权重系数和阈值常数的示意图;

图8c示出本发明实施例的不同输入特征对应的特征分箱的示意图;

图9示出本发明另一个实施例的评估装置的结构框架示意图;

图10示出本发明另一个实施例的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明,下面结合实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。

本发明的一个实施例提出一种企业风险的评估方法,如图1所示,所述方法包括:

S1、根据获取的待评价企业的工商数据得到所述待评价企业的风险数据,所述风险数据包括多个输入特征;

S3、基于所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型;

S5、将所述风险数据输入到已确定所述模型参数的风险评估模型进行评估。

本发明实施例的评估方法,通过对企业的工商数据进行获取与分析生成风险数据、根据不同的风险数据确定不同的风险评估模型,从而利用对应于风险数据的评估模型进行评估,整个方法能够充分对企业的公共信息数据进行挖掘,提高风险评估的准确性。

现以具体实施例对本发明实施例的方法进行说明:

S1、根据获取的待评价企业的工商数据得到所述待评价企业的风险数据,所述风险数据包括多个输入特征。

本发明实施例中,工商数据包括企业名称、地址、负责人姓名、筹建或者开业日期、经济性质、生产经营范围、生产经营方式、资金总额、职工人数、从业人数、企业地址变更频率、企业法人变更频率、处罚频率、涉诉频率等多种工商变更数据,这些数据中隐藏着该企业的风险隐藏信息,因此,本发明实施例在该步骤中对众多的工商数据进行挖掘,得到待评价企业的风险数据。

在一个可选的实施例中,如图2所示,步骤S1“根据获取的待评价企业的工商数据得到所述待评价企业的风险数据”包括:

S11、获取所述工商数据的主体情况,以得到数据处理方案。在一个可选的实施例,工商数据往往以数据库或者文件的形式存在。示例性的,数据库包括Oracle、Mysql、MySqlServer等形式格式,文件包括CSV等格式。

示例性的,本发明实施例通过关键字字符提取的方式,提取与企业风险评估相关的工商数据,例如包括企业地址变更频率、企业法人变更频率、处罚频率、涉诉频率、变动频率的年度/季度/月度的变化趋势等数据信息。

在一个可选的实施例中,获取所述工商数据的主体情况包括:对工商数据中的每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况等,以便制定合理的数据预处理方案。

S13、根据所述数据处理方案对所述工商数据进行数据处理从而输出风险数据,若所述工商数据为线性分布数据,则所述数据处理方案包括预处理、归一化处理或者特征筛选处理。

在一个可选的实施例中,数据预处理包括:数据清洗和数据格式转换等过程。

示例性的,在数据清洗过程中,对工商数据中的脏数据、缺失值以及异常值进行处理。在一个具体示例中,对缺失值和异常值的处理为删除缺失率超过某一缺失率阈值的工商数据,将剩余工商数据中的缺失值和异常值作为风险设置。本示例中,缺失率阈值可根据实际应用进行设计,例如30%,50%,90%等,在此不再赘述。在另一个示例中,在数据格式转换过程中,主要是对不同格式的工商数据进行统一,例如时间数据的格式统一、量纲单位的统一。

在一个可选的实施例中,归一化处理的公式为:

其中,x为输入的工商数据的输入特征,x

在一个可选的实施例中,特征筛选包括单个特征的筛选和基于相关性的特征筛选。示例性的,单个特征的筛选为基于变量预测能力的筛选,包括基于IV值的变量筛选、基于stepwise的变量筛选、基于模型(如RF,GBDT等)特征重要度的变量筛选、基于LASSO正则化的变量筛选等。在另一个示例中,基于相关性的特征筛选包括自变量两两相关性分析、自变量的多重共线性分析、自变量与因变量的相关性。

在一个可选的实施例中,特征筛选后的风险数据数量小于等于30个,从而提高风险评估模型在实际使用中的可实施性。

通过特征筛选处理,可以实现下列效果:(1)剔除跟目标变量不太相关的特征。(2)避免特征冗余。(3)减轻后期验证、部署、监控风险的负担。(4)保证变量的可解释性。

在一个可选的实施例中,步骤S13“根据所述数据处理方案对所述工商数据进行数据处理从而输出风险数据”,还包括:

若所述工商数据为非线性分布数据,则所述数据处理方案还包括在归一化处理前进行特征分箱处理和证据权重处理,从而输出包括多个风险数据的分箱,所述风险数据包括标识待评价企业正向的正向标签和标识待评价企业负向的负向标签。

本实施例中,考虑到工商数据的多样性,有些类型的工商数据能够直接作为风险数据进行后续的风险评估,例如工商数据和风险评估是线性分布的,但是还有些工商数据无法直接作为风险数据进行后续的风险评估,例如客户年龄与违约风险之间不是线性关系,不是年龄越大风险越高,也不是风险越大风险越低,是有个年龄段的风险比其他年龄段高一些。因此,为了解决工商数据和风险评估之间的非线性分布,需要进一步对非线性的工商数据进行处理,提高评估准确性。

在一个可选的实施例中,特征分箱处理用于将数值型的工商数据变成类别型的工商数据,将连续的工商数据转换为离散化的工商数据,能够实现风险数据的分段。特征分箱的定义为:对连续变量进行分段离散化,并将多状态的离散变量进行合并,减少离散变量的状态数。

在一个可选的实施例中,特征分箱可以分为有监督与无监督两种分箱方法。

无监督的特征分箱主要包括以下几类:1)等频分箱:把自变量按从小到大的顺序排列,根据自变量的个数等分为k部分,每部分作为一个分箱。2)等距分箱:把自变量按从小到大的顺序排列,将自变量的取值范围分为k个等距的区间,每个区间作为一个分箱。3)聚类分箱:用k-means聚类法将自变量聚为k类,但在聚类过程中需要保证分箱的有序性。

有监督分箱包括Split分箱和Merge分箱两种。其中,Split分箱是一种自上而下(即基于分裂)的数据分段方法。Split分箱的切分点的选择指标主要有entropy,gini指数和IV值等。Merge分箱是一种自底向上(即基于合并)的数据离散化方法,所采用的分箱算法为Chimerge分箱。

采用特征分箱处理,具有以下优点:1)特征分箱可以有效处理特征中的缺失值和异常值。2)特征分箱后,数据和模型会更稳定。3)特征分箱可以简化逻辑回归模型,降低模型过拟合的风险,提高模型的泛化能力。4)将所有特征统一变换为类别型变量。5)经特征分箱处理后能够应用于标准的评分卡模型,对不同的分段进行评分,具有适用性。

在一个可选的实施例中,证据权重处理(WOE编码)用于将类别型的工商数据转换为数值型的工商数据,即将离散化的工商数据转换为连续的工商数据。

基于前述论述,在特征分箱处理中已经将数值变量转换为类别变量,但是对于逻辑回归模型,只能用数值变量作为特征输入,因此基于特征分箱处理后的数据无法作为输入特征,因此,需对特征分箱后的类别变量进行转换。

相关技术中,将类别变量转换为数值变量的方法常用one-hot编码(独热向量编码),但是对于逻辑回归来说,one-hot编码输出的矩阵稀疏,无法使得本发明实施例的逻辑回归模型的具有较好的效果,因此,本发明实施例利用证据权重处理(WOE编码),经证据权重处理后输出的数值具备:分数越大,代表这个变量给好标签(正向)或者坏标签(负向)的贡献度越大,即分数和该变量倾向之间存在线性关系,能够使得本发明实施例的基于逻辑回归模型的评估具有较好的效果。

因此,本发明实施例通过特征分箱处理和证据权重处理的组合方案,将连输的工商数据通过分箱转换为类别数据,又通过证据权重处理转换为连续的工商数据,实现了将非线性的数据特征转化为线性的数据特征,使得其能够应用于逻辑回归模型中。并且,经组合处理后输出的WOE编码值不仅能够代表特征分箱中的分类,还能够代表这个分箱分类的权重。并且,基于该组合方案的处理对异常数据的波动并不敏感,例如,个人年龄为20,不小心按键盘时按成了200,也不会产生10倍的波动。该组合方案与独热向量编码相比,能够保证变量的完整性,同时避免稀疏矩阵和维度灾难,提高评估效果。

基于步骤S1中的对工商数据的处理,本发明实施例能够根据工商数据的不同情况设计不同的数据处理方案,能够为企业风险评价提供更多维度信息,提高评估准确性。

S3、基于所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型。

基于前述步骤1的论述可知,由于工商数据的类型不同,作为风险评估模型的输入存在不同类型,因此,本发明提出了适用于不同类型的风险数据的风险评估模型

在一个可选的实施例中,如图3所示,步骤S3“所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型”,包括:

S31、基于所述风险数据得到所述风险评估模型的主体参数,所述主体参数包括补偿参数、刻度参数和对应于全部风险数据的权重系数。

本发明实施例中,根据不同类型的风险数据设计了第一模型和第二模型,但是第一模型和第二模型存在共同的参数,因此,本步骤中,能够对第一模型和第二模型所共用的主体参数进行确定。

在一个可选的实施例中,如图4所示,步骤S31“所述风险数据得到所述风险评估模型的主体参数”,包括:

S311、利用所述风险数据确定所述待评估企业的负向概率P。

在一个具体示例中,若与待评价企业相关的总的风险数据包括100条,其中存在20条与风险相关的记录,处罚包括10条,设计到和其他企业之间的商业诉讼10条,则负向概率P为负向风险数据的数量与全部风险数据的数量的比值。在另一个示例中,负向概率P还意味着该企业的违约率,例如总的可查询的营业记录中违约的概率。

根据负向概率P能够得到负向概率与正向概率的比值,即Odds,满足以下公式:

本实施例中,并不直接使用负向概率进行评估,而是使用根据负向概率得到的Odds映射为评分,这样能够进一步放大负向概率的影响,从而提高评估准确性。

在一个具体示例中,如图5所示,若以中间的Odds和右侧的负向概率作为风险评估标准,当Odds出现变动,例如Odds从5%下降到1.25%,则表明负向概率p从4.8%下降到1.2%,但是这种变化并不直观,而以本发明实施例的以负向概率为基础,映射为评估分值,则能够直观地看出,同等情况下,评估分值从50分提高到了80分,更直观地体现风险的变化。

S313、利用逻辑回归模型得到所述权重系数和所述负向概率相关的权重公式,所述权重公式为:

其中,w

本发明实施例基于逻辑回归模型构建风险评估模型,在一个可选的实施例中,如图6所示,所述逻辑回归模型包括:特征输入端、输入函数层、激活函数层、差值比较层、量化函数层以及结果输出端,

所述特征输入端用于将风险数据作为输入特征输入。

所述输入函数层用于将每一输入特征和所述输入特征对应的预估权重系数进行乘积,并在乘积后进行求和并输出乘积叠加数据。本发明实施例中,输入函数层采用线性回归函数,线性回归模型的模型公式为:预测值z=w

所述激活函数层与所述输入函数层连接,用于对所述乘积叠加数据进行计算,输出当前的预估权重系数对应的估计值。本发明实施例中,采用单调可微的Sigmoid函数

在一个具体示例中,激活函数层输出的数值大于等于0且小于等于1,其满足类别为1的后验概率估计p(y=1|x),即:如果有了一个测试样本,就可以用Sigmoid函数计算出来的结果作为该样本属于类别1的概率大小。

所述残差比较层一端位于所述激活函数层和所述量化函数层之间,另一端位于所述输入端,用于将估计值与预设阈值进行比较,若比较结果不满足预设阈值则更新所述预估权重系数,直至比较结果满足预设阈值时将所述估计值输出,若比较结果满足预设阈值,则直接将所述估计值输出。

本发明实施例中,由于前述输入函数层中的预估权重系数可能并非最优的权重系数,因此,本发明实施例通过残差比较层进行多次迭代和比较,从而得到最优的预估权重系数。

在一个具体示例中,先采用极大似然估计法获取最优的预估权重系数w的代价函数,也即目标函数J(w)。具体过程如下:

可以看做类别1的后验估计,所以满足:

其中,p(y=1|x;w)表示给定w,那么输入特征x的结果y属于类别1的概率。

根据定义:

用极大似然估计法来根据输入特征x得到预估权重参数w。

为了简化运算,对上面这个等式的两边都取一个对数。

转换之后,找到使l(w)最大的w,取负找最小值,即目标函数J(w)。

为了更好的理解上述代价函数,示例性的当输入特征的数量n=1时

即:

该函数图形如图7所示:

从上图可以看出,输入特征的值y为1时,估计值

进一步的,在定义了代价函数后,使用梯度下降算法求解收敛值,从而得到最优的预估权重系数。

利用Sigmoid函数的单调可微的特性,采用随机梯度下降法,每次迭代时将输入特征进行打乱,用下式不断更新预估权重系数,并将估计值与预设阈值进行比较,直至比较结果满足预设阈值时将所述估计值输出,从而得到最优的预估权重系数。

所述量化函数层与所述激活函数层连接,用于对所述估计值进行分类并输出类别结果。基于前述论述,Sigmoid函数输出的估计值位于[0,1],因此,采用量化函数,将Sigmoid函数结果大于等于0.5的归为类别1,小于0.5的归为类别0。量化函数的公式为:

所述结果输出端用于将所述输入特征、所述类别结果、所述估计值、所述估计值对应的预估权重系数输出,所述预估权重系数作为权重公式的权重系数。

基于上述过程得到了输入特征对应的预估权重系数,将预估权重系数作为构建与所述负向概率相关的权重公式中的权重系数,从而得到了权重已知的权重公式:

其中,w

S315、根据所述负向概率确定补偿参数和刻度参数,满足以下公式:

补偿参数

刻度参数

PDO为预设的翻倍分;Odds

基于步骤S313的权重公式:

以及基于评分卡的评分公式,

Score=A+B×(y),A为补偿参数,B为刻度参数,y为估计值;

可得:

根据翻倍分PDO定义可知:Score+PDO=A+B×ln(2Odds)(公式2);

翻倍分PDO(Point of Double Odds)表示每隔多少分Odds加倍、加倍倍数q(一般取2),也即Odds每降低q倍时,分数提升D。示例性的,Odds=50、PDO=20、q=2,则表示为当负向数量与正向数量之比为50:1时,Odds为50,

Odds每降低2倍(例如从50:1降为25:1),在原基础上进一步提高PDO分20分。

公式2与公式1相减,得到PDO=B×ln(2Odds)-B×ln(Odds)=B×ln(2)

由公式3可以求得:

将公式4带入公式1中可得:

由公式5可得:

在一个具体示例中,公式6中的Score采用预设基础分Score

利用补偿参数A和刻度参数B能够作为第一模型和第二模型的主体参数。

S33、判定所述风险数据的数据类型,并得到对应于所述数据类型的特定参数,所述特定参数包括对应于第一模型的线性模型参数和对应于第二模型的非线性模型参数;

在一个可选的实施例,步骤S33“判定所述风险数据的数据类型,并得到对应于所述数据类型的特定参数”,包括:

S331,判定所述风险数据的分布类型,若所述风险数据为线性分布,则所述线性模型参数包括根据所述负向概率得到的负正向概率比。

即本实施例中,对于第一模型,风险数据为线性分布,基于上述的预处理、归一化和特征筛选后,即可利用第一模型直接对该待评估企业进行评估。

在一个可选的实施例中,步骤S35“基于所述主体参数和所述特定参数确定对应于所述风险数据的风险评估模型”,包括:

S351、根据所述主体参数和所述线性模型参数确定所述第一模型,

所述第一模型为:Score1=A-B×ln(Odds);

其中,Score1为所述待评价企业的评估分数,A为补偿参数,B为刻度参数,负向概率得到的负正向概率比

在一个具体示例中,预设基础分Score

刻度参数

则第一模型为Score1=487.1+28.9×ln(Odds)。

本发明实施例中,负正向概率比Odds为线性模型参数,负正向概率比Odds能够直接根据待评价企业的负向概率得到的,该第一模型能够应用于呈线性分布的风险数据,从而得到对该评价企业的评估分数。

基于前述论述,风险数据并不一定为标准的呈线性分布,因此在另一个可选的实施例中,步骤S33“判定所述风险数据的数据类型,并得到对应于所述数据类型的特定参数”还包括:

S331,判定所述风险数据的分布类型,若所述风险数据为非线性分布,则非线性模型参数为非线性编码参数,满足以下公式:

其中,WOE

经过WOE转换,所有风险数据的输入特征与负向概率P都是正相关,因此系数应都为正数。图8a示出了不同观察样本下的非线性编码参数(WOE编码)的计算示例,本发明实施例的对风险数据进行WOE转换的方法同样可参考图8a所示的实施例进行计算,在此不再赘述。

进一步的,基于非线性编码参数WOE

进一步,根据上述步骤确定的非线性编码参数,在一个可选的实施例中,S35、基于所述主体参数和所述特定参数确定对应于所述风险数据的风险评估模型,包括:

根据所述权重系数和所述非线性编码参数确定第二模型,

所述第二模型为

其中,w

由第二模型可知,第二模型的直接输入包括:A为补偿参数、B为刻度参数、根据风险数据得到的非线性编码参数WOE

基于该第二模型,本发明实施例能够对呈非线性分布的风险数据进行评分,从而得到该企业的待评价分数。

S5、将所述风险数据输入到已确定所述模型参数的风险评估模型进行评估。

在一个具体示例中,如图8b所示,根据风险数据生成的输入特征包括rev_grp、due3059_grp、due90_grp以及due6089_grp。例如,企业地址变更频率以rev_grp表示、企业法人变更频率以due3059_grp表示、处罚频率以due90_grp表示、涉诉频率以d ue6089_grp表示。当风险数据呈线性分布时,经选择该风险数据的处理方案后能够得到对应于输入特征的权重系数和阈值常数b,确定第一模型的参数后,则能够确定第一模型,从而利用第一模型对该企业的风险值进行评估。

进一步的,当风险数据呈非线性分布时,经对风险数据进行处理后不仅得到如图8b所示的对应于输入特征的权重系数和阈值常数b,如图8c所示,经对风险数据进行处理后还包括:对每一输入特征经分箱处理后的具有属于自身的分箱分组,例如图8c所示的0~5,以及,经特征分箱后还进行证据权重转换处理得到的非线性编码参数WOE

基于上述步骤,本发明实施例能够对不同数据类型的风险数据进行评分,对于线性分布的数据,本发明实施例具有对应的数据处理方案和对应的第一模型,对于非线性分布的数据,本发明实施例还设计了特征分箱和证据权重的处理方案和对应的第二模型,具有广泛的适用性。

将风险数据输入到对应的风险评估模型后,能够对企业进行信用评分,据此决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。

在一个可选的实施例中,所述方法还包括:

将已评价企业的工商数据作为测试集和训练集对所述风险评估模型进行训练,所述测试集包括测试特征和所述已评价企业的评估分数,所述训练集包括训练特征和所述已评价企业的评估分数。

该训练过程可参见前述实施例,在此不再赘述。

如图9所示,本发明另一个实施例提出一种企业风险的评估装置,包括:

风险数据生成单元,用于根据获取的待评价企业的工商数据得到所述待评价企业的风险数据,所述风险数据包括多个输入特征;

评估模型生成单元,用于基于所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型;

风险评估单元,用于将所述风险数据输入到已确定所述模型参数的风险评估模型进行评估。

值得说明的是,该评估装置所执行的功能和原理与上述实施例的评估方法类似,在此不再赘述。

本发明的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现:根据获取的待评价企业的工商数据得到所述待评价企业的风险数据,所述风险数据包括多个输入特征;基于所述风险数据确定已训练的风险评估模型的模型参数,从而得到对应于所述风险数据的风险评估模型;将所述风险数据输入到已确定所述模型参数的风险评估模型进行评估。

在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

如图10所示,本发明的另一个实施例提供的一种计算机设备的结构示意图。图10显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图10中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种企业风险的评估方法。

在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

相关技术
  • 电力作业风险评估方法、装置、计算机设备和存储介质
  • 理赔风险评估方法、装置、计算机设备及存储介质
  • 电网调度风险评估方法、装置、计算机设备和存储介质
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种电力企业价值评估的方法、装置、设备及存储介质
  • 企业风险评估方法、装置、计算机设备和存储介质
  • 企业风险的评估方法、装置、计算机设备及存储介质
技术分类

06120115936949