掌桥专利:专业的专利平台
掌桥专利
首页

跨平台企业信用确定方法、装置、电子设备及存储介质

文献发布时间:2024-05-31 01:29:11


跨平台企业信用确定方法、装置、电子设备及存储介质

技术领域

本申请属于电子信息技术领域,具体涉及一种跨平台企业信用确定方法、装置、电子设备及存储介质。

背景技术

当前企业业务跨界融合的特征越来越明显,通过制定多元化的发展策略,企业能够更好的应对市场激烈的竞争并有效的拓宽未来的前景道路。在此跨界融合的背景下,企业的信用评价同样也面临着多源化、跨界化的升级。一方面,只考虑单一领域的信用评价指标和方法,难以准确全面刻画评价主体的信用;另一方面,企业跨界融合的转型也势必要求其具备不同领域的评价结果,从而易于获得不同领域的肯定、提升企业自身的发展速度。在此情境下,提出能够适应于多种不同业务领域的信用评价指标体系,构建出能够综合反应企业跨平台的信用的评价方法,对于企业自身发展、经济的维稳以及国家信用体系的建设都尤为重要。

但从实际应用的角度出发,构建涵盖多领域、跨平台的信用评价指标与评价系统,存在诸多的挑战,而这主要体现以下两个方面:

一、如何构建一个能够涵盖多领域的、全面的企业信用评价体系,并基于不同领域的评价结果形成企业综合的信用评级;

二、面对存储于不同平台、不同来源的数据,如何收集、去重和消除不同类型数据的异质性,从而形成能够用于进行信用评价的标准化数据。

发明内容

本申请的目的是提供一种跨平台企业信用确定方法、装置、电子设备及存储介质。

根据本申请实施例的第一方面,提供了一种跨平台企业信用确定方法,该方法可以包括:

获取目标企业多源平台的原始信用数据集;

将原始信用数据集中的数据分解成多个一级信用指标下的分数据集;

利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果;

对评价结果与平台的预测结果进行集成,确定目标企业的信用。

在本申请的一些可选实施例中,原始信用数据集表示为:

raw_Data={id,attribute,platform}

其中,id为每条数据的识别码;attribute为每条数据的特征以及信用标签;platform为原始数据的来源平台。

在本申请的一些可选实施例中,将原始信用数据集中的数据分解成多个一级信用指标下的分数据集,包括:

将原始信用数据集中的数据进行划分,得到各平台的全部信用数据;

将全部信用数据进行统一化处理,得到结构统一数据;

将结构统一数据进行特征降维处理,得到分数据集。

在本申请的一些可选实施例中,将结构统一数据进行特征降维处理,得到分数据集,包括:

采用t检验的方式对结构统一数据进行特征降维,得到分数据集。

在本申请的一些可选实施例中,利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果,包括:

利用监督学习的方法对分数据集中每一个一级指标数据值均建立一个最优的信用模型,得到多个一级指标的评价结果。

在本申请的一些可选实施例中,对评价结果与平台的预测结果进行集成,确定目标企业的信用,包括:

将多个一级指标的评价结果集成,并将不同平台数据预测结果的集成;

采用适应性的模型组合方法,依据各数据集的预测精度在对评价结果进行加权,确定目标企业的信用。

根据本申请实施例的第二方面,提供一种跨平台企业信用确定装置,该装置可以包括:

获取模块,用于获取目标企业多源平台的原始信用数据集;

分解模块,用于将原始信用数据集中的数据分解成多个一级信用指标下的分数据集;

监督学习模块,用于利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果;

确定模块,用于对评价结果与平台的预测结果进行集成,确定目标企业的信用。

根据本申请实施例的第三方面,提供一种电子设备,该电子设备可以包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,处理器被配置为执行指令,以实现如第一方面的任一项实施例中所示的跨平台企业信用确定方法。

根据本申请实施例的第四方面,提供一种存储介质,当存储介质中的指令由信息处理装置或者服务器的处理器执行时,以使信息处理装置或者服务器实现如第一方面的任一项实施例中所示的跨平台企业信用确定方法。

本申请的上述技术方案具有如下有益的技术效果:

本申请实施例方法通过获取目标企业多源平台的原始信用数据集;将原始信用数据集中的数据分解成多个一级信用指标下的分数据集;利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果;对评价结果与平台的预测结果进行集成,确定目标企业的信用。该方法具有较好的信用判别能力,具备较强的可解释能力,并且具有较好的可操作性。

附图说明

图1是本申请一示例性实施例中跨平台企业信用确定方法流程图;

图2是本申请一示例性实施例中跨平台信用指标体系图;

图3是本申请一示例性实施例中指标编码流程图;

图4是本申请一示例性实施例中数据标准化流程图;

图5是本申请一示例性实施例中基于多源异构的跨平台企业信用评估框架图;

图6是本申请一示例性实施例中样本信用标签分布示意图;

图7是本申请一示例性实施例中模型预测精度比较示意图;

图8是本申请一示例性实施例中重要变量对企业信用评估结果的影响示意图;

图9是本申请一示例性实施例中特征筛选后结果示意图;

图10是本申请一示例性实施例中电子设备结构示意图;

图11是本申请一示例性实施例中电子设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本申请进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。

在附图中示出了根据本申请实施例的层结构示意图。这些图并非是按比例绘制的,其中为了清楚的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的平台企业信用确定方法进行详细地说明。

如图1所示,在本申请实施例的第一方面,提供了一种跨平台企业信用确定方法,该方法可以包括:

S110:获取目标企业多源平台的原始信用数据集;

S120:将原始信用数据集中的数据分解成多个一级信用指标下的分数据集;

S130:利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果;

S140:对评价结果与平台的预测结果进行集成,确定目标企业的信用。

上述实施例方法通过获取目标企业多源平台的原始信用数据集;将原始信用数据集中的数据分解成多个一级信用指标下的分数据集;利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果;对评价结果与平台的预测结果进行集成,确定目标企业的信用。该方法具有较好的信用判别能力,具备较强的可解释能力,并且具有较好的可操作性。

为了更加清楚的说明,下面对于上述步骤分别记性介绍:

首先是步骤S110,获取目标企业多源平台的原始信用数据集。

首先对存在多源异质数据的跨平台企业信用评价场景进行描述。多源异质异构情境下的原始企业信用数据可被表示为:

raw_Data={id,attribute,platform}

其中,id为每条数据的识别码;attribute为每条数据的特征以及信用标签;platform为原始数据的来源平台。根据上述定义,对以上三个部分的构成进行进一步的细化,形式如下:

1、识别码(id)

对于每一条数据,选取企业的统一社会信用代码、企业名称以及数据年份作为数据的唯一标识码构成,即:

raw_Data(id)={org_code,company_name,time},

在收集数据时,以id作为每条数据的唯一识别,采用“键-值”的方式确定每条样本含有的具体信用特征。

2、特征(attribute)

企业具体的信用特征,主要由两个部分组成:一是信用标签,即企业信用评价的结果;二是用于描述企业业务经营状况的指标集合,常见的有企业经营能力、管理能力以及财务状况等。因此对于每条企业信用评价特征,都可表示为:

raw_Data(attribute)={label,feature},

其中label为企业的信用标签,feature为可以用于进行企业信用评价的所有特征。

3、所属平台(platform)

企业数据跨平台特性,主要通过数据存储于不同平台来体现,为方便后续不同平台的信用汇总以及对全部数据的平台划分,在原始数据收集过程中,通过标记每条数据platform的取值以记录数据所来源的平台。

然后是步骤S120,将原始信用数据集中的数据分解成多个一级信用指标下的分数据集。

本步骤是跨平台信用指标的选取和指标格式编码,可以包括:

单一领域、平台、场景、生态下的服务信用评价指标不能准确刻画存在跨界融合业务的企业信用特征,因此需要构建更为全面的信用指标体系,做到不同领域、场景的全覆盖。本实施例收集了覆盖通用信用、投融资平台信用、电子商务类信用、电力行业信用等评价主体的143个单一领域的信用评价指标体系,通过对单一领域的共同性和差异性进行分析,确立的适用于跨平台的信用指标体系。

从总体上看,单一领域信用评价的共同性主要体现在以下三个方面:1)不同评价指标,均需要收集信用评价主体的基础工商信息以用于识别;2)多数评价指标采用多级的结构,且主要划分为三个评价级别;3)从第一级评价体系来看,大多指标均包含:基础登记信息,公共信用,资质信息,财务状况,经营管理能力,社会评价、信用记录等信息。而不同领域信用评价的差异性,则主要围绕信用评价主体的业务范围展开且多仅在三级指标有所不同。基于此,本实施例首先确立了指标体系的基本框架,具体如图2所示。在实际评价过程中,根据数据的可获得性,企业信用评价的二级和三级指标可以适当增减或调整,但一级指标的组成不发生变动。

在实际信用评价过程中,企业的信用评价变量含义覆盖范围较广、数量众多,因此在获得原始数据后,可能会由于数据命名方式不一致,造成指标存在重复或指标对应错误的问题。为保障指标与数据之间的正确对应,同时便于一级指标的评价结果与最终评价结果之间的互换,在进行信用评价之前,首先需要对指标名称进行编码,构建指标名称的相应数据库。

编码后的指标主要有一下三个部分构成,指标所属的一级指标、指标的名称以及指标所属的平台:

其中,

l用于指代该指标是二级指标或或是三级指标;

j为对应的一级指标,J为一级指标的总数;

name为指标的名称。

如图3所示,给出了指标的具体编码流程。

数据标准化处理

在收集得到原始数据(raw_Data)以及对指标名称进行统一编码后,需要对原始数据进行进一步处理,以适用于评价模型。数据处理主要分为平台聚拢,数据结构统一化以及特征降维三个步骤。

平台聚拢

数据标准化的第一步,主要是根据原始数据平台的来源进行平台的数据汇总。根据raw_Data(platform)的值对数据进行划分,从而汇集得到各单一平台的全部信用数据。

数据结构统一化

跨平台的企业信用评价难点,一方面体现在如何构造全面的指标体系,另一方面是如何统一不同平台、不同类型指标底层数据结构不一致的问题。企业信用评价底层数据的异构性,主要是由于一级指标所反映信息不同所致的。例如企业的基础登记信息会包含企业社会同一信用代码,企业名称、企业规模等变量,以上变量多为因子型变量,主要起到个体识别的能力;而经营能力、管理能力等则涵盖文字型、因子型和数值型等多种类别的变量,能够全面反应企业的经营状况;财务信息数据基本均为数值型数据,是企业信用评价的主要信息来源集合。倘若将上述结构不同的底层数据汇集到一起,形成一个统一的信用评价模型,信用评价结果可能会由于数据结构过于复杂、信息含量差异性过高,产生判别结果精准性差且可解释性低的问题。而通过观察各一级指标的数据类型构成,可以发现同一一级指标所包含的数据类型较为相似且反应的企业运营信息较为统一。因此为解决跨平台企业信用评价数据异质异构的问题,本实施例将原始数据集根据特征的编码进行划分,以形成更有利于建模的数据格式。

根据上文的定义,首先通过集合的差运算分离出可以用于进行企业信用评价的特征,即

feature=attributelabel

在得到所有可用于进行企业信用的特征之后,根据每个特征的名称name以及指标名称的编码,找到特征所属的一级指标;最后根据特征所属的一级指标变换,将原始的、混杂在一起的全部信用特征,划分为基于一级指标信用特征集。通过指标划分过后的、各单一一级指标下的数据各式如下所示如下:

其中

而在得到单一一级指标下的数据集后,对数据的类型进行统一。具体而言对于文字型的变量,将其进行了因子型的转化,例如对于企业经营范围,企业所属的技术领域进行了编码,将其转化为因子型的变量。而对于所有数值型的数据,本实施例通过Z-score进行标准化,至此数据结构统一化完成。

特征降维

为提升模型的预测精度,避免模型过拟合以及出现多重共线问题,在进行模型预测前,还需要对数据进行特征降维筛选工作。由于企业的信用标签label为虚拟变量,且构建信用模型的目的是有效判别企业是否可能会存在信用风险,因此本实施例主要基于特征的对不同信用标签的区分能力进行对数据进行降维。

本实施例主要采取t检验的方式对数据的特征进行降维,更进一步来说主要采用配对样本t检验来验证变量的对于不用信用标签的判别能力。对于任意信用评估数据,本实施例假设其信用标签存在0/1两个状态,其中0代表企业不存在信用风险,1代表企业存在信用风险。首先计算不同信用标签样本的差值d

在得到t检验统计量的具体数值后,根据该数值与临界值的大小决定是否保留该变量。

上述方法主要适用于数值型变量,对于因子型变量本实施例采用更为简单的方法进行筛选。具体而言,如果对于所有的样本特征x

标准化流程总结

最后再一次对数据标准化的流程进行总结,其具体过程如图4所示。首先进行了不同平台的数据汇总,从而将原始数据集进行了平台的划分和集合;然后根据指标的编码格式,将各单一平台的所有信用特征根据名称与一级指标的对应关系,形成数据结构统一,有利于建模分析的单一一级指标下的数据集;最后根据每个特征对于企业信用标签的判别能力,进行了特征筛选,从而得到了标准化后的跨平台信用评价数据。

接下来是步骤S130:利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果;

本实施例主要采用监督学习的方式实现跨平台的企业信用评估预测。具体而言,针对每一个一级指标数据值均建立一个最优的信用模型,以得到每一个一级指标的信用预测结果,即:

g:f

最终可以得到基于企业基础信息,经营能力,管理能力等特征集的信用评价结果,而各单一一级指标下,单一平台的信用评价预测集合如下所示:

CS

其中CS

最后是步骤S140,对评价结果与平台的预测结果进行集成,确定目标企业的信用。

本实施例提出的基于多源异构数据融合技术的跨平台企业信用评价模型包含两个集成的过程:一是一级指标评价结果的集成;二是对不同平台数据预测结果的集成。在进行两个不同阶段的集成时,本实施例采用了不同的权组合重确定方法。具体而言,在进行第一部分特征集成时,本实施例采用了熵权法和灰色关联度权重法,不同通过计算两个权重的几何平均值确定子特征模型的集合权重;而在进行第二步,数据集集成时,本实施例主要采用了预测精度集成法,即预测精度的更高数据集的结果赋予更大的权重。

一级指标评价结果集成

1、熵权法

熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。

在企业一级指标评价结果的集成过程中,将每个一级指标的评价结果视为一个特征,并计算其对应的熵值为

其中

其中J为一级指标的总个数。

2、灰色关联度权重

灰色关联度可以揭示数据序列之间潜在的影响关系。若两组数据序列之间的灰色关联度较大,则相互影响程度越强。基于灰色关联分析的原理,本实施例以灰色关联度r

其中Δ

I

当I

3、单一一级指标综合信用评价权重

在得到各特征的熵权和灰色关联度权重后,本实施例采用两者的集合平均值作为单一一级指标综合信用评价权重的最终权重,其计算方式如下:

单一一级指标的信用评价结果CS

不同平台数据预测结果集成

根据现有的组合预测研究,当前的组合方法可以分为适应性组合和提升性组合,其中前者主要是基于预测池的子模型选出最接近最优模型的组合形式,而后者则是要构造一个超越所有子模型的最优模型组合形式。适应性组合方法主要包括,贝叶斯模型平均、基于预测误差的模型平均方法等;提升性组合则主要基于预测模型池的方差与协方差,以形成最优的线性组合模型(Bates和Granger,1969;Granger和Ramanathan,1984)。上述两种方法都能够有效的提升单一预测模型的结果,但由于适应性模型组合方法的计算成本更低、产生过拟合的风险也更小,因此本实施例采用适应性的模型组合方法,依据各数据集的预测精度在数据集成这一部分进行加权。同时由于企业信用预测通常会存在较大的样本不平衡问题,即存在信用问题的企业个数远小于不存在信用问题的企业个数,因此本实施例主要采用平均准确率作为数据集成的权重。至此信用评价结果的集成过程结束,其最终评级结果如下:

Acc

综上,首先对原始数据进行的标准化处理,将其分解多个一级信用指标下的分数据集;然后通过监督学习的方式建立了信用特征与企业信用标签的映射,得到了多个一级指标下的评价结果;最后基于熵权法、灰色关联度法以及适应性模型组合方法,对单一一级指标和单一平台的预测结果进行了集成,从而得到最终的企业信用评价。本实施例所提出的算法和模型流程框架见算法1和图5。

信用评估结果评价指标

分类算法的预测精确度主要使用混淆矩阵以及由混淆矩阵计算得到的相关指标作为重要的衡量依据。但由于一般传统的分类算法都在是样本数据平衡的假设上,以学习优化模型整体的分类效果为目的而设计的,因此部分指标并不能起到对不平衡数据,即少数样本的分类评价作用。

常见的预测模型精度评价标准包括准确率(accuracy)、AUC、精确率(precision)、召回率(recall)、F1、平均准确率(balanced-accuracy))等。各指标具体计算方法及含义如表1所示。相较于准确率和AUC值,其余的指标能够同时刻画模型对正类样本和负类样本的分类能力,在样本数据高度非平衡的状态下,也能起到对少数类样本的分类评价作用。精确率主要侧重描述模型是否存在错判问题,精准率高表明预测结果与实际类别相同,精准率低则表明模型错将实际为正(负)的样本判别为负(正),存在严重的误判问题;召回率则主要侧重模型对于各类别数据的识别能力,召回率越高表明对于不同类型的样本模型均能较好的辨识出来;F1值则是由精准率与召回率共同构成的评价指标,其值越高表明模型的误判越低,辨识能力越好。平均准确率则是正负样本的精确率的平均值,其值越大,代表对于正负样本的平均预测能力越好。本实施例主要关注企业的Accuracy、F1、BalancedAccuracy以及值,以评价企业的综合信用评估和其对于单一信用类别样本的评估效果。

表1模型评价指标

注:TP、FP、TN以及TN分别代表分类结果为真正实际为真、分类结果为真实际为假、分类结果为假实际为假以及分类结果为假实际为真的样本个数。

实证分析

选取A股成功上市的高新技术企业。上述企业不仅需要拥有较好的经营效益,以在A股股市上获得融资,同时还需要达到一定的科研水平,从而继续驻扎于高新产业园区,享受相应的政策福利。由此可见,本实施例所引用的实证数据,符合跨平台企业经营的条件。本小节则主要将对具体来源与构成、信用评价指标体系以及评价结果进行阐述。

数据来源

本实施例的数据来源有:1)Wind数据库;2)科技部提供的涵盖成都、苏州和广州三个地区高新科技园企业科技发展统计数据。数据时间跨度为2012至2019年。对于企业信用标签的选择,本实施例参考企业股票的风险状态,即是否为ST股票;若企业被标记为ST则被认为存在信用风险,反之则不存在信用风险。企业信用评估的预测步长则为一年。

特征构成及分布

结合数据的实际获取情况以及前文有关跨平台企业信用评价指标的选取规则。本实施例所采用的信用评价指标构成如表2所示。由该表可知,研究采用的指标由5个一级指标和19个二级指标构成,而每个二级指标又由一个或多个特征组成。而从不同数据来源平台可以提供的数据上来看,Wind数据源主要包含企业基础工商信息、经营能力、管理能力以及财务信息;高新科技园企业科技发展统计数据则在上述四个方面上新增了发展能力的一级指标。

而在企业信用标签的构成方面,研究所使用的样本数据存在非平衡的问题,其构成如如图6所示。其中训练集正负样本个数比为19:7,而测试集的正负样本个数比为18:6,即存在信用问题的企业仅仅占全部样本的25%左右。为解决不平衡问题,提高模型的预测精度,在模型训练过程中,研究采用随机上采样的方法,训练集样本进行扩充,通过随机抽取部分或者全部的少数类样本进行复制,从而使正负样本数量均衡。

表2指标体系构成、特征个数以及数据来源

本实施例采用两种基准模型以比较本基于多源异构数据融合技术的跨平台企业信用模型的评价效果。基准模型一(model1),是一种基于全特征的企业信用评价模型,其将来源于两个数据平台的所有特征合并在对企业的信用状态进行预测;基准模型二(model2),则是分别建立两个独立的、单一平台的信用预测数据,然后通过模型样本内的预测精度进行组合。

上述三种不同模型样本内外的预测精度如表3所示。根据样本内预测结果可以看到,基准模型一和二的预测能力一致,各预测评价指标均达到了90%以上的预测精确度。基多源异构数据融合技术的跨平台企业信用评价模型略逊于基准模型,但通过AUC值可以发现该模型依然具有很强的正负样本判别能力。而通过比较三个模型样本外的精度,可以发现本实施例所提出的模型的预测能力要显著的优于前面两种基准模型,在不同评级指标下,预测准确度约提升了13.3%至22.7%不等。由此可见尽管本实施例所提出的模型在样本内的预测结果略逊于基准模型,但其有着更好的样本外预测表现,具有更强的泛化能力。

图7更为直观的展现了基于多源异构数据融合技术的跨平台企业信用评价模型与基准模型的预测能力之间的差异,由于基准模型一与基准模型二的预测结果一致,因此在此图中将两者合并。由图可以看到在样本内,基准模型与本实施例所提供的跨平台预测模型结果样本内预测能相差不大,但本实施例所提出的模型,在样本外预测结果有较为显著的提升。

表3模型样本内外预测精度

对于企业的信用预测,除了需要有较强的解释能力,同时还需要具备的一定的模型解释能力。具体来说,结合模型的拟合结果企业信用风险的管理人员或是第三方需要获取企业信用信息的人员,能够了解企业信用建设的薄弱环节,并及时采取有效手段,避免严重信用问题的发生。

图4展示不同数据来源平台通过模型筛选得到的、对企业信用具有一定影响的特征集合。特征的重要程度以及对企业信用的影响方向,由特征的颜色表示。其中蓝色的特征为对企业信用具有正向影响的指标,其值越大企业的信用状况越好,红色的特征则为对企业信用具有负向影响的指标,其值越大企业信用状况越差;颜色的深浅则代表了变量对信用状况的影响程度。

由图8可知基本信息方面,大型企业以及被认定为高新技术企业的公司更不易发生信用风险。而从经营能力上看,企业的技术、技能管理人员越多、研发设备改造投入越大、企业专利研发能力越强,其发生信用风险的可能性越低。而从管理能力来看企业高学历人才占比越大企业信用越好,反之如果无关技术人员的比例越高则有可能增加企业产生信用风险的可能性。在财务信息方面,企业的盈利能力越强、收益质量越高、股票波动性越低则越可能具备良好的信用评价结果。而在发展能力方面,采用积极的投资战略目标,同时产品发展潜力较强的企业具有更好的信用评价结果。此外还有部分变量对于企业的信用的影响是定性的或是取决于一定的区间。例如企业所属技术领域为材料和新能源方面的公司可能更容易存在信用风险的问题;企业新增人数和吸纳毕业生人数过高或者过低都可能增大企业发生信用风险的可能性。

基于多源异构融合技术的企业跨平台信用评价模型,除了能够反馈得到对于企业信用具有重要影响的特征,同时也能较好的覆盖企业多方面的信息建设情况。表4展示了三种不同模型筛选出来的重要特征所属一级指标的覆盖情况,由该表可以看到基准模型一和基准模型二仅能对企业部分的信用一级指标进行判别,而这样的模型在实际评价企业信用状态的过程中无疑是不全面的。本实施例所提出的企业信用评价模型,基本覆盖了常见企业信用评价标准中的一级指标。因此其评价更为全面。此外预测结果全面性,还能更好的反应企业跨界融合经营的特性,有利于企业信用的管理者以及第三方企业信用的查询这了解被评价企业的信用状态,从而制定针对性的风险防控政策或是寻求定向的商业合作或融资决策。

表4各模型筛选指标覆盖范围

最后从模型使用者的角度,本实施例所提出的模型操作较为简单。下图展示了原始指标的变量个数以及经过监督学习方法,筛选得到的变量个数。由图9可知,通过本实施例所提出的模型特征的数量有了显著的下降,从原始的163个降维至27个。这有效降低了数据收集和处理的成本与难度,有效的提升了跨平台企业信用的可操作性。此外在预测过程中,每个数据来源的平台仅需要利用训练得到的映射模型,在数据存储本地进行预测,并上传最终的预测结果即可。这有效的确保了不同平台数据之间独立性,减少了数据隐私泄露问题发生的概率。

随着企业业务跨界融合的特征越来越明显,构建跨平台、跨领域的信用评价指标和信用评估模型以成为国家社会信用体系建设的目标并提上日程。企业跨领域经营的同时,也进一步要求企业的信用评价方法进行升级,一方面是要能够构建评价范围更为全面的信用评价体系,另一方面则是要能够解决企业数据存储来源不同,结构异质的问题。

为解决企业跨平台信用评价的难点与痛点,本实施例提出一种基于多源异构数据融合技术的企业跨平台信用评价框架。该框架首先对不同源的企业信用数据进行格式标准化处理,通过指标名称的变量将混杂在一起的庞大信用特征集合,分解成覆盖基础信息、经营能力、管理能力等五个方面的单一一级指标数据集合;然后研究基于传统的特征筛选方法对经过格式标准化的数据降维,并通过将文字型变量因子化的处理,解决的数据异构的问题;最后文章基于监督学习的方法以及集成预测的思想,对单一指标、单一平台的预测结果进行汇总,得到最终的企业跨平台信用预测结果。

本实施例利用A股成功上市的高新技术企业对上述模型进行了实证检验。通过比较该模型与其他两种基准模型的预测精度和模型解释能力,本实施例得的结论由以下三点:一、本文所提出的模型具有较好的信用判别能力。无论是样本内数据还是样本外数据均具有较强的预测能力,其中样本外预测准确率达到92%,AUC值为0.94;此外在数据存在高度不平衡问题的情况下本实施例所提出模型的平均准确率业达到了80%。二、本文所提出的模型具备较强的可解释能力。根据监督学习的结果,本实施例所提出的模型能够定量的反应特征对企业信用状态的影响,同时企业覆盖的评价方面相较于基准模型更为全面,能够更好的突出具备跨界经营企业的信用。三、本实施例所提出模型具有较好的可操作性。首先模型从163多个变量中筛选得到了27个重要变量,这在实际应用预测过程中无疑可以降低数据的收集难度,其次在预测的过程中,不同数据源仅需要传输根据训练得到的映射函数的预测结果,不需要提供本地的原始数据,这较好的保障了不同平台数据的独立性,有效避免的数据隐私泄露问题的发生。

在本申请的一些可选实施例中,原始信用数据集表示为:

raw_Data={id,attribute,platform}

其中,id为每条数据的识别码;attribute为每条数据的特征以及信用标签;platform为原始数据的来源平台。

在本申请的一些可选实施例中,将原始信用数据集中的数据分解成多个一级信用指标下的分数据集,包括:

将原始信用数据集中的数据进行划分,得到各平台的全部信用数据;

将全部信用数据进行统一化处理,得到结构统一数据;

将结构统一数据进行特征降维处理,得到分数据集。

在本申请的一些可选实施例中,将结构统一数据进行特征降维处理,得到分数据集,包括:

采用t检验的方式对结构统一数据进行特征降维,得到分数据集。

在本申请的一些可选实施例中,利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果,包括:

利用监督学习的方法对分数据集中每一个一级指标数据值均建立一个最优的信用模型,得到多个一级指标的评价结果。

在本申请的一些可选实施例中,对评价结果与平台的预测结果进行集成,确定目标企业的信用,包括:

将多个一级指标的评价结果集成,并将不同平台数据预测结果的集成;

采用适应性的模型组合方法,依据各数据集的预测精度在对评价结果进行加权,确定目标企业的信用。

需要说明的是,本申请实施例提供的跨平台企业信用确定方法,执行主体可以为跨平台企业信用确定装置,或者该跨平台企业信用确定装置中的用于执行跨平台企业信用确定的方法的控制模块。本申请实施例中以跨平台企业信用确定装置执行跨平台企业信用确定的方法为例,说明本申请实施例提供的跨平台企业信用确定的装置。

上述实施例方法是一种可以解决数据来源不同,特征组成和分布不同情况下的企业信用评价模型,该模型首先构建多个针对子特征集合的子模型,然后采用适当的集成方式进行结果的融合。实证结果表明,该模型不仅可行性高,同时也有着较好的预测能力。

在本申请实施例的第二方面,提供一种跨平台企业信用确定装置,该装置可以包括:

获取模块,用于获取目标企业多源平台的原始信用数据集;

分解模块,用于将原始信用数据集中的数据分解成多个一级信用指标下的分数据集;

监督学习模块,用于利用监督学习将分数据集建立信用特征与企业信用标签的映射,得到多个一级指标的评价结果;

确定模块,用于对评价结果与平台的预测结果进行集成,确定目标企业的信用。

本申请实施例中的跨平台企业信用确定装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。

本申请实施例中的跨平台企业信用确定装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。

本申请实施例提供的跨平台企业信用确定装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。

可选地,如图10所示,本申请实施例还提供一种电子设备1000,包括处理器1001,存储器1002,存储在存储器1002上并可在所述处理器1001上运行的程序或指令,该程序或指令被处理器1001执行时实现上述跨平台企业信用确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图11为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1100包括但不限于:射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、以及处理器1110等部件。

本领域技术人员可以理解,电子设备1100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。

应理解的是,本申请实施例中,输入单元1104可以包括图形处理器(GraphicsProcessing Unit,GPU)11041和麦克风11042,图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板11071,也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1109可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1110中。

本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述跨平台企业信用确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。

应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 跨平台访问方法、装置、电子设备及存储介质
  • 配送参数的确定方法、确定装置、存储介质和电子设备
  • 一种问卷调查对象确定方法、装置、电子设备和存储介质
  • 一种车位确定方法、装置、电子设备、车辆及存储介质
  • 行业关联度、风险确定方法及装置、存储介质和电子设备
  • 企业信用评价方法、装置、电子设备及存储介质
  • 企业信用风险监测方法及装置、存储介质及电子设备
技术分类

06120116624833