掌桥专利:专业的专利平台
掌桥专利
首页

企业规模划分方法、系统、电子设备及存储介质

文献发布时间:2023-06-19 19:28:50


企业规模划分方法、系统、电子设备及存储介质

技术领域

本申请涉及企业管理技术领域,具体涉及一种企业规模划分方法、系统、电子设备及存储介质。

背景技术

目前,行业内判断企业大小规模没有统一标准,判断方式也多种多样,依据国家企业规模划分标准又无法获取企业的营业收入以及人员规模实际状况,难以科学地将天眼查数据库全量企业按照国家对企业规模划分等级将它们划分为大型、中型、小型和微型的四个等级。

发明内容

本申请提供一种能够解决目前难以将天眼查数据库全量企业按照国家对企业规模划分等级将它们划分为大型、中型、小型和微型的四个等级的问题的企业规模划分方法、系统、电子设备及存储介质。

一方面,本申请提供一种企业规模划分方法,包括:

获取多个待分析企业的企业表征数据;

根据所述企业表征数据对多个所述待分析企业进行总体评分排序,得到多个所述待分析企业的初级规模划分数据;

对所述初级规模划分数据进行校正,得到多个所述待分析企业的规模等级划分结果。

在本申请一种可能的实现方式中,所述根据所述企业表征数据对多个所述待分析企业进行总体评分排序,得到多个所述待分析企业的初级规模划分数据,包括:

所述待分析企业的所述企业表征数据包括多个企业属性;

获取所述待分析企业的企业属性对应的企业属性分值;

将所述待分析企业的多个所述企业属性分值进行计算,得到与所述待分析企业对应的企业属性总分;

将多个所述待分析企业的企业属性总分进行排序,得到多个所述待分析企业的初级规模划分数据。

在本申请一种可能的实现方式中,根据所述企业表征数据对多个所述待分析企业进行总体评分排序,得到多个所述待分析企业的初级规模划分数据之后,所述方法还包括:

所述初级规模划分数据包括划分正常数据和划分异常数据;

获取所述初级规模划分数据中的划分异常数据;

将划分异常数据与预设的企业等级标准数据进行模糊匹配,得到待分析企业的企业等级模糊匹配结果。

在本申请一种可能的实现方式中,所述对所述初级规模划分数据进行校正,得到多个所述待分析企业的规模等级划分结果,包括:

根据预设的决策树分类规则,对所述企业等级模糊匹配结果执行决策树,得到数据分类结果;

将所述划分正常数据和所述数据分类结果作为所述待分析企业的规模等级划分结果。

在本申请一种可能的实现方式中,所述根据所述企业表征数据对多个所述待分析企业进行总体评分排序,得到多个所述待分析企业的初级规模划分数据,包括:

将所述企业表征数据输入预设的等级划分模型进行总体评分,得到总体评分结果;

根据预设的初步等级划分阈值,对所述总体评分结果进行初级规模划分,得到多个所述待分析企业的初级规模划分数据。

在本申请一种可能的实现方式中,在所述获取多个待分析企业的企业表征数据之前,所述方法还包括:

获取用于进行模型训练的样本数据集,所述样本数据集包括训练样本数据集;

将所述训练样本数据集作为目标输入进行评分排序,得到排序后的训练排序数据集;

根据所述训练样本数据集和所述训练排序数据集进行模型训练,得到已训练的等级划分模型。

在本申请一种可能的实现方式中,所述获取用于进行模型训练的样本数据集,所述样本数据集包括训练样本数据集,包括:

获取所述样本数据集的数据因变量,所述数据因变量包括客群数据;

获取所述样本数据集的数据自变量,所述数据自变量包括与所述客群数据对应的衍生数据;

将所述数据因变量和所述数据自变量作为所述样本数据集。

在本申请一种可能的实现方式中,所述客群数据包括第一数据集和第二数据集,所述获取数据因变量,包括:

获取第一数据集,所述第一数据集包括多个已申请贷款的样本数据;

获取第二数据集,所述第二数据集包括多个未申请贷款的样本数据;

将所述第一数据集和所述第二数据集组合后作为所述数据因变量。

在本申请一种可能的实现方式中,所述获取第二数据集,包括:

获取多个未申请贷款的初始客群数据,所述初始客群数据包括正常样本数据和灰色样本数据;

获取所述多个未申请贷款的初始客群数据中的正常样本数据;

将多个所述正常样本数据作为所述第二数据集。

在本申请一种可能的实现方式中,所述样本数据集包括验证样本数据集,所述方法还包括:

获取所述验证样本数据集;

将所述验证样本数据集作为目标输入进行评分排序,得到排序后的验证排序数据集;

根据所述验证样本数据集和所述验证排序数据集确定初步等级划分阈值。

另一方面,本申请提供一种系统,所述系统包括:

获取模块,用于获取多个待分析企业的企业表征数据;

模型划分模块,用于根据所述企业表征数据对多个所述待分析企业进行总体评分排序,得到多个所述待分析企业的初级规模划分数据;

规则划分模块,用于对所述初级规模划分数据进行校正,得到多个所述待分析企业的规模等级划分结果。

所述模型划分模块具体为:

所述待分析企业的所述企业表征数据包括多个企业属性;

用于获取所述待分析企业的企业属性对应的企业属性分值;

用于将所述待分析企业的多个所述企业属性分值进行计算,得到与所述待分析企业对应的企业属性总分;

用于将多个所述待分析企业的企业属性总分进行排序,得到多个所述待分析企业的初级规模划分数据。

所述系统还包括模糊匹配模块,所述模糊匹配模块具体为:

所述初级规模划分数据包括划分正常数据和划分异常数据;

用于获取所述初级规模划分数据中的划分异常数据;

用于将划分异常数据与预设的企业等级标准数据进行模糊匹配,得到待分析企业的企业等级模糊匹配结果。

所述规则划分模块具体为:

用于根据预设的决策树分类规则,对所述企业等级模糊匹配结果执行决策树,得到数据分类结果;

用于将所述划分正常数据和所述数据分类结果作为所述待分析企业的规模等级划分结果。

所述系统还包括映射模块,所述映射模块具体为:

用于获取全量企业工商数据;

用于根据预设的数据映射规则,将所述等级划分结果与所述全量企业工商数据进行映射,得到映射后的全量企业等级划分数据。

所述模型划分模块具体为:

用于将所述企业表征数据输入预设的等级划分模型进行总体评分,得到总体评分结果;

用于根据预设的初步等级划分阈值,对所述总体评分结果进行初级规模划分,得到多个所述待分析企业的初级规模划分数据。

所述系统还包括模型训练模块,所述模型训练模块具体为:

用于获取用于进行模型训练的样本数据集,所述样本数据集包括训练样本数据集;

用于将所述训练样本数据集作为目标输入进行评分排序,得到排序后的训练排序数据集;

用于根据所述训练样本数据集和所述训练排序数据集进行模型训练,得到已训练的等级划分模型。

所述模型训练模块还具体为:

用于获取所述样本数据集的数据因变量,所述数据因变量包括客群数据;

用于获取所述样本数据集的数据自变量,所述数据自变量包括与所述客群数据对应的衍生数据;

用于将所述数据因变量和所述数据自变量作为所述样本数据集。

所述模型训练模块还具体为:

用于获取第一数据集,所述第一数据集包括多个已申请贷款的样本数据;

用于获取第二数据集,所述第二数据集包括多个未申请贷款的样本数据;

用于将所述第一数据集和所述第二数据集组合后作为所述数据因变量。

所述模型训练模块还具体为:

用于获取多个未申请贷款的初始客群数据,所述初始客群数据包括正常样本数据和灰色样本数据;

用于获取所述多个未申请贷款的初始客群数据中的正常样本数据;

用于将多个所述正常样本数据作为所述第二数据集。

所述模型训练模块还具体为:

用于获取所述验证样本数据集;

用于将所述验证样本数据集作为目标输入进行评分排序,得到排序后的验证排序数据集;

根据所述验证样本数据集和所述验证排序数据集确定初步等级划分阈值。

另一方面,本申请还提供一种电子设备,所述电子设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的企业规模划分方法。

另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的企业规模划分方法中的步骤。

本申请首先将待分析企业的企业表征数据进行总体评分排序,得到初级规模划分数据,初级规模划分数据中评分越高的待分析企业则其企业等级越高,其企业规模越大,以此得到多个待分析企业的大致等级排序,再结合对初级规模划分数据进行数据校正,对初级规模划分数据中等级划分模糊或者等级划分错误的数据进行调整和修正,得到更加详细的规模等级划分数据,最后推出相对准确的规模等级划分结果,通过此策略,实现了对多个待分析企业进行企业规模划分等级的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例中企业规模划分方法的一个实施例流程示意图;

图2是本申请实施例中企业规模划分系统的一个实施例结构示意图;

图3是本申请实施例中企业规模划分方法的一个实施例流程示意图;

图4是本申请实施例中企业规模划分方法的一个实施例流程示意图;

图5是本申请实施例中企业规模划分方法的一个实施例流程示意图;

图6是本申请实施例中企业规模划分方法的一个实施例流程示意图;

图7是本申请实施例中企业规模划分系统的一个实施例结构示意图;

图8是本申请实施例中电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。

首先对本申请可能涉及的术语进行简要说明:

企业规模,是指按有关标准和规定划分的企业规模,是指对企业生产、经营等范围的划型,企业规模一般分为特大型、大型、中型、小型、微型,在本申请主要是对大型、中型、小型以及微型的企业规模进行划分。其中,企业的规模划分具体标准根据企业从业人员、营收收入、资产总额等指标制定,各行业的划型标准不同,国家行业划分标准如表1所示。

表1国家行业划分标准

/>

其中,(1)从业人员,是指期末从业人员数,没有期末从业人员数的,采用全年平均人员数代替。(2)营业收入,工业、建筑业、限额以上批发和零售业、限额以上住宿和餐饮业以及其他设置主营业务收入指标的行业,采用主营业务收入;限额以下批发与零售业企业采用商品销售额代替;限额以下住宿与餐饮业企业采用营业额代替;农、林、牧、渔业企业采用营业总收入代替;其他未设置主营业务收入的行业,采用营业收入指标。(3)资产总额,采用资产总计代替。

本申请实施例提供一种企业规模划分方法、系统、电子设备及存储介质,以下分别进行详细说明。

如图1与图2所示,为本申请实施例中企业规模划分方法的一个实施例流程示意图,该企业规模划分方法包括步骤101~103:

101、获取多个待分析企业的企业表征数据。

在对多个待分析企业的企业规模划分之前,从已有的企业信息数据库中收集多个待分析企业的企业表征数据,企业表征数据是用于待分析企业的企业规模的数据,已有的企业信息数据库可以是国家定义行业部分数据或者预先留存的内部存量数据。

其中,企业表征数据包括工商信息数据、企业物流数据和信贷数据,待分析企业的工商信息数据包括行业信息(行业一级、行业二级、行业三级)、经营范围、注册信息(注册年限和注册资金)、状态信息与企业性质、从业人员、经营人数等,企业物流数据可以是企业指定月的物流月结数据,物流月结数据包括当月的物流总运费以及运单数据,信贷数据可以是待分析企业过去一年所申请的信贷产品的申请量,信贷产品可以是任意信贷公司的产品。

102、根据企业表征数据对多个待分析企业进行总体评分排序,得到多个待分析企业的初级规模划分数据。

待分析企业的企业表征数据中所包含的行业信息、经营范围、注册信息、状态信息与企业性质、从业人员、经营人数等都属于待分析企业的企业属性,在本实施例中,可以设定不同的企业属性对应不同的企业属性分值,通过计算不同待分析企业的企业表征数据对应的企业属性总分,并根据不同待分析企业的企业属性总分对多个待分析企业进行排序,得到待分析企业的初级规模划分数据。

根据企业表征数据对多个待分析企业进行总体评分排序,得到多个待分析企业的初级规模划分数据,具体包括:

根据预设的评分规则,获取待分析企业的企业属性对应的企业属性分值。

其中,预设的评分规则可以是用户手动设定。示例性的,评分规则可以是,设定行业信息为行业一级时,所对应的企业属性分值为5分,行业信息为行业二级时,所对应的企业属性分值为3分,行业信息为行业三级时,所对应的企业属性分值为1分,还例如,待分析企业的经营范围越稳定,所对应的企业属性分值越高,否则越低,以此类推,预先设定企业表征数据中数据所对应的企业属性分值。

将待分析企业的多个企业属性分值进行计算,得到与待分析企业对应的企业属性总分。

将多个待分析企业的企业属性总分进行排序,得到多个待分析企业的初级规模划分数据。

可以通过预设的等级划分模型对待分析企业的多个企业属性分值进行计算,计算得到对应的企业属性总分,并进行企业属性总分排序,得到多个待分析企业的初级规模划分数据。

初级规模划分数据中包括多个待分析企业的企业表征数据和与多个待分析企业对应的规模划分信息,规模划分信息包括内容为大型、中型、小型以及微型的标签数据。

103、对初级规模划分数据进行校正,得到多个待分析企业的规模等级划分结果。

由于部分待分析企业的企业表征数据存在数据有偏差或者数据缺失的情况,导致初级规模划分数据存在偏差,因此需要对初级规模划分数据进一步地进行校正和调整,得到最终相对准确的规模等级划分结果。

本申请首先将待分析企业的企业表征数据进行总体评分排序,得到初级规模划分数据,初级规模划分数据中评分越高的待分析企业则其企业等级越高,其企业规模越大,以此得到多个待分析企业的大致等级排序,再结合对初级规模划分数据进行数据校正,对初级规模划分数据中等级划分模糊或者等级划分错误的数据进行调整和修正,得到更加详细的规模等级划分数据,最后推出相对准确的规模等级划分结果,通过此策略,实现了对多个待分析企业进行企业规模划分等级的目的。

在上述步骤102中,通过预设的等级划分模型对待分析企业的多个企业属性分值时,由于预设的等级划分模型本身的模型分数存在偏差或者数据缺失的情况,导致在对多个待划分企业进行总体评分排序后,所得到的初级规模划分数据不够准确,即初级规模划分数据包括划分正常数据和划分异常数据。

划分正常数据是初级规模划分数据中规模划分结果正确的待划分企业所对应的数据,划分异常数据是初级规模划分数据中规模划分结果存在异常的待划分企业所对应的数据,其中,划分正常数据和划分异常数据均包含企业表征数据。

因此,需要对初级规模划分数据中的划分异常数据进行校正和调整,以得到相对准确的规模等级划分结果。

在本申请的另一个实施例中,如图3所示,在根据企业表征数据对多个待分析企业进行总体评分排序,得到多个待分析企业的初级规模划分数据之后,方法还包括步骤201~202:

201、获取初级规模划分数据中的划分异常数据。

从初级规模划分数据中识别出划分异常数据,可以通过人工判断出初级规模划分数据中的划分异常数据,也可以通过预设的算法自动识别出初级规模划分数据中的划分异常数据。

202、将划分异常数据与预设的企业等级标准数据进行模糊匹配,得到待分析企业的企业等级模糊匹配结果。

其中,将划分异常数据与预设的企业等级标准数据进行模糊匹配,得到企业等级模糊匹配结果,具体为:

将划分异常数据中的注册资金和行业信息与国家定义行业部分数据或者预先留存的内部存量数据进行模糊匹配,得到企业等级模糊匹配结果。

根据模糊匹配结果,推测出待分析企业在该行业中的企业规模等级,即得到待分析企业的待确认企业规模划分结果。

在本实施例中,为了方便理解上述方案,在此针对上述方案具体举例说明,示例性的,国标中餐饮业中大型定义营业收入为大于1亿元,现在没有相关数据,则按照注册资本不低于国标行业中要求的营业额最低标准,再扩大数据5倍,则餐饮业中注册资金大于5亿的并年限超过1年以上为大型企业。

其中,将划分异常数据与预设的企业等级标准数据进行模糊匹配,得到企业等级模糊匹配结果,还可以具体为:

将划分异常数据中的物流月结数据与国家定义行业部分数据或者预先留存的内部存量数据进行模糊匹配,得到企业等级模糊匹配结果。

具体的,将待分析企业的物流月结数据中的运费以及运单数量,确定待分析企业的企业营业收入;

将待分析企业的企业营业收入与国家定义行业部分数据或者预先留存的内部存量数据进行模糊匹配,以得到企业等级模糊匹配结果。

为了方便理解上述方案,在此针对上述方案具体举例说明,示例性的,设定待分析企业的总运费占据待分析企业的企业营业总收入的15%,即待分析企业的总运费除以15%即为待分析企业的企业营业总收入,例如,若设定待分析企业的设定月的月结总运费为1000,则对应的待分析企业的设定月的企业营业总收入为1000/15%=6667,将待分析企业的行业信息和企业营业总收入与国家定义行业部分数据或者预先留存的内部存量数据进行模糊匹配,从而推出待分析企业的企业等级,即得到待分析企业的企业等级模糊匹配结果。

由于企业等级模糊匹配结果中仍然存在企业等级划分错误的情况,需要对企业等级模糊匹配结果进一步进行等级校正和调整,其中,示例性的,企业等级模糊匹配结果中的企业等级划分错误包括以下几种情况:

(1)待分析企业的企业性质为分公司,企业等级模糊匹配结果中将待分析企业定义为大型企业;

(2)待分析企业的企业性质为民营合作社,企业等级模糊匹配结果中将待分析企业定义为大中型企业;

(3)待分析企业的企业表征数据存在缺失,企业等级模糊匹配结果中待分析企业定义错误。

在本申请的另一个实施例中,如图2与图4所示,对初级规模划分数据进行校正,得到多个待分析企业的规模等级划分结果,包括步骤301~302:

301、根据预设的决策树分类规则,对企业等级模糊匹配结果执行决策树,得到数据分类结果。

其中,决策树分类规则是将企业等级模糊匹配结果与企业信息数据库中的数据进行对比决策,以进一步对企业等级模糊匹配结果进行校正调整,其中,企业信息数据库中的数据是基于国家行业、专家经验、企业月结行业规则以及企业完整信息进行设定。

在本实施例中,在根据预设的决策树分类规则,对企业等级模糊匹配结果执行决策树,得到数据分类结果之前,方法还包括:

对企业信息数据库进行数据补充。

具体的,如图2所示,需要对企业信息数据库中的国家企业划分标准和内部存量数据进行数据补充,参考天眼查数据、国家企业规模划分标准、上市公司/国家500强企业数据以及待分析企业的月结运费数据,根据行业信息、注册资本、成立年限、企业性质、社保人数,补充大型企业和中型企业的相关划分标准至企业信息数据库中,其中上市公司/国家500强企业数据可以作为大型企业划分硬性规则。

示例性的,决策树分类规则包括,但不限于以下几种情况:

(1)判断企业等级模糊匹配结果中是否存在待分析企业规模划分为中型企业,且待分析企业的企业注册资金小于等于500万,是则将划分异常数据对应的待分析企业的规模划分为小型企业,否则待定;

(2)判断企业等级模糊匹配结果中是否存在待分析企业规模划分为大中型企业,且待分析企业的企业性质为分公司,是则将划分异常数据对应的待分析企业的规模划分等级下调一级(例如:大型企业调整为中型企业或者中型企业调整为小型企业),否则待定;

(3)判断企业等级模糊匹配结果中是否存在待分析企业规模划分为大中型企业,且待分析企业的企业性质为民营合作社,是则将划分异常数据对应的待分析企业的规模划分等级下调一级,否则待定;

(4)判断企业等级模糊匹配结果中是否存在待分析企业的企业表征数据缺失,是则继续判断待分析企业已有的其他的企业表征数据,并根据判断情况,对应调整待分析企业的规模划分等级;

通过上述决策树分类规则对企业等级模糊匹配结果执行决策树后,得到更新后的数据分类结果。

302、将划分正常数据和数据分类结果作为待分析企业的规模等级划分结果。

将划分正常数据和更新后的数据分类结果进行整合,得到的最终结果即作为相对准确的待分析企业的规模等级划分结果。

在本申请的另一个实施例中,通过预设的等级划分模型对待分析企业进行总体评分排序,应用之前,即在等级划分模型训练完成之后,且在上线之前,将训练得到的企业属性分值映射至全量企业工商数据中,即将企业属性分值与全量企业的企业表征数据进行映射,完成映射后,再将待分析企业的企业表征数据输入至等级划分模型进行总体评分排序。

根据企业表征数据对多个待分析企业进行总体评分排序,得到多个待分析企业的初级规模划分数据,包括:

将企业表征数据输入预设的等级划分模型进行总体评分,得到总体评分结果。

将企业表征数据输入预设的等级划分模型进行总体评分,得到总体评分结过,具体为:

获取待分析企业的企业属性分值;

计算待分析企业的企业表征数据对应的企业属性总分,得到总体评分结果;

根据预设的初步等级划分阈值,对总体评分结果进行初级规模划分,得到多个待分析企业的初级规模划分数据。

根据初步等级划分阈值,对不同待分析企业的企业属性总分进行分层,即对多个待分析企业进行排序,得到待分析企业的初级规模划分数据。

在本申请的另一个实施例中,如图5所示,在获取多个待分析企业的企业表征数据之前,方法还包括步骤401~403:

401、获取用于进行模型训练的样本数据集,样本数据集包括训练样本数据集。

样本数据集可以是预先抽样的多个样本企业数据,样本企业数据包括行业信息、经营范围、注册信息、状态信息、企业性质、从业人员、经营人数等,将多个样本企业数据中一定比例的数据作为训练样本数据,训练样本数据可以设置为200万个,也可以设置为其他数量,比例可以人为设定,这里不做限制。

402、将训练样本数据集作为目标输入进行评分排序,得到排序后的训练排序数据集。

本实施例中采用的是基于逻辑回归(LR)的模型作为训练模型,其中,训练模型的模型数值是通过用户自行根据训练情况进行设定和调整,即在本实施例中,训练模型的评分规则可以是用户手动设定,预先设定训练样本数据集中企业表征数据对应的企业属性分值。

训练过程中,将训练样本数据集输入至训练模型中,训练模型对将训练样本数据对应的企业属性分值进行计算,计算得到训练样本数据对应的企业属性总分,并将训练样本数据集的所有企业属性分值总分进行排序,最后得到排序后的训练排序数据集,实现训练样本数据集的训练。

403、根据训练样本数据集和训练排序数据集进行模型训练,得到已训练的等级划分模型。

得到排序后的训练排序数据集后,将训练排序数据集与对应的训练样本数据集进行模型训练,训练过程中,分析训练排序数据集与训练样本数据集的误差情况,并不断调整训练模型的模型数值,寻找到训练模型的最佳模型数值,使得到的训练排序数据集最接近所需要的结果,即在训练过程中,不断调整训练排序数据集中与企业表征数据对应的企业属性分值,最终得到已训练的等级划分模型,

由于逻辑回归(LR)的模型是利用线性方法,模拟因变量与一个或多个自变量之间的线性关系,对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,因此在模型训练过程中,需要将样本数据集划分为数据因变量和数据自变量,通过数据因变量和数据自变量进行模型训练。

在本申请的另一个实施例中获取用于进行模型训练的样本数据集,样本数据集包括训练样本数据集,包括:

获取样本数据集的数据因变量,数据因变量包括客群数据。

获取样本数据集的数据自变量,数据自变量包括与客群数据对应的衍生数据;

将数据因变量和数据自变量作为样本数据集。

在本实施例中,数据因变量包括客群数据,客群数据即为收集的样本数据集中的工商信息数据,数据自变量包括与客群数据对应的衍生数据,衍生数据即为由工商信息数据深度衍生出的数据,衍生数据包括行业信息、注册信息、注册年限、资金、状态信息与企业性质等,衍生数据还包括公司性质、年限资金交叉衍生的数据以及过去一年按时效迭代模型所积累的有价值组合交叉变量。

在本申请的另一个实施例中,客群数据包括第一数据集和第二数据集,获取数据因变量,包括:

获取第一数据集,第一数据集包括多个已申请贷款的样本数据。

获取第二数据集,第二数据集包括多个未申请贷款的样本数据。

将第一数据集和第二数据集组合后作为数据因变量。

为了采用更加丰富的样本数据集进行模型训练,采用基于预先留存的内部存量数据进行模型训练。在本实施例中,基于面向小微企业的信贷产品的申请数据中,采样该信贷产品过去一年的申请客群和未申请客群,以得到客群数据,将抽取多个已申请贷款的样本数据作为第一数据集,抽取多个未申请贷款的样本数据作为第二数据集,可以设置采集的第一数据集和第二数据集的总客群数据量为200万,最终将200万个客群数据作为样本数据集。

为了方便理解上述方案,在此针对上述方案具体举例说明,示例性的,基于经营贷客群数据,抽取一年内申请超过5到15次以上,且去一年申请经营贷的申请量达到30万的申请客群,将该申请客群作为第一数据集。其中,经营贷的申请量也可以限定为其他申请量额度。抽取经营贷客群数据中,过去发送大于8次以上小于20次以下的推送信息,且没有一次申请记录的未申请客群,将该未申请客群作为第二数据集。

在本申请的另一个实施例中,由于经营贷客群数据中的未申请客群中存在黑名单客群和欺诈客群,在抽取经营贷客群数据中的未申请客群的过程中,抽取到黑名单客群或欺诈客群,均会影响模型训练的最终结果,因此,获取第二数据集,包括:

获取多个未申请贷款的初始客群数据,初始客群数据包括正常样本数据和灰色样本数据;

获取多个未申请贷款的初始客群数据中的正常样本数据;

将多个所述正常样本数据作为所述第二数据集。

在本实施例中,先留存的内部存量数据包括多个未申请贷款的初始客群数据,其中,灰色样本数据包括初始客群数据中过去一年并剔除欺诈客群与黑名单客群,因此,需要将初始客群数据中的灰色样本数据剔除,即获取多个未申请贷款的初始客群数据中的正常样本数据,将多个正常样本数据作为第二数据集,以减少欺诈客群与黑名单客群对获取的初始客群数据。

在本申请的另一个实施例中,如图5所示,样本数据集包括验证样本数据集,方法还包括步骤501~503:

501、获取验证样本数据集。

预先抽样的多个样本企业数据,得到样本数据集后,将多个样本企业数据中一定比例的数据作为验证样本数据,验证样本数据可以设置为4000个,也可以设置为其他数量,比例可以人为设定,这里不做限制。

502、将验证样本数据集作为目标输入进行评分排序,得到排序后的验证排序数据集。

将验证样本数据集输入至已训练完成的等级划分模型中,通过等级划分模型对将验证样本数据集进行评分、计算和排序,实现等级划分模型的验证,得到排序后的验证排序数据集。

503、根据验证样本数据集和验证排序数据集确定初步等级划分阈值。

得到验证排序数据集后,可以根据验证排序数据集的具体划分情况,设定符合验证排序数据集中排序情况的等级划分阈值,并将该等级划分阈值作为初步等级划分阈值。应用过程中,通过初步等级划分阈值来划分等级划分模型输出的待分析企业的总体评分结果,以得到初级规模划分数据。

在本申请的另一个实施例中,如图2与图7所示,为了更好实施本申请实施例中企业规模划分方法,在企业规模划分方法基础之上,本申请实施例中还提供一种企业规模划分系统600,系统600包括:

获取模块601,用于获取多个待分析企业的企业表征数据;

模型划分模块602,用于根据企业表征数据对多个待分析企业进行总体评分排序,得到多个待分析企业的初级规模划分数据;

规则划分模块603,用于对初级规模划分数据进行校正,得到多个待分析企业的规模等级划分结果。

模型划分模块602具体为:

待分析企业的企业表征数据包括多个企业属性;

用于根据预设的评分规则,获取待分析企业的企业属性对应的企业属性分值;

用于将待分析企业的多个企业属性分值进行计算,得到与待分析企业对应的企业属性总分;

用于将多个待分析企业的企业属性总分进行排序,得到多个待分析企业的初级规模划分数据。

系统还包括模糊匹配模块,模糊匹配模块具体为:

初级规模划分数据包括划分正常数据和划分异常数据;

用于获取初级规模划分数据中的划分异常数据;

用于将划分异常数据与预设的企业等级标准数据进行模糊匹配,得到待分析企业的企业等级模糊匹配结果。

规则划分模块603具体为:

用于根据预设的决策树分类规则,对企业等级模糊匹配结果执行决策树,得到数据分类结果;

用于将划分正常数据和数据分类结果作为待分析企业的规模等级划分结果。

系统还包括映射模块,映射模块具体为:

用于获取全量企业工商数据;

用于根据预设的数据映射规则,将等级划分结果与全量企业工商数据进行映射,得到映射后的全量企业等级划分数据。

模型划分模块602具体为:

用于将企业表征数据输入预设的等级划分模型进行总体评分,得到总体评分结果;

用于根据预设的初步等级划分阈值,对总体评分结果进行初级规模划分,得到多个待分析企业的初级规模划分数据。

系统还包括模型训练模块604,模型训练模块604具体为:

用于获取用于进行模型训练的样本数据集,样本数据集包括训练样本数据集;

用于将训练样本数据集作为目标输入进行评分排序,得到排序后的训练排序数据集;

用于根据训练样本数据集和训练排序数据集进行模型训练,得到已训练的等级划分模型。

模型训练模块604还具体为:

用于获取样本数据集的数据因变量,数据因变量包括客群数据;

用于获取样本数据集的数据自变量,数据自变量包括与客群数据对应的衍生数据;

用于将数据因变量和数据自变量作为样本数据集。

模型训练模块604还具体为:

用于获取第一数据集,第一数据集包括多个已申请贷款的样本数据;

用于获取第二数据集,第二数据集包括多个未申请贷款的样本数据;

用于将第一数据集和第二数据集组合后作为数据因变量。

模型训练模块604还具体为:

用于获取多个未申请贷款的初始客群数据,初始客群数据包括正常样本数据和灰色样本数据;

用于获取多个未申请贷款的初始客群数据中的正常样本数据;

用于将多个正常样本数据作为第二数据集。

模型训练模块604还具体为:

用于获取验证样本数据集;

用于将验证样本数据集作为目标输入进行评分排序,得到排序后的验证排序数据集;

根据验证样本数据集和验证排序数据集确定初步等级划分阈值。

根据上述的企业规模划分方法,下面对该企业规模划分方法进行效果验证。

分批次随机抽取样本数据集中的样本企业数据约10次,每次抽取的样本企业数据中包含大型企业数据、中型企业数据、小型企业数据、微型企业数据各100条,将抽取的所有样本企业数据分为多组验证数据,对多个验证数据分别进行人工校验,将参考国家行业标准定义的大中小微四种类型规模的企业作为参考标准,检验结果如表2所示。

表2校验详细比例表

其中,大中小微规模分布情况:通过上述的企业规模划分方法,最终识别出约1.2亿企业(含个体工商户)的规模大小,识别的企业划分分布如表3所示,其中大中型企业占比仅0.9%,小微型企业占比高达99.1%;提出个体工商户之后,大中型企业占比2.2%,小微企业占比97.8%,总体上分布符合国家的企业规模分布特点。企业划分分布如表2所示,校验详细比例如表3所示。

表3企业划分分布表

/>

在本申请的另一个实施例中,如图8所示,本申请还提供一种电子设备700,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:

该电子设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图8中示出的该电子设备结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器701是该该电子设备的控制中心,利用各种接口和线路连接整个该电子设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行该电子设备的各种功能和处理数据,从而对该电子设备进行整体监控。可选的,处理器701可包括一个或多个处理核心;处理器701可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据该电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。

该电子设备还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该该电子设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,该电子设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:

获取多个待分析企业的企业表征数据;

根据企业表征数据对多个待分析企业进行总体评分排序,得到多个待分析企业的初级规模划分数据;

对初级规模划分数据进行校正,得到多个待分析企业的规模等级划分结果。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

在本申请一些实施例中,本申请还提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(R AM,Random AccessMemory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的企业规模划分方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:

获取多个待分析企业的企业表征数据;

根据企业表征数据对多个待分析企业进行总体评分排序,得到多个待分析企业的初级规模划分数据;

对初级规模划分数据进行校正,得到多个待分析企业的规模等级划分结果。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。

以上对本申请实施例所提供的一种企业规模划分方法、系统、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120115923292