掌桥专利:专业的专利平台
掌桥专利
首页

一种企业信息与政策信息的处理方法和装置

文献发布时间:2023-06-19 11:05:16


一种企业信息与政策信息的处理方法和装置

技术领域

本发明涉及数据处理技术领域,特别涉及一种企业信息与政策信息的处理方法和装置。

背景技术

企业在项目申报时要关注相关政策的条件、主题、领域、类别、发布部门、地区、补贴金额等信息,并从中选择满足要求且匹配度较高的政策项目进行申报。日常处理中,对政策信息的获取与筛选工作大多都是经由人工完成的,受人工素质因素影响,常常会出现信息疏漏的现象,由此会导致企业错过最佳项目申报的情况。

发明内容

本发明的目的,就是针对现有技术的缺陷,提供一种企业信息与政策信息的处理方法、装置、电子设备及计算机可读存储介质,通过使用训练得到的政策分类模型对政策信息进行筛选,通过使用训练得到的线性回归模型对企业与政策的匹配度进行估算,由此可以减少人工参与环节,可以提升匹配准确性和操作效率,并且随着模型训练的数据量增加,训练得到的模型的准确度还能得到持续提升。

为实现上述目的,本发明实施例第一方面提供了一种企业信息与政策信息的处理方法,所述方法包括:

获取第一企业信息和第一政策信息;

根据所述第一政策信息和所述第一企业信息,进行企业条件识别处理;

若所述企业条件识别处理成功,则根据所述第一政策信息,进行政策主题划分与政策地区识别处理,生成第一主题数据和第一地区数据;

并对所述第一企业信息,进行企业特征识别处理,生成第一特征数据集合;对所述第一政策信息,进行政策特征识别处理,生成第二特征数据集合;

再使用政策分类模型,对所述第一政策信息,进行政策分类处理,生成第一分类标签集合;所述第一分类标签集合至少包括第一行业领域标签、第一政策类别标签和第一发布部门标签;

接着在预设的补贴企业样本数据库中,统计与所述第一主题数据对应的第一采集企业样本数据的数量,生成第一数量;所述补贴企业样本数据库包括多个所述第一采集企业样本数据;

若所述第一数量超过预设的第一阈值,则根据所述第一特征数据集合、所述第二特征数据集合和所述第一主题数据,使用与主题对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第一匹配度数据;

若所述第一数量未超过所述第一阈值,且所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签不全为空,则根据所述第一特征数据集合、所述第二特征数据集合以及不为空的标签,使用与标签对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第二匹配度数据;

若所述第一数量未超过所述第一阈值,且所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签全为空,则根据所述第一特征数据集合、所述第二特征数据集合和所述第一地区数据,使用与地区对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第三匹配度数据。

优选的,在所述获取第一企业信息和第一政策信息之前,所述方法还包括:

从目标网站采集已完成申报的政策信息生成第一采集政策信息,并采集与所述第一采集政策信息对应的申报企业信息及对该企业的政策补贴信息,生成第一采集企业信息和第一采集补贴信息;

对所述第一采集政策信息,进行政策主题划分处理,生成第一采集政策主题数据;

对所述第一采集政策信息,进行政策地区识别处理,生成第一采集政策地区数据;

对所述第一采集政策信息,进行分类标签标记处理,生成多个第一采集政策分类标签;所述多个第一采集政策分类标签至少包括所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签;

对所述第一采集政策信息,进行政策特征识别处理,生成多个第一采集政策特征数据;

由所述第一采集政策信息、所述第一采集政策主题数据、所述第一采集政策地区数据、所述多个第一采集政策分类标签和所述多个第一采集政策特征数据,组成第一采集政策样本数据;

将所述第一采集政策样本数据,存入预设的政策样本数据库;

对所述第一采集企业信息,进行企业特征识别处理,生成多个第一采集企业特征数据;

对所述第一采集补贴信息,进行数值转换处理,生成第一采集补贴金额数据;

由所述多个第一采集企业特征数据和所述第一采集补贴金额数据,组成所述第一采集企业样本数据;

将所述第一采集企业样本数据,存入所述补贴企业样本数据库;

对所述补贴企业样本数据库中的所述第一采集企业样本数据,与所述政策样本数据库中对应的所述第一采集政策特征数据,建立数据关联关系。

优选的,所述方法还包括:

在使用所述政策分类模型之前,从所述政策样本数据库中,提取所述第一采集政策样本数据,作为所述政策分类模型的训练数据;再从所述第一采集政策样本数据中,提取所述多个第一采集政策特征数据作为模型输入数据,提取所述多个第一采集政策分类标签作为模型输出数据,并按密度聚类法,对所述政策分类模型进行训练;

所述与主题对应的线性回归模型为

所述与标签对应的线性回归模型为

所述与地区对应的线性回归模型为

其中,所述计算所述第一采集企业样本数据对应的第一企业匹配度数据,具体包括:

根据预设的补贴金额最小值、最大值,以及预设的企业匹配度最小值、最大值,以及所述第一采集企业样本数据的所述第一采集补贴金额数据,计算生成所述第一企业匹配度数据,第一企业匹配度数据=企业匹配度最小值+(企业匹配度最大值-企业匹配度最小值)×归一化数据,其中,

优选的,所述根据所述第一政策信息和所述第一企业信息,进行企业条件识别处理,具体包括:

在所述第一政策信息中,对与限定企业条件的相关内容进行识别处理,生成多个第一信息数据组;所述第一信息数据组包括第一信息名称数据和第一信息内容数据;

在所述第一企业信息中,对与每个所述第一信息名称数据对应的企业信息内容进行识别处理,生成对应的第二信息数据组;所述第二信息数据组包括第二信息名称数据和第二信息内容数据;

若每个所述第二信息内容数据,均能与及其对应的所述第一信息内容数据相匹配,则所述企业条件识别处理成功。

优选的,所述根据所述第一特征数据集合、所述第二特征数据集合和所述第一主题数据,使用与主题对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第一匹配度数据,具体包括:

分别从所述第一、第二特征数据集合中提取出指定数据,组成第一数据序列;并选择与所述第一主题数据对应的线性回归模型,作为第一计算模型;

再将所述第一数据序列作为所述第一计算模型的模型输入数据,将预先训练得到的所述第一模型权重参数带入所述第一计算模型进行计算,生成第一临时匹配度数据;

再根据所述第一临时匹配度数据和所述企业匹配度最大值,计算生成所述第一匹配度数据,第一匹配度数据=max(0,min(第一临时匹配度数据,企业匹配度最大值));所述min()为取最小值函数,所述max()为取最大值函数。

优选的,所述根据所述第一特征数据集合、所述第二特征数据集合以及不为空的标签,使用与标签对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第二匹配度数据,具体包括:

若所述第一行业领域标签不为空,则从所述第一、第二特征数据集合中提取出指定数据,组成第二一数据序列;并选择与所述第一行业领域标签对应的线性回归模型,作为第二一计算模型;并将所述第二一数据序列作为所述第二一计算模型的模型输入数据,将预先训练得到的第二一模型权重参数带入所述第二一计算模型进行计算,生成第二一匹配度数据;

若所述第一政策类别标签不为空,则从所述第一、第二特征数据集合中提取出指定数据,组成第二二数据序列;并选择与所述第一政策类别标签对应的线性回归模型,作为第二二计算模型;并将所述第二二数据序列作为所述第二二计算模型的模型输入数据,将预先训练得到的所述第二二模型权重参数带入所述第二二计算模型进行计算,生成第二二匹配度数据;

若所述第一发布部门标签不为空,则从所述第一、第二特征数据集合中提取出指定数据,组成第二三数据序列;并选择与所述第一发布部门标签对应的线性回归模型,作为第二三计算模型;并将所述第二三数据序列作为所述第二三计算模型的模型输入数据,将预先训练得到的所述第二三模型权重参数带入所述第二三计算模型进行计算,生成第二三匹配度数据;

再根据所述第二一匹配度数据、所述第二二匹配度数据和所述第二三匹配度数据,计算生成第二临时匹配度数据,第二临时匹配度数据=W

再根据所述第二临时匹配度数据和所述企业匹配度最大值,计算生成所述第二匹配度数据,第二匹配度数据=max(0,min(第二临时匹配度数据,企业匹配度最大值))。

优选的,所述根据所述第一特征数据集合、所述第二特征数据集合和所述第一地区数据,使用与地区对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第三匹配度数据,具体包括:

分别从所述第一、第二特征数据集合中提取出指定数据,组成第三数据序列;并选择与所述第一地区数据对应的线性回归模型,作为第三计算模型;

再将所述第三数据序列作为所述第三计算模型的模型输入数据,将预先训练得到的所述第三模型权重参数带入所述第三计算模型进行计算,生成第三临时匹配度数据;

再根据所述第三临时匹配度数据和所述企业匹配度最大值,计算生成所述第三匹配度数据,第三匹配度数据=max(0,min(第三临时匹配度数据,企业匹配度最大值))。

本发明实施例第二方面提供了一种企业信息与政策信息的处理装置,包括:

获取模块用于获取第一企业信息和第一政策信息;

条件识别模块用于根据所述第一政策信息和所述第一企业信息,进行企业条件识别处理;

数据处理模块用于当所述企业条件识别处理成功时,根据所述第一政策信息,进行政策主题划分与政策地区识别处理,生成第一主题数据和第一地区数据;并对所述第一企业信息,进行企业特征识别处理,生成第一特征数据集合;对所述第一政策信息,进行政策特征识别处理,生成第二特征数据集合;

政策分类模块用于使用政策分类模型,对所述第一政策信息,进行政策分类处理,生成第一分类标签集合;所述第一分类标签集合至少包括第一行业领域标签、第一政策类别标签和第一发布部门标签;

匹配度计算模块用于在预设的补贴企业样本数据库中,统计与所述第一主题数据对应的第一采集企业样本数据的数量,生成第一数量;所述补贴企业样本数据库包括多个所述第一采集企业样本数据;

所述匹配度计算模块还用于当所述第一数量超过预设的第一阈值时,根据所述第一特征数据集合、所述第二特征数据集合和所述第一主题数据,使用与主题对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第一匹配度数据;

所述匹配度计算模块还用于当所述第一数量未超过所述第一阈值,且所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签不全为空时,根据所述第一特征数据集合、所述第二特征数据集合以及不为空的标签,使用与标签对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第二匹配度数据;

所述匹配度计算模块还用于当所述第一数量未超过所述第一阈值,且所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签全为空时,根据所述第一特征数据集合、所述第二特征数据集合和所述第一地区数据,使用与地区对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第三匹配度数据。

本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;

所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;

所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。

本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法。

本发明实施例提供一种企业信息与政策信息的处理方法、装置、电子设备及计算机可读存储介质,通过使用训练得到的政策分类模型对政策信息进行筛选,通过使用训练得到的线性回归模型对企业与政策的匹配度进行估算,减少了人工参与环节,提升了匹配准确性和操作效率,并且随着模型训练的数据量增加,训练得到的模型的准确度还能得到持续提升。

附图说明

图1为本发明实施例一提供的一种企业信息与政策信息的处理方法示意图;

图2为本发明实施例二提供的一种企业信息与政策信息的处理装置的模块结构图;

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1为本发明实施例一提供的一种企业信息与政策信息的处理方法示意图,如图1所示,本方法主要包括如下步骤:

步骤1,获取第一企业信息和第一政策信息。

此处,第一企业信息为从目标网站获取的公开的申报项目的企业信息,还可为从企业方获取的用于申报项目的企业信息,第一企业信息包含但不限于企业的工商经营数据,生产、研发、制造、管理数据等内容;第一政策信息为从目标网站获取的公开的项目申报政策信息,还可为从政策发布方获取的项目申报政策信息,第一政策信息包含但不限于与申报项目有关的条件、主题、领域、类别、发布部门、时间、地区、补贴金额等内容。

步骤2,根据第一政策信息和第一企业信息,进行企业条件识别处理;

这里,政策中一般会对申报企业的条件进行相关限定,本发明实施例可通过对文字信息进行缺失值处理、数值转换、关键词提取、查询字典等操作,分别从第一政策信息和第一企业信息中提取出关键词作为信息名称数据、提取与关键词对应的内容作为信息内容数据,并根据对政策关键词与关键词对应的内容之间的连接词进行词性判断与文字识别得到条件匹配的判断逻辑,并使用条件匹配的判断逻辑对从第一政策信息和第一企业信息中提取出的信息内容数据进行匹配比对;若所有信息内容数据的比对结果均满足要求,则企业条件识别处理成功,否则为企业条件识别处理失败;若企业条件识别处理成功,则可以继续执行后续步骤,若企业条件识别处理失败,则本发明实施例会终止执行后续步骤并将类似企业信息不满足政策要求的提示信息作为匹配结果进行处理结果返回;

具体包括:步骤21,在第一政策信息中,对与限定企业条件的相关内容进行识别处理,生成多个第一信息数据组;第一信息数据组包括第一信息名称数据和第一信息内容数据;

这里,上述与限定企业条件的相关内容包括但不限于企业的经营时限、注册资本、经营资金状态、经营规模、经营状态、经营领域、经营资质、经营信用、创新成果等方面;

例如,第一政策信息中明确要求“企业经营年限超过三年”、“企业注册资本超过5000万”,则对与限定企业条件的相关内容进行识别处理之后,得到2个第一信息数据组:第1个第一信息数据组(第1个第一信息名称数据为经营时限,第1个第一信息内容数据为3年),第2个第一信息数据组(第2个第一信息名称数据为注册资本,第2个第一信息内容数据为5000万);

步骤22,在第一企业信息中,对与每个第一信息名称数据对应的企业信息内容进行识别处理,生成对应的第二信息数据组;第二信息数据组包括第二信息名称数据和第二信息内容数据;

例如,当前年份为2020年,第一企业信息中给出“企业注册年份为2010年”、“企业注册资本为6000万”,则在第一企业信息中对与每个第一信息名称数据对应的企业信息内容进行识别处理之后,得到对应的2个第二信息数据组:第1个第二信息数据组(第1个第二信息名称数据与第1个第一信息名称数据相同均为经营时限,第1个第二信息内容数据为2020-2010=10年),第2个第二信息数据组(第2个第二信息名称数据与第2个第一信息名称数据相同均为注册资本,第2个第二信息内容数据为6000万);

步骤23,若每个第二信息内容数据,均能与及其对应的第一信息内容数据相匹配,则企业条件识别处理成功。

例如,第一政策信息中明确要求“企业经营年限超过三年”、“企业注册资本超过5000万”,其中连接词“超过”被识别为大于关系,所以这里对条件匹配的判断逻辑,是要求企业对应数据应大于政策数据;又因为第1个第二信息内容数据为10年,大于对应的具体为3年的第1个第一信息内容数据,且第2个第二信息内容数据为6000万,大于对应的具体为5000万的第2个第一信息内容数据,所以最终得到的识别结果是企业满足政策条件,也即是企业条件识别处理成功。

步骤3,若企业条件识别处理成功,则根据第一政策信息,进行政策主题划分与政策地区识别处理,生成第一主题数据和第一地区数据。

这里,在进行政策主题划分处理时,本发明实施例会通过对文字信息进行缺失值处理、数值转换、关键词提取、查询字典等操作,从第一政策信息中提取出与政策标题相关的内容,并根据预先设定的标题划分逻辑,对第一主题数据进行设置,第一主题数据可为标题文字信息、也可为经过数字归类后的标识数据;

例如,第一政策信息的标题为“年度高新企业补贴申报项目”,若标题划分逻辑为文字划分逻辑,则第一主题数据为“年度高新企业补贴申报项目”;若标题划分逻辑为数字归类标识逻辑,则查询预设的反映标题文字信息与标题归类标识对应关系的对应关系表,得到“年度高新企业补贴申报项目”对应的标题归类标识为1,则第一主题数据为1;

这里,在进行政策地区识别处理时,本发明实施例会通过对文字信息进行缺失值处理、数值转换、关键词提取、查询字典等操作,从第一政策信息中提取出与政策地区相关的内容,并根据预先设定的地区识别逻辑,对第一地区数据进行设置,第一地区数据可为地区文字信息、也可为经过数字归类后的标识数据;

例如,第一政策信息的内容中包含“北京地区年度高新企业补贴申报项目”,若地区识别逻辑为文字识别逻辑,则第一地区数据为“北京”;若地区识别逻辑为数字归类标识逻辑,则查询预设的反映地区文字信息与地区归类标识对应关系的对应关系表,得到“北京”对应的地区归类标识为2,则第一地区数据为2。

步骤4,对第一企业信息,进行企业特征识别处理,生成第一特征数据集合;对第一政策信息,进行政策特征识别处理,生成第二特征数据集合。

这里,在进行企业特征识别处理时,主要根据预定的企业特征数据识别规则,通过对文字信息进行缺失值处理、数值转换、关键词及关键词对应的内容提取等操作,从第一企业信息中,提取出一系列特征数据组成第一特征数据集合;

例如,第一特征数据集合可包括:企业基本特征数据(诸如注册地址、注册资金、成立日期等),企业人力特征数据(诸如公司人数等),企业财务特征数据(诸如是否有贷款、上年营业收入、上年净利润、上年纳税总金额、上年研发费用、上年净资产、上年总资产、上年负债总额等),企业知识产权特征数据(诸如知识产权数量等),企业经营特征数据(诸如经营状况、行政许可、上年税务评级、资质证书等),企业风险特征数据(诸如经营异常、行政处罚、严重违法、环保处罚、法律诉讼、失信人记录等),创新载体特征数据(诸如实验室、创研中心等),科技奖励特征数据(诸如工业设计奖、科学技术奖、专利奖、科技进步奖、科技专项奖、重点项目等)等;

这里,在进行政策特征识别处理时,主要根据预定的政策特征数据识别规则,通过对文字信息进行缺失值处理、数值转换、关键词及关键词对应的内容提取等操作,从第一政策信息中,提取出一系列特征数据组成第一特征数据集合;

例如,第二特征数据集合可包括:政策基本特征数据(诸如受理部门、发布日期、开始日期、截止日期、部委类型、行业领域、最高补贴金额等),政策对企业基本要求的特征数据,政策对企业人力要求的特征数据,政策对企业财务要求的特征数据,政策对企业知识产权要求的特征数据,政策对企业经营要求的特征数据,政策对企业风险要求的特征数据,政策对企业创新载体要求的特征数据,政策对企业科技奖励要求的特征数据等。

步骤5,使用政策分类模型,对第一政策信息,进行政策分类处理,生成第一分类标签集合;

其中,第一分类标签集合至少包括第一行业领域标签、第一政策类别标签和第一发布部门标签。

这里,政策分类模型为经过大数据训练的分类模型,在进行政策分类处理时,本发明实施例首先通过对文字信息进行缺失值处理、数值转换、关键词及关键词对应的内容提取等操作,从第一政策信息中,提取出一系列特征数据组成特征数据序列,并将特征数据序列输入到政策分类模型中进行运算,从而得到输出的标签序列,作为第一分类标签集合;

该标签序列中预先固定了多个标签数据,每个标签数据对应一个实际的标签类型,例如行业领域标签、政策类别标签、发布部门标签等;其中,每个标签类型还可以通过调整模型参数进行细化,例如,行业领域标签还可细化为多个具体行业领域:诸如按照国家高新科技、高精尖等标准要求发布的行业领域,政策类别标签还可细化为多个具体政策类别:诸如知识产权类别、创新载体类别、资质认定类别、人才奖励类别、税费减免类别、抗疫补贴类别等,发布部门标签还可细化为多个具体发布部门:诸如科技创新局、知识产权局等;

政策分类模型完成预算后,会在该标签序列中对各个预先设定的标签数据进行赋值,该赋值操作根据政策分类模型的预先设定的计算模式进行处理,若设定的计算模式为有效/无效标签标记逻辑,则政策分类模型会在该标签序列中对识别出的标签类型对应的标签数据进行有效标记、反之进行无效标记;若设定的计算模式为分类评分逻辑,则政策分类模型会在该标签序列中对每个标签数据对应的标签类型的识别结果进行评分,并将得分写入标签数据;若设定的计算模式为分类概率逻辑,则政策分类模型会在该标签序列中对每个标签数据对应的标签类型的识别结果进行概率计算,并将概率值写入标签数据;

在将得到的标签序列作为第一分类标签集合时,若政策分类模型设定的计算模式为有效/无效标签标记逻辑,可将其中标记为无效的分类标签设为空;若设定的计算模式为分类评分逻辑,可将其中评分低于有效标签评分阈值的分类标签设为空;若设定的计算模式为分类概率逻辑,可将其中概率低于有效标签概率阈值的分类标签设为空。

在得到第一分类标签集合之后,本发明实施例将会通过后续步骤根据企业特征数据也就是第一特征数据集合、和政策特征数据也就是第二特征数据集合,根据政策的实际情况选择对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,得到对应的匹配度数据做为匹配结果进行处理结果返回;

对上述政策的实际情况,具体的,在本发明实施例包括三种情况:情况1,对于当前政策的主题,本地已经预先收集到该主题补贴政策对应的历年补贴企业信息,并完成了与该主题对应的线性回归模型的创建和训练;情况2,对于当前政策,本地已经预先收集到与该政策相同行业领域标签、和或相同补贴政策类别标签、和或相同发布部门标签的同类政策对应的历年补贴企业信息,并完成了与相同标签对应的线性回归模型的创建和训练;情况3,对于当前政策,本地已经预先收集到与该政策相同地区的其他补贴政策对应的历年补贴企业信息,并完成了与相同地区对应的线性回归模型的创建和训练;

上述三种情况所对应的线性回归模型计算结果是有差异的,原理上,使用与主题对应的线性回归模型计算的匹配度的可靠性最高,使用与地区对应的线性回归模型计算的匹配度的可靠性最低,为了兼顾匹配度计算的高可靠性与灵活性,本发明实施例在后续步骤中定义了三种模型的使用顺序:

若本地已经预先收集到与政策主题对应的历年补贴企业信息,则使用与主题对应的线性回归模型进行匹配度计算;

若本地未能预先收集到与政策主题对应的历年补贴企业信息,但已经预先收集到与该政策相同行业领域标签、和或相同补贴政策类别标签、和或相同发布部门标签的同类政策对应的历年补贴企业信息,则使用与标签对应的线性回归模型进行匹配度计算;

若本地即未能预先收集到与政策主题对应的历年补贴企业信息,也未能预先收集到与该政策相同行业领域标签、和或相同补贴政策类别标签、和或相同发布部门标签的同类政策对应的历年补贴企业信息,但已经预先收集到与该政策相同地区的其他补贴政策对应的历年补贴企业信息,则使用与地区对应的线性回归模型进行匹配度计算。

步骤6,在预设的补贴企业样本数据库中,统计与第一主题数据对应的第一采集企业样本数据的数量,生成第一数量;

其中,补贴企业样本数据库包括多个第一采集企业样本数据。

这里,补贴企业样本数据库为预设的数据库,其中存储了多个第一采集企业样本数据,每个第一采集企业样本数据都是对从目标网站或目标信息源处采集的企业数据进行特征提取、数值转化之后得到的样本数据,补贴企业样本数据库用于对历年相关政策补贴的企业信息进行收集,并为本发明实施例用于进行企业信息与政策信息匹配度计算的线性回归模型,提供模型训练的训练数据。

这里,第一数量将会被后续步骤用于判断前文中提及的本地是否已经预先收集到与政策主题对应的历年补贴企业信息,若第一数量超过预定值,说明本地已经预先收集到与政策主题对应的历年补贴企业信息。

步骤7,若第一数量超过预设的第一阈值,则根据第一特征数据集合、第二特征数据集合和第一主题数据,使用与主题对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第一匹配度数据;

这里,第一阈值为预先设定的数值,常见的,第一阈值会被设定为一个非0或空的大数,用以表明本地已经预先收集到与政策主题对应的历年补贴企业信息,并且数量足够完成与主题对应的线性回归模型的模型训练,第一数量超过第一阈值说明线性回归模型已经可以使用,根据前文所述,本发明实施例会优先选用与主题对应的线性回归模型进行匹配度计算;特殊情况下第一阈值可为0或空,仅说明本地已经预先收集到与政策主题对应的历年补贴企业信息;

具体包括:步骤71,分别从第一、第二特征数据集合中提取出指定数据,组成第一数据序列;并选择与第一主题数据对应的线性回归模型,作为第一计算模型;

这里,用于计算的与主题对应的线性回归模型具体为与第一主题数据对应的线性回归模型也就是第一计算模型;第一数据序列则是根据第一计算模型的输入数据要求,由从第一、第二特征数据集合中提取出的特征数据组成的数据序列;

步骤72,再将第一数据序列作为第一计算模型的模型输入数据,并将预先训练得到的第一模型权重参数带入第一计算模型进行计算,生成第一临时匹配度数据;

这里,第一计算模型具体为

步骤73,再根据第一临时匹配度数据和企业匹配度最大值,计算生成第一匹配度数据,第一匹配度数据=max(0,min(第一临时匹配度数据,企业匹配度最大值));

其中,企业匹配度最大值为预设值,min()为取最小值函数,max()为取最大值函数。

这里,企业匹配度最大值为预先设定的数值,本步骤是对计算出的第一临时匹配度数据,进行异常数据排查,将超出0-企业匹配度最大值范围的数值视作为异常数据:若小于0则强制将第一匹配度数据的值修改为0,若大于企业匹配度最大值则强制将第一匹配度数据的值修改为企业匹配度最大值;若在0-企业匹配度最大值范围内,则第一匹配度数据即为第一临时匹配度数据。

步骤8,若第一数量未超过第一阈值,且第一行业领域标签、第一政策类别标签和第一发布部门标签不全为空,则根据第一特征数据集合、第二特征数据集合以及不为空的标签,使用与标签对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第二匹配度数据;

这里,第一阈值未超过第一阈值,表明本地未能预先收集到与政策主题对应的历年补贴企业信息,第一行业领域标签、第一政策类别标签和第一发布部门标签不全为空,表明本地已经预先收集到与该政策相同行业领域标签、和或相同补贴政策类别标签、和或相同发布部门标签的同类政策对应的历年补贴企业信息,根据前文所述,本发明实施例会优先选用与标签对应的线性回归模型进行匹配度计算,需要说明的是,在本步骤中,需要采用多个标签对应的线性回归模型进行计算,并对得到的多个匹配度结果进行加权处理后,才可得到最终的匹配度数据;

具体包括:步骤81,若第一行业领域标签不为空,则从第一、第二特征数据集合中提取出指定数据,组成第二一数据序列;并选择与第一行业领域标签对应的线性回归模型,作为第二一计算模型;并将第二一数据序列作为第二一计算模型的模型输入数据,将预先训练得到的第二一模型权重参数带入第二一计算模型进行计算,生成第二一匹配度数据;

这里,用于计算的与标签对应的线性回归模型具体为与第一行业领域标签对应的线性回归模型也就是第二一计算模型;第二一数据序列则是根据第二一计算模型的输入数据要求,由从第一、第二特征数据集合中提取出的特征数据组成的数据序列;

这里,第二一计算模型具体为

步骤82,若第一政策类别标签不为空,则从第一、第二特征数据集合中提取出指定数据,组成第二二数据序列;并选择与第一政策类别标签对应的线性回归模型,作为第二二计算模型;并将第二二数据序列作为第二二计算模型的模型输入数据,将预先训练得到的第二二模型权重参数带入第二二计算模型进行计算,生成第二二匹配度数据;

这里,用于计算的与标签对应的线性回归模型具体为与第一政策类别标签对应的线性回归模型也就是第二二计算模型;第二二数据序列则是根据第二二计算模型的输入数据要求,由从第一、第二特征数据集合中提取出的特征数据组成的数据序列;

这里,第二二计算模型具体为

步骤83,若第一发布部门标签不为空,则从第一、第二特征数据集合中提取出指定数据,组成第二三数据序列;并选择与第一发布部门标签对应的线性回归模型,作为第二三计算模型;并将第二三数据序列作为第二三计算模型的模型输入数据,将预先训练得到的第二三模型权重参数带入第二三计算模型进行计算,生成第二三匹配度数据;

这里,用于计算的与标签对应的线性回归模型具体为与第一发布部门标签对应的线性回归模型也就是第二三计算模型;第二三数据序列则是根据第二三计算模型的输入数据要求,由从第一、第二特征数据集合中提取出的特征数据组成的数据序列;

这里,第二三计算模型具体为

步骤84,再根据第二一匹配度数据、第二二匹配度数据和第二三匹配度数据,计算生成第二临时匹配度数据,第二临时匹配度数据=W

这里,对多个标签得到的匹配进行加权处理得到第二临时匹配度数据,其目的是通过加权计算对计算结果进行收敛,提高最终估算结果的可靠性;

这里,本发明实施例中的3个加权权重参数W

步骤85,再根据第二临时匹配度数据和企业匹配度最大值,计算生成第二匹配度数据,第二匹配度数据=max(0,min(第二临时匹配度数据,企业匹配度最大值))。

这里,是对计算出的第二临时匹配度数据,进行异常数据排查,将超出0-企业匹配度最大值范围的数值视作为异常数据:若小于0则强制将第二匹配度数据的值修改为0,若大于企业匹配度最大值则强制将第二匹配度数据的值修改为企业匹配度最大值;若在0-企业匹配度最大值范围内,则第二匹配度数据即为第二临时匹配度数据。

步骤9,若第一数量未超过第一阈值,且第一行业领域标签、第一政策类别标签和第一发布部门标签全为空,则根据第一特征数据集合、第二特征数据集合和第一地区数据,使用与地区对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第三匹配度数据;

这里,第一阈值未超过第一阈值,表明本地未能预先收集到与政策主题对应的历年补贴企业信息,第一行业领域标签、第一政策类别标签和第一发布部门标签全为空,表明本地未能预先收集到与该政策相同行业领域标签、和或相同补贴政策类别标签、和或相同发布部门标签的同类政策对应的历年补贴企业信息,根据前文所述,本发明实施例会优先选用与地区对应的线性回归模型进行匹配度计算;

具体包括:步骤91,分别从第一、第二特征数据集合中提取出指定数据,组成第三数据序列;并选择与第一地区数据对应的线性回归模型,作为第三计算模型;

这里,用于计算的与地区对应的线性回归模型具体为与第一地区数据对应的线性回归模型也就是第三计算模型;第三数据序列则是根据第三计算模型的输入数据要求,由从第一、第二特征数据集合中提取出的特征数据组成的数据序列;

步骤92,将第三数据序列作为第三计算模型的模型输入数据,将预先训练得到的第三模型权重参数带入第三计算模型进行计算,生成第三临时匹配度数据;

这里,第三计算模型具体为

步骤93,根据第三临时匹配度数据和企业匹配度最大值,计算生成第三匹配度数据,第三匹配度数据=max(0,min(第三临时匹配度数据,企业匹配度最大值))。

这里,是对计算出的第三临时匹配度数据,进行异常数据排查,将超出0-企业匹配度最大值范围的数值视作为异常数据:若小于0则强制将第三匹配度数据的值修改为0,若大于企业匹配度最大值则强制将第三匹配度数据的值修改为企业匹配度最大值;若在0-企业匹配度最大值范围内,则第三匹配度数据即为第三临时匹配度数据。

最后,本发明实施例在得到第一、第二、或第三匹配度数据之后,将该数据做为当前企业信息与政策信息的处理结果进行处理结果返回。

本发明方法的上述说明中,提到了四类模型(政策分类模型、与主题对应的线性回归模型、与标签对应的线性回归模型、与地区对应的线性回归模型)以及四类模型的训练,需要说明的是,本发明方法不仅支持对这四类模型的应用处理,还支持对这四类模型的训练处理,下文将就本发明方法对四类模型的训练处理进行说明。

在进行模型训练说明之前,首先对模型训练所需的训练数据的获取与存储处理进行说明。本发明方法所用的训练样本数据主要来自于两个数据库:政策样本数据库和补贴企业样本数据库;政策样本数据库和补贴企业样本数据库的样本数据采集与处理步骤如下:

步骤101,从目标网站采集已完成申报的政策信息生成第一采集政策信息,并采集与第一采集政策信息对应的申报企业信息及对该企业的政策补贴信息,生成第一采集企业信息和第一采集补贴信息;

步骤102,对政策样本数据库的样本数据进行处理,

先对第一采集政策信息,进行政策主题划分处理,生成第一采集政策主题数据;对第一采集政策信息,进行政策地区识别处理,生成第一采集政策地区数据;对第一采集政策信息,进行分类标签标记处理,生成多个第一采集政策分类标签;多个第一采集政策分类标签至少包括第一行业领域标签、第一政策类别标签和第一发布部门标签;对第一采集政策信息,进行政策特征识别处理,生成多个第一采集政策特征数据;

再由第一采集政策信息、第一采集政策主题数据、第一采集政策地区数据、多个第一采集政策分类标签和多个第一采集政策特征数据,组成第一采集政策样本数据;

再将第一采集政策样本数据,存入预设的政策样本数据库;

步骤103,对补贴企业样本数据库的样本数据进行处理,

先对第一采集企业信息,进行企业特征识别处理,生成多个第一采集企业特征数据;对第一采集补贴信息,进行数值转换处理,生成第一采集补贴金额数据;

再由多个第一采集企业特征数据和第一采集补贴金额数据,组成第一采集企业样本数据;

再将第一采集企业样本数据,存入补贴企业样本数据库;

步骤104,对补贴企业样本数据库中的第一采集企业样本数据,与政策样本数据库中对应的第一采集政策特征数据,建立数据关联关系。

当政策样本数据库和补贴企业样本数据库中收集的样本数据数量足够进行模型训练之后,本发明方法会从中提取样本数据进行模型训练处理,四类模型训练处理步骤如下:

第一类模型:政策分类模型的训练

在使用政策分类模型之前,从政策样本数据库中,提取第一采集政策样本数据,作为政策分类模型的训练数据;再从第一采集政策样本数据中,提取多个第一采集政策特征数据作为模型输入数据,提取多个第一采集政策分类标签作为模型输出数据,并按密度聚类法,对政策分类模型进行训练。

第二类模型:与主题对应的线性回归模型的训练

与主题对应的线性回归模型为

其中,计算第一采集企业样本数据对应的第一企业匹配度数据,具体包括:

根据预设的补贴金额最小值、最大值,以及预设的企业匹配度最小值、最大值,以及第一采集企业样本数据的第一采集补贴金额数据,计算生成第一企业匹配度数据,第一企业匹配度数据=企业匹配度最小值+(企业匹配度最大值-企业匹配度最小值)×归一化数据,其中,

第三类模型:与标签对应的线性回归模型的训练

与标签对应的线性回归模型为

其中,第一企业匹配度数据的计算方式和与主题对应的线性回归模型的训练中的计算方式一致。

第四类模型:与地区对应的线性回归模型的训练

与地区对应的线性回归模型为

其中,第一企业匹配度数据的计算方式和与主题对应的线性回归模型的训练中的计算方式一致。

图2为本发明实施例二提供的一种企业信息与政策信息的处理装置的模块结构图,该装置可以为实现本发明实施例方法的终端设备或者服务器,也可以为与上述终端设备或者服务器连接的实现本发明实施例方法的装置,例如该装置可以是上述终端设备或者服务器的装置或芯片系统。如图2所示,该装置包括:获取模块201、条件识别模块202、数据处理模块203、政策分类模块204和匹配度计算模块205。

获取模块201用于获取第一企业信息和第一政策信息。

条件识别模块202用于根据第一政策信息和第一企业信息,进行企业条件识别处理。

数据处理模块203用于当企业条件识别处理成功时,根据第一政策信息,进行政策主题划分与政策地区识别处理,生成第一主题数据和第一地区数据;并对第一企业信息,进行企业特征识别处理,生成第一特征数据集合;对第一政策信息,进行政策特征识别处理,生成第二特征数据集合。

政策分类模块204用于使用政策分类模型,对第一政策信息,进行政策分类处理,生成第一分类标签集合;第一分类标签集合至少包括第一行业领域标签、第一政策类别标签和第一发布部门标签。

匹配度计算模块205用于在预设的补贴企业样本数据库中,统计与第一主题数据对应的第一采集企业样本数据的数量,生成第一数量;补贴企业样本数据库包括多个第一采集企业样本数据。

匹配度计算模块205还用于当第一数量超过预设的第一阈值时,根据第一特征数据集合、第二特征数据集合和第一主题数据,使用与主题对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第一匹配度数据。

匹配度计算模块205还用于当第一数量未超过第一阈值,且第一行业领域标签、第一政策类别标签和第一发布部门标签不全为空时,根据第一特征数据集合、第二特征数据集合以及不为空的标签,使用与标签对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第二匹配度数据。

匹配度计算模块205还用于当第一数量未超过第一阈值,且第一行业领域标签、第一政策类别标签和第一发布部门标签全为空时,根据第一特征数据集合、第二特征数据集合和第一地区数据,使用与地区对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第三匹配度数据。

本发明实施例提供的一种企业信息与政策信息的处理装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。

需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本发明实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路(Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示,该电子设备可以包括:处理器31(例如CPU)、存储器32、收发器33;收发器33耦合至处理器31,处理器31控制收发器33的收发动作。存储器32中可以存储各种指令,以用于完成各种处理功能以及实现本发明上述实施例中提供的方法和处理过程。优选的,本发明实施例涉及的电子设备还包括:电源34、系统总线35以及通信端口36。系统总线35用于实现元件之间的通信连接。上述通信端口36用于电子设备与其他外设之间进行连接通信。

在图3中提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。

上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是,本发明实施例还提供一种计算机可读存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。

本发明实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中提供的方法和处理过程。

本发明实施例提供一种企业信息与政策信息的处理方法、装置、电子设备及计算机可读存储介质,通过使用训练得到的政策分类模型对政策信息进行筛选,通过使用训练得到的线性回归模型对企业与政策的匹配度进行估算,减少了人工参与环节,提升了匹配准确性和操作效率,并且随着模型训练的数据量增加,训练得到的模型的准确度还能得到持续提升。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种企业信息与政策信息的处理方法和装置
  • 一种企业信息的处理方法及装置
技术分类

06120112793073