掌桥专利:专业的专利平台
掌桥专利
首页

一种企业信息综合分析处理方法

文献发布时间:2023-06-19 18:37:28



技术领域

本发明涉及数据处理技术领域,具体的,涉及一种企业信息综合分析处理方法。

背景技术

企业在项目申报时要关注相关政策的条件、主题、领域、类别、发布部门、地区、补贴金额等信息,并从中选择满足要求且匹配度较高的政策项目进行申报。日常处理中,对政策信息的获取与筛选工作大多都是经由人工完成的,受人工素质因素影响,常常会出现信息疏漏的现象,由此会导致企业错过最佳项目申报的情况。

发明内容

为了解决上述技术问题,本发明提供一种企业信息综合分析处理方法,通过使用训练得到的政策分类模型对政策信息进行筛选,通过使用训练得到的线性回归模型对企业与政策的匹配度进行估算,可以减少人工参与环节,提升匹配准确性和操作效率。

本发明提供了一种企业信息综合分析处理方法,包括以下步骤:

获取第一企业信息和第一政策信息;

根据所述第一政策信息和所述第一企业信息,进行企业条件识别处理;

若所述企业条件识别处理成功,则根据所述第一政策信息,进行政策主题划分与政策地区识别处理,生成第一主题数据和第一地区数据;

并对所述第一企业信息,进行企业特征识别处理,生成第一特征数据集合;对所述第一政策信息,进行政策特征识别处理,生成第二特征数据集合;

再使用政策分类模型,对所述第一政策信息,进行政策分类处理,生成第一分类标签集合;所述第一分类标签集合至少包括第一行业领域标签、第一政策类别标签和第一发布部门标签;

接着在预设的补贴企业样本数据库中,统计与所述第一主题数据对应的第一采集企业样本数据的数量,生成第一数量;所述补贴企业样本数据库包括多个所述第一采集企业样本数据;

若所述第一数量超过预设的第一阈值,则根据所述第一特征数据集合、所述第二特征数据集合和所述第一主题数据,使用与主题对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第一匹配度数据;

若所述第一数量未超过所述第一阈值,且所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签不全为空,则根据所述第一特征数据集合、所述第二特征数据集合以及不为空的标签,使用与标签对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第二匹配度数据;

若所述第一数量未超过所述第一阈值,且所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签全为空,则根据所述第一特征数据集合、所述第二特征数据集合和所述第一地区数据,使用与地区对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第三匹配度数据。

在本发明提供的企业信息综合分析处理方法的一种较佳实施例中,在所述获取第一企业信息和第一政策信息之前,所述方法还包括:

从目标网站采集已完成申报的政策信息生成第一采集政策信息,并采集与所述第一采集政策信息对应的申报企业信息及对该企业的政策补贴信息,生成第一采集企业信息和第一采集补贴信息;

对所述第一采集政策信息,进行政策主题划分处理,生成第一采集政策主题数据;

对所述第一采集政策信息,进行政策地区识别处理,生成第一采集政策地区数据;

对所述第一采集政策信息,进行分类标签标记处理,生成多个第一采集政策分类标签;所述多个第一采集政策分类标签至少包括所述第一行业领域标签、所述第一政策类别标签和所述第一发布部门标签;

对所述第一采集政策信息,进行政策特征识别处理,生成多个第一采集政策特征数据;

由所述第一采集政策信息、所述第一采集政策主题数据、所述第一采集政策地区数据、所述多个第一采集政策分类标签和所述多个第一采集政策特征数据,组成第一采集政策样本数据;

将所述第一采集政策样本数据,存入预设的政策样本数据库;

对所述第一采集企业信息,进行企业特征识别处理,生成多个第一采集企业特征数据;

对所述第一采集补贴信息,进行数值转换处理,生成第一采集补贴金额数据;

由所述多个第一采集企业特征数据和所述第一采集补贴金额数据,组成所述第一采集企业样本数据;

将所述第一采集企业样本数据,存入所述补贴企业样本数据库;

对所述补贴企业样本数据库中的所述第一采集企业样本数据,与所述政策样本数据库中对应的所述第一采集政策特征数据,建立数据关联关系。

相较于现有技术,本发明提供的企业信息综合分析处理方法具有以下有益效果:通过使用训练得到的政策分类模型对政策信息进行筛选,通过使用训练得到的线性回归模型对企业与政策的匹配度进行估算,可以减少人工参与环节,提升匹配准确性和操作效率,并且随着模型训练的数据量增加,训练得到的模型的准确度还能得到持续提升。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明提供一种企业信息综合分析处理方法,包括以下步骤:步骤1,获取第一企业信息和第一政策信息。

此处,第一企业信息为从目标网站获取的公开的申报项目的企业信息,还可为从企业方获取的用于申报项目的企业信息,第一企业信息包含但不限于企业的工商经营数据,生产、研发、制造、管理数据等内容;第一政策信息为从目标网站获取的公开的项目申报政策信息,还可为从政策发布方获取的项目申报政策信息,第一政策信息包含但不限于与申报项目有关的条件、主题、领域、类别、发布部门、时间、地区、补贴金额等内容。

步骤2,根据第一政策信息和第一企业信息,进行企业条件识别处理;

这里,政策中一般会对申报企业的条件进行相关限定,本发明实施例可通过对文字信息进行缺失值处理、数值转换、关键词提取、查询字典等操作,分别从第一政策信息和第一企业信息中提取出关键词作为信息名称数据、提取与关键词对应的内容作为信息内容数据,并根据对政策关键词与关键词对应的内容之间的连接词进行词性判断与文字识别得到条件匹配的判断逻辑,并使用条件匹配的判断逻辑对从第一政策信息和第一企业信息中提取出的信息内容数据进行匹配比对;若所有信息内容数据的比对结果均满足要求,则企业条件识别处理成功,否则为企业条件识别处理失败;若企业条件识别处理成功,则可以继续执行后续步骤,若企业条件识别处理失败,则本发明实施例会终止执行后续步骤并将类似企业信息不满足政策要求的提示信息作为匹配结果进行处理结果返回;

具体包括:

步骤21,在第一政策信息中,对与限定企业条件的相关内容进行识别处理,生成多个第一信息数据组;第一信息数据组包括第一信息名称数据和第一信息内容数据;

这里,上述与限定企业条件的相关内容包括但不限于企业的经营时限、注册资本、经营资金状态、经营规模、经营状态、经营领域、经营资质、经营信用、创新成果等方面;

例如,第一政策信息中明确要求“企业经营年限超过三年”、“企业注册资本超过5000万”,则对与限定企业条件的相关内容进行识别处理之后,得到2个第一信息数据组:第1个第一信息数据组(第1个第一信息名称数据为经营时限,第1个第一信息内容数据为3年),第2个第一信息数据组(第2个第一信息名称数据为注册资本,第2个第一信息内容数据为5000万);

步骤22,在第一企业信息中,对与每个第一信息名称数据对应的企业信息内容进行识别处理,生成对应的第二信息数据组;第二信息数据组包括第二信息名称数据和第二信息内容数据;

例如,当前年份为2020年,第一企业信息中给出“企业注册年份为2010年”、“企业注册资本为6000万”,则在第一企业信息中对与每个第一信息名称数据对应的企业信息内容进行识别处理之后,得到对应的2个第二信息数据组:第1个第二信息数据组(第1个第二信息名称数据与第1个第一信息名称数据相同均为经营时限,第1个第二信息内容数据为2020-2010=10年),第2个第二信息数据组(第2个第二信息名称数据与第2个第一信息名称数据相同均为注册资本,第2个第二信息内容数据为6000万);

步骤23,若每个第二信息内容数据,均能与及其对应的第一信息内容数据相匹配,则企业条件识别处理成功。

例如,第一政策信息中明确要求“企业经营年限超过三年”、“企业注册资本超过5000万”,其中连接词“超过”被识别为大于关系,所以这里对条件匹配的判断逻辑,是要求企业对应数据应大于政策数据;又因为第1个第二信息内容数据为10年,大于对应的具体为3年的第1个第一信息内容数据,且第2个第二信息内容数据为6000万,大于对应的具体为5000万的第2个第一信息内容数据,所以最终得到的识别结果是企业满足政策条件,也即是企业条件识别处理成功。

步骤3,若企业条件识别处理成功,则根据第一政策信息,进行政策主题划分与政策地区识别处理,生成第一主题数据和第一地区数据。

这里,在进行政策主题划分处理时,本发明实施例会通过对文字信息进行缺失值处理、数值转换、关键词提取、查询字典等操作,从第一政策信息中提取出与政策标题相关的内容,并根据预先设定的标题划分逻辑,对第一主题数据进行设置,第一主题数据可为标题文字信息、也可为经过数字归类后的标识数据;

例如,第一政策信息的标题为“年度高新企业补贴申报项目”,若标题划分逻辑为文字划分逻辑,则第一主题数据为“年度高新企业补贴申报项目”;若标题划分逻辑为数字归类标识逻辑,则查询预设的反映标题文字信息与标题归类标识对应关系的对应关系表,得到“年度高新企业补贴申报项目”对应的标题归类标识为1,则第一主题数据为1;

这里,在进行政策地区识别处理时,本发明实施例会通过对文字信息进行缺失值处理、数值转换、关键词提取、查询字典等操作,从第一政策信息中提取出与政策地区相关的内容,并根据预先设定的地区识别逻辑,对第一地区数据进行设置,第一地区数据可为地区文字信息、也可为经过数字归类后的标识数据;

例如,第一政策信息的内容中包含“北京地区年度高新企业补贴申报项目”,若地区识别逻辑为文字识别逻辑,则第一地区数据为“北京”;若地区识别逻辑为数字归类标识逻辑,则查询预设的反映地区文字信息与地区归类标识对应关系的对应关系表,得到“北京”对应的地区归类标识为2,则第一地区数据为2。

步骤4,对第一企业信息,进行企业特征识别处理,生成第一特征数据集合;对第一政策信息,进行政策特征识别处理,生成第二特征数据集合。

这里,在进行企业特征识别处理时,主要根据预定的企业特征数据识别规则,通过对文字信息进行缺失值处理、数值转换、关键词及关键词对应的内容提取等操作,从第一企业信息中,提取出一系列特征数据组成第一特征数据集合;

例如,第一特征数据集合可包括:企业基本特征数据(诸如注册地址、注册资金、成立日期等),企业人力特征数据(诸如公司人数等),企业财务特征数据(诸如是否有贷款、上年营业收入、上年净利润、上年纳税总金额、上年研发费用、上年净资产、上年总资产、上年负债总额等),企业知识产权特征数据(诸如知识产权数量等),企业经营特征数据(诸如经营状况、行政许可、上年税务评级、资质证书等),企业风险特征数据(诸如经营异常、行政处罚、严重违法、环保处罚、法律诉讼、失信人记录等),创新载体特征数据(诸如实验室、创研中心等),科技奖励特征数据(诸如工业设计奖、科学技术奖、专利奖、科技进步奖、科技专项奖、重点项目等)等;

这里,在进行政策特征识别处理时,主要根据预定的政策特征数据识别规则,通过对文字信息进行缺失值处理、数值转换、关键词及关键词对应的内容提取等操作,从第一政策信息中,提取出一系列特征数据组成第一特征数据集合;

例如,第二特征数据集合可包括:政策基本特征数据(诸如受理部门、发布日期、开始日期、截止日期、部委类型、行业领域、最高补贴金额等),政策对企业基本要求的特征数据,政策对企业人力要求的特征数据,政策对企业财务要求的特征数据,政策对企业知识产权要求的特征数据,政策对企业经营要求的特征数据,政策对企业风险要求的特征数据,政策对企业创新载体要求的特征数据,政策对企业科技奖励要求的特征数据等。

步骤5,使用政策分类模型,对第一政策信息,进行政策分类处理,生成第一分类标签集合;

其中,第一分类标签集合至少包括第一行业领域标签、第一政策类别标签和第一发布部门标签。

这里,政策分类模型为经过大数据训练的分类模型,在进行政策分类处理时,本发明实施例首先通过对文字信息进行缺失值处理、数值转换、关键词及关键词对应的内容提取等操作,从第一政策信息中,提取出一系列特征数据组成特征数据序列,并将特征数据序列输入到政策分类模型中进行运算,从而得到输出的标签序列,作为第一分类标签集合;

该标签序列中预先固定了多个标签数据,每个标签数据对应一个实际的标签类型,例如行业领域标签、政策类别标签、发布部门标签等;其中,每个标签类型还可以通过调整模型参数进行细化,例如,行业领域标签还可细化为多个具体行业领域:诸如按照国家高新科技、高精尖等标准要求发布的行业领域,政策类别标签还可细化为多个具体政策类别:诸如知识产权类别、创新载体类别、资质认定类别、人才奖励类别、税费减免类别、抗疫补贴类别等,发布部门标签还可细化为多个具体发布部门:诸如科技创新局、知识产权局等;

若本地已经预先收集到与政策主题对应的历年补贴企业信息,则使用与主题对应的线性回归模型进行匹配度计算;

若本地未能预先收集到与政策主题对应的历年补贴企业信息,但已经预先收集到与该政策相同行业领域标签、和或相同补贴政策类别标签、和或相同发布部门标签的同类政策对应的历年补贴企业信息,则使用与标签对应的线性回归模型进行匹配度计算;

若本地即未能预先收集到与政策主题对应的历年补贴企业信息,也未能预先收集到与该政策相同行业领域标签、和或相同补贴政策类别标签、和或相同发布部门标签的同类政策对应的历年补贴企业信息,但已经预先收集到与该政策相同地区的其他补贴政策对应的历年补贴企业信息,则使用与地区对应的线性回归模型进行匹配度计算。

步骤6,在预设的补贴企业样本数据库中,统计与第一主题数据对应的第一采集企业样本数据的数量,生成第一数量;

其中,补贴企业样本数据库包括多个第一采集企业样本数据。

这里,补贴企业样本数据库为预设的数据库,其中存储了多个第一采集企业样本数据,每个第一采集企业样本数据都是对从目标网站或目标信息源处采集的企业数据进行特征提取、数值转化之后得到的样本数据,补贴企业样本数据库用于对历年相关政策补贴的企业信息进行收集,并为本发明实施例用于进行企业信息与政策信息匹配度计算的线性回归模型,提供模型训练的训练数据。

这里,第一数量将会被后续步骤用于判断前文中提及的本地是否已经预先收集到与政策主题对应的历年补贴企业信息,若第一数量超过预定值,说明本地已经预先收集到与政策主题对应的历年补贴企业信息。

步骤7,若第一数量超过预设的第一阈值,则根据第一特征数据集合、第二特征数据集合和第一主题数据,使用与主题对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第一匹配度数据;

步骤8,若第一数量未超过第一阈值,且第一行业领域标签、第一政策类别标签和第一发布部门标签不全为空,则根据第一特征数据集合、第二特征数据集合以及不为空的标签,使用与标签对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第二匹配度数据;

步骤9,若第一数量未超过第一阈值,且第一行业领域标签、第一政策类别标签和第一发布部门标签全为空,则根据第一特征数据集合、第二特征数据集合和第一地区数据,使用与地区对应的线性回归模型,进行企业信息与政策信息的匹配度计算处理,生成第三匹配度数据;

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

技术分类

06120115637880