一种基于多源异构数据的动态企业画像生成方法
文献发布时间:2023-06-19 09:43:16
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于多源异构数据的动态企业画像生成方法。
背景技术
目前现有的企业画像生成方法为:先获取与企业画像在互联网的相关的数据,并对数据进行清洗,分析不同企业的特征数据,对企业进行标签提取,构建企业画像。主要存在三个方面的问题,首先是数据源较为单一,源数据或为简单的网络信息,或为企业报表,数据量无法充分支撑企业画像的丰富度;其次是企业画像描述较为简单,忽略其他方面的信息,没有从多个维度进行企业画像的构建;以及传统的企业画像构建没有考虑到后续标签信息更新的问题,无法实现动态的企业画像。
发明内容
本发明的目的在于提供一种基于多源异构数据的动态企业画像生成方法,以解决上述背景技术中提出的问题。
本发明是通过以下技术方案实现的:一种基于多源异构数据的动态企业画像生成方法,包括下列步骤:
S1、采集目标企业的信息数据,并对所述企业信息数据进行预处理;
S2、构建企业画像模型,所述企业画像模型由企业基本属性、企业经营范围、企业主要产品、企业内外关联、企业行业评价五个维度特征组成,从预处理后的企业信息数据中提取特征项,并填充至对应的维度特征,实现企业信息向量化,标签化;
S3、若目标企业的信息数据出现变动,根据变动的企业信息数据,形成新的特征项,并将维度特征中的旧的特征项进行替换更新,形成新的企业画像。
优选的,通过数据库导出、网络爬虫选取、人工输入的方式对目标企业的信息数据进行采集。
优选的,所述目标企业的信息数据采集通道包括政府信息数据库、企业数据库、网络信息数据库中的一种或多种。
优选的,所述预处理方式包括:对目标企业的信息数据进行数据清洗、数据聚合、数据删减;
将数据删减后的所述信息数据从文本数据转换为结构化数据,并消除结构化数据中存在的数据缺失、数据重复以及同名异义问题。
优选的,提取特征项的方式包括:
对于企业基本属性特征、企业主要产品特征、企业行业评价特征,提取目标企业的信息数据中的关键词作为特征项;
对于企业经营范围特征、企业关联分析特征,提取目标企业的信息数据中的关键词作为特征项,同时采用TF-IDF以及LDA特征分析的权重计算法对特征项的权重进行计算,其特征项以及特征项的权重被填充至企业经营范围特征、企业关联分析特征中;
所述企业基本属性的特征项包括企业名称、成立日期、注册资本、法定代表人和企业地址;
所述企业经营范围的特征项包括企业经营方向、企业经营相关度;
所述企业主要产品的特征项包括企业主营产品的名称;
所述企业关联分析的特征项包括企业股权占比、企业股权类型、企业参股控股对象;
所述企业行业评价的特征项包括企业获得的荣誉。
优选的,若目标企业的信息数据出现变动,根据变动的企业信息数据,提取关键词,形成新的特征项,将新的特征项与原维度特征中的特征项进行对比;
若新的特征项的类别属于企业基本属性特征、企业主要产品特征、企业行业评价特征之一,并且新的特征项在企业基本属性特征、企业主要产品特征、企业行业评价特征之一中存在,则企业基本属性特征、企业主要产品特征、企业行业评价特征中的特征项保持不变;
若新的特征项在企业基本属性特征、企业主要产品特征、企业行业评价特征之一中不存在,则将新的特征项填充至相应的纬度特征中。
优选的,若新的特征项类别属于企业经营范围特征,企业关联分析特征之一,并且新的特征项在企业经营范围特征,企业关联分析特征之一中存在,计算新的特征项的权重值,并对旧的特征项的权重值进行替换更新;
并且新的特征项在企业经营范围特征,企业关联分析特征之一中不存在,计算新的特征项的权重值,并将计算后的权重值以及新的特征项对应的权重值填充至对应的纬度特征中。
优选的,通过下式计算新的特征项的权重值:
w'=e
其中,w'为新的权重值,t′新的特征项的采集时间,t为旧的特征项的采集时间,λ为时间衰减因子,Δn
与现有技术相比,本发明达到的有益效果如下:
本发明提供的一种基于多源异构数据的动态企业画像生成方法,通过采集权威机构数据源为基础,融合多源异构数据,分别从企业基本属性、企业经营范围、企业主要产品、企业关联分析,企业行业评价五个方面,利用自然语言处理实现特征分析和标签提取。同时在目标企业的信息数据出现变动时,根据变动的企业信息数据,形成新的特征项,将新的特征项与原维度特征中的特征项进行对比,实现对标签信息的动态更新,最终实现企业画像的动态构建。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于多源异构数据的动态企业画像生成方法的流程图。
具体实施方式
为了更好理解本发明技术内容,下面提供具体实施例,并结合附图对本发明做进一步的说明。
参见图1,一种基于多源异构数据的动态企业画像生成方法,以全国企业信用信息公示系统、国家中小企业发展基金旗下官方备案企业征信机构、相关合作单位提供数据、企业官网、天眼查、企查查等数据源为基础,融合多源异构数据,分别从企业基本属性、企业经营范围、企业主要产品、企业关联分析,企业行业评价五个方面,利用自然语言处理实现特征分析和标签提取,同时,引入时间衰减因子,实现对标签信息的动态更新,以此来构建基于多源异构数据的动态企业画像。具体实施步骤如下:
S1、采集目标企业的信息数据,并对所述企业信息数据进行预处理;
企业信息数据的采集通道包括全国企业信用信息公示系统数据库、国家中小企业发展基金旗下官方备案企业征信机构数据库、相关合作单位数据库、企业官网数据库、天眼查数据库、企查查数据库中的一种或多种,其采集方式包括数据库导出、爬虫爬取、人工采集输入;
所述目标企业的信息数据按分类分别为企业基本属性数据、企业经营范围数据、企业主要产品数据、企业内外关联数据,企业行业评价数据。
其中,企业基本属性数据包括企业名称、成立日期、注册资本、法定代表人、企业地址;企业经营范围数据是企业生产和经营的商品类别、品种及服务项目,反映企业业务活动的内容和生产经营方向;企业主要产品数据是本企业主要生产的产品,也包括市面上销售的企业代表产品,是对企业生产的进一步具体的描述;企业内外关联数据包括企业持股控股公司,企业被持股控股公司;企业行业评价数据包括企业所获得的相关奖项。具体信息如表1所示:
表1
对所采集的企业信息数据进行预处理方式的包括:对目标企业的信息数据进行数据清洗、数据聚合、数据删减;
将数据删减后的所述信息数据从文本数据转换为结构化数据,在将信息数据从文本数据转换为结构化数据时,需要对文本中的命名实体进行识别。命名实体主要包括名字实体(公司名、人名、地名)、时间表达式(日期、时间)和数字表达式(货币值、百分数等)。其中,针对公司名、人名和地名的识别,通过基于规则的方法、基于统计的机器学习方法以及基于深度学习的方法,以及调用国内开源的中文语言处理工具NLPIR实现命名实体识别,从文本中进行信息抽取;
结构化数据中存在有数据缺失、数据重复以及同名异义的问题。对于数据缺失问题可通过搜索引擎或暂时置空后续补充等途径对该信息进行补充或完善;对于数据重复问题,则需删除冗余信息,保证数据的唯一性,余下的信息相互补充;对于同名异义问题,需要通过消歧来解决,消歧采用的方法有基于聚类的消歧和基于实体链接的消歧。同时针对原始数据中不同来源的信息采用的元数据标准不同的问题,对企业信息进行了统一的描述,并且进行数据集成,将多个数据源中的数据整合进行统一存储,通过上述方式消除结构化数据中存在的数据缺失、数据重复以及同名异义问题。
S2、构建企业画像模型,所述企业画像模型由企业基本属性、企业经营范围、企业主要产品、企业内外关联、企业行业评价五个维度特征组成,从预处理后的企业信息数据中提取特征项,并填充至对应的维度特征;
在本实施方式中,企业画像是一个多维度、多层次的用户模型,根据目标企业的信息数据的类型,定义了一个向量空间作为企业画像,组成企业画像的维度特征包括企业基本属性、企业经营范围、企业主要产品、企业关联分析、企业行业评价,具体模型结构如下:
Enterprise=
其中,BaseInfo代表企业基本属性,BusiScope表示企业经营范围,MainProduct代表企业主要产品,Relation代表企业关联分析,Comments代表企业行业评价,该五元组特征标签共同构成企业画像。
从预处理后的企业信息数据中提取特征项,并填充至对应的维度特征,可获得如下结果:
BaseInfo=
BusiScope={(Top
其提取关键词的过程包括:使用TF-IDF对企业信息库中针对经营范围介绍的文本进行文档的预处理,以获得更合理的更能代表描述文档特点的向量,转化成文档向量后,依据权值大小进行关键字提取。
除此之外,针对企业经营关键字进行主题分析,采用的方法主要有LDA文档主题生成模型,对企业经营范围特征进行分析。
MainProduct=
Relation=
Comments= 另外需要说明的是,在以上的五个维度特征中,企业基本属性特征、企业主要产品特征、企业行业评价特征中的特征项不具备权重因子; 而企业经营范围特征,企业关联分析特征中的特征项具备权重因子,需要基于TF-IDF以及LDA特征分析的权重来实现特征项的权重计算。 S3、企业的信息不是一成不变的,可能会发生新增或变动,所以需要对企业画像进行动态更新,若目标企业的信息数据出现变动,根据变动的企业信息数据,用支持向量机SVM和词特征相结合的方法进行新词识别和提取,形成新的特征项; 若新的特征项的类别属于企业基本属性特征、企业主要产品特征、企业行业评价特征之一,并且新的特征项在企业基本属性特征、企业主要产品特征、企业行业评价特征之一中存在,则企业基本属性特征、企业主要产品特征、企业行业评价特征中的特征项保持不变; 若新的特征项在企业基本属性特征、企业主要产品特征、企业行业评价特征之一中不存在,则将新的特征项填充至相应的纬度特征中。 若新的特征项类别属于企业经营范围特征,企业关联分析特征之一,并且新的特征项在企业经营范围特征,企业关联分析特征之一中存在,通过下式计算新的特征项的权重值: w'=e 其中,w'为新的权重值,t′新的特征项的采集时间,t为旧的特征项的采集时间,λ为时间衰减因子,表示旧权重的衰减速度,λ越大,随时间衰减的越快。公司信息的变更相对较为慎重,且更新频率较为不频繁,在本实施方式中,λ取值为0.015至0.02区间时,能够为构建企业画像以及提高模型结果提供很大的帮助,Δn 并对旧的特征项的权重值进行替换更新; 若新的特征项在企业经营范围特征,企业关联分析特征之一中不存在,计算新的特征项的权重值,并将计算后的权重值以及新的特征项对应的权重值填充至对应的纬度特征中。 对比新的特征项与旧的特征项的权重值,选取权重值大的特征项加入其对应的维度特征,形成新的企业画像。 对于所形成的企业画像,依据预设的纬度特征权重值,以图文的形式对企业画像进行展示,方便用户对企业的了解。 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同更新、改进等,均应包含在本发明保护的范围之内。
- 一种基于多源异构数据的动态企业画像生成方法
- 一种基于城市多源异构数据构建城市画像的方法