掌桥专利:专业的专利平台
掌桥专利
首页

一种基于聚类与综合评价的产业领袖识别方法

文献发布时间:2023-06-19 10:57:17


一种基于聚类与综合评价的产业领袖识别方法

技术领域

本发明属于信息技术领域,具体涉及一种基于聚类与综合评价的产业领袖识别方法。

背景技术

在任一产业中,声望高的企业,即产业领袖通常在市场中占据主导地位,它们在所在领域拥有相对较多的资源和丰富的经验,能够有效控制成本与风险、并有较高的绩效,识别产业领袖有助于企业寻求优质合作伙伴,同时还能帮助政府部门掌握产业市场结甚至人们可以从产业领袖的变化中探寻产业网络的演化规律。

从复杂网络分析的角度来看,识别产业领袖等同于找出产业网络中影响力较高的节点。常见的度量网络节点影响力的方法有网络中心度指标,但网络中心度通常只是从节点在网络中的某种位置关系来评价节点的重要性,因此针对不同的网络结构存在不同的中心度度量方法。由于网络中心度指标节点影响力的解释能力是有限的,因此基于单一网络中心度指标实现企业的排序会存在一定的偏误,造成排序不稳定。

发明内容

针对上述问题,本发明提出基于加权k-means算法和综合评价的排序方法,实现企业的聚类和排序,并识别产业领袖。在实现该方法的过程中,本发明拟解决的主要问题有:

1.构建识别产业领袖的指标体系

要实现基于加权k-means算法和综合评价的排序方法,并用于企业排序和产业领袖识别,需要充分利用企业之间的关系特征及其规模和经验相关的特征。如何从关系数据和描述企业业务体量和经验的结构化数据中提取相关的指标,并建立稳健的排序与聚类算法识别产业领袖,是本发明拟解决的关键问题。

2.无监督学习问题

目前产业研究中,企业的资质良莠不齐,其成立时间、市场威望、经营状况等存在明显差异,市场对企业的认知也有所不同。虽然通过调查问卷和专家打分能够构建一些训练样本,但是针对整个产业所有企业的调查费时费力。此外,随着时间的推移,产业市场结构也会改变。因此在无标记的情况下实现企业的排序,有助于帮助专家及产业掌握市场结构,为进一步的评估提供参考依据。因此本发明将借助基于加权k-means算法的综合评价排序方法解决无监督的学习问题。

3.新企业的排序与聚类

随着时间的推移,每年都会涌现出大量的新企业,如何合理地评估新企业的发展潜力,实现它们的发展潜力排序,是投资人及监管部门掌握产业动态的重要决策方法。因此本发明将收集新企业的信息及其行为数据,借助基于加权的k-means聚类算法和综合评价方法对其进行排序,从而评估这些企业的综合潜力。

本发明技术方案如下

根据企业之间的合作事件(例如:企业之间交易、投融资、项目合作等合作事件)及企业的合作行为,对某一行业中的企业进行聚类和排序,从而识别产业领袖。本发明的主要功能模块包括:数据收集模块、指标体系构建模块、聚类与排序模块,结果输出模块。具体如下:

1.数据收集模块

①数据爬取

首先,选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息,包括两类。一是企业基本信息,例如:企业的名称、成立的时间、所属行业等;二是企业的合作事件,例如:投融资事件、项目合作事件、买卖关系等。每一条合作事件都代表在某个时间节点,某个企业与其他企业的合作情况。

②数据库构建

为了保证数据的一致性和有效性,本发明将对爬取到的原始数据进行了汇总、重复值处理(主要指行重复和属性重复,处理方法为删除)、缺失值处理(在建模前,对缺失过多的属性进行删除,对缺失较少的属性进行常值填补或模型填补)、数据类型统一化等操作,并将处理好的数据导入数据库,最终建立企业基本信息和合作事件数据库。

③数据监听

数据监听模块将实时对数据进行监听,旨在实时更新企业信息,例如:一旦企业信息发生改变,将更新企业信息,并实时更新行业中新成立的企业列表。同时,实时更新企业合作信息,一旦企业之间有新的合作关系,将触发数据爬取模块工作,实时爬取相关数据并更新数据库。

2.评价指标构建模块

评级指标构建模块将根据企业基本信息和合作事件数据库,构建企业基本信息、企业合作行为和企业合作网络等三类指标。其中,合作的企业数量(NoC),它表明了企业是否有足够的资产和资源进行合作。如果企业的NoC较高,说明其资产更多,整合资源能力强,可以进行较大规模的交易。因此,该指标是识别产业领袖的好变量。同样,合作总额(TNC),企业合作涉及的行业数量(NoI),国家数量(NoCoun)、省份数量(NoPR)等指标充分描述了企业的规模和经验。

同时,本发明还通过企业之间的合作关系,提取刻画企业社会关系的指标,用来刻画企业在产业网络中的地位,这些指标包括:度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)HITs值(HITs)和PageRank指标(PR)。为了说明这些指标的来源,下面介绍产业网络的两个定义。

定义1.无向合作网络G

设t

定义2.有向合作网络:G

根据无向图和有向图的定义,可以计算企业的中心度指标,其中度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)和HITs值是依据无向图计算得到的,而PageRank指标(PR)则是基于有向图计算得到的。

3.聚类和排名模块

第一步,聚类、估计指标权重。

本发明采用加权k-means聚类算法来计算指标的权重。该方法根据企业的规模、经验指标和合作网络指标实现企业的分类,在分类的过程中估计每个指标的重要性,从而确定哪些指标对聚类划分更重要。该算法既保留了k-means算法的聚类特性,又能够克服k-means算法在每个指标上赋权相同的缺点,为不同的指标赋不同权重。假设w

s.t.||w||

其中

其中,S(x,c)为软间隔函数,S(x,c)=sign(x)(|x|-c)

在聚类的过程中,需要确定的参数包括聚类个数及超参数。本发明根据社会学原理来确定聚类个数为4到8个,利用肘点法来确定参数的个数。同时通过最大化gap统计量来确定最佳的超参数,即算法中的s

第二步,计算综合得分。

本发明借助综合评价方法TOPSIS(Technique for Order of Preference bySimilarity to Ideal Solution)来计算企业的综合得分。TOPSIS是一种综合评价方法,它的本质是定义正、负理想解,然后利用欧氏距离来计算其他样本与理想解之间的贴近程度,并获得排名指数,对算法中的样本进行排名。在我们的研究中,企业的指标值越大,说明其合作机会更多、经营规模更大和经验更丰富,该企业更有可能是领投。这类似于TOPSIS算法中理想解的定义。因此,我们将TOPSIS简化为加权综合得分,定义为:

其中,

第三步:对企业进行聚类并依据综合得分排序,结果输出。

对企业按综合得分降序排序后,可以通过肘方法或选出M个综合得分高的企业(top-M)来确定产业领袖。这种方法被称为聚类并识别产业领袖。此外,基于企业的相似性,产业领袖可能会被划分到相同的聚类。根据企业聚类的平均综合得分,我们可以对这些聚类或群体进行排序,绘制它们的平均得分图,并在这个图中找到肘点。肘点左侧的产业领袖聚类的平均综合得分明显大于肘点右侧的其他聚类。这是另一种识别产业领袖的方法,称为聚类识别产业领袖集群。最后我们通过肘方法

有益效果

与传统评价方法不同,本发明基于大数据,构造刻画企业经验、规模和业务关系的指标,形成评估企业的指标体系。该指标体系能够较好的测量反映企业声望市场地位,并识别产业领袖。

本发明基于半监督学习方法,混合了聚类和综合评价方法的优势,不仅能够对企业聚类,还能够实现企业的排序。本方法能够在聚类的过程中自动估计各指标的权重,从而用该权重构造企业的综合得分,最终用于产业领袖识别。

附图说明

1.图1为产业领袖聚类与排序系统;

2.图2为数据收集模块流程图;

3.图3为指标体系构建示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。

以中国风险投资市场上,风险投资公司之间的联合投资事件为例,对中国风险投资行业中的风险投资公司进行聚类和排序,从而识别风投领袖。本发明的主要功能模块包括:数据收集模块、指标体系构建模块、聚类与排序模块,结果输出模块,见附图1。具体实施步骤描述如下:

步骤一:从互联网上收集数据,建立风险投资公司投资事件数据库,并保持数据更新。收集的数据包括风投公司基本信息以及风投的投资事件,其中每一条投资事件都代表某个风投公司在某个时间节点投资了某家企业。设置数据监听,以一定的周期抓取新数据,更新数据库。数据收集流程见附图2。

步骤二:构建企业基本信息、合作行为和合作网络三类指标,见附图3。

首先从描述风险投资公司基本信息的数据中提取出描述风投基本信息和投资行为的九个特征指标,分别为风险投资公司投资公司数(NoC),投资总次数(TNI),投资领域数(NoI),投资时期数(NoP),投资国家数(NoCoun),投资省份数(NoPR),初始期投资数(NoSI),扩张期投资数(NoSE)和种子期投资数(NoSS)。

其次根据风投之间的联合投资关系,构建风投联合投资网,提取描述风投在联合投资网络中重要性程度的六个中心度指标,分别为度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)HITs值(HITs)和PageRank指标(PR)。其中度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)和HITs值是依据无向图计算得到的,而PageRank指标(PR)则是基于有向图计算得到的。

步骤三:使用加权k-means聚类算法来计算各个指标的权重。为以上十五个不同的指标(特征)赋不同权重。假设w

s.t.||w||

其中

其中,S(x,c)为软间隔函数,S(x,c)=sign(x)(|x|-c)

在聚类的过程中,需要确定的参数包括聚类个数及超参数。本实施例根据社会学原理来确定聚类个数为4到8个,利用肘点法来确定聚类的个数,最终设定聚类个数为五个。同时通过最大化gap统计量来确定最佳的超参数,即算法中的s

步骤四:使用TOPSIS计算风投的综合得分。我们将TOPSIS简化为加权综合得分,定义为:

其中,

步骤五:依据综合得分排序,从高分到低分输出风投排序结果。按风投综合得分降序排序后,可以通过肘方法或选出M个综合得分高的企业来确定风投领袖,例如选出top-50,即排名前50名的风投作为风投领袖。这种方法被称为聚类并识别风投领袖。此外,基于企业的相似性,风投领袖可能会被划分到相同的聚类。根据企业聚类的平均综合得分,我们可以对这些聚类或群体进行排序,绘制它们的平均得分图,找出图中找到肘点。肘点左侧的风投领袖聚类的平均综合得分明显大于肘点右侧的其他聚类。这是另一种识别产业领袖的方法,称为聚类识别风投领袖集群。最后我们通过肘方法识别综合得分高的聚类,识别排名前M的风投作为风投领袖,并输出结果。

相关技术
  • 一种基于聚类与综合评价的产业领袖识别方法
  • 一种基于聚类的社交网络意见领袖挖掘方法
技术分类

06120112739423