掌桥专利:专业的专利平台
掌桥专利
首页

一种基于XGBoost模型的多维指标集成的技术评价方法

文献发布时间:2023-06-19 10:41:48


一种基于XGBoost模型的多维指标集成的技术评价方法

技术领域

本发明属于文献分析技术领域,具体涉及一种基于XGBoost模型的多维指标集成的技术评价方法。

背景技术

技术评价是一个分析技术发展和其结果,以及讨论这些结果的过程。技术评价作为早期诊断技术变革和其潜在的发展工具,可为有效的科学决策提供判断依据,促进科学技术资源优化配置,是推动国家科学技术事业持续健康发展,提高科学技术管理水平的重要手段和保障。

技术评价通过采用科学的方法,从各个角度系统的对技术实践进行综合评价。同发达国家相比,我国的技术评价的角度一般是基于科技管理的,评价的数据来源较为局限,评价的指标较为单一,缺少多维集成视角的技术评价方法体系,特别是近20年现代科学技术发展迅速的背景下、科技数据成爆炸式增长,其复杂性和不确定性也在增加,如何从海量的科技数据中敏锐判别技术的价值演变,是互联网时代技术评价的新难题。

当前尚未在任何学术以及国家有对技术综合得分很好的评定标准,如何合理选取分项指标并进行加权得到一个非常好的综合性的评分,一直是一个棘手的问题,大多数已有体系都是通过专家判断去确立体系,其评价结果取决于专家的经验与专业能力,不过采取专家评分的方式易受主观因素影响,从而影响最终的评价结果。

发明内容

针对目前采用专家评分评价技术综合得分易受主观因素影响,而又未有其他方法能够很好的对技术综合得分进行评价的缺陷和问题,本发明提供一种基于XGBoost模型的多维指标集成的技术评价方法。

本发明解决其技术问题所采用的方案是:一种基于XGBoost模型的多维指标集成的技术评价方法,包括以下步骤:

S1、获取技术评价科技类数据,所述技术评价科技类数据包括全球的论文、专利、项目数据;

S2、对技术评价科技类数据进行处理,包括以下步骤:

(1)从论文、专利、项目中抽取专家和机构;

(2)对科技文献中的科研人员和机构名称消歧;

(3)对论文、专利、项目、专家和机构打上通用的技术领域标签、国家/地区标签;

(4)计算专家和机构的评价指标并进行排名;

(5)从论文、专利、项目科技数据中按照领域抽取技术名词;

S3、选择技术名词作为样本,计算样本技术的技术得分:通过国家统计局统计的全国技术热度排行榜,对全国的技术热度进行排名,并计算技术的技术得分score(i),

score(i)=100-0.09*(i-1)

i=1,...,1000

S4、选择技术的评价指标,将各评价指标根据维度分为一级指标和二级指标,建立技术评价指标体系,对每一项技术逐项计算指标结果,并对计算结果进行归一化处理;

S5、对XGBoost模型进行训练与调优,输出最终的评价模型,

S6、采用评价模型按照评价指标体系计算出技术的综合得分。

上述的基于XGBoost模型的多维指标集成的技术评价方法,所述评价指标体系为:

上述的基于XGBoost模型的多维指标集成的技术评价方法,最终评价模型的构建方法包括以下步骤:

(1)以技术得分score(i)作因变量,评价指标作独立变量,采用XGBoost进行模型训练与调优;

(2)将1000个技术的指数作为数据集,随机打散之后按照7∶2∶1的方式拆分成训练集、验证集和测试集;

(3)对XGBoost模型进行训练:通过每轮迭代产生一个弱回归器使每个回归器在上一轮回归器的残差基础上进行训练,通过降低偏差提高回归器的精度,所述弱回归器选择为CART TREE,将每轮训练得到的弱回归器加权求和得到总回归器,得到模型目标函数为:

式中,obj

(4)将训练集中的样本输入XGBoost模型,先添加一棵树,根据特征训练集中的特征进行分裂,若生成的树满足要求,训练完成,得到训练好的XGBoost模型;否则继续添加树,在对上一次分裂树进行分裂,通过不断添加学习新的函数,最终得到训练好的XGBoost模型;

(5)用测试集和验证集对训练好的XGBoost模型进行测试和验证,选择参数最优的模型为最终评价模型。

上述的基于XGBoost模型的多维指标集成的技术评价方法,E-score分值是通过考虑技术的新颖性、持久性、社区性、增长性计算得到,计算方法为:首先按照规则过滤新兴技术;然后计算新兴的技术名词的E-Score,其计算数据源是最近十年在各类文献中技术出现的情况,这十年的前三年为活跃期,后七年为持续期;其中新兴技术过滤规则包括:

a、至少连续三年均出现文献中;

b、至少在7篇文献中出现;

c、活跃期技术的发文数/持续期发文数>=2;

d、持续期技术的发文数/持续期所有文献数<=0.15;

e、技术出现在不同文章不同作者;

若未通过过滤规则,则E-score为0;若满足过滤规则,E-Score=2*活跃期趋势+(近期趋势+年中到去年的斜率)。

本发明的有益效果:本发明基于论文、专利和项目等数据进行分析,通过多维度的评价指标和算法,提出针对技术评价的综合评价方法,该方法与传统的同行评审或单一指标评价相比,其指标计算的数据可通过网络公开文献数据获取,获取方式简单、数据更新及时;通过XGBoost模型训练得到评估模型,对技术评价更为客观、真实、全面;可实时调优,便于评价模型的不断优化;能够直观了解技术的研究价值和发展水平,便于各类技术之间进行对比,为科技类管理决策提供有力支撑,有利于促进科技资源的优化配置,提高科技管理水平。

附图说明

图1为本发明整体流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1:针对目前对技术评价采用专家评分确立体系取决于专家的经验和专业能力,其易受主观因素影响,而目前尚未有其他更为有效的方法对技术综合得分评价标准,无法合理的得到好的综合性评分的问题,本实施例提出一种基于XGBoost的多维指标集成的技术评价指标体系,通过机器学习的方法训练集成的指标模型,从根本上减少主观影响,实现评价模型的合理性、客观性。

本实施例的基于XGBoost模型的多维指标集成的技术评价方法,通过搜集中外的科技文献,抽取技术名词,对技术的全球发展水平进行综合评定,以用于快速调研技术、发展新兴技术,该方法包括以下步骤。

步骤一、获取技术评价科技类数据:获取全球的论文、专利、项目数据,其中论文数据包括SCI、EI、中文核心期刊的论文;专利数据包括中国专利局、美国专利局、世界专利局的专利文献;项目包括主要国家(中国、美国、欧盟、日本、英国、俄罗斯等)的国家级的资助项目,如中国国家自然科学基金,中国国家社会科学基金,国家重点开发计划,973计划,美国国家航空航天局,美国国家科学基金会等。

步骤二、对技术评价科技类数据进行处理,包括以下步骤:

(1)从论文、专利、项目(统称科技文献)中抽取专家和机构;

(2)基于关系网络和多维度决策分析对科技文献中的科研人员和机构名称消歧,方法如下;

①将领域、科技文献名称、科研人员名称和机构,通过节点之间的关系建立关键属性关系网络,其中将一篇科技文献中的领域、科技文献名称、科研人员名称和机构作为一个单元。

②向关系网络中输入一个单元,将单元中的领域、科技文献名称、科研人员名称和机构插入关系网中做Merge操作;查询该单元中的科研人员名称与关系网中的所有科研人员名称节点是否存在相同节点;

若有相同节点则拿出关系网中与该科研人员名称相同节点的领域与机构相关节点作为领域列表和机构列表;将与该科研人员名称相关的领域与领域列表匹配后计算权重,每匹配成功依次权重为1,计算领域的权重和;同时将与该科研人员名称相关的机构与机构列表匹配后计算权重,每匹配成功一次权重为1,计算机构的权重和;将领域权重和与机构权重和相加计算得到总权重和;若总权重和大于2,标记该科研人员名称与匹配成功的名称节点为同一人;若总权重和不大于2,则标记为两个人,输出结果。

若没有相同节点,则在关系网络中拿出与单元的科技文献名称相同的文献名称节点列表,与单元领域相同的领域节点列表,与单元的机构相同的机构节点列表;通过文献名称节点列表关联的科研人员名称节点将科研人员名称与其合著这的关系关联起来,通过查询科研人员名称的合著者反向在此查询匹配(即对可能匹配上的科研人员名称进行筛选得到作者名称列表)。

③将以上结果输入到关系网中,如果是新的科研人员名称节点,则插入关系网中;否则更新关系网中科研人员名称节点,为科研人员名称节点增加新的别名。

④循环以上步骤实现对科研人员和机构名称消歧的目的。

(3)对论文、专利、项目、专家和机构打上通用的技术领域标签、国家/地区标签;

(4)计算专家和机构的评价指标并进行排名;

(5)从论文、专利、项目科技数据中按照领域抽取技术名词。

步骤三、选择样本,并计算样本技术的技术得分,具体实施方法如下;

通过国家统计局统计的全国技术热度排行榜,对全国的技术热度进行排名,取前1000名的技术,设置第一名为100分,第1000名为10分,中间排名的评分按照评分求取公式进行计算,排名第i的技术得分公式如下:

score(i)=100-0.09*(i-1) (1)

i=1,...,1000 (2)

步骤四、选择技术的评价指标,并计算样本的各项指标数值;具体实施方法如下:

技术得分score(i)受各项评价指标的影响,挑选7个维度共17个评价指标,之间可以建立一个多变量函数。其评价指标包括一级指标和二级指标,一级指标包括新兴度、成果量、影响力、投入度、关注度、合作率、交叉度,如下表:

表2技术评价指标评价体系表

下文对表中的各个维度指标作详细说明:

新兴度反映技术的新颖性和热度,使用E-score模型来衡量新兴度的高低;E-score基于技术成熟度曲线,综合考虑技术的新颖性、持久性、社区性、增长性计算E-score分值。E-score的计算步骤如下:

首先,按照规则过滤新兴技术;

然后,计算新兴的技术名词的E-Score。其计算数据源是,最近十年在各类文献中技术出现的情况,这十年的前三年为活跃期,后七年为持续期。

其中新兴技术过滤规则包括:

a、至少连续三年均出现文献中;

b、至少在7篇文献中出现;

c、活跃期技术的发文数/持续期发文数>=2;

d、持续期技术的发文数/持续期所有文献数<=0.15;

e、技术出现在不同文章不同作者。

如果没有通过过滤规则,则E-score为0;如果满足过滤规则,计算方法为E-Score=2*活跃期趋势+(近期趋势+年中到去年的斜率)。

成果量是技术相关的研究产量水平,反映技术的文献生产力,所以成果量的二级指标包括论文量、专利量和项目量。

影响力是为了衡量技术成果的整体质量水平及其影响力和竞争力。二级指标包括论文质量、专利质量和项目质量;其中论文的影响力用论文的被引量表示;专利质量通过专利的授权比率计算;项目的影响力通过项目的资助金额和项目的成果质量计算。

投入度是技术的人力和资源投入的整体规模评分,用于衡量技术认可的广度。二级指标包括:专家投入、机构投入、国家/地区投入。其投入水平通过相应的数量表示,例如专家投入量即文献中涉及该项技术研究的专家的数量。

关注度是指顶级的专家、机构,科技发达的国家,参与这项技术研究的比率,用于衡量高水平的科研实体对于技术的关注程度。二级指标包括:顶级专家关注率,顶级机构关注率,科技发达国家关注度。顶级科学家关注度是指学科前1%的专家占学科所有专家的比率,顶级机构关注度是学科前1%的机构的占比,科技发达的国家关注度是指的学科前50%的国家的占比。

合作率是指一项技术在不同的专家、机构和国家之间合作的比率,表明技术的合作交流情况的活跃程度。合作率包括的二级指标为:国家合作率、机构合作率、专家合作率。国家的合作率是学科文献中的跨国机构合作占比;机构合作率是学科中的跨机构合作占比;专家合作率是学科文献中的专家合作占比。

交叉度是指一项技术引发的学科交叉的程度,表明技术是否引发了较为广泛的学科上的研究和关注。交叉度即他引率,计算方法是技术领域内容,原始学科的论文被其他学科引用的论文占技术领域总论文的比率。

每一项技术逐项计算这些指标,并对计算结果进行归一化预处理。

步骤五、对XGBoost模型进行训练与调优,并输出最终的评价模型,包括以下步骤:

(1)数据分析:技术得分score(i)作因变量,评价指标作独立变量,采用XGBoost进行模型训练与调优。

(2)拆分数据集:将1000个技术的指数作为数据集,随机打散之后按照7∶2∶1的方式拆分成训练集、验证集和测试集。

(3)模型训练:XGBoost模型的思想就是通过多轮迭代,每轮迭代产生一个弱回归器,每个回归器在上一轮回归器的残差基础上进行训练。训练的过程是通过降低偏差来不断提高最终回归器的精度。弱回归器选择为CART TREE。由于对弱回归器有高偏差和简单的要求,每个分类回归树的深度不会很深。

最终的总回归器是将每轮训练得到的弱回归器加权求和得到的,模型目标函数表达为:

式中,obj

将训练集的700个样本,输入XGBoost模型,先添加一棵树,根据训练集中的特征进行分裂,如果生长成的树满足参数要求,训练完成,得到训练好的XGBoost模型,否则,继续添加一棵树,在对上一次的分裂树进行分裂,不断添加树,学习新的函数,去拟合上一次预测的残差。最终得到训练好的XGBoost模型准备进行测试和验证。

(4)得到可部署的模型。用测试集和验证集对训练好的XGBoost模型进行测试和验证,选择最优参数对应的XGBoost模型,调优后输出训练样本集在每棵树的叶子节点编号。最终得到了k棵树,每一个样本的特征都会在树上落到对应的叶子节点上,每个叶子节点对应一个分数,将每棵树对应的分数加起来就是样本预测值的分数,将最终模型作为评价模型输出并部署。

步骤六、采用最终的评价模型按照评价指标体系表计算出技术的综合得分从而完成对技术的评价。

以上所述仅为本发明的较佳实施例,并不限制本发明,凡在本发明的精神和原则范围内所做的任何修改、等同替换和改进,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于XGBoost模型的多维指标集成的技术评价方法
  • 一种基于XGBoost模型的多维指标集成的技术评价方法
技术分类

06120112640799