掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多源数据融合计算的领域引擎技术识别方法

文献发布时间:2023-06-19 18:47:50


一种基于多源数据融合计算的领域引擎技术识别方法

技术领域

本发明属于引擎技术识别技术领域,特别是涉及一种于多源数据融合计算的领域引擎技术识别方法

背景技术

科学技术的发展与创新是社会发展与进步的重要因素,发展科学技术是提升国民生活幸福指数,带动社会高速发展,增强国家软实力的必由之路。然而科学技术所涵盖内容繁多、行业种类复杂,不同科学技术对国家社会发展的影响及作用力程度及广度有所区别,在众多科学技术中,一些科学技术仅能在单一领域产生影响,而另一些能在多个领域产生引领带动作用,在广泛的范围内发挥影响作用,能够对关键核心产业体系产生变革的技术,这部分技术即为引擎技术,那如何从众多科学技术方法中提早预测识别行业领域的未来关键引擎技术?

现在的引擎技术识别从多维数据出发,重点包括:技术新闻数量、平均技术专利数量、专利市场价值覆盖范围、专利被引率、专利转化率、技术成熟度、相关专利新颖度、创新度技术成长率、横纵向项目数量、论文平均被引次数、产学研合作比率、技术领域覆盖范围、行业拓展程度参数信息。

技术新闻数量主要是指该通过新闻媒体平台等发布该技术的新闻数量;平均技术专利数量是指该技术主题领域在一定时间段内每年平均授权数量;专利被引率是指该技术主题相关专利被引频率;技术成熟度指某技术领域发明专利占该技术领域发明专利的总量的比率;专利转化率是指该技术主题下的相关专利发生转移的情况;技术成熟度是指该技术在未来的发展潜力;相关专利新颖度是指该技术主题的技术类别分布判断技术的成长性;专利市场价值覆盖范围是指该技术主题下相关专利在我国GDP与发达国家GDP的比值;创新度技术成长率是指该技术在一定时间段内申请积累量和授权积累量的比例;横纵向项目数量是指通过该技术所获国家或企业基金项目数量;论文平均被引次数是指采用该技术撰写的论文被引从次数;产学研合作比率是指校企合作的论文占所有采用该技术撰写论文的比例;技术领域覆盖范围是指该技术主题下的相关专利技术领域分布数量;行业拓展程度是指该技术专利数量增长速度从而反映技术拓展速度。

从数据库多源异构数据中提早预测识别行业领域的未来关键引擎技术,及时补充发展,牢牢把握关键核心技术,才能避免“卡脖子技术”现象的再次发生。进一步的,提早识别引擎技术,攻坚克难,可以抢占科技制高点,创造培育新兴行业及市场,从而提升本国国际科学技术竞争软实力。

因此,引擎技术识别对国民、社会及国家发展进步具体重要意义,而目前关于引擎技术的识别研究工作在时效性和多数据融合方面存在不足,如何在数据体量和维度规模庞大的信息背景下,从众多关键、新兴及前沿等技术领域中准确识别对社会和产业发展有强带动性和变革性影响的引擎技术,是科学技术信息情报工作亟待解决的问题。

发明内容

本发明的目的在于提供一种基于多源数据融合计算的领域引擎技术识别方法,为实现在数据体量和维度规模庞大的信息背景下,对引擎技术识别中多源异构数据的有效融合与应用方法的探索,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种基于多源数据融合计算的领域引擎技术识别方法,包括以下步骤:

S1:基于数据库中海量多源异构数据,获取对应技术的指标参数信息;

S2:构建所述技术具有可计算的量化识别指标体系,将步骤S1中的指标参数进行量化;

S3:对步骤S2中指标参数的计算结果进行标准化处理;

S4:将标准化处理后的指标参数,通过建立的引擎技术识别模型,对指标参数进行分配权重,从而获得输出值,由输出值判断所述技术是否为引擎技术。

优选地,根据所述步骤S1中所述技术的指标参数信息包括:

技术新闻数量:通过新闻媒体平台等发布所述技术的新闻数量;

平均技术专利数量:所述技术所在的技术领域在一定时间段内每年相关专利平均授权数量;

专利市场价值覆盖范围专利被引率:所述技术所在技术领域内相关专利被引用的频率;

专利转化率是指所述技术所在的技术领域下的相关专利发生转移的情况;

技术成熟度是指所述技术在未来的发展潜力;

相关专利新颖度:所述技术所在技术领域的技术类别分布判断技术的成长性;

专利市场价值覆盖范围:所述技术所在技术领域下相关专利在我国GDP与发达国家GDP的比值;

创新度技术成长率:所述技术在一定时间段内申请积累量和授权积累量的比例;

横纵向项目数量:通过所述技术所获国家或企业基金项目数量;

论文平均被引次数:采用所述技术撰写的论文被引从次数;

产学研合作比率:校企合作的论文占所有采用所述技术撰写论文的比例;

技术领域覆盖范围:所述技术主题下的相关专利技术领域分布数量;

行业拓展程度:通过所述技术专利数量增长速度,反映技术拓展速度。

优选地,所述步骤S2中构建三级量化识别指标体系,具体包括以下步骤:

根据近三年内关于所述技术新闻数量,计算技术新闻增长率量化指标N,其计算公式为:

其中,N

根据近三年涉及所述技术的相关专利数量,计算平均技术专利数量量化指标ZCS,其计算公式如下:

其中,ZCS

专利市场价值覆盖范围量化指标ZGDP

其中,GDP

专利被引率量化指标PCS计算公式如下:

其中,PCS

专利转化率PTS量化指标计算公式如下:

其中,PTSN为近三年所述技术相关专利发生专利转移的专利数量,TSN为指定时段内所述技术相关许可专利数量;

技术成熟度量化指标ZS具体计算公式为:

其中,M

相关专利新颖度量化指标ZN具体计算公式为:

其中,C={1,2,……,i},1≤i;具体为,C为所述技术发展的所有年度数学集合,i表示在集合C的第i年度,Y

其中创新度量化指标ZO具体计算公式为:

其中,B

其中,TN为所述技术在当年专利申请数量,TA为所述技术在近三年专利申请数量;

项目数量增长率量化指标具体计算公式为:

其中,TC

论文平均被引次数PCI

其中,PC为所述技术在近三年内科技论文中被引次数,n为指定时段下所述技术的相关论文被引次数,该指标值越大,说明所述技术的科学研究创新性越高;

相关论文数量增长率PGR量化指标具体计算公式为:

其中,PGR

产学研合作比率TRCR量化指标计算公式为:

其中,TRCN是所述技术在相关论文中作者单位出现企业和高校研究所的数量,PR是所述技术在指定时段下相关科技论文总数量;

行业拓展程度为技术领域增长率TFGR量化指标具体计算公式为:

其中,TFGR

对指标参数计算结果进行标准化处理,不同数据类型的标准化处理方法如下:

S31:当指标数据为0-1型数据:0-1型数据由于结果本身已映射在[0,1]区间内,不需要进一步进行标准化处理;

S32:当指标数据为区间型[-∞,+∞]数据:由于区间型[-∞,+∞]数据不在区间范围[0,1]内,需要进行标准化处理。

公式中X

S33:当指标数据为占比型数据:占比型数据不严格落在[0,1]标准化区间范围内,需进行标准化处理:

公式中X

S34:当指标数据为绝对数值指标:绝对数值类型指标处理分为两部分,平均技术专利数量横纵向项目数量、项目数量增长率、论文平均被引次数以平均值参考值进行标准化处理,步骤如下:

公式中X

S35:专利市场价值覆盖范围数据指标和技术领域覆盖范围不适合平均值进行标准化,需单独划设阈值进行标准化处理:

专利市场价值覆盖范围量化数据指标标准化处理如下:

公式中X

S36:技术领域覆盖范围量化数据指标标准化处理如下:

公式中X

优选地,所述步骤S4包括以下步骤:

S41:建立引擎技术识别输出模型;通过输出函数确定所述技术的输出值,具体输出函数如下所示:

式中,k指代具体某类具体所述技术,所述技术中对应标准化指标参数为c

S42:明确步骤S2中可计算性的量化识别指标体系下的各指标数据类型,并通过量化指标体系进行计算,通过指标数据类型对其重新分类,一一映射在对应到步骤S41中,确定j的分类,并将对应的指标数据对应导入c

S43:基于主观赋权法思想,使用层次分析法,确定在所述技术在预测领域范畴下的引擎识别技术指标的权重,对权重计算结果进行标准化取值,一一映射在对应到步骤S41中h

S44:通过步骤S42和步骤S43确定指标数据c

优选地,所述步骤S44中对输出值建立的识别区间,如表1所示,具体为:

当输出值M=(0.6,1.0];则说明所述技术为引擎技术;

当输出值M=(0.4,0.6];则不确定所述技术是否为引擎技术;

当输出值M=[0,0.4];则说明所述技术为非引擎技术。

有益效果:与现有技术相比,本发明的有益效果:

1、本发明实现了对引擎技术识别中多源异构数据的有效融合与应用方法的探索,利用数据融合计算思想,对多源异构数据环境下引擎技术进行数字计算,从而可以准确识别改技术点是否具有高引领性、高带动性、高潜力性、高价值性。具体的,高引领性包括产业优势性、科学研究引领性、科学研究创新性;高带动性包括技术领域覆盖范围、行业拓展程度;高潜力性包括技术前瞻性、技术活跃性、技术期望度;高价值性包括技术市场化程度、技术规模性、技术应用性;

2、本发明通过对海量数据融合分类中提取相关数据信息,将对未来引擎技术从细微处捕捉,对技术点进行分析,并通过多个维度对技术点的指标参数进行识别,获取后的数据依次经过量化和标准化处理,从而方便后期引擎技术识别输出模型的建立,对引擎技术进行预测;通过对多源异构的复杂数据环境下识别具有强关联带动性和产业影响力的引擎技术方面具有一定的指导及借鉴意义。

附图说明

图1为本发明的流程图;

图2为多源异构数据融合下的技术点可量化指标体系图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1-2:本发明提供一种基于多源数据融合计算的领域引擎技术识别方法,包括以下步骤:

S1:基于数据库中海量多源异构数据,获取对应技术的指标参数信息;

S2:构建所述技术具有可计算的量化识别指标体系,将步骤S1中的指标参数进行量化;

S3:对步骤S2中指标参数的计算结果进行标准化处理;

S4:将标准化处理后的指标参数,通过建立的引擎技术识别模型,对指标参数进行分配权重,从而获得输出值,由输出值判断所述技术是否为引擎技术。

多源数据类型包括绝对数值型、区间型[-∞,+∞]、0-1整数型、占比型。

根据所述步骤S1中所述技术的指标参数信息包括:

技术新闻数量:通过新闻媒体平台等发布所述技术的新闻数量;

平均技术专利数量:所述技术所在的技术领域在一定时间段内每年相关专利平均授权数量;

专利市场价值覆盖范围专利被引率:所述技术所在技术领域内相关专利被引用的频率;

专利转化率是指所述技术所在的技术领域下的相关专利发生转移的情况;

技术成熟度是指所述技术在未来的发展潜力;

相关专利新颖度:所述技术所在技术领域的技术类别分布判断技术的成长性;

专利市场价值覆盖范围:所述技术所在技术领域下相关专利在我国GDP与发达国家GDP的比值;

创新度技术成长率:所述技术在一定时间段内申请积累量和授权积累量的比例;

横纵向项目数量:通过所述技术所获国家或企业基金项目数量;

论文平均被引次数:采用所述技术撰写的论文被引从次数;

产学研合作比率:校企合作的论文占所有采用所述技术撰写论文的比例;

技术领域覆盖范围:所述技术主题下的相关专利技术领域分布数量;

行业拓展程度:通过所述技术专利数量增长速度,反映技术拓展速度。

优选地,所述步骤S2中构建三级量化识别指标体系,具体包括以下步骤:

根据近三年内关于所述技术新闻数量,计算技术新闻增长率量化指标N,其计算公式为:

其中,N

根据近三年涉及所述技术的相关专利数量,计算平均技术专利数量量化指标ZCS,其计算公式如下:

其中,ZCS

专利市场价值覆盖范围量化指标ZGDP

其中,GDP

专利被引率量化指标PCS计算公式如下:

其中,PCS

专利转化率PTS量化指标计算公式如下:

其中,PTSN为近三年所述技术相关专利发生专利转移的专利数量,TSN为指定时段内所述技术相关许可专利数量;

技术成熟度量化指标ZS具体计算公式为:

其中,M

相关专利新颖度量化指标ZN具体计算公式为:

其中,C={1,2,……,i},1≤i;具体为,C为所述技术发展的所有年度数学集合,i表示在集合C的第i年度,Y

其中创新度量化指标ZO具体计算公式为:

其中,B

其中,TN为所述技术在当年专利申请数量,TA为所述技术在近三年专利申请数量;

项目数量增长率量化指标具体计算公式为:

其中,TC

论文平均被引次数PCI

其中,PC为所述技术在近三年内科技论文中被引次数,n为指定时段下所述技术的相关论文被引次数,该指标值越大,说明所述技术的科学研究创新性越高;

相关论文数量增长率PGR量化指标具体计算公式为:

其中,PGR

产学研合作比率TRCR量化指标计算公式为:

其中,TRCN是所述技术在相关论文中作者单位出现企业和高校研究所的数量,PR是所述技术在指定时段下相关科技论文总数量;

行业拓展程度为技术领域增长率TFGR量化指标具体计算公式为:

其中,TFGR

对指标参数计算结果进行标准化处理,不同数据类型的标准化处理方法如下:

S31:当指标数据为0-1型数据:0-1型数据由于结果本身已映射在[0,1]区间内,不需要进一步进行标准化处理;

S32:当指标数据为区间型[-∞,+∞]数据:由于区间型[-∞,+∞]数据不在区间范围[0,1]内,需要进行标准化处理。

公式中X

S33:当指标数据为占比型数据:占比型数据不严格落在[0,1]标准化区间范围内,需进行标准化处理:

公式中X

S34:当指标数据为绝对数值指标:绝对数值类型指标处理分为两部分,平均技术专利数量横纵向项目数量、项目数量增长率、论文平均被引次数以平均值参考值进行标准化处理,步骤如下:

公式中X

S35:专利市场价值覆盖范围数据指标和技术领域覆盖范围不适合平均值进行标准化,需单独划设阈值进行标准化处理:

专利市场价值覆盖范围量化数据指标标准化处理如下:

公式中X

S36:技术领域覆盖范围量化数据指标标准化处理如下:

公式中X

所述步骤S4包括以下步骤:

S41:建立引擎技术识别输出模型;通过输出函数确定所述技术的输出值,具体输出函数如下所示:

式中,k指代具体某类具体所述技术,所述技术中对应标准化指标参数为c

S42:明确步骤S2中可计算性的量化识别指标体系下的各指标数据类型,并通过量化指标体系进行计算,通过指标数据类型对其重新分类,一一映射在对应到步骤S41中,确定j的分类,并将对应的指标数据对应导入c

S43:基于主观赋权法思想,使用层次分析法,确定在所述技术在预测领域范畴下的引擎识别技术指标的权重,对权重计算结果进行标准化取值,一一映射在对应到步骤S41中h

S44:通过步骤S42和步骤S43确定指标数据c

所述步骤S44中对输出值建立的识别区间,具体为:

当输出值M=(0.6,1.0];则说明所述技术为引擎技术;

当输出值M=(0.4,0.6];则不确定所述技术是否为引擎技术;

当输出值M=[0,0.4];则说明所述技术为非引擎技术。

具体如表1所示:

表1:输出值预测参考表

实施例1:本发明提出一种基于多源数据融合计算的领域引擎技术识别方法,以遥感技术领域为例,具体包括以下步骤:

步骤1:遥感技术领域下的多源异构指标参数信息具体包括:技术新闻数量、平均技术专利数量、专利市场价值覆盖范围专利被引率、专利转化率技术成熟度、相关专利新颖度、创新度技术成长率横纵向项目数量、论文平均被引次数产学研合作比率、技术领域覆盖范围、行业拓展程度参数信息。遥感领域所需的多源数据具体包括科学论文数据、新闻数据、发明专利数据、科研项目数据,遥感数据来源具体包括WOS科学论文数据、ProjectGate全球科研项目数据库、CSA新闻数据库。数据类型包括绝对数值型、区间型、0-1整数型、占比型。

步骤2:构建具有可计算性的量化识别指标体系,以选取的遥感技术领域为例,具体各量化指标的计算结果,如表2所示:

步骤3:对上述指标计算结果进行标准化处理,将数据处理成0-1之间的数据,因此可根据数据类型的不同选择不同的处理方式,具体数据有计算机可得,如表2所示:

步骤4:基于主观赋权法思想,使用层次分析法,确定在所述技术在预测领域范畴下的引擎识别技术指标的权重,对权重计算结果进行标准化取值,一一映射在对应到步骤S41中h

表2:某遥感技术领域相关指标参数统计表

步骤5:上述计算的数据通过引擎技术识别输出模型;通过输出函数计算得到的输出值,具体如下所示:

其中,M=0.6443>0.6,因此,遥感技术领域在本发明提出的方法中识别为引擎技术,识别结果与现实实际情况相符。

以上实施例仅为详细阐述本发明的具体实施方式,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

技术分类

06120115691526