基于智能模型的领域高颠覆性专利预测方法及系统

文献发布时间：2024-04-18 20:02:18

技术领域

本发明属于技术先进性评估的技术领域，具体涉及一种基于智能模型的领域高颠覆性专利预测方法及系统。

背景技术

颠覆性技术作为技术创新的重要抓手，思考如何抓住颠覆性技术发展方向，识别可能产生颠覆的技术主题、学科领域、行业和产业方向，对于国家增强综合科技实力，企业提升核心竞争力，高校提高科技成果转移转化成效有着重要的理论意义和实践意义。目前国内外关于前沿先进技术的识别主要是基于专家意见的德尔菲法、技术路线图及情景分析法等定性方法来进行尝试性探索，而且主要聚焦在对于新兴技术的识别研究，对于颠覆性技术的测定较少。如专利文献CN 107220320B公开了基于专利引文的新兴技术识别方法，S1特征化专利引文数据库；S2将在T+1年公布的每一项专利依据其主分类号进行分组，将分组记为Gy；S3如果该主分类号是T+1年新建立的，将Gy标注为新技术分组，否则记为非新技术分组；S4对于T年中所有专利根据专利引文特征向量进行聚类，将聚簇记为Cx；S5计算T年的任一C′x与T+1年所有分组Gy的专利同引的耦合度；S6找到与C′x专利同引的耦合度最高的分组G′y；S7如果G′y为新兴技术分组，将聚簇C′x标记为新兴技术，否则标记为非新兴技术；S8跳转步骤S4，直至T年所有的聚簇Cx被标记完毕；S9跳转步骤S1，直至专利数据除了年份最大的其他专利都完成聚类与标注；S10采用标注数据训练分类器；S11使用该分类器判定基于专利引文特征向量的聚簇是否为新兴技术。

此外，专利文献CN 114969251 A公开了一种基于大规模语料的新兴技术识别方法和装置，该方法包括：确定研究领域构建候选文献集，并对候选文献集进行关键词提取，以获得候选关键词数据集；根据候选文献集中候选文献数量以及关键词的相关信息对候选关键词数据集进行过滤，得到候选关键词过滤集；计算候选关键词过滤集中各关键词的新兴分数值；基于各关键词的新兴分数值和设定的新兴分数阈值对候选关键词过滤集进行筛选，得到候选新兴技术关键词数据集；采用动态回溯法对候选新兴技术关键词数据集进行处理，获得目标新兴技术关键词数据集，提高了新兴技术识别准确度。

虽然上述对前沿先进技术识别的方法流程简单，方法操作性较强，但是其识别方法较为单一，容易出现较多的误识别，从而使得预测的结果精度较低；也有发明人尝试通过构建计量模型、数据挖掘、统计等方法进行量化分析，但是存在分析的角度不够全面、算法模型有待优化等不足；此外，大部分发明人停留在对技术的识别阶段，分析的深度较浅，对技术进行测度研究的较少，总体上，尚未形成系统的、通用性和可操作性较强的颠覆性技术测度方法体系。

发明内容

本发明的目的在于针对现有技术的不足之处，提供一种基于智能模型的领域高颠覆性专利预测方法，该方法对于复杂不确定环境下的颠覆性技术识别效果较好，提高了潜在颠覆性技术测度的准确性。

为解决上述技术问题，本发明提供一种基于智能模型的领域高颠覆性专利预测方法，包括如下步骤：

步骤1、获取用户发布的颠覆性技术预测任务；

步骤2、根据颠覆性技术预测任务所属的技术领域从专利库中获取相关的专利并构建为专利数据集，利用SVM分类算法对专利数据集进行分类得到各类别的子数据集，构建LDA主题模型，采用LDA主题模型对各类别的子数据集进行技术主题提取并输出技术主题提取结果；

步骤3、构建颠覆性技术测度评分模型，采用颠覆性技术测度评分模型对提取的技术主题进行综合评分，筛选出综合评分排名前列的技术主题并整理其对应的专利文本；

步骤4、提取步骤3中筛选出的专利文本中的关键词，并统计步骤3筛选出的各技术主题对应类别的主题词，计算各专利文本的关键词与各对应类别的主题词之间的相似度，选取与类别主题词相似度最大的专利文本及其所属技术领域作为预测结果进行输出。

进一步地，步骤2采用SVM分类算法对专利数据集进行分类的方法为：获取与颠覆性技术预测任务的技术主题领域相关的专利将其构建为专利数据集，并调用与技术主题领域相对应的技术基础类别划分标准文件，采用SVM分类算法根据技术基础类别划分标准文件对专利数据集进行分类，得到各类别的子数据集。

进一步地，颠覆性技术测度评分模型的构建方法为：

首先，基于技术主题提取结果从多维度构建测度指标；

其次，基于层次分析法对每个技术主题的各个测度指标的重要性进行评价，得到各个测度指标的优先级权重W

再次，基于熵权法对各个测度指标的贡献度进行评价，得到各个测度指标的权重W

之后，基于总体偏差最小原则计算权重W

最后，根据组合权向量w对各个测度指标赋予相应的权重,再对各测度指标进行加权求和得到每个技术主题的综合得分。

进一步地，从技术融合性、技术创新性、技术重要性、技术突破性四个维度构建测度指标。

进一步地，技术融合性是从接近中心性和IPC类别平均数量进行测度，其中接近中心性的计算公式为：

技术创新性是采用结构洞指标来测度的，约束度、等级度和有效规模是结构洞指数典型指标，其公式如下所示：

式中，C

式中，YI

式中，YX

进一步地，技术重要性是利用度中心性和接近中心性来量化技术主题权利，其中，度中心性的计算公式为：

式中，DC

接近中心性的计算公式为：

式中，CC

技术突破性的测定是用K均值方法来进行技术异常检测，计算公式为：

式中，dist(x,y

进一步地，基于层次分析法得到优先级权重W

第一步，构建两两比较判断矩阵；根据各指标间的相对重要性建立判断矩阵X；然后采用特征值法计算出判断矩阵X的最大特征值λ

第二步，进行一致性检验；判断矩阵要求具有一致性和传递性，一致性指标CI＝(λ

第三步，计算一致性比例；如果一致性比例CR<0.1，则认为判断矩阵的一致性可以接受，否则需要对判断矩阵进行修正；CR＝CI/RI，其中，RI为随机一致性指标；

第四步：对判断矩阵求最大特征值以及对应的特征向量；当特征值为n时，对应的特征向量为

第五步，归一化处理；对求出的特征向量进行归一化处理，求得权重W

进一步地，基于熵权法得到权重W

第一步，对指标数据标准化处理，其计算公式为：

式中x

第二步，指标数据归一化处理；对标准化后的数据归一化，计算概率值，公式为：

第三步，求各指标的信息熵值；根据信息论中信息熵的定义，信息熵E

第四步：确定各指标的权重，公式如下：

进一步地，步骤4包括如下步骤：

对筛选出的专利文本摘要进行处理从而提取关键词集S；

采用LDA模型提取步骤3筛选出的技术主题对应类别的主题词向量集合T，并将主题词的TF-IDF值作为主题词对类别的贡献度；

将提取的关键词进行词向量表示，假定专利文本的关键词向量为Si，其对应技术主题类别的主题词向量为T

其中，ST

每个关键词与类别的相似度计算如公式为：

h(ST

其中，h(ST

进而得到专利文本到类别的相似度为：

其中，Z(ST)表示专利文本到类别的相似度，m为关键词的个数；

最后，选取与类别主题词相似度最大的专利文本及其所属技术领域作为预测结果进行输出。

本发明的另一个目的是提供一种根据上述的基于智能模型的领域高颠覆性专利预测方法的系统，包括：

用户终端，用于供任务发布者通过通讯网络来发布颠覆性技术预测任务；

技术主题提取模块，用于根据颠覆性技术预测任务所属的技术领域从专利库中获取相关的专利并构建为专利数据集，利用SVM分类算法对专利数据集进行分类得到各类别的子数据集，构建LDA主题模型，采用LDA主题模型对各类别的子数据集进行技术主题提取并输出技术主题提取结果；

技术主题筛选模块，用于构建颠覆性技术测度评分模型，并采用颠覆性技术测度评分模型对提取的技术主题进行综合评分，筛选出综合评分排名前列的技术主题并整理其对应的专利文本；

预测结果获得模块，用于提取筛选出的专利文本中的关键词，并统计筛选出的各技术主题对应类别的主题词，计算各专利文本的关键词与各对应类别的主题词之间的相似度，选取与类别主题词相似度最大的专利文本及其所属技术领域作为预测结果进行输出。

与现有技术相比，本发明的有益效果为：

1、本发明先通过机器学习算法对专利数据集进行分类和技术主题提取，再构建用颠覆性技术测度评分模型，采用颠覆性技术测度评分模型对提取的技术主题进行综合评分，从综合评分中筛选出排名前10％的技术主题及其对应的专利文本，最后通过计算类别的主题词与专利文本关键词之间的相似度得到最终的预测结果，其遵循“识别→测度”这一思路，将SVM-LDA、指标体系构建模型、余弦相似度算法这三种研究方法进行了一定的组合，创新地提出了一种进行颠覆性技术识别的方法体系，其对于识别复杂不确定环境下的潜在颠覆性技术效果较好，提高了颠覆性技术识别的准确率；

2、另外，本发明基于智能模型挖掘出与潜在颠覆性技术主题相关的专利，对于促进解决相关机构专利转移转化难的问题有重要的实践价值。

附图说明

图1为本发明实施例基于智能模型的领域高颠覆性专利预测方法的流程图；

图2为本发明实施例基于相似度筛选预测结果的流程图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例对本发明作进一步说明，但不作为本发明的限定。

如图1所示，本发明实施例提供一种基于智能模型的领域高颠覆性专利预测方法，包括如下步骤：

步骤1、获取用户发布的颠覆性技术预测任务；

用户根据自身需要发布一个或多个颠覆性技术预测任务(例如人工智能领域技术预测)。

在该步骤中，获取与颠覆性技术预测任务的技术主题领域相关的专利构建为专利数据集，并调用与技术主题领域相对应的技术基础类别划分标准文件，技术基础类别划分标准文件为在参考专利IPC分类号的基础上来制定的。根据术基础类别划分标准文件采用SVM分类算法对专利数据集进行分类得到各类别的子数据集。再对各类别的子数据集中的专利进行文本向量化处理。其中，在本实施例中，采用文本特征向量化方法对专利进行文本向量化处理，其处理逻辑为评估词对一个文件集或一个语料库中的一份文件的重要程度，计算公式为:

构建LDA主题模型，将文本向量化后的子数据集输入到LDA主题模型中进行技术主题提取，并输出技术主题提取结果。本实施例中的LDA主题提取模型可以将文档集中的每篇文档的主题以概率分布的形式给出算法，该算法认为一篇文章的每个词都是通过“一篇文档以一定的概率选择了某个主题，这个主题又以一定的概率选择某个词语”这样一个过程得到的，LDA主题提取模型提取的公式如下所示：

在本实施例中，构建颠覆性技术测度评分模型包括如下步骤：

首先，基于技术主题提取结果从多维度构建测度指标，在本实施例中，从技术融合性、技术创新性、技术重要性、技术突破性四个维度构建测度指标，各指标的计算公式如下所示：

1)技术融合性是从接近中心性和IPC类别平均数量这两个维度来测度，其中接近中心性的计算公式为：

式中，AA

IPC类别平均数量通过采用每个技术主题下的IPC类别数量除以总的IPC类别数量计算得到。

2)技术创新性是采用结构洞指标来测度的，约束度、等级度和有效规模是结构洞指数典型指标，技术主题的等级度越小，技术主题网络能力越强，对其他技术主题的依赖程度越小，技术主题的创新性越强；而有效规模的测度则刚好相反，有效规模的数据越大，技术主题获取非冗余信息能力越强，实现技术创新的可能性越高。约束度、等级度和有效规模的具体公式如下所示：

式中，C

式中，YI

式中，YX

3)技术重要性的测定思路是利用度中心性和接近中心性来量化技术主题权利，识别地位显著的技术主题，其中，度中心性描述单个技术主题在网络中的核心位置；接近中心性描述的是节点传递信息的能力，接近中心性越高，信息传递能力越强，居于网络中心的可能性越大，重要性就越强；度中心的计算公式为：

接近中心性的计算公式为：

CCi表示颠覆性技术列表中技术主题i的接近中心性，d

4)技术突破性的测定是用K均值方法来进行技术异常检测：

式中，dist(x,y

其次，基于层次分析法对每个技术主题的各个测度指标的重要性进行评价，得到各个测度指标的优先级权重W

第一步，构建两两比较判断矩阵；根据各指标间的相对重要性并采用1～9比例标度法建立判断矩阵X；然后采用特征值法计算出判断矩阵X的最大特征值λ

第二步，进行一致性检验；判断矩阵要求具有一致性和传递性，本实施例对判断矩阵进行一致性检验的目的是为了保证其在逻辑上的合理性，一致性指标CI＝(λ

第三步，计算一致性比例；如果一致性比例CR<0.1，则认为判断矩阵的一致性可以接受，否则需要对判断矩阵的值进行修正；CR＝CI/RI，其中，RI为随机一致性指标；

第四步，求判断矩阵的最大特征值以及对应的特征向量；当特征值为n时，对应的特征向量为

第五步，归一化处理；对求出的特征向量进行归一化处理，求得权重W

再次，基于熵权法对各个测度指标的贡献度进行评价，得到各个测度指标的权重W

第一步，对指标数据标准化处理，其计算公式为：

式中，x

第二步，指标数据归一化处理；对标准化后的数据归一化，计算概率值，公式为：

第三步，求各指标的信息熵值；根据信息论中信息熵的定义，信息熵E

第四步：确定各指标的权重，公式如下：

之后，基于总体偏差最小原则计算权重W

w＝Wα；

其中，W＝(W

求解组合赋权模型可获得线性组合系数向量α，再根据组合权重计算方法求得组合权向量w。

最后，根据组合权向量w对各个测度指标赋予相应的权重,再对各测度指标进行加权求和得到每个技术主题的综合得分，并对综合得分按照从大到小的顺序对技术主题进行排序。筛选出综合评分排名前10％的技术主题为潜在颠覆性技术主题，并整理潜在颠覆性技术主题对应的专利文本。

步骤4、提取步骤3中筛选出的专利文本中的关键词，并统计步骤3筛选出的各技术主题对应类别的主题词，计算各专利文本的关键词与各对应类别的主题词之间的相似度，选取与类别主题词相似度最大的专利文本及其所属技术领域作为预测结果进行输出；如图2所示，该步骤具体包括：

1)关键词提取

基于文本挖掘TF-IDF技术对步骤3筛选的专利文本摘要进行处理从而提取关键词集S，具体实施方法为：首先，计算词频TF；接着，计算逆文档频率IDF；最后，计算TF-IDF。在此基础上，按照降序排列，取排在最前面的TOP-N关键词；

2)类别主题词统计和贡献度

采用LDA模型提取步骤3筛选出的技术主题对应类别的主题词词向量集合T，并将主题词的TF-IDF值作为主题词对类别的贡献度，为后续加权相似度计算做铺垫。在该步骤中，获取主题词集T的方法为：将步骤3筛选的各子类别数据集输入到LDA主题模型中，所述LDA主题模型会创建TF-IDF模型，将词语转换成词向量矩阵，最终输出各技术主题和对应的主题词向量集合T；

3)词语向量表示

在进行关键词提取之后，需要对关键词进行词向量表示，为实现关键词到类别主题词的加权相似度计算做铺垫。这里是选取word2vector模型进行词向量表示，该语言模型是基于CBOW模型或Skip-gram模型对词语进行训练，侧重的功能分别是根据上下文词语来预测中间词语或者利用当前词来推测上下文中的相关词汇；

4)关键词到类别的加权相似度计算

假定专利文本的关键词向量为S

其中，ST

每个关键词与到其专利文本所属类别的相似度计算如公式为：

h(ST

其中，h(ST

进而得到专利文本到其所属类别的相似度为：

其中，Z(ST)表示专利文本到类别的相似度，m为关键词的个数；

最后，选取与类别主题词相似度最大的专利文本及其所属技术领域作为预测结果进行输出。

本发明实施例还提供一种根据上述的基于智能模型的领域高颠覆性专利预测方法的系统，包括：

用户终端，用于供任务发布者通过通讯网络来发布颠覆性技术预测任务；

技术主题筛选模块，用于构建颠覆性技术测度评分模型，并采用颠覆性技术测度评分模型对提取的技术主题进行综合评分，筛选出综合评分排名前10％的技术主题并整理其对应的专利文本；

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

完整全部详细技术资料下载