掌桥专利:专业的专利平台
掌桥专利
首页

基于专利的技术图谱的绘制方法、装置、介质及电子设备

文献发布时间:2023-06-19 18:46:07


基于专利的技术图谱的绘制方法、装置、介质及电子设备

技术领域

本申请涉及技术图谱技术领域,具体涉及基于专利的技术图谱的绘制方法、装置、介质及电子设备。

背景技术

技术图谱是一种特殊的知识图谱,技术图谱的实现原理是基于复杂网络技术,通过对技术领域、科技成果(论文、专利、成果等)、作者、研究机构以及关键词的关系分析,发现技术研究的走向或技术趋势性线索,识别关键和热点技术的网络分布。随着专利技术竞争情报的发展需求,技术图谱越来越多的被应用在专利领域,通过构建技术图谱,分析专利技术之间的联系和发展状况,较好的确定自身技术发展的方向。

但是通常情况下,通过从一篇专利中提取技术特征词,从另一篇专利中也提取技术特征词,借助两篇专利相同的技术特征词来建立专利的技术图谱。这种方式构建技术图谱只考虑到技术特征词对应的各技术点的关系,没有考虑到专利本身技术之间的联系,导致绘制的技术图谱的参考性较低。

发明内容

为了在绘制专利的技术图谱时较好考虑到专利本身技术之间的联系,提升技术图谱的参考性,本申请提供一种基于专利的技术图谱的绘制方法、装置、存储介质及电子设备。

在本申请的第一方面提供了一种基于专利的技术图谱的绘制方法,具体包括:

获取目标专利的主分类号和多个技术特征词;

获取与所述目标专利的主分类号一致的专利合集,从所述专利合集中筛选出与所述目标专利关联的相似领域专利合集;

通过关键词权重算法计算所述多个技术特征词的第一权重,根据各所述第一权重在所述多个技术特征词中确定关键技术特征词;

将所述关键技术特征词作为技术图谱的节点,绘制所述目标专利与所述相似领域专利合集中各专利的技术图谱。

通过采用上述技术方案,获取主分类号与目标专利一致的专利合集,使得将主要技术领域与目标专利一致的专利查找出来,从专利合集中进一步筛选出涉及的技术领域与目标专利更为接近的相似领域专利合集,接着采用关键词权重算法计算出目标专利中多个技术特征词的第一权重,从各个第一权重中选取较大的第一权重,将较大的第一权重对应的技术特征词确定为目标专利的关键技术特征词,剔除多种技术特征词中和专利关键技术联系较小的技术特征词。最后将关键技术特征词作为技术图谱的节点,将节点作为纽带,将目标专利与相似领域专利合集中的出现关键技术特征词的专利建立联系,并绘制技术图谱,使得绘制的技术图谱联系较紧密,进而提高技术图谱的参考性。

可选的,所述获取与所述目标专利的主分类号一致的专利合集,从所述专利合集中筛选出与所述目标专利关联的相似领域专利合集,包括:

获取与所述目标专利的主分类号一致的专利合集,提取所述专利合集中专利的申请人名称;判断各所述申请人名称是否为公司名称;

若是,则从所述公司名称对应的官网中提取第一技术关键词;

计算所述第一技术关键词与所述多个技术特征词的第一目标相似度,若存在超过相似度阈值的第一目标相似度,则将所述专利合集中所述第一目标相似度对应的专利作为相似领域专利合集。

通过采用上述技术方案,主分类号与目标专利一致的专利合集确定后,接着将专利合集中的专利的申请人名称分别进行类型判断,如果申请人名称为公司名称,则从公司对应的官网中提取与公司所涉细分领域相关的第一技术关键词,能够精细化的反映专利所涉的技术领域。最后计算第一技术关键词与目标专利中多个技术特征词的相似度,如果存在与其中一个技术特征词相似度较高的情况,说明专利合集中的该专利与目标专利的技术领域更为接近,则将该专利作为相似领域专利合集,从而使得相似领域专利合集中的专利的技术与目标专利联系更为紧密。

可选的,所述判断各所述申请人名称是否为公司名称之后,还包括:

若否,则从所述申请人名称对应的专利中提取发明人名称,并与所述申请人名称组合为身份信息;

搜索所述身份信息对应的期刊论文,并提取所述期刊论文中的第二技术关键词,计算所述第二技术关键词与所述多个技术特征词的相似度;

若存在超过相似度阈值的第二目标相似度,则将所述专利合集中所述第二目标相似度对应的专利作为相似领域专利合集。

通过采用上述技术方案,如果申请人名称不为公司名称,而是高校名称或医院名称等,仅通过申请人名称无法较好的筛选出与目标专利的技术领域更为接近的专利。接着提取该专利的发明人名称,根据专利的发明人名称和申请人名称查找到对应的期刊论文,从中提取的第二技术关键词,能较好地反映发明人专攻的细分技术领域,如果第二技术关键词与多个技术特征词的相似度存在超过相似度阈值的情况,说明该专利与目标专利的技术领域更为接近,则将该专利作为相似领域专利合集,从而使得相似领域专利合集中的专利的技术与目标专利联系更为紧密。

可选的,所述获取与所述目标专利的主分类号一致的专利合集,从所述专利合集中筛选出与所述目标专利关联的相似领域专利合集,包括:

获取与所述目标专利的主分类号一致的专利合集,统计所述专利合集中与所述目标专利共有分类号的数量;

将各所述共有分类号的数量与数量阈值进行对比;

将所述专利合集中共有分类号的数量大于数量阈值的专利组合为相似领域专利合集。

通过采用上述技术方案,主分类号与目标专利一致的专利合集确定后,分别统计专利合集中各专利与目标专利共有分类号的数量,接着一一与数量阈值进行对比,如果大于数量阈值,说明此专利涉及的技术领域与目标专利的技术领域交叉较多,技术联系可能更为紧密,最后将此类专利组合起来作为相似领域专利合集,从而使得相似领域专利合集中的专利的技术与目标专利联系更为紧密。

可选的,所述通过关键词权重算法计算所述多个技术特征词的第一权重,根据各所述第一权重在所述多个技术特征词中确定关键技术特征词,包括:

通过关键词权重算法,计算所述多个技术特征词的第一权重,将各技术特征词的第一权重分别与权重阈值对比;

从所述多个技术特征词中筛选出第一权重大于权重阈值的第一特征词合集,并确定为关键技术特征词;

从所述多个技术特征词中筛选出第一权重不大于权重阈值的第二特征词合集,筛选出所述第二特征词合集中与所述第一特征词合集中技术特征词相似度超过相似度阈值的技术特征词,并确定为关键技术特征词。

通过采用上述技术方案,计算出每个技术特征词的第一权重后,将各个第一权重分别与权重阈值进行对比,如果第一权重大于权重阈值,说明此第一权重对应的技术特征词对于专利本身的技术较为重要,将这类型的技术特征词筛选出来组合为第一特征词合集,将确定为关键技术特征词;如果第一权重小于等于权重阈值,说明此第一权重较小,此第一权重对应的技术特征词对于专利本身的技术并不重要,将这类型的技术特征词筛选出来组合为第二特征词合集,如果第二特征词合集中的技术特征词与第一特征词合集中的技术特征相似度超过相似度阈值,说明两者虽然不是相同的技术特征词,但是语义一致,可以视为专利中的同一技术特征,最后将第二特征词合集中这类型的技术特征词也确定为关键技术特征词。从而使得筛选出来的关键技术特征词较为全面。

可选的,所述将所述关键技术特征词作为技术图谱的节点,绘制所述目标专利与所述相似领域专利合集中专利的技术图谱,所述关键技术特征词包括至少一个,包括:

将各所述关键技术特征词作为技术图谱的节点,从所述相似领域专利合集中筛选出所述关键技术特征词出现次数超过预设值的关联专利;

根据关键词权重算法,计算同一关键技术特征词在所述关联专利中的第二权重;

将各所述第二权重和各所述第一权重组成专利关联矩阵,根据所述专利关联矩阵,绘制所述目标专利和所述相似领域专利中专利的技术图谱,所述专利关联矩阵行和列表示节点和专利。

通过采用上述技术方案,将关键技术特征词作为技术图谱的节点后,从相似领域专利合集中找出出现关键技术特征词且出现频次超过预设值(出现频次较高)的专利,作为目标专利的关联专利,接着分别计算关键技术特征词在所出现的关联专利中第二权重,最后将各个第二权重和第一权重组成关联矩阵,根据关联矩阵绘制目标专利的技术图谱,从而使得技术图谱中的目标专利与各专利本身技术之间的联系较为紧密,进而使得技术图谱的参考性较强。

可选的,所述关键词权重算法为:

Wid=TFid*log(N/DFi),其中,TF

通过采用上述技术方案,关键词权重算法可以较为准确的评估字词在一个文件集或一个语料库中的其中一份文件的重要程度。在本方案中,可以较为准确的评估多个技术特征词在目标专利中的重要程度,也可以准确的评估关键技术特征词在所出现的专利中(相似领域专利合集中的专利)的重要程度。

在本申请的第二方面提供了一种基于专利的技术图谱的绘制装置,具体包括:

专利信息获取模块,用于获取目标专利的主分类号和多个技术特征词;

专利合集筛选模块,用于获取与所述目标专利的主分类号一致的专利合集,从所述专利合集中筛选出与所述目标专利关联的相似领域专利合集;

关键特征词确定模块,用于通过关键词权重算法计算所述多个技术特征词的第一权重,根据各所述第一权重在所述多个技术特征词中确定关键技术特征词;

技术图谱绘制模块,用于将所述关键技术特征词作为技术图谱的节点,绘制所述目标专利与所述相似领域专利合集中各专利的技术图谱。

通过采用上述技术方案,专利信息获取模块获取到目标专利的分类号和多个技术特征词后,由专利合集筛选模块从与目标专利主分类号一致的专利合集中筛选出与目标专利技术领域接近的相似领域专利合集,接着通过关键特征词确定模块计算每个技术特征词的第一权重,并根据第一权重最终确定关键技术特征词,最后技术图谱绘制模块将关键技术特征词作为节点,绘制得到目标专利与相似领域专利合集中专利的技术图谱。

综上所述,本申请包括以下至少一种有益技术效果:

获取主分类号与目标专利一致的专利合集,使得将主要技术领域与目标专利一致的专利查找出来,从专利合集中进一步筛选出涉及的技术领域与目标专利更为接近的相似领域专利合集,接着采用关键词权重算法计算出目标专利中多个技术特征词的各个第一权重,选取各个第一权重中较高的确定为目标专利的关键技术特征词,剔除多个技术特征词中和专利关键技术联系较小的技术特征词。最后将关键技术特征词作为技术图谱的节点,将节点作为纽带,将目标专利与相似领域专利合集中的出现关键技术特征词的专利建立联系,并绘制技术图谱,使得绘制的技术图谱联系较紧密,进而提高技术图谱的参考性。

附图说明

图1是本申请实施例提供的一种基于专利的技术图谱的绘制方法的流程示意图;

图2是本申请实施例提供的另一种基于专利的技术图谱的绘制方法的流程示意图;

图3是本申请实施例提供的又一种基于专利的技术图谱的绘制方法的流程示意图;

图4是本申请实施例提供的一种基于专利的技术图谱的绘制装置的结构示意图。

附图标记说明:11、专利信息获取模块;12、专利合集筛选模块;13、关键特征词确定模块;14、技术图谱绘制模块。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。

在本申请实施例的描述中,“示性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

参见图1,本申请实施例公开了一种基于专利的技术图谱的绘制方法的流程示意图,可依赖于计算机程序实现,也可运行于基于冯诺依曼体系的基于专利的技术图谱的绘制装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行,具体包括:

S101:获取目标专利的主分类号和多个技术特征词。

具体的,技术图谱是显示科学知识的发展进程与结构关系的一种图形。用可视化技术描述人类随时间拥有的知识资源及其在载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互关系。在本申请实施例中,技术图谱是用一个个节点作为纽带建立目标专利与其他专利之间的相互关系。

主分类号为专利的第一个分类号。分类号又称国际专利分类(InternationalPatent Classification,IPC)分类号,IPC对于海量专利文献的组织、管理和检索,做出了不可磨灭的贡献。当专利涉及的技术领域存在多个时,分类号就存在多个。主分类号表征的为专利的主要技术领域。技术特征词为解决发明创造技术问题的技术方案对应的关键词。获取目标专利的主分类号的方式为:从目标专利的文本信息中以“Int.Cl.”为搜索关键词,搜索得到目标专利的分类号,接着提取分类号中的排序第一的分类号作为目标专利的主分类号。另外,按照“发明名称”,“摘要”,“权利要求书”,“技术领域”,“背景技术”,“发明内容”,“具体实施方式”等为关键词,将目标专利的文本信息划分多个区域,接着通过分词技术将“发明名称”对应的区域的文本信息划分为三部分,提取中间部分作为技术特征词,例如,发明名称为一种数据发送方法,划分为一种,数据发送,方法,提取“数据发送”为技术特征词。将“权利要求书”对应的区域的文本信息提取包含“所述”的关键词,将所述后面的作为技术特征词。

S102:获取与目标专利的主分类号一致的专利合集,从专利合集中筛选出与目标专利关联的相似领域专利合集。

具体的,获取到目标专利的主分类号后,将主分类号作为匹配条件,通过专利数据库平台,查找文本内容中包含主分类号的专利,将查找出来的专利整理为专利合集。接着目标专利的所有分类号与专利合集中每个专利的所有分类号进行比较,如果存在共有分类号且共有分类号的数量超过数量阈值,说明目标专利与专利合集中的该专利技术关联程度更高。数量阈值为预设的固定值,是共有分类号的数量临界值,用于衡量两篇专利关联性高低的。共有分类号为两篇专利的文本信息中同时出现的分类号。最后将专利合集中的此类型的专利筛选出来整理为相似领域专利合集。

S103:通过关键词权重算法计算多个技术特征词的第一权重,根据各第一权重在多个技术特征词中确定关键技术特征词。

具体的,关键词权重算法,即(Term Frequency–Inverse Document Frequency,TF-IDF)算法,是一种统计方法,用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,TF是词频(Term Frequency),IDF是逆向文件频率(InverseDocument Frequency),为一个词语普遍重要性的度量。

关键词权重算法表示如下:W

通过此算法公式,将技术特征词在目标专利中出现的频次TF

S104:将关键技术特征词作为技术图谱的节点,绘制目标专利与相似领域专利合集中各专利的技术图谱。

具体的,节点是指技术图谱中的连接点,关系线相交或者分支的点。节点的概念宽泛,它的实用意义依托于技术图谱的内容,在本申请实施例中采用关键技术特征词。在其他实施例中,节点也可以采用分类号。接着将相似领域专利合集中出现了关键技术特征词的专利与目标专利通过关键技术特征词建立关联,并通过关键技术特征词在目标专利中的权重和关键技术特征词在相似领域专利合集中专利的权重组成的矩阵来绘制出目标专利与相似领域专利合集中各专利的技术图谱。需要说明的是,本申请实施例具体采用预置的Bibexcel软件进行技术图谱的绘制,在其他实施例中,也可以采用SPSS软件或者Ucinet软件来绘制技术图谱。

参见图2,本申请实施例公开了另一种基于专利的技术图谱的绘制方法的流程示意图,可依赖于计算机程序实现,也可运行于基于冯诺依曼体系的基于专利的技术图谱的绘制装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行,具体包括:

S201:获取目标专利的主分类号和多个技术特征词。

具体的,可参考步骤S101,在此不再赘述。

S202:获取与目标专利的主分类号一致的专利合集,提取专利合集中专利的申请人名称。

具体的,获取到与目标专利的主分类号相同的专利合集后,用“申请人”作为搜索关键词,搜索到专利合集中专利包含此关键词的内容,并从中提取对应的申请人名称信息。其中,专利的申请人为某项发明创造依法律规定或合同约定享有专利申请权的自然人、法人或者其他组织。其他组织包括公司、高校和医院等。如果申请人为公司,则申请人名称为公司名称;如果申请人为高校或医院,则申请人名称为高校名称或医院名称。

S203:判断各申请人名称是否为公司名称。

S204:若是,则从公司名称对应的官网中提取第一技术关键词。

具体的,提取各专利的申请人名称后,检测申请人名称中是否包含“公司”关键词,如果包含“公司”关键词,确定此专利的申请人名称为公司名称。接着以公司名称为关键词链接到对应的公司官网,从中确定公司介绍区域,从该区域提取反映该公司所涉细分领域的第一技术关键词。例如,公司名称为北京xx科技有限公司,链接到对应的官网,查找到官网中的包含“关于我们”关键词的公司介绍区域,提取该公司介绍区域的文本信息,从文本信息中提取涉及技术领域的第一技术关键词,如“游戏”“云游戏”“编解码”等等,通过这些第一技术关键词可以进一步缩小公司名称对应的专利的技术领域。

S205:计算第一技术关键词与多个技术特征词的相似度,若存在超过相似度阈值的第一目标相似度,则将专利合集中第一目标相似度对应的专利作为相似领域专利合集。

具体的,相似度阈值为判断第一技术关键词与技术特征词是否相同的语义相似度临界值。第一技术关键词确定后,通过语义相似度计算公式:sim(C

在一个可实现的方式中,步骤S203之后,还包括:若否,则从申请人名称对应的专利中提取发明人名称,并与申请人名称组合为身份信息;

搜索身份信息对应的期刊论文,并提取期刊论文中的第二技术关键词,计算第二技术关键词与多个技术特征词的相似度;

若存在超过相似度阈值的第二目标相似度,则将专利合集中第二目标相似度对应的专利作为相似领域专利合集。

具体的,如果专利合集中的专利提取的申请人名称中没有包含“公司”关键词,那么判断此专利的申请人名称不是公司名称,并从此专利中提取发明人名称(通常选取专利中多个发明人的第一个),接着将发明人名称和申请人名称(即发明人所属的单位)组合成身份信息。根据身份信息,通过互联网连接到知网等平台搜索满足身份信息的期刊论文,从期刊论文中提取“关键词”一栏的内容,将“关键词”一栏的内容作为第二技术关键词,并通过步骤S205中提及的语义相似度计算公式,分别计算第二技术关键词与多个技术特征词的相似度(即语义相似度),将相似度与相似度阈值对比,如果存在超过相似度阈值的第二目标相似度,说明此专利的发明人发表的期刊论文的技术领域与目标专利较为接近,进而说明专利合集中的此专利所涉及的技术领域与目标专利较为接近,因此将第二目标相似度对应的专利作为相似领域专利合集。在本申请实施例中,可以将期刊论文“关键词”一栏的内容中的第一个词语作为第二技术关键词,在其他实施例中,也可以将期刊论文“关键词”一栏的内容中的全部词语作为第二技术关键词。

S206:通过关键词权重算法计算多个技术特征词的第一权重,根据各第一权重在多个技术特征词中确定关键技术特征词。

具体的,可参考步骤S103,在此不再赘述。

S207:将各关键技术特征词作为技术图谱的节点,从相似领域专利合集中筛选出关键技术特征词出现次数超过预设值的关联专利。

具体的,多个技术特征词中的关键技术特征词确定后,将关键技术特征词作为技术图谱的节点,并且检测相似领域专利合集中各个专利是否包含有关键技术特征词,如果包含,进一步统计关键技术特征词出现的频次,将统计的频次与预设值进行对比,如果超过预设值,说明出现关键技术特征词的专利与目标专利关联度较高,那么将此专利筛选出来作为目标专利的关联专利;如果未超过预设值,说明出现关键技术特征词的专利与目标专利关联度较低,那么此专利不进行筛选。在本申请实施例中,预设值可以为5,在其他实施例中,预设值也可以为6或者7。

S208:根据关键词权重算法,计算同一关键技术特征词在关联专利中的第二权重。

具体的,从相似领域专利合集中确定关联专利后,根据关键词权重算法,计算每个关键技术特征词对应出现的关联专利中的第二权重,第二权重的个数包括若干个。其中,关键词权重算法在步骤S103中已详细论述。第二权重具体计算过程如下:

W

S209:将各第二权重和各第一权重组成专利关联矩阵,根据专利关联矩阵,绘制目标专利和相似领域专利中专利的技术图谱,专利关联矩阵行和列表示节点和专利。

具体的,确定第二权重后,将各个第二权重和各个第一权重组合在一起,组成关联专利与目标专利对应的关联矩阵,例如,关联专利有10个,节点(即关键技术特征词5个),那么组成的关联矩阵为:

参见图3,本申请实施例公开了又一种基于专利的技术图谱的绘制方法的流程示意图,可依赖于计算机程序实现,也可运行于基于冯诺依曼体系的基于专利的技术图谱的绘制装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行,具体包括:

S301:获取目标专利的主分类号和多个技术特征词。

具体的,可参考步骤S101,在此不再赘述。

S302:获取与目标专利的主分类号一致的专利合集,统计专利合集中与目标专利共有分类号的数量。

S303:将各共有分类号的数量与数量阈值进行对比。

S304:将专利合集中共有分类号的数量大于数量阈值的专利组合为相似领域专利合集。

具体的,获取到与目标专利的主分类号一致的专利合集后,统计专利合集中各个专利与目标专利比较,包括主分类号在内的共同出现的分类号的数量,即共有分类号的数量,如果共有分类号的数量大于数量阈值,说明此专利与目标专利的技术接近程度较高,两者关联性较高,那么将此类型的专利从专利合集中筛选出来,组合维相似领域专利合集。在本申请实施例中数量阈值可以为1。

例如专利合集中有一篇专利c的分类号为:B,B1,B3,目标专利的分类号为:B,B3,B4,显然两篇专利的同时出现的分类号为B,B3,共有分类号的数量为2,大于数量阈值1,说明专利c与目标专利的关联性较高,相似的技术领域较多,那么将专利c确定为相似领域合集中的一个。此过程在步骤S102已有论述,在此不再赘述。

在一种可实现的方式中,将目标专利和专利合集组成待选集合,统计其中单个副分类号与主分类号共同出现的专利数量,得到至少一组专利数量,将各组专利数量分别与高频共现分类号阈值对比,高频共现分类号阈值采用如下公式:

例如,待选集合中仅有A+A1、A+A2、A+A3这三个单个副分类号与主分类号仅共同出现的次数为一次,因此b为3,a为2,即高频共现分类号阈值为2,单个副分类号与主分类号A+A4共同出现的专利数量如果为5,大于高频共现分类号阈值,则副分类号A4与主分类号所涉及的技术领域关联较强,那么将专利合集中分类号包含A4的专利筛选出来组合为相似领域专利合集。

S305:通过关键词权重算法,计算多个技术特征词的第一权重,将各技术特征词的第一权重分别与权重阈值对比。

S306:从多个技术特征词中筛选出第一权重大于权重阈值的第一特征词合集,并确定为关键技术特征词。

具体的,通过关键词权重算法计算多个技术特征词的第一权重的详细过程可参考步骤S103,在此不再赘述。其中,权重阈值为判断第一权重是否为关键技术对应的权重的临界值。将各个技术特征词的第一权重分别与权重阈值进行对比,如果第一权重大于权重阈值,说明对应的技术特征词为关键技术特征词,并将关键技术特征词组成第一特征词合集;如果第一权重不大于权重阈值,说明对应的技术特征词可能为普通技术特征词,可能与目标专利核心技术关联程度较低。

S307:从多个技术特征词中筛选出第一权重不大于权重阈值的第二特征词合集,筛选出第二特征词合集中与第一特征词合集中技术特征词相似度超过相似度阈值的技术特征词,并确定为关键技术特征词。

具体的,如果技术特征词的第一权重不大于权重阈值,则将此类技术特征词筛选出来组成第二特征词合集,接着采用语义相似度计算公式分别计算第二特征词合集中每个技术特征词与关键技术特征词的相似度,计算的详细过程已在步骤S205中进行了论述。如果相似度超过相似度阈值,说明第二特征词合集中对应的技术特征词应该也视为关键技术特征词,因为它与真正的关键技术特征词语义相同。最后将此技术特征词从第二特征词合集中移入值第一特征词合集中,也确定为关键技术特征词。

例如,“云游戏”由于第一权重超过权重阈值,从多个技术特征词中确定为关键技术特征词,“游戏点播”由于第一权重未超过权重阈值,划分到第二特征词合集中。但是计算两者的相似度是超过相似度阈值,说明“游戏点播”与“云游戏”语义相同,表示同一个概念。那么“游戏点播”也应该确定为关键技术特征词。

S308:将关键技术特征词作为技术图谱的节点,绘制目标专利与相似领域专利合集中各专利的技术图谱。

具体的,可参考步骤S104,在此不再赘述。

本申请实施例一种基于专利的技术图谱的绘制方法的实施原理为:获取目标专利的主分类号和多个技术特征词,同时搜索出与目标专利的主分类号一致的专利合集,从专利合集中筛选出目标专利所涉及技术领域接近的相似领域专利合集,接着计算多个技术特征词在目标专利中的第一权重,根据第一权重从多个技术特征词中确定关键技术特征词,最后将关键技术特征词作为技术图谱的节点,建立目标专利与相似领域专利合集中专利的技术图谱。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

请参见图4,为本申请实施例提供的基于专利的技术图谱的绘制装置的结构示意图。该应用于基于专利的技术图谱的绘制装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括专利信息获取模块11、专利合集筛选模块12、关键特征词确定模块13和技术图谱绘制模块14。

专利信息获取模块11,用于获取目标专利的主分类号和多个技术特征词;

专利合集筛选模块12,用于获取与目标专利的主分类号一致的专利合集,从专利合集中筛选出与目标专利关联的相似领域专利合集;

关键特征词确定模块13,用于通过关键词权重算法计算多个技术特征词的第一权重,根据各第一权重在多个技术特征词中确定关键技术特征词;

技术图谱绘制模块14,用于将关键技术特征词作为技术图谱的节点,绘制目标专利与相似领域专利合集中各专利的技术图谱。

可选的,专利合集筛选模块12,具体用于:

获取与目标专利的主分类号一致的专利合集,提取专利合集中专利的申请人名称;

判断各申请人名称是否为公司名称;

若是,则从公司名称对应的官网中提取第一技术关键词;

计算第一技术关键词与多个技术特征词的相似度,若存在超过相似度阈值的第一目标相似度,则将专利合集中第一目标相似度对应的专利作为相似领域专利合集。

可选的,专利合集筛选模块12,具体还用于:

若否,则从申请人名称对应的专利中提取发明人名称,并与申请人名称组合为身份信息;搜索身份信息对应的期刊论文,并提取期刊论文中的第二技术关键词,计算第二技术关键词与多个技术特征词的相似度;

若存在超过相似度阈值的第二目标相似度,则将专利合集中第二目标相似度对应的专利作为相似领域专利合集。

可选的,专利合集筛选模块12,具体还用于:

获取与目标专利的主分类号一致的专利合集,统计专利合集中与目标专利共有分类号的数量;将各共有分类号的数量与数量阈值进行对比;

将专利合集中共有分类号的数量大于数量阈值的专利组合为相似领域专利合集。

可选的,关键特征词确定模块13,具体用于:

通过关键词权重算法,计算多个技术特征词的第一权重,将各技术特征词的第一权重分别与权重阈值对比;

从多个技术特征词中筛选出第一权重大于权重阈值的第一特征词合集,并确定为关键技术特征词;

从多个技术特征词中筛选出第一权重不大于权重阈值的第二特征词合集,筛选出第二特征词合集中与第一特征词合集中技术特征词相似度超过相似度阈值的技术特征词,并确定为关键技术特征词。

可选的,技术图谱绘制模块14,具体用于:

将各关键技术特征词作为技术图谱的节点,从相似领域专利合集中筛选出关键技术特征词出现次数超过预设值的关联专利;

根据关键词权重算法,计算同一关键技术特征词在关联专利中的第二权重;

将各第二权重和各第一权重组成专利关联矩阵,根据专利关联矩阵,绘制目标专利和相似领域专利中专利的技术图谱,专利关联矩阵行和列表示节点和专利。

需要说明的是,上述实施例提供的一种基于专利的技术图谱的绘制装置在执行基于专利的技术图谱的绘制方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种基于专利的技术图谱的绘制装置与一种基于专利的技术图谱的绘制方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。

本申请实施例还公开一种计算机可读存储介质,并且,计算机可读存储介质存储有计算机程序,其中,计算机程序被处理器执行时,采用了上述实施例的一种基于专利的技术图谱的绘制方法。

其中,计算机程序可以存储于计算机可读介质中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等,计算机可读介质包括能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等,需要说明的是,计算机可读介质包括但不限于上述元器件。

其中,通过本计算机可读存储介质,将上述实施例的一种基于专利的技术图谱的绘制方法存储于计算机可读存储介质中,并且,被加载并执行于处理器上,以方便上述方法的存储及应用。

本申请实施例还公开一种电子设备,计算机可读存储介质中存储有计算机程序,计算机程序被处理器加载并执行时,采用了上述一种基于专利的技术图谱的绘制方法。

其中,电子设备可以采用台式电脑、笔记本电脑或者云端服务器等电子设备,并且,电子设备设备包括但不限于处理器以及存储器,例如,电子设备还可以包括输入输出设备、网络接入设备以及总线等。

其中,处理器可以采用中央处理单元(CPU),当然,根据实际的使用情况,也可以采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以采用微处理器或者任何常规的处理器等,本申请对此不做限制。

其中,存储器可以为电子设备的内部存储单元,例如,电子设备的硬盘或者内存,也可以为电子设备的外部存储设备,例如,电子设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为电子设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及电子设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。

其中,通过本电子设备,将上述实施例的一种基于专利的技术图谱的绘制方法存储于电子设备的存储器中,并且,被加载并执行于电子设备的处理器上,方便使用。

以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

技术分类

06120115686819