掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多领域网络划分的专利推荐方法

文献发布时间:2024-04-18 19:44:28


一种基于多领域网络划分的专利推荐方法

技术领域

本发明属于基于语义网络和专利知识推荐的信息领域,涉及一种网络的多领域划分方法,具体涉及一种基于多领域网络划分的专利推荐方法。

背景技术

概念设计是创新设计思维与设计知识相互作用从而解决设计问题的过程,在这个过程中,设计师需要综合利用外部知识和自身经验寻找可能的概念解决方案,这不仅对设计师的创新能力提出了较高要求,还要求设计师具有足够的知识储备。作为创新知识的集成产物,专利文本拥有最新且最具创新性的知识,是辅助设计师扩大设计知识空间的重要知识资源[1],但是设计师手工检索和阅读专利给设计师带来了很大的认知负担,需要耗费大量的时间和精力。基于此,专利分析相关的技术应运而生,并通过人工智能、大数据、机器学习等信息技术,高效地检索专利并提取其中的知识[2]。虽然专利分析技术减轻了设计师手工检索知识的负担,但面对海量的专利数据,设计师仍需要依赖自身经验了获取针对特定设计问题下的专利内容,如何保障设计师更高效地获取准确的专利文本以辅助设计创新仍然是亟须解决的问题。

专利文本作为一种科技文献具有明确严谨的行文格式,通常包含扉页、权利要求书、说明书、说明书附图四部分。通过上述四部分详细地阐述了解决技术问题的详细技术方案,这种技术方案通常体现为实现某种功能的产品的结构组成,而不对结构具体参数和加工工艺信息进行描述。专利的这种特点使其能够很好地为概念设计提供参考设计知识,其中蕴含的功能知识和结构知识反映了专利中具有创新性的技术特征,能够用于辅助设计师进行产品概念设计。但是如何在海量的专利文本中获取准确的专利功能和结构信息,仍然是需要设计师花费时间和精力搜索、阅读并理解与设计概念相关设计知识。

参考文献

[1]曹树金,李睿婧.基于专利文献摘要的创新知识图谱构建与应用[J].情报理论与实践,2022,45(11):21-28.

[2]刘春江,朱江.面向情报分析的专利大数据服务平台架构研究[J].图书馆工作与研究,2022(04):57-64.

发明内容

为了辅助设计师知识空间拓展,解决现有基于专利知识推荐技术中存在的问题,本发明目的在于提供一种基于多领域网络划分的专利推荐方法。主要技术方案如下:

一种基于多领域网络划分的专利推荐方法,包括下列步骤:

第一步,目标功能专利集获取:在确定的设计需求情况下进行产品概念设计,针对设计问题分解设计功能,得到设计目标功能概念;依据设计目标功能概念获取对专利文本集的主要功能概念;进行基于语义词典的相似度目标功能专利获取,构建目标功能专利集;

第二步,基于目标功能专利集,构建多领域专利网络,方法为:

(1)根据专利的IPC分类代码,选取技术角度专利特征;

(2)选取语义角度专利特征:语义特征用于反映专利文本内容的主要语义信息,提取每个专利文本的多维专利文本向量;

(3)通过计算目标功能专利集中两两专利之间的语义-技术特征上的加权关联程度,构建目标功能专利集的专利网络,方法如下:

专利在语义特征上的关联程度通过语义相似度来衡量,计算专利文本向量之间的余弦相似度得到,两篇专利文本的语义相似度越大,在语义特征上关联程度越大;

专利在技术特征上的关联程度可以通过IPC分类代码共现比例来衡量:相同的IPC分类代码代表相同的技术主题,两篇专利相同的IPC分类代码越多,二者在技术主题上的重合度就越大,专利在技术特征上的关联程度可以通过IPC分类代码共现比例来衡量;

根据分别计算得到专利在技术特征上的关联程度和在语义特征上的关联程度,对两个角度的关联程度分别赋予权重,计算语义-技术加权关联程度;

通过计算目标功能专利集中两两专利之间的语义-技术加权关联程度,构建目标功能专利集的专利网络,专利网络是全连接网络,专利节点两两之间都存在代表关联关系的边,边上的语义-技术加权特征上的关联程度越高;

第三步,基于社区检测划分专利网络领域

对专利网络进行社区检测,对构建的专利网络进行社区划分,位于相同社区的专利具有较高的关联程度,不同社区的专利关联程度则较低,每一个社区都被看作是一个领域,每个专利都有自己所属的领域;

第四步,基于领域核心度和关联度的跨领域专利推荐,方法如下:

定义目标功能专利集中的每个专利为目标专利,将设计目标功能概念和各目标专利中的主要功能概念进行两两组合形成概念组合;

在目标专利中,设计目标功能概念和主要功能概念形成的概念组合共现次数越多,上下文距离越短,则概念组合与该篇专利的关联度最大,计算概念组合在单篇目标专利中关联度;

在专利网络的同一领域中,如果一个专利与同领域其他专利均具有较高的关联程度,则该专利则能够更好地代表所在专利领域;计算各领域中出现概念组合的目标专利在领域内的核心度,并在每个领域中按照核心度对专利进行排序,核心度得分越高,排名越高,选取每个领域中核心度排名靠前的专利作为有价值的专利推荐给设计师来用于拓宽设计师解决设计问题的知识空间;

综合概念组合在各个目标专利中的关联度和各个目标专利在领域内的核心度,分别对多个领域内出现概念组合的目标专利计算重要度,并在目标专利中每个领域中按照重要度对专利进行排序,重要度得分越高,排名越高,选取每个领域中重要度排名靠前的专利作为有价值的专利推荐给设计师来用于拓宽设计师解决设计问题的知识空间。

进一步地,第一步具体包含以下步骤:

(1)对设计问题分解设计功能,得到设计目标功能概念

依据设计问题描述,采用层次分解的方法对设计需要的总功能进行功能分解,获取求解设计问题的主要功能和辅助功能,并提取主要功能作为概念设计过程中的目标功能概念;

(2)依据设计目标功能概念获取专利文本集的主要功能概念

主要功能概念的抽取通过依存分析分解专利文本中的Subject-Action-Object结构,分别将其中Action提取出来并作为专利文本的主要功能概念;

(3)基于语义词典的相似度获取目标功能专利,构建目标功能专利集

在确定每篇专利文本的主要功能概念后,根据专利的主要功能概念和目标功能概念的相似程度获取目标功能专利集,主要功能概念和目标功能概念的相似程度采用基于wordnet路径距离的语义相似度,方法如下:

对专利文本集中的每篇专利在WordNet中,名词、动词、形容词、副词被分组进同义词集Synset中,每个同义词集Synset中都包含了具有同一含义的所有词汇,采用层次结构来表达同义词集Synset之间的关系,在层次结构中,层次越深,同义词集代表的语义越精细,即相同最短路径长度情况下,处于深层次的两同义词集Synset比处于浅层次的两同义词集Synset更相似,在考虑最短路径长度的基础上,还考虑同义词集的层次深度;

依次计算专利文本集中各专利文本的主要功能概念与目标功能概念的WordNet语义相似度,如果一个专利具有多个主要功能概念,分别计算各主要功能概念与目标功能概念的语义相似度并取最大值,分析不同语义相似度的主要功能概念和目标功能概念的词义,设定语义相似度阈值T,将语义相似度高于T的主要功能概念的专利加入目标功能专利集。

进一步地,设定语义相似度阈值T=0.7。

进一步地,根据专利的IPC分类代码,选取技术角度专利特征的方法如下:根据专利的IPC分类代码,采用正则表达式进行抽取,把专利的技术特征表示为IPC分类代码集合的形式。

进一步地,提取每个专利文本的多维专利文本向量的方法如下:将专利的关键词输入Word2Vec的Skip-gram模型中,产生关键词的多维词向量,通过基于TFIDF的关键词权重将所有关键词向量加权求和,提取每个专利文本的多维专利文本向量。

进一步地,第三步的方法如下:

(1)将全领域专利网络中每个网络节点视作一个社区,社区数与节点数相同;

(2)对于每个网络节点,依次计算加入其邻居节点的社区后模块度增量,并选取社区后模块度增量最大的社区加入;若不存在社区后模块度增量增大的社区,则不加入任何社区;重复上述过程直至所有网络节点所属的社区不再变化;

(3)对全领域专利网络进行压缩,将一个社区压缩为一个新节点,社区内部节点之间的边权重转化为新节点的环的权重,社区之间的边权重之和转化为新节点之间的边权重,得到压缩后的网络;

(4)重复(1)至(3)步直到全领域专利网络的社区后模块度不再变化,得到多个社区,其中每个社区表示一个专利领域,将一个全领域专利网络划分成由多个社区组成的多领域专利网络。

进一步地,概念组合在单篇专利中关联度的计算如式1所示,概念组合在一篇目标专利中的关联度P_cor_score越高,该篇目标专利与概念组合越相关;

式中,P,w

进一步地,目标专利在领域内的核心度计算如式2;在领域内一篇目标专利的核心度P_core_score越高,该篇目标专利越能代表所在领域;

式中,P,c分别为目标专利和领域,Cor(P,P

进一步地,多个领域内出现概念组合的目标专利的重要度的计算方法如下:

考虑关联度和核心度具有不同的量纲,采用最大-最小标准化进行标准化,然后计算二者平均值得到目标专利在领域内的重要度,计算方法如式3、4、5所示:

式中,P_cor_score

附图说明

图1构建方法整体框架

图2 WordNet层次结构

图3专利语义特征抽取流程

图4 Louvain算法社区检测流程

图5专利网络多领域划分

具体实施方式

为使本发明的技术方案更加清楚,下面结合附图对本发明做进一步阐述。

本专利旨在通过分析专利文本特征,结合专利文本关键语义信息构建多领域划分的专利网络,基于特定设计问题需求向设计师推荐设计概念相关的专利文本,并提取出其中的概念产品结构知识来支持设计师产生设计方案,精准扩展设计师的知识空间,有效降低设计师产生搜寻专利知识的难度,最终实现提升概念设计质量与设计效率的目的。本发明按以下步骤具体实现:

1.目标功能专利集获取

在确定的设计需求情况下进行产品概念设计,针对设计问题分解设计功能,得到设计目标功能概念,并依据设计目标功能概念在海量专利文本集的主要功能概念进行基于语义词典的相似度目标功能专利获取,构建目标功能专利集。具体包含以下步骤:

(1)基于设计问题功能分析的目标功能概念获取

依据设计问题描述,采用层次分解的方法对设计需要的总功能进行功能分解,获取求解设计问题的主要功能和辅助功能,并提取主要功能作为概念设计过程中的目标功能概念。

(2)专利文本的主要功能概念获取。功能的表达通常以“功能动词+功能名词”的形式,分别表现完成功能的行为以及行为对象,如“recycle waste”,但为保证尽可能包含较多不同领域的功能概念,本专利仅采用功能动词作为专利文本的主要功能概念对专利集进行限定。主要功能概念的抽取通过依存分析分解专利文本中的SAO(Subject-Action-Object)结构,分别将其中Action提取出来并作为专利文本的主要功能概念。

(3)基于语义相似度的目标功能专利获取

在确定每篇专利的主要功能概念后,根据专利的主要功能概念和目标功能概念的相似程度获取目标功能专利集,主要功能概念和目标功能概念的相似程度采用基于wordnet路径距离的语义相似度。WordNet路径距离计算主要功能概念和目标功能概念语义相似度距离。对专利文本集中的每篇专利在WordNet中,名词、动词、形容词、副词被分组进同义词集(Synset)中,每个同义词集中都包含了具有同一含义的所有词汇。在WordNet中采用如图2所示的层次结构来表达Synset之间的关系,基于WordNet这种层次结构,采用式1计算语义相似度。

式中,w

在层次结构中,层次越深,同义词集代表的语义越精细,即相同最短路径长度情况下,处于深层次的两同义词集比处于浅层次的两同义词集更相似,因此在考虑最短路径长度的基础上,还考虑了同义词集的层次深度。

采用式1依次计算专利数据集中各专利文本的主要功能概念与目标功能概念的WordNet语义相似度,如果一个专利具有多个主要功能概念,分别计算各主要功能概念与目标功能概念的语义相似度并取最大值,分析不同Sim

2.多领域专利网络构建

专利网络反映了海量专利之间的关联关系,并能够根据关联程度将海量专利划分进不同领域。选取合适的专利特征来表达专利信息是建立专利之间关联关系的前提,以往研究中所采用的专利特征如关键词、文献引用与被引、权利人所属地区等大多是从某一角度描述专利信息,由此建立起来的关联关系也具有局限。为了使构建的专利网络不仅能够反映专利在文本内容上的关联程度,还能反映在技术领域上的关联程度,本专利分别从语义和技术两个角度选取专利特征。具体方法如下:

(1).技术角度专利特征选取

技术特征用于反映专利中所采用的技术以及专利从属的技术领域,用专利的IPC分类代码来表示。IPC分类是国际上通用的专利分类方法,它通过五个分类级别从技术主题上对专利进行分类,每个专利都有一个或多个IPC分类代码来体现该专利的一个或多个技术主题,具有相同的IPC分类代码的专利具有相同的技术主题。IPC分类代码按照编码规则产生,具有格式化表达形式,因此采用正则表达式进行抽取,并把专利的技术特征表示为IPC分类代码集合的形式T={t

(2).语义角度专利特征选取

语义特征用于反映专利文本内容的主要语义信息,基于TF-IDF方法提取出的关键词和训练好的Word2Vec的Skip-gram模型,采用专利文本向量作为专利的语义特征。专利语义特征的抽取过程如图3所示,将专利的关键词输入Word2Vec的Skip-gram模型中,产生关键词的300维词向量,再通过基于TFIDF的关键词权重将所有关键词向量加权求和,从而得到300维专利文本向量。

专利文本向量与Skip-gram模型产生的词向量维度相同,但不同的是专利文本向量综合考虑了专利的关键词的重要度以及所有关键词的语义信息,专利文本向量S计算方法如式(3-6)所示。

式中,W

本专利采用Word2Vec的Skip-gram模型生成300维词向量,词汇的相似度采用如式4所示的余弦相似度计算。

式中,w

专利的技术特征采用IPC分类代码集合的形式表达,而专利的语义特征采用300维向量的形式表达,二者无法采用相同的关联程度计算方法。专利在语义特征上的关联程度可以通过语义相似度来衡量,两篇专利文本的语义相似度越大,在语义特征上关联程度越大,因此语义特征上的关联程度可通过式1计算专利文本向量之间的余弦相似度得到。相同的IPC分类代码代表相同的技术主题,两篇专利相同的IPC分类代码越多,二者在技术主题上的重合度就越大,因此专利在技术特征上的关联程度可以通过IPC分类代码共现比例来衡量,计算方法如式5所示。

式中,P

根据式4和式5可分别计算得到专利在技术特征上的关联程度Cor

Cor(P

式中,w

根据上述公式计算目标功能专利集中两两专利之间的语义-技术加权关联程度,构建目标功能专利集的专利网络。专利网络是一个全连接网络,专利节点两两之间都存在代表关联关系的边,边上的语义-技术加权关联程度越高,则两篇专利越关联,位于同一领域的可能性也越大。

3.基于社区检测的专利网络领域划分。为了能够向设计师推荐不同领域的专利,实现对设计师知识空间的拓展,需要对构建的专利网络进行领域划分,将专利网络中的所有专利划分进几个领域中,位于相同领域的专利具有较高的关联程度,不同领域的专利关联程度则较低。本专利采用Louvain算法对专利网络进行社区检测,Louvain算法是基于模块度的社区检测算法,能够通过最大化社区网络的模块度来对网络进行层次化划分,模块度是一种用于衡量网络社区结构强度的指标,考虑到专利网络是一个加权的全连接网络,所使用的模块度也考虑了边的权重,其计算方法如式7所示。

式中,a

Louvain算法社区检测过程如图4所示,具体流程如下:

1)将网络中每个节点视作一个社区,社区数与节点数相同;

2)对于每个节点,依次计算加入其邻居节点的社区后模块度增量ΔQ,计算方法如公式8所示,并选取ΔQ最大的社区加入,若不存在ΔQ增大的社区,则不加入任何社区,重复这一过程直至所有节点所属的社区不再变化;

3)对网络进行压缩,将一个社区压缩为一个新节点,社区内部节点之间的边权重转化为新节点的环的权重,社区之间的边权重之和转化为新节点之间的边权重,得到压缩后的网络;

4)重复1),2),3)步直到网络的模块度不再变化。

式中,

通过上述Louvian算法社区检测过程,可以将专利网络划分为几个社区,被划分进同一个社区的专利具有较高的关联程度,每一个社区都可以被看作是一个领域,每个专利都有自己所属的领域。

4.基于领域核心度和关联度的跨领域专利推荐

根据WordNet语义相似度结果,将目标功能概念和高于语义相似度阈值的目标功能专利集中的主要功能概念进行组合,形成概念组合。但是单一的概念组合只能为设计师提供概念激励,而无法拓展设计师用于解决设计问题的知识空间,设计师仍需要花费时间与精力去搜寻与概念激励相关的设计知识,因此有必要为设计师推荐与概念激励相关的专利来帮助减轻设计师获取相关知识的负担。

在海量的专利文献中,一个概念组合通常会出现在不同领域的很多专利文本中,而这些相应的专利文本都可以作为该概念组合的拓展设计知识提供给设计师

当一个概念组合在某篇专利中共现次数越多,上下文距离越短,则这个概念组合在该篇专利中越重要,该篇专利与概念组合也越相关,对于设计师的价值就越大。概念组合在单篇专利中关联度的计算如式9所示。关联度P_cor_score越高,该篇专利与概念组合越相关。

式中,P,w

在专利网络中处于同一领域的专利文本间的关联程度更大,如果在同领域内一个专利与其他专利均具有较高的关联程度,则该专利可以被看作是领域的核心专利并且能够很好地代表该领域。专利在领域内的核心度计算如式10。在领域内一篇专利的核心度P_core_score越高,该篇专利越能代表该领域。

式中,P,c为目标专利和领域,Cor(P,P

综合概念组合在专利中的关联度和专利在领域内的核心度,分别对多个领域内出现概念组合的专利计算重要度,考虑关联度和核心度具有不同的量纲,首先采用最大-最小标准化进行标准化,然后计算二者平均值得到专利在领域内的重要度,计算方法如式11、12、13所示。

式中,P_cor_score

计算各领域中出现概念组合的专利在领域内的重要度,并在每个领域中按照重要度对专利进行排序,重要度得分越高,排名越高,选取每个领域中排名靠前的专利作为有价值的专利推荐给设计师来用于拓宽设计师解决设计问题的知识空间。

5.实例应用

本案例解决一个“建筑垃圾中砖石垃圾的破碎”的设计问题,并产生对应的设计方案,并将本专利提出的基于专利知识认知的概念生成方法应用于此设计问题的概念产生和方案产生过程。

建筑垃圾是指路桥建设、市政建设以及改造过程中开挖的岩石,产生的混凝土、砖瓦、弃渣废料等,并以砖石垃圾为主。随着我国经济快速发展,城市改造、道路桥梁的扩建与翻新、集体搬迁等大型项目接连不断,随之而来的就是日益增加的建筑垃圾,其中绝大多数建筑垃圾未经任何处理,就被运往乡村露天存放或填埋,不仅运输过程会耗费大量的建设经费,造成扬尘等环境污染问题,而且还会占用耕地。建筑垃圾砖石垃圾是有用物质,其中的砖、石、混凝土、废渣经过粉碎后,可以代砂,用于打灰砂浆、砌筑砂浆等,还可用于制作建材,故将砖石垃圾进行破碎后再利用不仅能够节约建设成本,还可减轻垃圾运输存放产生的环境污染。

(1)数据描述

本实例采用的数据为2020年在德温特专利数据库公开的部分专利文本,获取专利共有104214个,覆盖7个德温特分类代码,覆盖时间范围为2020年1月1日到2020年12月31日,包含发明名称、申请号、摘要、发明人、IPC分类代码、权利要求、说明书、引文等专利信息。将这104214个专利的发明名词、申请号、摘要、IPC分类代码、权利要求、说明书的信息为字段进行保存,形成本专利后续所使用的专利数据库。

(2)全领域专利网络构建及多领域划分

首先从专利中获得语义特征和技术特征,采用正则表达式的方式从专利数据的IPC分类代码文本中抽取出每一个专利的IPC分类代码集合,同时将各专利抽取到的关键词输入Word2Vec得到对应的词向量,基于词向量和各关键词的TF-IDF值计算专利文本向量。然后采用余弦相似度的方法计算专利两两之间专利文本向量的相似度作为专利在语义特征上的关联程度,采用IPC分类代码共现比例计算专利在技术特征上的关联程度,二者的权重分别为0.5,求加权和得到语义-技术加权关联程度作为专利网络中专利节点之间边的权重,从而得到全连接的专利网络。

对专利网络进行社区检测来划分领域,经过Louvain算法进行社区检测后,专利网络共划分出五个社区,即划分出五个领域,各领域中专利数量分别为705、682、893、634、261,划分出了领域的专利网络如图5所示,由于专利网络为全连接网络,含有大量边,为图示表达清晰,图中仅显示权重较大的边,从图中可以看出同一领域内部含有大权重边更多,而领域间的大权重边较少,这也反映了同一领域的专利在技术和语义上的关联程度更高。

(3)跨领域专利推荐

在产生设计概念后,为设计师提供与设计概念相关的专利,分别为上述3组设计概念进行推荐来自5个不同领域的专利,通过计算每组设计概念对应的概念组合在各领域专利中的关联度总和专利在各自领域的核心度,并对关联度和核心度进行标准化后求加权和,得到各领域的每个专利的重要度,重要度越高,对应的专利与设计概念越相关,在领域中越位于核心地位。计算结果如表1所示,表中只列出每组设计概念的各领域重要度前三的专利,共45篇专利。

表1设计概念对应推荐专利表Table 5-7Recommendedpatents correspondingtodesign concepts

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

技术分类

06120116298234