掌桥专利:专业的专利平台
掌桥专利
首页

文本主体关键词挖掘方法、系统、装置及存储介质

文献发布时间:2023-06-19 19:35:22


文本主体关键词挖掘方法、系统、装置及存储介质

技术领域

本申请涉及专利数据检索分析领域,特别是涉及一种文本主体关键词挖掘方法、系统、装置及存储介质。

背景技术

当前的某些现有专利数据库中已存在有专利聚类分析功能,例如一些商业化的专利数据库如合享智慧等,但是在文本聚类分析的功能本身存在以下缺陷,1.其是主要针对词频统计的聚类分析,如一件专利中有多个可聚类的关键词则会造成重复的统计,由于专利具有一发明一申请的特点,重复统计则会造成统计错误问题,在某些特定领域中还会因此出现系统性误差。2.现有技术中在进行文本聚类时会有将摘要进行关键词统计的情况,某种程度上增加了对该专利聚类的准确性,但是同样会导致系统性误差,同样不符合一发明一申请的特点。3.现有技术中的涉及的文本聚类的二级主题均为一级主题下的关键词的聚类,该关键词一般为根据一级主题文本聚类下的二级主题关键词的聚类,实现的效果较为单一。

发明内容

本发明一方面提供一种文本主体关键词挖掘方法,通过该文本主体关键词挖掘方法可以获得代表该专利单一的核心主体关键词,本发明所述的单一的是指,同样含义的关键词或者近似词汇只会在该专利中出现一次,不能重复词频统计。对于存在多个不相同的主体关键词专利文本进行统计时则会分开进行词频统计。

本发明另一方面公开了展示文本主体关键词的展示方法,该展示方法基于文本主体关键词挖掘方法的主体关键词进行展示,具有统计正确性的直观展示。

本申请根据第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的实施例的步骤。

本申请根据第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法的实施例的步骤。

专利文本主体关键词挖掘方法,所述方法包括:

获取已有标注信息的专利文本,所述标注信息包括分词信息、词性,采用分词工具结合标注信息中的分词信息对专利分词进行训练得到专利分词训练集、通过标注信息中的词性进行训练得到词性集、再将分词和词性标注后的专利文本通过句法依存关系训练得到句法依存关系模型,再采用句法依存关系模型对专利文本进行分析得到语法规则-专利主体关系;

获取待挖掘的专利文本,采用上述的分词工具结合专利分词训练集对待挖掘的专利文本进行分词,根据分词结果并采用上述的词性集进行词性标注,再采用句法依存关系模型和语法规则-专利主体关系找到单一的主体关键词。

优选的,所述的标注信息还包括专利主体。通过标注的专利主体信息,能进一步提高专利主体的识别准确率,进一步提高语法规则-专利主体关系中专利主体的识别准确率。

具体的,语法规则-专利主体关系为基于句法依存关系模型所生成的句法依存关系树,遍历句法依存关系树,依据句法结构,比如主谓宾、动宾结构、主从句结构等,根据这些结构可以分析出多个词之间关系,比如以动词为起点,构建规则,可对节点的词性与边上的词与词之间依存关系进行限定。通过句法依存关系模型对专利文本,遍历句法依存关系树,分析句子的语法规则,在某些实施方式中可以以谓语动词为根节点下的一次节点遍历,并寻找根节点下的主体名词作为主体关键词。

优选的,专利文本主体关键词挖掘方法,还包括二级主体关键词挖掘,步骤如下:

根据主体关键词和语法规则-专利主体关系以及根据句法依存关系模型对专利文本进行分析,找到专利文本的二级主体关键词;

对主体关键词和二级主体关键词进行词频统计,并得到专利主体和二级主体关键词的词频统计结果和依存关系,所述二级主体关键词为主体关键词的下位概念或者功效词。当二级主体关键词为主题关键词的下位概念时,一般是通过依据句法结构,比如主谓宾、动宾结构、主从句结构等,根据这些结构可以分析出多个词之间关系找到主体关键词及其下的二级主体关键词。当二级主题关键词为主体关键词的功效词,除了依据句法依存关系树外,进一步需要依据词性分析以及语义网络识别得到功效词汇。

进一步的,在所述主体关键词和二级主体关键词进行词频统计之前需要进行同义词合并,所述的同义词合并包括:

通过同义词库将具有相同意义的主体关键词筛选出来并进行词频统计;

将词频最高的主体关键词作为同义词合并后的主体关键词;

将具有相同含义的主体关键词下的二级主体关键词筛选出来并进行词频统计;

将词频最高的二级主体关键词作为同义词合并后的二级主体关键词。

优选的,通过语法规则-专利主体关系,并找到单一的主体关键词,过程包括:通过句法依存关系模型对专利文本,遍历句法依存关系,分析句子的语法规则,从根节点下的一次节点遍历,并寻找根节点下的主体名词作为主体关键词。

二级主体关键词的过程为:根据主体关键词和语法规则-专利主体关系以及根据句法依存关系模型对专利文本进行分析,找到专利文本的二级主体关键词,

过程包括:根据主体名词在句法依存关系模型中的位置,遍历句法依存关系,分析句子的语法规则,得到二级主体关键词。

具体的,本发明的分词方法采用以下的一种或者多种修正组合:jieba、snowNLP、PKUseg、THULAC、HanLP、FoolNLTK、LTP、CoreNLP、baiduLac。

具体的,所述的句法依存方法采用,如下方法,包括:StanfordCoreNLP、HanLP、FudanNLP、LTP、DDParser之中的一种。

具体的,过滤非专利主体相关词性包括:词性非专利主体相关词性、含义非专利主体相关词性。

更进一步的,词性非专利主体相关词性包括:nr、nz、m、c、f、ns、v、ad、q、u、s、nt、vd、an、r、x、t、nw、vn、d、p、w。

词性标注如下:

a形容词、ad副形词、ag形语素、an名形词、b区别词、c连词、d副词、dg副语素、e叹词、f方位词、g语素、h前接成分、i成语、j简称略语、k后接成分、m数词、n名词、ng名语素、nr人名、ns地名、nt机构团体、nx字母专名、nz其他专名、o拟声词、p介词、q量词、r代词、s处所词、t时间词、tg时语素、u助词、ud结构助词、ug时态助词、uj结构助词、ul时态助词、uv结构助词、uz时态助词、v动词、vd副动词、vg动语素、vn名动词、w标点符号、x非语素字、y语气词、z状态词。

含义非专利主体相关词包括:“方法”、“装置”、“系统”、“设备”。

本发明另一方面公开了一种专利文本主体关键词挖掘装置:

专利语句分词模块,专利语句分词模块获取用户输入的专利文本进行分词

句法依存关系模型:所述的句法依存关系模型,依据专利文本的分词结果构建句法依存关系;

词性过滤模块:根据专利语句分词模块的分词结果,进行词性分析以及过滤非专利主体相关词性;

语法规则-专利主体关系模型:依据句法依存关系,以及语法规则,找到专利文本的主体关键词;

关键词合成模块:依据语法规则-专利主体关系模型确认专利结果集的主体关键词,并将专利结果集中的主体关键词进行同义词合并;所述专利结果集为用户检索的结果集;

词频统计模块:词频统计模块将同义词合并后的主体关键词和二级主体关键词数量进行统计。

一种展示装置,所述的主体关键词和二级主体关键词,所述的二级主体关键词设置在其所属的主体关键词下。

本申请根据第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的实施例的步骤。

本申请根据第五方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法的实施例的步骤。

附图说明

图1为文本主体关键词挖掘方法的流程示意图;

图2为实施例一种展示装置的状态示意图;

图3为实施例一种展示装置的状态示意图;

图4为二级主体关键词的查询过程示意图;

图5为主体关键词挖掘装置的模块组成示意图;

图6为一实施例的专利文本分词及词性标注结果;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。

如图1所示整体的文本主体关键词挖掘方法的流程分为离线部分和线上部分,

其中步骤S1-步骤S5是离线任务,也就是将专利文本预先分词存储起来。步骤S6-步骤S9发生在用户检索阶段,当用户输入检索式检索专利,点击聚类功能时,聚类服务根据用户的检索式结果的公开号获取预先分好的分词词组进行聚类。

步骤S1:获取已有标注信息的专利文本,标注信息包括分词信息、词性,专利主体。例如:获取标题为“体温仪”摘要为“本发明涉及一种体温仪,尤其是一种多功能医用电子体温仪。按照本发明提供的技术方案,一种多功能医用电子体温仪,包括电源模块,用于对电子体温计微控制器及显示屏提供电源”。获取10万标注专利数据。

步骤S2:采用分词方法结合标注信息中的分词信息对专利分词进行训练得到专利分词训练集,分词的原则是尽可能能小地将词拆开,例如文本中存在的“电子体温仪”,就应该拆成“电子\体温仪”,本方案采用百度的LAC分词技术以及DDParser句法依存分析技术。

步骤S3:通过标注信息中的词性进行训练得到词性集。分词和句法依存分析之前先进行人工标注数据,包括标注信息包括分词、词性,并达到要求的准确率。专利文本主要用于表述专利哪些关键的技术,技术特点是什么,专利有哪些效果等,那么这些信息通常过去名词、形容词去表达。在第一步得到分词、词性及句法依存关系后,将他们存在于kv存储服务当中。

步骤S4:本方案采用DDParser句法依存分析技术。在得到10万标注专利数据后,先进行LAC分词训练,在得到要求准确率后,再进行DDParser句法依存训练。将分词和词性标注后的专利文本通过句法依存关系训练得到句法依存关系模型。

步骤S5:采用句法依存关系模型对专利文本进行分析得到语法规则-专利主体关系。语法规则-专利主体关系为基于句法依存关系模型所生成的句法依存关系树,遍历句法依存关系树,依据句法结构,比如主谓宾、动宾结构、主从句结构等,根据这些结构可以分析出多个词之间关系,比如以动词为起点,构建规则,可对节点的词性与边上的词与词之间依存关系进行限定。通过句法依存关系模型对专利文本,遍历句法依存关系树,分析句子的语法规则,在某些实施方式中可以以谓语动词为根节点下的一次节点遍历,并寻找根节点下的主体名词作为主体关键词。

步骤S6:获取待挖掘的专利文本。例如获取专利标题和专利摘要。

步骤S7:采用分词工具结合专利分词训练集、对待挖掘的专利文本进行分词。

步骤S8:当用户输入检索式检索专利,点击聚类功能时,聚类服务根据用户的检索式结果的公开号到kv存储系统钟获取预先分好的词性集进行词性标注,根据分词结果并采用上述的词性集进行词性标注。

步骤S9:采用句法依存关系模型和语法规则-专利主体关系找到单一的主体关键词。具体过程为语法规则-专利主体关系为基于句法依存关系模型所生成的句法依存关系树,遍历句法依存关系树,依据句法结构,比如主谓宾、动宾结构、主从句结构等,根据这些结构可以分析出多个词之间关系,比如以动词为起点,构建规则,规则包括,可对节点的词性与边上的词与词之间依存关系进行限定。通过句法依存关系模型对专利文本,遍历句法依存关系树,分析句子的语法规则,在某些实施方式中可以以谓语动词为根节点下的一次节点遍历,并寻找根节点下的主体名词作为主体关键词。例如,从head节点遍历,得到下面找到根节点下的名词作为描述主体,再找到名词节点下的对应形容词作为功效词。

需要说明的是语法规则-专利主体关系具体在具体实施过程可以表现为最为基础的正则匹配关系,亦可通过监督机器学习根据分词结果以及词性标注信息得到得到更加精确的语法规则-专利主体关系模型。

如图6所示,为句法依存关系树的结构示意图,通过依存关系树进行依存关系构建结构树。根据pos名词词性节点找到dep数据节点,获取处于同一层级的词语;然后判断该同一层级中的词语是否为连续的名词词性词语,将符合上述条件的词语组合成关键词,并对于小于两个字的关键词去除。图中为输入“本发明涉及一种柔性输电用快速卧式真空开关”根节点为“涉及”,以此遍历根节点下的名词找到“发明”,“发明”作为非专利主体相关词性进行屏蔽,找到了名词“真空”和“开关”,依据规则将相邻的名词进行拼接,得到主体关键词“真空开关”,进一步对二级关键词进行查找,如图2所示,二级主体关键词包括二级主体关键词为主体关键词的下位概念词或者功效词,当二级主体关键词为功效词汇时,需要依据词性分析以及语义网络识别得到功效词汇,具体过程为,收集功效词构建功效词库,对输入的专利文本进行功效词标签标记,采用自注意力机制的神经网络依据输入的专利文本,输出构建功效词库内的功效词。当二级主体关键词,通过主体关键词的下位概念词,语法规则-专利主体关系为基于句法依存关系模型所生成的句法依存关系树,遍历句法依存关系树,依据句法结构,比如主谓宾、动宾结构、主从句结构等,根据已经找到的主体关键词的位置,分析并找到下位概念词作为二级主体关键词。需要说明的是下位概念词和功效词,依据具体情况进行查找,并对下位概念词以及功效词进行区分,在进行主体关键词展示时,展示时存在功效词聚类分析和下位概念聚类分析。如图3所示,通过下位概念词以及主体关键词的挖掘和聚类分析,可以进行专利技术的主题分析,专利技术的分支分析。通过功效词以及主体关键词的挖掘和聚类分析,可进一步的分析得到,功效聚类分析结果。了解各专利技术的发展方向。

进一步的对展示方法进行说明

展示方法包括如下步骤:

第一步:动态得到的需要进行关键词挖掘的数据,首先对专利标题进行分词并通过语法规则-专利主体关系找到主体关键词。

第二步:对主体关键词进行同义词合并操作,通过同义词库将具有相同意义的主体关键词筛选出来并进行词频统计;

将词频最高的主体关键词作为同义词合并后的主体关键词;

将具有相同含义的主体关键词下的二级主体关键词筛选出来并进行词频统计;

将词频最高的二级主体关键词作为同义词合并后的二级主体关键词。

第三步:对合并后的主体关键词进行词频统计,按降序对主体关键词进行排序得到前20作为聚类分析用,设为(A,B,C,D,E,F...)。

第四步:例如找到包含上位关键词A的专利,设为(a1,a2,a3,a4,a5,a6...)。对(a1,a2,a3,a4,a5,a6...)专利的摘要进行分词并通过语法规则-专利主体关系找到二级主体关键词。

第五步:将具有相同含义的主体关键词下的二级主体关键词筛选出来并进行词频统计;

将词频最高的二级主体关键词作为同义词合并后的二级主体关键词;

第六步:按降序排序并且得到主体关键词下的前10个二级主体关键词关键词下位词。

第七步:将主体关键词和二级主体关键词进行展示。

如图3所示,图3代表根据一个用户输出的动态结果进行的主体关键词挖掘后的聚类分析图表,主体关键词313代表了以主体关键词313及其同义主体关键词在总体动态结果中所占比重,主体关键词313下包括两个下位概念关键词,如下位概念关键词312代表了以下位概念关键词312及其同义下位概念关键词在主体关键词313中所占比重。

如图2所示,图2上代表用户输出的动态结果进行的主体关键词挖掘后的聚类分析图标的又一展示情况。为主体关键词311代表了以主体关键词311及其同义主体关键词在总体动态结果中所占比重。主体关键词313下包括两个二级功效关键词,其中二级功效关键词310代表了二级功效关键词310及其同义二级功效关键词在主体关键词311中所占比重。

如图5所示为文本主体关键词挖掘装置,包括专利语句分词模块、句法依存关系模型、词性过滤模块、语法规则-专利主体关系模型、关键词合成模块、词频统计模块。一般的文本主体关键词挖掘过程顺序为专利语句分词模块-词性过滤模块-句法依存关系模型-语法规则-专利主体关系模型-关键词合成模块-词频统计模块。

专利语句分词模块,专利语句分词模块获取用户输入的专文本进行分词。专利语句分词模块采用jieba分词工具加上专利技术领域的词库,形成专利语句分词模块,针对专利语句有较好的分词效果。

词性过滤模块:根据专利语句分词模块的分词结果,进行词性分析以及过滤非专利主体相关词性;专利语句

句法依存关系模型:所述的句法依存关系模型,依据专利文本的分词结果构建句法依存关系;句法依存关系模型采用DDParser模型,

语法规则-专利主体关系模型:依据句法依存关系,以及语法规则,找到专利文本的主体关键词;

关键词合成模块:依据语法规则-专利主体关系模型确认专利结果集的主体关键词,并将专利结果集中的主体关键词进行同义词合并;关键词合成模块还需要使用同义词库,将确定为主体关键词和二级主体关键词进行同义词合并

词频统计模块:词频统计模块将同义词合并后的主体关键词和二级主体关键词数量进行统计。为展示装置提供数据。

关于文本主体关键词挖掘装置、的限定,在此不再赘述。上述读写分离的数据更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,其内部结构图可以如图7 所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储索引文件、数据文件等数据,具体存储的数据还可以参见上述方法实施例中的限定。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种读写分离的数据更新方法。

本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例提供的方法所包括的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例提供的方法所包括的步骤。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 线下文本挖掘方法、装置及计算机可读存储介质
  • 一种基于文本的元器件识别方法、系统、装置和存储介质
  • 文本文件处理方法、装置、系统、电子设备、存储介质
  • 综合能源系统的主体竞争特性分析方法、装置及存储介质
  • 文本要点检测方法、装置、设备、存储介质及评估方法
  • 文本关键词的挖掘方法及装置、存储介质、计算机设备
  • 文本挖掘方法、文本挖掘存储介质及文本挖掘装置
技术分类

06120115960407