掌桥专利:专业的专利平台
掌桥专利
首页

一种文件的功效词提取聚合方法、系统、终端及介质

文献发布时间:2023-06-19 19:30:30


一种文件的功效词提取聚合方法、系统、终端及介质

技术领域

本发明涉及词句提取方法的领域,尤其是涉及一种文件的功效词提取聚合方法、系统、终端及介质。

背景技术

通过对专利文件进行检索、阅读和分析,是用户快速了解现有技术的一个途径,对专利文件进行检索,能够找到同行业的相关专利,对相关专利进行阅读和分析,能够使企业或个人减少出现侵权的行为,若企业或个人想将相似技术进行专利申请,对相关专利的阅读和分析,也能够帮助企业或个人对提高专利专利申请的授权概率。

专利文件指在申请专利时所需使用的专用文体。其中,发明专利和实用新型专利的专利文件中包含的内容有权利要求书、说明书及摘要,实用新型专利还应当有说明书附图和摘要附图,发明专利必要的时候,应当有说明书附图和摘要附图。

通常对一篇专利文件进行分析时,需要通篇阅读整篇专利文件,以提取用户需要的有用信息,比如对专利的优点进行分析等,每年专利高速增长,专利的内容也愈加复杂,有些文本字数也非常庞大,不方便整篇通读,基于以上原因,在专利数量多或/和专利篇幅较长时,用户阅读的效率不高。

发明内容

为了辅助用户进行文件的阅读和分析,本申请提供一种文件的功效词提取聚合方法、系统、终端及介质。

第一方面,本申请提供的一种文件的功效词提取聚合方法采用如下的技术方案:

一种文件的功效词提取聚合方法,包括以下步骤:基于预设的文本分类模型,判断文件中的功效句与非功效句;基于预设的实体识别模型,识别出所述功效句中的实体词及实体词属性,所述实体词包括修饰词、方向词及方面词;基于预设的所属关系分类模型,判断所述实体词之间所属依赖的关系;根据所述修饰词、所述方向词、所述方面词及所述关系,组装成功效词。

通过采用上述技术方案,通过文本分类模型判断出专利文件中的功效句,通过实体识别模型,判断出功效句中的修饰词、方向词及方面词,通过所属关系分类模型,识别出多个实体词相互所属依赖的关系,输出修饰词、方向词及方面词及所属依赖的关系,并组装为功效词。

本申请通过智能模型的识别,能从海量文本中生成具体的功效词,尤其是对于专利文件,可以快速定位和抽取到专利文件中功效部分,并按照成分组装成简短的词句,呈现在用户的面前,辅助用户进行阅读和分析,提升了阅读的效率,便于高效分析专利。

优选的,所述基于预设的文本分类模型,判断文件中的功效句与非功效句中,包括:响应于预设的功效句样本与预设的非功效句样本输入到所述文本分类模型中,进行所述文本分类模型的模型训练。

优选的,所述基于预设的文本分类模型,判断文件中的功效句与非功效句中,包括:将目标文件的文本按照句号或/和分号切割成多个分句;获取输入至所述文本分类模型中所述分句,判断所述功效句与所述非功效句。

优选的,所述基于预设的实体识别模型,标记所述功效句中的修饰词、方向词及方面词中,包括:获取修饰词属性、方向词属性及方面词属性的标注数据;响应于实体词抽取指令,基于实体识别模型,抽取所述实体词及标注所述实体词的属性。

优选的,所述获取修饰词属性、方向词属性及方面词属性的标注数据中,包括:所述标注数据的方式为BIO序列标注形式。

优选的,所述基于预设的所属关系分类模型,识别所述实体词之间所属依赖的关系,包括:将所述实体识别模型识别到的所述实体词,以所述方面词为中心两两打标记;基于所述所属关系分类模型,判断两个打过标记的所述实体词是否属于同组,获得所述实体词之间的所属关系关系。

优选的,所述响应于所属关系判断指令,判断实体词之间的所属关系中,包括:将同组的所述实体词按预设的顺序进行组装,得到所述功效词。

第二方面,本申请公开一种文件的功效词提取聚合系统,采用了上述文件的功效词提取聚合方法,包括:文本分类模块,用于基于预设的文本分类模型,判断文件中的功效句与非功效句;实体词识别模块,用于基于预设的实体识别模型,识别出所述功效句中的实体词及实体词属性,所述实体词包括修饰词、方向词及方面词;所属关系分类模块,用于基于预设的所属关系分类模型,判断所述实体词之间所属依赖的关系;功效词组装模块,用于根据所述修饰词、所述方向词、所述方面词及所述关系,组装成功效词。

通过采用上述技术方案,通过文本分类模块中的文本分类模型判断出专利文件中的功效句,通过实体词识别模块中的实体识别模型,判断出功效句中的修饰词、方向词及方面词,通过所属关系分类模块中的所属关系分类模型,识别出多个实体词相互所属依赖的关系,根据实体词以及其所属依赖关系,通过功效词组装模块组装为功效词。

本申请通过智能模型的识别,能从海量文本中生成具体的功效词,尤其是对于专利文件,可以快速定位和抽取到专利文件中功效部分,并按照成分组装成简短的词句,呈现在用户的面前,辅助用户进行阅读和分析,提升了阅读的效率,便于高效分析专利。

第三方面,本申请公开一种终端设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了上述的文件的功效词提取聚合方法。

通过采用上述技术方案,通过上述的文件的功效词提取聚合方法生成计算机程序,并存储于存储器中,以被处理器加载并执行,从而,根据存储器及处理器制作终端设备,方便用户使用。

第四方面,本申请公开一种计算机可读存储介质,采用如下的技术方案:一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,采用了上述的文件的功效词提取聚合方法。

通过采用上述技术方案,通过上述的文件的功效词提取聚合方法生成计算机程序,并存储于计算机可读存储介质中,以被处理器加载并执行,通过计算机可读存储介质,方便计算机程序的可读及存储。

附图说明

图1是本申请实施例一种文件的功效词提取聚合方法中步骤S1-S4的方法流程图。

图2是本申请实施例一种文件的功效词提取聚合方法中步骤S10-S11的方法流程图。

图3是本申请实施例一种文件的功效词提取聚合方法中步骤S110-S111的方法流程图。

图4是本申请实施例一种文件的功效词提取聚合方法中步骤S20-S22的方法流程图。

图5是本申请实施例一种文件的功效词提取聚合方法中步骤S30-S32的方法流程图。

图6是本申请实施例一种文件的功效词提取聚合方法中步骤S320-S321的方法流程图。

具体实施方式

以下结合附图1-6对本申请作进一步详细说明。

本申请实施例公开一种文件的功效词提取聚合方法,参照图1和图2,文件的功效词提取聚合方法包括以下步骤:

S1:基于预设的文本分类模型,判断文件中的功效句与非功效句;

S10:响应于预设的功效句样本与预设的非功效句样本输入到文本分类模型中,进行文本分类模型的模型训练;

其中,专利文件的文本内容通常包含两类语句,技术方案本身的描述语句及技术方案能够达到技术效果及功能的语句描述,本申请主要是提取专利文件中技术效果语句作为功效句。

例如,“该方案是一种解耦式传输解决方案,它的部署需要结合实际使用环境进行参数配置和调试。在部署完成之后,能极大的提高了整个网络的利用率。”中,“该方案是一种解耦式传输解决方案,它的部署需要结合实际使用环境进行参数配置和调试”是非功效句,“在部署完成之后,能极大的提高了整个网络的利用率。”是功效句。

具体的,通过功效句于非功效句通过设置标签(label)进行标注,标签设置为两种,第一种标签为:是功效句,label为1;第二种标签为:非功效句,label为0;

将预设的功效句和非功效句样本打乱,进行模型训练,模型可以是BERT、BERT的变种或LSTM,模型训练方式包括调节参数直至评价指标最优。

具体的,参数包括学习率(learning rate)、迭代次数(epoch)、分批输入模型数据大小(batch size)及随机屏蔽神经元比例(dropout),进行模型训练调优等;评价指标为精确率与召回率的平衡指标(F1 score)。

不断迭代参数,直至精确率与召回率的平衡指标最优为止。其中精确率与召回率的平衡指标最优是指,精确率与召回率的平衡指标高于预设的精确率与召回率的平衡指标阈值。

S11:响应于判断功效句指令,基于文本分类模型,在目标文件中提取功效句;

参照图3,步骤S11包含步骤S110-S111,具体内容如下:

S110:将目标文件的文本按照句号或/和分号切割成多个分句;

本申请中,按照分号进行切割的方式中,是按照中文分号进行切割的。

S111:获取输入至文本分类模型中分句,判断功效句与非功效句;

当预测为正例,即标签为1时,则为功效句,其他情况则为非功效句。通过训练过的文本分类模型,将目标文件文本中的功效句与非功效句进行识别,以得到目标文件中的功效句。

在判断出功效句后,参照图1和图4,进行实体词的判断及标注,具体步骤如下:

S2:基于预设的实体识别模型,识别出功效句中的实体词及实体词属性,实体词包括修饰词、方向词及方面词;

具体的,具有功能效果描述的词句能够由一种或多种修饰词、方向词及方面词组成,例如在功效句“提高生产效率”中,“提高”为方向词,“生产”为修饰词,“效率”为方面词,即功效句“提高生产效率”能够由方向词“提高”、修饰词“生产”及方面词“效率”组成。

S20:获取的修饰词属性、方向词属性及方面词属性的标注数据;

标注数据的方式为BIO序列标注形式,将功效句中的三种实体词的属性进行标记,例如,在功效句“提高生产效率”中,“提高”标记为方向词,“生产”标记为修饰词,“效率”标记为方面词。

S21:对功效句进行实体识别训练;

步骤S21中的模型训练方法与步骤S10中的模型训练方法相同。

具体为,将预设的三种实体词样本打乱,进行模型训练,模型可以是BERT,还可以是BERT的变种或LSTM,模型训练方式包括调节参数直至评价指标最优。

具体的,参数包括学习率(learning rate)、迭代次数(epoch)、分批输入模型数据大小(batch size)及随机屏蔽神经元比例(dropout),进行模型训练调优等;评价指标为精确率与召回率的平衡指标(F1 score)。

不断迭代参数,直至精确率与召回率的平衡指标最优为止。其中精确率与召回率的平衡指标最优是指,精确率与召回率的平衡指标高于预设的精确率与召回率的平衡指标阈值。

S22:响应于实体词抽取指令,基于实体识别模型,抽取实体词及识别实体词的属性;

将步骤S111中输出的功效句输入文本分类模型中,预测出功效句中的实体词,并获得实体词中的方向词、修饰词及方面词的属性划分及标注。

在抽取实体词及标注实体词属性后,参照图1和图5,判断实体词之间所属依赖的关系,具体步骤如下:

S3:基于预设的所属关系分类模型,判断实体词之间所属依赖的关系;

S30:获取预设的关系标注数据样本;

预设的关系标注数据样本为将功效句中的多个实体词进行分组,例如“通过这种材料添加,可以提高产品的强度,并能降低产品的废品率”中,提高、产品、强度三个词是同一组,降低、产品、废品率是同一组。

S31:进行所属关系分类模型的模型训练;

步骤S31中的模型训练方法与步骤S10中的模型训练方法相同。

具体为,将预设的关系样本打乱,进行模型训练,模型可以是BERT、BERT的变种或LSTM,模型训练方式包括调节参数直至评价指标最优。

具体的,参数包括学习率(learning rate)、迭代次数(epoch)、分批输入模型数据大小(batch size)及随机屏蔽神经元比例(dropout),进行模型训练调优等;评价指标为精确率与召回率的平衡指标(F1 score)。

不断迭代参数,直至精确率与召回率的平衡指标最优为止。其中精确率与召回率的平衡指标最优是指,精确率与召回率的平衡指标高于预设的精确率与召回率的平衡指标阈值。

S32:响应于所属关系判断指令,判断实体词之间的所属关系;

参照图6,步骤S32包括步骤S320-S321,具体内容如下:

S320:将实体识别模型识别到的实体词,以方面词为中心,两两打标记。

以方面词为中心进行两两判断,找到其对应的方向词和修饰词,其中方向词和修饰词可以没有,例如,“这种改进方法提高了员工日常生产的效率”中,实体识别模型识别出方向词“提高”、修饰词“生产”及方面词“效率”,进行标记,即这种改进方法{D{提高}}了员工日常生产的{A{效率}},这种改进方法提高了员工日常{M{生产}}的{A{效率}};其中D代表方向词,M代表修饰词,A代表方面词。

S321:基于所属关系分类模型,判断两个打过标记的实体词是否属于同组,获得实体词之间的所属关系;

将功效句的关系标记输入到关系分类模型中,输入到关系分类模型中进行训练,标记数据的输入形式为在功效句的基础上,遍历的标记两个实体词。

例如,将步骤S320中的例子“即这种改进方法{D{提高}}了员工日常生产的{A{效率}},这种改进方法提高了员工日常{M{生产}}的{A{效率}};其中D代表方向词,M代表修饰词,A代表方面词”,以上以方面词为开始两两搭配的句子,再一一输入所属关系分类模型,通过所属关系分类模型判断是否为同一组。

输入形式及标记方式如下,例如“通过此方法,可以有效提高生产的安全性和效率,同时降低停线的损失”中,标记“可以有效{D{提高}}生产的{A{安全性}}和效率,同时降低停线的损失”作为正样本,其中 D 表示方向词属性,A 表示方面词属性。又例如:标记“通过此方法,可以有效{D{提高}}生产的安全性和效率、同时降低停线的{A{损失}}”作为负样本。以增加模型的注意力在标记的两种实体词上。

S4:根据修饰词、方向词、方面词及依赖关系,组装成功效词;

具体的,将同组的实体词按预设的顺序进行组装,得到功效词。例如“通过这种材料添加,可以提高产品的强度,并能降低产品的废品率”,实体词“提高”、“产品”、“强度”为一组,实体词“降低”、“产品”、“废品率”为一组,最终识别结果为:提高产品强度,降低产品废品率。

本申请不仅能够应用于辅助用户高效阅读专利文件,还能够应用在专利检索中,现有技术中的普通搜索只能模糊查找关键词再确定范围去人工翻阅,非常不方便,通过使用本方法中聚合的功效词作为关键词进行专利搜索,或是在搜索功能栏设置功效词匹配功能,如在搜索框中输入句子,将句子中的功效词提取出来,以使搜索结果更精准和高效。

本申请实施例一种文件的功效词提取聚合方法的实施原理为:通过文本分类模型判断出专利文件中的功效句,通过实体识别模型,判断出功效句中的修饰词、方向词及方面词,通过所属关系分类模型,识别出多个实体词相互所属依赖的关系,输出修饰词、方向词及方面词及所属依赖的关系,并组装为功效词。

本申请通过智能模型的识别,能从海量文本中生成具体的功效词,尤其是对于专利文件,可以快速定位和抽取到专利文件中功效部分,并按照成分组装成简短的词句,呈现在用户的面前,辅助用户进行阅读和分析,提升了阅读的效率,便于高效分析专利。

本申请实施例还公开一种文件的功效词提取聚合系统,文本分类模块,用于基于预设的文本分类模型,判断文件中的功效句与非功效句;实体词识别模块,用于基于预设的实体识别模型,识别出所述功效句中的实体词及实体词属性,实体词包括修饰词、方向词及方面词;所属关系分类模块,用于基于预设的所属关系分类模型,判断实体词之间所属依赖的关系;功效词组装模块,用于根据修饰词、方向词、方面词及依赖关系,组装成功效词。

本申请实施例一种文件的功效词提取聚合系统的实施原理为:通过文本分类模块中的文本分类模型判断出专利文件中的功效句,通过实体词识别模块中的实体识别模型,判断出功效句中的修饰词、方向词及方面词,通过所属关系分类模块中的所属关系分类模型,识别出多个实体词相互所属依赖的关系,输出修饰词、方向词及方面词及所属依赖的关系,并组装为功效词。

本申请通过智能模型的识别,能从海量文本中生成具体的功效词,尤其是对于专利文件,可以快速定位和抽取到专利文件中功效部分,并按照成分组装成简短的词句,呈现在用户的面前,辅助用户进行阅读和分析,提升了阅读的效率,便于高效分析专利。

本申请实施例还公开一种终端设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,其中,处理器执行计算机程序时采用了上述实施例的文件的功效词提取聚合方法。

其中,终端设备可以采用台式电脑、笔记本电脑或者云端服务器等计算机设备,并且,终端设备包括但不限于处理器以及存储器,例如,终端设备还可以包括输入输出设备、网络接入设备以及总线等。

其中,处理器可以采用中央处理单元(CPU),当然,根据实际的使用情况,也可以采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以采用微处理器或者任何常规的处理器等,本申请对此不做限制。

其中,存储器可以为终端设备的内部存储单元,例如,终端设备的硬盘或者内存,也可以为终端设备的外部存储设备,例如,终端设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为终端设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及终端设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。

其中,通过本终端设备,将上述实施例的文件的功效词提取聚合方法存储于终端设备的存储器中,并且,被加载并执行于终端设备的处理器上,以方便用户使用。

本申请实施例还公开一种计算机可读存储介质,并且,计算机可读存储介质存储有计算机程序,其中,计算机程序被处理器执行时,采用了上述实施例的文件的功效词提取聚合方法。

其中,计算机程序可以存储于计算机可读介质中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等,计算机可读介质包括能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等,需要说明的是,计算机可读介质包括但不限于上述元器件。

其中,通过本计算机可读存储介质,将上述实施例的文件的功效词提取聚合方法存储于计算机可读存储介质中,并且,被加载并执行于处理器上,以方便文件的功效词提取聚合方法的存储及应用。

以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已 。

相关技术
  • 一种文件或文件夹处理方法、移动终端及存储介质
  • 一种聚合兴趣点的操作方法、装置、终端及存储介质
  • 一种物联网终端升级方法、装置、系统、终端及存储介质
  • 基于TFTP的文件传输方法、系统及终端与存储介质
  • 一种从日志文件中提取图片的方法、存储介质和服务器
  • 关键词提取方法、系统、终端及存储介质
  • 一种聚合文件对象头管理方法、系统、终端及存储介质
技术分类

06120115933143