掌桥专利:专业的专利平台
掌桥专利
首页

一种基于SBERT的中文专利IPC分类方法

文献发布时间:2023-06-19 18:46:07


一种基于SBERT的中文专利IPC分类方法

技术领域

本发明涉及专利IPC分类技术领域,尤其涉及一种基于SBERT的中文专利IPC分类方法。

背景技术

随着科技的快速发展,全球专利申请量随之逐年递增。专利申请时需要按不同领域进行类别的划分,以便进行分类统计和管理。即,每一件被核准的专利都会依其技术内容被分类一个国际专利分类码IPC(International Patent Classification)。目前,该项分类的工作还依赖于人工方式完成,这给专利审查人员带来了巨大的工作量。因此,有必要研究如何利用自然语言处理方面的技术,通过挖掘专利申请文本中的语义信息来解决专利自动分类相关的问题.

专利自动分类目前主要通过深度学习网络来实现。图1展示了一种现有技术采用的分类结构。该结构主要由两部分构成:预训练模型和Text-CNN分类头部分。预训练模型部分实现对专利文本的向量化表示,Text-CNN分类头部分实现对专利的分类.

采用BERT(Bidirectional Encoder Representation from Transformers)预训练模型作为文本向量化表示的专利分类方法,在目前阶段是性能表现最优的一种方案。BERT采用双向Transformer编码器,通过词语遮盖模型和上下句关系预测,分别获取单词与句子级别的表义方式。通过这样训练出来的模型,使BERT具有了很强的句词表达能力。无论是在字词级别的NLP(Natural Language Processing,自然语言处理)任务,如命名实体识别,还是在如问答类的句子级别的NLP任务中,都具有卓越的性能表现。通过BERT编码之后的向量表示能得到潜在的深层语义、语法信息。预训练模型是在无监督目标下对海量文本进行预训练得到的,后续可针对特定的任务进行参数微调。

Text-CNN是CNN用于文本分类任务上的结构变种。如图1所示,图中的右侧部分描述了Text-CNN的层次结构,主要包括卷积、池化、全连接三部分。Text-CNN中设置了三种尺寸的卷积核,卷积核的宽度和词向量的长度保持一致,卷积核的高度分别取3、4和5。卷积核在词向量上从上至下进行滑动,实现卷积操作。卷积后的特征图经过池化和拼接操作得到文本的一维特征的表达,最后通过全连接层实现专利文本的分类。

现有技术采用了目前最优秀的BERT预训练模型作为专利本文表示的方法。在专利分类性能表现上取得了不错的结果。但现有的技术,在实现专利IPC自动分类上还存在以下不足:

1)一方面:现有方法只把历史专利数据作为先验知识,没有利用IPC分类表中提供的分类规则术语。现有技术采用的方案是典型的基于深度学习的黑盒法,通过对大量历史专利数据的学习,让深度网络具备一定的辨识能力。作为先验知识,除了历史专利数据外,还有国家专利局提供的IPC分类表及规则术语未得以利用。

2)另一方面:现有技术在对专利文本进行自动分类时,只会给出一个主分类号。而在标识某项专利的时候,除需要主分类号外,还需要额外提供2-5个分类号作为补充。当一件发明专利涉及不同类型的技术主题,并且这些技术主题也构成发明信息时,就应当根据所涉及的技术主题进行多重分类,给出多个分类号。把最能充分代表发明信息的分类号排在第一位,作为主分类号。现有技术在专利涉及多个技术主题时,不能为该专利提供多个分类号。

针对现有技术存在上述的两点不足,本发明提出一种基于SBERT的中文专利IPC自动分类方法。

发明内容

本发明的目的在于提供一种基于SBERT的中文专利IPC分类方法,该方法采用具有孪生结构的SBERT作为中文专利自动分类的框架,将专利文本和IPC分类表中的分类术语描述作为两路数据输入SBERT,通过BERT实现对两路文本的向量化编码,然后由得到的两路向量相近程度来判定真实专利的类别,不仅减少计算量,提升了分类准确率,而且还能够给出多个IPC分类号。

为达到上述技术目的,本发明采用以下一种技术方案:

一种基于SBERT的中文专利IPC分类方法,包括以下步骤:

语料数据预处理:从专利文本中提取特定字句构成第一路语料数据,从IPC分类表按类别提取可表达对应类的术语描述作为第二路语料数据;所述专利文本可以是待分类目标专利文本或训练样本,所述训练样本从历史专利文本获取;

对所述语料数据进行数据增强处理;

语料数据预处理:从专利文本中提取特定字句构成第一路语料数据,从IPC分类表按类别提取可表达对应类的术语描述作为第二路语料数据;所述专利文本可以是待分类目标专利文本或训练样本,所述训练样本从历史专利文本获取;

对所述语料数据进行数据增强处理;

文本向量化编码:分别将经过数据增强处理后的所述第一路语料数据和所述第二路语料数据分别输入SBERT框架下的第一路BERT预训练模型和第二路BERT预训练模型进行向量化编码,得到专利文本的向量表示,其中所述第一路语料数据对应的专利文本的向量表示构成特征集U,所述第二路语料数据对应的专利文本的向量表示构成特征集V;

相似度比较:计算所述特征集U和所述特征集V的相似度值,得到与不同类别术语描述对应的相似度值排名,选择相似度值排第一的术语描述所对应的IPC分类号为主IPC分类号,相似度值排第N(N>1)的术语描述所对应的IPC分类号为可选用的备选IPC分类号。

进一步的,对所述语料数据进行数据增强处理具体为:SBERT的模型训练过程中,采用DropOut方法,把同一文本多次输入BERT预训练模型的方式来实现样本数据的数据增强。

进一步的,所述向量化编码过程为:每个句子文本单独向量化编码,得到对应每个句子文本的向量表示,所有句子文本的向量表示组成专利文本的向量表示。

进一步的,所述计算特征集U和特征集V的相似度值具体为:通过计算特征集U和特征集V的余弦相似度或者欧式距离得到相似度值。

进一步的,所述文本向量化编码过程中还包括对所述专利文本的向量表示进行平均池化处理。

进一步的,所述特定字句为专利标题和摘要。

采用上述方案后,本发明具有以下有益效果:

1、本发明一方面利用历史专利文本数据作为第一路语料数据,另一方面还充分利用了IPC分类表的术语描述作为第二路语料数据,针对句子对任务,SBERT相比BERT能够降低计算开销,同时,允许两路文本均以最大文本长度进行输入,每个句子文本单独向量化编码,因此,其实现的中文专利分类方法相较于之前的黑盒法,准确率有明显的提升,计算量大大降低,具有更快速、准确分类的特点。

2、本发明最后通过相似度比较,除提供Top1主分类号之外,还可以同时提供TopN分类号,以作为该专利的备选分类号。这些备选分类号,给人工处理提供了选择的空间。同时,针对相似度值高的TopN分类号,揭示了该专利涉及了不同类型的技术主题。专利分类号分配时,除给出主分类号外,还应该给出蕴含其它主题的分类号。

本发明之所以具有以上优点,是因为方案中采用了具有孪生结构的SBERT作为中文专利自动分类的框架。该框架有两路输入,一路以要进行分类的专利所对应的文本(专利主题和摘要)为输入,另一路以IPC分类表中的术语描述作为输入。针对要进行分类的专利,第二路输入所有类别的分类术语,通过相似度计算,得到与不同类别术语描述对应的相似度值排名,排名Top1的分类号可作为专利分类的依据,选为主IPC分类号,TopN的分类号可作为表征该专利涉及其它主题应给出的备选IPC分类号。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的变形形式。

图1是现有技术基于BERT和Text-CNN的专利分类框架图;

图2本发明实施例一种基于SBERT的中文专利IPC分类方法的流程图;

图3是本发明实施例一种基于SBERT的中文专利分类框架图;

图4是基于预训练模型的专利向量表示示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例所述BERT的全称为Bidirectional Encoder Representation fromTransformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的maskedlanguage model(MLM),以致能生成深度的双向语言表征。

本实施例所述的SBERT为挛生网络Siamese network,也称Sentence BERT,SBERT模型的子网络都使用BERT模型,且两个BERT模型共享参数。当对比A,B两个句子相似度时,A,B分别输入两个BERT网络,输出是两组表征句子的向量,然后计算二者的相似度;利用该原理还可以使用向量聚类,实现无监督学习任务。

如图2所示,本发明实施例提供了一种基于SBERT的中文专利IPC分类方法,包括以下步骤:

S10、语料数据预处理:从专利文本中提取特定字句构成第一路语料数据,从IPC分类表按类别提取可表达对应类的术语描述作为第二路语料数据;所述专利文本可以是待分类目标专利文本或训练样本,所述训练样本从历史专利文本获取;所述第一路语料数据所提取的特定字句一般选择专利标题和摘要;针对第二路语料数据,以IPC分类表中的A部为例,对IPC分类表中的A部在子类级别上对中文释义列进行了术语提取,同时进行了归并和整理,处理后的结果如表1所示:

表1A部下小类的术语描述

S20、对所述语料数据进行数据增强处理;模型训练时,在训练样本较少或者训练样本不均衡的情况下,需要对训练数据进行数据增强以防止模型过拟合以及提升模型的精度。本实施例中,面临正例样本的数量远少于负例样本的数量的情况,因此需要进行数据增强的处理,具体是:在SBERT的模型训练过程中,使用DropOut可以实现训练样本的数据增强,SBERT模型中DropOut mask具有随机性,这使得同一文本在经过BERT模型后会输出不同的向量表示,因此,本实施例通过把同一文本多次输入BERT模型的方式来实现样本数据的数据增强。它比基于同义词或掩码语言模型的单词删减或替换等更复杂的数据增强方法效果要好,因为删减或替换操作可能会改变文本原有的含义,而DropOut方法产生的样本和原始样本的语义完全一致,只是生成的向量表示不同;

S30、文本向量化编码:分别将经过数据增强处理后的第一路语料数据和第二路语料数据分别输入SBERT框架下的第一路BERT预训练模型和第二路BERT预训练模型进行向量化编码,该向量化编码过程为每个句子文本单独向量化编码,得到对应每个句子文本的向量表示,所有句子文本的向量表示组成专利文本的向量表示,其中第一路语料数据对应的专利文本的向量表示构成特征集U,第二路语料数据对应的专利文本的向量表示构成特征集V;

参见图3所示,基于SBERT框架下,针对句子对任务,SBERT模型相比BERT模型能够降低计算开销,同时,允许两路文本(第一路语料数据和第二路语料数据)均以最大文本长度进行输入。当使用BERT模型时,需要使用符号[SEP]将两个句子文本拼接在一起构成句子对,句子配对数量(即向量化编码次数)为句子数量的平方。而使用SBERT模型,每个句子文本单独向量化编码,最后通过计算余弦相似度或者欧式距离等方法进行相似度比较。因此相比BERT模型,本发明采用SBERT模型向量化编码次数更少。

此外,由于两路输入文本由两路分支上的BERT(第一路BERT预训练模型和第二路BERT预训练模型)分别实现向量化编码,这使得两路文本均可以以BERT预训练模型允许的最大文本长度进行输入,在SBERT模型中,句子级别的文本向量化表示可以有几种不同的方式。如图4所示,专利文本中的每个字在输入预训练模型后,分别得到各自的向量表示,R

S40、相似度比较:计算特征集U和特征集V的相似度值,得到与不同类别术语描述对应的相似度值排名,选择相似度值排第一(Top1)的术语描述所对应的IPC分类号为主IPC分类号,相似度值排第N(TopN,N为正整数,且N>1)的术语描述所对应的IPC分类号为可选用的备选IPC分类号。具体的,可通过计算特征集U和特征集V的余弦相似度或者欧式距离得到相似度值。

基于上述实施例,本发明采用了具有孪生结构的SBERT作为中文专利自动分类的框架,该框架有两路输入,一路以要进行分类的专利所对应的文本(专利主题和摘要)为输入,另一路以IPC分类表中的术语描述作为输入。针对要进行分类的专利,第二路输入所有类别的分类术语,通过相似度计算,得到与不同类别术语描述对应的相似度值排名,排名Top1的分类号可作为专利分类的依据,选为主IPC分类号,TopN的分类号可作为表征该专利涉及其它主题应给出的备选IPC分类号。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一可选实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述的实施方式,并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等,均应包含在该技术方案的保护范围之内。

技术分类

06120115686540