掌桥专利:专业的专利平台
掌桥专利
首页

一种小样本关系分类过滤方法、装置及设备

文献发布时间:2024-04-18 19:58:21


一种小样本关系分类过滤方法、装置及设备

技术领域

本发明实施例涉及数据过滤分类技术领域,特别涉及一种小样本关系分类过滤方法、装置及设备。

背景技术

近年来,信息技术和互联网迎来了爆炸性的发展,网上存在着包含大量信息的非结构化文本。信息提取(IE)涉及从这些文本中提取有价值的知识,包括命名实体识别、事件检测(ED)、关系分类(RC)等。在这些任务中,关系分类旨在通过检测某个句子中包含的一对实体之间的关系,在现实中具有巨大的实用价值,例如为许多下游应用(知识图谱或问答系统)提供了输入。如图1所示,句子S1包含两个实体,即头部实体"高速路"和尾部实体"河流"。关系分类的目的是判断上述两个实体之间是否存在"交叉"关系。由于其相当大的商业价值,关系分类已经成为信息抽取中最突出的研究课题之一。然而,注释实例的稀缺限制了数据驱动的关系分类方法的有效性,特别是对于只有少数实例的新出现的关系。

因此,现有的方法主要从两个方面来提升小样本数据分类模型的性能,即提高注释的数量和质量。为了提高实例的数量,许多研究人员选择了使用半监督学习与远程监督。远程监督利用实体对齐来自动地、持续地标记从外部数据库中的无标注实例。然而,远程监督的强关系假设:“如果两个句子中含有相同实例,那么他们表示相同关系”,往往会给模型引入大量的噪音。因此,现有方案提出了一种神经滚雪球算法,这是一种远距离监督方法。为了解决噪声问题,它利用关系孪生网络(RSN)通过测量查询实例与支持种子实例之间的距离来确定它们是否有相同的关系。此外,提示学习在提升实例的质量方面获得了广泛关注。提示学习中的模板可以存储丰富的语义,并激发预训练语言模型(PLM)的常识,使其成为小样本学习任务的优秀表现者。许多基于提示的方法已经被提出,如PRBOOST、PTR和PAIE。然而,这些方法只关注个别句子和局部层面的特征,如实体对,而忽略了全局层面概念语义的丰富信息。对单个信息的过度依赖很可能导致语义偏差,这将阻碍对关系的全面准确的语义的整体理解,特别是在小样本学习的设置下。

发明内容

本发明所要解决的问题为提供一种能够解决小样本训练数据匮乏,提升小样本识别精度的小样本关系分类过滤方法、装置及设备。

为解决上述问题,本发明公开了一种小样本关系分类过滤方法,包括:

构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;

构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;

将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;

构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制所述分类器在训练期间使用的所述负样本集的比例;

基于已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;

基于训练好的所述分类器对小样本数据进行关系分类。

作为一可选实施例,所述构建粗粒度过滤器,包括:

设置实体对齐模块,其用于识别出所述语料集中与种子实例具有相同实体的第一候选实例;

设置关系孪生网络,其用于通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例;

基于所述实体对齐模块及关系孪生网络形成所述粗粒度过滤器。

作为一可选实施例,所述种子实例包括多个,所述通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例,包括:

所述关系孪生网络通过测量所述语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:

基于所述语料集中的各实例与各所述种子实例间的相似性分数计算平均相似性分数;

基于多个所述平均相似性分数过滤出与各所述种子实例具有相似语义的第二候选实例;

其中,σ(·)是sigmoid激活函数,f

作为一可选实施例,所述构建细粒度过滤器,包括:

设置提示模板生成函数,用于将所述第一候选实例、第二候选实例分别转化为符合输入模板要求的新文本,所述输入模板包含候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;

预训练语言模型,用于根据所述种子实例的关系概念处理对应所述第一候选实例、第二候选实例的新文本,以基于处理结果将匹配各所述新文本的标签添加至所述标签栏中,并根据所述标签实现对所述第一候选实例、第二候选实例的过滤,得到所述第三候选实例。

作为一可选实施例,还包括:

基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练;

基于预训练后的所述粗粒度过滤器、细粒度过滤器对所述语料集进行过滤得到所述阳性实例集、负样本集;

基于所述阳性实例集、负样本集以及少量的属于新出现的关系的标注实例训练预训练后的所述分类器。

作为一可选实施例,所述基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练,包括:

基于所述满足常出现的关系的标注实例中的任意两个实例,结合交叉熵损失对所述粗粒度过滤器进行预训练;

构建不同的输入模板,并基于所述不同的输入模板和满足常出现的关系的标注实例对所述细粒度过滤器进行预训练,所述输入模板包含模板格式内容、候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;

基于小样本学习模式及满足常出现的关系的标注实例对所述分类器进行预训练。

作为一可选实施例,所述构建不同的输入模板,包括:

构建文本描述与关系概念在不同位置的输入模板、缺少部分或全部所述模板格式内容的输入模板,和通过改变关系概念以形成负模板的输入模板。

作为一可选实施例,还包括:

基于所述假阳性实例修正模块将所述分类器的参数和损失函数修正为:

其中,B

本发明另一实施例同时提供一种小样本关系分类过滤装置,包括:

第一构建模块,用于构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;

第二构建模块,用于构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;

定义模块,用于将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;

第三构建模块,其用于构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制分类器在训练期间使用的所述负样本集的比例;

训练模块,用于根据已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;

分类模块,用于根据训练好的所述分类器对小样本数据进行关系分类。

本发明另一实施例还提供一种电子设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如上文中任一项实施例所述的小样本过滤分类方法。

基于上述实施例的公开可以获知,本发明实施例具备的有益效果包括通过采用粗粒度、细粒度的双层过滤器来从语料集中捕捉高质量的实例,扩充训练数据,提高分类器的训练精度,并规避了现有的半监督学习中出现的噪声问题。此外,本实施例的方法利用将输入文本改为符合输入模板要求的新文本来帮助分类器理解输入文本和种子实例间关系概念的联系,进而提升分类器对小样本关系分类的精度。而且,为了提高输入模板对实例间非归属关系的识别能力,本实施例的方法在细粒度过滤器的预训练阶段还引入了不同的输入模板,包括负面模板及内容不同的正面模板。另外,为了缓解分类器训练过程中的过度拟合问题,本实施例方法还增设了假阳性实例修正模块来动态地调整参与训练的负样本集的比例,进而降低阳性实例对分类器性能过拟合的损害。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为关系分类的一实例示意图。

图2为本发明实施例中的小样本过滤分类方法流程图。

图3为本发明实施例中在无标签语料集中获取的数据分布。

图4为本发明实施例中粗粒度到细粒度的过滤器模型的工作流程图。

图5为本发明实施例中的细粒度过滤器的工作过程图。

图6为细粒度过滤器(CHP)过滤识别假阳性实例的过程图。

图7为本发明实施例中的小样本过滤分类装置的结构框图。

具体实施方式

下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。

应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。

还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面,结合附图详细的说明本发明实施例。

如图1所示,本发明实施例提供一种小样本关系分类过滤方法,包括:

S100:构建粗粒度过滤器,粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;

S101:构建细粒度过滤器,细粒度过滤器用于对第一候选实例与第二候选实例进行过滤,得到与种子实例的关系概念相同的第三候选实例;

S102:将第三候选实例定义为阳性实例集,将第一候选实例与第二候选实例中与种子实例的关系概念不同的候选实例定义为负样本集,关系概念用于描述不同实例间的关系;

S103:构建假阳性实例修正模块,假阳性实例修正模块用于调整、控制分类器在训练期间使用的负样本集的比例;

S104:基于已获得的少量的属于新出现的关系的标注实例,以及经假阳性实例修正模块调整后的阳性实例集、负样本集训练分类器;

S105:基于训练好的分类器对小样本数据进行关系分类。

基于上述实施例的公开可以获知,本实施例公开的方法具备的有益效果包括通过采用粗粒度、细粒度的双层过滤器来从语料集中捕捉高质量的实例,扩充训练数据,提高分类器的训练精度,并规避了现有的半监督学习中出现的噪声问题。另外,为了缓解分类器训练过程中的过度拟合问题,本实施例方法还增设了假阳性实例修正模块来动态地调整参与训练的负样本集的比例,进而降低阳性实例对分类器性能过拟合的损害。

通过本实施例公开的方法可以使得分类器在低资源情况下仍具有高精度的分类效果,召回率与F1值(F1分数(F1-score)是分类问题的一个衡量指标,是精确率和召回率的调和平均数)相对基线也得到了明显的改善,真正实现了分类器能够像人类一样思考,克服了与输入数据中的局部信息有关的限制,实现了不论输入文本序列的长短、种子实例的数量,亦或是假阳性实例的干扰,分类器均能够学习到文本语义并进行高精确率的关系分类。

进一步地,现有的关系分类数据的主要分布特征如下:1)一定数量的属于常出现的关系的标注实例D

f

其中,模板T(x

其中

如图3所示,矩形方框代表未标记的语料集(未标注语料库);左侧圆圈代表由粗粒度过滤器识别的阳性实例-第一候选实例;右侧圆圈标志着由粗粒度过滤器识别出的阳性实例-第二候选实例;而穿过两个圆圈的阴影重叠部分代表细粒度过滤器识别出的真正阳性实例-第三候选实例。而本实施例中分类器模型的目标是尽可能多地从未标记的语料集中获得被阴影重叠部分标记的实例。

具体地,本实施例中的分类器是以雪球结构为模型框架,从外部未标记的语料集中识别匹配的关系实例。在执行本实施例中的方法流程时,首先需要构建粗粒度过滤器,包括:

S106:设置实体对齐模块,其用于识别出语料集中与种子实例具有相同实体的第一候选实例;

S107:设置关系孪生网络,其用于通过测量语料集中的实例与种子实例中词向量间的距离过滤出与种子实例具有相似语义的第二候选实例;

S108:基于实体对齐模块及关系孪生网络形成粗粒度过滤器。

例如,如图4所示,粗粒度过滤器执行的就是一个粗粒度滚雪球的工作流程,其包括实体对齐模块和关系孪生网络(简称RSN模块)。粗粒度过滤器可以从D

具体地,粗粒度过滤器是利用实体对齐模块来识别种子实例

其中e

然而,实体对齐模块本质作为一个粗粒度的过滤器,往往会提取与

通过实体对齐模块的过滤,已经从语料集中收集到了一些具有新关系的实例,然而,上述过程仍然遗漏了实体对与

因此,本实施例采用关系孪生网络(以下简称RSN)来捕捉该类被遗漏的实例。由上可知,种子实例包括多个,本实施例中的RSN是通过测量语料集中的实例与种子实例中词向量间的距离过滤出与种子实例具有相似语义的第二候选实例,其包括:

S109:关系孪生网络通过测量语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:

S110:基于语料集中的各实例与各种子实例间的相似性分数计算平均相似性分数;

S111:基于多个平均相似性分数过滤出与各种子实例具有相似语义的第二候选实例;

其中,σ(·)是sigmoid激活函数,f

具体地,本实施例中的RSN相当于是计算种子实例

计算出的相似性分数(概率)越大,表明两个实例表达相同关系的可能性越大。在获得相似性分数后,可通过计算查询实例对各种种子实例的平均分数:

其中n是种子实例的数量。可选地,本实施例中是选择分数由高到低排名中的前K个实例

进一步地,本实施例中的细粒度过滤器是基于概念启发式提示(CHP)概念形成的,其灵感来自于人类在理解新概念时的逻辑推理。例如对于"尼克创办了一所福利学校,教孩子们学习科学"这个句子,人们总是专注于"创办"一词,而不是"尼克"和"福利学校"等实体(词汇)。因此,"创办"这一关系的含义是至关重要的。在这个概念的激励下,本实施例构建了细粒度过滤器,包括:

S112:设置提示模板生成函数,用于将第一候选实例、第二候选实例分别转化为符合输入模板要求的新文本,输入模板包含候选实例中的文本描述、关系概念以及标签栏,标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;

S113:预训练语言模型,用于根据种子实例的关系概念处理对应第一候选实例、第二候选实例的新文本,以基于处理结果将匹配各新文本的标签添加至标签栏中,并根据标签实现对第一候选实例、第二候选实例的过滤,得到第三候选实例。

具体地,设置的提示模板生成函数f

对于D

随后将新文本输入到PLM以填充得到[Mask]的答案,并确定

上述方程表明,[Mask]标记为h[Mask]为可以被映射到种子关系

其中

进一步地,与上述过程类似,被过滤出的第二候选实例D

前两个方程分别代表RSN的过滤条件以及CHP的过滤条件。经过上述方法流程就可以最大限度地收集了图3中阴影重叠部分的数据。由于上述的输入模板是基于关系概念启发式概念实现的,故基于该输入模板可以使细粒度过滤器在低资源条件下充分学习标签和输入文本之间的语义联系,有效识别出假阳性实例,还能够有效激发隐藏在PLM中的丰富知识。

例如,举个实例,参考图6,其左图描述了一个实例符合实体对齐标准但不符合概念启发式提示标准的情况。由图可知,种子实例和未标记的实例具有相同的实体对"MyFreedom,Make some noise",但却表示不同的关系。在种子实例中,实体对的关系是"partof",表明"My Freedom"是专辑"Make some noise"中一首歌曲。相反,在未标记的实例中,它们的关系是"follows",表示"My Freedom"位置在歌曲"Make some noise"的后面。

图6中的右图显示,RSN对属于不同关系的两个实例进行了错误分类。根据RSN的原理,这种错误分类是由于这两个句子的结构具有可比性,它们都表达了一个人的职业属性,而基于概念启发式提示形成的输入模板却能辅助过滤器对其进行正确分类。因此,概念启发式提示的引用不仅可以帮助过滤器识别真正的阳性实例,还可以检测出假的阳性实例,这对于纠正模型的分类能力至关重要。

进一步地,在另一实施例中,所述方法还包括:

S114:基于获得的满足常出现的关系的标注实例分别对粗粒度过滤器、细粒度过滤器、分类器进行预训练;

S115:基于预训练后的粗粒度过滤器、细粒度过滤器对语料集进行过滤得到阳性实例集、负样本集;

S116:基于阳性实例集、负样本集以及少量的属于新出现的关系的标注实例训练预训练后的分类器。

其中,基于获得的满足常出现的关系的标注实例分别对粗粒度过滤器、细粒度过滤器、分类器进行预训练,包括:

S117:基于满足常出现的关系的标注实例中的任意两个实例,结合交叉熵损失对粗粒度过滤器进行预训练;

S118:构建不同的输入模板,并基于不同的输入模板和满足常出现的关系的标注实例对细粒度过滤器进行预训练,输入模板包含模板格式内容、候选实例中的文本描述、关系概念以及标签栏,标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;

S119:基于小样本学习模式及满足常出现的关系的标注实例对分类器进行预训练。

在构建不同的输入模板时,包括:

S120:构建文本描述与关系概念在不同位置的输入模板、缺少部分或全部模板格式内容的输入模板,和通过改变关系概念以形成负模板的输入模板。

例如,为了使分类器能够更好地将实例迁移到新出现的关系上,本实施例提出在大量的现有关系D

具体地,本实施例设置了三个正提示模板T

该模板包括输入文本的描述、关系概念、标签栏以及模板格式内容,例如下表:

其中“这个句子[]包含了这种关系[]。这种说法是[]”即为模板格式内容。前三个模板的格式内容不同,而且T

由于希望细粒度过滤器能够用"是"、"正确"或"对的"这样的词来回答v[mask],表明输入的句子包含该种子关系,也可认为是与种子实例具有相同的关系概念。反之,如果v[mask]是"不是"、"错误"或"假的",则说明没有关系。然后,便可将这些词的向量映射到相应的关系上:

其中

其中L是交叉熵损失;N

优选地,上述从粗到细的过滤器产生了大量高质量的弱标记实例,即阳性实例集和负样本集。然而,若仅仅依靠正面实例来训练分类器,会导致阳性实例和负样本的数量极不平衡。这种不平衡会使分类器具有较高的召回率和较低的精度。为了解决这个问题,本实施例提出了在模型中增设一个假阳性实例修正模块,利用假阳性实例来修正分类器在训练过程中的倾斜度,从而缓解了由过多的阳性实例引起的过度拟合问题。

例如,对于一个种子关系

其中,

可选地,在本实施例中,执行上述方法流程涉及的设备及应用程序包括:小样本实例数据通过BERT(一种语言表征模型)进行编码,该实验使用window11系统,在pycharm软件(集成开发环境)上,采用torch3.8(开源的机器学习库)、采用NVIDIA GTX 3060GPU进行实施。对于语料集中的文本数据的获取可以通过多种途径,如网络搜集、人为定向搜集等等。

如图7所示,本发明另一实施例同时提供一种小样本关系分类过滤装置100,包括:

第一构建模块,用于构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;

第二构建模块,用于构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;

定义模块,用于将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;

第三构建模块,其用于构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制分类器在训练期间使用的所述负样本集的比例;

训练模块,用于根据已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;

分类模块,用于根据训练好的所述分类器对小样本数据进行关系分类。

作为一可选实施例,所述构建粗粒度过滤器,包括:

设置实体对齐模块,其用于识别出所述语料集中与种子实例具有相同实体的第一候选实例;

设置关系孪生网络,其用于通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例;

基于所述实体对齐模块及关系孪生网络形成所述粗粒度过滤器。

作为一可选实施例,所述种子实例包括多个,所述通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例,包括:

所述关系孪生网络通过测量所述语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:

基于所述语料集中的各实例与各所述种子实例间的相似性分数计算平均相似性分数;

基于多个所述平均相似性分数过滤出与各所述种子实例具有相似语义的第二候选实例;

其中,σ(·)是sigmoid激活函数,f

作为一可选实施例,所述构建细粒度过滤器,包括:

设置提示模板生成函数,用于将所述第一候选实例、第二候选实例分别转化为符合输入模板要求的新文本,所述输入模板包含候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;

预训练语言模型,用于根据所述种子实例的关系概念处理对应所述第一候选实例、第二候选实例的新文本,以基于处理结果将匹配各所述新文本的标签添加至所述标签栏中,并根据所述标签实现对所述第一候选实例、第二候选实例的过滤,得到所述第三候选实例。

作为一可选实施例,还包括:

预训练模块,用于根据获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练;

过滤模块,用于根据预训练后的所述粗粒度过滤器、细粒度过滤器对所述语料集进行过滤得到所述阳性实例集、负样本集;

所述训练模块根据所述阳性实例集、负样本集以及少量的属于新出现的关系的标注实例训练预训练后的所述分类器。

作为一可选实施例,所述基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练,包括:

基于所述满足常出现的关系的标注实例中的任意两个实例,结合交叉熵损失对所述粗粒度过滤器进行预训练;

构建不同的输入模板,并基于所述不同的输入模板和满足常出现的关系的标注实例对所述细粒度过滤器进行预训练,所述输入模板包含模板格式内容、候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;

基于小样本学习模式及满足常出现的关系的标注实例对所述分类器进行预训练。

作为一可选实施例,所述构建不同的输入模板,包括:

构建文本描述与关系概念在不同位置的输入模板、缺少部分或全部所述模板格式内容的输入模板,和通过改变关系概念以形成负模板的输入模板。

作为一可选实施例,还包括:

修正模块,用于根据所述假阳性实例修正模块将所述分类器的参数和损失函数修正为:

其中,B

本发明另一实施例还提供一种电子设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如上文中任一项实施例所述的小样本关系分类过滤方法。

进一步地,本发明一实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的小样本关系分类过滤方法。应理解,本实施例中的各个方案具有上述方法实施例中对应的技术效果,此处不再赘述。

进一步地,本发明实施例还提供了一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可读指令,所述计算机可执行指令在被执行时使至少一个处理器执行诸如上文所述实施例中的小样本关系分类过滤方法。

需要说明的是,本发明的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、天线、光缆、RF等等,或者上述的任意合适的组合。

另外,本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

相关技术
  • 一种样本数据处理方法、样本数据处理装置及电子设备
  • 用于生物样本的过滤器设备及过滤器装置
  • 设备过滤网更换的提醒方法、装置和带有过滤网的设备
  • 面向桥梁检测领域文本的少样本关系分类装置及分类方法
  • 基于提示学习的小样本关系分类方法、系统、介质及电子设备
技术分类

06120116484493