掌桥专利:专业的专利平台
掌桥专利
首页

偏移检测方法、装置及电子设备和存储介质

文献发布时间:2023-06-19 13:49:36


偏移检测方法、装置及电子设备和存储介质

技术领域

本申请涉及机器学习技术领域,更具体地说,涉及一种偏移检测方法、装置及电子设备和存储介质。

背景技术

训练数据是机器学习的重要组成部分,当通过训练数据训练好了一个机器模型后,如果机器模型的输入数据的信息分布与训练数据相同或相近,则机器模型的性能会很好,但当机器模型的输入数据相较于训练数据发生偏移(即输入数据的信息分布与训练数据的信息分布相比,发生了变化)后,机器模型的性能就会下降。

目前,已有一些技术提供数据集的偏移检测,但是现有的偏移检测技术仅能够检测到数据集是否发生偏移,而不能确定引起偏移的原因。因此,有必要提供一种可解释的偏移检测方法,在检测出数据集发生偏移的同时确定发生偏移的原因。

发明内容

本申请的目的是提供一种偏移检测方法、装置及电子设备和存储介质,包括如下技术方案:

一种偏移检测方法,所述方法包括:

获得参考文本集,目标文本集和待检测文本集;其中,所述参考文本集为训练文本处理模型所使用的文本集,所述目标文本集与所述参考文本集具有相同或相似的信息分布;

获得第一文本集的向量表示集;所述向量表示集中不同的向量表示的长度不同,长度为N的向量表示表征所述参考文本集中对所述文本处理模型输出处理结果的重要程度排序前N的N个对象在所述第一文本集中的特征值;所述第一文本集为所述参考文本集、目标文本集和待检测文本集中的任意一个文本集;

根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定所述待检测文本集与所述目标文本集在所述N个对象方面的差异;

根据所述差异确定所述待检测文本集与所述参考文本集在所述N个对象方面是否发生偏移。

上述方法,优选的,所述目标文本集为所述参考文本集的子集。

上述方法,优选的,所述根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定所述待检测文本集与所述目标文本集在所述N个对象方面的差异,包括:

获得所述参考文本集的长度小于或等于N的向量表示与所述目标文本集的长度小于或等于N的向量表示的第一差异,以及所述参考文本集的长度小于或等于N的向量表示与所述待检测文本集的长度小于或等于N的向量表示的第二差异;

根据所述第一差异与所述第二差异确定所述待检测文本集与所述目标文本集的第三差异。

上述方法,优选的,所述根据所述第一差异与所述第二差异确定所述待检测文本集与所述目标文本集的第三差异,包括:

将所述第一差异与所述第二差异的差异确定为所述待检测文本集与所述目标文本集的第三差异。

上述方法,优选的,所述获得第一文本集的向量表示集,包括:

利用所述文本处理模型的解释模型确定所述参考文本集中的各个对象对所述文本处理模型输出处理结果的重要程度;

确定所述参考文本集中对所述文本处理模型输出处理结果的重要程度排序第N的对象;

利用所述文本处理模型的解释模型确定所述目标文本集中所述排序第N的对象对所述文本处理模型输出处理结果的重要程度,以及所述待检测文本集中所述排序第N的对象对所述文本处理模型输出处理结果的重要程度;

基于所述第一文本集中所述排序第N的对象对所述文本处理模型输出处理结果的重要程度,以及所述排序第N的对象在所述第一文本集中出现的频率,确定所述排序第N的对象在所述第一文本集中的特征值。

上述方法,优选的,所述利用所述文本处理模型的解释模型确定所述参考文本集中的各个对象对所述文本处理模型输出处理结果的重要程度,包括:

对于所述参考文本集中的任意一个对象,利用所述文本处理模型的解释模型确定所述参考文本集中每一个出现所述任意一个对象的句子的正向分数和负向分数;

对所述参考文本集中各个出现所述任意一个对象的句子的正向分数和负向分数进行归一化,得到所述参考文本集中各个出现所述任意一个对象的句子的归一化的正向分数和归一化的负向分数;

将所有出现所述任意一个对象的句子的归一化的正向分数和归一化的负向分数求均值,得到所述任意一个对象对所述文本处理模型输出处理结果的重要程度。

上述方法,优选的,所述根据所述差异确定所述待检测文本集与所述参考文本集在所述N个对象方面是否发生偏移,包括:

将所述差异与阈值比较;

如果所述差异大于阈值,确定所述待检测文本集与所述参考文本集在所述N个对象方面发生偏移。

一种偏移检测装置,包括:

文本集获得模块,用于获得参考文本集,目标文本集和待检测文本集;其中,所述参考文本集为训练文本处理模型所使用的文本集,所述目标文本集与所述参考文本集具有相同或相似的信息分布;

向量表示集获得模块,用于获得第一文本集的向量表示集;所述向量表示集中不同的向量表示的长度不同,长度为N的向量表示表征所述参考文本集中对所述文本处理模型输出处理结果的重要程度排序前N的N个对象在所述第一文本集中的特征值;所述第一文本集为所述参考文本集、目标文本集和待检测文本集中的任意一个文本集;

差异确定模块,用于根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定所述待检测文本集与所述目标文本集在所述N个对象方面的差异;

偏移判断模块,用于根据所述差异确定所述待检测文本集与所述参考文本集在所述N个对象方面是否发生偏移。

一种电子设备,包括:

存储器,用于存储程序;

处理器,用于调用并执行所述存储器中的所述程序,通过执行所述程序实现如上任一项所述的偏移检测方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的偏移检测方法的各个步骤。

通过以上方案可知,本申请提供的一种偏移检测方法、装置及电子设备和存储介质,通过参考文本集(用于训练文本处理模型)和与参考文本集具有相同/相似信息分布的目标文本集来对待检测文本集进行偏移检测,具体包括:获取各个文本集的向量表示集,每个文本集的向量表示集中包括不同长度的向量表示,长度为N的向量表征参考文本集中对文本处理模型输出处理结果的重要程度排序前N的N个对象在第一文本集中的特征值,然后,根据各个文本集的长度小于等于N的向量表示,确定待检测文本集与目标文本集在长度为N的向量表示所表征的N个词方面的差异,根据该差异确定待检测文本集是否在长度为N的向量表示表征的N个对象的方面发生偏移。由于待检测文本集是否在长度为N的向量表示表征的N个对象方面相对于参考文本集发生偏移是基于参考文本集中的对文本处理模型输出处理结果的重要程度排序前N的N个对象的特征确定的,也就是说,待检测文本集是否在长度为N的向量表示表征的对象方面发生偏移是与长度为N的向量表示对应的N个对象相关的,因此,能够清楚解释待检测文本集是否在长度为N的向量表示表征的对象方面发生偏移,以及在确定发生偏移时,能够确定为什么发生偏移,即长度为N的向量表示表征的对象的特征发生了变化。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的偏移检测方法的一种实现流程图;

图2为本申请实施例提供的根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定待检测文本集与目标文本集在上述N个对象方面的差异的一种实现流程图;

图3为本申请实施例提供的获得第一文本集的向量表示集的一种实现流程图;

图4为本申请实施例提供的利用文本处理模型的解释模型确定参考文本集中的各个对象对文本处理模型输出处理结果的重要程度的一种实现流程图;

图5为本申请实施例提供的偏移检测结果的一种示例图;

图6为本申请实施例提供的偏移检测结果的另一种示例图;

图7为本申请实施例提供的偏移检测装置的一种结构示意图;

图8为本申请实施例提供的电子设备的一种结构示意图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供的偏移检测方法可以用于电子设备中,该电子设备可以是终端设备,比如,个人计算机、工业计算机等,也可以是网络服务器,或者可以包括终端设备和网络服务器。

在机器学习领域中,在通过一个文本集(记为参考文本集)训练得到文本处理模型后,在利用训练好的文本处理模型对一个新的文本集(记为待检测文本集)进行处理之前,可以先判断该待检测文本集相对于参考文本集是否发生偏移,如果发生偏移,说明训练好的文本处理模型不适用于处理该待检测文本集,或者说,训练好的文本处理模型在对待检测文本集进行处理时,性能会比较差。如果未发生偏移,说明训练好的文本处理模型仍然适用于处理该待检测文本集,或者说,训练好的文本处理模型在对待检测文本集进行处理时,性能不会变差。

如果确定待检测文本集相对于参考文本集发生了偏移,则可以不再用训练好的文本处理模型对待检测文本集进行处理,避免无效的文本处理。

本申请的目的就是要检测待检测文本集相对于参考文本集是否发生了偏移,以及发生偏移的原因。为达到该目的,提出本申请实施例:

如图1所示,为本申请实施例提供的偏移检测方法的一种实现流程图,可以包括:

步骤S101:获得参考文本集,目标文本集和待检测文本集;

其中,参考文本集为训练文本处理模型所使用的文本集,文本处理模型可以包括但不限于以下任意一种模型:文本分类模型,人机交互模型,翻译模型(用于不同语言之间的转换)等等。

目标文本集与所述参考文本集具有相同或相似的信息分布。也就是说,目标文本集相对于参考文本集而言是没有发生偏移的。目标文本集可以是根据参考文本集生成的。

对于任一文本集而言,该文本集的信息分布可以包括该文本集中的对象(字、词或短语等)的分布情况;对象的分布情况可以包括但不限于以下任意一项:对象在文本集中出现的频率;与对象在文本集中出现的频率正相关的参数等。

步骤S102:获得第一文本集的向量表示集;该向量表示集中不同的向量表示的长度不同,长度为N的向量表示表征参考文本集中对文本处理模型输出处理结果的重要程度排序前N的N个对象在第一文本集中的特征值;第一文本集为参考文本集、目标文本集和待检测文本集中的任意一个文本集。

本申请实施例中,可以先获得参考文本集中对文本处理模型的输出结果的重要程度排序前M(M为正整数)的M个对象(比如,M个词)在参考文本集中的特征值,然后,将参考文本集中对文本处理模型输出处理结果的重要程度排序前N(N为小于或等于M的正整数)的N个对象在第一文本集中的特征值构成参考文本集的一个长度为N的向量表示。作为示例,N=1,2,3,……,M,则参考文本集的向量表示集中包含M个向量表示。当然,本申请实施例中,N的取值并不限于这一种方式,还可以有其它取值方式,比如,N=4,5,6,……,M,则参考文本集的向量表示集中包含M-3个向量表示。

对于参考文本集中对文本处理模型输出处理结果的重要程度排序前M的M个对象,获取该M个对象在目标文本集中的特征值,以及该M个对象在待检测文本集中的特征值。

对于目标文本集,将参考文本集中对文本处理模型输出处理结果的重要程度排序前N的N个对象在目标文本集中的特征值构成目标文本集的一个长度为N的向量表示。

对于待检测文本集,将参考文本集中对文本处理模型输出处理结果的重要程度排序前N的N个对象在待检测文本集中的特征值构成待检测文本集的一个长度为N的向量表示。

三个向量表示集(即参考文本集的向量表示集、目标文本集的向量表示集和待检测文本集的向量表示集)中的向量表示的数量相同,不同向量表示集中,相同长度的向量表示对应相同的对象。

步骤S103:根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定待检测文本集与目标文本集在N个对象方面的差异。

也就是说,本申请实施例中,待检测文本集与目标文本集在N个对象方面的差异是与参考文本集的长度小于或等于N的向量表示相关联的。

步骤S104:根据上述差异确定待检测文本集与参考文本集在上述N个对象方面是否发生偏移。

由于上述差异与参考文本集的长度小于或等于N的向量表示相关联,因而,基于上述差异可以确定待检测文本集与参考文本集在上述N个对象方面是否发生偏移。

其中,待检测文本集与参考文本集在上述N个对象方面发生偏移,是指上述N个对象在待检测文本集中的分布情况,与上述N个对象在参考文本集中的分布情况发生了显著变化,这种显著变化会影响文本处理模型的性能。

本申请实施例提供的偏移检测方法,通过参考文本集(用于训练文本处理模型)和与参考文本集具有相同/相似信息分布的目标文本集来对待检测文本集进行偏移检测,具体包括:获取各个文本集的向量表示集,每个文本集的向量表示集中包括不同长度的向量表示,长度为N的向量表征参考文本集中对文本处理模型输出处理结果的重要程度排序前N的N个对象在第一文本集中的特征值,然后,根据各个文本集的长度小于等于N的向量表示,确定待检测文本集与目标文本集在长度为N的向量表示所表征的N个词方面的差异,根据该差异确定待检测文本集是否在长度为N的向量表示表征的N个对象的方面发生偏移。由于待检测文本集是否在长度为N的向量表示表征的N个对象方面相对于参考文本集发生偏移是基于参考文本集中的对文本处理模型输出处理结果的重要程度排序前N的N个对象的特征确定的,也就是说,待检测文本集是否在长度为N的向量表示表征的对象方面发生偏移是与长度为N的向量表示对应的N个对象相关的,因此,能够清楚解释待检测文本集是否在长度为N的向量表示表征的对象方面发生偏移,以及在确定发生偏移时,能够确定是因为长度为N的向量表示表征的对象的特征发生了变化。

在一可选的实施例中,上述目标文本集可以是参考文本集的子集。

可选的,可以在参考文本集中随机抽取部分文本作为目标文本集;或者,

可以按照一定的规则在参考文本集中抽取部分文本作为目标文本集,比如,参考文本集中的各个文本具有唯一的识别码,可以抽取识别码满足条件的文本作为目标文本集,例如,抽取识别码为双数或单数的文本作为目标文本集,或者,抽取识别码为3的倍数的文本作为目标文本集。

由于目标文本集是从参考文本集中抽取的,因此,目标文文本集与参考文本集的信息分布相似或相同。

在一可选的实施例中,上述根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定待检测文本集与目标文本集在上述N个对象方面的差异的一种实现流程图如图2所示,可以包括:

步骤S201:获得参考文本集的长度小于或等于N的向量表示与目标文本集的长度小于或等于N的向量表示的第一差异,以及参考文本集的长度小于或等于N的向量表示与待检测文本集的长度小于或等于N的向量表示的第二差异。

第一差异和第二差异的计算方式相同,可选的,

第一差异的计算方式可以为:参考文本集的长度小于或等于N的各个向量表示与目标文本集的长度小于或等于N的各个向量表示的欧式距离之和。

第二差异的计算方式可以为:参考文本集的长度小于或等于N的各个向量表示与待检测文本集的长度小于或等于N的各个向量表示的的欧式距离之和。

以N=4,5,6,……,M为例,则N=5时,获得的是参考文本集的长度为4的向量表示和长度为5的向量表示与目标文本集的长度为4的向量表示和长度为5的向量表示的第一差异,以及参考文本集的长度为4的向量表示和长度为5的向量表示与待检测文本集的长度为4的向量表示和长度为5的向量表示的第二差异。具体的,

第一差异的计算方式为:

计算参考文本集的长度为4的向量表示与目标文本集的长度为4的向量表示的欧式距离(记为第一欧式距离),以及参考文本集的长度为5的向量表示与目标文本集的长度为5的向量表示的欧式距离(记为第二欧式距离)。

将第一欧式距离与第二欧式距离之和作为第一差异。

第二差异的计算方式为:

计算参考文本集的长度为4的向量表示与待检测文本集的长度为4的向量表示的欧式距离(记为第三欧式距离),以及参考文本集的长度为5的向量表示与待检测文本集的长度为5的向量表示的欧式距离(记为第四欧式距离)。

将第三欧式距离与第四欧式距离之和作为第二差异。

步骤S202:根据第一差异与第二差异确定待检测文本集与目标文本集的第三差异。该第三差异即为待检测文本集与目标文本集在上述N个对象方面的差异。

本申请实施例认为,目标文本集相对于参考文本集是没有偏移的或者偏移很小,那么如果待检测文本集相对于参考文本集没有偏移或偏移很小,那么待检测文本集相对于参考文本集的特征变化(即信息分布的变化),与目标文本集相对于参考文本集的特征变化应该是相似的。基于此,

可以将第一差异与第二差异的差异确定为待检测文本集与目标文本集的第三差异。也就是说,将目标文本集相对于参考文本集的差异与待检测文本集相对于参考文本集的差异之间的差异,作为判断待检测文本集相对于参考文集是否发生偏移的指标。

可选的,第三差异可以为第一差异与第二差异之差的绝对值,或者,第三差异可以是对第一差异与第二差异之差取平方。

作为示例,可以通过如下公式计算第三差异:

其中,Ref表示参考文本集,h

在一可选的实施例中,上述获得第一文本集的向量表示集的一种实现流程图如图3所示,可以包括:

步骤S301:利用文本处理模型的解释模型(可以记为第一可解释模型)确定参考文本集中的各个对象对文本处理模型输出处理结果的重要程度。

本申请实施例中,引入可解释人工智能(Explainable ArtificialIntelligence,XAI)来进行偏移检测,具体是基于XAI来确定参考文本集中的各个对象对文本处理模型输出处理结果的重要程度。

根据可解释人工智能的解释范围,XAI可以分为全局解释和局部解释,其中,全局解释方法将待解释的模型(即机器学习模型)作为一个整体解释模型的行为,它可能涉及描述模型的整个推理过程,例如呈现所有的权重、特征以及它们之间的交互。局部解释包括描述模型在一个特定案例或一组案例上的行为,通过显示案例的哪些特征对模型的预测结果影响最大,可以对模型的预测提供更细致的洞察。局部解释还包括训练一个可解释模型(比如决策树、线性回归、逻辑回归、贝叶斯模型、广义线性模型、广义可加模型或K近邻和可操控的概率逻辑模型等)来逼近机器学习模型,从而训练好的可解释模型可以确定各个特征对模型的预测结果影响程度。

具体实现方式可以参看已有的方案,这里不再相似。

步骤S302:确定参考文本集中对文本处理模型输出处理结果的重要程度排序第N的对象。

步骤S303:利用文本处理模型的解释模型确定目标文本集中上述排序第N的对象对文本处理模型输出处理结果的重要程度,以及待检测文本集中上述排序第N的对象对文本处理模型输出处理结果的重要程度。

本申请实施例中,除了利用可解释模型(即第一可解释模型)确定参考文本集中的各个对象对文本处理模型输出处理结果的重要程度外,还利用可解释模型(即第二可解释模型)确定目标文本集中的各个对象对文本处理模型输出处理结果的重要程度,以及利用可解释模型(即第三可解释模型)确定待检测文本集中的各个对象对文本处理模型输出处理结果的重要程度。然后,从目标文本集中的各个对象对文本处理模型输出处理结果的重要程度中,提取参考文本集中对文本处理模型输出处理结果的重要程度排序第N的对象对文本处理模型输出处理结果的重要程度,以及从待检测文本集中的各个对象对文本处理模型输出处理结果的重要程度中,提取参考文本集中对文本处理模型输出处理结果的重要程度排序第N的对象对文本处理模型输出处理结果的重要程度。可选的,如果目标文本集中不存在参考文本集中对文本处理模型输出处理结果的重要程度排序第N的对象,则,在目标文本集中,参考文本集中对文本处理模型输出处理结果的重要程度排序第N的对象对文本处理模型输出处理结果的重要程度为预设值,比如,为零或接近于零的值。同理,如果待检测文本集中不存在参考文本集中对文本处理模型输出处理结果的重要程度排序第N的对象,则,在待检测文本集中,参考文本集中对文本处理模型输出处理结果的重要程度排序第N的对象对文本处理模型输出处理结果的重要程度为预设值,比如,为零或接近于零的值。

步骤S304:基于第一文本集中排序第N的对象对文本处理模型输出处理结果的重要程度,以及上述排序第N的对象在第一文本集中出现的频率,确定排序第N的对象在第一文本集中的特征值。

可选的,可以对上述在参考文本集中排序第N的对象在第一文本集中出现的频率取对数运算,得到运算结果。

将第一文本集中上述排序第N的对象对文本处理模型输出处理结果的重要程度和上述运算结果相乘,得到上述在参考文本集中排序第N的对象在第一文本集中的特征值。

在一可选的实施例中,上述利用文本处理模型的解释模型确定参考文本集中的各个对象对文本处理模型输出处理结果的重要程度的一种实现流程图如图4所示,可以包括:

步骤S401:对于参考文本集中的任意一个对象,利用文本处理模型的解释模型确定参考文本集中每一个出现该任意一个对象的句子的正向分数和负向分数。

步骤S402:对参考文本集中各个出现上述任意一个对象的句子的正向分数和负向分数进行归一化,得到参考文本集中各个出现上述任意一个对象的句子的归一化的正向分数和归一化的负向分数。

其中,正向分数表征出现上述任意一个对象的句子对文本处理模型的处理结果有正向影响的程度,负向分数表征出现上述任意一个对象的句子对文本处理模型的处理结果有负向影响的程度。

可选的,可以计算所有出现上述任意一个对象的句子的正向分数和负向分数之和,得到分数总和;对于每一个分数(正向分数或负向分数),可以计算该分数与上述分数总和的商,得到该分数的归一化值。

步骤S403:将所有出现上述任意一个对象的句子的归一化的正向分数和归一化的负向分数求均值,得到上述任意一个对象对文本处理模型输出处理结果的重要程度。

图4所示方法可以通过如下公式确定:

Degree=Mean(Norm(gradient(T

其中,Degree表示对象T

Sent + -

Sent1 0.1 0.4

Sent2 0.2 0.5

上述矩阵表示,文本处理模型的解释模型确定出参考文本集中出现对象T

可选的,可以通过如下公式计算排序第N的对象(假设为T

其中,D表示第一文本集,TF(T

在一可选的实施例中,上述根据差异确定待检测文本集与参考文本集在上述N个对象方面是否发生偏移的一种实现方式可以为:

将上述差异与阈值比较;阈值可以为0,或者,可以为接近于0的一个数值,比如,0.1,0.11,0.04等。

如果比较结果为差异大于阈值,确定待检测文本集与参考文本集在上述N个对象方面发生偏移。否则,确定待检测文本集与参考文本集在上述N个对象方面未发生偏移。

如图5所示,为本申请实施例提供的偏移检测结果的一种示例图,该示例中,利用参考文本集中对文本处理模型的输出结果的重要程度排序前100的100个词进行偏移检测,该示例图中,这100个词在目标文本集中的分布情况的变化相对于这100个词在待检测文本集中的分布情况的变化是相似的,因而待检测文本集和目标文本集在前100个词方面的差异difference接近于零。

如图6所示,为本申请实施例提供的偏移检测结果的另一种示例图,该示例中,利用参考文本集中对文本处理模型的输出结果的重要程度排序前100的100个词进行偏移检测,该示例图中,这100个词在目标文本集中的分布情况的变化相对于这100个词在参考文本集中的分布情况的变化很大,待检测文本集和目标文本集在前100个词方面的差异也很大。由图6可以看出,从上述前100个词中的第4个词开始,每一个词在目标文本集中的分布情况的变化与其在待检测文本集中的分别情况的变化均有较大差异,使得待检测文本集和目标文本集在前100个词中第4-100个方面的差异difference不再接近于零。

与方法实施例相对应,本申请实施例还提供一种偏移检测装置,本申请实施例提供的偏移检测装置的一种结构示意图如图7所示,可以包括:

文本集获得模块701,向量表示集获得模块702,差异确定模块703和偏移判断模块704,其中,

文本集获得模块701用于获得参考文本集,目标文本集和待检测文本集;其中,所述参考文本集为训练文本处理模型所使用的文本集,所述目标文本集与所述参考文本集具有相同或相似的信息分布;

向量表示集获得模块702用于获得第一文本集的向量表示集;所述向量表示集中不同的向量表示的长度不同,长度为N的向量表示表征所述参考文本集中对所述文本处理模型输出处理结果的重要程度排序前N的N个对象在所述第一文本集中的特征值;所述第一文本集为所述参考文本集、目标文本集和待检测文本集中的任意一个文本集;

差异确定模块703用于根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定所述待检测文本集与所述目标文本集在所述N个对象方面的差异;

偏移判断模块704用于根据所述差异确定所述待检测文本集与所述参考文本集在所述N个对象方面是否发生偏移。

本申请实施例提供的偏移检测装置,通过参考文本集(用于训练文本处理模型)和与参考文本集具有相同/相似信息分布的目标文本集来对待检测文本集进行偏移检测,具体包括:获取各个文本集的向量表示集,每个文本集的向量表示集中包括不同长度的向量表示,长度为N的向量表征参考文本集中对文本处理模型输出处理结果的重要程度排序前N的N个对象在第一文本集中的特征值,然后,根据各个文本集的长度小于等于N的向量表示,确定待检测文本集与目标文本集在长度为N的向量表示所表征的N个词方面的差异,根据该差异确定待检测文本集是否在长度为N的向量表示表征的N个对象的方面发生偏移。由于待检测文本集是否在长度为N的向量表示表征的N个对象方面相对于参考文本集发生偏移是基于参考文本集中的对文本处理模型输出处理结果的重要程度排序前N的N个对象的特征确定的,也就是说,待检测文本集是否在长度为N的向量表示表征的对象方面发生偏移是与长度为N的向量表示对应的N个对象相关的,因此,能够清楚解释待检测文本集是否在长度为N的向量表示表征的对象方面发生偏移,以及在确定发生偏移时,能够确定是因为长度为N的向量表示表征的对象的特征发生了变化。

在一可选的实施例中,所述目标文本集为所述参考文本集的子集。

在一可选的实施例中,所述差异确定模块703,包括:

第一获得模块,用于获得所述参考文本集的长度小于或等于N的向量表示与所述目标文本集的长度小于或等于N的向量表示的第一差异,以及所述参考文本集的长度小于或等于N的向量表示与所述待检测文本集的长度小于或等于N的向量表示的第二差异;

第一确定模块,用于根据所述第一差异与所述第二差异确定所述待检测文本集与所述目标文本集的第三差异。

在一可选的实施例中,所述确定模块用于:

将所述第一差异与所述第二差异的差异确定为所述待检测文本集与所述目标文本集的第三差异。

在一可选的实施例中,所述向量表示集获得模块包括:

第二确定模块,用于利用所述文本处理模型的解释模型确定所述参考文本集中的各个对象对所述文本处理模型输出处理结果的重要程度;

第三确定模块,用于确定所述参考文本集中对所述文本处理模型输出处理结果的重要程度排序第N的对象;

第四确定模块,用于利用所述文本处理模型的解释模型确定所述目标文本集中所述排序第N的对象对所述文本处理模型输出处理结果的重要程度,以及所述待检测文本集中所述排序第N的对象对所述文本处理模型输出处理结果的重要程度;

第五确定模块,用于基于所述第一文本集中所述排序第N的对象对所述文本处理模型输出处理结果的重要程度,以及所述排序第N的对象在所述第一文本集中出现的频率,确定所述排序第N的对象在所述第一文本集中的特征值。

在一可选的实施例中,所述第四确定模块,包括:

第六确定模块,用于对于所述参考文本集中的任意一个对象,利用所述文本处理模型的解释模型确定所述参考文本集中每一个出现所述任意一个对象的句子的正向分数和负向分数;

第二获得模块,用于对所述参考文本集中各个出现所述任意一个对象的句子的正向分数和负向分数进行归一化,得到所述参考文本集中各个出现所述任意一个对象的句子的归一化的正向分数和归一化的负向分数;

第三获得模块,用于将所有出现所述任意一个对象的句子的归一化的正向分数和归一化的负向分数求均值,得到所述任意一个对象对所述文本处理模型输出处理结果的重要程度。

在一可选的实施例中,所述偏移判断模块,包括:

比较模块,用于将所述差异与阈值比较;

第七确定模块,用于如果所述差异大于阈值,确定所述待检测文本集与所述参考文本集在所述N个对象方面发生偏移。

与方法实施例相对应,本申请还提供一种电子设备,该电子设备的一种结构示意图如图8所示,可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器3存储有程序,处理器1可调用存储器3存储的程序,所述程序用于:

获得参考文本集,目标文本集和待检测文本集;其中,所述参考文本集为训练文本处理模型所使用的文本集,所述目标文本集与所述参考文本集具有相同或相似的信息分布;

获得第一文本集的向量表示集;所述向量表示集中不同的向量表示的长度不同,长度为N的向量表示表征所述参考文本集中对所述文本处理模型输出处理结果的重要程度排序前N的N个对象在所述第一文本集中的特征值;所述第一文本集为所述参考文本集、目标文本集和待检测文本集中的任意一个文本集;

根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定所述待检测文本集与所述目标文本集在所述N个对象方面的差异;

根据所述差异确定所述待检测文本集与所述参考文本集在所述N个对象方面是否发生偏移。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获得参考文本集,目标文本集和待检测文本集;其中,所述参考文本集为训练文本处理模型所使用的文本集,所述目标文本集与所述参考文本集具有相同或相似的信息分布;

获得第一文本集的向量表示集;所述向量表示集中不同的向量表示的长度不同,长度为N的向量表示表征所述参考文本集中对所述文本处理模型输出处理结果的重要程度排序前N的N个对象在所述第一文本集中的特征值;所述第一文本集为所述参考文本集、目标文本集和待检测文本集中的任意一个文本集;

根据参考文本集的长度小于或等于N的向量表示、目标文本集的长度小于或等于N的向量表示,以及待检测文本集的长度小于或等于N的向量表示,确定所述待检测文本集与所述目标文本集在所述N个对象方面的差异;

根据所述差异确定所述待检测文本集与所述参考文本集在所述N个对象方面是否发生偏移。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 镜头偏移检测方法、装置、电子设备及可读存储介质
  • 偏移检测方法、装置及电子设备和存储介质
技术分类

06120113821800