掌桥专利:专业的专利平台
掌桥专利
首页

基于因果的模型双重检查方法、系统、设备及存储介质

文献发布时间:2023-06-19 18:35:48


基于因果的模型双重检查方法、系统、设备及存储介质

技术领域

本发明涉及机器学习和因果推理领域技术领域,尤其涉及一种基于因果的模型双重检查方法、系统、设备及存储介质。

背景技术

深度学习在近十年内飞速发展,神经网络模型在视觉,自然语言和推荐系统等场景得到了广泛的应用。现有的应用中,模型通常是在线上训练好,然后直接部署于线下的测试场景中。此时模型往往会不加区分地处理各种数据,但它对难样本的推理结果往往是不可靠的。为了解决模型过于简单的单通推理过程(即对每个数据只通过一次前向传播)导致的在难样本上性能骤降的问题,现有的研究从模型的后处理技术以及因果推断等角度进行了探索。

后处理通常基于启发式的策略。一些研究利用集成学习的方式来整合多个模型的预测,但难样本往往会让大部分模型给出的预测结果均置信度较低,最终使集成的效果不理想。有些研究则在特定的问题上基于领域知识来人为设计规则用以检查模型预测结果,但这些方法往往难以迁移到其他场景中。

为了让模型更好的处理难样本,基于因果的视角来改善训练数据或者训练方案的研究近来得到较多的关注。一些研究从数据角度出发,认为模型性能下降是因为模型没有根据数据中因果稳定的特征来做预测,因此针对训练样本通过修改其中因果的特征来生成反事实样本,并一同用于训练。另外一些研究不仅仅做反事实样本生成,还考虑利用反事实样本来改变训练方案。然而这些方法没有赋予模型反思自身决策结果的能力,因此,如何使模型学会对自身决策结果进行检查和修正(双重检查)是目前亟待解决的技术问题。

发明内容

本发明的目的是提供一种基于因果的模型双重检查方法、系统、设备及存储介质,具备反思推理结果并进行修正的能力。

本发明的目的是通过以下技术方案实现的:

一种基于因果的模型双重检查方法,包括:

将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;

获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;

当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。

一种基于因果的模型双重检查系统,包括:

反事实生成模型,将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;

一致性评估模型,获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;

修改模型,当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。

一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出,可以准确的评估模型推理结果(分类预测结果)是否可靠,同时,在认定推理结果不可靠时,可以结合评估出的一致性结果对模型的推理结果进行有效进行修正,本发明对于各种分类模型均有效,且对干扰的鲁棒性更强。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于因果的模型双重检查方法的流程图;

图2为本发明实施例提供的数据生成的因果图的原理示意图;

图3为本发明实施例提供的一种基于因果的模型双重检查方法的框架图;

图4为本发明实施例提供的实验结果的示意图;

图5为本发明实施例提供的一种基于因果的模型双重检查系统的示意图;

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明:

术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种基于因果的模型双重检查方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种基于因果的模型双重检查方法,如图1所示,主要包括如下步骤:

步骤1、将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本。

本发明实施例中,主要涉及具体任务中因果图中的假设,即具有至少两个中介变量,可以通过干预其中一个中介变量来生成反事实样本。

步骤2、获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠。

本发明实施例中,分类模型可以为图像分类模型,也可以为文本分类模型;相应的,根据分类模型的不同,输入样本为图像或者文本。

本发明实施例中,图像分类模型与文本分类模型都可以是各类现有模型,其通过推理获得分类预测结果。对于图像分类模型,输出的分类预测结果为图像中目标的类别;文本分类模型,根据文本分类任务的不同,分类预测结果也存在差异,例如,文本分类任务中的情感分析任务,分类预测结果为文本的情感类别。

步骤3、当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。

本发明实施例上述方案对于各种分类模型均有效,例如,可以应用到各种图像识别系统中(比如,某购物平台),在原有的图像识别模型基础上,通过本发明提出的双重检查方法,可以减少模型对难样本(不能通过双重检查框架中的一致性评估的样本)做出的明显错误的决策被直接用于下游任务而引发的不必要的问题,增强了模型对于决策结果反馈的概率的可信度。同时,对于本发明给出的少部分反馈(对所述分类预测结果进行修改的相关信息内容),在系统中还可以引入代价较大的超大模型或者人类进行核验,进一步提升系统的上限。

下面通过以图像分类问题为例,详细介绍本发明提供的双重检查方法的原理。

为了实现双重检查,分类模型需要具备两个能力:评估模型推理结果的可靠性,以及对不可靠的结果进行合理修改。

一、评估模型推理结果的可靠性。

假设分类模型做出不可靠推理是因为错误地识别了样本特征。基于此,双重检查从相反的方向出发来判断特征识别的可靠性:首先假设分类模型预测的类别是正确的,然后想象事实样本匹配上该类别的特征后的反事实样本,并估计事实样本和想象的反事实样本之间的一致性,可以基于此判断原本推理结果的可靠性。因此,建模第一个能力的关键在于反事实思考的建模和一致性评估。

需要说明的是,本发明实施例中是以样本(事实样本与反事实样本)作为介绍对象,但实际操作中,参与计算的是样本的特征。

对于C分类问题,将事实样本的特征记为x,真实类别记为

其中,X和Y为随机变量,分别代表样本特征和类别,y为假设的反事实样本的类别;X

如图2所示,展示了数据生成的因果图的原理。如图2左侧部分所示,难以对事实样本特征生成过程的完整因果图中的所有中间变量进行干预,针对这一问题,将假设条件放松为仅干涉一个中介变量:T=T

基于上述原理,本发明实施例中,从事实样本的特征生成过程中包含的多个中介变量中选取指定中介变量,并将其取值由T改为其他取值T

其中,X与Y为随机变量,分别表示样本特征和类别,

在物体识别任务中的中介变量可以是形状和纹理。优选的,本发明对纹理这个中介变量进行干预操作(T在下文均代表纹理变量),只要各个类别的T

示例性的,可以选择预训练的反事实生成网络(CGN)来完成反事实样本的自动生成,且对每个类别均生成反事实样本的特征:

此部分主要涉及具体任务中因果图中的假设,即具有至少两个中介变量,可以通过干预其中一个中介变量来生成反事实样本的特征。如之前所述,本发明同样可以适用于文本分类模型,对于文本分类模型,中介变量不在是纹理变量,而是根据具体文本分类任务来确定,例如,情感分析这一文本分类任务,分类结果为情感类别,在干预中介变量时可以选择写作风格或者句子结构这些中介变量。

当具有可判别的反事实样本后,接下来考虑如何进行一致性评估。

本发明实施例中,选择设置一个孪生子网络

为使得该网络可以从生成的各类别的反事实样本中区分出可信的反事实样本(类别和事实样本相同),定义一个搜索任务来训练所述孪生子网络,将事实样本的特征x设为搜索对象,将所有反事实样本的特征

本发明实施例中,孪生子网络的训练损失为如下三元损失函数:

其中,

示例性的,一致性度量函数s(.)可以为余弦相似度函数,它利用事实样本的特征与各反事实样本的特征在隐空间的表征的余弦相似度进行一致性评估。

通过训练完毕后的孪生子网络,获得事实样本与所有反事实样本的一致性结果后,结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠,表示为:

其中,

二、对不可靠的结果进行合理修改。

各类反事实样本和事实样本之间的一致性结果为修改原始推理结果提供了重要线索,本发明并基于此设计一个修改模型:

本发明实施例中,所述修改模型包括依次设置的:堆叠层,一维卷积层和两个全连接层。所述堆叠层,用于将所述分类预测结果,以及事实样本与每个类别的反事实样本的一致性结果堆叠为矩阵,矩阵记为

本发明实施例中,一维卷积滤波器都是独立工作的,它们的输出都各自连接第一个全连接层,一维卷积滤波器为了使得映射的输入变得更复杂(从低维映射到高维),从而可以更容易被全连接层学习。规律可以理解为当分类预测结果中概率最高的类别

本发明实施例中,两个全连接层依次连接,二者之间设有Relu激活函数层,第二个全连接层输出的结果是修正后的概率向量(修正后的分类预测结果),取其中概率最高的类别作为最终分类结果。

本发明实施例中,修改模块根据交叉熵损失函数进行训练。修改模块在训练中学会如何根据一致性结果提供的信息来修改不可靠的推理结果。此处所涉及交叉熵损失函数以及训练流程可参照常规技术,本发明不做赘述。

图3展示了基于因果的模型双重检查方法的整体框架,其包含反事实生成模型(CGN),一致性评估模型

本发明实施例提供的上述方案主要具有如下优点:

1)在可靠性评估过程中可以高效筛选出各个概率区间内模型的不可靠推理,使难样本得到更多的关注。

2)针对筛选出的不可靠推理结果,特别是对概率较低部分,可以有效进行修正。即对于分类模型分类预测结果中的概率最高的类别

3)对于各种分类模型均有效,且对干扰的鲁棒性更强。

为了充分说明本发明(简称为L2D)的上述优点,下面在一个常用的考察模型泛化性和迁移性的图像分类数据集NICO上针对一些典型分类模型做了详尽的实验(此场景下典型分类模型的预测结果更需要修正)。数据集NICO包括两个不同的子集,即数据集Animal与Vehicle,其中每个数据集的每个类别均有10种不同的背景(如草地,城市,雪地,河流等),通过控制每个类对应的测试样本的背景不同于训练时的背景来构建不同分布的测试集。表1展示了实验中关于两个数据集的具体设定信息。

表1:实验中数据集NICO的两个子集的划分设定

1、高效筛选各个概率区间的不可靠推理结果。

针对模型的推理结果,首先依据模型在每个样本上预测的最大类概率

可以看出,对于模型在各个概率区间的推理结果,当L2D的一致性评估模型判别为“可靠”时的准确率要远远高于判别为“不可靠”时的准确率。即使对于概率在0.9到0.99的这部分结果,这个差距仍有20%到40%,而且此时不可靠推理结果的准确率普遍低于60%,说明了检查和修改模型原始预测结果的巨大潜力和L2D框架的合理性。

2、对难样本的错误推理结果进行有效修正。

将完整的L2D框架应用于分类模型,并观测L2D对于测试集中的难样本

表2:模型在难样本上的准确率(%)以及加上L2D框架后的准确率

可以看到,通过给分类模型增加L2D框架,模型对于难样本的性能在Animal和Vehicle上分别提升了9.8%和6.6%。这个提升一方面是因为L2D中的一致性评估模型可以很好地捕捉事实样本和反事实样本的特征之间的一致性,提高模型的特征分辨能力;另一方面也是因为L2D中的修改模型可以有效地学习到修改策略。

3、对各种模型均有效,且增强了鲁棒性。

首先考察L2D对于不同模型在完整的测试集上的影响,结果如表3所示。

表3:模型添加L2D前后在测试集上的准确率(%)

可以看出L2D对于不同的分类模型上均能在模型原有的性能上取得进一步提升。

此外,考虑对数据加入一定的扰动:原本的处理是将图像直接内插成(224,224),考虑加入一个额外的内插,即先将图像大小内插为(256,256),然后再内插为(224,224)。这个额外的内插不会改变图像的语义信息,但是对整体像素值施加了一个微小的改变,相比表3,模型的测试准确率有了一个明显的下降,结果如表4所示。

表4:模型添加L2D前后在扰动后的测试集上的准确率(%)

可以看到L2D此时仍能显著提升模型的性能,这是因为对于像素的扰动并不会影响L2D中的一致性评估模型对于样本特征之间的一致性估计。

实施例二

本发明还提供一种基于因果的模型双重检查系统,其主要基于前述实施例提供的方法实现,如图5所示,该系统主要包括:

反事实生成模型,将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;

一致性评估模型,获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;

修改模型,当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;

输出设备可以为显示终端;

存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

相关技术
  • 存储设备测试方法、存储设备测试系统及存储介质
  • 模型处理方法及系统、存储介质和电子设备
  • 供能系统超结构模型、建模方法、计算机设备和存储介质
  • 三维模型格式转换方法、系统、计算机设备及存储介质
  • 模型训练用图像的自动标注方法、系统、设备及存储介质
  • 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质
  • 基于因果推理的知识追踪方法、系统、设备及存储介质
技术分类

06120115619461