掌桥专利:专业的专利平台
掌桥专利
首页

一种基于二叉树结构嵌入的可解释卷积神经网络图像分类方法

文献发布时间:2023-06-19 18:53:06


一种基于二叉树结构嵌入的可解释卷积神经网络图像分类方法

技术领域

本发明属于深度学习解释性领域,具体涉及一种基于二叉树结构嵌入的可解释卷积神经网络图像分类方法。

背景技术

近年来,深度卷积神经网络已在很多领域,如图像处理、自然语言处理、语音识别等中得到部署与应用,在其中部分领域的优异性能达到甚至超过了人类。然而,深度卷积神经网络的隐藏层的学习和决策过程仍然被认为是“黑盒”结构,主要是由于其较高的复杂度和非线性导致其透明度低、可解释性差。在许多领域,人们对深度卷积神经网络模型的应用存在担忧,因为模型本身不能提供足够的信息和安全。例如,围绕人工智能(AI)构建的应用系统通常涉及并影响许多领域,如自动驾驶系统、人脸识别系统、辅助医疗系统等。考虑到上述挑战,这些人工智能系统的有用性和安全性将因为理解、解释和控制它们的难度而受到限制。因此,深度卷积神经网络模型被期望在理论上取得更大进展,以提高人们对其的理解。

图像分类是计算机视觉三大基础任务之一,其根据图像中的信息和标签实现最小的分类误差,以对不同类别的目标进行分类。深度学习最早在图像分类任务上展现了巨大的潜力,卷积网络的局部连接性和平移不变性完美契合了图像数据的特征。随着各种新奇的深度模型在分类任务上精度提高的同时,深度模型也出现了如公平性、泛化型、鲁棒性等问题,亦对可解释的分类模型提出了更高的要求。

现在对基于神经网络的图像分类的解释方法主要有以下几种:第一种,可视化方法。可视化方法通过将神经网络在图像分类任务中学习到的特征知识展示给人类来达到一种直观的解释,有助于理解和解释深度网络进行分类任务时的分类决策的工作机制;第二种,代理模型。代理模型是用一个复杂度低、解释性好的替代模型来模仿原来的图像分类模型,保留了原有的优异性能同时降低复杂度;第三种,特征空间解耦。特征解耦方法是指从分类网络模型中学习到的特征表达的语义分离,通过控制一些特定的编码模块学习一个分类任务中不同类别的不同语义特征,依据这些特征来实现图像分类,自身包含了一定的解释性。发明内容

为解决以上现有技术存在的问题,本发明提出了一种基于二叉树结构嵌入的可解释卷积神经网络图像分类方法,该方法包括:

获取原始图像,并对所述原始图像进行预处理;

将预处理后的原始图像输入到训练后的嵌入有二叉树结构的可解释模块的卷积神经网络中;

利用卷积神经网络模型的第一卷积层提取出第一特征;

利用卷积神经网络模型的二叉树结构的可解释模块对所述第一特征进行处理,提取出第二特征和各个二叉树分支的神经元激活值;

利用卷积神经网络模型的第二卷积层对所述第一特征进行处理,提取出第三特征;

利用卷积神经网络模型的第三卷积层对所述第二特征和所述第三特征进行融合处理,提取出第四特征;

利用卷积神经网络模型的全连接层对第四特征进行分类处理,得到原始图像的分类结果,利用各个二叉树分支的神经元激活值,得到原始图像的分类决策路径和分类可信程度。

本发明的有益效果:

本发明将可解释模块嵌入到传统的深度卷积神经网络中,保证了图像分类任务的精度,且提高了分类网络分类决策的可解释性。第一,本发明通过在常规卷积神经网络中嵌入可解释模块,图像分类的精度保持在较高的水平;第二,本发明可以对执行分类任务的卷积神经网络的分类决策路径进行分析。除了分类决策正误以外,还能通过与标准决策路径的对比,得到错误分类决策的出错环节。通过对两侧分支神经网络的激活值的计算,可以量化一次特征图二叉树分支的分类决策可信度,即对于一个图像的分类,可以直观地看到每次决策的可信任的程度;综合一个样本分类决策的决策路径与标准决策路径的对比,能量化深度神经网络对于该样本的分类决策的可信任的程度;第三,通过对输入的训练样本加入噪声扰动,来分析激活值变化和决策路径的偏移,可以判断对样本进行一次分类决策的稳定性。

附图说明

图1是本发明实施例的一种基于二叉树结构嵌入的可解释卷积神经网络图像分类方法流程图;

图2是本发明的神经网络中嵌入可解释模块示意图;

图3是本发明的特征图二叉树分支结构图;

图4是本发明实施例中的一个样本经过可解释模块所有决策分支的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的图像分类方法,该图像分类方法可应用与计算机应用环境中。具体地,该图像分类方法应用在图像分类系统中,该图像分类系统包括客户端和服务器,客户端与服务器通过网络进行通信,用于解决图像分类的准确率较低以及可解释性不强的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图1是本发明实施例的一种基于二叉树结构嵌入的可解释卷积神经网络图像分类方法流程图,如图1所示,所述方法包括:

101、获取原始图像,并对所述原始图像进行预处理;

在本发明实施例中,可以理解地,预处理指令可以由用户通过如移动终端,电脑等设备发送的,也可以在用户输入原始图像分辨率、原始图像采样次数以及具有原始图像分辨率的初始图像之后自动生成的原始图像。其中,原始图像分辨率是指用户或者图像分类模型指定需要将各种不同分辨率的图像转换成相同分辨率图像的目标值;原始图像采样次数是指图像分类预处理过程中需要对初始图像进行尺度转换的次数(例如缩放次数);原始图像可以为不同应用场景下的图像,示例性地,原始图像可以为证件照、病理照等,原始图像分辨率即为初始图像的图像分辨率。示例性地,假设一应用场景下,需要将300*300的证件照通过五次尺度转换后,转换成4*4的证件照时,其中,300*300即为初始图像分辨率,原始图像采样次数即为五次,目标图像分辨率为4*4。

为了方便说明,本实施例中可以将原始图像划分为训练图像和测试图像,其中所述训练图像包含分类标签,所述测试图像不包含分类标签;所述训练图像用于对神经网络模型进行训练,所述测试图像用于对神经网络模型进行测试,并得出对应的测试结果,该测试结果能够用于对该测试图像的分类解释。

102、将预处理后的原始图像输入到训练后的嵌入有二叉树结构的可解释模块的卷积神经网络中;

在本发明实施例中,将所述原始图像预处理后,就可以将所述原始图像输入到训练后的嵌入有二叉树结构的可解释模块的卷积神经网络中进行分类识别;其中,在一些实施例中,所述嵌入有二叉树结构的可解释模块的卷积神经网络的结构包括如下:

选取ResNet或DenseNet或其他常见的分类网络中一个卷积块作为嵌入入口,以上一个卷积块提取的特征信息作为该嵌入模块的输入,并作为下一个卷积块的输出,嵌入模块则包含多次特征图二叉树的分支,特征图二叉树分支的次数由分类任务中分类类别的数量确定。

图2是本发明的神经网络中嵌入可解释模块示意图;如图2所示,所述嵌入有二叉树结构的可解释模块的卷积神经网络至少包括第一卷积层、第二卷积层和第三卷积层;每个卷积层中包含多个卷积块,因此各个卷积层之间可以通过相应的卷积块连接;其中所述二叉树结构的可解释模块位于所述第一卷积层和第三卷积层之间,且与所述第二卷积层并列;表明神经网络的嵌入位置在神经网络主干外侧。

在本发明实施例中,对所述嵌入有二叉树结构的可解释模块的卷积神经网络进行训练的过程中,主要分为两个预训练和重训练过程,具体如下:

将训练图像输入到嵌入有二叉树结构的可解释模块的卷积神经网络中进行预训练,通过最小化总损失函数,得到预训练结束时,各个二叉树分支的神经元激活值以及训练图像的分类决策路径;将训练图像叠加扰动后输入到嵌入有二叉树结构的可解释模块的卷积神经网络中进行重训练,并得到重训练结束时,各个二叉树分支的神经元激活值、以及训练图像的分类决策路径;通过比较预训练和重训练过程中的相对应的神经元激活值和分类决策路径,当比较值小于预设阈值时,输出稳定后的嵌入有二叉树结构的可解释模块的卷积神经网络;否则继续利用训练图像重新进行预训练。

由于在构建可解释模块的过程中,在每一次特征图二叉分支的时候,使用一个损失函数来控制两侧分支解耦对应的类别信息。假设某次待进一步提取特征的特征图为x,两侧分支解耦的卷积层提取功能抽象成函数g(x,θ

f

f

在以上两个公式中,函数g()表示卷积层中的线性操作和非线性操作,AVG()表示最后一层特征图神经元的全局平均激活值,可以被看作是一个神经结点允许多少信息通过。如果f

其中,f

假设某次特征图分支,两侧分别解耦第i类和第j类的信息(注意,第i类和第j类不一定是一个单独的类别,随着分支次数变多,类别数量会越来越少),当输入样本属于第i类时,f

原本用于分类的损失函数L

其中y是标签值,

其中,L

由于每个样本的标签是固定的,那么每个样本的标准决策路径就是固定的。因此在每次特征图二叉树分支时,可以根据与标准决策路径是否一致确定网络决策是否正确。

103、利用卷积神经网络模型的第一卷积层提取出第一特征;

在本发明实施例中,与传统的分类模型类似,本实施例需要将预处理后的原始图像输入到神经网络模型中,通过主干网络中的第一卷积层提取出第一特征,其中所述第一特征并不代表只有一个特征,其可能为多个特征图的集合,这里为了方便描述,以第一特征进行指代。

104、利用卷积神经网络模型的二叉树结构的可解释模块对所述第一特征进行处理,提取出第二特征和各个二叉树分支的神经元激活值;

在本发明实施例中,将第一特征的各个特征图输入到二叉树结构的可解释模块中,令一侧分支神经网络解耦前一半类别的信息;另一侧分支神经网络解耦后一半类别的信息;直至最后一层分支神经网络解耦单一类别的特征信息,对各个单一类别的特征信息进行融合,得到第二特征;并计算出各个特征图在每层分支神经网络的每一侧的平均激活水平。

在本发明实施例中,图3是本发明的特征图二叉树分支结构图,如图3所示,图中记录了可解释模块中单次特征图二叉树分支的情况,假设每一次提取的特征信息为x,那么分支时,令一侧分支神经网络解耦前一半类别的信息,提取后的特征信息为g(x,θ

105、利用卷积神经网络模型的第二卷积层对所述第一特征进行处理,提取出第三特征;

在本发明实施例中,与传统的分类模型类似,本实施例需要将通过主干网络中的第一卷积层提取出的第一特征继续进行卷积运算处理,其中所述第三特征并不代表只有一个特征,其可能为多个特征图的集合,这里为了方便描述,以第三特征进行指代。

106、利用卷积神经网络模型的第三卷积层对所述第二特征和所述第三特征进行融合处理,提取出第四特征;

在本发明实施例中,考虑到特征图经过可解释模块的运算后,在可解释模块的最后一层,各个特征图的分支会形成多个孤立的叶子结点特征信息,因此,需要通过一个卷积层将所有类别的特征信息进行融合后得到第二特征,再和主干网络的第三特征进行融合。

107、利用卷积神经网络模型的全连接层对第四特征进行分类处理,得到原始图像的分类结果,利用各个二叉树分支的神经元激活值,得到原始图像的分类决策路径和分类可信程度。

在本发明实施例中,根据第一特征的各个特征图在每侧分支神经网络的平均激活水平的相对大小,确定出原始图像的分类决策路径;结合平均激活水平的比值和分类决策路径,计算出每侧分支神经网络决策的分类可信程度,对所有分支神经网络决策的分类可信程度进行综合评价,得到原始图像的分类可信程度。

在本发明实施例中,经过融合的第四特征还可以继续在卷积神经网络的后续卷积层中进行运算与转换,并直到最后的全连接层,得到相应的分类结果。此外,经过本发明修改的卷积神经网络的输出还包括待测原始图像在经过整个卷积神经网络后,可解释模块中各个分支点的神经元激活值,由此得到该原始图像的分类决策路径和分类可信程度,进一步提升图像的分类效果。

考虑到对于样本决策只给出正确与否的评价过于单一,为了量化决策的可信度,我们假设网络决策路径与标准决策路径越一致,决策就越可信。因此通过比较每次特征图二叉树分支两侧神经元平均激活值的相对大小和比值来判定每次分支决策的可信度。假设每次特征图x在二叉树分支两侧的神经元平均激活值为f

即两个数值的差别越大,该次决策越可信。

而根据一个样本在通过可解释模块时所有分支决策的可信度指标的综合评估,可以得到网络对一个样本分类决策的可信程度R:

其中i表示一个样本所有特征图二叉树分支的序号,R表示原始图像的分类可信程度,R在其中找到最大的可信度指标,r表示第一特征的各个特征图在每侧分支神经网络决策的分类可信程度,f

图4是本发明的一个样本经过可解释模块所有决策分支的示意图。以在Cifar-10数据集上进行十分类任务为例,类别编号从0到9。特征图二叉树分支一共需要分三层,到第三次的时候已经有结点只负责一个类别的解耦因此不能再进行分支;每个卷积块包含多个卷积层。在第一次二叉树分支时,结点2和结点3分别负责解耦前五类(第0-4类)和后五类(第5-9类)的信息;在第二层二叉树分支时,结点4和结点5分别负责解耦第0-4类中前三类(第0-2类)和后两类(第3-4类)的信息,结点6和结点7以此类推;在第三层二叉树分支时,结点8和结点9分别负责解耦第0-2类中前两类(第0-1类)和后一类(第2类)的信息,结点10和结点11分别负责解耦第3-4类中第3类和第4类的信息,后续的结点以此类推。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 一种基于二叉树结构的多标签行为识别方法及装置
  • 一种基于四叉树二叉树结构的灵活编码单元划分方法
技术分类

06120115725163