掌桥专利:专业的专利平台
掌桥专利
首页

基于卷积复变换神经网络的舌苔图像特征提取方法和系统

文献发布时间:2024-01-17 01:26:37


基于卷积复变换神经网络的舌苔图像特征提取方法和系统

技术领域

本发明涉及特征提取技术领域,更具体的说是涉及一种基于卷积复变换神经网络的舌苔图像特征提取方法和系统。

背景技术

舌与五脏六腑之间的相互关系早在中国古书《黄帝内经》中已有记载,人类的五脏六腑内脏器官的情况会表现在舌头的相关区域,中医临床诊断证明,通过观察人的舌头气色可以掌握人类的内脏器官情况,但很大程度上依赖中医专家的经验。

随着人工智能的发展,出现了诸多基于大数据的深度神经网络机器学习技术,但目前的学习技术均无法很好的识别舌苔图像的深层特征,导致后续无法根据舌苔图像的特征准确掌握人体内脏器官的情况,

而且对于舌苔图像,由于每个类别的样本分布不均,使得训练出的模型泛化能力欠佳,难以有效表达出图像数据的区分性特征,无法满足当前的需求。

因此,如何克服上述问题,在舌像样本分布不均的情况下得到具有较强泛化能力且能准确充分表达识别出图像数据的区分性特征的特征提取模型或网络,是本领域技术人员亟需解决的问题。

同时,应注意,公开于该背景技术部分的信息仅仅旨在加深对本发明总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成本领域技术人员所公知的现有技术。

发明内容

有鉴于此,本发明提供了一种基于卷积复变换神经网络的舌苔图像特征提取方法和系统,目的在于充分利用有限的舌苔图像,并在类别分布不均的情况下,准确提取其中隐含的深层特征。

为了实现上述目的,本发明采用如下技术方案:

一方面,本发明公开了一种基于卷积复变换神经网络的舌苔图像特征提取方法,包括,

构建卷积复变换神经网络,所述卷积复变换神经网络依次包括:卷积层、和复数变换层;

所述复数变换层由多个Wave-CT模块和下采样层交替组成,

所述Wave-CT模块用于提取输入图像的空间特征以及对应通道的权重特征;将所述空间特征和所述权重特征转换为具有振幅和相位的波,根据复数变换原理,对特征聚合权重进行学习更新,根据更新后的特征聚合权重以及提取的空间特征和权重特征,输出聚合后的特征;

训练所述卷积复变换神经网络,并利用训练好的所述卷积复变换神经网络对舌苔图像进行特征提取。

作为优选,所述Wave-CT模块包括PATM块,所述PATM块包括Channel-FC、Channel-MLP和Token-FC,其中,所述Channel-FC,用于从不同的维度提取输入图像的空间特征;所述Channel-MLP,用于提取不同通道的权重特征;所述Token-FC用于根据学习后的聚合权重对所述空间特征和所述权重特征进行聚合,得到聚合后的特征。。

作为优选,所述卷积层包括卷积层一,所述卷积层一包括多个卷积块,每个所述卷积块包括3×3卷积、归一化和ReLU激活函数。

作为优选,所述卷积层还包括卷积层二,所述卷积层二包括多个堆叠的Blocks块,和下采样层,所述Blocks块由两个1×1卷积层、归一化、ReLU激活函数和一个3×3卷积层、归一化和ReLU激活函数交替组成。

作为优选,按如下步骤对所述卷积复变换神经网络进行训练,

S1、将所述卷积复变换神经网络和sigmoid分类器组成内脏器官状态识别模型;

S2、获取舌苔图像,以及对应的内脏器官状态标签;其中,所述内脏器官状态包括内脏器官种类和内脏器官属性;

S3、利用所述舌苔图像和所述对应的内脏器官状态标签,对所述内脏器官状态识别模型进行训练。

作为优选,其特征在于,训练时,以内脏器官种类和内脏器官属性的损失之和作为损失函数,表达式为:

L

式中,L

作为优选,所述内脏器官种类和所述内脏器官属性的损失函数均包括分类损失函数和认知引力损失函数;其中,所述分类损失函数的表达式为:

式中,m表示内脏器官特征类别的个数,C表示类别标签的数量,y

所述认知引力损失函数的表达式为:

其中,m表示内脏器官特征类别的个数,S(x

作为优选,认知引力的计算公式为:

式中,G为参数,I(x

I(x)=-log P(x)

其中,P(x)表示样本标签概率密度,且P(x)表达式为:

式中,f

另一方面,本发明还公开了一种基于卷积复变换神经网络的舌苔图像特征提取系统,包括,

图像处理模块,用于接收舌苔图像并进行预处理;

特征提取模块,应用如上所述的卷积复变换神经网络,用于根据预处理后的舌苔图像进行特征提取。

作为优选,所述预处理的步骤包括:对接收的舌苔图像进行数据增广,并对三个基础颜色通道进行归一化和标准化处理。

经由上述的技术方案可知,本发明公开提供了一种基于卷积复变换神经网络的舌苔图像特征提取方法和系统,与现有技术相比,本发明创新性的构建了基于可学习卷积运算和复数变换的卷积复变换神经网络,该网络通过可学习的复数变换层提取舌苔图像的深层特征,同时,本发明考虑舌苔类别分布不均的因素,训练时,采用了包含引力损失的损失函数,进而引导模型在一定程度上跳出局部最优。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明卷积复变换神经网络结构示意图;

图2附图为本发明Wave-CT模块中PATM的结构示意图;

图3附图为本发明卷积复变换神经网络训练过程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有技术中的神经网络模型在训练时往往需要大量的数据样本,但当应用到舌苔图像的识别领域中,由于舌苔图像样本存在数量较小且分布不均的问题,使得训练出的识别模型泛化能力不足,准确率不高。

为此,本发明提供了一种改进的神经网络,即创新性的构建了基于可学习卷积运算和复数变换的卷积复变换神经网络,本发明公开的神经网络可提取图像的深层特征并能考虑不同样本间的引力损失,只需较少的训练样本便可训练得到准确率高,泛化能力强的网络或模型。

具体的,本发明实施例公开的一种基于卷积复变换神经网络的舌苔图像特征提取方法,包括如下步骤,

构建卷积复变换神经网络,所述卷积复变换神经网络依次包括:卷积层和复数变换层;所述复数变换层由多个Wave-CT模块和下采样层交替组成,

所述Wave-CT模块用于提取输入图像的空间特征以及对应通道的权重特征;将所述空间特征和所述权重特征转换为具有振幅和相位的波,根据复数变换原理,对特征聚合权重进行学习更新,根据更新后的特征聚合权重以及提取的空间特征和权重特征,输出聚合后的特征;

训练所述卷积复变换神经网络,并利用训练好的所述卷积复变换神经网络对舌苔图像进行特征提取。

进一步,所述Wave-CT模块包括PATM块,所述PATM块包括Channel-FC、Channel-MLP和Token-FC,其中,所述Channel-FC,用于从不同的维度提取输入图像的空间特征;所述Channel-MLP,用于提取不同通道的权重特征;所述Token-FC用于根据学习后的聚合权重对所述空间特征和所述权重特征进行聚合,得到聚合后的特征。

一种实施例中,卷积复变换神经网络的整体架构图如图1所示,

本实施例中,所述卷积层包括卷积层一和卷积层二,为了增强网络对下游任务的适应性能,以及避免网络对输入图片尺寸的敏感性,本发明卷积层一(Stage1)采用卷积令牌(Conv-Tokenizer),其中Conv-Tokenizer包括三个卷积块,每个块由3×3卷积、归一化和ReLU激活函数交替组成,以及一个最大池化层;

进一步,为了增强输入图片的空间连接,本发明设置了卷积层二(Stage2)对输入图片进行第一级的特征提取,而卷积层二包括多个堆叠的Blocks块,每个Blocks块由两个1×1卷积层、归一化、ReLU激活函数和一个3×3卷积层、归一化和ReLU激活函数交替组成。

之后经过一个3×3卷积的下采样层,以降低计算的复杂性,进而得到复数变换层的输入特征。

上述所述的输入特征经过归一化后输入至复数变换层,所述复数变换层由多个Wave-CT模块和下采样层交替组成,由Wave-CT模块输出聚合特征后后进入下采样层。

Wave-CT模块,具体用于提取输入图像的空间特征以及对应通道的权重特征;将所述空间特征和所述权重特征转换为具有振幅和相位的波,根据复数变换原理,对特征聚合权重进行学习更新,根据更新后的特征聚合权重以及提取的空间特征和权重特征,输出聚合后的特征;

其结构如图1-2所示,所述Wave-CT模块包括PATM块,所述PATM块包括Channel-FC、Channel-MLP和Token-FC,其中,所述Channel-FC,用于从不同的维度提取输入图像的空间特征;所述Channel-MLP,用于提取不同通道的权重特征;所述Token-FC用于根据学习后的聚合权重对所述空间特征和所述权重特征进行聚合,得到聚合后的特征。

一种实施例中,其结构如图1所示;Wave-CT模块在PATM后设置ChannelMLP层,用于对PATM中Token聚合的特征再次聚合。

若复数变换层的输入特征表示为:Z=[z

CH

式中,W

Channel-FC独立地提取其特征。为了增强变换能力,通常将Channel-FC与非线性激活函数堆叠在一起,从而构建信道混合(Channel-mixing)的MLP。

进一步,本发明使用Token-FC块聚合来自不同的特征信息,其表达式如下:

式中,W

Token-FC可以通过混合来自不同通道的特征来捕获输入图像的空间信息。但固定权重的简单标记混合会忽略来自不同输入图像的标记的不同语义内容。因此,为了在MLP中动态调节Tokens和固定权重之间的关系以更正确地聚合Tokens,本发明以用于根据复数变换原理通过可学习的方式对Tokens的权重进行学习,并结合Token-FC的聚合特征输出最终提取的特征。

具体的,Wave-CT模块将每个提取的特征视为具有振幅和相位的波,依据复数变换的原理,通过可学习的方式对Tokens的权重进行学习,并结合提取的特征,输出聚合后的特征。

运用对图像的复数变换将图像的特征向量转化为波形式,即复数的实部和虚部,分别对应了波形的振幅和相位,其数学表达式如下:

式中,i是满足i

根据上述的复数基本运算和基本性质,即如下公式,得到相位θ

并根据相位θ

式中,W

一种实施例中,本发明公开的神经网络架构还设置了Stage5,然后经全连接层后输出。其具体的结构参数表如下表所示:

卷积复变换神经网络构建完成后需对其进行训练,以便于后续对舌苔图像进行特征提取。

本实施例中,按如下步骤对所述卷积复变换神经网络进行训练,

S1、将所述卷积复变换神经网络和sigmoid分类器组成内脏器官状态识别模型;

S2、获取舌苔图像,以及对应的内脏器官状态标签;其中,所述内脏器官状态包括内脏器官种类和内脏器官属性,其中,内脏器官标签包括大肠,胆囊,肺,肝脏,膀胱,脾脏,肾脏,胃,小肠,心脏,和未知;器官属性标签包括气虚,血虚,阴虚,阳虚,气滞,血瘀,痰,风,热,寒,燥,湿,和未知;

S3、利用所述舌苔图像和所述对应的内脏器官状态标签,对所述内脏器官状态识别模型进行训练。整个训练过程如图3所示;

本发明组成的内脏器官状态识别模型中,假设数据集D中有N个样本

针对同一个数据集D,需要完成两个任务,即任务数T

对舌图像,假定内脏器官类别集T={T

当利用本发明构建的卷积复变换神经网络对舌苔图像提取特征o

进一步,内脏器官状态识别模型中,卷积复变换神经网络根据输入的样本集X,提取的视觉特征C(X)可以表示为:

C(X)=F

式中,W

使用二值分类器将特征C(X)输入到全连接层FC,并输入至sigmoid分类器中,此时,内脏器官位置可以表述为:

式中,

同理,内脏器官特征的识别结果可以表示为:

式中,

进一步,为了解决舌像类别分布不均的问题,本发明在对卷积复变换神经网络进行训练时,引入引力损失,以使模型在一定程度上跳出局部最优。

具体的,本发明以内脏器官种类和内脏器官属性的损失之和作为损失函数,按一个批次{x

L

式中,L

其中,所述内脏器官种类和所述内脏器官属性的损失函数均包括分类损失函数和认知引力损失函数;即

假设器官类别标签Y={y

式中,m表示内脏器官特征类别的个数,C表示类别标签的数量,y

认知引力损失函数的表达式为:

其中,S(x)表示是x同类的样本集合,D(x)是与x不同类的样本集合,F(x

进一步,认知引力的计算公式为:

式中,G为参数,I(x

I(x)=-log P(x)

其中,P(x)表示样本标签概率密度,表达式为:

其中,f

式中,γ表示概率密度参数;N表示样本标签数量。

本实施案例利用深度学习框架PyTorch及模型库timm实现,所有的实验均在一台装备2条NVIDIA RTX 3090 GPU的服务器上运行,CPU为Intel i9-10850K,内存为64G,操作系统是Ubuntu 18.04。本文中,我们提出的方法采用随机梯度下降算法(SGD)进行训练,参数设置如下:权重衰减为5e-4、动量为0.9和批量大小为64。此外,模型的总训练轮次为100,初始学习率为0.01,从第60个轮次采用余弦退火学习率进行衰减至最小的学习率,最小的学习率设为2e-4。输入的舌苔图像的大小缩放为224×224,并对训练和测试图像进行了归一化操作。

另一方面,本发明还公开了一种基于卷积复变换神经网络的舌苔图像特征提取系统,包括,

图像处理模块,用于接收舌苔图像并进行预处理;预处理的步骤包括:对接收的舌苔图像进行数据增广,并对三个基础颜色通道进行归一化和标准化处理。其中,增广的过程包括:舌头图像放缩到标准尺寸256×256大小,然后从放缩后的图像中随机裁剪出更小尺寸224×224的图像,再对裁剪后的图像进行随机水平翻转进行数据增广。

特征提取模块,应用本发明公开的卷积复变换神经网络,用于根据预处理后的舌苔图像进行特征提取。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120116217337