掌桥专利:专业的专利平台
掌桥专利
首页

端到端的生理信号片段目标检测方法

文献发布时间:2024-04-18 20:01:23


端到端的生理信号片段目标检测方法

技术领域

本发明属于医学生理信号处理技术领域,涉及一种端到端的生理信号片段目标检测方法。

背景技术

阻塞性睡眠呼吸暂停(Obstructive SleepApnea,OSA)事件检测旨在从医学生理信号中提取特征,以定位OSA事件的开始和结束时间。目前,主要使用心电信号(Electrocardiogram,ECG)来检测呼吸暂停事件。在分类视角下,自动化OSA检测方法的模型构成通常包括信号预处理、特征提取和分类器。在信号预处理阶段,有两种常见的思路:保持原始信号和进行频谱分析。保持原始信号意味着直接使用未经处理的原始ECG信号进行特征提取和分类。而频谱分析则是将信号转换为频域表示,通过分析频谱特征来检测OSA事件。在特征提取部分,传统的机器学习方法通常使用特征工程手动筛选特征集合,以获取有效的特征子集。而深度学习方法则采用堆叠多层卷积神经网络(Convolutional NeuralNetwork,CNN)来实现自动特征提取,从而减少了对手动特征工程的依赖。最后,采用基于全连接的分类器来对Normal状态和OSA状态进行分类。但是仍面临着如下的问题

(1)在分类为OSA的片段中存在大量的正常事件信号,干扰了OSAs的检测,导致上述模型的检测性能下降;

(2)无法动态确定OSA事件的开始和结束时间,在协助医生标记OSA事件方面的作用有限。

发明内容

本发明的目的是提供一种端到端的生理信号片段目标检测方法,该方法通过端到端的方式对OSA事件的开始和结束时间进行定位,以提高对睡眠呼吸暂停事件标注的准确性和自动化。

本发明所采用的技术方案是,端到端的生理信号片段目标检测方法,具体包括如下步骤:

步骤1,输入公开数据集中原始ECG信号,对相应信号进行预处理操作后划分为训练集和测试集;

步骤2,构建端到端的生理信号片段目标检测模型;

步骤3,使用步骤1划分的训练集对步骤2构建的模型进行训练;

步骤4,将步骤1划分的测试集ECG信号送入步骤3训练好的模型,最终输出检测结果。

本发明的特点还在于:

步骤1中对ECG信号进行预处理的过程为:对数据集中的ECG信号依次进行分段、滤波和Z-Score标准化得到去噪后信号S。

步骤2中,端到端的生理信号片段目标检测模型包括主干网络层Backbone、Neck层和Head层;

主干网络层Backbone包括特征提取Stem层、动态位置编码DPE和跨阶段局部并行Transformer模块CSPPTFormer;

Neck层和Head层与YOLOv5中Neck与Heade层相同。

步骤2构建端到端的生理信号片段目标检测模型的具体过程为:

步骤2.1,将步骤1得到的信号S通过堆叠两层由深度可分离层、BatchNormalization和SiLU激活函数组成的DWCBS模块捕获输入序列中的局部特征,得到特征F,随后,根据时序序列的特点使用可扩展位置编码为模型添加位置信息,可扩展位置编码公式如下:

ψ=DConv(F)×F (1)

公式(1)中DConv为深度卷积,F为特征提取后的时间序列特征,

步骤2.2,设计跨阶段局部并行Transformer模块CSPPTFormer,该模块包括CSP架构和并行Transformer,其中,CSP结构是由CSPNet提出,用于减少网络的计算量以及对显存的占用;PTFormer模块主要负责局部信息和全局信息的建模、时域信息和通道信息的交互。

步骤3训练过程中,利用loss

Loss

公式(2)中,λ

本发明的有益效果是,本发明构建了OSA检测主干网络和将目标检测损失函数从二维转到一维;预处理上使用目前ECG常用的信号去噪方法;主干网络模块由特征提取模块、位置编码和跨阶段局部并行Transformer模块组成。该模块首先通过特征提取模块捕获输入序列中的局部特征,同时降低序列长度减少计算开销;随后,根据时序序列的特点使用可扩展位置编码为模型添加位置信息;最后,利用跨阶段局部并行Transformer模块完成局部信息和全局信息的建模,时域信息和通道信息的交互,从而缓解Transformer模型因缺乏归纳偏置导致的“数据饥饿”问题,以及CNN模型受限于感受野无法实现远距离建模的局限性。最终,通过采用一维化后的YOLOv5相同的Neck层和Head层完成OSA事件的开始和结束位置。本发明是首个基于ECG信号的OSA端到端目标检测模型,能够实现OSA事件的开始和结束位置,提高OSA事件的检测精度为自动化标注提供技术支撑。

附图说明

图1是本发明端到端的生理信号片段目标检测方法中构建的整体结构示意图;

图2是本发明端到端的生理信号片段目标检测方法中构建的并行Transformer结构示意图;

图3是本发明端到端的生理信号片段目标检测方法实验结果对比图;

图4是本发明端到端的生理信号片段目标检测方法对比实验PR曲线图;

图5是本发明端到端的生理信号片段目标检测方法消融实验PR曲线图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明端到端的生理信号片段目标检测方法,本发明利用目标检测算法思想,通过端到端的方式对OSA事件的开始和结束时间进行定位,以提高对睡眠呼吸暂停事件标注的准确性和自动化。

本发明端到端的生理信号片段目标检测方法,具体包括如下步骤:

步骤1,输入公开数据集中原始ECG信号,在经过相应的预处理操作后划分为训练集和测试集。利用训练集进行训练,测试集进行测试。步骤1的具体过程如下:

步骤1.1,信号预处理。对ECG信号进行分段、滤波和Z-Score标准化。处理方法细节如下:

分段(Fragmentation):根据数据集提供的注释,每条单独的信号都被划分为1min的子段,如在UCD数据集中采样率为128Hz,所以每段信号都有128×60=7680个采样点以及OSA事件开始时间和结束时间的标注,将此标注作为真实边框,以便更好地将同一受试者的片段进行重组,方便进行事件标注。

滤波(Filtering):将输入的原始ECG信号频段通过施加2阶巴特沃斯带通滤波(Butterworth Band Pass Filter,BPPF)进行预处理,其中高通频率为0.5Hz,低通频率为30Hz,以抑制高频和低频噪音保留原始信号,此时去噪后信号定义为x。

Z-Score标准化:将滤波后的ECG信号x通过标准化缓解个体差异性带来的性能下降问题。公式如下:

S=(x-μ)/σ (1)

公式(1)中x代表去噪后信号,μ为x的均值,σ为x的方差,S为标准化后的信号。

步骤1.2,对步骤1.1中预处理后的信号划分为测试集和验证集,为了验证其对生理信号片段检测任务的适用性和鲁棒性,以独立个体为单位进行比例划分。

步骤2,构建端到端的生理信号片段目标检测模型(如图1所示)将步骤1获得的时间序列S依次通过主干网络层(Backbone)、Neck层和Head层。

步骤2的具体过程如下:

步骤2.1,设计特征提取模块和位置编码(如图1所示)。首先,将预处理后的信号S通过堆叠两层由深度可分离层(DWConv)、Batch Normalization和SiLU激活函数组成的深度可分离批归一化激活(DWCBS)模块捕获输入序列中的局部特征,同时降低序列长度减少计算开销,得到特征F。其中,Stem为初始层,Conv代表卷积神经网络,Concat代表通道维度的拼接。随后,根据时序序列的特点使用可扩展位置编码(DPE)为模型添加位置信息。可扩展位置编码公式如下:

ψ=DConv(F)×F (2)

公式(2)中DConv为深度卷积[23],F为特征提取后的时间序列特征,

步骤2.2,设计跨阶段局部并行Transformer模块(CSPPTFormer)(如图1CSPPTFormer所示)缓解Transformer模型因缺乏归纳偏置导致的“数据饥饿”问题,以及CNN模型受限于感受野无法实现远距离建模的局限性。该模块由CSP架构和并行Transformer(Parallel Transformer,PTFormer)(如图2所示)组成。其中,CSP结构是由CSPNet提出,主要作用为减少网络的计算量以及对显存的占用,同时保证网络的能力不变或者略微提升。PTFormer模块则主要负责局部信息和全局信息的建模,时域信息和通道信息的交互。

步骤2.2.1,将步骤2.1获得的特征ψ通过两个并行的卷积提取特征(如图1)CSPPTFormer所示,左侧卷积主要提升模型训练稳定性,而右侧卷积则主要将提取的特征输入PTFormer中完成局部信息和全局信息的交互。此时将左侧卷积提取的特征记为ψ

步骤2.2.2,为了完成局部信息和全局信息的建模,时域信息和通道信息的交互设计并行Transformer模块。该模型由ConvNext Inverted BottelNeck(CNIB)、Transformer、时域-通道信息交互模块(TCIM)和卷积神经网络(Conv)组成(如图2)。其中,通过CNIB模块提取局部信息,Transformer模型提取全局信息,卷积神经网络保证模型训练的稳定性和维度的转换。此外,设计的TCIM模块主要负责时域信息和通道信息的交互。

CNIB模块通过使用倒残差架构提取局部信息,减少FLOPS。该模块根据时序序列的特征,使用由卷积、批归一化和SiLU组成的卷积批归一化激活(CBS)模块替换倒残差架构中的普通卷积。此外,还使用1×11的大卷积核扩大模型感受野,提取更丰富的局部信息。公式如下:

I

公式(3)中,I

PoolFormer模型通过实验验证了Transformer模型的有效性来自于其整体架构即LayerNorm→Attention→LayerNorm→FFN。其中,LayerNorm层归一化层,Attention为自注意力层,FFN为前馈神经网络。因此,本发明采用与PoolFormer相同的Transformer架构。虽然自注意力机制能够完成全局信息的建模,但是由于缺乏归纳偏置导致模型需要大量的数据才能收敛,为了解决这个问题本发明将原Transformer的线性层替换为深度卷积,为模型引入归纳偏置的同时降低模型运算量。计算公式如下:

I

公式(4)所示,I

CNIB模块由于使用卷积神经网络作为主干网络具有较强的局部信息和通道信息提取能力,但受限于感受野的影响,无法实现远距离建模,降低了模型全局建模能力。Transformer模型由于自注意力机制在时间维度上动态计算权重,同时跨通道共享权重,具有较强的全局建模能力,导致通道维度上建模能力弱。虽然在自注意力计算的过程中使用深度卷积为模型引入了归纳偏置和降低计算量,但相较于CNIB模块提取的局部信息和通道信息而言仍然较弱。为此本发明提出了时间-通道交互模块(Time-Channel InteractionModule,TCIM),用于增强CNN的全局信息交互能力和增强Transformer模型的通道信息建模能力。

TCIM模块主要由压缩激励网络(Squeeze-and-Excitation Networks,SENet)和卷积+Sigmoid模块组成。TCIM通道级信息的交互主要将CNIB模块提取的局部信息通过SENet网络提取通道信息计算每个通道的权重,并按照权重大小为Transformer模块获得的全局信息在通道上分配权重,以增强Transformer模型的通道信息提取能力,如公式(5)(6)所示。

W

O

公式(5)和公式(6)中,AvgPool为平均池化,Linear为线性层,ReLU为激活函数,σ为Sigmoid激活函数,W

TCIM时域级信息的交互则主要通过对Transformer提取的全局信息以卷积+Sigmoid的简单方式提取时间序列的时域权重,根据权重大小对CNIB模块的输出结果进行权重分配,以增强CNIB模块的时间级信息提取能力,如公式(7)(8)所示。

W

O

公式(7)和公式(8)中,Conv1d为卷积核为3的1D卷积,σ为Sigmoid激活函数,W

获得和输出后将完成信息交互后的数据与残差边的卷积输出进行拼接,将拼接的结果通过卷积核为1的1D卷积进行通道变换。随后将PTFormer模型放入CSP架构中组成CSPPTFormer模块,而每个Stage则由一个CSPPTFormer模块组成,且在Stage与Stage之间使用卷积核为3,步伐长度为2的卷积降低序列长度。其中,C3,C4,C5代表了多层CSPPTFormer模块组成的Stage,主要用于特征提取。

最后,OSADet模型由四个上述Stage和降维卷积组成主干网络,并利用YOLOv5模型的颈(Neck)和头(Head)层完成OSA事件的开始和结束位置的定位。

步骤3,使用步骤1处理后的数据集对模型进行训练,利用一维目标检测损失函数变体(Loss

步骤3中,使用步骤1处理后的数据集对模型进行训练,为了更好的指导模型参数更新,提高OSA检测精度,对YOLOv5损失函数从2维转化到1维称之为损失函数变体Loss

Loss

公式(9)中,λ

Inter=min(y

w

公式(10)~(12)中,(x

步骤4,将步骤1预处理后的测试集ECG信号送入步骤3训练好的模型,最终输出分类检测的结果。

为了获得最优结果和保证模型的可复现性超参数设置如表1所示。其中,超参数设置中ECG通道(ECG Channel)为1,每个片段的长度(Per-segement Length)为60s,学习率(Learning Rate)为1e-3,衰减率(wd)为1e-4,批次大小(Batchsize)为64,优化器(Optimizer)为SGD,CNIB层数(L

表1

实施例1

基于表1设置的参数,为了验证模型的有效性进行了对比实验,对比结果如图3所示。图3中第一行是本发明提出模型在ECG信号上的检测结果,GT代表真实框,DT为检测框,IOU代表真实框与检测框的重合程度说明模型检测的准确性。由于目前针对OSA的检测多以分类形式折衷表达,本发明为首个提出使用ECG信号进行端到端的OSA目标检测算法因此对比实验中使用YOLOv3、YOLOv4、YOLOv5和YOLOv7等基于锚框的图像目标检测模型,为了使其能够从2维转到1维对模型结构结构进行调整,其检测结果如图3第2行到第5行所示。从图3的目标检测框捕获对比结果来看,本发明方法能够更精准的捕获目标边框,并且减少基准方法中虚警以及漏检。根据图3的检测结果从模型分配锚框数量以提升mAP出发,YOLOv3相较于YOLOv5和YOLOv7使用更多的锚框去定位真实框的位置,且存在IOU为0的误检,导致模型性能在Recall上比YOLOv5-7低2.37%。从中也说明了YOLOv3模型用于OSA的定位存在冗余锚框和正样本检测能力弱问题。

实施例2

在表1设置的参数的基础上,为了验证模型的有效性进行了对比实验,从图4可知,YOLOv5相比于YOLOv7提升了0.32%mAP,但Recall比YOLOv7低0.95%,说明了YOLOv5相较于YOLOv7而言具有对OSA更高的检测精度但是对于正样本检测上低于YOLOv7,从图3中的v7比v5更少的锚框可以证明此点。说明了CSPNet的有效性,但仍存在提升空间。YOLOv5相较于YOLOv4提升了4.57%mAP,从模型架构上分析,YOLOv5相比于YOLOv4在FPN-PAN引入CSPNet从而提升了模型的Recall,Precision,F1和mAP,也证明了CSPNet应用于Neck层能够提升模型检测性能。

结合实施例1和实施例2,从图3和图4可以看出YOLOv3获得了73.40%的Recall,19.95%的Precision,31.37%的F1和28.15%的mAP;YOLOv4获得了72.92%的Recall,17.51%的Precision,28.24%的F1和17.06%的mAP;YOLOv5获得了75.77%的Recall,18.48%的Precision,29.72%的F1和21.63%的mAP;YOLOv7获得了76.72%的Recall,19.47%的Precision,31.06%的F1和21.31%的mAP。将YOLOv3同其他方法进行对比发现mAP提升了6.52%,F1提升了0.31%,说明了Darknet53架构的有效性,从中也说明了YOLOv3从2维数据迁移到1维数据对于目标检测而言比其他模型更加有效。从数据增强角度出发对比YOLOv3和随后推出的各种版本,由于自YOLOv4后的模型在训练前期使用类似Mosaic和Mixup数据增强方案使得模型在图像目标检测中性能获得提升,同时也使得模型相较于YOLOv3更加依赖于增强方式的选择。在ECG信号的处理上只是单纯的利用滤波去除噪声,类似图像的增强方案在信号领域由于其不可视化会造成不必要的噪声干扰影响模型性能,因此在论文中并未采用。导致相较于YOLOv3而言更加依赖于增强方案的YOLOv4-7性能较差。

从图3和图4看,本发明模型脱胎于YOLOv5整体架构,但从时序序列的特点出发捕获序列的局部信息和全局信息,同时又完成时域信息和通道信息的交互,使得本发明提出的OSADet性能优于YOLOv4-7系列,也比YOLOv3更加脱离数据增强方式带来的信息增益和去除了较多冗余框带来的计算开销和对检测结果的影响进而提升了35.96%mAP和16.56%F1。

实施例3

为了评估并行Transformer模块和TCIM模块的有效性对其进行消融实验:

1)OnlyCNN:在PTFormer模型中仅使用CNIB模块。

2)OnlyTransformer:在PTFormer模块中仅使用Transformer。

3)NoTCIM:在模块中使用CNIB和Transformer,随后将结果进行拼接和卷积进行维度变化。

4)OSADet:CNIB、Transformer和TCIM都使用。

从图5中,可以观察到OnlyCNN的模型获得了57.75%mAP,OnlyTransformer获得了17.02%mAP。将两者进行对比发现OnlyCNN模型在各项指标上都超过OnlyTransformer模型,从中可以看出仅仅使用CNIB比使用Transformer具有更强的目标检测能力,证明了CNIB在OSA检测的有效性,也说明了单纯使用Transformer虽然能够实现全局信息的建模,但是缺乏通道信息的交互和归纳偏置导致模型的检测性能较差。

当采用NoTCIM模块时获得了49.68%mAP,将其与OnlyTransformer对比发现性能提升32.66%mAP,说明了使用CNIB提取局部信息时能够提升模型的性能,但是由于未进行时域和通道信息的交互,导致相比于OnlyCNN效果更差。也说明仅用于拼接时Transformer模型提取的信息作为干扰信号降低了检测性能。OSADet和OnlyCNN的对比提升了6.36%mAP,说明了本发明提出的TCIM对于增强OSA事件的检测性能的有效性。

技术分类

06120116551831