掌桥专利:专业的专利平台
掌桥专利
首页

一种针对二维图像序列中多尺度多形态目标的自动检测方法

文献发布时间:2023-06-19 09:54:18


一种针对二维图像序列中多尺度多形态目标的自动检测方法

技术领域

本发明涉及图像分析和目标检测技术领域,尤其是涉及一种针对二维图像序列中多尺度多形态目标的自动检测方法。

背景技术

目标检测广泛存在于人脸识别、手势识别、医学检测等任务中,是机器视觉领域最基础、最重要的技术之一。目标检测包括候选区域提取和目标类别判别两个步骤,其中目标类别判断是各种检测方法之间的主要差别所在。目前对于二维图像序列的目标检测,主要有人为构造特征,并使用规则匹配、支持向量机等方法进行分类识别的传统检测方法;以及使用卷积神经网络等深度学习方法。主要有以下不利因素:

1)当前已有的目标检测方法在用于目标与非目标具有相似形态表现的场景中时,会错误地将非目标区域检测为目标而导致高假正例。

2)人工构造特征往往受目标图像尺度和形态多变性等因素困扰,很多情况下检测效果并不理想,鲁棒性不高。

3)卷积神经网络端到端的学习方式解决了人工构造特征鲁棒性不高的缺陷,但对于连续的二维图像,普通的深度学习方式忽略了图像连续这一特点,无法有效利用图像的上下文信息,因而检测的准确性还有待进一步提升。

发明内容

发明目的:本发明所要解决的技术问题是针对二维图像序列中多尺寸多形态目标检测如何有效利用其图像连续这一特点的问题,基于深度学习中的卷积神经网络,提出了一种结合另一维度信息来辅助判断二维图像序列上多尺寸多形态目标的方法,实现了对目标更精确的检测。

本发明公开了一种基于卷积神经网络并结合另一维度信息的针对二维图像序列中多尺寸多形态目标的自动检测方法,包括如下步骤:

步骤1,改变原始二维图像尺寸,将其长宽比扩大一倍,得到使待检测目标长宽比扩大一倍的图像,对图像中的目标进行标定,得到真实标定框,将目标标定后的图像存入数据集D1;

步骤2,将同一场景下连续的一组二维图像在第三维上进行堆叠,每一组二维图像都构成一个三维数组,用该三维数组构造出一组在另一辅助平面上连续的二维图像;

步骤3,将辅助平面的边缘无效像素裁去,对经过裁剪后辅助平面图像中的目标进行标定,得到真实标定框,将辅助平面上目标标定后的图像存入数据集D2;所述无效像素指辅助平面上目标可能出现的最远位置以外的部分;

步骤4,分别将数据集D1、D2按照合适的比例划分为训练集和测试集,分别在D1、D2的训练集上使用目标检测神经网络进行训练,用训练好的目标检测模型对D1、D2的测试集进行测试,得到目标平面和辅助平面的预测检测结果;

步骤5,将目标平面上的检测结果投影至辅助平面得到的框位置与辅助平面的预测检测结果进行对比,判断两者交集程度,以此辅助平面的检测结果辅助判断目标平面的检测结果,去除目标平面检测框中的假正例,所述假正例指预测为目标,实际为非目标的检测框;

步骤6,根据目标在二维图像序列中的灰度连续性这一特点,进一步去除目标平面检测框中的假正例;

步骤7,将图像恢复至原始尺寸,就完成了对二维图像序列中多尺寸多形态目标的检测,最终得到低假正例的更加精确的检测结果。

在一种实现方式中,步骤2包括:

步骤2.1,将三维数组映射到三维空间XYZ上,所述每一组二维图像所在平面为XY平面,另外两个平面为XZ平面和YZ平面;

步骤2.2,用三维数组构造每一组二维图像序列在另外两个平面XZ平面和YZ平面的图像;

步骤2.3,从XZ平面和YZ平面中选择待检测目标易识别的一个平面作为辅助平面。

在一种实现方式中,步骤3中,所述对辅助平面图像中的目标进行标定,得到真实标定框包括:

步骤3.1,根据目标在目标平面的坐标信息确定其在三维空间中的位置,目标会连续出现在层序号为n

步骤3.2,根据目标在三维空间中的位置可知其在辅助平面的坐标范围,并对之进行标定;如在YZ平面,前述目标将出现在层序号A

在一种实现方式中,步骤4中,所述目标检测神经网络主要由经过特征融合的特征提取网络、区域推荐网络RPN(Region Proposal Network)、分类和回归网络三部分构成。所述特征提取网络与区域推荐网络RPN共享卷积层;所述区域推荐网络RPN使用名为锚框的结构生成候选区域;所述特征提取网络对区域推荐网络RPN生成的候选区域做分类,同时进一步对候选区域进行候选框的回归,从而实现目标的精确定位。

在一种实现方式中,步骤4中,所述特征融合是通过高层特征进行自上而下和通过低层特征进行自底向上的过程,且与横向连接相结合,每一层都进行预测,包括:

步骤4.1,所述通过低层特征自底向上的过程就是神经网络普通的前向传播过程,特征图经过卷积核计算,通常会越变越小,对于常用的特征提取网络,我们使用每个阶段的最后一个残差块输出的特征激活输出;

步骤4.2,所述通过高层特征进行自上而下的过程是把更抽象、语义更强的高层特征图进行上采样;

步骤4.3,所述横向连接采用1×1的卷积核将步骤4.2中上采样的结果和步骤4.1中自底向上生成的相同大小的特征图进行融合,可以有效减少特征图数量。

在一种实现方式中,步骤4中,所述区域推荐网络RPN使用名为锚框的结构生成候选区域包括,特征提取网络的输出作为区域推荐网络RPN的输入,区域推荐网络RPN输出的第一条分支将锚框进行分类,另一分支用于计算对于锚框的候选框回归偏移量,以获得精确的区域候选框,最后感兴趣区域池化层将特征提取网络的输出和候选区域作为输入,输出类别信息并进行候选框回归,将回归后的候选框称为预测的检测框;为了进一步获得精确的检测框,还可以对预测的检测框剔除太小和超出边界的检测框,就完成了相当于目标定位的功能。

在一种实现方式中,步骤4中,所述得到目标平面的预测检测结果包括,此步骤中目标检测工作的重点应放在提高召回率上,即尽可能保留更多的检测框,以确保不漏掉真正例,真正例指预测为目标,实际也为目标的检测框。由此产生的假正例将在后续步骤中进行处理。将测试集通过训练好的目标检测模型,如果预测的检测框置信度小于阈值T则该检测框将被剔除,否则保留。阈值T是以高召回率为目标,通过比较目标检测神经网络输出的检测效果与实际结果来确定。

在一种实现方式中,步骤5包括:

步骤5.1,根据目标平面输出的检测框坐标信息推测三维空间中该检测框所在区域投影在辅助平面上的投影检测框坐标,其对应关系包括:目标平面检测框左边缘横坐标X

步骤5.2,计算步骤5.1得到的辅助平面上的投影检测框与步骤4得到的辅助平面的预测检测框的交并比,计算公式如下:

其中IOU为目标平面在辅助平面上的投影检测框与步骤4得到的辅助平面的预测检测框的交并比,A为投影框的面积,B为步骤4得到的辅助平面的预测检测框的面积。

步骤5.3,将IOU值大于阈值T1的投影框计数为count,所述阈值T1根据目标的投影框与辅助平面的预测检测框重叠情况确定;

步骤5.4,计算count占辅助平面的预测检测框的数目total的比例,若比例大于阈值T2,则认为该组投影框对应的目标平面的检测框为真正例,否则为假正例,将其去除。阈值T2根据目标在辅助平面上网络的检测情况来确定。

在一种实现方式中,步骤6中,所述根据目标在二维图像序列中的灰度连续性这一特点,进一步去除假正例包括计算相同目标在一组图像中连续出现的最后一张图像的检测框区域的平均灰度值与所述最后一张图像的下一张图像该区域的平均灰度值之差,若差值小于阈值T3,说明不满足目标的形态特点,则将该组检测框判断为假正例并去除,得到最终的低假正例的检测效果,所述阈值T3根据目标的平均灰度来确定。

有益效果:

1、本发明提供了一种基于卷积神经网络,并利用另一维度信息针对二维图像序列中多尺寸多形态目标的检测方法,可有效利用二维图像序列的上下文信息,从另一平面观察目标,根据目标在三维空间中的形态对二维平面上的检测结果进行再判断,从而可将目标和图像中与目标有相似外观的非目标区域区分开来,有效地去除了假正例,提高了目标检测的准确度。

2、本发明进一步利用目标在二维图像序列中的灰度连续性特点去除假正例,具有较强的鲁棒性,获得高召回率低假正例的检测效果。

附图说明

为了更清楚地说明本发明具体实施方式,下面结合附图对本发明中的技术方案和现有技术描述做更进一步的具体说明。

图1为本发明方法示意图。

图2为目标检测神经网络Faster RCNN的框架结构示意图。

图3为特征金字塔FPN的结构示意图。

图4为本发明流程图。

具体实施方式

为使本发明实施例的目的、技术方案以及优点更加清楚,下面将结合附图对本发明的技术方案进行详尽的描述。

实施例

如图1和图4所示,本发明公开了一种基于卷积神经网络、利用另一维度信息针对二维图像序列中多尺寸多形态目标的检测方法,包括如下步骤:

步骤1,对每例宫颈癌患者双侧盆壁处的CT图像进行预处理,改变原始CT图像尺寸,将其长宽比扩大一倍,得到使待检测淋巴长宽比更加合理的图像,使用LabelImg工具对图像中的淋巴结进行标定,得到真实标定框,将目标标定后的图像存入数据集D1,图像所在平面为目标平面;

步骤2,将目标平面上每例病人连续的一组CT图像在第三维上进行堆叠,每例病人的一组二维CT图像都构成一个三维数组,用该三维数组构造出一组在辅助平面上连续的二维图像;

步骤3,将辅助平面的边缘无效像素裁去,对经过裁剪后辅助平面图像中的目标进行标定,得到真实标定框,将辅助平面上目标标定后的图像存入数据集D2;所述无效像素指辅助平面上目标可能出现的最远位置以外的部分;

步骤4,分别将数据集D1、D2按照8:2的比例划分为训练集和测试集,分别在D1、D2的训练集上使用目标检测神经网络进行训练,用训练好的目标检测模型对D1、D2的测试集进行测试,得到目标平面和辅助平面的预测检测结果;

步骤5,将目标平面上的检测结果投影至辅助平面得到的框位置与辅助平面的预测检测结果进行对比,判断两者交集程度,辅助平面的检测结果辅助判断目标平面的检测结果,去除目标平面检测框中的假正例,所述假正例指预测为目标,实际为非目标的检测框,本实施例指非淋巴结的检测框;

步骤6,根据目标在二维图像序列中的灰度连续性这一特点,进一步去除目标平面检测框中的假正例;

步骤7,将CT图像恢复至原始尺寸,最终得到低假正例的更加精确的检测效果。

本实例中,步骤1中输入的CT图像是随机从GE公司的Discovery CT750HDCT或Hispeed NX/i扫描仪上采集的,管电压均为120kV。Discovery CT750HDCT扫描仪采用自动毫安秒技术,Hispeed NX/i扫描仪管电流为400mAs。图像观察采用纵膈窗,窗宽为350,窗位为40。

本实例中,步骤1中原始CT图像是512*512的原图,共有230例病人的完整CT图像。将其拉宽到尺寸为512*1024的图像,选择其中属于双侧盆壁的部分,每例病人在该区域的CT切片张数为60至80张不等,每两张CT图像之间的物理距离是1.25mm,改变图像尺寸后,使用LabelImg工具对淋巴进行标注,将标注好的图像及标注框信息存入数据集D1。

本实例中,如图1所示,步骤2所述每例病人的一组二维CT图像都构成一个三维数组,用该三维数组构造出一组在辅助平面上连续的二维图像包括:

步骤2.1,将三维数组映射到三维空间XYZ上,所述每一组二维图像所在平面为XY平面,另外两个平面为XZ平面和YZ平面;

步骤2.2,用三维数组构造每一组二维图像序列在另外两个平面XZ平面和YZ平面的图像;

步骤2.3,从XZ平面和YZ平面中选择淋巴结更易识别的一个平面作为辅助平面,本实施例中主要通过人为主观判断出更易识别的平面。

本实施例中,步骤3中,所述对辅助平面图像中的淋巴结进行标定,得到真实标定框包括:

步骤3.1,根据目标在目标平面的坐标信息确定其在三维空间中的位置,目标会连续出现在层序号为n

步骤3.2,根据目标在三维空间中的位置可知其在辅助平面的坐标范围,并对之进行标定;如在YZ平面,前述目标将出现在层序号A

本实施例中,步骤4所采用的目标检测神经网络为加入特征金字塔FPN(FeaturePyramid Networks for Object Detection)的快速基于区域的卷积神经网络Faster RCNN(Faster Region-Convolutional Neural Networks),如图2所示,该目标检测网络主要由特征提取网络、区域推荐网络RPN、分类和回归网络三部分构成。所述特征提取网络选用ResNet-50,并且与一个区域推荐网络RPN共享卷积层;所述区域推荐网络RPN使用名为锚框的结构生成候选区域;所述特征提取网络对区域推荐网络RPN生成的候选区域做分类,同时进一步对候选区域进行候选框的回归,从而实现目标的精确定位。

本实施例中,如图3所示,步骤4所述的特征金字塔FPN通过高层特征进行自上而下和低层特征进行自底向上的连接,且与横向连接相结合,每一层都进行预测,包括:

步骤4.1,所述自底向上的过程就是神经网络普通的前向传播过程,特征图经过卷积核计算,通常会越变越小,具体而言,对于特征提取网络ResNet-50,我们使用每个阶段的最后一个残差块输出的特征激活输出;

步骤4.2,所述通过高层特征进行自上而下的过程是把更抽象、语义更强的高层特征图进行上采样;

步骤4.3,所述横向连接采用1×1的卷积核将上采样的结果和自底向上生成的相同大小的特征图进行融合,可以有效减少特征图数量。

本实施例中,步骤4所述区域推荐网络RPN使用名为锚框的结构生成候选区域包括,特征提取网络ResNet-50的输出作为RPN的输入,RPN输出的第一条分支通过softmax分类器将锚框进行分类,另一分支用于计算对于锚框的候选框回归偏移量,以获得精确的区域候选框,最后感兴趣区域池化层将特征提取网络ResNet-50的输出和感兴趣区域作为输入,输出类别信息并进行候选框回归,将回归后的候选框称为预测的检测框;为了进一步获得精确的检测框,还可以对预测的检测框采用非极大值抑制的方法剔除太小和超出边界的区域检测框,就完成了相当于目标定位的功能。整个训练的过程是在深度学习框架Tensorflow上实现的,共训练迭代80000次。

本实施例中,步骤4所述得到目标平面的预测检测结果,此步骤目标检测工作的重点应放在提高淋巴结的召回率上,即尽可能保留更多的检测框,以确保不漏检淋巴结,由此产生的假正例将在后续步骤中进行处理。将测试集通过训练好的目标检测神经模型,如果预测的检测框置信度小于阈值T则该检测框将被剔除,否则保留。多次调节阈值T,将不同阈值下的检测效果与实际结果进行对比,以高召回率为目标确定较为合适的阈值T为0.75。

本实施例中,步骤5包括:

步骤5.1,根据目标平面输出的检测框坐标信息推测三维空间中该检测框所在区域投影在辅助平面上的投影检测框坐标。所述根据目标平面输出的检测框坐标信息推测辅助平面上的投影框坐标,其对应关系包括:目标平面检测框左边缘横坐标X

步骤5.2,计算步骤5.1得到的辅助平面投影检测框与步骤4得到的辅助平面的预测检测框的交并比,计算公式如下:

其中IOU为目标平面在辅助平面上的投影检测框与步骤4得到的辅助平面的预测检测框的交并比,A为投影框的面积,B为步骤4得到的辅助平面的预测检测框的面积。

步骤5.3,将IOU值大于阈值T1的投影框计数为count,所述阈值T1设为0.2;

步骤5.4,计算count占辅助平面的预测检测框的数目total的比例,将阈值T2设为0.3,若比例大于T2,则认为该组投影框对应的目标平面的检测框为真正例,否则为假正例,将其去除。

本实施例中,步骤6中,所述根据目标在二维图像序列中的灰度连续性这一特点,进一步去除假正例包括计算相同目标在一组图像中连续出现的最后一张图像的检测框区域的平均灰度值与所述最后一张图像的下一张图像该区域的平均灰度值之差,若差值小于阈值T3,说明不满足目标的形态特点,则将该组检测框判断为假正例并去除,所述阈值T3设为10。例如,目标淋巴结在上述一组图像中连续在5张图像中出现,则计算第5张图像中淋巴结区域的平均灰度值与第6张图像中该区域的平均灰度值之差。

本实施例中,步骤7将图像恢复至原始尺寸,就完成了对CT图像中双侧盆壁处多尺寸多形态淋巴结的自动检测,最终得到高召回率低假正例的检测效果。

本发明提供了一种针对二维图像序列中多尺度多形态目标的自动检测方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

相关技术
  • 一种针对二维图像序列中多尺度多形态目标的自动检测方法
  • 一种针对连续二维图像中多形态目标的自动检测方法
技术分类

06120112347043