掌桥专利:专业的专利平台
掌桥专利
首页

面向菌株筛选分选的智能处理方法

文献发布时间:2024-04-18 19:59:31


面向菌株筛选分选的智能处理方法

技术领域

本申请涉及一种面向菌株筛选分选的智能处理方法,具体涉及采用目标检测及图像处理技术实现柔性底盘中高性能菌株的高通量分选,以及针对具有表现性状的菌株,建立基于菌株大小、颜色等参数的人工细胞高通量分选方法,准确高效地完成对菌株目标信息的统计任务。

背景技术

高通量、高置信度的区分高产菌株与低产菌株,是制约柔性细胞工厂快速进化的关键性因素之一。高通量筛选的规模至少为每日筛选数千个样品,样品中含数百个菌株,手动打点的统计方法耗时长、效率低、强度大、易疲劳、不同实验员检测重现性也差。例如,对于培养皿中培养出的菌株进行人工计数时,由于菌株的个数和性状是随着时间不断变化的,为了准确获取菌株每个时间段的培养情况,需要人工不断进行复杂而繁重的重复性劳动,同时也会影响工作者的视力健康,更为重要的是此计数方法速度慢,个人的主观性过强,严重影响评价菌落培养质量指标的精度。

基于计算机视觉的图像分析技术在不断蓬勃发展,利用计算机自动计数来提升效率的方式日新月异。当前市面上常见的基于图像处理的菌株计数仪,多采用高清摄像头,将培养皿置于封闭空间内取像,再传到计算机上进行处理和计数,具有速度快、结果准等优点。使用图像处理技术针对菌株图像进行处理和分析,可以将工作人员从这一任务量巨大的工作中解脱出来,并可以更加准确和快速的完成对于采样目标各项数据的统计工作。除此之外,该技术可以辅助人们去更高效的完成一些工作。例如在医疗领域,细胞性状的分析对于患者疾病的确诊与治疗有着巨大的指导作用,有助于辅助医生对病情进行分析和诊断。

计算机视觉技术利用一个代替人眼的图像传感器获取物体的图像,并利用计算机模拟人的判别准则去理解和识别图像,达到分析图像和做出结论的目的,是在感知层上最为重要的核心技术之一。计算机视觉技术模拟生物视觉,将捕捉到的图像中的数据及信息进行分析识别、检测和跟踪等,真正去理解这些图像。目前此项技术已经广泛应用于安防、自动驾驶、医疗等领域。

本申请将菌株筛选与计算机视觉技术相结合,提出了一种面向菌株筛选分选的智能处理方法。根据不同产物性质,分别构建高通量筛选方法,实现柔性底盘中有表现性状和无表现性状的高性能菌株的高通量分选,形成多种类型产物的初筛分选解决方案。最终建立基于菌落表型特性、菌落蛋白质/代谢物特征分子 /差异谱等性状的菌株高通量分选方法和技术,实现柔性底盘中高性能菌株的高通量分选,快速高效地筛选出理想的微生物菌株。具体通过目标检测及图像处理技术完成菌株培养皿识别、菌株识别和量化、菌株粘连分割、菌株颜色归类等内容。并开发一套适用于菌株图像的菌株分析软件,以满足工程或科研上的需求。

发明内容

本申请的目的在于提出一种面向菌株筛选分选的智能处理方法,能够实现对图像中菌株的高通量识别,包括菌株大小、颜色、形状,能够对识别的菌株进行量化以及根据菌株颜色进行分类,可实现菌株克隆筛选的自动化操作。

为了实现上述目的,本申请结合菌株筛选与计算机视觉技术,提出了面向菌株筛选分选的智能处理方法。如图1所示,首先输入菌株图像,使用深度神经网络模型进行目标检测,判断菌株图像培养皿的形状,如果为圆形培养皿,则进行Hough变换精确定位圆形培养皿区域,若为方形培养皿,直接定位出培养皿区域。然后对培养皿区域进行Canny边缘检测、距离变换和H-minima变换进行菌株识别。最后对菌株识别结果进行量化统计、颜色分类以及量化信息可视化。

本申请的方法主要由3个模块组成,如图2所示,分为菌株培养皿检测模块、菌株识别模块、菌株量化统计模块。下面分别对本申请方法中的3个模块进行描述。

(1)菌株培养皿检测模块

菌株培养皿检测模块的主要作用是从菌株图像中检测出培养皿区域以供后续模块的使用。对于菌株图像而言,在进行菌株识别和量化之前需要先定位出菌株培养皿的位置,因此定义菌株图像培养皿区域为感兴趣目标。菌株培养皿区域检测结果分为方形培养皿和圆形培养皿,若检测结果为圆形培养皿,需要进一步进行Hough变换以检测圆形培养皿的精确位置。所以,目标检测算法需要有极高的鲁棒性,准确的检测出培养皿区域,从而为后续处理步骤营造一个较为理想的处理环境。本申请方法中的菌株培养皿目标检测算法我们采用了基于卷积神经网络(Convolutional Neural Networks,CNNs)的深度学习技术,基于深度学习算法的目标检测技术不仅性能好而且鲁棒性强。

对本申请方法中菌株培养皿检测特征提取使用的CNN模型算法的架构进行详细的描述,其深度学习模型的架构如图3所示。整个模型架构中主要使用Stage结构来描述,从上到下为Stage1(Conv2_x)、Stage2 (Conv3_x)、Stage3(Conv4_x)、Stage4(Conv5_x)。大矩形框中的每个小矩形框表示1个或多个标准的残差单元,小矩形框左侧的数值表示残差单元级联的数量,如3×表示3个级联的残差单元。通道数变化,输入通道为3,4个Stage的通道数依次为64、128、256、512,即每经过一个Stage通道数翻倍。层数计算,每个Stage包含的残差单元数量依次为3、4、6、3,每个残差单元包含2个卷积层,再算上第一个7×7 卷积层和3×3最大池化层,总的层数为(3+4+6+3)*2+1+1=34。下采样操作,即特征图大小减半,右侧箭头标识即为下采样后的特征图大小(以输入224×224为例);Conv2_x矩形框内的Max_pool操作表示最大池化,此处发生第一次下采样。卷积层参数解释:以Conv 3×3,c512,s2,p1为例,3×3表示卷积核大小,c512表示卷积核数量/输出通道数量为512,s2表示卷积步长为2,p1表示卷积的padding取1。池化层参数解释:Max_pool3×3,c64,s2,p1,3×3表示池化的区域大小(类似于卷积核大小),c64表示输入输出通道为64,s2表示池化的步长为2,p1表示padding取1。下采样操作发生在每个Stage的第一个残差单元或最大池化层,实现方式都是通过卷积或者池化中取步长为2。

对本申请方法中菌株培养皿目标检测使用的网络架构进行详细描述。整个模型架构分为两个分支,一个用于分类前景和背景,一个用于边界框回归。使用RPN网络生成高质量的预测框,需要先验的锚框 (Anchor)设计,Anchor的本质是在原图大小上的一系列的矩形框,并将这一系列的矩形框和特征图进行了关联,计算出k个anchor boxes,遍历卷积层计算获得的feature maps,为每一个点匹配9中anchors 作为初始预测框。为了计算Anchor的损失,在生成Anchor之后,我们还需要得到每个Anchor的类别,由于RPN的作用是建议框生成,而非详细的分类,因此只需要区分正样本与负样本,即每个Anchor是属于正样本还是负样本。由于Anchor的总数量较多,并且大部分Anchor的标签都是背景,如果都计算损失的话则正负样本失去了均衡,不利于网络的收敛。在此,RPN默认选择256个Anchor进行损失的计算,其中最多不超过128个正样本。从上万个anchor中采样256个anchor,由正样本和负样本两部分组成,比例为1∶1,如果正样本不足128的话就使用负样本来进行填充。使用RoiPooling层收集输入的feature maps 和proposals,综合这些信息后提取proposalfeature maps,送入后续全连接层判定方形或圆形菌株培养皿类别。

在完成菌落培养皿区域定位之后,即可裁剪出一个方形区域,对于方形培养皿而言可以进行下一步的菌落识别,但对于圆形培养皿而言还需要进一步检测圆形培养皿精确位置。

(2)菌株识别模块

对于菌株图像而言,需要确定菌株的轮廓进行菌落量化。轮廓可以简单认为将连续的点(连着边界) 连在一起的曲线,具有相同的颜色或者灰度。为了更加准确,要使用二值图像,在寻找轮廓之前,要进行阈值化处理或者Canny边界检测。在图像中的边缘附近,图像的亮度应该发生急剧变化,即边缘附近像素点的灰度值急剧变化,这是所有边缘检测算法的理论依据。

它是一个有很多步构成的算法,主要流程如下:

1)对图像进行高斯滤波去除噪声,由于Canny算法需要对图像灰度值进行求导运算,对噪声非常敏感,首先应该进行降噪处理,以降低噪声。

2)计算图像梯度,由于数字图像在计算机中存储为离散的灰度值,因此梯度计算的求导过程由所求像素点和周围区域灰度值的差分得到。梯度幅值和梯度方向的表达式如下:

P

P

θ(x,y)=arctan(P

3)对梯度幅值进行非极大值抑制,图像梯度幅值大并不一定就是边缘点,作为Canny算法的重要步骤,非极大值抑制简单来说就是寻找像素点梯度局部最大值,将非极大值点对应的灰度值置为0,这样可以剔除大部分非边缘点。如图4所示,以C点及其8值邻域为例进行非极大值抑制,图中斜线为C点的梯度方向,梯度局部最大值必定分布在这条直线上,即除了C点外,梯度方向的两个交点dTmp1和dTmp2的梯度值也可能是局部最大值。因此,判断C点梯度幅值与这两个点的梯度幅值的大小关系。如果C点梯度幅值不是最大值,则说明C点不是局部最大值,那么可以排除C点为边缘点,将该点灰度值置为0。

4)双阈值算法检测和连接边缘,经过非极大值抑制后,所得结果中仍然包含了很多由噪声及其他原因造成的假边缘,需要进一步处理。Canny算法采用双阈值法来减少假边缘,确定哪些边界才是真正的边界。这时需要设置两个阈值minVal和maxVal,当图像的灰度梯度高于maxVal时被认为是真正的边界,那些低于minVal的边界会被抛弃。如果介于两者之间的话,就要看这个点是否与某个被确定为真正的边界点相连,如果是就认为它也是边界点,如果不是就抛弃。

本课题使用距离变换、H-minima变换针对此类存在粘连目标的图像进行处理和分析。距离变换是计算一个图像中非零像素点到最近的零像素点的距离,也就是到零像素点的最短距离。图像中前景目标中的像素点距离背景越远,那么距离越大,如果我们用这个距离替换像素值,那么新生成的图像中这个点越亮。通过设置合适的阈值对距离变换后的图像(二值图像变换后变为了灰度图像)进行二值化处理,通过设定阈值我们会得到辐射图像的重心部分,即我们所需要的前景区域。

由于菌落形状近似圆形,目标菌株的中心像素点到背景像素点的欧式距离最大,像素的大小取值近似菌株半径大小,因此Dist采用欧氏距离计算。

其中像素点(m,n)与像素点(x,y)之间的欧氏距离变换后的图像像素点的集合构成了以点(x,y)为中心的圆平面。

将待测图像进行距离变换后,然后进行H-minima变换,H-minima变换对抑制虚假的极小值点有明显的效果。H-minima变换可表示为:

其中p表示这个差值的阈值,S和δ为腐蚀重建算子,在待处理图像的像素极小值点的连通区域与其边界像素点之间会产生像素的差值,对待处理图像进行H-minima变换,如果这个差值小于阈值p时,这些极小值点会被相邻联连通区域进行合并,从而达到有效抑制虚假极小值点的目的。

(3)菌株量化统计模块

通过上述菌落识别、粘连菌落分割后,即完成对菌落的统计,此处将进一步介绍颜色、形状的量化方法。

识别菌落的周长计算采用边界跟踪方法,边界跟踪方法的基本思想是在目标图像中选取一个边界像素点作为起始点遍历图像,然后根据某种规则找到边界上的所有像素点,最后回到起始像素点,边界跟踪算法的步骤如下:

1)待测目标二值图中背景像素点大小为0,前景目标像素点的大小为1

2)将目标图像中的最左下方的像素值为0的边界点作为起始点开始进行边界跟踪。

3)从边界起始点开始沿左上方进行遍历跟踪图像,其跟踪规则为:如果当前像素点的大小为0,则作为边界像素点保存下来,同时按逆时针将跟踪方向旋转90度,若当前像素点的大小为1,则按顺时针将跟踪方向旋转45度。

4)然后重复操作步骤3,当与起始边界像素点重合时,停止操作。

菌落面积的计算方法使用基于八连通标记法和边界层剥法,经过对两种算法的实验相比,其中两种算法在计算精度上基本是一样的,但边界层剥法在扫描时间上有相应的缩短,减少了程序运行的时间,提高了效率。

边界层剥法的基本思想是对待检测目标的边界一层一层的进行剥离。首先使用边界跟踪算法对边界由外向内一层一层的跟踪并标记,直至跟踪标记完最内层的区域。

菌落形状使用圆形度表征,其表达式为F=4πS/C

颜色量化方面实现了菌落颜色的归类,一幅数字图像可以看作是由许多相同大小的小方块组成的,这些小方块就是构成数字图像的最小单位像素。每个像素区域代表了一种颜色,这些颜色由一组有序的实数组表示,根据不同的划分方式,有序实数组的值有所不同。这些不同的划分方式即构成了不同的颜色空间。

附图说明

图1为基于计算机视觉的高性能菌株的自动化与高通量初筛分选方法总体框图

图2为本申请方法的组成模块图

图3为基于卷积神经网络(CNN)的深度学习菌株培养皿特征提取模型架构

图4为菌株识别轮廓检测非极大值抑制示意图

图5为基于计算机视觉的高性能菌株的自动化与高通量初筛分选方法具体实施流程

具体实施方法

为了更好地描述面向菌株筛选分选的智能处理方法,下面给出本申请的具体实施方式。

本课题在windows系统开发了菌株分析软件,设计了用户方便操作的中文用户界面(GUI),用户通过文件选择按钮输入图片到界面窗口,能根据使用者的需求选定识别不同形状的图片和范围,支持多种主要的图片格式:PNG、JPG、JPEG、TIF、SVG,BMP等。对菌落识别的大小,颜色等得到的数据化结果以excel 表格和图片形式生成,每个菌株的位置都有编号方便找出具体的位置来进行下一步生物实验操作,可输出各菌落的相关特征量化数据表格和总体特征量化数据表格,能够进行对特征数据的可视化处理,以直方图等形式呈现。

一般单个圆形的点为一个菌株,可以对菌株大小、形状、颜色数据进行识别,得到一些输出的数字来量化大小、颜色、形状的差距,并进一步在分析模块中可以用不同数据表征的方式来量化统计结果。为了实现对培养皿上的菌株图片高通量识别,本课题设置了菌株培养皿检测、菌株识别及菌株量化统计三个模块。

(1)菌株培养皿检测

本课题通过深度神经网络训练的方式检测菌株培养皿位置,训练网络时需要制作相应的训练数据集,因此需要对菌株图像进行标注(图像标注是一个将标签添加到图像上的过程,其目标范围既可以是在整个图像上仅使用一个标签,也可以是在某个图像内的各组像素中配上多个标签)。课题采用矩形框标注的方式,使用相应的图像标定工具,配置环境Python+1xml标定图像中的目标,生成的XML文件遵循PASCAL VOC 的格式(PASCAL VOC为图像识别和分类提供了一整套标准化的优秀数据集,用于构建和评估用于图像分类、检测、分割的算法)。使用folder表示标注数据的文件夹名称,filename表示标注图像的文件名,database 表示数据库名称,annotation表示标记文件格式,object标签保存的是菌落图像位置信息,size为图像尺寸。划分标注的数据集90%为训练集和10%为测试集,通过标签映射将每个使用的标签映射到一个整数值,以用于训练和测试过程。菌株图像使用预训练模型进行特征提取,将提取的菌株图像特征传入我们的目标检测模型中进行进一步训练。目标检测模型使用锚框生成作为区域采样的策略,通过配置锚框尺度和纵横比参数来生成菌株图像培养皿位置的区域建议框,最后配置batch_size、SGD等参数完成训练过程。

(2)菌株识别

在完成菌株培养皿目标检测后,裁剪出菌株培养皿区域(若检测类别为圆形,需要进一步检测圆形培养皿区域)。对整张菌株图像仅在目标检测的区域内进行菌株识别,首先对菌株图像进行滤波处理以及形态学操作,然后识别菌株的轮廓特征,对于存在问题的轮廓进行剔除,再使用距离变换与H-minima变换区分粘连轮廓,最终剩余的轮廓数量作为菌株的量化统计计数。

(3)菌株量化统计

进一步分析输出数据并导出统计结果,识别各个菌株的位置坐标,提取已识别菌株的颜色特征,设定聚类个数后将根据不同像素的颜色进行菌株的分类识别。计算出识别菌株的面积和周长信息,根据面积和周长信息对菌株的形态进行量化。使用各菌株的面积信息计算出相关直径的数值信息,并进行直径的区间可视化处理。通过上述特征的量化处理,最终实现菌株图像对于面积、周长、直径、颜色、圆形度等信息的表征统计。

技术分类

06120116521557