掌桥专利:专业的专利平台
掌桥专利
首页

一种基于粗糙集的菌菇毒性特征检测方法及系统

文献发布时间:2023-06-19 19:30:30


一种基于粗糙集的菌菇毒性特征检测方法及系统

技术领域

本发明属于生物学与信息科学领域,特别适用于检测菌菇毒性,具体涉及一种菌菇的样本与特征扰动实现及其在菌菇毒性检测中的应用。

背景技术

人类在几千年前就开始食用野生菌菇,但是,由于菌菇种类众多,菌菇的毒性也各不相同。因此,菌菇毒性检测有利于保护人类和其他动物避免因食用具有毒性的菌菇而导致某些疾病甚至死亡。菌菇毒性检测可以作为第一步措施来判断菌菇是否可食用,并且一定程度上预测未知种类菌菇的毒性。

为了避免人类和动物因食用有毒的菌菇而造成损失,我们需要对菌菇进行种类检测。鉴于此,国内外学者做出了许多贡献:(李旺,俞祝良.宽度学习系统在菌菇毒性判别中的应用[J].现代食品科技,2019,35(7):7.),李、俞为了提升菌菇毒性判别的准确率,消除个体差异,提出了一种基于宽度学习系统的菌菇毒性判别方法.首先对菌菇各特征指标与其毒性判别的相关性进行了探究,其所得结果显示菌菇的气味和颜色是其区分度最大的特征,该结果与人工判别积累的经验相符.接着构建宽度学习系统并进行训练;张超群.基于机器学习的毒菌菇识别与研究[D].:2019,(1-52)),张对菌菇数据集分别实现了朴素贝叶斯,决策树,支持向量机三种常用机器学习算法,分别对三种算法的准确率,F值,10折交叉指数等方面进行评估分析,在兼顾算法准确率和运行效率的前提下,对比分析选取了决策树算法模型应用到移动终端识别应用程序中。然而,需指出的是,对于一些品种不明,预先获取菌菇的所有信息与特征的花费是巨大的,甚至是不现实的;此外,难免会因为基因变异产生新品种或者是出现曾经未发现的品种,用于检测菌菇毒性的数据信息势必受到一些干扰。

为了解决这一系列难题,可以从粗糙集学习的角度出发,根本原因是,粗糙集与其他机器学习方法相比,其在各界的应用落地方面可以提供低成本的技术支持。借鉴粗糙集机制,设计出一种菌菇的样本与特征扰动实现及其在菌菇毒性检测中的应用,其能够分别从样本和特征的层面,构造不同的扰动数据,以便求解出多个不同的特征选择结果,并根据使用者的不同需求提供两种特征选择的方法,一种是常规方法,第二种是限制特征选择数量方法,当常规方法所取得的效果不好时或者对选择数量有特殊需求时,可以选用第二种方法,这两种方法产生的结果,都能够在准确率和稳定性的层面,提供更为优越的性能。

发明内容

发明目的:针对上述问题,本发明提供了基于网络通讯的闸机通道系统及方法,其目的在于大幅度提升检测准确率,通过扰动算法处理对未知的菌菇进行推测,因为有扰动的存在可以避免一些变异导致的特征变化对结果的影响,在一定程度上解决由于新的菌菇品种或基因变异导致特征发生改变造成的干扰。

技术方案:一种基于粗糙集的菌菇毒性特征检测方法,包括以下步骤:

(1)用已有的菌菇信息或者通过特征抽取获取到的菌菇信息经过处理后表示为一个实例决策系统DS;

(2)对已有的实例决策系统DS的样本与菌菇特征利用扰动算法进行扰动扩充后获得4个扩充后的实例决策系统;

(3)对步骤(1)和(2)得到的实例决策系统使用前向贪心式算法或者过滤式算法进行特征选择,得到每一个实例决策系统最优的特征选择结果;

(4)利用步骤(3)得到的最优的特征选择结果对测试样本进行集成分类,判断毒性特征,进行决策。

步骤(1)中所述实例决策系统DS=,其中U是一个非空有限的菌菇样本集合;AT是农作物特征信息,称为特征集合;d是菌菇是否有毒,称为决策。

步骤(2)包括以下步骤:

(2.1)从实例决策系统DS中找出任意样本x的近邻求出标准差std

(2.2)根据下式对所有样本进行变化x

得出第一个扩充后的实例决策系统DS′1;

(2.3)根据下式对所有样本进行变化

x

得出第二个扩充后的实例决策系统DS′2;

(2.4)根据下式对所有特征进行变化

a

得出第三个扩充后的实例决策系统DS′3;

(2.5)根据下式对所有特征进行变化

a

得出第四个扩充后的实例决策系统DS′4。

所述前向贪心式算法包括以下步骤:

(3.1)输入步骤(1)中实例决策系统和步骤(2)中扩充后的实例决策系统;

(3.2)选择一个未进行过处理的实例决策系统进行初始化,

(3.3)在实例决策系统DS下计算度量值近似质量γ(AT,d),γ作为整个算法进行判断的度量其值越大说明特征识别能力越大,γ(AT,d)被定义为:

其中|U|是样本的数量,

(3.4)通过计算γ(A∪a,d)来评估未加入到A中的所有特征a,并依据评估选出效果最好的,将特征加入到A中,A=A∪a;

(3.5)计算γ(A,d),若

(3.6)如果A中仅有一个特征则直接跳转至步骤(3.8),反之则计算γ(A-a,d)来计算减少某个特征a后A的识别能力,计算每个减少a的情况;

(3.7)通过γ(A-a,d)>γ(A,d)是否成立来判断是否减少某个特征a会使A的识别能力提升,如果成立找出提升最大的a从A中去掉,并且返回步骤(3.6),如果不成立或则进行后续步骤;

(3.8)保存特征选择的结果A,查看是否所有的实例决策系统都进行过处理,如果还有未处理的实例决策系统则返回步骤(3.2);

(3.9)将得到的每一个实例决策系统最优的特征选择结果分别用于分类器进行分类后对分类结果用投票的形式进行集成得出票数最多者并输出结果;

所述过滤式算法包括以下步骤:

(3a)输入原实例决策系统DS和扩充后的实例决策系统;

(3b)选择一个未进行过处理的实例决策系统进行初始化,

(3c)使用求pearson相关系数的函数corrcoef对所有的样本属性进行处理,pearson相关系数衡量的是线性相关关系,相关系数的绝对值越大,相关性越强,绝对值最大为1。通过处理得到一个大小为m*n大小的矩阵q,其中m为样本数量n为特征数量;

(3d)对矩阵q进行处理,取每一列数值的绝对值全部加起来的倒数,得到特征a对应的评分P(a),P(a)越小说明相关性越强;

(3e)计算每个属性的近似质量γ(a,d);

(3f)通过计算的出每个属性的最终评分,计算过程如下:

(3g)根据每个属性的最终评分从大到小进行排序后取前x个加入到A中;

(3h)保存特征选择的结果A,查看是否所有的实例决策系统都进行过处理,如果还有未处理的实例决策系统则返回步骤(3b);

(3i)将得到的5个特征选择结果分别用于分类器进行分类后对分类结果用投票的形式进行集成得出票数最多者并输出结果。

一种基于粗糙集的菌菇毒性特征检测系统,其特征在于,包括:

初始化模块:用已有的菌菇信息或者通过特征抽取获取到的菌菇信息经过处理后表示为一个实例决策系统DS;

扰动模块:对已有的实例决策系统DS的样本与菌菇特征利用扰动算法进行扰动扩充后获得4个扩充后的实例决策系统;

特征选择模块:对初始化模块和扰动模块得到的实例决策系统使用前向贪心式算法或者过滤式算法进行特征选择,得到每一个实例决策系统最优的特征选择结果;

决策模块:利用特征选择模块得到的最优的特征选择结果对测试样本进行集成分类,判断毒性特征,进行决策。

初始化模块中所述实例决策系统DS=,其中U是一个非空有限的菌菇样本集合;AT是农作物特征信息,称为特征集合;d是菌菇是否有毒,称为决策。

扰动模块包括以下:

从实例决策系统DS中找出任意样本x的近邻求出标准差std

根据下式对所有样本进行变化

x

得出第一个扩充后的实例决策系统DS′1;以及,

根据下式对所有样本进行变化

x

得出第二个扩充后的实例决策系统DS′2;以及,

根据下式对所有特征进行变化

a

得出第三个扩充后的实例决策系统DS′3;以及,

根据下式对所有特征进行变化

a

得出第四个扩充后的实例决策系统DS′4。

所述前向贪心式算法包括以下步骤:

(3.1)输入初始化模块中实例决策系统和扰动模块中扩充后的实例决策系统;

(3.2)选择一个未进行过处理的实例决策系统进行初始化,

(3.3)在实例决策系统DS下计算度量值近似质量γ(AT,d),γ作为整个算法进行判断的度量其值越大说明特征识别能力越大,γ(AT,d)被定义为:

其中|U|是样本的数量,

(3.4)通过计算γ(A∪a,d)来评估未加入到A中的所有特征a,并依据评估选出效果最好的,将特征加入到A中,A=A∪a;

(3.5)计算γ(A,d),若

(3.6)如果A中仅有一个特征则直接跳转至步骤(3.8),反之则计算γ(A-a,d)来计算减少某个特征a后A的识别能力,计算每个减少a的情况;

(3.7)通过γ(A-a,d)>γ(A,d)是否成立来判断是否减少某个特征a会使A的识别能力提升,如果成立找出提升最大的a从A中去掉,并且返回步骤(3.6),如果不成立或则进行后续步骤;

(3.8)保存特征选择的结果A,查看是否所有的实例决策系统都进行过处理,如果还有未处理的实例决策系统则返回步骤(3.2);

(3.9)将得到的每一个实例决策系统最优的特征选择结果分别用于分类器进行分类后对分类结果用投票的形式进行集成得出票数最多者并输出结果;

所述过滤式算法包括以下步骤:

(3a)输入原实例决策系统DS和扩充后的实例决策系统;

(3b)选择一个未进行过处理的实例决策系统进行初始化,

(3c)使用求pearson相关系数的函数corrcoef对所有的样本属性进行处理,pearson相关系数衡量的是线性相关关系,相关系数的绝对值越大,相关性越强,绝对值最大为1。通过处理得到一个大小为m*n大小的矩阵q,其中m为样本数量n为特征数量;

(3d)对矩阵q进行处理,取每一列数值的绝对值全部加起来的倒数,得到特征a对应的评分P(a),P(a)越小说明相关性越强;

(3e)计算每个属性的近似质量γ(a,d);

(3f)通过计算的出每个属性的最终评分,计算过程如下:

(3g)根据每个属性的最终评分从大到小进行排序后取前x个加入到A中;

(3h)保存特征选择的结果A,查看是否所有的实例决策系统都进行过处理,如果还有未处理的实例决策系统则返回步骤(3b);

(3i)将得到的5个特征选择结果分别用于分类器进行分类后对分类结果用投票的形式进行集成得出票数最多者并输出结果。

有益效果:提供了两种特征选择的方式,可以根据用户需求灵活使用;实例决策系统将属性约简,使得所需的检测时间缩短;通过扰动算法一定程度上解决由于新的菌菇品种或基因变异导致特征发生改变造成的干扰,提升检测准确率。

附图说明

图1为本发明所述菌菇的样本与特征扰动实现流程图。

图2本发明所述菌菇毒性检测中的应用流程图。

图3本发明所述限制特征选择数量菌菇毒性检测中的应用流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示,一种基于粗糙集的菌菇毒性特征检测方法,包括以下步骤:

(1)用已有的菌菇信息或者通过特征抽取获取到的菌菇信息经过处理后表示为一个实例决策系统DS;本实施例菌菇信息见表1。

表1

(2)对已有的实例决策系统DS的样本与菌菇特征进行扰动扩充后获得4个扩充后的实例决策系统;

(3)对步骤(1)和(2)得到的实例决策系统使用前向贪心式算法或者过滤式算法进行特征选择,得到每一个实例决策系统最优的特征选择结果;

(4)利用步骤(3)得到的最优的特征选择结果对测试样本进行集成分类,判断毒性特征,进行决策。

步骤(1)中所述实例决策系统DS=,其中U是一个非空有限的菌菇样本集合;AT是农作物特征信息,称为特征集合;d是菌菇是否有毒,称为决策。

步骤(2)包括以下步骤:

(2.1)从实例决策系统DS中找出任意样本x的近邻求出标准差std

(2.2)根据下式对所有样本进行变化x

得出第一个扩充后的实例决策系统DS′1;

(2.3)根据下式对所有样本进行变化

x

得出第二个扩充后的实例决策系统DS′2;

(2.4)根据下式对所有特征进行变化

a

得出第三个扩充后的实例决策系统DS′3;

(2.5)根据下式对所有特征进行变化

a

得出第四个扩充后的实例决策系统DS′4。

如图2所示,所述前向贪心式算法包括以下步骤:

(3.1)输入步骤(1)中实例决策系统和步骤(2)中扩充后的实例决策系统;

(3.2)选择一个未进行过处理的实例决策系统进行初始化,

(3.3)在实例决策系统DS下计算度量值近似质量γ(AT,d),γ作为整个算法进行判断的度量其值越大说明特征识别能力越大,γ(AT,d)被定义为:

其中|U|是样本的数量,

(3.4)通过计算γ(A∪a,d)来评估未加入到A中的所有特征a,并依据评估选出效果最好的,将特征加入到A中,A=A∪a;

(3.5)计算γ(A,d),若

(3.6)如果A中仅有一个特征则直接跳转至步骤(3.8),反之则计算γ(A-a,d)来计算减少某个特征a后A的识别能力,计算每个减少a的情况;

(3.7)通过γ(A-a,d)>γ(A,d)是否成立来判断是否减少某个特征a会使A的识别能力提升,如果成立找出提升最大的a从A中去掉,并且返回步骤(3.6),如果不成立或则进行后续步骤;

(3.8)保存特征选择的结果A,查看是否所有的实例决策系统都进行过处理,如果还有未处理的实例决策系统则返回步骤(3.2);

(3.9)将得到的每一个实例决策系统最优的特征选择结果分别用于分类器进行分类后对分类结果用投票的形式进行集成得出票数最多者并输出结果;

如图3所示,所述过滤式算法包括以下步骤:

(3a)输入原实例决策系统DS和扩充后的实例决策系统;

(3b)选择一个未进行过处理的实例决策系统进行初始化,

(3c)使用matlab自带的求pearson相关系数的函数corrcoef对所有的样本属性进行处理,pearson相关系数衡量的是线性相关关系,相关系数的绝对值越大,相关性越强,绝对值最大为1。通过处理得到一个大小为m*n大小的矩阵q,其中m为样本数量n为特征数量;

(3d)对矩阵q进行处理,取每一列数值的绝对值全部加起来的倒数,得到特征a对应的评分P(a),P(a)越小说明相关性越强;

(3e)计算每个属性的近似质量γ(a,d);

(3f)通过计算的出每个属性的最终评分,计算过程如下:

(3g)根据每个属性的最终评分从大到小进行排序后取前x个加入到A中;

(3h)保存特征选择的结果A,查看是否所有的实例决策系统都进行过处理,如果还有未处理的实例决策系统则返回步骤(3b);

(3i)将得到的5个特征选择结果分别用于分类器进行分类后对分类结果用投票的形式进行集成得出票数最多者并输出结果;

综上所述,本发明可以根据各类菌菇样本信息对需要检测的菌菇的毒性进行检测,其能够分别从样本和特征两个层面出发,构造不同的扰动数据,使用扰动数据集和原始数据集求解出的多个不同的特征选择结果用于分类并通过集成从而提升菌菇毒性的检测准确率。而且根据使用者的不同需求提供了两种不同的检测方法,因此本发明具有很高的推广价值。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120115932338