掌桥专利:专业的专利平台
掌桥专利
首页

一种基于机器学习和环境DNA的河流水生态健康评价方法

文献发布时间:2023-06-19 19:28:50


一种基于机器学习和环境DNA的河流水生态健康评价方法

技术领域

本发明涉及生态环境评价与治理技术领域,尤其涉及一种基于机器学习和环境DNA的河流水生态健康评价方法。

背景技术

环境DNA的介绍:环境DNA metabarcoding是在DNA条形码技术的基础上研究出来的新兴方法。该方法从环境样品中直接提取DNA,结合第二代测序技术时可以实现对环境样品中所有存在物种的有效检测,在生物多样性研究、物种监测、动物食性分析和外来入侵物种检测等方面都有较好的应用前景。环境DNA允许从土壤、水体或是空气中包含的动物毛发、脱落的细胞、粪便等进行非损伤性取样,从而成功进行遗传检测。相比传统的直接采样,该方法成本更低,样本采集受气候条件影响较小。

DNA宏条形码的介绍:DNA条形码作为物种快速鉴定和发现新物种的方法已得到广泛应用。对于不同类别生物的DNA条形码已确定了不同的扩增片段,DNA条形码技术虽然发展前景广阔,但由于DNA易发生降解,所以对于保存年代久远的标本,要获得标准的DNA条形码序列比较困难。环境DNA宏条形码整合DNA条形码和高通量测序技术,通过提取环境样品中的DNA,并使用特异性引物进行PCR扩增,对扩增产物进行测序后得到的可操纵分类单元(operational taxonomic units,OTUs)进行物种鉴定技术最大的优势在于高通量、低成本并能快速地鉴定物种,最大的局限性在于PCR的偏向性,导致条形码的解析度和普适性及数据库的完善度水平较低。

随着现代社会发展与进步,科学技术得到了迅猛的发展,计算机的处理速度加快、模型的优化以及大数据时代的到来,改变了原有对数据信息处理、获取和利用方式,现在通过大数据以及机器学习能够从中挖掘并分析出许多未知的问题,使得数据的利用率提高,数据的处理变得更加的高效,从而产生更大的影响。尤其是在当前环境DNA的数据库并没有十分完善,DNA库中还有很多未收录的物种信息,许多物种信息并不能很好地满足大部分人们的需求。尤其是在生态评价中,通过环境DNA技术和高通量测序所得到OTUs信息中包括很多不能加以利用的为注释的物种信息,大大降低了对数据的利用率,采用分类学把生物物种进行分类,利用生物物种进行环境评价需要较高的生物学和分类学基础,同时由于环境DNA技术所检测出的物种数量更多,对于基于生物物种进行环境评价的传统方法更为复杂和困难。

发明内容

为更好的对河流中水生态状态进行评价,本申请提供了一种基于机器学习和环境DNA的河流水生态健康评价方法,以解决现有评价方法存在复杂和困难的情况,还提高了数据的利用率。

为实现上述目的,本申请提供了以下技术方案:

第一方面,本申请提供了一种基于机器学习和环境DNA的河流水生态健康评价方法,该方法包括:

以预获取的环境DNA为模板,针对细菌和微型真核生物进行扩增条形码片段,并进行测序,基于获取的测序数据确定对应的操作分类单元OTU在采样点的相对丰度和物种注释;

根据所述样品的化学信息,确定多个水质指数;

根据所述相对丰度及多个所述水质指数,确定每个所述OTU在每个所述水质指数下的的第一生态权重,并基于所述第一生态权重和生态等级划分规则,确定每个所述OTU的第一生态等级,所述第一生态等级表示所述OTU所表示的物种对于环境的敏感程度;

根据多个所述水质指数、每个所述OTU的相对丰度、所述第一生态权重和所述第一生态等级,利用机器学习算法,确定每个所述OTU的第二生态权重,并根据所述生态等级划分规则,划分所述第二生态权重对应的第二生态等级;

根据所述第二生态等级中所述OTU对应的相对丰度和生物指数模型,确定采样点的生物指数,并根据所述生物指数,确定采样点的河流水生态健康等级。

在一个可能的实施方式中,所述生态等级划分规则为:

生态权重大于80%分位数的OTU为生态等级I;

生态权重处于60%-80%分位数的OTU为生态等级II;

生态权重处于40%-60%分位数的OTU为生态等级III;

生态权重处于20%-40%分位数的OTU为生态等级IV;

生态权重小于20%分位数的OTU为生态等级V。

在一个可能的实施方式中,所述生物指数模型为:

MEI=(0×%Level-I)+(1.5×%Level-II)+(3×%Level-III)+(5×%Level-IV)

+(12×%Level-V)

其中,%Level-I为生态等级处于I类的OTU的相对丰度,%Level-II为生态等级处于II类的OTU的相对丰度,%Level-III为生态等级处于III类的OTU的相对丰度,%Level-IV为生态等级处于IV类的OTU的相对丰度,%Level-V为生态等级处于V类的OTU的相对丰度。

在一个可能的实施方式中,所述根据所述生物指数,确定采样点的河流水生态健康等级,具体为:

生物指数大于0.8分位数的健康等级为I类:优;

生物指数处于0.6-0.8分位数的健康等级为II类:良好;

生物指数处于0.4-.06分位数的健康等级为III类:中等;

生物指数处于0.2-0.4分位数的健康等级为IV类:差;

生物指数低于0.2分位数的健康等级为V类:非常差。

在一个可能的实施方式中,针对细菌和微型真核生物使用如下引物对进行扩增条形码片段:

Bacterial引物对:

Bakt_805R:GACTACHUGGGTATCTAATC;

Bakt_341F:CCTACGGGNGGCWGCAG;

或Eukaryotic引物对:

Euka_02R:CACAGACCTGTTATTGC;

Euka_02F:TTTGTCTGSTTAATSCG。

在一个可能的实施方式中,所述根据多个所述水质指数、每个所述OTU的相对丰度、所述第一生态权重和所述第一生态等级,利用机器学习算法,确定每个所述OTU的第二生态权重,并根据所述生态等级划分规则,划分所述第二生态权重对应的第二生态等级,包括:

将所述OTU的相对丰度分别与每个所述水质指数组成数据集,利用每个所述OUT在每个所述水质指数下的第一生态权重及对应的第一生态等级作为分类结果,将每组数据集采用至少两种机器学习算法进行预测,获得每个所述OUT在每个所述水质指数下的第一分类预测结果,将所述第一分类预测结果与所述分类结果对比,将准确率最高的机器学习算法作为预测算法;

基于所述数据集和所述预测算法,确定每个所述OTU的第二生态权重,并根据所述第二生态权重确定对应的第二生态等级。

第二方面,本发明提供了一种基于机器学习和环境DNA的河流水生态健康评价装置,所述装置包括:

物种丰度模块,用于以预获取的环境DNA为模板,针对细菌和微型真核生物进行扩增条形码片段,并进行测序,基于获取的测序数据确定对应的操作分类单元OTU在采样点的相对丰度和物种注释;

水质指数模块,用于根据所述样品的化学信息,确定多个水质指数;

处理模块,用于根据所述相对丰度及多个所述水质指数,确定每个所述OTU在每个所述水质指数下的的第一生态权重,并基于所述第一生态权重和生态等级划分规则,确定每个所述OTU的第一生态等级,所述第一生态等级表示所述OTU所表示的物种对于环境的敏感程度;

机器学习模块,用于根据多个所述水质指数、每个所述OTU的相对丰度、所述第一生态权重和所述第一生态等级,利用机器学习算法,确定每个所述OTU的第二生态权重,并根据所述生态等级划分规则,划分所述第二生态权重对应的第二生态等级;

健康等级模块,用于根据所述第二生态等级中所述OTU对应的相对丰度和生物指数模型,确定采样点的生物指数,并根据所述生物指数,确定采样点的河流水生态健康等级。

在一个可能的实施方式中,所述机器学习模块具体用于:

将所述OTU的相对丰度分别与每个所述水质指数组成数据集,利用每个所述OUT在每个所述水质指数下的第一生态权重及对应的第一生态等级作为分类结果,将每组数据集采用至少两种机器学习算法进行预测,获得每个所述OUT在每个所述水质指数下的第一分类预测结果,将所述第一分类预测结果与所述分类结果对比,将准确率最高的机器学习算法作为预测算法;

基于所述数据集和所述预测算法,确定每个所述OTU的第二生态权重,并根据所述第二生态权重确定对应的第二生态等级。

第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例的基于机器学习和环境DNA的河流水生态健康评价方法的步骤。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面任一项实施例的基于机器学习和环境DNA的河流水生态健康评价方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:

本申请实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价方法,以预获取的环境DNA为模板,针对细菌和微型真核生物进行扩增条形码片段,并进行测序,基于获取的测序数据确定对应的操作分类单元OTU在采样点的相对丰度和物种注释;根据所述样品的化学信息,确定多个水质指数;根据所述相对丰度及多个所述水质指数,确定每个所述OTU在每个所述水质指数下的的第一生态权重,并基于所述第一生态权重和生态等级划分规则,确定每个所述OTU的第一生态等级,所述第一生态等级表示所述OTU所表示的物种对于环境的敏感程度;根据多个所述水质指数、每个所述OTU的相对丰度、所述第一生态权重和所述第一生态等级,利用机器学习算法,确定每个所述OTU的第二生态权重,并根据所述生态等级划分规则,划分所述第二生态权重对应的第二生态等级;根据所述第二生态等级中所述OTU对应的相对丰度和生物指数模型,确定采样点的生物指数,并根据所述生物指数,确定采样点的河流水生态健康等级。通过该方式,对水生态健康评价增加了准确性、可靠性及真实性。

附图说明

图1为本发明实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价方法流程示意图;

图2为本发明实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价方法流程图;

图3为本发明实施例1和实施例2中采用分位数样条回归给OTU赋予的生态权重;

图4为本发明实施例1和实施例2中基于OTUS的分类结果的分布图;

图5为本发明实施例1和实施例2中采用的水质指数与所构建的MEI指数的线性关系;

图6为本发明实施例1和实施例2中采样点河流水生态健康评价结果;

图7为本发明实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价装置结构示意图;

图8为本发明实施例提供一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

针对现有技术中所提及的技术问题,本发明基于无分类的物种来对河流水生态健康进行评价,可以不用研究生物物种的生物属性,对生物学、分类学和环境学没有过高要求学科基础,使得其他行业人员依旧可以凭借环境DNA技术进行河流水生态健康评价,同时也大大简化评价流程,而通过机器学习以及大数据技术,我们可以从数据中分析并预测出更多信息,对于水生态健康评价来说也增加了更多的准确性、可靠性以及真实性。

通过上述描述可知,本发明的目的在于,为了更好的对河流水生态状态进行评价,提供了一种河流水生态健康评价方法,通过机器学习算法和生物模式,在使用环境DNA所测得的物种信息的条件下,利用其中的OTUs信息(包括未注释的物种信息),使用无分类的物种信息,利用无分类简化流程,为每个OUT赋予生态权重,然后采用机器学习算法对OTU对水生态环境的敏感性进行分类分配生态权重,并根据生态权重来构建MEI(Metabarcoding-eDNA Index)指数,最后利用构建好的指数来为河流水生态系统进行评价,从而更简便、更加高效、高分辨率地评价河流水生态的健康评价,具体参见图1和图2所示,图1为本发明实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价方法流程示意图,图2为本发明实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价方法示意图,如图1和图2所示,基于机器学习和环境DNA的河流水生态健康评价方法,包括以下步骤:

步骤110,以预获取的环境DNA为模板,针对细菌和微型真核生物进行扩增条形码片段,并进行测序,基于获取的测序数据确定对应的操作分类单元OTU在采样点的相对丰度和物种注释。

其中,环境DNA是基于预获取的采样点的样品获取的,首先确定研究区域,基于人为干扰的相对强度选择能具有能代表生态特点的区域作为采样点,同时要根据水质情况、富营养化程度、物种丰富、人为影响等作参考。每个采样点要使用容量为1L的无菌瓶来采取三组1L的表层水,同时使用300ml的纯水作为每个采样点的空白组。预处理时,每250-350ml的水要用0.45μm的滤膜进行过滤,对每个过滤后的滤膜都无菌镊子将其单独地放入到5.0ml的冻存管中,每个采样点的空白样使用去离子水并用相同的方式进行过滤作为空白对照,预处理好的样品立刻通过冷链传输送至实验室在-20℃的条件下冷冻保存直至DNA提取。使用保存好的样品进行DNA提取,加入破碎珠并在13000rpm离心8分钟后,提取上清液作为DNA提取的起始剂,所有样品DNA(包括空白对照组)的提取都采用合适的试剂盒并按照制造商说明来提取DNA总量,并将DNA模板按照采样点以及样点顺序进行标号以减少标记错误事件。

然后针对细菌和微型真核生物使用的引物对为Bacterial基因或Eukaryotic基因,即针对细菌和微型真核生物使用如下引物对进行扩增条形码片段:

Bacterial引物对:

Bakt_805R:GACTACHUGGGTATCTAATC

Bakt_341F:CCTACGGGNGGCWGCAG;

或Eukaryotic引物对:

Euka_02R:CACAGACCTGTTATTGC;

Euka_02F:TTTGTCTGSTTAATSCG。

并结合96个Barcode进行聚合酶链式反应(PCR)扩增步骤(1)中所提取的环境DNA,最终的DNA扩增产物放在4℃恒温下保存。配置100ml的2%的琼脂糖凝胶检测扩增产物(PCR/琼脂糖),每组PCR扩增产物在130V、250mA、25分钟的条件下进行凝胶电泳并进行PCR产物的可视化,即查看是否存在目标DNA扩增。最后根据条带清晰度选择使用试剂盒对PCR扩增产物进行DNA纯化。并对纯化后的PCR产物进行高通量测序,通过qiime、vsearch、python等软件平台和编程语言对测序数据进行处理,根据PCR扩增子的不同,选择在Illumina MiSeq PE150平台中对测序模版进行测序,最终每一个PCR库都获得两个.fasta的双端序列文件(R1.fasta and R2.fasta)和一个barcode文件,并使用QIIME工具对原始双端文件进行过滤。首先使用“validate_mapping_file.py”脚本检查map文件是否符合格式,完成第一步后使用vsearch工具的--fastq_mergepairs进行双端序列的归并生成fastq文件并用“fastx_quality_stats”命令查看序列的基本信息。使用“fastx_reverse_complement”命令,输入文件为fastq获取方向互补的序列信息rc.fastq。由vsearch工具得到fastq,使用python脚本“SeqIO.convert()”进行格式转换,每个fastq文件和互补的fastq文件都将转化为一个对应的fasta文件。使用“split libraries.py"脚本,对通过去除重复序列、单体序列等来去除噪声。使用usearch工具的--derep_fulllength去除序列的冗余。通过独特的样本标签对清理后的序列进行排序和区分,然后区别出DNA序列为97%的OTU。对于真菌、微型真核生物和细菌群落,分别使用“align_seqs.py"脚本根据数据库指定每个OTU的分类注释。分类信息和OTUs table使用自己编译的Python脚本进行合并,并计算Eukaryotic OTUs和Bacterial OTUs的相对丰度。因为不同样本间不均匀的测序深度会导致在统计分析中出现偏差,丢弃所有样本中相对丰度小于0.001且检测频率小于10%的OTU,以以清洗出PCR阴性对照中的所有OTU,并得出基于OTU的相对丰度包含所需物种信息的OTUs表,结果文件将作为步骤130的分析基础。

步骤120,根据样品的化学信息,确定多个水质指数。

水质指数包括用于反映人类活动压力梯度的影响的主成分分析(PrincipalComponents Analysis,PCA),用于反映水质的污染等级的Trophic State Index(TSI)及用于反映水环境的富营养状态的Water quality index(WQI),数据采用52个采样点的7种的化学实测指标,包括NH

具体的,采用PCA、WQI及TSI分别进行计算:

(1)针对PCA

通过对采样点水质的化学变量进行了主成分分析(PCA)来构建人类压力源梯度,降低采样点理化数据的维度同时保留更多的原始数据据点,同时将结果作为反映人类活动压力梯度对环境所造成的影响,PC选取规则如下:|r|>0.75作为提取主元得分(PC1和PC2或二者皆可)的标准,最终选取其中符合标准的PC1或PC2作为人类压力源的梯度的描述程度来反映人为干扰的强度。因为数值越大认为人类活动对环境影响越大,所以在PC进行标准化后使PC=PC–1使其与得分结果的方向一致。

(2)针对WQI:

其中,C

(3)针对TSI:

采用描述湖泊营养状态的卡森指数TSI来反映水质的污染等级,使用中国水环境营养状态的TSI计算公式,TSI指数计算:

TSI

TSI

TSI

TSI

TSI

TSI

相关加权营养状态综合指数计算:

其中ρ

使用OTUs信息与PCA、WQI和TSI的结果分别与步骤120中去除物种注释的OTUs相对丰度组成三组数据集用于下一步的计算,数据集包含不同采样点中每个OTUs的相对丰度以及三种水质指数的计算结果。

步骤130,根据相对丰度及多个水质指数,确定每个OTU在每个水质指数下的的第一生态权重,并基于第一生态权重和生态等级划分规则,确定每个OTU的第一生态等级,第一生态等级表示OTU所表示的物种对于环境的敏感程度。

具体的,分别使用步骤120中的三组数据集,将每一组的每个OTU的相对丰度分别绘制为PCA、WQI和TSI的函数,并为第95个百分位数构建分位数回归样条模型,使用来自Eukaryotic或Bacterial得到的OTUs的相对丰度,以及分别计算出的PCA、WQI以及TSI分数来构建和拟合95分位数的回归样条模型,Tau=0.95表示95%序列的期望值,使用一条垂直于x轴的垂线表示沿x轴预测的最大丰度的点,以此点的自变量作为此OTUs的生态权重,并与三种水质指数绘图。

步骤140,根据多个水质指数、每个OTU的相对丰度、第一生态权重和第一生态等级,利用机器学习算法,确定每个OTU的第二生态权重,并根据生态等级划分规则,划分第二生态权重对应的第二生态等级。

具体的,步骤140通过以下两个步骤实现:

(1)将OTU的相对丰度分别与每个水质指数组成数据集,利用每个OUT在每个水质指数下的第一生态权重及对应的第一生态等级作为分类结果,将每组数据集采用至少两种机器学习算法进行预测,获得每个OUT在每个水质指数下的第一分类预测结果,将第一分类预测结果与分类结果对比,将准确率最高的机器学习算法作为预测算法;

(2)基于数据集和预测算法,确定每个OTU的第二生态权重,并根据第二生态权重确定对应的第二生态等级。

即,利用步骤130计算出来的三组数据作为分类结果,其中每组数据集OTU的相对丰度以及水质参数作为该组数据集的特征。将每组数据集在拟采用的机器学习算法下进行交叉验证,其中算法选择包括但不限于:随机森林(RF)、KNN、AdaBoost等监督多分类算法,最终选择高准确率的算法作为最终预测算法进行进一步分类。对于每组数据集的分类结果,我们采用如果当前分类后的OTU的类别出现频率大于0.5,则此OTU可以被视为在此类别,来赋予每个OTU生态权重。最后以计算出分别由PCA、WQI、TSI所计算出的OTUs的生态权重并根据生态权重来划分生态等级,不同生态等级表示不同生物群落的OTUs所表示的物种对于环境变化的敏感程度。生态等级划分规则详见下表1。

表1生态等级划分规则

由表1所示,根据赋予的生态权重所划分的生态等级,采用分位数计算不同生态等级方式,其中,生态权重大于大于80%分位数的OTUs为生态等级I,生态权重处于60%-80%分位数的OTUs为生态等级II,生态权重处于40%-60%分位数的OTUs为生态等级III,生态权重处于20%-40%分位数的OTUs为生态等级IV,生态权重小于20%分位数的OTUs为生态等级V。

步骤150,根据第二生态等级中OTU对应的相对丰度和生物指数模型,确定采样点的生物指数,并根据生物指数,确定采样点的河流水生态健康等级。

具体的,对于每个采样点,采用一种新构建的Metabarcoding-eDNA Index(MEI)指数计算最后的采样点的得分,用以确定采样点的河流水生态健康等级。构建的生物指数模型为:

MEI=(0×%Level-I)+(1.5×%Level-II)+(3×%Level-III)+(5×%Level-IV)+(12×%Level-V)

其中,%Level-I为生态等级处于I类的OTU的相对丰度,%Level-II为生态等级处于II类的OTU的相对丰度,%Level-III为生态等级处于III类的OTU的相对丰度,%Level-IV为生态等级处于IV类的OTU的相对丰度,%Level-V为生态等级处于V类的OTU的相对丰度。

所得MEI结果的0.8分位数作为I类,0.6分位数作为II类,0.4分位数为III类,0.2分位数为IV类,其余为V类,换一种表述为:

生物指数大于0.8分位数的健康等级为I类:优;

生物指数处于0.6-0.8分位数的健康等级为II类:良好;

生物指数处于0.4-.06分位数的健康等级为III类:中等;

生物指数处于0.2-0.4分位数的健康等级为IV类:差;

生物指数低于0.2分位数的健康等级为V类:非常差。

本发明施例提供的一种基于机器学习和环境DNA的河流水生态健康评价方法,以预获取的环境DNA为模板,针对细菌和微型真核生物进行扩增条形码片段,并进行测序,基于获取的测序数据确定对应的操作分类单元OTU在采样点的相对丰度和物种注释;根据样品的化学信息,确定多个水质指数;根据相对丰度及多个水质指数,确定每个OTU在每个水质指数下的的第一生态权重,并基于第一生态权重和生态等级划分规则,确定每个OTU的第一生态等级,第一生态等级表示OTU所表示的物种对于环境的敏感程度;根据多个水质指数、每个OTU的相对丰度、第一生态权重和第一生态等级,利用机器学习算法,确定每个OTU的第二生态权重,并根据生态等级划分规则,划分第二生态权重对应的第二生态等级;根据第二生态等级中OTU对应的相对丰度和生物指数模型,确定采样点的生物指数,并根据生物指数,确定采样点的河流水生态健康等级。通过该方式,对水生态健康评价增加了准确性、可靠性及真实性。

以上,为本申请所提供的基于机器学习和环境DNA的河流水生态健康评价方法实施例,下文中则根据上述介绍的基于机器学习和环境DNA的河流水生态健康评价进行具体的举例说明,详见下面的实施例1和实施例2:

实施例1

本实施例1样本采集自广东省东江流域选取的52个采样点,以下分步骤对实施方法进行具体介绍:

(1)样品采集和环境DNA的提取

研究区域基于人为干扰的相对强度,选取在东江流域的52个采样点,每个采样点要使用容量为1L的无菌瓶(Thermo Fisher Scientific)来采取三组1L的表层水,同时使用300ml的纯水作为每个采样点的空白组。预处理时,每250-350ml的水要用0.45μm的滤膜进行过滤,对每个过滤后的滤膜都将单独地放入到5.0ml的冻存管中,每个采样点的空白样使用去离子水并用相同的方式进行过滤,预处理好的样品立刻通过冷链传输送至实验室在-20℃的条件下冷冻保存直至DNA提取。使用保存好的样品进行DNA提取,加入破碎珠并在13000rpm离心8分钟后,提取上清液作为DNA提取的起始剂,所有样品DNA(包括空白对照组)的提取都采用DNeasy PowerWater试剂盒(QIAGEN德国)。

(2)DNA条形码片段扩增和高通量测序与分析

使用引物对(Bakt_805R:GACTACHUGGGTATCTAATCC;Bakt_341F:CCTACGGGNGGCWGCAG;)扩增步骤(1)中的环境DNA(水样),经过多次预实验,对于每个DNA的样品我们采用20反应体系,每组PCR混合物由2μl提取的DNA,10μl2Taq Plus Master MixII聚合酶,6μl的DEPC缓冲液、1μl上游引物和1μl的下游引物组成。PCR Bacterial的反应条件通过95℃的条件下预变性3分钟,然后95℃的条件下进行15s的变性、64℃条件下进行20s的退火和72℃条件下进行30s的延伸并进行35次循坏来启动,最终的DNA扩增产物放在4℃恒温下保存。对PCR产物进行高通量测序,通过qiime、vsearch、python等软件平台和编程语言对测序数据进行处理,最终获得每个样本对应的已经注释的OTU数据集。

(3)计算三种水质指数

采用PCA算法将结果作为反映人类活动压力梯度对环境所造成的影响,PC选取规则如下:|r|>0.75作为提取主元得分(PC)的标准,最终选取其中符合标准的PC(PC1)作为人类压力源的梯度的描述程度来反映人为干扰的强度。因为数值越大反应了认为环境影响越大,所以在PC进行标准化后使PC=PC–1使其与得分结果的方向一致,最终选取其中符合标准的PC作为人类压力源的梯度的描述程度来反映人为干扰的强度。

采用水质指数WQI来反映水环境的富营养状态,使用每个采样点水质的化学指标计算每个点的WQI指数。

WQI指数计算公式,

采用描述湖泊营养状态的卡森指数TSI来反映水质的污染等级,使用每个采样点水质的化学指标计算每个点的TSI指数。

TSI指数计算公式:

TSI

TSI

TSI

TSI

TSI

TSI

相关加权营养状态综合指数计算:

最后使用OTU信息三种指数结果分别构建三组数据集,并用于下一步的计算。

(4)OTU的生态权重和生态等级

将OTU的丰度分别绘制为PC、WQI和TSI的函数,并为第95个百分位数构建分位数回归样条模型,得出回归样条曲线并对其进行了拟合,并使用一条垂直于x轴的垂线表示沿x轴预测的最大丰度的点,实施例1的具体参数选择为degree=3、df=5、tau=0.95。最后对OTU进行分级来赋予每一个OTU一个生态权重,确定每一个OTU属于第几分类并将每组结果分别与OTU信息组合作为一组单独的数据集,详见图3,并得出不同的生物群落在不同水质指数下的依据生态权重所划分生态等级分类分布,详见图4。

(5)选择机器学习算法对OTU分类

提供计算好的三种指数,并基于步骤(2)所得构建每个OTU的属性信息,根据步骤(4)的分类信息将相应OTU进行分类,然后将数据作为特征输入,构建OTU数据集。然后采取随机森林、KNN等算法对目标对象进行预测来得到不同指数的分类预测结果,并对比各个算法准确率选择最优预测结果。

(6)Bact-MEI指数的构建和计算:

根据模型来计算基于OTU相对丰度的Bact-MEI值:

MEI=((0×%Level-I)+(1.5×%Level-II)+(3×%Level-III)+(5×%Level-IV)+(12×%Level-V)

基于所得出的指数进行分级,最终结果同为I,II,III,IV,V五个等级,分别对应优、良好、中等、差和非常差。

(7)Bact-MEI指数对河流水生态评价结果的可靠性

(a)利用OTU采用生物评价结果的一致性

根据构建的东江流域的生物完整性评价体系,计算各个采样点的值并得出评价结果与水质指数和Bact-MEI指数的相关性见表2。

表2东江流域Bact-MEI指数与其余评价结果的Pearson相关性

(b)水质指数评价结果的一致性

本方法基于环境DNA宏条形码和机器学习所构建的Bact-MEI指数与水质指数有显著的相关性,详见图5,图a-c横坐标分别表示三种水质指数,纵坐标表示的是构建的MEI指数(横、纵坐标表示的都是原计算结果并未进行归一化)两条线条分别为微型真核生物和细菌,图片上侧分别为微型真核生物和细菌的回归方程以及r

(c)东江流域的河流水生态健康评价结果

最终根据MEI指数划分出东江流域内不同采样点的健康等级分布,分为:优、良好、中等、差和非常差,详见图6。

实施例2

本实施例2样本采集自广东省东江流域选取的52个采样点,以下分步骤对实施方法进行具体介绍。

(1)样品采集和环境DNA的提取

研究区域基于人为干扰的相对强度,选取在东江流域的52个采样点,每个采样点要使用容量为1L的无菌瓶(Thermo Fisher Scientific)来采取三组1L的表层水,同时使用300ml的纯水作为每个采样点的空白组。预处理时,每250-350ml的水要用0.45μm的滤膜进行过滤,对每个过滤后的滤膜都将单独地放入到5.0ml的冻存管中,每个采样点的空白样使用去离子水并用相同的方式进行过滤,预处理好的样品立刻通过冷链传输送至实验室在-20℃的条件下冷冻保存直至DNA提取。使用保存好的样品进行DNA提取,加入破碎珠并在13000rpm离心8分钟后,提取上清液作为DNA提取的起始剂,所有样品DNA(包括空白对照组)的提取都采用DNeasy PowerWater试剂盒(QIAGEN德国)。

(2)DNA条形码片段扩增和高通测序与分析

使用Euka引物对(Euka02R:CACAGACCTGTTATTGC;Euka_02F:TTTGTCTGSTTAATSCG;)扩增步骤(2)中的环境DNA(水样),PCR_Eukaryotic的反应条件通过95℃的条件下预变性3分钟,然后95℃的条件下进行15s的变性、53℃条件下进行20s的退火和72℃条件下进行10s的延伸并进行35次循环来启动,并对PCR产物进行高通量测序,通过qiime、vsearch、python等软件平台和编程语言对测序数据进行处理,最终获得每个样本对应的OTU信息并对每一个OTU进行物种注释。

(3)计算三种水质指数

用PCA算法将结果作为反映人类活动压力梯度对环境所造成的影响,PC选取规则如下:|r|>0.75作为提取主元得分(PC)的标准,最终选取其中符合标准的PC(PC1)作为人类压力源的梯度的描述程度来反映人为干扰的强度。因为数值越大反应了认为环境影响越大,所以在PC进行标准化后使PC=PC–1使其与得分结果的方向一致。

采用水质指数WQI来反映水环境的富营养状态,使用每个采样点水质的化学指标计算每个点的WQI指数。

WQI指数计算公式:

采用描述湖泊营养状态的卡森指数TSI来反映水质的污染等级,使用每个采样点水质的化学指标计算每个点的TSI指数。

TSI指数计算公式:

TSI

TSI

TSI

TSI

TSI

TSI

相关加权营养状态综合指数计算:

最后使用OTU信息三种指数结果分别构成三组数据集。

(4)OTU的生态权重和生态等级

将OTU的丰度分别绘制为PC、WQI和TSI的函数,并为第95个百分位数构建分位数回归样条模型,得出回归样条曲线并对其进行了拟合,并使用一条垂直于x轴的垂线表示沿x轴预测的最大丰度的点,实施例1的具体参数选择为degree=3、df=5、tau=0.95。最后对OTU进行分级来赋予每一个OTU一个生态权重,确定每一个OTU属于第几分类并将每组结果分别与OTU信息组合作为一组单独的数据集,详见图3,并得出不同的生物群落在不同水质指数下的依据生态权重所划分生态等级分类分布,详见图4。

(5)选择使用机器学习算法并对OTU分类

提供计算好的三种指数,并基于步骤(2)所得构建每个OTU的属性信息,根据步骤(4)的分类信息将相应OTU进行分类,然后将数据作为特征输入,构建OTU数据集。然后采取随机森林、KNN等算法对目标对象进行预测来得到不同指数的分类预测结果,并对比各个算法准确率选择最优预测结果。

(6)Euka-MEI指数的构建和计算

根据模型来计算基于OTU相对丰度的Euka-MEI值

MEI=((0×%Level-I)+(1.5×%Level-II)+(3×%Level-III)+(5×%Level-IV)+(12×%Level-V)

基于所得出的指数进行分级,最终结果同为I,II,III,IV,V五个等级,分别对应优、良好、中等、差和非常差。

(7)Euka-MEI指数对河流水生态评价结果的可靠性

(a)利用OTU采用生物评价结果的一致性

根据构建的东江流域的生物完整性评价体系,计算各个采样点的值并得出评价结果与水质指数和Euka-MEI指数的相关性见表3。

表3东江流域Euka-MEI指数与其余评价结果的相关性

(b)评价结果的一致性

本方法基于环境DNA宏条形码和机器学习所构建的Euka-MEI指数与水质指数有显著的相关性,详见图5,横坐标分别表示三种水质指数,纵坐标表示的是构建的MEI指数(横、纵坐标表示的都是原计算结果并未进行归一化),两个线条分别为微型真核生物和细菌,图片上侧分别为微型真核生物和细菌的回归方程以及R

(c)东江流域的河流水生态健康评价结果

最终根据MEI指数划分出东江流域内不同采样点的健康等级分布,分为:优、良好、中等、差和非常差,详见图6。

与现有技术相比,本申请技术方案的具有的优点及带来的有益效果:

(1)对比于过去的基于eDNA的评价方法,将采样点的OTU信息作为特征,根据输入特征将OTU进行分类,利用了包括未识别注释物种的OTU信息,具有更高的灵敏度且有效的提高了数据的利用率;

(2)对比于过去的基于eDNA的评价方法更具有时效性,可利用数据库中过去的数据进行模型训练,形成最优的模型构建,来对现有的数据进行预测分析,实现对数据的合理分配和有效利用。

(3)对比于过去的基于eDNA的评价方法更为简便。采用分类学把生物物种进行分类,利用生物物种进行环境评价需要较高的生物学和分类学基础,同时由于环境DNA技术所检测出的物种数量更多,对于基于生物物种进行环境评价的传统方法更为复杂和困难,而基于无分类的物种的本发明可以不用研究生物物种的生物属性,对生物学、分类学和环境学没有过高要求学科基础,使其他方向的研究人员依旧可以凭借环境DNA技术来进行河流水生态健康评价,同时也大大简化的评价流程。

下面介绍说明本申请所提供的基于机器学习和环境DNA的河流水生态健康评价的其他实施例,具体参见如下。

图7为本发明实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价装置结构示意图,该装置包括:物种丰度模块701、水质指数模块702、处理模块703、机器学习模块704和健康等级模块705。

物种丰度模块701,用于以预获取的环境DNA为模板,针对细菌和微型真核生物进行扩增条形码片段,并进行测序,基于获取的测序数据确定对应的操作分类单元OTU在采样点的相对丰度和物种注释;

水质指数模块702,用于根据样品的化学信息,确定多个水质指数;

处理模块703,用于根据相对丰度及多个水质指数,确定每个OTU在每个水质指数下的的第一生态权重,并基于第一生态权重和生态等级划分规则,确定每个OTU的第一生态等级,第一生态等级表示OTU所表示的物种对于环境的敏感程度;

机器学习模块704,用于根据多个水质指数、每个OTU的相对丰度、第一生态权重和第一生态等级,利用机器学习算法,确定每个OTU的第二生态权重,并根据生态等级划分规则,划分第二生态权重对应的第二生态等级;

健康等级模块705,用于根据第二生态等级中OTU对应的相对丰度和生物指数模型,确定采样点的生物指数,并根据生物指数,确定采样点的河流水生态健康等级。

在一个示例中,机器学习模块704具体用于:

将OTU的相对丰度分别与每个水质指数组成数据集,利用每个OUT在每个水质指数下的第一生态权重及对应的第一生态等级作为分类结果,将每组数据集采用至少两种机器学习算法进行预测,获得每个OUT在每个水质指数下的第一分类预测结果,将第一分类预测结果与分类结果对比,将准确率最高的机器学习算法作为预测算法;

基于数据集和预测算法,确定每个OTU的第二生态权重,并根据第二生态权重确定对应的第二生态等级。

优选地,生态等级划分规则为:

生态权重大于80%分位数的OTU为生态等级I;

生态权重处于60%-80%分位数的OTU为生态等级II;

生态权重处于40%-60%分位数的OTU为生态等级III;

生态权重处于20%-40%分位数的OTU为生态等级IV;

生态权重小于20%分位数的OTU为生态等级V。

优选地,生物指数模型为:

MEI=(0×%Level-I)+(1.5×%Level-II)+(3×%Level-III)+(5×%Level-IV)

+(12×%Level-V)

其中,%Level-I为生态等级处于I类的OTU的相对丰度,%Level-II为生态等级处于II类的OTU的相对丰度,%Level-III为生态等级处于III类的OTU的相对丰度,%Level-IV为生态等级处于IV类的OTU的相对丰度,%Level-V为生态等级处于V类的OTU的相对丰度。

优选地,根据生物指数,确定采样点的河流水生态健康等级,具体为:

生物指数大于0.8分位数的健康等级为I类:优;

生物指数处于0.6-0.8分位数的健康等级为II类:良好;

生物指数处于0.4-.06分位数的健康等级为III类:中等;

生物指数处于0.2-0.4分位数的健康等级为IV类:差;

生物指数低于0.2分位数的健康等级为V类:非常差。

本发明实施例提供的河流水生态健康评价装置中各部件所执行的功能均已在上述任一方法实施例中做了详细的描述,因此这里不再赘述。

本发明实施例提供的一种基于机器学习和环境DNA的河流水生态健康评价装置,以预获取的环境DNA为模板,针对细菌和微型真核生物进行扩增条形码片段,并进行测序,基于获取的测序数据确定对应的操作分类单元OTU在采样点的相对丰度和物种注释;根据样品的化学信息,确定多个水质指数;根据相对丰度及多个水质指数,确定每个OTU在每个水质指数下的的第一生态权重,并基于第一生态权重和生态等级划分规则,确定每个OTU的第一生态等级,第一生态等级表示OTU所表示的物种对于环境的敏感程度;根据多个水质指数、每个OTU的相对丰度、第一生态权重和第一生态等级,利用机器学习算法,确定每个OTU的第二生态权重,并根据生态等级划分规则,划分第二生态权重对应的第二生态等级;根据第二生态等级中OTU对应的相对丰度和生物指数模型,确定采样点的生物指数,并根据生物指数,确定采样点的河流水生态健康等级。通过该方式,对水生态健康评价增加了准确性、可靠性及真实性。

如图8所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信。

存储器113,用于存放计算机程序;

在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的基于机器学习和环境DNA的河流水生态健康评价方法。

本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述任意一个方法实施例提供的基于机器学习和环境DNA的河流水生态健康评价方法的步骤。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术分类

06120115925076