掌桥专利:专业的专利平台
掌桥专利
首页

通过积分参数迭代改进峰积分

文献发布时间:2024-04-18 19:58:30


通过积分参数迭代改进峰积分

相关申请的交叉引用

本申请于2022年5月4日提交,作为PCT国际专利申请,要求于2021年5月5日提交的美国临时申请No.63/184,665的优先权和权益,该申请在此通过引用并入本文。

背景技术

质谱法(MS)是一种基于分析化合物形成的离子的m/z值来检测和定量化合物的分析技术。MS涉及从样本中电离一种或多种关注的化合物,产生前体离子,以及对前体离子进行质量分析。串联质谱法或质谱/质谱法(MS/MS)涉及从样本中电离一种或多种关注的化合物、选择一种或多种化合物的一种或多种前体离子、将一种或多种前体离子碎裂成产物离子,以及对产物离子进行质量分析。

质谱仪通常与色谱或其它分离系统耦合,以便识别和表征从样本中洗脱的关注的化合物。在这样的耦合系统中,洗脱溶剂中的化合物被电离,并在指定的时间间隔获得一系列质谱。这些时间范围例如从1秒至100分钟或更长。从一系列质谱得出的强度值形成色谱图。例如,所有强度的总和生成总离子色谱图(TIC),并且一个质量值的强度生成提取的离子色谱图(XIC)。

无论是否使用色谱系统,都会生成表示质谱法系统计数的离子的信号或数据系列。离子信号或离子数据系列形成一系列峰。在离子数据系列中发现的峰可以用于量化样本内特定质荷比的分析物的量。例如,色谱图中发现的峰用于识别或表征样本中的已知肽或化合物,因为它们在称为保留时间的已知时间洗脱。更特别地,峰的保留时间和/或峰面积用于识别或表征(定量)样本中的已知肽或化合物。

在传统的分离耦合质谱法系统中,选择已知化合物的前体离子进行分析。然后,在每个分离间隔针对包含前体离子的质量范围执行MS/MS扫描。每次MS/MS扫描中发现的产物离子的强度随着时间的推移而被收集,并作为例如谱集合或XIC进行分析。MS和MS/MS都可以提供定性和定量信息。

测量的前体或产物离子谱可以用于识别关注的分子。前体离子和产物离子的强度也可以用于定量样本中存在的化合物的量。

如上所述,质谱仪通常与分离系统或设备耦合,以便识别和表征从样本中洗脱的关注的化合物。此类分离设备可以包括但不限于液相色谱(LC)设备、气相色谱设备、毛细管电泳设备或离子迁移设备。LC设备通常与质谱仪结合使用,以量化样本中关注的化合物的量。

发明内容

在一方面,该技术涉及一种用于改进质谱法系统测量的方法。该方法包括:针对从由质谱法系统的检测器检测到的离子生成的离子计数率访问离子数据系列;生成离子数据系列中的目标峰的预期峰积分的集合,其中预期峰积分的所述集合中的每个预期峰积分是基于峰积分参数的不同的集合生成的,并且每个预期峰积分由至少一个峰特性来表征;提供预期峰积分的所述集合中的每个预期峰积分的所述至少一个峰特性作为向经训练的机器学习模型的输入;由经训练的机器学习模型处理所提供的输入,以从经训练的机器学习模型生成输出;基于输出,生成预期峰积分中的一个或多个预期峰积分的排名;以及基于预期峰积分中的一个,生成由目标峰表示的离子量。

在示例中,该方法还包括使得基于排名来显示预期峰积分中的一个或多个预期峰积分;接收对所显示的预期峰积分中的一个的选择;并且其中生成离子量是基于所选择的预期峰积分。在另一个示例中,峰积分参数包括平滑参数、预计时间参数、过滤参数、基线参数或峰分割参数中的至少一个。在又一个示例中,所述至少峰特性包括以下各项中的至少一个:积分面积、峰高度、峰开始时间、峰结束时间、中心时间、峰宽度和峰平滑度。在又一个示例中,预期峰积分的所述集合中的每个预期峰积分包括至少一个相应的峰质量度量,并且相应的峰质量度量也被包括作为向经训练的机器学习模型中的输入。在又一个示例中,峰积分参数中的一个或多个峰积分参数也被包括作为向经训练的机器学习模型的输入。

在另一个示例中,预期峰积分的所述集合包括至少50个预期峰积分。在又一个示例中,经训练的机器学习模型是神经网络、支持向量机、K最近邻算法、隐马尔可夫模型或随机森林中的一种。在又一个示例中,离子数据系列是色谱图的一部分。在又一个示例中,数据系列内的数据点指示离子计数率和采样间隔时间。

在另一方面,该技术涉及一种用于改进质谱法系统测量的系统。该系统包括至少一个处理器;以及存储指令的存储器,所述指令在由至少一个处理器执行时,使系统执行操作。操作包括:针对从由质谱法系统的检测器检测到的离子生成的离子计数率访问离子数据系列;生成离子数据系列中的目标峰的预期峰积分的集合,其中预期峰积分的所述集合中的每个预期峰积分是基于峰积分参数的不同的集合生成的,并且每个预期峰积分由至少一个峰特性来表征;提供预期峰积分的所述集合中的每个预期峰积分的所述至少一个峰特性作为向经训练的机器学习模型的输入;由经训练的机器学习模型处理所提供的输入,以从经训练的机器学习模型生成输出;基于输出,生成预期峰积分中的一个或多个预期峰积分的排名;以及基于预期峰积分中的一个,生成由目标峰表示的离子量。

在示例中,该系统还包括显示器和输入设备,并且操作还包括在显示器上显示基于排名的预期峰积分;经由输入设备接收所显示的预期峰积分中的一个;并且其中生成离子量是基于所选择的预期峰积分。在又一个示例中,峰积分参数包括平滑参数、预计时间参数、过滤参数、基线参数或峰分割参数中的至少一个。在另一个示例中,所述至少一个峰特性包括以下各项中的至少两个:积分面积、峰高度、峰开始时间、峰结束时间、中心时间、峰宽度和峰平滑度。在又一个示例中,预期峰积分的所述集合中的每个预期峰积分包括至少一个相应的峰质量度量,并且相应的峰质量度量也被包括作为向经训练的机器学习模型中的输入。

在另一方面,该技术涉及一种用于改进质谱法系统测量的方法。该方法包括:针对从由质谱法系统的检测器检测到的离子生成的离子计数率访问离子数据系列;根据第一峰积分参数,生成离子数据系列中识别出的峰的第一预期峰积分,其中第一预期峰积分由第一峰特性来表征;根据第二峰积分参数,生成离子数据系列中识别出的峰的第二预期峰积分,其中第二预期峰积分由第二峰特性来表征;提供第一峰特性;和第二峰特性作为经训练的机器学习模型的输入;由经训练的机器学习模型处理所提供的输入,以从经训练的机器学习模型生成输出;基于输出,生成第一预期峰积分和第二预期峰积分的排名;以及基于第一预期峰积分或第二预期峰积分中的至少一个,生成由峰表示的离子量。

在示例中,该方法还包括使得基于排名来显示第一预期峰积分或第二预期峰积分中的至少一个;接收对第一预期峰积分或第二预期峰积分中的一个的选择;并且其中生成离子量是基于所选择的预期峰积分。在另一个示例中,峰积分参数包括平滑参数、预计时间参数、过滤参数、基线参数或峰分割参数中的至少一个。在又一个示例中,峰特性包括以下各项中的至少两个:积分面积、峰高度、峰开始时间、峰结束时间、中心时间、峰宽度和峰平滑度。在又一个示例中,经训练的机器学习模型是神经网络、支持向量机、K最近邻算法、隐马尔可夫模型或随机森林中的一个。在又一个示例中,第一预期峰积分具有第一峰质量度量,第二预期峰积分具有第二峰质量度量,并且向经训练的机器学习模型的输入还包括第一峰质量度量和第二峰质量度量。

另一方面,本技术涉及一种用于改进质谱法系统测量的方法。该方法包括针对从由质谱法系统的检测器检测到的离子生成的离子计数率访问离子数据系列;识别与具有已知分析物浓度的样本对应的峰;对于每个识别出的峰,对离子数据系列中所识别出的峰生成预期峰积分的集合,其中预期峰积分中的每个预期峰积分是根据不同的峰积分参数生成的;对于所生成的预期峰积分的各个集合的多个组合,将曲线拟合到相应组合中的预期峰积分;基于曲线拟合或相应拟合曲线的准确度分数中的至少一个来识别所生成的预期峰积分的子集;以及基于识别出的预期峰积分子集中的预期峰积分中的一个的峰积分参数,生成具有未知浓度的样本的离子量。

在示例中,每个预期峰积分由峰特性来表征。在另一个示例中,该方法还包括提供预期峰积分的子集的峰特性作为向经训练的机器学习模型的输入;由经训练的机器学习模型处理所提供的输入,以从经训练的机器学习模型生成输出;以及基于输出,生成预期峰积分的子集中的一个或多个预期峰积分的排名。在又一个示例中,该方法还包括使得基于排名来显示预期峰积分的子集中的一个或多个预期峰积分;接收所显示的预期峰积分中的一个的选择;并且其中生成离子量是基于所选择的预期峰积分。

提供本发明内容是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容并不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。示例的附加方面、特征和/或优点将部分地在随后的描述中阐述,并且部分地将从描述中显而易见,或者可以通过本公开的实践来了解。

附图说明

参考以下附图描述非限制性和非穷举性示例。

图1描绘了用于执行质谱法的示例系统。

图2是示例用户界面,示出了由寻峰算法用于积分峰的寻峰或峰积分参数。

图3描绘了解释峰积分参数的使用的示例色谱图。

图4描绘了解释另一个峰积分参数的使用的另一个色谱图。

图5描绘了解释另一个峰积分参数的使用的色谱图的一部分。

图6描绘了从积分参数的三个不同的集合生成的三个示例预期峰积分。

图7描绘了使用经训练的机器学习(ML)模型预测顶部预期峰积分的示例系统。

图8A描绘了使用不同预期峰积分的标准化结果的示例图。

图8B描绘了将图8A的图组合成单个图。

图9描述了改进质谱法测量的示例方法。

图10描绘了用于改进质谱法测量的另一种示例方法。

具体实施方式

如上面简要讨论的,质谱法系统的输出可以是具有表示离子计数的数据点的离子数据系列。离子数据系列可以以多种方式表示,其中之一是使用色谱设备的示例中的色谱图。色谱图本质上是作为时间的函数的离子计数或强度的集合。色谱图通常用于确定样本中存在的特定化合物的数量。为了量化或定量化合物,对色谱图中的前体离子或产物离子峰进行积分。峰积分通常是指找到色谱图中峰下方的面积。峰积分的准确性对于结果量化的最终准确性是重要的。峰积分可以基于一组可变的参数,并且一组参数可以包括比另一组参数更准确的峰积分。但是,识别和选择用于峰积分的正确或最佳的一组参数仍然是一个问题和挑战。在一些情况下,该处理手动执行,从而导致大量时间消耗以及结果的不一致和主观性。关于峰积分问题的附加讨论在国际公布号WO 2020/250158中提供,该文献通过引用整体并入本文。

本技术通过自动确定最佳的一组或多组峰积分参数来帮助解决峰积分问题,这最终可以导致改进的、更准确的和更一致的质谱法系统。例如,本技术通过改变或迭代不同的峰积分参数来生成预期峰积分的各个集合。预期峰积分可以通过峰特性来定义,诸如积分面积、峰高、峰开始时间、峰结束时间、中心时间、峰宽和峰平滑度。预期峰积分还可以具有指示预期峰积分的潜在质量或准确性的相关联峰质量度量。峰积分参数、峰特性和/或峰质量度量中的一个或多个可以被提供作为向经训练的机器学习模型中的输入。经训练的机器学习模型然后处理输入以生成指示顶部集合预期峰积分的输出。在一些示例中,可以将预期峰积分的顶部集合呈现给用户以选择一个或多个预期峰积分来分析样本。在其它示例中,本技术可以自动使用排名顶部的预期峰积分来分析样本。

图1描绘了用于执行质谱法技术的示例质量分析系统100。示例性系统100可以包括一个或多个分离设备102,其分离样本,使得当样本穿过分离设备102或从分离设备102洗脱时可以分析样本的不同分析物。例如,系统100可以包括液相色谱(LC)设备和/或差动迁移分离(DMS)设备106。LC设备可以包括两个单独的设备,诸如高性能液相色谱(HPLC)设备和直接输注或注射设备。在HPLC设备中,使用阀门选择两种溶剂之一。使用泵将溶剂移至阀门。使用混合器将样本与所选择的溶剂混合,并将所得混合物送入液相色谱(LC)柱。在直接输注或注射设备中,样本可能已经与流体泵中的溶剂混合。

也可以使用其它类型的分离设备102,诸如气相色谱设备或毛细管电泳设备等。代替分离设备102或作为分离设备102的附加,系统100可以包括喷射设备108。喷射设备可以是声学喷射设备,其从样本中声学地喷射液滴以用于分析。

分离设备102和/或喷射设备108将样本的一部分引入到可以是质谱仪的一系列质谱仪元件110中。例如,质谱仪可以是任何类型的质谱仪,包括四极质谱仪、四极或三重四极杆(QqQ)、离子阱、轨道阱、飞行时间(TOF)质谱仪或傅里叶变换(FT)质谱仪。质谱仪或质谱仪元件110还可以包括电离设备,用于电离样本的部分以生成通过质谱仪的质量分析部件加速的离子。

系统100包括可以是质谱仪的一部分的检测器。检测器可以包括电子倍增器检测器,其可以包括模数转换(ADC)电路系统或图像电荷检测器。ADC检测器检测离子对检测器的冲击,以生成离子计数或强度。图像检测器(图像电荷检测器)检测质量分析器中的离子的振荡以生成离子的计数或强度。

检测器的输出被提供给计算系统114,计算系统114可以在质谱仪外部或者并入到质谱仪中。一般而言,计算系统114与检测器112电子通信,使得计算元件能够接收从检测器112生成的信号。计算系统包括至少一个处理器和存储器,两者均为硬件设备。处理器可以包括多个处理器(和/或处理核心)并且可以包括用于处理信号并生成本文所讨论的结果的任何类型的合适的处理部件。取决于确切的配置,存储器(存储,尤其是,质量分析程序和执行本文公开的操作的指令等)可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等),或两者的某种组合。其它计算元件也可以被包括在计算系统114中。例如,计算系统114可以包括存储设备(可移动和/或不可移动),包括但不限于固态设备、磁盘或光盘、或带。计算系统114还可以具有诸如触摸屏、键盘、鼠标、笔、语音输入等的(一个或多个)输入设备和/或诸如显示器、扬声器、打印机等的(一个或多个)输出设备。一个或多个通信连接,诸如局域网(LAN)、广域网(WAN)、点对点、蓝牙、RF等,也可以并入到计算系统114中。

图2是示例用户界面200,示出了用于积分峰的示例峰查找算法使用的示例峰查找或峰积分参数。例如,用户界面200可以由SCIEX的峰查找算法之一生成。用户界面200允许用户改变参数以积分或再积分特定峰。

本技术中使用的峰积分参数可以包括用户界面200中列出的一个或多个参数。例如,本技术可以确定产生最佳或最准确峰积分的一个或多个积分参数。峰积分参数可以包括诸如平滑参数、预计时间参数、过滤参数、基线参数和/或峰分割参数之类的参数。界面200中列出的积分参数是此类积分参数的具体非限制性示例,并且包括高斯平滑宽度、预计保留时间(RT)、RT半窗、最小峰宽度、最小峰高度、噪声百分比、基线减法窗口和峰分割。虽然只有底部三个被标记为“积分参数”,但所有列出的参数都可能对离子数据系列中峰的最终积分产生影响。

下面提供图3-5,以便于讨论色谱图中离子数据系列的示例峰查找和积分算法,该算法使用基线减法窗口(以分钟为单位)、噪声百分比和峰分割因子的参数。应该认识到的是,下面讨论的示例峰查找算法是峰查找算法的一个示例,但是可以利用其它参数或参数类型的其它峰查找算法也是可用的。

图3描绘了解释基线减法窗口参数的使用的示例色谱图300。色谱图300包括离子数据系列或离子信号302。峰积分算法中的第一步是将基线减法过滤器应用于色谱图300中的离子信号302。该过滤器用其基线减去值替换每个数据点,其中基线310被确定为将当前点308左侧上具有最小强度(在左基线减法窗口304内)的数据点312连接到在右侧具有最小强度(在右基线减法窗口306内)的数据点314的线。基线减法窗口参数确定窗口304、306的宽度。新强度316基于基线310上方的剩余离子信号302。注意的是,可以使用不同的基线310用于离子信号302中的每个数据点。

该算法的下一步是确定噪声水平。通过计算最小“噪声百分比”基线减去数据点的标准偏差来估计噪声水平。例如,噪声百分比参数的值可以是50%,计算强度最低的一半数据点的标准偏差(因此,如果有100个点,那么使用强度最低的50个)。然后将峰查找阈值设置为这些数据点的平均值加上其标准偏差的两倍。

该算法的下一步是识别峰“簇”。图4描绘了具有离子信号402和簇边界框404的另一个色谱图400。簇边界框404识别不同的峰簇,并且在示例色谱图400中,识别了七个峰簇。通过定位基线减去数据中强度高于上面计算的峰查找阈值的所有地方来找到峰簇的起点。簇的终点是强度低于该阈值的位置。为了保留簇以供进一步分析,它必须是如在最小峰宽参数中设置的数据点宽度数。

此时,在算法中,分析可以恢复到原始数据(即,在基线减法之前)。图5描绘了具有离子信号502的色谱图500的一部分。然后,通过将垂直线从簇内的某局部最小值506下降到基线,将各个簇划分成一个或多个单独的峰。局部最小值506是每侧上的连续上升点的数量超过或等于峰分割参数的指定值的那些最小值。将此参数设置得大防止了簇分割成多于一个的峰。在色谱图500中,如果峰分割因子为二或更小,那么将找到两个单独的峰——仅对严格位于局部最大值504、508和局部最小值506之间的那些点进行计数。一旦定位每个峰的起点和终点,就可以计算峰面积(即积分面积)和峰高。

此时在算法中可以考虑其它两个参数,包括最小峰宽(以数据点的数量表示)和最小峰高(以计数/秒为单位)。如果峰窄于峰最小宽度或短于最小峰高,那么不会报告该峰。

上述峰查找和积分算法只是峰查找算法的一个示例,可以将其称为MQ4算法。也可以使用其它算法,诸如来自Framingham,Massachusetts的SCIEX的AutoPeak或SignalFinder算法。诸如AutoPeak的算法与上述算法不同。例如,在AutoPeak算法中,算法根据纯净标准的结果进行训练。在该训练中,算法生成以数学方式描述结果中峰的形状的函数。该函数可以通过拟合形成峰模型的高斯曲线的组合来生成。然后,当接收并分析未知样本的离子信号时,AutoPeak算法采用生成的峰模型,并尝试通过拉伸和/或缩放峰模型来将其拟合到新离子信号中的峰。

AutoPeak算法和类似算法也利用峰积分参数来识别和积分峰;但是AutoPeak算法或类似算法的至少一些积分参数可能与MQ4算法或类似算法的积分参数不同。例如,AutoPeak算法或类似算法的峰积分参数可以包括平滑参数、过滤器、最小峰高、最小峰宽、保留时间参数和灵敏度参数(其有助于决定何时将峰分割成两个峰)。

对于AutoPeak算法和类似算法,随后生成的度量指示峰模型与新离子信号中的峰的拟合程度。这些度量可以被称为峰质量度量。峰质量度量可以包括指示识别出的峰和峰模型之间的差异的值。例如,峰质量度量可以是与识别出的峰和峰模型的平均偏差。

从前面的讨论中,应当认识到不同的峰积分参数可以如何影响离子数据系列中的峰对峰的最终识别、定义和积分的影响。例如,改变参数可以改变每个峰如何被识别和定义,这类似地改变峰的面积(即峰积分),并最终改变所确定的离子量和分析物浓度。一些峰积分可能比其它峰积分更准确,因此,一些峰积分参数的集合比其它的集合更准确。但是,对于每种类型的分析,甚至对于离子数据系列或离子信号中存在的每种类型的峰,参数可能需要改变。例如,积分参数的一个集合可能适用于一个色谱图,但不适用于另一个色谱图。

图6描绘了从积分参数的三个不同的集合生成的三个示例预期峰积分。三个预期峰积分包括第一预期峰积分(标记为预期峰积分1)、第二预期峰积分(标记为预期峰积分2)和第三预期峰积分(标记为预期峰积分3)。三个预期峰积分中的每一个是针对相同离子数据系列或离子信号602生成的。虽然仅描绘了三个预期峰积分,但是应该认识到的是,可以生成数十个或数百个预期峰积分。在一些示例中,可以生成多于50个或多于100个预期峰积分。

每个预期峰积分是从积分参数的不同的集合生成的,表示为N个不同积分参数的积分参数IP1-IPN的阵列。如从交叉阴影线区域和峰基线604、606、608可以看出,三个预期峰积分由于积分参数的差异而彼此不同。峰基线604、606、608可以具有由粗黑线表示的垂直和水平分量。峰基线604、606、608的垂直分量将峰区域与潜在干扰峰分开。在一些实施例中以及对于一些算法,峰基线604、606、608可以是曲线。

作为差异的示例,三个示例预期峰积分的比较表明,对于第二预期峰积分,峰基线606排除较大峰开始处的小干扰峰520,但不排除较大峰的结束处的肩部。因此,与不排除开始或结束肩部的第三预期峰积分相比,第二预期峰积分可以被认为是更准确的积分。作为对照,在第一预期峰积分中,除了峰开始处的小干扰峰之外,峰基线604不包括峰结束处的肩部。因此,第一预期峰积分可以被潜在地认为比第二预期峰积分更准确。

每个预期峰积分可以由峰特性的集合来表征或定义,峰特性的该集合由M个不同峰特性的峰特性(PC)值PC1-PCM的阵列表示。峰特性可以包括峰的积分面积、峰高度、峰开始时间、峰结束时间、中心时间、峰宽度和峰平滑度以及其它类型的峰特性。可以使用各种不同的方式来测量峰特性,只要测量技术对于所有预期峰积分一致地使用即可。例如,可以使用半峰全宽(FWHM)技术来测量峰宽度。可以使用该技术或任何其它技术,只要其一致地用于生成所有预期峰积分的等效峰特性即可。例如,可以以峰高的其它百分比来测量峰宽度,并且也可以利用峰宽度的比率。因为每个预期峰积分不同,因此每个预期峰积分的峰特性的集合也可能不同。但是,一个或多个峰特性可以在不同的预期峰积分之间共享。例如,从不同的积分设置生成的两个不同的预期峰积分实际上可以生成相同的积分面积。

每个预期峰积分还可以通过峰质量度量来表征。峰质量度量可以是上面讨论的那些,诸如当使用类似于AutoPeak算法的峰查找算法时与识别出的峰和峰模型的平均偏差。峰质量度量还可以呈现为J个不同峰质量度量的峰质量度量(PQ)值PQ1-PQJ的阵列。

图7描绘了用于使用经训练的机器学习(ML)模型704来预测顶部预期峰积分的示例系统700。ML模型704的输入702可以基于预期峰积分来生成。输入702可以包括针对所生成的预期峰积分中的每一个的不同特征。例如,输入702可以包括针对所生成的预期峰积分中的每一个的一个或多个输入参数、峰特性和/或峰质量度量。在一些示例中,输入702可以仅包括针对每个预期峰积分的峰特性中的一个,诸如峰积分面积。将积分参数、峰特性和/或峰质量度量与对应的预期峰积分相关,使得ML模型704能够基于输入702来预测或生成顶部预期峰积分。在一些示例中,输入702还可以包括为其生成预期峰积分的离子数据系列或离子信号。

然后将生成的输入702提供给经训练的ML模型704。ML模型可以是神经网络或其它合适的ML模型,诸如支持向量机、K最近邻算法、隐马尔可夫模型或随机森林。ML模型处理输入以生成输出706。输出706包括输入702中所包括的预期峰积分的排名(例如,评分)。例如,在一些示例中,排名由分配给每个预期峰积分的分数来表示,即使预期峰积分没有按照该分数明确排序。在一些示例中,输出706包括排名顶部(例如,最高或最佳分数)的预期峰积分的单个预期峰积分。基于输出706,可以识别一个或多个顶部预期峰积分。例如,可以选择输出706中排名前3或前5的预期峰积分。

ML模型可以使用受监督训练技术来训练。训练数据可以从识别先前数据的最佳预期峰积分的先前手动选择来生成。例如,关于用户之前已经选择的预期峰积分或积分参数的数据可以在训练期间用作ML模型的基础事实。替代地或附加地,还可以生成合成数据并将其用于ML模型的训练。例如,可以生成模拟已知结果或浓度的合成数据。噪声或其它复杂因素可能被引入到合成数据中以创建修改后的数据。然后可以针对修改后的数据生成预期峰积分。最佳或最准确的预期峰积分可以是与已知浓度匹配的预期峰积分。因此,在训练ML模型时,最准确的预期峰积分可以用作预期峰积分的该集合的基础事实。

图8A描绘了使用不同预期峰积分的标准化结果的示例图801、803、805。示例图801、803和805各自包括x轴上的测试样本的浓度和y轴上的积分面积。在这个示例中,分析了四个样本,每个样本都具有已知浓度的分析物。分析物浓度呈线性增加。例如,第二浓度是第一浓度的两倍,第三浓度是第一浓度的三倍,第四浓度是第一浓度的四倍。

对于每个预期峰积分集合,将预期峰积分的积分参数应用于具有已知分析物浓度的样本的离子数据系列,并将所得积分面积绘制在每个相应的图上。例如,对于第一预期峰积分集合,根据第一预期峰积分集合的积分参数的积分面积在图801中被绘制为圆圈。对于第二预期峰积分集合,根据第二预期峰积分集合的积分参数的积分面积在图803中被绘制为正方形。对于第三预期峰积分集合,根据第三预期峰积分集合的积分参数的积分面积在图805中被绘制为三角形。

对于每个预期峰积分图,可以将直线或曲线拟合到绘制的积分面积。例如,对于第一预期峰积分集合,生成第一拟合曲线或直线802。对于第二预期峰积分集合,生成第二拟合曲线或直线804。对于第三预期峰积分集合,生成第三拟合曲线或直线806。对于拟合线802、804、806中的每一个,可以确定描述或表示拟合线对数据的准确性的回归或曲线拟合值。曲线拟合值可以是确定系数(R

由于样本具有线性增加的已知浓度,因此完美的积分面积将形成一条直线(例如,确定系数为1)。因此,可以基于预期峰积分的回归值对它们进行排名。例如,具有最高(或最佳)曲线拟合值的预期峰积分可以被排名最高(或最佳)以用于生成预测积分。

图8B描绘了图8A的图801、803、805组合成单个图807。通过将每个预期峰积分的图801、803、805组合在一起,可以生成指示每个预期峰积分的积分面积的准确性的附加度量。当绘制在一起时,可以进一步评估和评分每条拟合线802、804、806。作为示例,可以评估积分面积(分别由圆形、三角形和正方形表示)与相应拟合线的偏差。例如,对于从第二预期峰积分生成的第二拟合线804,第一浓度的所有预期峰积分上的积分面积的标准偏差大于第一拟合线802或第三拟合线806的标准偏差。具有大偏差(例如,标准偏差)的拟合线可以指示对应的预期峰积分不太适合使用。因此,可以基于预期峰积分的偏差对它们进行排名。具有最小偏差的预期峰积分可以比具有最小偏差的预期峰积分排名更高。

为了考虑每个预期峰积分的曲线拟合值和偏差值两者,可以生成基于曲线拟合值和偏差值以及可以表示预期峰的准确度的潜在其它值的准确度分数。可以对进入到分数中的每个值进行加权。例如,准确度分数可以用以下等式表示:

[准确度分数]=W1[曲线拟合]+W2[偏差],

其中W1是曲线拟合值的权重,W2是偏差值的权重。注意的是,偏差值可以表示为倒数(例如,1/偏差),使得较小的偏差导致较高的准确度分数。具有更高(或更好)准确度度分数的预期峰积分可能会排名更高。

根据基于曲线拟合、偏差值和/或准确度分数的预期峰积分的排名,可以选择靠前排名的预期峰积分的子集。例如,可以选择预期峰积分的前50%或前三分之一。然后可以以不同的方式使用排名顶部的预期峰积分来确定未知样本的离子量和最终浓度。例如,所选择的预期峰积分的子集然后可以用作上面参考图7讨论的机器学习模型的输入。在其它示例中,排名顶部的预期峰积分(例如,前2-5个预期峰积分)可以呈现给用户以供选择用于未知样本。在另一个示例中,排名顶部的预期峰积分可以用于积分未知样本的峰(例如,积分未知样本的色谱图的峰)。还可以或替代地应用附加规则来进一步缩小排名顶部的预期峰积分的范围。例如,排名顶部的预期峰积分可以进一步限于具有在特定范围内的峰特性和/或峰质量度量的预期峰积分。预期峰积分也可以限于具有在特定范围内的积分参数的预期峰积分。

图9描绘了用于改进质谱法测量的示例方法900。方法900的操作可以由本文讨论的系统(诸如系统100或其部件)执行。例如,方法900的操作可以由系统中的一个或多个处理器根据系统的存储器中存储的指令来执行。在操作902处,访问离子数据系列(例如,离子数据信号)。离子数据系列针对从由质谱法系统的检测器检测到的离子生成的离子计数率。在一些示例中,离子数据系列可以是色谱图或色谱图的一部分。离子数据系列内的每个数据点可以指示离子计数率和采样间隔时间。例如,检测器的每个采样间隔可以生成离子计数率数据点。

在操作904处,生成用于离子数据系列中的目标峰的预期峰积分的集合。预期峰积分的集合中的每个预期峰积分是基于峰积分参数的不同的集合生成的。每个预期峰积分还由至少一个峰特性来表征。在一些示例中,每个预期峰积分还可以由一个或多个峰质量度量来表征。

在操作906处,将每个预期峰积分的至少一个峰特性提供为经训练的机器学习模型的输入。每个预期峰积分的多于一个峰特性可以被提供作为经训练的机器学习模型的输入。在一些示例中,还可以提供每个预期峰积分的一个或多个峰积分参数作为输入。在可用的情况下,还可以提供每个预期峰积分的一个或多个峰质量度量作为输入。离子数据系列或其一部分也可以作为输入提供。

在操作908处,经训练的机器学习模型处理在操作906处提供的输入。然后,机器学习模型生成输出,该输出可以是用于输入的预期峰积分的排名或排名的指示。在操作910处,基于机器学习模型的输出,生成预期峰积分中的一个或多个预期峰积分的排名/评分。如上所述,排名指示预期峰积分的可能适用性和/或准确性。

在操作912处,基于预期峰积分中的一个,生成目标峰的离子量(例如,积分面积)。目标峰的离子量可以表示样本的分析物的浓度。因此,操作912还可以包括基于预期峰积分中的一个生成分析物的浓度。

操作912还可以包括附加子操作以确定使用哪个预期峰积分来生成离子量。例如,可以基于预期峰积分的排名来显示一个或多个预期峰积分。例如,可以显示排名顶部的两个、三个、五个等预期峰积分。处理器可以通过向监视器发送显示信号或者经由向显示设备的数据传输来引起这样的显示。然后可以接收对所显示的预期峰积分中的一个的选择,诸如经由使用输入设备或触摸输入的用户选择。然后生成的离子量可以基于所选择的预期峰积分。

图10描绘了用于改进质谱法测量的另一个示例方法1000。与图9中的方法900类似,方法1000的操作可以由本文讨论的系统(诸如系统100或其部件)执行。例如,方法1000的操作可以由系统中的一个或多个处理器根据系统的存储器中存储的指令来执行。在操作1002处,访问一个或多个离子数据系列(例如,离子数据信号)。离子数据系列针对从由质谱法系统的检测器检测到的离子生成的离子计数率。在一些示例中,离子数据系列可以是色谱图或色谱图的一部分。离子数据系列内的每个数据点可以指示离子计数率和采样间隔时间。例如,检测器的每个采样间隔可以生成离子计数率数据点。在操作1002中访问的离子数据系列针对具有已知分析物浓度的样本。

在操作1004处,识别与样本中具有已知分析物浓度的分析物对应的峰。取决于如何执行实验,识别出的峰可以在不同的离子数据信号中或在单个连续离子数据信号中被识别。在操作1006处,对于每个识别出的峰,生成预期峰积分的集合。每个预期峰积分是根据不同的峰积分参数生成的。例如,对于与第一已知分析物浓度对应的第一峰,生成预期峰积分的第一集合。还为与第二已知分析物浓度对应的第二峰生成预期峰积分的第二集合。预期峰积分的第一集合和第二集合是基于积分参数的同一集合生成的。例如,根据相同的积分参数为第一峰和第二峰生成第一预期峰积分。还根据与用于生成第一预期峰积分的积分参数不同的积分参数来为第一峰和第二峰生成第二预期峰积分。

在操作1008处,对于预期峰积分的所生成的各个集合的多个组合,将直线或曲线拟合到相应组合中的预期峰积分。例如,针对已知浓度生成的每个预期峰积分的积分面积可以与已知浓度相关和/或针对已知浓度绘制,诸如上述图8A中。例如,根据预期峰积分的积分面积可以以将积分面积与对应浓度相关的方式(诸如有序对的阵列)进行存储。然后可以将曲线拟合到每个预期峰积分的积分面积。曲线可以是直线。

在操作1010处,基于针对对应的预期峰积分的曲线拟合或相应拟合曲线的准确度分数中的至少一个来识别所生成的预期峰积分的子集。曲线拟合可以是回归值,诸如确定系数(R

在操作1012处,基于操作1010中识别出的预期峰积分的子集中的预期峰积分中的一个的峰积分参数,生成具有未知分析物浓度的样本的离子量(例如,积分面积)。例如,可以使用具有最佳曲线拟合和/或准确度分数的预期峰积分的积分参数。在其它示例中,预期峰积分的子集可以显示给用户以供选择。

在另一个示例中,在操作1010中识别出的预期峰积分的子集可以用作经训练的机器学习模型的输入,诸如上面关于图9中的方法900所讨论的。例如,预期峰积分的每个子集可以由一个或多个峰特性来表征,并且那些一个或多个峰特性可以用作经训练的机器学习模型的输入。也可以利用基于预期峰积分的其它类型的输入。机器学习模型的输出然后可以用于对预期峰积分进行排名,并最终选择其积分参数将用于确定具有未知分析物浓度的样本的离子量的预期峰积分。

虽然结合各种实施例描述了本教导,但本教导并不旨在限于这些实施例。相反,如本领域技术人员将认识到的,本教导包括各种替代、修改和等同形式。

例如,上面参考根据本公开的各方面的方法、系统和计算机程序产品的框图和/或操作说明来描述本公开的方面。方框中注明的功能/动作可以指派给此功能的电荷状态不按任何流程图中所示的次序出现。例如,取决于所涉及的功能性/动作,相继示出的两个方框实际上可以基本上并发地执行,或者这些方框有时可以以相反的次序执行。另外,如本文和权利要求中所使用的,短语“元素A、元素B或元素C中的至少一个”旨在传达以下任何一种:元素A、元素B、元素C、元素A和B、元素A和C,元素B和C,以及元素A、B和C。

本申请中提供的一个或多个方面的描述和说明不旨在以任何方式限制或限定所要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使其他人能够做出和使用要求保护的公开的最佳模式。要求保护的公开不应当被解释为限于本申请中提供的任何方面、示例或细节。无论是组合地还是分开地示出和描述,各种特征(结构和方法)都旨在选择性地包括或省略以产生具有特定特征集的实施例。已经提供了本申请的描述和说明,本领域技术人员可以设想落入本申请中实施的总体发明构思的更广泛方面的精神内的不背离要求保护的公开的更广范围的变化、修改和替代方面。

相关技术
  • 无需参数调整的峰积分校正
  • 操作泄漏积分器的方法、泄漏积分器和包括泄漏积分器的装置
技术分类

06120116504864