掌桥专利:专业的专利平台
掌桥专利
首页

碱基检出系统的质量分数校准

文献发布时间:2024-04-18 20:01:23


碱基检出系统的质量分数校准

优先权申请

本专利申请要求2022年6月13日提交的标题为“Quality Score Calibration ofBasecalling Systems”的美国非临时专利申请号17/839,387(代理人案卷号ILLM 1045-2/IP-2093-US)的优先权,该申请继而要求2021年7月28日提交的名称为“Quality ScoreCalibration of Basecalling Systems”的美国临时专利申请号63/226,707(代理人案卷号ILLM 1045-1/IP-2093-PRV)的权益。据此优先权申请以引用方式并入以用于所有目的。

技术领域

本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。

文献并入

以下文献以引用方式并入,即如同在本文完整示出一样:

2020年2月20日提交的标题为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLINGOF INDEX SEQUENCES”的美国临时专利申请号62/979,384(代理人案卷号ILLM 1015-1/IP-1857-PRV);

2020年2月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANYBASE CALLING”的美国临时专利申请号62/979,414(代理人案卷号ILLM 1016-1/IP-1858-PRV);

2020年3月20日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/825,987(代理人案卷号ILLM 1008-16/IP-1693-US);

2020年3月20日提交的标题为“ARTIFICIAL INTELLIGENCE-BASED GENERATION OFSEQUENCING METADATA”的美国非临时专利申请号16/825,991(代理人案卷号ILLM 1008-17/IP-1741-US);

2020年3月20日提交的标题为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国非临时专利申请号16/826,126(代理人案卷号ILLM 1008-18/IP-1744-US);

2020年3月20日提交的标题为“ARTIFICIAL INTELLIGENCE-BASED QUALITYSCORING”的美国非临时专利申请号16/826,134(代理人案卷号ILLM 1008-19/IP-1747-US);以及

2020年3月21日提交的标题为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/826,168(代理人案卷号ILLM 1008-20/IP-1752-PRV-US)。

背景技术

本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。

近年来,计算能力的快速提高使得深度卷积神经网络(CNN)在许多准确度显著提高的计算机视觉任务上取得了很大的成功。在推理阶段,许多应用需要以严格的功率消耗要求对一个图像进行低延迟处理,这降低图形处理单元(GPU)和其他通用平台的效率,通过定制专用于深度学习算法推理的数字电路,为特定的加速硬件(例如,现场可编程门阵列(FPGA))带来机会。然而,由于大数据量、密集型计算、变化的算法结构和频繁的存储器访问,在便携式和嵌入式系统上部署CNN仍然具有挑战性。

由于卷积在CNN中对大部分运算有贡献,因此卷积加速方案显著地影响硬件CNN加速器的效率和性能。卷积涉及具有沿内核和特征图滑动的四个循环级的乘法和累加(MAC)运算。第一循环级计算内核窗口内的像素的MAC。第二循环级跨不同的输入特征图累加MAC的乘积之和。在完成第一循环级和第二循环级之后,通过添加偏置来获得输出特征图中的最终的输出元素。第三循环级在输入特征图内滑动内核窗口。第四循环级生成不同的输出特征图。

FPGA由于其(1)高度可重构性,(2)与专用集成电路(ASIC)相比开发时间更快,以跟上CNN的快速发展,(3)良好的性能,以及(4)与GPU相比优越的能量效率,获得了越来越多的关注和普及,特别是在加速推理任务方面。FPGA的高性能和高效率可以通过合成针对特定计算定制的电路来实现,以利用定制的存储器系统直接处理数十亿次运算。例如,现代FPGA上的数百至数千个数字信号处理(DSP)块以高并行性支持核心卷积运算,例如乘法和加法。外部片上存储器和片上处理引擎(PE)之间的专用数据缓冲器可被设计成通过在FPGA芯片上配置数十兆字节的片上块随机存取存储器(BRAM)来实现优选的数据流。

需要高效的数据流和CNN加速的硬件架构来最小化数据通信,同时最大化资源利用来实现高性能。因此有机会设计出在具有高性能、高效率和高度灵活性的加速硬件上加速各种CNN算法的推理过程的方法和框架。

深度神经网络由于其广泛的适用性和增强的预测能力而在生物信息学研究方面具有巨大前景。卷积神经网络已被用于解决基因组学中基于序列的问题,诸如基序发现、致病性变体鉴定和基因表达推断。卷积神经网络使用权重共享策略,该策略尤其可用于研究DNA,因为其可捕获序列基序,该序列基序是DNA中被假定具有显著生物学功能的短且反复出现的局部模式。神经网络可捕获具有不同长度的序列数据(诸如蛋白质或DNA序列)中的长程依赖。因此,有机会使用基于深度学习的原则框架来进行碱基检出。

存在以下需要:增加可快速且高性价比地获得的核酸测序数据的质量和数量以用于各种各样的用途,包括基因组学(例如,用于任何和所有动物、植物、微生物或其他生物物种或群体的基因组表征)、药物遗传学、转录组学、诊断学、预后、生物医学风险评估、临床和研究遗传学、个体化医学、药物功效及药物相互作用评估、兽医学、农业、进化及生物多样性研究、水产养殖、林业、海洋学、生态及环境管理以及其他目的。例如,深度学习网络模型或其他适当的模型可用来生成用于多种基因组学的测序数据。

除了生成碱基检出之外,此类模型还生成对应的质量分数。一般来讲,质量分数以对数尺度提供对以下的指示:碱基被检出为腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C)的概率。例如,碱基的质量分数Q(A)提供对碱基为A的概率的指示;碱基的质量分数Q(C)提供对碱基为C的概率的指示等等。

通常,质量分数用于做出关键决策,诸如关键健康护理决策。例如,在健康护理环境中,与检测人类组织样本的碱基相关联的质量分数可能影响治疗健康病症的方法。因此,期望针对碱基检出而生成的质量分数相对准确和可依赖。例如,期望针对碱基检出而生成的质量分数与根据经验确定的质量分数(其表示真实的质量分数)更加一致。

附图说明

在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了所公开的技术的各种具体实施,其中:

图1示出了可以在各种实施方案中使用的生物传感器的横截面。

图2示出了在其区块中包含簇的流通池的一个具体实施。

图3示出了具有八个槽道的示例性流通池,并且还示出了一个区块及其簇和它们的周围背景的放大视图。

图4是用于分析来自测序系统的传感器数据(诸如碱基检出传感器输出)的系统的简化框图。

图5是示出了碱基检出操作的方面的简化图,该方面包括由主机处理器执行的运行时程序的功能。

图6是可配置处理器(诸如,图4的可配置处理器)的配置的简化图。

图7是可使用如本文所述配置的可配置或可重新配置阵列来执行的神经网络架构的图。

图8A是由如图7一样的神经网络架构使用的传感器数据的区块的组织的简化图示。

图8B是由如图7一样的神经网络架构使用的传感器数据的区块的补片的简化图示。

图9示出了可配置或可重构阵列(诸如现场可编程门阵列(FPGA))上的如图7一样的神经网络的配置的一部分。

图10是可使用如本文所述配置的可配置或可重新配置阵列来执行的另一个另选的神经网络架构的图。

图11例示了基于神经网络的碱基检出器的特化架构的一个具体实施,该基于神经网络的碱基检出器用于隔离对不同测序循环的数据的处理。

图12描绘了隔离层的一个具体实施,该隔离层中的每一个隔离层可包括卷积。

图13A描绘了组合层的一个具体实施,该组合层中的每一个组合层可包括卷积。

图13B描绘了组合层的另一具体实施,该组合层中的每一个组合层可包括卷积。

图14A例示了为待检出的各种碱基生成对应于A、C、T和G的质量分数的碱基检出系统。

图14B例示了指示概率分数、质量分数、对应的错误概率和对应的错误率之间的关系的表。

图14C例示了由图14A的碱基检出系统预测的预测质量分数与真实(例如,根据经验计算的)质量分数之间的比较操作。

图14D例示了对图14C的真实(例如,根据经验确定的)质量分数的确定。

图15A例示了描绘预测质量分数与真实质量分数之间的比较的图表,并且图15B例示了描绘预测质量分数与真实质量分数之间的另一比较的另一个图表。

图16例示了描绘预测质量分数与真实质量分数之间的比较的另一个图表。

图17A例示了包括归一化模块的碱基检出系统,该归一化模块用于将由碱基检出器接收的传感器数据归一化。

图17B例示了描绘由图17A的碱基检出系统的归一化模块执行的对传感器数据的归一化操作的两个图表。

图17C例示了描绘预测质量分数与真实质量分数之间的比较的图表,其中传感器数据已由图17A的碱基检出系统的归一化模块在生成用于图17C的图表的数据时归一化。

图17D例示了指示具有输入归一化的碱基检出系统与缺少此类输入归一化的另一碱基检出系统的期望校准错误(ECE)的图表。

图17E例示了归一化之前的传感器数据与归一化的传感器数据之间的着色比较。

图17F例示了描绘用于将传感器数据归一化并将归一化的传感器数据用于碱基检出操作的示例性方法的流程图。

图18A例示了包括质量分数重新映射模块的碱基检出系统,该质量分数重新映射模块用于选择性地重新映射由碱基检出系统的碱基检出器预测的质量分数。

图18B1、图18B2、图18B3、图18B4和图18B5组合地例示了质量分数重新映射和量化的示例。

图18C1和图18C2例示了质量分数重新映射和量化的两个另外的示例。

图19例示了针对一些特定碱基序列描绘(i)特定碱基序列的质量分数的平均值与(ii)特定碱基序列的经重新映射的质量分数的平均值之间的偏差的表,其中重新映射是根据例如图18B2的通用查找表(LUT)来执行的。

图20A例示了能用于将特定碱基序列的预测质量分数重新映射到经重新映射的质量分数的LUT。

图20B例示了使用图20A的LUT对特定碱基序列的预测质量分数进行的重新映射。

图21例示了包括损失惩罚模块的碱基检出系统,该损失惩罚模块用以针对一个或多个特定碱基序列选择性地惩罚损失。

图22A至图22E组合地例示了响应于特定碱基序列的检测而对损失函数进行的惩罚(例如,由损失惩罚模块2106)。

图22F例示了将特化权重应用于与特定碱基序列的中间碱基相关联的损失。

图22G例示了对针对特定碱基序列不惩罚损失的碱基检出系统与惩罚损失的碱基检出系统的性能进行比较的两个图表。

图23例示了碱基检出系统,其包括(i)图17A的碱基检出系统的归一化模块、(ii)图18A的碱基检出系统的质量分数重新映射模块和质量分数量化模块、以及(iii)图21的碱基检出系统的损失惩罚模块。

图24是根据一个具体实施的碱基检出系统的框图。

图25是可在图24的系统中使用的系统控制器的框图。

图26是可用于实现所公开的技术的计算机系统的简化框图。

具体实施方式

如本文所用,术语“多核苷酸”或“核酸”是指脱氧核糖核酸(DNA),但是,在适当的情况下,技术人员将认识到本文的系统和装置也可应用于核糖核酸(RNA)。应理解,该术语包括作为等同物的由核苷酸类似物形成的DNA或RNA的类似物。如本文所用,术语还涵盖cDNA,即由RNA模板例如通过逆转录酶的作用产生的互补DNA或拷贝DNA。

由本文的系统和装置测序的单链多核苷酸分子可以单链形式,如DNA或RNA,起源,或以双链DNA(dsDNA)形式(例如,基因组DNA片段、PCR及扩增产物等)起源。因此,单链多核苷酸可以是多核苷酸双螺旋的有义链或反义链。使用标准技术制备适用于本公开的方法中的单链多核苷酸分子的方法在本领域中是熟知的。初级多核苷酸分子的精确序列通常对本公开并不重要,并且可以是已知的或未知的。单链多核苷酸分子可表示基因组DNA分子(例如,人类基因组DNA),该基因组DNA分子包括内含子及外显子序列(编码序列),以及非编码调节序列,诸如启动子及增强子序列。

在某些实施方案中,待例如通过使用本公开进行测序的核酸被固定在基底(例如,流通池内的基底或基底诸如流通池上的一个或多个小珠等)上。除非另有说明或通过上下文明确指示,否则如本文所用的术语“固定”旨在涵盖直接或间接的、共价或非共价结合。在某些实施方案中,可优选共价附接,但一般来讲全部所需的是分子(例如,核酸)在旨在使用载体的条件下(例如,在需要核酸测序的应用中)保持固定或附接到载体。

如本文所用,术语“固体载体”(或某些用法中的“基底”)是指核酸可附着到其上的任何惰性基底或基质,诸如例如玻璃表面、塑料表面、胶乳、葡聚糖、聚苯乙烯表面、聚丙烯表面、聚丙烯酰胺凝胶、金表面和硅晶片。在许多实施方案中,固体载体为玻璃表面(例如,流通池通道的平坦表面)。在某些实施方案中,固体载体可包括已经例如通过施加中间材料的层或涂层而“官能化”的惰性基底或基质,该中间材料包含容许共价附接到分子诸如多核苷酸的反应性基团。举非限制性示例来说,此类载体可包括负载在惰性基底诸如玻璃上的聚丙烯酰胺水凝胶。在此类实施方案中,分子(多核苷酸)可直接共价附接到中间材料(例如,水凝胶),但该中间材料本身可非共价附接到基底或基质(例如,玻璃基底)。共价附接到固体载体应相应地被解释为涵盖此类型的布置。

如上面所指出,本公开包括用于对核酸进行测序的新型系统和装置。对本领域的技术人员将显而易见的是,根据上下文,本文对特定核酸序列的引用也指包含此类核酸序列的核酸分子。对靶片段的测序意味着建立对碱基的时间顺序的读取。被读取的碱基不需要是连续的,尽管这是优选的,在测序期间也不必对整个片段上的每个碱基进行测序。可使用任何合适的测序技术进行测序,其中核苷酸或寡核苷酸被相继地添加到游离3'羟基基团,导致在5'至3'方向上合成多核苷酸链。优选地在每次核苷酸添加之后确定添加的核苷酸的性质。使用连接测序的测序技术(其中不是每个连续碱基均被测序)以及诸如大规模平行特征测序(MPSS)之类的技术(其中从表面上的链移除而非向其添加碱基)也适于与本公开的系统和装置一起使用。

在某些实施方案中,本公开公开了边合成边测序(SBS)。在SBS中,使用四个带荧光标记的经修饰的核苷酸来对存在于基底(例如,流通池)的表面上的经扩增的DNA的密集簇(可能为数百万个簇)进行测序。可与本文的系统和装置一起使用的关于SBS过程及方法的各种附加方面公开于例如WO04018497、WO04018493和美国专利号7,057,026(核苷酸)、WO05024010和WO06120433(聚合酶)、WO05065814(表面附接技术)、以及WO 9844151、WO06064199及WO07010251中,它们中的每一者的内容全文以引用方式并入本文中。

在本文的系统/装置的特定使用中,含有用于测序的核酸样本的流通池放置在适当的流通池保持器内。用于测序的样本可采取以下形式:单分子、呈簇形式的经扩增的单分子或包含核酸分子的小珠。核酸被制备成使得其包含与未知靶序列相邻的寡核苷酸引物。为了启动第一SBS测序循环,使一种或多种带不同标记的核苷酸和DNA聚合酶等通过流体流动子系统(本文描述了其各种实施方案)流入/流过流通池。可一次添加单个核苷酸,或者可将测序过程中所用的核苷酸特别地设计成具有可逆终止属性,从而使测序反应的每个循环在存在所有四个带标记的核苷酸(A、C、T、G)的情况下同时发生。在将四种核苷酸混合在一起的情况下,聚合酶能够选择要掺入的正确碱基,并且每个序列通过单个碱基延伸。在使用该系统的此类方法时,所有四种另选品之间的自然竞争产生比其中仅一种核苷酸存在于反应混合物中(其中大多数序列因此不暴露于正确的核苷酸)的情况更高的准确度。其中一个接一个地重复特定碱基的序列(例如,均聚物)像任何其他序列一样且以高准确度被寻址。

流体流动子系统还使适当的试剂流动以从每个掺入的碱基去除封闭的3'端(如果适当的话)和荧光团。基底可暴露于四个封闭的核苷酸的第二轮,或者任选地暴露于具有不同单个核苷酸的第二轮。然后重复此类循环,并经多个化学循环读取每个簇的序列。本公开的计算机方面可任选地比对从每个单分子、簇或小珠采集的序列以确定较长聚合物的序列等。另选地,图像处理和比对可在独立计算机上执行。

系统的加热/冷却部件调节流通池通道和试剂储存区域/容器(以及任选地相机、光学器件和/或其他部件)内的反应条件,同时流体流动部件允许基底表面暴露于供掺入的合适试剂(例如,待掺入的适当的带荧光标记的核苷酸),同时冲洗掉未掺入的试剂。流通池放置在其上的任选的可移动台允许流通池进入用于衬底的激光(或其他光)激发的正确取向,并且任选地相对于透镜物镜移动以允许读取基底的不同区域。另外,系统的其他部件(例如,相机、透镜物镜、加热器/冷却器等)也任选地是可移动/可调节的。在激光激发期间,由相机部件捕获从基底上的核酸发射的荧光的图像/位置,从而在计算机部件中记录每个单个分子、簇或小珠的第一碱基的种类。

本文所述的实施方案可用于学术或商业分析的各种生物过程和系统或化学过程和系统。更具体地,本文所述的实施方案可用于期望检测指示所需反应的事件、属性、质量或特征的各种过程和系统中。例如,本文所述的实施方案包括盒、生物传感器和它们的部件,以及与盒和生物传感器一起操作的生物测定系统。在特定实施方案中,盒和生物传感器包括流通池和一个或多个传感器、像素、光检测器或光电二极管,它们在基本上单一结构中耦接在一起。

当结合以下附图阅读时,将更好地理解某些实施方案的以下详细描述。就附图例示了各种实施方案的功能块的图而言,功能块不一定指示硬件电路之间的划分。因此,例如,功能块中的一个或多个功能块(例如,处理器或存储器)可在单片硬件(例如,通用信号处理器或随机存取存储器、硬盘等)中实施。类似地,程序可以是独立式程序,可作为子例程并入操作系统中,可以是所安装的软件包中的功能等。应理解,各种实施方案不限于附图中所示的布置和手段。

如本文所用,以单数形式叙述且前面带有词语“一个”或“一种”的元件或步骤应当理解为不排除多个所述元件或步骤,除非明确地指明此类排除。此外,对“一个实施方案”的引用并非旨在被解释为排除同样并入所叙述特征的附加实施方案的存在。此外,除非有相反的明确说明,否则“包括(comprising)”或“具有”或“包括(including)”具有特定属性的一个或多个元件的实施方案可包括附加元件,无论它们是否具有该属性。

如本文所用,“所需反应”包括感兴趣的分析物的化学属性、电属性、物理属性或光学属性(或质量)中的至少一者的变化。在特定实施方案中,所需反应是阳性结合事件(例如,荧光标记的生物分子与感兴趣的分析物结合)。更一般地,所需反应可以是化学转化、化学变化或化学相互作用。所需反应也可为电属性的变化。例如,所需反应可以是溶液内离子浓度的变化。示例性反应包括但不限于化学反应,诸如还原、氧化、添加、消除、重排、酯化、酰胺化、醚化、环化或取代;第一化学物质与第二种化学物质结合的结合相互作用;两个或更多个化学物质彼此分离的解离反应;荧光;发光;生物发光;化学发光;和生物反应,诸如核酸复制、核酸扩增、核酸杂交、核酸连接、磷酸化、酶催化、受体结合或配体结合。所需反应还可以是质子的添加或消除,例如,可检测为周围溶液或环境的pH变化。附加所需反应可以是检测跨膜(例如,天然或合成双层膜)的离子流,例如,当离子流过膜时,电流被中断,并且该中断可被检测到。

在特定实施方案中,所需反应包括将荧光标记的分子与分析物结合。分析物可为寡核苷酸,并且荧光标记的分子可为核苷酸。当激发光被导向具有标记核苷酸的寡核苷酸,并且荧光团发出可检测的荧光信号时,可检测到所需反应。在另选的实施方案中,检测到的荧光是化学发光或生物发光的结果。所需反应还可例如通过使供体荧光团接近受体荧光团来增加荧光(或

如本文所用,“反应组分”或“反应物”包括可用于获得所需反应的任何物质。例如,反应组分包括试剂、酶、样品、其他生物分子和缓冲液。可将反应组分通常被递送至溶液中的反应位点和/或固定在反应位点处。反应组分可直接或间接地与另一种物质相互作用,诸如感兴趣的分析物。

如本文所用,术语“反应位点”是可发生所需反应的局部区域。反应位点可包括其上可固定物质的基板的支撑表面。例如,反应位点可包括流通池的通道中的基本上平面的表面,该表面上具有核酸群体。通常,但并不总是如此,群体中的核酸具有相同的序列,例如为单链或双链模板的克隆拷贝。然而,在一些实施方案中,反应位点可仅包含单个核酸分子,例如单链或双链形式。此外,多个反应位点可沿着支撑表面不均匀分布或以预定方式布置(例如,在矩阵中并排布置,诸如在微阵列中)。反应位点还可包括反应室(或孔),其至少部分地限定了被配置为分隔所需反应的空间区域或体积。

本申请可互换地使用术语“反应室”和“孔”。如本文所用,术语“反应室”或“孔”包括与流动通道流体连通的空间区域。反应室可至少部分地与周围环境或其他空间区域隔开。例如,多个反应室可通过共用壁彼此隔开。作为更具体的示例,反应室可包括由孔的内表面限定的腔,并且可具有开口或孔隙,使得该腔可与流动通道流体连通。包括此类反应室的生物传感器在2011年10月20日提交的国际申请号PCT/US2011/057111中有更详细的描述,该专利全文以引用方式并入本文。

在一些实施方案中,反应室的尺寸和形状相对于固体(包括半固体)被设定成使得固体可完全或部分地插入其中。例如,反应室的尺寸和形状可被设定成仅容纳一个捕获小珠。该捕获小珠可在其上具有克隆扩增的DNA或其他物质。另选地,反应室的尺寸和形状可被设定成接纳大约数量的小珠或固体基板。又如,反应室还可填充有多孔凝胶或物质,该多孔凝胶或物质被配置为控制扩散或过滤可流入反应室的流体。

在一些实施方案中,传感器(例如,光检测器、光电二极管)与生物传感器的样品表面的对应像素区域相关联。因此,像素区域是表示一个传感器(或像素)在生物传感器样品表面上的区域的几何构造。当在覆盖相关联的像素区域的反应位置或反应室发生所需反应时,与像素区域相关联的传感器检测从相关联的像素区域收集的光发射。在平坦表面实施方案中,像素区域可重叠。在一些情况下,多个传感器可与单个反应位点或单个反应室相关联。在其他情况下,单个传感器可与一组反应位点或一组反应室相关联。

如本文所用,“生物传感器”包括具有多个反应位点和/或反应室(或孔)的结构。生物传感器可包括固态成像设备(例如,CCD或CMOS成像器件)以及任选地安装到其上的流通池。流通池可包括与反应位点和/或反应室流体连通的至少一个流动通道。作为一个具体示例,生物传感器被配置为流体耦接和电耦接到生物测定系统。生物测定系统可根据预定方案(例如,边合成边测序)将反应物递送到反应位点和/或反应室,并执行多个成像事件。例如,生物测定系统可引导溶液沿着反应位点和/或反应室流动。溶液中的至少一种溶液可包括四种类型的具有相同或不同荧光标记的核苷酸。核苷酸可与位于反应位点和/或反应室的对应寡核苷酸结合。然后,生物测定系统可使用激发光源(例如,固态光源,诸如发光二极管(LED))照亮反应位点和/或反应室。激发光可具有预定的一个或多个波长,包括一个波长范围。所激发的荧光标签提供可被传感器捕获的发射信号。

在另选的实施方案中,生物传感器可包括被配置为检测其他可识别属性的电极或其他类型的传感器。例如,传感器可被配置为检测离子浓度的变化。在另一个示例中,传感器可被配置为检测跨膜的离子电流。

如本文所用,“簇”是相似或相同的分子或核苷酸序列或DNA链的群体。例如,簇可以是扩增的寡核苷酸或具有相同或相似序列的任何其他组的多核苷酸或多肽。在其他实施方案中,簇可为占据样品表面上的物理区域的任何元素或元素组。在实施方案中,在碱基检出循环期间,簇被固定到反应位点和/或反应室。

如本文所用,当关于生物分子或生物或化学物质使用时,术语“固定的”包括在分子水平上基本上将生物分子或生物或化学物质附着到表面。例如,可使用吸附技术将生物分子或生物或化学物质固定到基板材料的表面,这些吸附技术包括非共价相互作用(例如,静电力、范德华力以及疏水界面的脱水)和共价结合技术,其中官能团或接头有利于将生物分子附着到表面。将生物分子或生物或化学物质固定到基板材料的表面可基于基板表面的属性、携带生物分子或生物或化学物质的液体介质以及生物分子或生物或化学物质本身的属性。在一些情况下,基板表面可被官能化(例如,化学或物理改性),以有利于将生物分子(或生物或化学物质)固定到基板表面。可首先对基板表面进行改性,使官能团结合到表面。然后,官能团可结合到生物分子或生物或化学物质,以将其固定在其上。可经由凝胶将物质固定在表面,例如,如美国专利公布号US 2011/0059865 A1,该专利以引用方式并入本文。

在一些实施方案中,核酸可附着到表面,并使用桥式扩增进行扩增。有用的桥式扩增方法描述于,例如,美国专利号5,641,658;WO 2007/010251;美国专利号6,090,592;美国专利公布号2002/0055100 A1;美国专利号7,115,400;美国专利公布号2004/0096853 A1;美国专利公布号2004/0002090 A1;美国专利公布号2007/0128624 A1;和美国专利公布号2008/0009420 A1,这些专利中的每一篇均全文并入本文。另一种用于在表面上扩增核酸的有用方法是滚环扩增(RCA),例如,使用下面进一步详细阐述的方法。在一些实施方案中,核酸可附着到表面,并使用一个或多个引物对进行扩增。例如,引物中的一个引物可在溶液中,并且另一个引物可固定在表面上(例如,5’-附着)。通过举例的方式,核酸分子可与表面上的引物中的一个引物杂交,之后延伸固定的引物以产生核酸的第一拷贝。然后溶液中的引物与核酸的第一拷贝杂交,该第一拷贝可用核酸的第一拷贝作为模板进行延伸。任选地,在产生核酸的第一拷贝后,原始核酸分子可与表面上的第二固定引物杂交,并且可在溶液中的引物延伸的同时或之后延伸。在任何实施方案中,使用固定的引物和溶液中的引物的重复一轮的循环(例如,扩增)提供了核酸的多个拷贝。

在特定实施方案中,由本文所述的系统和方法执行的测定协议包括使用天然核苷酸以及被配置为与天然核苷酸相互作用的酶。天然核苷酸包括例如,核糖核苷酸(RNA)或脱氧核糖核苷酸(DNA)。天然核苷酸可为单磷酸盐、二磷酸盐或三磷酸盐形式,并且可具有选自腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C)的碱基。然而,应当理解,可使用非天然核苷酸、经修饰的核苷酸或前述核苷酸的类似物。关于通过合成方法进行的基于可逆终止子的测序,下面列出了有用的非天然核苷酸的一些示例。

在包括反应室的实施方案中,物品或固体物质(包括半固体物质)可设置在反应室内。当被设置时,物品或固体可通过过盈配合、粘附或截留被物理地保持或固定在反应室内。可设置在反应室内的示例性物品或固体包括聚合物小珠、微丸、琼脂糖凝胶、粉末、量子点或可被压缩和/或保持在反应室内的其他固体。在特定实施方案中,核酸超结构(诸如DNA球)可例如通过附着至反应室的内表面或通过停留在反应室内的液体中而设置在反应室中或反应室处。可进行DNA球或其他核酸超结构,然后将其设置在反应室中或反应室处。另选地,DNA球可在反应室处原位合成。可以通过滚环扩增来合成DNA球,以产生特定核酸序列的多联体,并且可用形成相对紧凑的球的条件来处理多联体。DNA球及其合成方法在例如美国专利公布号2008/0242560A1或2008/0234136A1中有所描述,这些专利中的每一篇均全文并入本文。保持或设置在反应室中的物质可以是固态、液态或气态。

如本文所用,“碱基检出”识别核酸序列中的核苷酸碱基。碱基检出是指在具体循环针对每个簇确定碱基检出(A,C,G,T)的过程。作为示例,可利用美国专利申请公布号2013/0079232的合并材料中描述的四通道方法和系统、双通道方法和系统或一通道方法和系统来执行碱基检出。在特定实施方案中,碱基检出循环被称为“采样事件”。在一种染料和双通道测序协议中,采样事件包括时间序列中的两个照明阶段,使得像素信号在每个阶段处生成。第一照明阶段诱导来自指示AT像素信号中核苷酸碱基A和T的给定簇的照明,并且第二照明阶段诱导来自指示CT像素信号中核苷酸碱基C和T的给定簇的照明。

所公开的技术(例如,所公开的碱基检出器)可在处理器如中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、专用指令集处理器(ASIP)和数字信号处理器(DSP)上实施。

生物传感器

图1示出了可以在各种实施方案中使用的生物传感器100的横截面。生物传感器100具有像素区域106'、108'、110'、112'和114',这些像素区域可各自在碱基检出循环期间保持多于一个簇(例如,每像素区域2个簇)。如图所示,生物传感器100可包括安装到采样设备104上的流通池102。在例示的实施方案中,流通池102直接附连到采样设备104。然而,在另选的实施方案中,流通池102可以可移除地耦接到采样设备104。采样设备104具有可被官能化的样品表面134(例如,以适合进行期望反应的方式进行化学或物理改性)。例如,样品表面134可被官能化并且可包括多个像素区域106'、108'、110'、112'和114',该多个像素区域可各自在碱基检出循环期间保持多于一个簇(例如,每个像素区域具有对应的簇对106A、106B;108A、108B;110A、110B;112A、112B;和114A、114B固定在其上)。每个像素区域与对应的传感器(或像素或光电二极管)106、108、110、112和114相关联,使得由像素区域接收的光由对应的传感器捕获。像素区域106'也可与样品表面134上保持簇对的对应反应位点106”相关联,使得从反应位点106”发射的光由像素区域106'接收并且由对应的传感器106捕获。由于这种感测结构,在以下情况下,该碱基检出循环中的像素信号携带基于该两个或更多个簇中的所有簇的信息:其中在碱基检出循环期间,在特定传感器的像素区域中存在两个或更多个簇(例如,每个像素区域具有对应的簇对)。因此,如本文所述的信号处理用于区分每个簇,其中在特定碱基检出循环的给定采样事件中存在比像素信号更多的簇。

在例示的实施方案中,流通池102包括侧壁138、125和由侧壁138、125支撑的流罩136。侧壁138、125耦接到样品表面134并且在流罩136与样品表面134之间延伸。在一些实施方案中,侧壁138、125由可固化粘合剂层形成,该可固化粘合剂层将流罩136粘结到采样设备104。

侧壁138、125的尺寸和形状被设定成使得流动通道144存在于流罩136与采样设备104之间。流罩136可包括对从生物传感器100的外部传播到流动通道144中的激发光101透明的材料。在示例中,激发光101以非正交角度接近流罩136。

另外如图所示,流罩136可包括入口端口和出口端口142、146,该入口端口和出口端口被配置为流体地接合其他端口(未示出)。例如,其他端口可来自卡盒或工作站。流动通道144的尺寸和形状被设定成沿样品表面134引导流体。流动通道144的高度H

以举例的方式,流罩136(或流通池102)可包括透明材料,诸如玻璃或塑料。流罩136可构成具有平面外表面和限定流动通道144的平面内表面的基本上矩形的块。该块可安装到侧壁138、125上。另选地,可蚀刻流通池102以限定流罩136和侧壁138、125。例如,可以将凹槽蚀刻到透明材料中。当蚀刻材料安装到采样设备104时,凹槽可变成流动通道144。

采样设备104可类似于例如包括多个堆叠的基板层120至126的集成电路。基板层120至126可包括基部基板120、固态成像器件122(例如,CMOS图像传感器)、滤波器或光控制层124和钝化层126。应当注意,以上仅是说明性的,并且其他实施方案可包括更少层或附加层。此外,基板层120至126中的每一个层可包括多个子层。采样设备104可使用类似于制造集成电路(诸如CMOS图像传感器和CCD)中使用的工艺来制造。例如,基板层120至126或其部分可被生长、沉积、蚀刻等以形成采样设备104。

钝化层126被配置为使滤波器层124屏蔽流动通道144的流体环境。在一些情况下,钝化层126还被配置为提供允许生物分子或其他感兴趣分析物固定在其上的固体表面(即,样品表面134)。例如,反应位点中的每一个反应位点可包括固定到样品表面134的生物分子的簇。因此,钝化层126可以由允许反应位点固定到其上的材料形成。钝化层126还可包括至少对期望荧光透明的材料。以举例的方式,钝化层126可包含氮化硅(Si

滤波器层124可包括影响光的透射的各种特征。在一些实施方案中,滤波器层124可执行多个功能。例如,滤波器层124可被配置为(a)过滤不想要的光信号,诸如来自激发光源的光信号;(b)将来自反应位点的发射信号导向对应的传感器106、108、110、112和114,这些传感器被配置为检测来自反应位点的发射信号;或(c)阻止或防止检测到来自邻近反应位点的不想要的发射信号。因此,滤波器层124也可称为光控制层。在例示的实施方案中,滤波器层124具有约1μm至5μm,更具体地约2μm至4μm的厚度。在另选的实施方案中,滤波器层124可包括微透镜或其他光学元件的阵列。微透镜中的每一个微透镜可被配置为将发射信号从相关联的反应位点引导到传感器。

在一些实施方案中,固态成像器件122和基部基板120可作为先前构造的固态成像设备(例如,CMOS芯片)一起提供。例如,基底基板120可以是硅晶片,并且固态成像器件122可安装在其上。固态成像器件122包括半导体材料(例如,硅)层和传感器106、108、110、112和114。在例示的实施方案中,传感器是被配置为检测光的光电二极管。在其他实施方案中,传感器包括光检测器。固态成像器件122可通过基于CMOS的制造工艺制造为单个芯片。

固态成像器件122可包括传感器106、108、110、112和114的密集阵列,这些传感器被配置为检测指示来自流动通道144内或沿该流动通道的期望反应的活动。在一些实施方案中,每个传感器具有约1平方微米至2平方微米(μm2)的像素区域(或检测区域)。阵列可包括五十万个传感器、五百万个传感器、一千万个传感器或甚至一亿两千万个传感器。传感器106、108、110、112和114可被配置为检测指示期望反应的预先确定的波长的光。

在一些实施方案中,采样设备104包括微电路布置,诸如美国专利号7,595,882中描述的微电路布置,该美国专利全文以引用方式并入本文。更具体地,采样设备104可包括具有传感器106、108、110、112和114的平面阵列的集成电路。在采样设备104内形成的电路可被配置用于信号放大、数字化、存储和处理中的至少一者。电路可收集和分析检测到的荧光并生成用于将检测数据传送到信号处理器的像素信号(或检测信号)。电路还可以在采样设备104中执行附加的模拟和/或数字信号处理。采样设备104可包括导电通孔130,这些导电通孔执行信号路由(例如,将像素信号传输到信号处理器)。像素信号也可通过采样设备104的电触点传输。

相对于2020年5月14日提交的名称为“Systems and Devices forCharacterization and Performance Analysis of Pixel-Based Sequencing”的美国非临时专利申请号16/874,599(代理人案卷号ILLM 1011-4/IP-1750-US)进一步详细讨论了采样设备104,该专利申请以引用方式并入本文,如同在本文中完全阐述一样

图2示出了在其区块中包含簇的流通池200的一个具体实施。流通池200对应于图1的流通池102,例如,没有流罩136。此外,流通池200的描绘在性质上是象征性的,并且流通池200象征性地描绘了其内的各种槽道和区块,而未示出其内的各种其他部件。图2示出了流通池200的顶视图。

在一个实施方案中,流通池200被划分或分区为多个槽道,诸如槽道202a、202b、…、202P,即,P个槽道。在图2的示例中,流通池200被示出为包括8个槽道,即,在该示例中,P=8,但是流通池内的槽道的数量是具体实施特定的。

在一个实施方案中,各个槽道202被进一步分区为被称为“区块”212的非重叠区域。例如,图2示出了示例性槽道的区段208的放大视图。区段208被示出为包括多个区块212。

在示例中,每个槽道202包括一个或多个区块列。例如,在图2中,每个槽道202包括两个对应的区块列212,如放大区段208内所示。每个槽道内的每个区块列中的区块数量是具体实施特定的,并且在一个示例中,每个槽道内的每个区块列中可存在50个区块、60个区块、100个区块或另一适当数量的区块。

每个区块包括对应的多个簇。在测序过程中,对区块上的簇及其周围背景进行成像。例如,图2示出了示例性区块内的示例性簇216。

图3示出了具有八个槽道的示例性Illumina GA-IIx

相对于2020年3月20日提交的标题为“TRAINING DATA GENERATION FORARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/825,987(代理人案卷号ILLM 1008-16/IP-1693-US)进一步详细讨论簇和区块。

图4是用于分析来自测序系统的传感器数据(诸如碱基检出传感器输出(例如,参见图1))的系统的简化框图。在图4的示例中,系统包括测序机器400和可配置处理器450。可配置处理器450可以与由主机处理器(诸如中央处理单元(CPU)402)执行的运行时程序协调地执行基于神经网络的碱基检出器。测序机器400包括碱基检出传感器和流通池401(例如,相对于图1至图3所讨论的)。流通池可包括一个或多个区块,其中遗传物质的簇暴露于分析物流的序列,该分析物流的序列用于引起簇中的反应以识别遗传物质中的碱基,如相对于图1至图3所讨论的。传感器感测流通池的每个区块中该序列的每个循环的反应以提供区块数据。下文更详细地描述了该技术的示例。遗传测序是数据密集型操作,其将碱基检出传感器数据转换为在碱基检出操作期间感测到的遗传物质的每个簇的碱基检出序列。

该示例中的系统包括执行运行时程序以协调碱基检出操作的CPU 402、用于存储区块数据阵列的序列的存储器403、由碱基检出操作产生的碱基检出读段以及碱基检出操作中使用的其他信息。另外,在该图示中,系统包括用于存储一个(或多个)配置文件诸如FPGA位文件的存储器404和用于配置和重新配置可配置处理器450并且执行神经网络的神经网络的模型参数。测序机器400可包括用于配置可配置处理器以及在一些实施方案中的可重新配置处理器的程序,以执行神经网络。

测序机器400通过总线405耦接到可配置处理器450。总线405可使用高通量技术来实现,诸如在一个示例中,总线技术与当前由PCI-SIG(PCI特别兴趣小组)维护和开发的PCIe标准(快速外围组件互连)兼容。另外,在该示例中,存储器460通过总线461耦接到可配置处理器450。存储器460可以是设置在具有可配置处理器450的电路板上的板上存储器。存储器460用于由可配置处理器450高速访问在碱基检出操作中使用的工作数据。总线461还可使用高通量技术诸如与PCIe标准兼容的总线技术来实现。

可配置处理器,包括现场可编程门阵列(FPGA)、粗粒度可重构阵列(CGRA)以及其他可配置和可重构的设备,可被配置为比使用执行计算机程序的通用处理器可能实现的更有效或更快地实现各种功能。可配置处理器的配置涉及编译功能描述以产生有时称为位流或位文件的配置文件,以及将配置文件分发到处理器上的可配置元件。

该配置文件通过将电路配置为设置数据流模式、分布式存储器和其他片上存储器资源的使用、查找表内容、可配置逻辑块和可配置执行单元(如乘法累加单元、可配置互连和可配置阵列的其他元件)的操作,来定义要由可配置处理器执行的逻辑功能。如果配置文件可在现场通过改变加载的配置文件而改变,则可配置处理器是可重构的。例如,配置文件可存储在易失性SRAM元件中、非易失性读写存储器元件中以及它们的组合中,分布在可配置或可重构处理器上的可配置元件阵列中。多种可商购获得的可配置处理器适用于如本文所述的碱基检出操作。示例包括可商购获得的产品,诸如Xilinx Alveo

本文所述的实施方案使用可配置处理器450实现多循环神经网络。可配置处理器的配置文件可通过使用高级描述语言(HDL)或寄存器传输级(RTL)语言规范指定要执行的逻辑功能来实现。可使用被设计用于所选择的可配置处理器的资源来编译规范以生成配置文件。为了生成可能不是可配置处理器的专用集成电路的设计,可编译相同或相似的规范。

因此,在本文所述的所有实施方案中,可配置处理器的另选方案包括配置的处理器,该配置的处理器包括专用ASIC或专用集成电路或集成电路组,或片上系统(SOC)器件,该配置的处理器被配置为执行如本文所述的基于神经网络的碱基检出操作。

一般来讲,如被配置为执行神经网络的运行的本文所述的可配置处理器和配置的处理器在本文中称为神经网络处理器。

在该示例中,可配置处理器450通过使用由CPU 402或其他源执行的程序加载的配置文件进行配置,该配置文件配置可配置处理器450上的可配置元件的阵列以执行碱基检出功能。在该示例中,该配置包括数据流逻辑451,该数据流逻辑耦接到总线405和总线461,并且执行用于在碱基检出操作中使用的元件之间分发数据和控制参数的功能。

另外,可配置处理器450配置有碱基检出执行逻辑452以执行多循环神经网络。逻辑452包括多个多循环执行簇(例如,453),在该示例中,该多个多循环执行簇包括多循环簇1至多循环簇X。可根据涉及操作的所需通量和可配置处理器上的可用资源的权衡来选择多循环簇的数量。

多循环簇通过使用可配置处理器上的可配置互连和存储器资源实现的数据流路径454耦接到数据流逻辑451。另外,多循环簇通过使用例如可配置处理器上的可配置互连和存储器资源实现的控制路径455耦接到数据流逻辑451,该控制路径提供指示可用簇、准备好向可用簇提供用于执行神经网络的运行的输入单元、准备好提供用于神经网络的经训练参数、准备好提供碱基检出分类数据的输出补片的控制信号,以及用于执行神经网络的其他控制数据。

可配置处理器被配置为使用经训练参数来执行多循环神经网络的运行,以产生碱基流操作的感测循环的分类数据。执行神经网络的运行以产生用于碱基检出操作的受试者感测循环的分类数据。神经网络的运行对序列(包括来自N个感测循环中的相应感测循环的区块数据的数字N个阵列)进行操作,其中N个感测循环在本文所述示例中针对时间序列中每个操作的一个碱基位置提供用于不同碱基检出操作的传感器数据。任选地,如果需要,根据正在执行的特定神经网络模型,N个感测循环中的一些可能会失序。数字N可以是大于一的任何数字。在本文所述的一些示例中,N个感测循环中的感测循环表示时间序列中受试者感测循环之前的至少一个感测循环和受试者循环(subject cycle)之后的至少一个感测循环的一组感测循环。本文描述了其中数字N为等于或大于五的整数的示例。

数据流逻辑451被配置为使用用于给定运行的输入单元(包括N个阵列的空间对准补片的区块数据)将区块数据和模型的至少一些经训练参数从存储器460移动到用于神经网络的运行的可配置处理器。输入单元可通过一个DMA操作中的直接存储器存取操作来移动,或者在可用时隙期间与所部署的神经网络的执行相协调地移动的较小单元中移动。

如本文所述的用于感测循环的区块数据可包括具有一个或多个特征的传感器数据阵列。例如,传感器数据可包括两个图像,对这两个图像进行分析以识别在DNA、RNA或其他遗传物质的遗传序列中的碱基位置处的四种碱基中的一种。区块数据还可包括关于图像和传感器的元数据。例如,在碱基检出操作的实施方案中,区块数据可包括关于图像与簇的对准的信息,诸如距中心距离的信息,该距离指示传感器数据阵列中的每个像素距区块上遗传物质的簇的中心的距离。

在如下所述的多循环神经网络的执行期间,区块数据还可包括在多循环神经网络的执行期间产生的数据,称为中间数据,该数据可在多循环神经网络的运行期间重复使用而不是重新计算。例如,在多循环神经网络的执行期间,数据流逻辑可将中间数据代替用于区块数据阵列的给定补片的传感器数据写入存储器460。下文更详细地描述了类似于此的实施方案。

如图所示,描述了用于分析碱基检出传感器输出的系统,该系统包括可由运行时程序访问的存储器(例如,460),该存储器储存区块数据,该区块数据包括来自碱基检出操作的感测循环的区块的传感器数据。另外,该系统包括神经网络处理器,诸如可访问存储器的可配置处理器450。神经网络处理器被配置为使用经训练参数来执行神经网络的运行,以产生用于感测循环的分类数据。如本文所述,神经网络的运行对来自N个感测循环的相应感测循环(包括受试者循环)的区块数据的N个阵列的序列进行操作,以产生受试者循环的分类数据。提供数据流逻辑451以使用输入单元(包括来自N个感测循环的相应感测循环的N个阵列的空间对准补片的数据)将区块数据和经训练参数从存储器移动到神经网络处理器以用于神经网络的运行。

另外,描述了一种系统,其中神经网络处理器能够访问存储器,并且包括多个执行簇,该多个执行簇中的执行逻辑簇被配置为执行神经网络。数据流逻辑能够访问存储器和多个执行簇中的执行簇,以将区块数据的输入单元提供到该多个执行簇中的可用执行簇,这些输入单元包括来自相应感测循环(包括受试者感测循环)的区块数据阵列的数字N个空间对准补片,并且使执行簇将N个空间对准补片应用于神经网络以产生受试者感测循环的空间对准补片的分类数据的输出补片,其中N大于1。

图5是示出了碱基检出操作的方面的简化图,该方面包括由主机处理器执行的运行时程序的功能。在该图中,来自流通池(诸如图1至图2所示的流通池)的图像传感器的输出在线500上提供到图像处理线程501,该图像处理线程可对图像执行处理,诸如各个区块的传感器数据阵列中的重采样、对准和布置,并且可由为流通池中的每个区块计算区块簇掩膜的过程使用,该过程识别与流通池的对应区块上的遗传物质的簇对应的传感器数据阵列中的像素。为了计算簇掩膜,一个示例性算法是基于用于使用来源于softmax输出的度量来检测在早期测序循环中不可靠的簇的过程,然后丢弃来自那些阱/簇的数据,并且不针对那些簇产生输出数据。例如,过程可在第一N1个(例如,25个)碱基检出期间识别具有高可靠性的簇,并且拒绝其他簇。所拒绝的簇可能是多克隆的或强度非常弱的或因基准点模糊。该程序可在主机CPU上执行。在另选的实施方案中,该信息将潜在地用于识别要传回CPU的必要的感兴趣簇,从而限制中间数据所需的存储。

根据碱基检出操作的状态,图像处理线程501的输出在线506上提供到CPU中的调度逻辑510,该调度逻辑将区块数据阵列在高速总线507上路由到数据高速缓存504,或者在高速总线505上路由到多簇神经网络处理器硬件520,诸如图4的可配置处理器。硬件520将由神经网络输出的分类数据返回到调度逻辑510,该调度逻辑将信息传递到数据高速缓存504,或者在线511上传递到使用分类数据执行碱基检出和质量分数计算的线程502,并且可以标准格式布置用于碱基检出读段的数据。在线512上将执行碱基检出和质量分数计算的线程502的输出提供给线程503,该线程聚合碱基检出读段,执行其他操作诸如数据压缩,并且将所得的碱基检出输出写入指定目的地以供客户利用。

在一些实施方案中,主机可包括执行硬件520的输出的最终处理以支持神经网络的线程(未示出)。例如,硬件520可提供来自多簇神经网络的最终层的分类数据的输出。主机处理器可对分类数据执行输出激活功能诸如softmax功能,以配置供碱基检出和质量评分线程502使用的数据。另外,主机处理器可执行输入操作(未示出),诸如在输入到硬件520之前对区块数据进行重采样、批量归一化或其他调整。

图6是可配置处理器(诸如,图4的可配置处理器)的配置的简化图。在图6中,可配置处理器包括具有多个高速PCIe接口的FPGA。FPGA配置有封装器600,该封装器包括参考图1描述的数据流逻辑。封装器600通过CPU通信链路609来管理与CPU中的运行时程序的接口和协调,并且经由DRAM通信链路610来管理与板载DRAM 602(例如,存储器460)的通信。封装器600中的数据流逻辑将通过遍历板上DRAM 602上的数字N个循环的区块数据阵列而检索到的补片数据提供到簇601,并且从簇601检索过程数据615以递送回板上DRAM 602。封装器600还管理板上DRAM602和主机存储器之间的数据传输,以用于区块数据的输入阵列和分类数据的输出块两者。封装器将线613上的块数据传输到分配的簇601。封装器600在线612上将经训练的参数诸如权重和偏置提供到从板上DRAM 602检索到的簇601。封装器600在线611上将配置和控制数据提供到簇601,该簇经由CPU通信链路609从主机上的运行时程序提供或响应于该运行时程序而生成。簇还可在线616上向封装器600提供状态信号,该状态信号与来自主机的控制信号协作使用,以管理区块数据阵列的遍历,从而提供空间对准的块数据,并且使用簇601的资源对块数据执行多循环神经网络。

如上所述,在由封装器600管理的单个可配置处理器上可存在多个簇,该多个簇被配置用于在区块数据的多个补片中的对应补片上执行。每个簇可被配置为使用本文所述的多个感测循环的区块数据来提供受试者感测循环中的碱基检出的分类数据。

在系统的示例中,可将模型数据(包括内核数据,如过滤器权重和偏置)从主机CPU发送到可配置处理器,使得模型可根据循环数进行更新。举一个代表性示例,碱基检出操作可包括大约数百个感测循环。在一些实施方案中,碱基检出操作可包括双端读段。例如,模型训练参数可以每20个循环(或其他数量的循环)更新一次,或者根据针对特定系统和神经网络模型实现的更新模式来更新。在包括双端读段的一些实施方案中,其中区块上的遗传簇中的给定字符串的序列包括从第一末端沿字符串向下(或向上)延伸的第一部分和从第二末端沿字符串向上(或向下)延伸的第二部分,可在从第一部分到第二部分的过渡中更新经训练参数。

在一些示例中,可将区块的感测数据的多个循环的图像数据从CPU发送到封装器600。封装器600可任选地对感测数据进行一些预处理和转换,并且将信息写入板上DRAM602。每个感测循环的输入区块数据可包括传感器数据阵列,包括每个感测循环每个区块大约4000×3000个像素或更多,其中两个特征表示区块的两个图像的颜色,并且每个特征每个像素一个或两个字节。对于其中数字N为要在多循环神经网络的每个运行中使用的三个感测循环的实施方案,用于多循环神经网络的每个运行的区块数据阵列可消耗每个区块大约数百兆字节。在系统的一些实施方案中,区块数据还包括每个区块存储一次的DFC数据的阵列,或关于传感器数据和区块的其他类型的元数据。

在操作中,当多循环簇可用时,封装器将补片分配给簇。封装器在区块的遍历中获取区块数据的下一个补片,并将其连同适当的控制和配置信息一起发送到所分配的簇。簇可被配置为在可配置处理器上具有足够的存储器,以保存包括来自一些系统中的多个循环的补片且正被就地处理的数据补片,以及当在各种实施方案中使用乒乓缓冲技术或光栅扫描技术完成对当前补片的处理时将被处理的数据补片。

当分配的簇完成其对当前补片的神经网络的运行并产生输出补片时,其将发信号通知封装器。封装器将从分配的簇读取输出补片,或者另选地,分配的簇将数据推送到封装器。然后,封装器将对DRAM 602中的经处理的区块组装输出补片。当整个区块的处理已完成并且数据的输出补片已传输到DRAM时,封装器将区块的经处理输出阵列以指定格式发送回主机/CPU。在一些实施方案中,板上DRAM 602由封装器600中的存储器管理逻辑管理。运行时程序可控制测序操作,以连续流的方式完成运行中所有循环的区块数据的所有阵列的分析,从而提供实时分析。

图7是可使用本文所述的系统执行的多循环神经网络模型的图。图7所示的示例可称为五循环输入、一循环输出神经网络。对多循环神经网络模型的输入包括来自给定区块的五个感测循环的区块数据阵列的五个(例如,700个)空间对准补片。空间对准补片具有与集合中的其他补片相同的对准行和列尺寸(x,y),使得信息涉及序列循环中的区块上的遗传物质的相同簇。在该示例中,受试者补片是来自循环K的区块数据阵列的补片。一组五个空间对准补片包括来自在受试者补片之前两个循环的循环K-2的补片、来自在受试者补片之前一个循环的循环K-1的补片、来自在来自受试者循环的补片之后一个循环的循环K+1的补片、以及来自在来自受试者循环的补片之后两个循环的循环K+2的补片。

该模型包括输入补片中的每一个输入补片的神经网络的层的隔离叠堆701。因此,叠堆701接收来自循环K+2的补片的区块数据作为输入,并且与叠堆702、703、704和705隔离,使得它们不共享输入数据或中间数据。在一些实施方案中,叠堆710至705中的所有叠堆可具有相同的模型和相同的经训练参数。在其他实施方案中,模型和经训练参数在不同叠堆中可能不同。叠堆702接收来自循环K+1的补片的区块数据作为输入。叠堆703接收来自循环K的补片的区块数据作为输入。叠堆704接收来自循环K-1的补片的区块数据作为输入。叠堆705接收来自循环K-2的补片的区块数据作为输入。隔离叠堆的层各自执行内核的卷积操作,该内核包括层的输入数据上的多个滤波器。如在以上示例中,补片700可包括三个特征。层710的输出可包括更多的特征,诸如10个至20个特征。同样,层711至716中的每一个层的输出可包括适用于特定具体实施的任何数量的特征。滤波器的参数是神经网络的经训练参数,诸如权重和偏置。来自叠堆701-705中的每一个叠堆的输出特征集(中间数据)作为输入被提供到时间组合层的逆层次结构720(其中来自多个循环的中间数据被组合)。在例示的示例中,逆层次结构720包括:第一层,该第一层包括三个组合层721、722、723,每个组合层接收来自隔离叠堆中的三个隔离叠堆的中间数据;以及最终层,该最终层包括一个组合层730,该组合层接收来自三个时间层721、722、723的中间数据。

最终组合层730的输出是位于来自循环K的区块的对应补片中的簇的分类数据的输出补片。可将输出补片组装成循环K的区块的输出阵列分类数据。在一些实施方案中,输出补片可具有不同于输入补片的大小和尺寸。在一些实施方案中,输出补片可包括可经主机滤波以选择簇数据的逐像素数据。

根据特定具体实施,然后可将输出分类数据应用于任选地由主机或在可配置处理器上执行的softmax函数740(或其他输出激活函数)。可使用不同于softmax的输出函数(例如,根据最大输出产生碱基检出输出参数,然后利用使用上下文/网络输出的经学习非线性映射给出碱基质量)。

最后,可提供softmax函数740的输出作为循环K的碱基检出概率(750)并且将其储存在主机存储器中以在后续处理中使用。其他系统可使用用于输出概率计算的另一种函数,例如,另一个非线性模型。

可使用具有多个执行簇的可配置处理器来实现神经网络,以便在等于或接近一个感测循环的时间间隔的持续时间内完成一个区块循环的评估,从而有效地实时提供输出数据。数据流逻辑可被配置为将区块数据和经训练参数的输入单元分布到执行簇,并且分布输出补片以用于聚合在存储器中。

参考图8A和图8B描述了用于使用双通道传感器数据的碱基检出操作的如图7一样的五循环输入、一循环输出神经网络的数据的输入单元。例如,对于基因序列中的给定碱基,碱基检出操作可执行两个分析物流和两个反应,该两个反应生成两个信号(诸如图像)通道,这些图像可被处理以识别四种碱基中的哪一种碱基位于遗传物质的每个簇的遗传序列的当前位置处。在其他系统中,可利用不同数量的感测数据的通道。例如,可利用一通道方法和系统来执行碱基检出。美国专利申请公开号2013/0079232的合并材料讨论了使用各种数量的通道(诸如一通道、两通道或四通道)的碱基检出。

图8A示出了针对给定区块(区块M)的五个循环的区块数据阵列,该区块M出于执行五循环输入、一循环输出神经网络的目的使用。该示例中的五循环输入区块数据可被写入板载DRAM或系统中的可由数据流逻辑访问的其他存储器,并且对于循环K-2包括用于通道1的阵列801和用于通道2的阵列811,对于循环K-1包括用于通道1的阵列802和用于通道2的阵列812,对于循环K包括用于通道1的阵列803和用于通道2的阵列813,对于循环K+1包括用于通道1的阵列804和用于通道2的阵列814,对于循环K+2包括用于通道1的阵列805和用于通道2的阵列815。另外,区块的元数据的阵列820可在存储器中写入一次,在该情况下,包括DFC文件以连同每个循环用作对神经网络的输入。

尽管图8A讨论了两通道碱基检出操作,但是使用两个通道仅仅是示例,并且可使用任何其他适当数量的通道来执行碱基检出。例如,美国专利申请公开号2013/0079232的合并材料讨论了使用各种数量的通道(诸如一通道、两通道、或四通道、或另一适当数量的通道)的碱基检出。

数据流逻辑构成区块数据的输入单元,这些输入单元可参考图8B理解,该区块数据包括每个执行簇的区块数据阵列的空间对准补片,该每个执行簇被配置为对输入补片执行神经网络的运行。用于分配的执行簇的输入单元由数据流逻辑通过以下方式构成:从五个输入循环的区块数据阵列801-805、811、815、820中的每一个阵列读取空间对准补片(例如,851、852、861、862、870),并且经由数据路径(示意性地,850)将它们递送到被配置用于由分配的执行簇使用的可配置处理器上的存储器。分配的执行簇执行五循环输入/一循环输出神经网络的运行,并且针对受试者循环K递送受试者循环K中的区块的相同补片的分类数据的输出补片。

图9是如图7(例如,701和720)一样的系统中可使用的神经网络的叠堆的简化表示。在该示例中,神经网络的一些功能(例如,900、902)在主机上执行,并且神经网络的其他部分(例如,901)在可配置处理器上执行。

在一个示例中,第一函数可以为在CPU上形成的批量归一化(层910)。然而,在另一个示例中,作为函数的批量归一化可被融合到一个或多个层中,并且可不存在单独的批量归一化层。

如上文关于可配置处理器所讨论的,多个空间隔离卷积层被执行为神经网络的第一组卷积层。在该示例中,第一组卷积层在空间上应用2D卷积。

如图9所示,针对每个叠堆中的数字L/2(L是参考图7描述的)个空间隔离的神经网络层,执行第一空间卷积921,之后执行第二空间卷积922,之后执行第三空间卷积923,并依此类推。如923A处所指出,空间层的数量可以是任何实际数字,针对上下文的该实际数字在不同实施方案中可在从几个到多于20个的范围内。

对于SP_CONV_0,内核权重例如储存在(1,6,6,3,L)结构中,因为对于该层存在3个输入通道。在该示例中,该结构中的“6”归因于将系数储存在变换的Winograd域中(内核大小在空间域中为3×3,但在变换域中扩展)。

对于该示例,对于其他SP_CONV层,内核权重储存在(1,6,6L)结构中,因为对于这些层中的每一个层,存在K(=L)个输入和输出。

空间层的叠堆的输出被提供到时间层,包括在FPGA上执行的卷积层924、925。层924和925可以是跨循环应用1D卷积的卷积层。如924A处所指出,时间层的数量可以是任何实际数字,针对上下文的该实际数字在不同实施方案中可在从几个到多于20个的范围内。

第一时间层TEMP_CONV_0层824将循环通道的数量从5减少到3,如图7所示。第二时间层(层925)将循环通道的数量从3减少到1,如图7所示,并且针对每个像素将特征映射图的数量减少到四个输出,从而表示每个碱基检出中的置信度。

时间层的输出被累加在输出补片中并且被递送到主机CPU以应用例如softmax函数930或其他函数以归一化碱基检出概率。

图10示出了示出可针对碱基检出操作执行的10输入、六输出神经网络的另选具体实施。在该示例中,来自循环0至9的空间对准输入补片的区块数据被应用于空间层的隔离叠堆,诸如循环9的叠堆1001。将隔离叠堆的输出应用于具有输出1035(2)至1035(7)的时间叠堆1020的逆分层布置,从而提供受试者循环2至7的碱基检出分类数据。

图11示出了基于神经网络的碱基检出器(例如,图7)的专门化架构的一个具体实施,该基于神经网络的碱基检出器用于隔离对不同测序循环的数据的处理。首先描述使用特化的架构的动机。

基于神经网络的碱基检出器处理当前测序循环、一个或多个先前测序循环以及一个或多个后续测序循环的数据。附加测序循环的数据提供序列特异性上下文。基于神经网络的碱基检出器在训练期间学习序列特异性上下文,并且对该序列特异性上下文进行碱基检出。此外,前测序循环和后测序循环的数据为当前测序循环提供了预定相和定相信号的二阶贡献。

在不同测序循环处和不同图像通道中捕获的图像相对于彼此未对准并且具有残差配准误差。考虑到这种未对准,特化的架构包括空间卷积层,该空间卷积层不混合测序循环之间的信息并且仅混合测序循环内的信息。

空间卷积层使用所谓的“隔离卷积”,该隔离卷积通过经由“专用非共享”卷积序列独立处理多个测序循环中的每一个测序循环的数据来实现隔离。该隔离卷积对仅给定测序循环(即,循环内)的数据和所得特征映射图进行卷积,而不对任何其他测序循环的数据和所得特征映射图进行卷积。

例如,考虑输入数据包括(i)待进行碱基检出的当前(时间t)测序循环的当前数据,(ii)先前(时间t-1)测序循环的先前数据,以及(iii)先前(时间t+1)测序循环的后续数据。然后,专门化架构发起三个单独的数据处理管道(或卷积管道),即当前数据处理管道、先前数据处理管道和后续数据处理管道。当前数据处理管道接收当前(时间t)测序循环的当前数据作为输入,并且通过多个空间卷积层独立地处理该当前数据,以产生所谓的“当前空间卷积表示”作为最终空间卷积层的输出。先前数据处理管道接收先前(时间t-1)测序循环的先前数据作为输入,并且通过多个空间卷积层独立地处理该先前数据,以产生所谓的“先前空间卷积表示”作为最终空间卷积层的输出。后续数据处理管道接收后续(时间t+1)测序循环的后续数据作为输入,并且通过多个空间卷积层独立地处理该后续数据以产生所谓的“后续空间卷积表示”作为最终空间卷积层的输出。

在一些具体实施中,当前管道、一个或多个先前管道和一个或多个后续处理管道并行执行。

在一些具体实施中,空间卷积层是专门化架构内的空间卷积网络(或子网络)的一部分。

基于神经网络的碱基检出器还包括混合测序循环之间(即,循环间)的信息的时间卷积层。时间卷积层从空间卷积网络接收其输入,并且对由相应数据处理管道的最终空间卷积层产生的空间卷积表示进行操作。

时间卷积层的循环间可操作性自由源于以下事实:未对准属性通过由空间卷积层序列执行的隔离卷积的叠堆或级联而从空间卷积表示清除,该未对准属性存在于作为输入馈送到空间卷积网络的图像数据中。

时间卷积层使用所谓的“组合卷积”,该组合卷积在滑动窗口的基础上逐组地对后续输入中的输入通道进行卷积。在一个具体实施中,这些后续输入是由先前的空间卷积层或先前时间卷积层产生的后续输出。

在一些具体实施中,时间卷积层是专门化架构内的时间卷积网络(或子网络)的一部分。时间卷积网络从空间卷积网络接收其输入。在一个具体实施中,时间卷积网络的第一时间卷积层逐组地组合测序循环之间的空间卷积表示。在另一个具体实施中,时间卷积网络的后续时间卷积层组合先前时间卷积层的后续输出。

最终时间卷积层的输出被馈送到产生输出的输出层。输出用于在一个或多个测序循环处对一个或多个簇进行碱基检出。

在前向传播期间,专门化架构以两个阶段处理来自多个输入的信息。在第一阶段中,使用隔离卷积来防止输入之间的信息混合。在第二阶段中,使用组合卷积来混合输入之间的信息。将来自第二阶段的结果用于对该多个输入进行单个推断。

这不同于其中卷积层同时处理批量中的多个输入并且对该批量中的每个输入进行对应推断的批处理模式技术。相比之下,专门化架构将该多个输入映射到该单个推断。该单个推断可包括多于一个预测,诸如四种碱基(A、C、T和G)中的每一种碱基的分类得分。

在一个具体实施中,这些输入具有时间顺序,使得每个输入在不同的时间步长处生成并且具有多个输入通道。例如,该多个输入可包括以下三个输入:在时间步长(t)处由当前测序循环生成的当前输入、在时间步长(t-1)处由先前测序循环生成的先前输入以及在时间步长(t+1)处由后续测序循环生成的后续输入。在另一个具体实施中,每个输入分别来源于由一个或多个先前卷积层产生的当前输出、先前输出和后续输出,并且包括k个特征映射图。

在一个具体实施中,每个输入可包括以下五个输入通道:红色图像通道(红色)、红色距离通道(黄色)、绿色图像通道(绿色)、绿色距离通道(紫色)和缩放通道(蓝色)。在另一个具体实施中,每个输入可为蓝色及紫色通道(或者一个或多个其他适当的颜色通道),作为红色及绿色通道的替代或补充。在另一个具体实施中,每个输入可为蓝色及紫色通道,作为红色、绿色、紫色及/或黄色通道的替代或补充。在另一个具体实施中,每个输入可包括由先前卷积层产生的k特征映射图,并且每个特征映射图被视为输入通道。在又一示例中,每个输入可具有仅一个通道、两个通道或另一不同数量的通道。美国专利申请公开号2013/0079232的合并材料讨论了使用各种数量的通道(诸如一通道、两通道或四通道)的碱基检出。

图12描绘了隔离层的一个具体实施,该隔离层中的每一个隔离层可包括卷积。隔离卷积通过将卷积滤波器同步地应用于每个输入一次来处理该多个输入。利用隔离卷积,卷积滤波器组合相同输入中的输入通道,并且不组合不同输入中的输入通道。在一个具体实施中,将相同的卷积滤波器同步地应用于每个输入。在另一个具体实施中,将不同的卷积滤波器同步地应用于每个输入。在一些具体实施中,每一个空间卷积层包括一组k个卷积滤波器,其中每一个卷积滤波器同步地应用于每一个输入。

图13A描绘了组合层的一个具体实施,该组合层中的每一个组合层可包括卷积。图13B描绘了组合层的另一具体实施,该组合层中的每一个组合层可包括卷积。组合卷积通过对不同输入的对应输入通道进行分组并将卷积滤波器应用于每个分组来混合不同输入之间的信息。对这些对应输入通道的分组和卷积滤波器的应用是在滑动窗口的基础上发生的。在该上下文中,窗口跨越两个或更多个后续输入通道,其表示例如两个后续测序循环的输出。由于该窗口是滑动窗口,因此大多数输入通道用于两个或更多个窗口中。

在一些具体实施中,不同输入源于由先前空间卷积层或先前时间卷积层产生的输出序列。在该输出序列中,这些不同输入被布置为后续输出并且因此被后续时间卷积层视为后续输入。然后,在该后续时间卷积层中,这些组合卷积将卷积滤波器应用于这些后续输入中的对应输入通道组。

在一个具体实施中,这些后续输入具有时间顺序,使得当前输入在时间步长(t)处由当前测序循环生成,先前输入在时间步长(t-1)处由先测序循环生成,并且后续输入在时间步长(t+1)处由后续测序循环生成。在另一个具体实施中,每个后续输入分别来源于由一个或多个先前卷积层产生的当前输出、先前输出和后续输出,并且包括k个特征映射图。

在一个具体实施中,每个输入可包括以下五个输入通道:红色图像通道(红色)、红色距离通道(黄色)、绿色图像通道(绿色)、绿色距离通道(紫色)和缩放通道(蓝色)。在另一个具体实施中,每个输入可包括由先前卷积层产生的k特征映射图,并且每个特征映射图被视为输入通道。

卷积滤波器的深度B取决于后续输入的数量,这些后续输入的对应输入通道由卷积滤波器在滑动窗口的基础上逐组地进行卷积。换句话讲,深度B等于每个滑动窗口中的后续输入的数量和组大小。

在图13A中,来自两个后续输入的对应输入通道在每个滑动窗口中组合,并且因此B=2。在图13B中,来自三个后续输入的对应输入通道在每个滑动窗口中组合,并且因此B=3。

在一个具体实施中,滑动窗口共享相同的卷积滤波器。在另一个具体实施中,针对每个滑动窗口使用不同的卷积滤波器。在一些具体实施中,每一个时间卷积层包括一组k个卷积滤波器,其中每一个卷积滤波器在滑动窗口的基础上应用于后续输入。

图4至图10的更多细节及其变型可见于2021年2月15日提交的名称为“HARDWAREEXECUTION AND ACCELERATION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER”的共同未决的美国非临时专利申请号17/176,147(代理人案卷号ILLM 1020-2/IP-1866-US),该专利申请以引用方式并入本文,如同在本文中完全阐述一样。

碱基检出系统生成质量分数

图14A例示了为待检出的各种碱基生成对应于A、C、T和G的质量分数的碱基检出系统1400。

在图14A的示例中,碱基检出系统1400包括测序机器1404,诸如图4的测序机器400。在一个实施方案中,测序机器1404包括生物传感器(图14A中未示出),该生物传感器包括类似于图1的生物传感器100的流通池102的流通池1405。

如相对于图2、图3和图6所讨论的,系统1400的流通池1405包括多个区块1406,其中每个区块包括多个对应的簇1407。例如,流通池1405包括多个区块槽道,其中每个区块包括对应的多个簇,如相对于图2所讨论的。在图14A中,流通池1405被例示成包括示例性区块的一些此类示例性簇1407。在碱基检出过程期间,预测特定定序循环下针对每个簇的碱基检出(A、C、G、T),伴随有对应概率分数1424和/或质量分数1432,如本文将进一步详细论述的。

如本文先前所讨论,测序机器1404生成传感器数据1412。例如,生成针对单个簇以及针对单个测序循环的传感器数据。针对特定簇以及针对特定测序循环的传感器数据指示填充针对特定测序循环的特定簇的碱基。

系统1400包括碱基检出器1416。基于传感器数据1412,碱基检出器1416检出加载在簇中的序列的碱基。例如,在碱基检出循环期间,碱基检出器1416识别单个簇中的核酸序列中的核苷酸碱基。碱基检出是指在具体循环针对每个簇确定碱基检出(A,C,G,T)的过程。作为示例,可利用美国专利申请公布号2013/0079232的合并材料中描述的四通道方法和系统、双通道方法和系统或一通道方法和系统来执行碱基检出。

作为图像数据的传感器数据1412

由测序机器1404生成的传感器数据1412的类型是基于所使用的测序机器1404的类型的。例如,本文所讨论的测序机器中的一些测序机器以由流通池中的传感器捕获的图像的形式生成传感器数据1412,如本文先前所讨论的。例如,此类图像数据来源于在测序运行期间由测序机器的测序仪产生的测序图像。例如,传感器数据1412描绘一组分析物的强度发射,其中强度发射被捕获为图像(见图17E,例如包括强度信息的图像)。如所讨论,强度发射是在测序运行的测序循环期间由一组分析物中的分析物生成的。存储器存储包括传感器数据1412的强度发射的图像。

在一个具体实施中,图像数据包括从测序图像提取的n×n的图像补片,其中n为在1与10,000之间的范围,或另一适当的范围内的任何数字。测序运行针对对应的m个图像通道每一个测序循环产生m个图像,并且从m个图像中的每一个图像提取图像补片以准备用于特定测序循环的图像数据。在诸如4通道化学、2通道化学和1通道化学的不同实施方式中,m为4或2。在其他实施方式中,m为1、3或大于4。在一些具体实施中,图像数据在光学像素域中,并且在其他具体实施中,图像数据在经上采样的子像素域中。图像数据包括用于多个测序循环(例如,当前测序循环、一个或多个先前测序循环以及一个或多个后续测序循环)的数据。在一个具体实施中,图像数据包括用于三个测序循环的数据,使得用于当前(时间t)测序循环的待进行碱基检出的数据伴随有:(i)用于左侧翼/上下文/先前/前一个/之前(时间t-1)测序循环的数据和(ii)用于右侧翼/上下文/后一个/后续/之后(时间t+1)测序循环的数据(例如,见图7和图10)。在其他具体实施中,图像数据包括用于单个测序循环的数据。图像数据描绘一个或多个簇及其周围背景的强度发射。在一个具体实施中,当要对单个目标簇进行碱基检出时,以每个图像补片在其中心像素中包含目标簇的中心的方式从测序图像提取图像补片,这一概念在本文中称为“以目标簇为中心的补片提取”。使用强度通道(也被称为图像通道)将图像数据编码在输入数据中。对于从用于特定测序循环的测序仪获得的m个图像中的每一个图像,使用独立图像通道对其强度数据进行编码。例如,考虑测序运行使用在每个测序循环产生红色图像和绿色图像的2通道化学,然后,输入数据包括(i)具有n×n的像素的第一红色图像通道,该第一红色图像通道描绘一个或多个簇及其周围背景的在红色图像中捕获的强度发射,以及(ii)具有n×n的像素的第二绿色图像通道,该第二绿色图像通道描绘一个或多个簇及其周围背景的在绿色图像中捕获的强度发射。

在一个示例中,生物传感器包括光传感器阵列。光传感器被配置为感测来自生物传感器的检测表面上的对应像素区域(例如,反应位点/孔/纳米孔)的信息。设置在像素区域中的分析物据说与像素区域相关联,即,为相关联分析物。在测序循环中,对应于像素区域的光传感器被配置为检测/捕获/感测来自相关联分析物的发射/光子,并且作为响应,针对每个成像通道生成像素信号。在一个具体实施中,每个成像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一个具体实施中,每个成像通道对应于测序循环中的多个成像事件中的一个成像事件。在又一个具体实施中,每个成像通道对应于利用特定激光器照明和通过特定光学滤波器成像的组合。来自光传感器的像素信号被传送到(例如,经由通信端口)耦接到生物传感器的信号处理器。对于每个测序循环和每个成像通道,信号处理器产生图像,该图像的像素分别描绘/包含/指示/表示/表征从对应的光传感器获得的像素信号。这样,图像中的像素对应于:(i)生物传感器的光传感器,该光传感器生成由像素描绘的像素信号,(ii)相关联分析物,该相关联分析物的发射由对应的光传感器检测并被转换成像素信号,以及(iii)生物传感器的检测表面上保持相关联的分析物的像素区域。例如,考虑测序运行使用两个不同的成像通道(即红色通道和绿色通道)的情况。然后,在每个测序循环中,信号处理器产生红色图像和绿色图像。这样,针对测序运行的一系列k个测序循环,产生具有k对红色及绿色图像的序列作为输出。红色及绿色图像(即,不同的成像通道)中的像素在测序循环内一一对应。这意味着,尽管是在不同的成像通道中,但一对红色和绿色图像中的对应像素也描绘了同一相关联分析物的强度数据。类似地,成对的红色和绿色图像上的像素在测序循环之间一一对应。这意味着,尽管是针对测序运行的不同采集事件/时间步长(测序循环)进行的,但不同对的红色和绿色图像中的对应像素也描绘了同一相关联分析物的强度数据。红色及绿色图像(即,不同的成像通道)中的对应像素可被视为在第一红色通道和第二绿色通道中表达强度数据的“按循环的图像”的像素。其像素描绘像素区域(即,生物传感器的检测表面的区域(区块))的子集的像素信号的按循环的图像被称为“按循环的区块图像”。从针对每个循环的区块图像中提取的补片被称为“针对每个循环的图像补片”。在一个具体实施中,补片提取由输入准备器执行。图像数据包括针对测序运行的一系列k个测序循环生成的按循环的图像补片的序列。按循环的图像补片中的像素包含相关联分析物的强度数据,并且由对应的光传感器获得针对一个或多个成像通道(例如,红色通道和绿色通道)的强度数据,该光传感器被配置为检测来自相关联分析物的发射。在一个具体实施中,当要对单个目标簇进行碱基检出时,针对每个循环的图像补片以包含目标相关联分析物的强度数据的中心像素为中心,并且针对每个循环的图像补片中的非中心像素包含与目标相关分析物相邻的相关联分析物的强度数据。在一个具体实施中,图像数据由输入准备器准备。

作为图像数据的传感器数据1412的示例的进一步细节可见于2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING”的美国非临时专利申请号16/826,134(代理人案卷号ILLM1008-19/IP-1747-US),该申请以引用的方式并入本文。

作为非图像数据的传感器数据1412

在又一示例中,传感器数据1412可指示化学属性(诸如pH水平),该化学属性继而指示待预测的碱基。例如,此类pH变化可通过在分子延伸期间释放氢离子而诱导产生。检测pH变化并将其转化为与引入的碱基的数量成比例的电压变化(例如,就Ion Torrent而言)。

在另一个示例中,传感器数据1412可以呈由流通池1405生成的电信号(例如,电流或电压)的形式。

在又一个示例中,传感器数据1412根据纳米孔感测构造而成,该纳米孔感测使用生物传感器来测量当分析物穿过纳米孔或靠近其孔口时电流的中断,同时确定碱基的种类。例如,牛津纳米孔技术(ONT)测序基于以下概念:使单链DNA(或RNA)经由纳米孔穿过膜,并且跨膜施加电压差。孔中存在的核苷酸将影响孔的电阻,因此随时间推移的电流测量结果可指示DNA碱基穿过孔的序列。该电流信号(由于其在绘制时的外观而被称为“波形曲线(squiggle)”)是由ONT测序器收集的原始数据。这些测量结果被存储为在(例如)4kHz频率下获得的16位整数数据采集(DAC)值。在DNA链速度为约450碱基对/秒的情况下,这给出平均每种碱基大约九个原始观察结果。然后处理该信号以识别对应于各个读数的开孔信号的中断。通过将DAC值转换为DNA碱基序列的过程对原始信号的拉伸段进行碱基检出。在一些具体实施中,传感器数据1412包括归一化或缩放的DAC值。

碱基检出器1416

碱基检出器1416可为任何适当类型的碱基检出器。在一个示例中,碱基检出器1416可以是相对于图7至图13B讨论的基于神经网络的碱基检出器,其在本文中也称为基于“深度学习”的碱基检出器。在另一个示例中,碱基检出器为基于“RTA”的碱基检出器,其包括至少部分地具有线性的非神经网络模型。基于深度学习的碱基检出器和RTA碱基检出器的示例在2020年3月20日提交的名称为“Artificial Intelligence-Based Base Calling”的美国非临时申请号16/826,126(代理人案卷号ILLM 1008-18/IP-1744-US)中进行讨论,该申请以引用的方式并入用于所有目的,如同在本文中完全阐述一样。本公开的原理不限于用于生成碱基检出的碱基检出器的类型。例如,碱基检出器1416可为某一其他适当类型,其可处理任何适当类型的传感器数据,诸如本文中先前讨论的图像和/或非图像类型的传感器数据。

在一个示例中,碱基检出器1416在测序机器1404的本地。因此,碱基检出器1416和测序机器1404位于近侧(例如,在同一壳体内,或在两个位于近侧的壳体内),并且碱基检出器1416直接从测序机器1404接收传感器数据1412。

在另一个示例中,碱基检出器1416相对于测序机器1404位于远程,该碱基检出器为所谓的基于云的碱基检出器的示例。因此,碱基检出器1416经由计算机网络(例如因特网)从测序机器1404接收传感器数据1412。

概率分数

在一个示例中,无论所使用的碱基检出器的位置和/或类型如何,碱基检出器1416均包括用以生成待检出的碱基的概率分数的输出层1420。例如,输出层1420产生在当前测序循环掺入单个目标簇中的碱基为A、C、T和G中的一者的可能性(分类分数),并且基于可能性将碱基分类为A、C、T或G中的一者(例如,选择具有最大可能性的碱基)。在此类具体实施中,这些可能性是由softmax分类层产生的指数归一化得分,并且总和为1。因此,输出层1420(其例如可包括softmax层)预测所检出的碱基和对应的概率P(A)、P(C)、P(T)、P(G)。

例如,对于与特定簇相对应的待检出的特定碱基,生成对应的概率分数1424。图14A中例示了两个示例性簇1407a和1407b的示例性概率分数。仅作为示例,对于簇1407a,待针对特定测序循环检出的碱基为A的概率为P(A)=0.9;待针对特定测序循环检出的碱基为C的概率为P(C)=0.02;待针对特定测序循环检出的碱基为T的概率为P(T)=0.04;并且待针对特定测序循环检出的碱基为G的概率为P(G)=0.04。

仅作为示例,对于另一个簇1407b,待针对特定测序循环检出的碱基为A的概率为P(A)=0.01;待针对特定测序循环检出的碱基为C的概率为P(C)=0.03;待针对特定测序循环检出的碱基为T的概率为P(T)=0.01;并且待针对特定测序循环检出的碱基为G的概率为P(G)=0.95。

需注意,对于给定的簇以及对于给定的测序循环,概率分数的和P(A)+P(C)+P(T)+P(G)为1,即,概率分数被归一化(例如,在输出层1420中或在其之后使用softmax函数)。

在一个示例中,概率分数1424在本文中也称为可能性分数、softmax分数、置信度分数等。为每个簇以及为测序运行的每个测序循环生成概率分数1424。

在一个实施方案中,除了概率分数1424之外,碱基检出器1416还可检出碱基。仅作为示例,对于簇1407a,碱基检出器1416可基于概率分数P(A)高于阈值和/或基于概率分数P(A)高于P(C)、P(T)或P(G)中的每一者来将碱基检出为A。相似地,对于簇1407b,碱基检出器1416可基于概率分数P(G)高于阈值和/或基于概率分数P(G)高于P(A)、P(C)或P(T)中的每一者来将碱基检出为G。

质量分数1432

在一个实施方案中,碱基检出系统1400还包括质量分数生成模块1428,该质量分数生成模块被配置为将概率分数1424变换为对应的质量分数1432。例如,质量分数Q与对应的概率分数P有如下关联:

Q=-10×log

因此,对于给定的簇和给定的测序循环以及对于碱基A、C、T和G,对应的质量分数给出为:

Q(A)=-10×log10(1-P(A))、

Q(C)=-10×log10(1-P(C))、

Q(T)=-10×log10(1-P(T))、

Q(G)=-10×log

需注意,P(A)、P(C)、P(T)、P(G)分别为碱基被检出为A、C、T或G的概率。假设E(A)为与碱基被检出为A相关联的错误概率,E(C)为与碱基被检出为C相关联的错误概率,E(T)为与碱基被检出为T相关联的错误概率,并且E(G)为与碱基被检出为G相关联的错误概率。因此,E(A)=1–P(A);E(C)=1–P(C);等等。在此类示例中,质量分数还可重写为:

Q(A)=-10×log

Q(C)=-10×log

Q(T)=-10×log

Q(G)=-10×log

参考公式2和公式3,质量分数被定义为与碱基检出概率分数P或碱基检出错误概率分数E对数相关的属性。因此,质量分数Q(A)为待检出碱基为A的可能性的对数尺度的可能性;质量分数Q(C)为待检出碱基为C的可能性的对数尺度的可能性;等等。

通常,质量分数Q也称为“Phred”分数,并且是由自动化DNA测序机器(诸如由测序机器1404)生成的核碱基的识别的质量的量度。

图14A例示了与示例性簇1407a及1407b的概率分数1424相对应的示例性质量分数1422。例如,簇1407a具有概率分数P(A)=0.9和对应的质量分数Q(A)=10(使用公式2来计算的),具有概率分数P(C)=0.02和对应的质量分数Q(C)=0.087,及依此类推。在一个示例中,一般来讲,针对相对较高的概率分数,诸如针对高于阈值(诸如高于0.9)的概率分数来计算质量分数,例如,如图14B所示。

图14B例示了指示概率分数1424、质量分数1432、对应的错误概率和对应的错误率之间的关系的表1460。表14B是从公式1、2及3得出的。表1460不需加以说明。

质量分数的概率解释允许在下游分析诸如变异检出和序列组装中公平地整合不同的测序读段。如所讨论,质量分数为碱基检出中测序错误的概率的量度。质量分数的相对高的值表明碱基检出更为可靠,并且不正确的可能性更低,反之亦然。例如,如表1460中所见,如果碱基的质量分数为30,则该碱基被不正确地检出的概率为0.001。这还表明碱基检出准确度为99.9%。

需注意,本公开讨论了各种模块,诸如质量分数生成模块1428。在一个示例中且除非另外提及,否则这些模块中的每一个模块由处理器(例如,CPU 402和/或可配置处理器450,见图4)执行。因此,例如,可由此类处理器执行的计算机可读指令使这些模块得以实现。

预测质量分数1432与真实质量分数1440

图14C例示了由图14A的碱基检出系统1400预测的预测质量分数1432与真实(例如,根据经验计算的)质量分数1440之间的比较操作。例如,真实质量分数生成模块1448生成真实(例如,根据经验计算的)质量分数1440。质量分数比较模块1436接收由碱基检出系统1400预测的预测质量分数1432。需注意,图14A的质量分数1432称为图14C中的预测质量分数1432,以更好地辨别这些质量分数与真实质量分数1440。质量分数比较模块1436还接收真实质量分数1440,并将真实质量分数1440与预测质量分数1432进行比较,以生成质量分数比较结果1444。

真实(例如,根据经验确定的)质量分数1440

图14D例示了对图14C的真实(例如,根据经验确定的)质量分数1440的确定。例如,真实(例如,根据经验确定的)质量分数生成模块1448确定真实质量分数,例如,通过根据经验计算可能表示与质量分数相关联的真实可能性的质量分数。

在图14D的示例中,假设图14A的碱基检出器1416接收1,000个输入x1、x2、……、x1000,该输入为传感器数据1412。需注意,数量为1,000个的样本为非限制性示例。还假设碱基检出器1416生成1,000个概率分数1424,诸如概率分数P1、P2、……、P1000。这些概率分数中的每一个概率分数与对应的碱基被检出为A、C、T或G中的对应一者相关联。仅作为示例,假设P2为碱基被检出为T的概率P2(T),并具有值0.992;并且假设P33为碱基被检出为A的概率P33(A),并具有值0.21,如图14D所示。在一个示例中,假设对于碱基数字2,相关联的概率为P2(A)、P2(C)、P2(T)和P2(G)。还假设P2(T)在P2(A)、P2(C)、P2(T)和P2(G)中是最高的。因此,在图14B的示例中,假设P2仅仅是P2(T)(而不是P2(A)、P2(C)或P2(G))。即,对于碱基数字2,P2在相关联的四个概率分数中是最高的。相似地,对于碱基数字33,P33在相关联的四个概率分数中是最高的,并依此类推。

还假设,对于输入x1、x2、……、x1000,真实或基准真值碱基标记y1、y2、……、y1000分别由真实质量分数生模块1448接收(即,真实碱基标记y1用于输入x1,真实碱基标记y2用于输入x2,并依此类推)。真实碱基标记为用于待检出碱基的实际基准真值碱基标记。例如,假设对于在特定测序循环内在特定簇处生成的输入x1,预测碱基检出概率P(A)、P(C)、P(T)和P(G)。真实碱基标记y1为在该簇中以及用于该测序循环的实际碱基(其可为A、C、T或G中的一者)。在一个示例中,通过例如对已知碱基序列进行测序,已知真实碱基标记y1,……,y1000是先验的。

在图14D中,每个预测概率分数1424被指定到若干预先指定的区间中的对应一个。仅作为示例,如图14D所示,预测概率分数1424被指定到以下预先指定的区间中的对应区间:[0,0.1)、[0.1,0.2)、……、[0.9,1.0]。

例如,当P33为0.21时,预测概率分数P33被指定到区间[0.2,0.3);并且当P2为0.992时,预测概率分数P2被指定到区间[0.9,1.0]。仅作为示例,预测概率分数P33、P500、……、P904被指定到区间[0.2,0.3),预测概率分数P1、P48、……、P997被指定到区间[0.8,0.9),并且预测概率分数P2、P50、……、P909被指定到区间[0.9,1.0]。

在将预测概率分数1424指定到对应区间之后,真实质量分数生成模块1448计算各个区间的准确性或“真实经验可能性”。假设P2=0.992是对T的预测。然后,真实质量分数生成模块1448进行检查以查看对应的真实碱基标记y2是否为T。如果y2确实为T,则预测P2是正确的。

针对每一预测且针对每个区间重复此沿着(或检验)过程以例如计算每个区间的真实概率。例如,假设在区间[0.8,0.9)中存在50个概率P1、P48、……、P907,并且确定这些概率中的42个概率分别与其对应的真实碱基标记y1、y48、……、y907匹配。那么该区间的“真实”或根据经验确定的概率为42/50或0.84。然后使用公式1来确定该区间中的条目的真实质量分数1440。具体地,该区间中的条目的真实质量分数1440为-10×log

相反,仅作为示例,假设指定到区间[0.8,0.9)的预测概率P997为0.81,其对应于质量分数-10×log

因此,对于P997,预测质量分数1432为7.2124,而真实质量分数1440为7.9588。因此,对于P997,在预测质量分数1432与真实质量分数1440之间存在失配。

在一个示例中,质量分数比较模块1436输出质量分数比较结果1444,该质量分数比较结果将真实质量分数1440与预测质量分数1432进行比较,如继而将稍后在本文中论述的。

需注意,图14D中所示的区间划分仅仅是过度简化的示例。例如,在图14D中,仅在10个区间中指定预测概率。然而,在另一示例中,可存在向其指定预测概率的更高数量的区间。例如,单个区间[0.9,1.0]可细分为多个区间,诸如[0.9,0.91)、[0.91,0.92)、……、[0.99,1.0]。

在一个示例中,代替对预测概率进行区间划分(如图14D所示),可对预测质量分数1432进行区间划分作为代替。例如,预测质量分数1432被指定在对应的区间中。另外,以上述方式计算各个区间的真实质量分数。然后,质量分数比较模块1436可直接将真实质量分数1440与预测质量分数1432进行比较。

图15A例示了描绘预测质量分数1432与真实质量分数1440之间的比较的图表1500a,并且图15B例示了描绘预测质量分数1432与真实质量分数1440之间的另一比较的另一个图表1500b。

图表1500a具有斜率为1的虚线1505a。因此,线1505a上的任何点具有相等值的预测质量分数1432和真实质量分数1440。相似地,图表1500b具有斜率为1的虚线1505b。因此,线1505b上的任何点具有相等值的预测质量分数1432和真实质量分数1440。

需注意,本文呈现的许多后续图表将具有斜率为1的虚线。出于本公开的目的,此类线在本文中也称为“斜率1线”或“具有斜率1的线”。

图15A的图表1500a具有线1510a,该线针对碱基检出器的特定具体实施描绘了预测质量分数1432(X轴)与真实质量分数1440(Y轴)之间的关系。如图15A中所见,对于较高值的预测分数1432,预测分数1432通常超过对应的真实分数1440。例如,预测质量分数45大致对应于约32的真实质量分数1440。因此,当质量分数Q被图15A的碱基检出器预测为45时,该质量分数应在经验上为约32。因此,碱基检出器预测比对应的真实或根据经验计算的质量分数高的质量分数。因此,生成图15A的图表1500a的碱基检出器对于质量分数的预测是“过置信的”。

图15B的图表1500b具有线1510b,该线针对碱基检出器的另一特定具体实施描绘了预测质量分数1432与真实质量分数1440之间的关系。如图15B中所见,预测分数1432通常小于对应的真实分数1440。例如,预测质量分数45大致对应于约50的真实质量分数1440。因此,当质量分数Q被图15B的碱基检出器预测为45时,该质量分数应在经验上为约50。因此,碱基检出器预测比对应的真实或根据经验计算的质量分数低的质量分数。因此,生成图15B的图表1500b的碱基检出器对于质量分数的预测是“欠置信的”。

因此,如图15A和图15B中所见,碱基检出器在预测质量分数时可能是过置信的或欠置信的。理想的是,由碱基检出器预测的质量分数应完全或至少基本上(例如在1%或5%或更小的阈值内)匹配真实质量分数。需注意,斜率1线(例如,分别为图15A和图15B的线1505a和线1505b)中的任何点具有相等值的预测质量分数1432和真实质量分数1440。因此,期望预测质量分数与真实质量分数的图应与斜率1线重叠,或者应接近地沿循斜率1线(或与其接近一致)。然而,如图15A和图15B中所见,由碱基检出器预测的质量分数可能不总是与真实质量分数匹配(即,图表上的点可能不位于斜率1线上),从而导致由碱基检出器生成不完全准确的质量分数。

对角失配区域1625和过置信(或饱和)区域1620

图16例示了描绘预测质量分数1432(X轴)与真实质量分数1440(Y轴)之间的比较的另一个图表1600。类似于图15A和图15B,图16的图表1600还包括具有斜率1的“斜率1”线1605。图表1600具有多个采样点,例如,对应于人类基因组以及各种其他类型的基因组,诸如鲍氏不动杆菌(鲍曼不动杆菌)细菌、蜡样芽胞杆菌(蜡状芽孢杆菌)细菌的基因组,外显子组,以及昆虫库基因组。

在图16的图表1600中,标识两个主要区域1620和1625(使用虚线粗略地示出),其中该区域中的每一个区域具有多个图表采样点与斜率1线之间的失配。需注意,如所讨论,期望图表采样点与斜率1线接近重叠或一致,以达到预测质量分数132与真实质量分数1440之间的接近匹配。

例如,区域1625,在本文中也称为对角失配区域1625,在图表的对角区域中(例如,在位于斜率1线上的区域上)标识预测质量分数132与真实质量分数1440之间的失配。在图16的此特定示例中,对角失配区域1625主要在约15至40的真实质量分数之间。在此区域中,采样点分散在斜率1线周围,并且许多采样点偏离斜率1线或相对于其不一致。例如,区域1625的基本上最宽的区段具有宽度L1。另外,理想的是,此宽度应接近零,其中所有采样点均接近斜率1线。

区域1620在本文中也称为过置信区域1620(或饱和区域1620),因为碱基检出器1416在此区域中是过置信的。例如,对于位于此区域1620内的采样点,对应的预测质量分数比对应的真实质量分数更高。例如,此区域1620内的采样点的真实质量分数在约35与40之间。然而,此区域1620内的采样点的预测质量分数高于40。例如,此区域1620内的示例性采样点具有高达70的预测质量分数,但是具有约38的真实质量分数。因此,在区域1620中,碱基检出器1416在其质量分数预测方面是过置信的。

如图所示,在过置信区域1620中,预测质量分数饱和。即,在过置信区域1620中,预测质量分数的增加不会导致真实质量分数的对应显著增加。因此,过置信区域1620也称为饱和区域。

需注意,真实概率质量分数1440没有高于阈值真实分数,在一个示例中,该阈值真实分数为约40(其转化为概率分数0.9999和错误率0.01%)。这可能是因为测序机器1404和/或碱基检出系统中的错误,该错误可能因扩增、制备、桥式PCR或其他原因而出现。例如,在先前讨论的扩增过程期间,可能出现扩增错误。例如,在扩增过程期间,对于输入文库的制备可能出现文库制备错误。错误的另一个示例与桥式PCR相关联。此类错误对最大可获得的真实质量分数造成限制。例如,由于这些错误,即使经充分训练的碱基检出器也可能无法预测真正高于阈值质量分数的质量分数。另一个限制与所使用的数据的量的限制相关联。例如,每个区间应具有足够数量的碱基检出,以确定质量分数是否被相对良好地校准。仅作为示例,对于区间Q40(即,包括质量分数40的区间),必须存在至少例如10,000个碱基检出,但可能更多,以便可靠地确定错误率。对于相对较高的Q分数,此问题变得更严重,因为碱基检出器可能无法预测具有如此高的分数的足够碱基。因此,良好地校准相对高的质量分数的能力也受到限制。图16的示例中的阈值质量分数为约40或45。因此,尽管过置信的碱基检出器会预测质量分数60或70,但真实质量分数仍在阈值质量分数40内,如图16所述。

对真实质量分数1440与预测质量分数1432之间的失配的校正

期望图表16A的取样点例如在区域1620和区域1625两者中接近地沿循斜率1线。例如,期望预测质量分数1432与真实质量分数1440接近一致。本文随后依次讨论多种方法,该多种方法可至少部分地实现此目的。

此类方法可大体分类为三个类别:

1.输入归一化

2.质量分数重新映射

3.损失惩罚

下面依此进一步详细讨论这些方法中的每一种方法。

输入归一化

图17A例示了包括归一化模块1704的碱基检出系统1700,该归一化模块用于将由碱基检出器1416接收的传感器数据归一化。图17A的碱基检出系统1700至少部分地类似于图14A的碱基检出系统1400,并且两个系统中的类似部件使用相同标记来标记。例如,类似于图14A的碱基检出系统1400,图17A的碱基检出系统1700包括包含流通池1405的测序机器1404,其中流通池1405生成传感器数据1412。同样类似于图14A的碱基检出系统1400,图17A的碱基检出系统1700包括碱基检出器1416和质量分数生成模块1428。

在一个实施方案中,与图14A的碱基检出系统1400不同,图17A的碱基检出系统1700包括归一化模块1704,该归一化模块被配置为接收传感器数据1412,将传感器数据1412归一化以生成归一化的传感器数据1712,并将归一化的传感器数据1712提供给碱基检出器1416。因此,代替对传感器数据1412进行操作(如相对于图14A的系统1400所论述),图17A的系统1700的碱基检出器1416现在对归一化的传感器数据1712进行操作。

图17B例示了描绘由图17A的碱基检出系统的归一化模块1704执行的对传感器数据的归一化操作的两个图表1701和1711。具体地,图17B的第一图表1701例示了与传感器数据1412相关联的柱状图,并且图17B的第二图表1711例示了与归一化的传感器数据1712相关联的另一个柱状图。

现在参考图17B的第一图表1701,例示了描绘传感器数据1412的强度分布的柱状图。需注意,在此示例中,假设传感器数据1412为具有特定强度的簇的图像。然而,此类假设不限制本公开的范围。例如,本公开的教导内容还适用于其他类型的传感器数据,诸如当传感器数据由电信号(诸如电压或电流)、化学属性(例如,pH水平)等表示时。

图表1701的X轴上的图像强度的范围是从约220到约820,该范围在图表1701中标记为第一范围1702,其中图像强度具有任何适当的单位。因此,第一范围1702由对应的下强度220和对应的上强度820限定。如本文先前所讨论的,强度由流通池中的图像传感器捕获,如本文先前所讨论的,在测序循环期间从簇捕获的图像强度指示该测序循环内该簇的待检出碱基。

如在图表1701的强度对频率图中所见,大多数(例如,99.0%)的强度在第二强度范围1706内,其中第二强度范围1706在约240与760之间。例如,强度值240表示较低的第0.5百分位数,其中仅0.5%的强度低于240并且剩余99.5%的强度高于240。相似地,强度值820表示较高的第99.5百分位数,其中99.5%的强度低于820且仅0.5%的强度高于820。即,99%的强度在强度范围240与820之间,该强度范围在图17B中标记为第二范围1706。需注意,本文所用的0.5%的示例仅仅是示例,并且在其他示例中也可使用其他适当的百分比(诸如0.05%或1%)。因此,第二范围1706由下强度240和上强度760限定。如所见,第二范围1706完全涵盖在第一范围1702内。

在一个示例中,此第二范围1706之外的强度为异常强度,在一些示例中,该异常强度可能不会帮助生成匹配真实质量分数的预测质量分数。换句话说,异常强度导致预测质量分数与真实质量分数之间的一定失配。因此,在一个实施方案中,这些异常值在归一化过程期间被去除。

例如,在归一化过程期间,比第二范围1706低的强度(也称为较低异常强度)被指定与第二范围1706的下强度相对应的值。因此,在图17B的示例中,较低异常强度(即,在220与240之间的强度)被指定强度240。需注意,仅有0.5%的较低异常强度低于240并且被指定强度240。然而,在另一个示例中,代替将强度240指定给较低异常强度,只是在归一化过程期间从考虑范围中去除较低异常强度。

相似地,在归一化过程期间,比第二范围1706高的强度(也称为较高异常强度)被指定与第二范围1706的上强度相对应的值。因此,在图17B的示例中,较高异常强度(即,在760与820之间的强度)被指定强度760。需注意,仅有0.5%的强度高于760并且被指定强度760。然而,在另一个示例中,代替将强度760指定给较高异常强度,在归一化过程期间从考虑范围中仅仅去除较高异常强度。

因此,在处理较低异常强度和较高异常强度之后(例如,通过将第二范围1706的下强度和上强度分别指定给这些异常强度,或者通过仅仅忽略这些异常强度),强度现在仅在第二范围1706内。即,现在不存在异常强度。随后,第二范围1706内的强度被映射到强度的第三范围1722,如图17B的图表1711所示。

在图17B的示例中,第三范围1722由下强度0和上强度255限定。因此,可使用8位数据来表示第三范围1722内的强度。在其他示例中,可使用第三范围1722的其他上强度和下强度。

在一个示例中,第三范围小于第二范围。例如,第二范围是从强度240到760,即,强度范围520。相比之下,第三范围是从强度0到255,即,强度范围256。即,第二范围内的强度被紧缩并映射到第三范围。

在映射过程期间,具有第二范围1706内的第一强度值的传感器数据被映射成具有第三范围1722内的第二强度值。例如,第二范围由强度240和强度760限定——即,具有(760-240)=520的强度范围。第三范围由强度0和强度255限定——即,具有强度范围256。因此,仅作为示例,第二范围1706内240与242之间的强度被映射到第三范围1722内的强度0;第二范围1706内242与244之间的强度被映射到第三范围1722内的强度1;第二范围1706内758与760之间的强度被映射到第三范围1722内的强度255,并依此类推。因此,图表1701和图表1711中的两个柱状图具有一定程度地相同的形状。在一个示例中,图表1701的柱状图中的所有长条的和以及图表1701的柱状图中的所有长条的和基本上相同。在一个示例中,第二范围1706内第一柱状图(与图表1701相关联)下所覆盖的面积以及第三范围1722内第二柱状图(与图表1711相关联)下所覆盖的面积基本上等同。

包括处理异常强度和映射的归一化降低来自不同测序运行和不同测序运行准备过程的图像之间的变异性,并且知识在传感器数据的图像之间更具可转移性。

归一化结果

图17C例示了描绘预测质量分数1432与真实质量分数1440之间的比较的图表1710,其中传感器数据1412已由图17A的碱基检出系统1700的归一化模块1704在生成用于图17C的图表的数据时归一化。类似于图16,图17C的图表1710还包括具有斜率1的“斜率1”线1785。图表1710具有多个采样点,针对例如人类基因组以及各种其他类型的基因组,诸如鲍氏不动杆菌(鲍曼不动杆菌)细菌、蜡样芽胞杆菌(蜡状芽孢杆菌)细菌的基因组,外显子组,以及昆虫库基因组,例如,类似于图16的图表1600。

因此,图16的图表1600由不将传感器数据1412归一化的碱基检出系统(例如,图14A的碱基检出系统1400)生成,而图17C的图表1710由将传感器数据1412归一化并使用归一化的传感器数据来进行碱基检出的碱基检出系统(例如,图17A的碱基检出系统1700)生成。

将图16的图表1600的过置信区域1620与图17C的图表1710的类似过确信区域1720进行比较,可见,在两个图表的过置信区域中不存在实质变化。即,归一化过程可能不会显著地有助于改善过置信区域1720中的性能。

将图16的图表1600的对角失配区域1625与图17C的特别1710的类似对角失配区域1725进行比较,注意到显著的性能改善。例如,如先前所讨论的,对角失配区域在图表的对角区域中(例如,在位于斜率1线上的区域上)标识预测质量分数132与真实质量分数1440之间的失配。对角失配区域主要在15至40的真实质量分数之间。在此区域中,采样点分散在斜率1线周围,并且许多采样点偏离斜率1线。

例如,图16的图表1600中的区域1625的基本上最宽的区段具有宽度L1。另外,理想的是,此宽度应接近零,其中所有采样点均接近斜率1线。

图17C的图表1710中的区域1725的对应基本上最宽的区段具有宽度L2。如所见,图17C中的L2远远低于图16中的L1(即,L2

图17D例示了指示具有输入归一化的碱基检出系统与缺少此类输入归一化的另一碱基检出系统的期望校准错误(ECE)的图表。如所见,输入归一化改善由本发明人对其进行实验的大多数类型的基因组的ECE。

图17E例示了归一化之前的传感器数据1412与归一化的传感器数据1712之间的着色比较。例如,第一图像1790a例示了在任何归一化之前从流通池捕获的传感器数据1412。使用椭圆形形状在图像1790a中例示基准的位置。生物学标本成像在其上的固体载体可包括此类基准标记物,以便于确定标本或其图像相对于附接到固体载体的探针的取向。示例性基准包括但不限于小珠(具有或不具有荧光部分或诸如带标记的探针可与其结合的核酸之类的部分)、以已知或可确定的特征附接的荧光分子或将形态学形状与荧光部分组合的结构。示例性基准阐述于美国专利公布号2002/0150909中,该美国专利公布以引用方式并入本文。在图17E的图示中包括多个(诸如数十万个,或甚至数百万个)簇,尽管未带标记。簇上和周围的图像数据将被分析,以对该簇进行碱基检出。需注意,图像1790a中的强度比例是从0至2000,其中主要存在约200至800的强度,如相对于图17B所讨论的。

第二图像1790b例示了例如在已对传感器数据1712执行归一化之后的归一化的传感器数据1412。使用椭圆形形状在图像1790a中例示簇的位置。簇上和周围的图像数据将被分析,以对该簇进行碱基检出。需注意,图像1790b中的强度比例是从0至255,例如,作为归一化的结果。

归一化方法

图17F例示了描绘用于将传感器数据归一化并将归一化的传感器数据用于碱基检出操作的示例性方法1750的流程图。

在方法1750的1755处,(例如,由图17A的归一化模块1704)从流通池接收多个传感器数据,其中多个传感器数据在第一范围(例如,第一范围1702)内。例如,图17B例示了其中多个传感器数据包括在第一范围1702内的多个强度值的示例。

在1760处,(例如,由图17A的归一化模块1704)识别第二范围,使得至少阈值百分比的多个传感器数据在第二范围内。例如,图17B例示了第二范围1706的示例,使得99.0%的传感器数据在此范围内。需注意,99.0%仅用作示例,并且基于本公开的教导内容,所属领域的技术人员也可设想其他阈值百分比。

在1765处,(例如,由图17A的归一化模块1704)处理异常传感器数据(例如,在第二范围之外的传感器数据)。如本文先前所讨论的,在一个示例中,对较低异常传感器数据(例如,在图17B中220与240之间的强度)指定对应于第二范围的最低值(例如,240)的强度,如相对于图17B所讨论的。相似地,在一个示例中,对较高异常传感器数据(例如,在图17B中760与820之间的强度)指定对应于第二范围的最高值(例如,760)的强度,同样如相对于图17B所讨论的。在另一个示例中,仅仅忽略或不考虑异常传感器数据。

在1770处,(例如,由图17A的归一化模块1704)将多个传感器数据的至少子集(例如,其在第二范围内)映射到第三范围,以生成多个归一化的传感器数据1770。例如,如图17B所示,将图表1701中的第二范围内的强度映射到图表1711中的第三范围内的对应强度。在一个示例中,如果不考虑异常传感器数据,则在1770处不映射此类异常传感器数据,并仅将多个传感器数据的在第二范围内的子集映射到第三范围。

在1775处,在碱基检出器中处理多个归一化的传感器数据以针对多个归一化的传感器数据中的每一个归一化的传感器数据检出对应碱基。例如,图17A的碱基检出器1416接收归一化的传感器数据1712,并生成对应的碱基检出。

质量分数重新映射和量化

图18A例示了包括质量分数重新映射模块1804的碱基检出系统1800,该质量分数重新映射模块用于选择性地重新映射由碱基检出器1416预测的质量分数1432。图18A的碱基检出系统1800至少部分地类似于图14A的碱基检出系统1400,并且两个系统中的类似部件使用相同标记来标记。例如,类似于图14A的碱基检出系统1400,图18A的碱基检出系统1800包括包含流通池1405的测序机器1404,其中流通池1405生成传感器数据1412。同样类似于图14A的碱基检出系统1400,图18A的碱基检出系统1800包括碱基检出器1416和质量分数生成模块1428。

尽管未示出,但在一个示例中,图18A的系统1800可包括图17A的归一化模块1704。在此类示例中,碱基检出器1416对归一化的传感器数据1712进行操作。然而,在另一个示例中,图18A的系统1800缺少此类归一化模块1704。

在一个实施方案中,与图14A的碱基检出系统1400不同,图18A的碱基检出系统1800包括质量分数重新映射模块1804,该质量分数重新映射模块被配置为选择性地重新映射由质量分数生成模块1428生成的质量分数1432,如本文下面所讨论的。

在一个实施方案中,除了重新映射质量分数之外,碱基检出系统1800还可包括质量分数量化模块1812,该质量分数量化模块量化经重新映射的质量分数1832,以生成量化的经重新映射的质量分数1836。在一个示例中,质量分数量化模块1812是任选的,并且因此使用图18A中的虚线来例示。在一个实施方案中,系统1800还包括存储在存储器中的一个或多个查找表(LUT)1808,该存储器可由质量分数重新映射模块1804访问。

质量分数重新映射和量化示例

图18B1、图18B2、图18B3、图18B4和图18B5组合地例示了质量分数重新映射和量化的示例。参考图18B1,例示了图表1828a,该图表在X轴上描绘由碱基检出器1416输出的预测质量分数1432,并且在Y轴上描绘对应的真实质量分数1440。如相对于图16所讨论的,在过置信区域1820中(更多细节参见图16),预测质量分数高于对应的真实分数。

例如,与特定簇的特定碱基相对应的采样点1827(在过置信区域1820中)具有预测质量分数56和真实质量分数19。因此,在一个示例中,重新映射模块1804将具有值56的质量分数1432映射到具有值19的经重新映射的质量分数。

需注意,图表1828a包括两种类型的采样点:校准点和操作点。校准点具有已知的基准真值碱基调用和已知的真实质量分数1440。校准点用于生成用于重新映射的LUT(参见图18B2),并且随后操作点使用该LUT来重新映射到新的质量分数。这里的假设是,使用校准点生成的重新映射LUT也适用于操作点。

现在参考图18B2,例示了存储预测质量分数1432与真实质量分数1440之间的映射数据的示例性重新映射LUT 1808a。例如,如相对于图18B1所讨论的,预测质量分数56实际上对应于真实质量分数19,如重新映射LUT 1808a的第一行中所指示。重新映射LUT 1808a的其他行被类似地填充。

需注意,LUT 1808a为过度简化的重新映射LUT,以例示本公开的教导内容。在现实具体实施中,重新映射LUT可能具有更多的行,用于将各种预测质量分数1432重新映射到对应的真实质量分数1440。

参考图18B3,例示了图表1828c,该图表描绘针对图18B1的图表1828a的操作点的经重新映射的质量分数。如图18B3所示,在重新映射质量分数之后,对应于质量分数的采样点现在与斜率为1的线更加一致(例如,相对于图18B1的一致性)。因此,图18B3的经重新映射的质量分数现在基本上更接近(等于)其相应的真实质量分数(例如,相对于图18B1的一致性)。需注意,重新映射有助于过置信区域1820中的一致性。

图18B4例示了用于量化经重新映射的质量分数的LUT 1808b。在图18B4的示例中,每个经重新映射的质量分数被指定给与LUT 1808b的三个行相对应的3个量化的质量分数中的一个量化的质量分数。然而,如此数量的量化的质量分数仅为示例且不限制本公开的范围。例如,在另一个示例中,每个经重新映射的质量分数可被指定给与LUT的Q数量的行相对应的Q数量的量化的质量分数中的一个量化的质量分数,其中Q可为二、四或更高。

在图18B4的示例中,经重新映射的质量分数被指定或分组为三个区间[0,18)、[18,30)及[30,无穷大)(参见LUT 1808b的第一列),但区间的范围仅为示例且并不限制本公开的范围。LUT 1808b的第二列指示与每个区间相对应的示例性量化的经重新映射的质量分数。例如,包括在区间[0,18)中的经重新映射的质量分数被指定量化的经重新映射的质量分数9.550;包括在区间[18,30)中的经重新映射的质量分数被指定量化的经重新映射的质量分数22.840;包括在区间[30,inf)中的经重新映射的质量分数被指定量化的经重新映射的质量分数37.382。

量化的质量分数9.550、22.840和37.382被预先指定在LUT中。在一个示例中,这些分数是通过以下生成的:对指定到对应区间的校准采样点(参见图18B1)的真实质量分数求平均。例如,假设将300个校准采样点指定到区间[0,18)。被指定到区间[0,18)的这300个校准采样点的真实质量分数的平均值被确定为9.550。因此,区间[0,18)被指定经重新映射的量化的质量分数9.550,其为包括在此区间中的校准采样点的真实质量分数的平均值。

LUT 1808b的第三列指示相应区间中的初始(即,未经重新映射的)质量分数的平均值。例如,接着其中300个校准采样点被指定到区间[0,18)的上述示例,在重新映射之前它们的质量分数的平均值为9.347。因此,通过比较LUT的第二列和第三列,可以理解重新映射对质量分数的改变或偏离程度。换句话说,对于给定的行(即,给定的质量分数区间),LUT的第二列与第三列之间的偏差为对归因于重新映射的平均质量分数的改变的指示。

图18B5为例示量化的分数的图表1828d。例如,图18B5至少部分类似于图18B3的图表1828c。然而,与图18B3的图表1828c不同,在图18B5的图表中,示出了LUT 18B4的三个量化的分数以及经重新映射的质量分数。因此,在一个示例中,系统1800输出量化的经重新映射的质量分数1836(例如,而不是经重新映射的质量分数)。

图18C1和图18C2例示了质量分数重新映射和量化的两个另外的示例。例如,例示了用于测序读段循环1(称为读段1)及测序读段循环2(称为读段2)的质量分数重新映射和量化。

参考读段1的示例,在读段1下例示了两个图表:(i)例示重新映射和量化的顶部图表1840a,以及(ii)作为柱状图的底部图表1840b。例如,在图表1840a中,如在红色采样圆点中所见,高于约40的质量分数偏离具有斜率1的线。使用蓝色圆点示出的质量分数被重新映射。如所见,经重新映射的质量分数与斜率1线更加一致(例如,相对于重新映射之前的质量分数)。柱状图1840b以红色例示初始质量分数,并且以蓝色例示经重新映射的质量分数。如图所示,初始分数可高达65或70,而经重新映射的质量分数小于约52。

现在参考读段2的示例,在读段2下例示了两个图表:(i)例示重新映射和量化的顶部图表1840c,以及(ii)作为柱状图的顶部图表1840d,两个图表中的每一个图表将基于上面相对于读段1的图表的讨论而显而易见。

特定碱基序列的质量分数重新映射和量化

在一些具体实施中,碱基检出器1416通过处理多个测序循环(包括由右测序循环和左测序循环情境化的当前测序循环)的测序图像窗口来进行当前测序循环的碱基检出。在一个示例中,碱基“G”由测序图像中的黑暗状态或关断状态指示。因此,在一个示例中,碱基“G”的重复模式可导致较高可能性的错误碱基检出。在当前测序循环是针对非G碱基(例如,碱基“T”),但右侧和左侧侧接G时,也可能出现此类错误的碱基检出。

在一个示例中,存在其碱基检出中的错误概率相对高的一些特定碱基检出序列模式。例如,对于均聚物的碱基序列(例如,GGGGG)或侧接均聚物的碱基序列(例如,GGTGG),碱基检出中错误概率相对高。可能存在其碱基检出中的错误概率也相对高的其他特定碱基检出序列模式,诸如GGTCG。在一个示例中,此类特定碱基检出序列模式具有多个G,诸如至少在序列的开始和结束处的G,并且可能在5碱基序列中的两个端部G之间具有第三个G。此类特定碱基检出序列的其他示例包括GGXGG、GXGGG、GGGXG、GXXGG和GGXXG,其中X可为A、C、T或G中的任一者。

图19例示了针对一些特定碱基序列描绘(i)特定碱基序列的质量分数的平均值与(ii)特定碱基序列的经重新映射的质量分数的平均值之间的偏差的表,其中重新映射是根据例如图18B2的通用LUT来执行的。需注意,由于用于描绘未划分的表的空间的限制,图19的表被划分为两个区段1901a和1901b。表中描绘的特定序列为ACGGC、TCGAG等,并且最后为GGGGG、GGTGG等。例示了各种特定碱基序列的读段序列1和读段序列2的偏差。使用各种类型的基因组,诸如鲍氏不动杆菌(鲍曼不动杆菌)细菌、人类基因组、蜡样芽胞杆菌(蜡状芽孢杆菌)细菌和红细菌。对于每种类型的基因组,使用对应的碱基序列计数和对应的偏差。最后,在图19的表的区段1901b的最后一列中列出各种特定碱基序列的平均偏差。在图19中呈现的偏差表示在生成目的LUT(诸如在图18B2中)被用于重新映射时平均质量分数由于重新映射过程而改变的量。

参考图19的区段1901b的第二列(即,特定碱基序列)和最后一列(即,平均偏差),可以看出,对于某些特定碱基序列,特定碱基序列中的至少一些特定碱基序列的偏差是显著的。例如,GGGGG的读段2的平均偏差为7.51,并且GGTGG的读段2的平均偏差为6,它们是显著的(例如,与ACGGC的读段1的平均偏差3.37相比)。因此,对一般碱基序列起作用的重新映射可能不足以对特定碱基序列中的至少一些特定碱基序列起作用。

图20A例示了能用于将特定碱基序列(例如,均聚物序列GGGGG)的预测质量分数重新映射到经重新映射的真实质量分数的LUT 2000。需注意,LUT 2000具体地用于均聚物序列GGGGG,该LUT可通过用均聚物序列GGGGG进行重复测试并且生成预测碱基序列的真实质量分数来得出。更具体地,LUT 2000用于重新映射序列GGGGG的中间G的预测质量分数。例如,参考LUT 2000的带圆圈的条目,对于特定序列GGGGG的中间G,预测质量分数27可被重新映射到真实质量分数30。

图20B例示了使用图20A的LUT 2000对特定碱基序列(例如,均聚物序列GGGGG)的预测质量分数进行的重新映射。例如,在图20B中,由碱基检出器输出碱基序列G、A、C、G、G、G、G、G、T,并基于列出的序列输出针对各个碱基的对应的预测相应质量分数Q25、Q23、Q25、Q27、Q37、Q27、Q27、Q32和Q27,如图20B的表的前两行所示。即,序列中的第一个G与预测质量分数25相关联,序列中的第二个A与预测质量分数23相关联,及依此类推。注意,碱基检出中存在特定均聚物序列GGGGG。

如图20B所示,使用图18B2的LUT 1808b(或另一个类似的“通用”LUT)来重新映射除均聚物序列GGGGG的中间G之外的所有碱基的预测质量分数。需注意,图18B2的LUT 1808b在本文中称为“通用”重新映射LUT,因为此LUT用于重新映射一般碱基序列。

相比之下,图20A的LUT 2000为具体专用于特定碱基序列GGGGG的中间碱基的“碱基序列特定”LUT。因此,根据LUT 2000中的带虚线圆圈的条目来替换图20B中的此序列的中间G的预测质量中间Q27。

需注意,图20B的序列中的第4个碱基G、第6个碱基G和第9个碱基T各自具有质量分数Q27。可(例如,使用通用LUT)对第4个碱基G和第9个碱基T的质量分数Q27进行类似的重新映射,而将(例如,使用碱基序列特定LUT)对第6个碱基G(其为特定碱基序列的中间的一个碱基)进行不同的重新映射。因此,虽然所有三个碱基具有相同的质量分数Q27,但仅作为示例,可根据通用LUT将第4个碱基G和第9个碱基T重新映射到经重新映射的质量分数Q32,而可根据图20A的碱基序列特定LUT 2000将第6个碱基G(其为特定碱基序列的中间的一个碱基)重新映射到Q30。

图20A和图20B涉及特定均聚物序列GGGGG。对于其他特定均聚物或侧接均聚物的序列,诸如GGTGG、GGTCG、GGXGG、GXGGG、GGGXG、GXXGG、GGXXG等,其中X可为A、C、T或G中的任一者,可生成类似的特定LUT。

损失惩罚

图21例示了包括损失惩罚模块2106的碱基检出系统2100,该损失惩罚模块用以针对一个或多个特定碱基序列选择性地惩罚损失。图21的碱基检出系统2100至少部分地类似于图14A的碱基检出系统1400,并且两个系统中的类似部件使用相同标记来标记。例如,类似于图14A的碱基检出系统1400,图21的碱基检出系统2100包括包含流通池1405的测序机器1404,其中流通池1405生成传感器数据1412。同样类似于图14A的碱基检出系统1400,图21的碱基检出系统2100包括碱基检出器1416和质量分数生成模块1428。

在一个实施方案中,如图21所示,碱基检出器1416包括神经网络模型的前向传递区段2108、后向传播传递区段2112、损失生成模块2104和损失惩罚模块2106。损失生成模块2104接收前向传递区段的输出(例如,预测碱基检出)以及基准真值(例如,基准真值碱基序列),并基于前向传递区段2108的输出与基准真值2105的比较来生成损失函数2109。损失惩罚模块2106惩罚损失函数2109,以生成受惩罚的损失函数2111。在一个实施方案中,由后向传播区段2112使用受惩罚的损失函数2111来生成输入梯度和/或权重梯度,该输入梯度和/或权重梯度继而被用于调整神经网络模型的权重并由此训练神经网络模型。损失惩罚模块2106选择性地惩罚损失函数2109,例如,当检测到特定碱基序列(例如,均聚物序列或侧接均聚物的序列,诸如GGXGG,其中X为A、C、T或G中的任一者)时。

例如,训练深度神经网络(诸如碱基检出器1416的神经网络模型)的目标是优化前向传递的每个层中的权重参数,这将较简单的特征逐渐组合成复杂的特征,使得可从数据中学习到最合适的分层表示。优化过程的单个循环按以下步骤来进行。首先,在给定训练数据集的情况下,前向传递区段顺序地计算每个层中的输出并将函数信号通过网络向前传播。在前向传递区段的最后一层中,目标损失函数(例如,由损失生成模块2104生成)测量推断出的输出与给定的标记之间的误差。损失惩罚模块2106惩罚损失函数2109,以生成受惩罚的损失函数2111。为了使训练误差最小化,后向传播传递使用链规则来后向传播误差信号(例如,受惩罚的损伤函数2111)并计算相对于整个神经网络中的所有权重的梯度。最后,基于梯度下降使用优化算法来更新权重参数。虽然批量梯度下降针对每个完整的数据集执行参数更新,但随机梯度下降通过针对每个小数据示例集执行更新来提供随机逼近。若干优化算法源自随机梯度下降。例如,训练算法执行随机梯度下降,同时分别基于每个参数的梯度的更新频率和动量自适应地修改学习速率。由损失生成模块2104生成的损失函数可为任何适当的类型,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。在以下中更详细地讨论了包括神经网络模型(其包括前向传递区段、后向传播区段和损失生成模块)的碱基检出器:2020年3月20日提交的标题为“ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING”的美国非临时申请号16/826,134(代理人案卷号ILLM 1008-19/IP-1747-US),该申请以引用的方式并入本文。

图22A至图22E组合地例示了响应于特定碱基序列的检测而对损失函数进行的惩罚(例如,由损失惩罚模块2106)。相对于图22A至图22E的示例讨论的特定碱基序列为GGXGG,其中“X”可为A、C、T或G中的任一者。然而,本公开的教导内容不限于任何特定的“特定碱基序列”,并且可应用于任何均聚物序列、侧接均聚物的序列和/或本文相对于图19、图20A和图20B讨论的任何其他特定碱基序列。

参考图22A,例示了交叉熵矩阵2204a的区段,该交叉熵矩阵为损失函数2109的损失矩阵。还例示了惩罚矩阵2208a。在一个示例中,惩罚矩阵2208a用以选择性地惩罚交叉熵矩阵2204a的损失函数。图22A的交叉熵矩阵2204a和惩罚矩阵2208a用于测序循环(t-2)。需注意,交叉熵矩阵2204a和惩罚矩阵2208a中的每一者具有按阵列形式排列的多个元素,并与针对来自流通池的各个簇生成的一个或多个图像的像素(或子像素)相对应。

在一个实施方案中,对交叉熵矩阵2204a和惩罚矩阵2208a执行逐元素乘法。例如,将交叉熵矩阵2204a的位置(1,1)处的元素乘以惩罚矩阵2208a的位置(1,1)处的元素;将交叉熵矩阵2204a的位置(1,2)处的元素乘以惩罚矩阵2208a的位置(1,2)处的元素;以及一般来讲,将交叉熵矩阵2204a的位置(i,j)处的元素乘以惩罚矩阵2208a的位置(i,j)处的元素。在图22A中,交叉熵矩阵2204a和惩罚矩阵2208a的此类乘法生成用于持续循环(t-2)的受惩罚的损失函数2111。

一般来讲,惩罚矩阵2208a的元素中的每一个元素具有权重或惩罚w1,其可为例如1。因此,如果对于惩罚矩阵2208a的元素,w1=1,则惩罚矩阵2208a的元素对交叉熵矩阵2204a的对应元素不施加惩罚(或者施加惩罚1)。在图22A的示例中,惩罚矩阵2208a的所有元素具有相等的惩罚w1=1,并且因此,通过交叉熵矩阵2204a和惩罚矩阵2208a的乘法生成的受惩罚的损失函数2111仅仅为交叉熵矩阵2204a。因此,本质上,惩罚矩阵2208a不施加图22A中的惩罚。

例示了交叉熵矩阵2204a中的方格条目和权重矩阵2208a中的对应权重w1。假设,对于图22A的测序循环(t-2),对应于方格框的基准真值碱基为G。

现在参考图22B,例示了交叉熵矩阵2204b(其为损失函数2109的损失矩阵)的区段和用于测序循环(t-1)的惩罚矩阵2208b。还例示了交叉熵矩阵2204b中的方格条目。还假设,对于图22B的测序循环(t-1),对应于方格框的碱基具有基准真值G。另外,惩罚矩阵2208b的所有条目为w1=1,并且因此,实际上,惩罚矩阵2208b不施加图22B中的惩罚。

现在参考图22C,例示了交叉熵矩阵2204c(其为损失函数2109的损失矩阵)的区段和用于测序循环(t-1)的惩罚矩阵2208c。还例示了交叉熵矩阵2204c中的方格条目。还假设,对于图22C的测序循环(t),对应于方格框的碱基具有基准真值X,其中X可为A、C、T或G中的任一者。还假设,对于图22D的测序循环(t+1),对应于方格框的碱基具有基准真值G;并且假设,对于图22E的测序循环(t+2),对应于方格框的碱基具有基准真值G。因此,图22A至图22E的交叉熵矩阵2204a、2204b、2204c、2204d和2204e的位置(3,4)分别与特定碱基序列GGXGG相关联。因此,此特定碱基序列的中间碱基被对应惩罚矩阵2208c惩罚。

例如,对应于图22C的惩罚矩阵2208c的位置(3,4)的惩罚为W2,其中W2大于w1(即,W2>w1),该惩罚要乘以与特定碱基序列的中间X相关联的损耗(即,乘以交叉熵矩阵2204c的元素(3,4))。例如,W2为w1的值的至少两倍。例如,W2大于2,而w1为1。在一个示例中,W2=20或更高。惩罚矩阵2208c的剩余元素仍然为w1。

因此,实际上,惩罚矩阵2208c对图22C中的交叉熵矩阵2204c的元素中的任一个元素不施加惩罚,除了交叉熵矩阵2204c的通过权重W2惩罚的元素(3,4)之外。

现在参考图22D,例示了交叉熵矩阵2204d(其为损失函数2109的损失矩阵)的区段和用于测序循环(t+1)的惩罚矩阵2208d。还例示了交叉熵矩阵2204d中的方格条目。如先前所讨论,对于图22D的测序循环(t+1),对应于方格框的碱基具有基准真值G。另外,惩罚矩阵2208d的所有条目为w1=1,并且因此,实际上,惩罚矩阵2208d不施加图22D中的惩罚。

现在参考图22E,例示了交叉熵矩阵2204e(其为损失函数2109的损失矩阵)的区段和用于测序循环(t+2)的惩罚矩阵2208e。还例示了交叉熵矩阵2204e中的方格条目。如先前所讨论,对于图22E的测序循环(t+2),对应于方格框的碱基具有基准真值G。另外,惩罚矩阵2208e的所有条目为w1=1,并且因此,实际上,惩罚矩阵2208e不施加图22E中的惩罚。

因此,在图22A至图22E所示的五个连续碱基检出循环中,方格框与碱基序列GGXGG相关联,该碱基序列为均聚物序列或侧接均聚物的序列(例如,基于X的值)。在一个实施方案中,此特定碱基序列的中间X(例如,其两侧均侧接G)的损失与针对该序列的其他碱基以及其他一般碱基序列的损失惩罚的不同地受惩罚。例如,此特定碱基序列的中间X的损失通过大于1的对应惩罚W2(即,W2>1)的对应放大而被放大。

当损失惩罚模块2106在基准真值数据中检测到特定碱基序列时,损失惩罚模块2106将特化的经放大的权重或惩罚应用于此类特定碱基序列的一个或多个碱基。因此,例如,图22C的惩罚矩阵2208c的惩罚W2相对于各种惩罚矩阵2208的各种其他惩罚是不同的(例如,经放大的或更高的)。例如,图22C的W2与图22A、图22B、图22D和/或图22E的w1相比是不同的(例如,经放大的或更高的)。

需注意,损失惩罚是在基于神经网络的碱基检出器的训练阶段期间执行的。在训练阶段期间,已知基准真值碱基序列是先验的,例如,在相对于图22A至图22E讨论的乘法之前。因此,关于是否要处理特定碱基序列,对于神经网络模型是预先已知的。因此,对应于特定碱基序列的中间碱基的惩罚W2可在图22C中变高(例如,甚至在执行图22D和图22E处的操作以及处理特定碱基序列上的最后两个碱基之前),如本文所讨论。

在一个示例中,存储器存储损失惩罚矩阵2208a、2208b、…、2208e。在神经网络模型预期特定碱基序列的情况下,对应于特定碱基序列的中间碱基的惩罚W2被改变(例如,变高),如相对于图22C所讨论。

使特定碱基序列GGXGG的中间碱基比其他碱基相对更多地受惩罚(例如,通过使W2相对更高)放大了与特定碱基序列GGXGG的中间碱基相关的损失。例如,由受惩罚的损失函数2111生成的梯度包括特定碱基序列GGXGG的中间碱基的经放大的损失。这一点改变此特定碱基检出的梯度下降的步长大小,这有利于神经网络模型辨识此类特定碱基序列并针对此类特定碱基序列调整特殊权重。

图22F例示了将特化权重应用于与特定碱基序列的中间碱基相关联的损失。这里的特定碱基序列为GGXGG,其中“X”可为A、C、T或G中的任一者。然而,本公开的教导内容不限于任何特定的“特定碱基序列”,并且可应用于任何均聚物序列、侧接均聚物的序列或本文相对于图19、图20A和图20B讨论的任何其他特定碱基序列。如所见,将常规惩罚w1(其可以是预先指定的并根据任何适当的权重选择方案来选择的,并且例如,w1=1)应用于与所有碱基相关联的损失,除了与特定碱基序列的中间碱基相关的损失之外。对于特定碱基序列的中间碱基,将惩罚W2应用于对应的损失,其中W2不同于(例如,高于)常规权重。

损失惩罚结果

图22G例示了对针对特定碱基序列不惩罚损失的碱基检出系统与惩罚损失的碱基检出系统的性能进行比较的两个图表2280和2284。这些图表中使用的特定碱基序列为GGGGG。这些图表中的每一个图表的X轴为预测质量分数1432,并且这些图表中的每一个图表的Y轴为真实质量分数1440。

图表2280是针对不对特定碱基序列GGGGG的损失进行特定惩罚的碱基检出系统的。如所见,对图表2280中的特定序列的碱基检出具有误差6.4979%。

图表2284是针对对特定碱基序列GGGGG的中间碱基指定惩罚20的碱基检出系统的。如所见,对图表2284中的特定序列的碱基检出具有误差1.9941%。

因此,图2284中的惩罚20将误差从6.4979显著改善到1.9941。因此,如本文所讨论的损失惩罚改善质量分数,例如,通过使质量分数与真实(或根据经验确定的)质量分数更加一致。

质量分数校准的示例性应用

本公开讨论了用于校准质量分数,例如,使得经校准的质量分数与真实质量分数更加一致的各种方法。质量分数可改变或可不改变底层碱基检出。

例如,假设在没有校准的情况下,与碱基相关联的质量分数为如下:Q(A)=70,并且Q(C)、Q(T)和Q(G)中的每一者均小于一。在没有校准的情况下被检出的碱基为A。假设当使用本文所讨论的校准方法(例如,输入归一化、分数重新映射和/或损失惩罚)中的一种或多种校准方法时,经校准的质量分数为如下:Q(A)=10,并且Q(C)、Q(T)和Q(G)中的每一者均小于二。在有校准的情况下被检出的碱基仍然为A。因此,校准不改变底层碱基检出。然而,尽管校准可以改变或可以不改变底层碱基检出,但是提供准确的质量分数和底层准确的置信水平在许多实际应用中是重要的。例如,经常使用质量分数来做出关键的健康护理决策。例如,在健康护理环境中,与检测人类组织样本的碱基相关联的置信分数可能影响治疗健康病症的方法。例如,样本的多个碱基中的高质量分数(即,高置信水平)可指示癌症的高概率,而样本的多个碱基中的低质量分数(即,低置信水平)可指示癌症的可疑概率——因此,治疗决策可基于质量分数水平而改变。因此,校准质量分数并报告经校准的质量分数有助于决定各种下游任务,该各种下游任务可能包括与质量分数水平相关联的健康护理决策。

实现归一化、重新映射和量化以及损失惩罚的组合碱基检出系统

图23例示了碱基检出系统2300,其包括(i)图17A的碱基检出系统1700的归一化模块1704、(ii)图18A的碱基检出系统1800的质量分数重新映射模块1804和质量分数量化模块1812、以及(iii)图21的碱基检出系统2100的损失惩罚模块2106。因此,如贯穿本公开所讨论的,碱基检出系统2300可执行输入归一化、质量分数重新映射和量化以及/或者损失惩罚中的一者或多者。

碱基检出架构

图24是根据一个具体实施的碱基检出系统2400的框图。碱基检出系统2400可操作以获得与生物物质或化学物质中的至少一者相关的任何信息或数据。在一些具体实施中,碱基检出系统2400为可类似于台式设备或台式计算机的工作站。例如,用于进行所需反应的大部分(或全部)系统和部件可位于共同的外壳2416内。

在特定具体实施中,碱基检出系统2400为被配置用于各种应用的核酸测序系统(或测序仪),各种应用包括但不限于从头测序、全基因组或靶基因组区域的重测序以及宏基因组学。测序仪也可用于DNA或RNA分析。在一些具体实施中,碱基检出系统2400还可被配置为在生物传感器中生成反应位点。例如,碱基检出系统2400可被配置为接收样品并且生成来源于样品的克隆扩增核酸的表面附着簇。每个簇可构成生物传感器中的反应位点或作为其一部分。

示例性碱基检出系统2400可包括被配置为与生物传感器2402相互作用以在生物传感器2402内执行所需反应的系统插座或接口2412。在以下相对于图24的描述中,将生物传感器2402加载到系统插座2412中。然而,应当理解,可将包括生物传感器2402的卡盒插入到系统插座2412中,并且在一些状态下,可暂时或永久地移除卡盒。如上所述,除了别的以外,卡盒还可包括流体控制部件和流体储存部件。

在特定具体实施中,碱基检出系统2400被配置为在生物传感器2402内执行大量平行反应。生物传感器2402包括可发生所需反应的一个或多个反应位点。反应位点可例如固定至生物传感器的固体表面或固定至位于生物传感器的对应反应室内的小珠(或其他可移动基板)。反应位点可包括,例如,克隆扩增核酸的簇。生物传感器2402可包括固态成像设备(例如,CCD或CMOS成像器件)和安装到其上的流通池。流通池可包括一个或多个流动通道,该一个或多个流动通道从碱基检出系统2400接收溶液并且将溶液引向反应位点。任选地,生物传感器2402可被配置为接合热元件,以用于将热能传递到流动通道中或从流动通道传递出去。

碱基检出系统2400可包括彼此相互作用以执行用于生物或化学分析的预先确定的方法或测定协议的各种部件、组件和系统(或子系统)。例如,碱基检出系统2400包括系统控制器2404,该系统控制器可与碱基检出系统2400的各种部件、组件和子系统以及生物传感器2402通信。例如,除了系统插座2412之外,碱基检出系统2400还可包括流体控制系统2406以控制流体在碱基检出系统2400和生物传感器2402的整个流体网络中的流动;流体储存系统2408,该流体储存系统被配置为保持生物测定系统可使用的所有流体(例如,气体或液体);温度控制系统2410,该温度控制系统可调节流体网络、流体储存系统2408和/或生物传感器2402中的流体的温度;和照明系统2409,该照射系统被配置为生物传感器2402照明。如上所述,如果将具有生物传感器2402的卡盒装载到系统插座2412中,则该卡盒还可包括流体控制部件和流体储存部件。

还如图所示,碱基检出系统2400可包括与用户交互的用户界面2414。例如,用户界面2414可包括用于显示或请求来自用户的信息的显示器2413和用于接收用户输入的用户输入设备2415。在一些具体实施中,显示器2413和用户输入设备2415为同一设备。例如,用户界面2414可包括触敏显示器,该触敏显示器被配置为检测个体触摸的存在并且还识别触摸在显示器上的位置。然而,可使用其他用户输入设备2415,诸如鼠标、触摸板、键盘、小键盘、手持扫描仪、语音辨识系统、运动辨识系统等。如将在下文更详细地讨论,碱基检出系统2400可与包括生物传感器2402(例如,呈卡盒的形式)的各种部件通信,以执行所需反应。碱基检出系统2400还可被配置为分析从生物传感器获得的数据以向用户提供所需信息。

系统控制器2404可包括任何基于处理器或基于微处理器的系统,包括使用微控制器、精简指令集计算机(RISC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、逻辑电路以及能够执行本文所述功能的任何其他电路或处理器。上述示例仅是示例性的,因此不旨在以任何方式限制术语系统控制器的定义和/或含义。在示例性具体实施中,系统控制器2404执行存储在一个或多个存储元件、存储器或模块中的指令集,以便进行获得检测数据和分析检测数据中的至少一者。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每一个传感器(或像素)的像素信号序列。储存元件可为呈碱基检出系统2400内的信息源或物理存储器元件的形式。

指令集可包括指示碱基检出系统2400或生物传感器2402执行具体操作(诸如本文所述的各种具体实施的方法和过程)的各种命令。指令集可为软件程序的形式,该软件程序可形成有形的一个或多个非暂态计算机可读介质的一部分。如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅是示例性的,因此不限制可用于存储计算机程序的存储器类型。

软件可为各种形式,诸如系统软件或应用软件。此外,软件可以是独立程序的集合的形式,或者是较大程序内的程序模块或程序模块的一部分的形式。软件还可包括面向对象编程形式的模块化编程。在获得检测数据之后,检测数据可由碱基检出系统2400自动处理,响应于用户输入而处理,或者响应于另一个处理机器提出的请求(例如,通过通信链路的远程请求)而处理。在例示的具体实施中,系统控制器2404包括分析模块2538(在图25中示出)。在其他具体实施中,系统控制器2404不包括分析模块2538,而是可访问分析模块2538(例如,分析模块2538可单独地托管在云上)。

系统控制器2404可经由通信链路连接到生物传感器2402和碱基检出系统2400的其他部件。系统控制器2404还可通信地连接到非现场系统或服务器。通信链路可以是硬连线的、有线的或无线的。系统控制器2404可从用户界面2414和用户输入设备2415接收用户输入或命令。

流体控制系统2406包括流体网络,并且被配置为引导和调节一种或多种流体通过流体网络的流动。流体网络可与生物传感器2402和流体储存系统2408流体连通。例如,选定的流体可以从流体储存系统2408抽吸并以受控方式引导至生物传感器2402,或者流体可以从生物传感器2402抽吸并朝向例如流体储存系统2408中的废物储存器引导。虽然未示出,但流体控制系统2406可包括检测流体网络内的流体的流速或压力的流量传感器。传感器可与系统控制器2404通信。

温度控制系统2410被配置为调节流体网络、流体储存系统2408和/或生物传感器2402的不同区域处流体的温度。例如,温度控制系统2410可包括热循环仪,该热循环仪与生物传感器2402对接并且控制沿着生物传感器2402中的反应位点流动的流体的温度。温度控制系统2410还可调节碱基检出系统2400或生物传感器2402的固体元件或部件的温度。尽管未示出,但温度控制系统2410可包括用于检测流体或其他部件的温度的传感器。传感器可与系统控制器2404通信。

流体储存系统2408与生物传感器2402流体连通,并且可以储存用于在其中进行所需反应的各种反应组分或反应物。流体储存系统2408还可储存用于洗涤或清洁流体网络和生物传感器2402以及用于稀释反应物的流体。例如,流体储存系统2408可包括各种贮存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液等。此外,流体储存系统2408还可包括废物贮存器,用于接纳来自生物传感器2402的废物。在包括卡盒的具体实施中,卡盒可包括流体储存系统、流体控制系统或温度控制系统中的一者或多者。因此,本文所述的与那些系统有关的一个或多个部件可容纳在卡盒外壳内。例如,卡盒可具有各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液、废物等。因此,流体储存系统、流体控制系统或温度控制系统中的一者或多者可经由卡盒或其他生物传感器与生物测定系统可移除地接合。

照明系统2409可包括光源(例如,一个或多个LED)和用于照明生物传感器的多个光学部件。光源的示例可包括激光器、弧光灯、LED或激光二极管。光学部件可以是例如反射器、二向色镜、分束器、准直器、透镜、滤光器、楔镜、棱镜、反射镜、检测器等。在使用照明系统的具体实施中,照明系统2409可被配置为将激发光引导至反应位点。作为一个示例,荧光团可由绿色波长的光激发,因此激发光的波长可为大约532nm。在一个具体实施中,照明系统2409被配置为产生平行于生物传感器2402的表面的表面法线的照明。在另一具体实施中,照明系统2409被配置为产生相对于生物传感器2402的表面的表面法线成偏角的照明。在又一具体实施中,照明系统2409被配置为产生具有多个角度的照明,包括一些平行照明和一些偏角照明。

系统插座或接口2412被配置为以机械、电气和流体方式中的至少一种方式接合生物传感器2402。系统插座2412可将生物传感器2402保持在所需取向,以有利于流体流过生物传感器2402。系统插座2412还可包括电触点,该电触点被配置为接合生物传感器2402,使得碱基检出系统2400可与生物传感器2402通信和/或向生物传感器2402提供功率。此外,系统插座2412可包括被配置为接合生物传感器2402的流体端口(例如,喷嘴)。在一些具体实施中,生物传感器2402以机械方式、电气方式以及流体方式可移除地耦接到系统插座2412。

此外,碱基检出系统2400可与其他系统或网络或与其他生物测定系统2400远程通信。由生物测定系统2400获得的检测数据可存储在远程数据库中。

图25是可在图24的系统中使用的系统控制器2404的框图。在一个具体实施中,系统控制器2404包括可彼此通信的一个或多个处理器或模块。处理器或模块中的每一者可以包括用于执行特定过程的算法(例如,存储在有形和/或非暂态计算机可读存储介质上的指令)或子算法。系统控制器2404在概念上被例示为模块的集合,但可利用专用硬件板、DSP、处理器等的任何组合来实现。另选地,系统控制器2404可利用具有单个处理器或多个处理器的现成PC来实现,其中功能操作分布在处理器之间。作为进一步的选择,下文所述的模块可利用混合配置来实现,其中某些模块化功能利用专用硬件来执行,而其余模块化功能利用现成PC等来执行。模块还可被实现为处理单元内的软件模块。

在操作期间,通信端口2520可向生物传感器2402(图24)和/或子系统2406、2408、2410(图24)传输信息(例如,命令)或从其接收信息(例如,数据)。在具体实施中,通信端口2520可输出多个像素信号序列。通信端口2520可从用户界面2414(图24)接收用户输入并且将数据或信息传输到用户界面2414。来自生物传感器2402或子系统2406、2408、2410的数据可在生物测定会话期间由系统控制器2404实时处理。除此之外或另选地,数据可在生物测定会话期间临时储存在系统存储器中,并且以比实时或脱机操作更慢的速度进行处理。

如图25所示,系统控制器2404可包括与主控制模块2530通信的多个模块2531-2539。主控制模块2530可与用户界面2414(图24)通信。尽管模块2531-2539被示出为与主控制模块2530直接通信,但模块2531-2539也可彼此直接通信,与用户界面2414和生物传感器2402直接通信。另外,模块2531-2539可通过其他模块与主控制模块2530通信。

多个模块2531-2539包括分别与子系统2406、2408、2410和2409通信的系统模块2531-2533、2539。流体控制模块2531可与流体控制系统2406通信,以控制流体网络的阀和流量传感器,从而控制一种或多种流体通过流体网络的流动。流体储存模块2532可在流体量低时或在废物储存器处于或接近容量时通知用户。流体储存模块2532还可与温度控制模块2533通信,使得流体可储存在所需温度下。照明模块2539可与照明系统2409通信,以在协议期间的指定时间照亮反应位点,诸如在已发生所需反应(例如,结合事件)之后。在一些具体实施中,照明模块2539可与照明系统2409通信,从而以指定角度照明反应位点。

多个模块2531-2539还可包括与生物传感器2402通信的设备模块2534和确定与生物传感器2402相关的标识信息的标识模块2535。设备模块2534可例如与系统插座2412通信以确认生物传感器已与碱基检出系统2400建立电气连接和流体连接。标识模块2535可接收标识生物传感器2402的信号。标识模块2535可使用生物传感器2402的身份来向用户提供其他信息。例如,标识模块2535可确定并随后显示批号、制造日期或建议与生物传感器2402一起运行的协议。

多个模块2531-2539还包括接收和分析来自生物传感器2402的信号数据(例如,图像数据)的分析模块2538(也称为信号处理模块或信号处理器)。分析模块2538包括用于存储检测数据的存储器(例如,RAM或闪存)。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每一个传感器(或像素)的像素信号序列。信号数据可被存储用于后续分析,或者可被传输到用户界面2414以向用户显示所需信息。在一些具体实施中,信号数据可在分析模块2538接收到信号数据之前由固态成像器件(例如,CMOS图像传感器)处理。

分析模块2538被配置为在多个测序循环的每一个测序循环处从光检测器获得图像数据。图像数据来源于由光检测器检测到的发射信号,并且通过神经网络(例如,基于神经网络的模板生成器2548、基于神经网络的碱基检出器2558(例如,参见图7、图9和图10)和/或基于神经网络的质量评分器2568)处理多个测序循环的每一个测序循环的图像数据,并且在多个测序循环的每一个测序循环处针对分析物中的至少一些产生碱基检出。

协议模块2536和协议模块2537与主控制模块2530通信,以在进行预先确定的测定协议时控制子系统2406、2408和2410的操作。协议模块2536和2537可包括用于指示碱基检出系统2400根据预先确定的协议执行具体操作的指令集。如图所示,协议模块可以是边合成边测序(SBS)模块2536,该模块被配置为发出用于执行边合成边测序过程的各种命令。在SBS中,监测核酸引物沿核酸模板的延伸,以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如,由聚合酶催化)或连接(例如,由连接酶催化)。在特定的基于聚合酶的SBS具体实施中,以依赖于模板的方式将荧光标记的核苷酸添加至引物(从而使引物延伸),使得对添加至引物的核苷酸的顺序和类型的检测可用于确定模板的序列。例如,为了启动第一SBS循环,可发出命令以将一个或多个标记的核苷酸、DNA聚合酶等递送至/通过容纳有核酸模板阵列的流通池。核酸模板可位于对应的反应位点。其中引物延伸导致标记的核苷酸掺入的那些反应位点可通过成像事件来检测。在成像事件期间,照明系统2409可向反应位点提供激发光。任选地,核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如,可以将具有可逆终止子部分的核苷酸类似物添加到引物,使得后续的延伸直到递送解封闭剂以去除该部分才发生。因此,对于使用可逆终止的具体实施,可发出命令以将解封闭剂递送到流通池(在检测发生之前或之后)。可发出一个或多个命令以实现各个递送步骤之间的洗涤。然后可重复该循环n次,以将引物延伸n个核苷酸,从而检测长度为n的序列。示例性测序技术描述于:例如Bentley等人,Nature 456:53-59(2008)、WO04/018497、US 7,057,026、WO 91/06678、WO 07/123744、US7,329,492、US 7,211,414、US7,315,019和US 7,405,281中,这些文献中的每一篇以引用方式并入本文。

对于SBS循环的核苷酸递送步骤,可以一次递送单一类型的核苷酸,或者可以递送多种不同的核苷酸类型(例如,A、C、T和G一起)。对于一次仅存在单一类型的核苷酸的核苷酸递送构型,不同的核苷酸不需要具有不同的标记,因为它们可基于个体化递送中固有的时间间隔来区分。因此,测序方法或装置可使用单色检测。例如,激发源仅需要提供单个波长或单个波长范围内的激发。对于其中递送导致多种不同核苷酸同时存在于流通池中的核苷酸递送构型,可基于附着到混合物中相应核苷酸类型的不同荧光标记来区分掺入不同核苷酸类型的位点。例如,可使用四种不同的核苷酸,每种核苷酸具有四种不同荧光团中的一种。在一个具体实施中,可使用在光谱的四个不同区域中的激发来区分四种不同的荧光团。例如,可使用四种不同的激发辐射源。另选地,可使用少于四种不同的激发源,但来自单个源的激发辐射的光学过滤可用于在流通池处产生不同范围的激发辐射。

在一些具体实施中,可在具有四种不同核苷酸的混合物中检测到少于四种不同颜色。例如,核苷酸对可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。用于使用少于四种颜色的检测来区分四个不同核苷酸的示例性装置和方法描述于例如美国专利申请序列号61/538,294和61/619,878,这些专利申请全文以引用方式并入本文。2012年9月21日提交的美国申请号13/624,200也全文以引用方式并入。

多个协议模块还可包括样品制备(或生成)模块2537,该模块被配置为向流体控制系统2406和温度控制系统2410发出命令,以扩增生物传感器2402内的产物。例如,生物传感器2402可接合至碱基检出系统2400。扩增模块2537可向流体控制系统2406发出指令,以将必要的扩增组分递送到生物传感器2402内的反应室。在其他具体实施中,反应位点可能已包含一些用于扩增的组分,诸如模板DNA和/或引物。在将扩增组分递送至反应室之后,扩增模块2537可指示温度控制系统2410根据已知的扩增协议循环通过不同的温度阶段。在一些具体实施中,扩增和/或核苷酸掺入等温进行。

SBS模块2536可发出命令以执行桥式PCR,其中克隆扩增子的簇形成于流通池的通道内的局部区域上。通过桥式PCR产生扩增子后,可将扩增子“线性化”以制备单链模板DNA或sstDNA,并且可将测序引物杂交至侧接感兴趣的区域的通用序列。例如,可如上所述或如下使用基于可逆终止子的边合成边测序方法。

每个碱基检出或测序循环可通过单个碱基延伸sstDNA,这可例如通过使用经修饰的DNA聚合酶和四种类型的核苷酸的混合物来完成。不同类型的核苷酸可具有独特的荧光标记,并且每个核苷酸还可具有可逆终止子,该可逆终止子仅允许在每个循环中发生单碱基掺入。在将单个碱基添加到sstDNA之后,激发光可入射到反应位点上并且可检测荧光发射。在检测后,可从sstDNA化学切割荧光标记和终止子。接下来可为另一个类似的碱基检出或测序循环。在此类测序协议中,SBS模块2536可指示流体控制系统2406引导试剂和酶溶液流过生物传感器2402。可与本文所述的装置和方法一起使用的基于可逆终止子的示例性SBS方法描述于美国专利申请公布号2007/0166705 A1、美国专利申请公布号2006/0188901A1、美国专利号7,057,026、美国专利申请公布号2006/0240439 A1、美国专利申请公布号2006/02814714709 A1、PCT公布号WO 05/065814、PCT公布号WO 06/064199,这些专利中的每一篇均全文以引用方式并入本文。US 7,541,444;US 7,057,026;US 7,427,673;US 7,566,537;以及US 7,592,435中描述了基于可逆终止子的SBS的示例性试剂,这些专利中的每一篇均全文以引用方式并入本文。

在一些具体实施中,扩增模块和SBS模块可在单个测定协议中操作,其中例如扩增模板核酸并随后将其在同一盒内测序。

碱基检出系统2400还可允许用户重新配置测定协议。例如,碱基检出系统2400可通过用户界面2414向用户提供用于修改所确定的协议的选项。例如,如果确定生物传感器2402将用于扩增,则碱基检出系统2400可请求退火循环的温度。此外,如果用户已提供对于所选测定协议通常不可接受的用户输入,则碱基检出系统2400可向用户发出警告。

在具体实施中,生物传感器2402包括数百万个传感器(或像素),每一个传感器(或像素)在后续的碱基检出循环内生成多个像素信号序列。分析模块2538根据传感器阵列上传感器的逐行和/或逐列位置来检测多个像素信号序列并将它们归属于对应的传感器(或像素)。

传感器阵列中的每个传感器可产生流通池的区块的传感器数据,其中区块位于流通池上的在碱基检出操作期间设置遗传物质的簇的区域中。传感器数据可包括像素阵列中的图像数据。对于给定循环,传感器数据可包括多于一个图像,从而产生多特征每像素作为区块数据。

图26是可用于实现所公开的技术的计算机系统2600的简化框图。计算机系统2600包括经由总线子系统2655与多个外围设备通信的至少一个中央处理单元(CPU)2672。这些外围设备可以包括存储子系统2610(包括例如存储器设备和文件存储子系统2636)、用户界面输入设备2638、用户界面输出设备2676和网络接口子系统2674。输入设备和输出设备允许用户与计算机系统2600进行交互。网络接口子系统2674提供通向外部网络的接口,该接口包括通向其他计算机系统中的对应接口设备的接口。

用户界面输入设备2638可以包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统2600中的所有可能类型的设备和方式。

用户界面输出设备2676可以包括显示子系统、打印机、传真机或非视觉显示器(诸如音频输出设备)。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统2600输出到用户或者输出到另一机器或计算机系统的所有可能类型的设备和方式。

存储子系统2610存储提供本文描述的一些或全部模块和方法的功能的编程结构和数据结构。这些软件模块通常由深度学习处理器2678执行。

在一个具体实施中,神经网络使用深度学习处理器2678来实施,这些深度学习处理器可以是可配置和可重新配置处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)和图形处理单元(GPU)或其他配置的设备。深度学习处理器2678可由深度学习云平台诸如Google Cloud Platform

在存储子系统2610中使用的存储器子系统2622可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)2634和其中存储固定指令的只读存储器(ROM)2632。文件存储子系统2636可以为程序文件和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁盘盒。实现某些具体实施的功能的模块可以由文件存储子系统2636存储在存储子系统2610中,或者存储在处理器可访问的其他机器中。

总线子系统2655提供用于使计算机系统2600的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统2655被示意性地示出为单条总线,但是该总线子系统的替代性具体实施可以使用多条总线。

计算机系统2600本身可以具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机,或者任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图26中描绘的计算机系统2600的描述仅旨在作为用于示出本发明的优选具体实施的具体示例。计算机系统2600的许多其他配置是可能的,其具有比图26中描绘的计算机系统更多或更少的部件。

条款

以下条款是本公开的一部分:

条款组1(输入归一化)

1.一种通过碱基检出器来生成碱基检出的计算机实现的方法,该方法包括:

接收来自流通池的多个传感器数据,其中该多个传感器数据在第一范围内;

识别第二范围,使得至少阈值百分比的多个传感器数据在第二范围内;

将多个传感器数据的在第二范围内的至少子集映射到第三范围,

从而生成多个归一化的传感器数据;以及

在碱基检出器中处理多个归一化的传感器数据以针对多个归一化的传感器数据检出一个或多个对应碱基。

2.根据条款1所述的方法,其中该第二范围完全涵盖在第一范围内。

3.根据条款1所述的方法,其中该第一范围内的一个或多个异常传感器数据不存在于传感器数据的第二范围中。

4.根据条款1所述的方法,其中识别第二范围包括:

在第一范围内识别低值,使得较低阈值百分比的多个传感器数据具有低于低值的值;以及

在第一范围内识别高值,使得较高阈值百分比的多个传感器数据具有高于高值的值,

其中该第二范围由低值和高值限定。

5.根据条款4所述的方法,其中该较低阈值百分比或较高阈值百分比中的至少一者为0.5%或更小。

6.根据条款4所述的方法,其中该较低阈值百分比或较高阈值百分比中的至少一者为1.0%或更小。

7.根据条款4所述的方法,其中该较低阈值百分比和较高阈值百分比中的每一者为0.5%或更小。

8.根据条款4所述的方法,其中该较低阈值百分比和较高阈值百分比中的每一者为1%或更小。

9.根据条款4所述的方法,该方法还包括:

识别(i)多个传感器数据中低于低值的第一异常传感器数据和(ii)多个传感器数据中高于高值的第二异常传感器数据;以及在映射之前,将低值指定给第一异常传感器数据,并将高值指定给第二异常传感器数据,使得第一异常传感器数据和第二异常传感器数据在指定之后在第二范围内。

10.根据条款4所述的方法,该方法还包括:

识别(i)多个传感器数据中低于低值的第一异常传感器数据和(ii)多个传感器数据中高于高值的第二异常传感器数据;以及由于在第二范围之外,在映射期间将第一异常传感器数据和第二异常传感器数据从多个传感器数据的子集排除,使得第一异常传感器数据和第二异常传感器数据不被映射到第三范围。

11.根据条款1所述的方法,其中映射多个传感器数据的至少子集包括:

将子集内的第一传感器数据从在第二范围内的第一值映射到在第三范围内的第二值;以及

将子集内的第二传感器数据从在第二范围内的第三值映射到在第三范围内的第四值。

12.根据条款1所述的方法,其中该第二范围的至少部分与第三范围不重叠。

13.根据条款1所述的方法,其中该多个传感器数据中的各个传感器数据包括从流通池生成的图像的对应区段的对应强度。

14.根据条款1所述的方法,该方法还包括:

在碱基检出器中处理多个归一化的传感器数据,以针对每个碱基检出来对以下各项进行指定:指示所检出的碱基为A的概率的第一质量分数、指示所检出的碱基为C的概率的第二质量分数、指示所检出的碱基为T的概率的第三质量分数、以及指示所检出的碱基为G的概率的第四质量分数。

15.根据条款14所述的方法,该方法还包括:

指定多个质量分数,该多个质量分数包括第一质量分数、第二质量分数、第三质量分数和第四质量分数;以及

将多个质量分数的至少子集中的每一个质量分数重新映射到对应的经重新映射的质量分数。

16.根据条款15所述的方法,该方法还包括:

将多个经重新映射的质量分数中的每一个经重新映射的质量分数量化为多个量化的经重新映射的质量分数中的对应的量化的经重新映射的质量分数。

17.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质印有计算机程序指令,该计算机程序指令当在处理器上执行时实现包括以下各项的方法:

接收来自流通池的多个强度值,其中各个强度值描绘流通池的目标簇或目标簇的紧邻区域,该目标簇填充有未知分析物;

识别包括至少阈值百分比的多个强度值的第二范围;

将阈值百分比的多个强度值映射到不同于第二范围的第三范围;

以及

在映射之后,处理阈值百分比的多个强度值,以生成未知分析物为A、C、T或G的可能性。

18.根据条款17所述的非暂态计算机可读存储介质,其中该第二范围完全涵盖在第一范围内。

19.根据条款17所述的非暂态计算机可读存储介质,其中该第一范围

内的一个或多个异常强度值不存在于阈值百分比的多个强度值中。

20.根据条款17所述的非暂态计算机可读存储介质,其中识别第二范围包括:

在第一范围内识别低值,使得较低阈值百分比的多个强度值具有低于低值的值;以及

在第一范围内识别高值,使得较高阈值百分比的多个强度值具有高于高值的值,其中该阈值百分比为较低阈值百分比与较高阈值百分比的和,

其中该第二范围由低值和高值限定。

21.根据条款20所述的非暂态计算机可读存储介质,其中该较低阈值百分比或较高阈值百分比中的至少一者为0.5%或更小。

22.根据条款20所述的非暂态计算机可读存储介质,其中该较低阈值百分比和较高阈值百分比中的每一者为1.0%或更小。

23.根据条款20所述的非暂态计算机可读存储介质,该非暂态计算机可读存储介质还包括:

识别(i)多个强度值中低于低值的第一异常强度值和(ii)多个强度值中高于高值的第二异常强度值;以及

在映射之前,将低值指定给第一异常强度值,并将高值指定给第二异常强度值,使得第一异常强度值和第二异常强度值在指定之后在第二范围内。

24.根据条款20所述的非暂态计算机可读存储介质,该非暂态计算机可读存储介质还包括:

识别(i)多个强度值中低于低值的第一异常强度值和(ii)多个强度值中高于高值的第二异常强度值;以及

由于在第二范围之外,在映射期间将第一异常强度值和第二异常强度值从多个强度值的子集排除,使得第一异常强度值和第二异常强度值不被映射到第三范围。

25.根据条款17所述的非暂态计算机可读存储介质,其中映射包括:

将第一强度值从在第二范围内的第一值映射到在第三范围内的第二值;以及

将第二强度值从在第二范围内的第三值映射到在第三范围内的第四值。

26.根据条款17所述的非暂态计算机可读存储介质,其中该第二范围的至少部分与第三范围不重叠。

27.一种用于碱基检出的系统,所述系统包括:

存储器,该存储器存储描绘一组分析物的初始强度发射的图像,该初始强度发射是在测序运行的测序循环期间由该一组分析物中的分析物生成的;

归一化模块,该归一化模块被配置为接收初始强度发射并重新映射初始强度发射以生成经重新映射的强度发射,使得经重新映射的强度发射相对于初始强度发射具有不同的强度值;和

碱基检出器,该碱基检出器被配置为处理经重新映射的强度发射,

以生成针对该一组分析物的碱基检出。

条款组2(质量分数重新映射)

1.一种校准由碱基检出器生成的质量分数的计算机实现的方法,该方法包括:

在碱基检出器中处理传感器数据,以生成多个概率分数,其中该多个概率分数中的每一个概率分数标识碱基为A、C、T或G中的对应一者的对应可能性;

将每一个概率分数变换为对应的质量分数,从而生成对应于多个概率分数的多个质量分数,其中该多个质量分数中的每一个质量分数以对数尺度指示碱基为A、C、T或G中的对应一者的对应可能性;以及

重新映射多个质量分数中的一个或多个质量分数,以生成对应的多个经重新映射的质量分数。

2.根据条款1所述的方法,其中:

多个质量分数中的第一质量分数被重新映射到多个经重新映射的质量分数中的第一经重新映射的质量分数;

第一质量分数指示对应的第一碱基为X的第一可能性,其中X为A、C、T和G中的一者;

第一经重新映射的质量分数指示对应的第一碱基为X的第一经重新映射的可能性;以及

相比于第一经重新映射的可能性与根据经验确定的可能性的一致性,第一经重新映射的可能性与对应的第一碱基为X的根据经验确定的可能性更一致。

3.根据条款2所述的方法,其中第一质量分数指示对数尺度下的第一可能性,并且第一经重新映射的质量分数指示对数尺度下的第一经重新映射的可能性。

4.根据条款2所述的方法,其中:

第一经重新映射的可能性与根据经验确定的可能性之间的差值小于第一可能性与根据经验确定的可能性之间的差值。

5.根据条款1所述的方法,其中重新映射包括:

从查找表(LUT)识别多个质量分数中的第一质量分数将重新映射到第一经重新映射的质量分数;以及

将第一经重新映射的质量分数指定给第一质量分数,从而将第一质量分数重新映射到多个经重新映射的质量分数中的第一经重新映射的质量分数。

6.根据条款1所述的方法,其中重新映射包括:

使用查找表(LUT)来重新映射多个质量分数中的一个或多个质量分数,以生成对应的多个经重新映射的质量分数。

7.根据条款6所述的方法,其中该LUT针对一个或多个质量分数识别对应的一个或多个经重新映射的质量分数。

8.根据条款1所述的方法,其中将每个概率分数变换为对应的质量分数包括:

通过使用以下公式将概率分数P变换为对应的质量分数Q:Q=-10×log

9.根据条款1所述的方法,该方法还包括:

报告多个经重新映射的质量分数,这相对于与多个质量分数相关联的置信水平提供对碱基检出的置信水平的更准确指示。

10.根据条款1所述的方法,该方法还包括:

将多个经重新映射的质量分数中的每一个经重新映射的质量分数包括在多个组中的对应一个组中,使得该多个组中的第一组包括多个经重新映射的质量分数的第一子集,并且多个组中的第二组包括多个经重新映射的质量分数的第二子集;

向包括在第一组中的多个经重新映射的质量分数的第一子集中的每一个经重新映射的质量分数指定第一量化的质量分数;以及

向包括在第二组中的多个经重新映射的质量分数的第二子集中的每一个经重新映射的质量分数指定第二量化的质量分数。

11.根据条款10所述的方法,其中将多个经重新映射的质量分数中的每一个经重新映射的质量分数包括在多个组中的对应组中包括:

向多个组中的每个组指定对应范围的经重新映射的质量分数;

响应于第一经重新映射的质量分数在指定给第一组的第一范围内,将第一经重新映射的质量分数包括在第一组中;以及响应于第二经重新映射的质量分数在指定给第二组的第二范围内,

将第二经重新映射的质量分数包括在第二组中。

12.根据条款1所述的方法,该方法还包括:

量化多个经重新映射的质量分数中的每一个经重新映射的质量分数,以生成多个量化的质量分数。

13.根据条款1所述的方法,其中处理传感器数据包括:

在碱基检出器中处理传感器数据,以生成碱基检出的序列;以及

识别(i)碱基检出的序列中的第一碱基检出序列和(ii)碱基检出的序列中的第二碱基检出序列,并进一步识别第二碱基检出序列具有特定碱基序列模式,

其中重新映射多个质量分数中的一个或多个质量分数包括:响应于识别第二碱基检出序列具有特定碱基序列模式,

使用第一查找表(LUT)来重新映射与(i)第一碱基检出序列的每个碱基和(ii)第二碱基检出序列的碱基的第一子集相关联的质量分数;以及

使用第二LUT来重新映射与第二碱基检出序列的碱基的第二子集相关联的质量分数。

14.根据条款13所述的方法,其中:

第一碱基检出序列的第一碱基、第二碱基检出序列的碱基的第一子集中的第二碱基以及第二碱基检出序列的碱基的第二子集中的第三碱基中的每一者具有质量分数Q1;

使用第一LUT将第一碱基检出序列的第一碱基和第二碱基检出序列的碱基的第一子集中的第二碱基中的每一者重新映射到经重新映射的质量分数Q2;

使用第二LUT将第二碱基检出序列的碱基的第二子集中的第三碱基重新映射到经重新映射的质量分数Q3;并且

经重新映射的质量分数Q2、经重新映射的质量分数Q3和质量分数Q1彼此不同。

15.根据条款13所述的方法,其中:

第二碱基检出序列的碱基的第二子集包括第二碱基检出序列的碱基中的一个中间碱基;以及

第二碱基检出序列的碱基的第一子集包括第二碱基检出序列的所有碱基,除了第二碱基检出序列的碱基中的一个中间碱基之外。

16.根据条款13所述的方法,其中:

第一LUT为可应用于除第二碱基检出序列的中间碱基之外的所有碱基的质量分数的通用LUT;以及

第二LUT为特别适用于第二碱基检出序列的中间碱基的质量分数的碱基序列特定LUT。

17.根据条款13所述的方法,其中:

特定碱基序列模式包括均聚物模式或侧接均聚物模式。

18.根据条款13所述的方法,其中:

特定碱基序列模式包括五个碱基,其中至少第一碱基和最后一个碱基为G。

19.根据条款13所述的方法,其中:

特定碱基序列模式包括至少五个碱基,其中特定碱基序列模式的至少三个碱基为G。

20.根据条款13所述的方法,其中:

特定碱基序列模式包括GGXGG、GXGGG、GGGXG、GXXGG、

GGXXG中的任一者,其中X为A、C、T或G中的任一者。

21.根据条款13所述的方法,其中:

特定碱基序列模式包括至少五个碱基,其中特定碱基序列模式的至少三个碱基与传感器数据内的暗循环相关联。

22.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质印有计算机程序指令,该计算机程序指令当在处理器上执行时实现包括以下各项的方法:

通过碱基检出器处理多个分析物的传感器数据以产生多个输出,其中多个输出中的每一个输出标识掺入分析物中的特定分析物中的碱基为A、C、T或G中的对应一者的对应可能性;

以及

重新映射多个输出中的一个或多个输出,以生成对应的多个经重新映射的输出。

23.根据条款22所述的非暂态计算机可读存储介质,其中:

多个输出中的第一输出提供对应的第一分析物为A、C、T或G中的一者的第一可能性;

第一输出被重新映射以生成第一经重新映射的输出,该第一经重新映射的输出提供对应的第一分析物为A、C、T或G中的一者的第二可能性;以及

第一可能性与第二可能性不同。

24.根据条款23所述的非暂态计算机可读存储介质,其中第一输出和第一经重新映射的输出中的每一者分别以对数尺度表达第一可能性和第一经重新映射的可能性。

25.根据条款23所述的非暂态计算机可读存储介质,其中:

相比于第一可能性与根据经验确定的可能性的一致性,第二可能性与根据经验确定的可能性更加一致;以及

根据经验确定的可能性为对应的第一分析物为A、C、T或G中的一者的根据经验确定的可能性。

26.根据条款22所述的非暂态计算机可读存储介质,其中重新映射包括:

从查找表(LUT)识别多个输出中的第一输出将重新映射到第一经重新映射的输出;以及

基于LUT将第一输出修改为第一经重新映射的输出。

27.根据条款22所述的非暂态计算机可读存储介质,该非暂态计算机可读存储介质还包括:

量化多个经重新映射的输出中的每一个经重新映射的输出,以生成多个量化的输出。

28.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质印有计算机程序指令,该计算机程序指令当在处理器上执行时实现包括以下各项的方法:

处理用于测序机器的流通池的传感器数据,以预测碱基检出的序列和与碱基检出的序列的碱基相关联的多个质量分数;

识别(i)碱基检出的序列中的第一碱基检出序列和(ii)碱基检出的序列中的第二碱基检出序列,并进一步识别第二碱基检出序列具有特定碱基序列模式;以及

重新映射多个质量分数以生成对应的多个经重新映射的质量分数,其中重新映射包括:响应于识别第二碱基检出序列具有特定碱基序列模式,

使用第一查找表(LUT)来重新映射与(i)第一碱基检出序列的每个碱基,和(ii)第二碱基检出序列的碱基的第一子集相关联的质量分数;以及

使用第二LUT来重新映射与第二碱基检出序列的碱基的第二子集相关联的质量分数。

29.根据条款28所述的非暂态计算机可读存储介质,其中:

第一碱基检出序列的第一碱基、第二碱基检出序列的碱基的第一子集中的第二碱基以及第二碱基检出序列的碱基的第二子集中的第三碱基中的每一者具有质量分数Q1;

使用第一LUT将第一碱基检出序列的第一碱基和第二碱基检出序列的碱基的第一子集中的第二碱基中的每一者重新映射到经重新映射的质量分数Q2;

使用第二LUT将第二碱基检出序列的碱基的第二子集中的第三碱基重新映射到经重新映射的质量分数Q3;并且

经重新映射的质量分数Q2、经重新映射的质量分数Q3和质量分数Q1彼此不同。

30.根据条款29所述的非暂态计算机可读存储介质,其中:

第二碱基检出序列的碱基的第二子集包括第二碱基检出序列的碱基中的一个中间碱基;以及

第二碱基检出序列的碱基的第一子集包括第二碱基检出序列的所有碱基,除了第二碱基检出序列的碱基中的一个中间碱基之外。

31.根据条款28所述的非暂态计算机可读存储介质,其中:

第一LUT为可应用于除第二碱基检出序列的中间碱基之外的所有碱基的质量分数的通用LUT;以及

第二LUT为特别适用于第二碱基检出序列的中间碱基的质量分数的碱基序列特定LUT。

32.根据条款28所述的非暂态计算机可读存储介质,其中:

特定碱基序列模式包括均聚物模式或侧接均聚物模式。

33.根据条款28所述的非暂态计算机可读存储介质,其中:

特定碱基序列模式包括五个碱基,其中至少第一碱基和最后一个碱基为G。

34.根据条款28所述的非暂态计算机可读存储介质,其中:

特定碱基序列模式包括至少五个碱基,其中特定碱基序列模式的至少三个碱基为G。

35.根据条款28所述的非暂态计算机可读存储介质,其中:

特定碱基序列模式包括GGXGG、GXGGG、GGGXG、GXXGG、

GGXXG中的任一者,其中X为A、C、T或G中的任一者。

36.根据条款28所述的非暂态计算机可读存储介质,其中:

特定碱基序列模式包括至少五个碱基,其中特定碱基序列模式的至少三个碱基与传感器数据内的暗循环相关联。

37.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质印有计算机程序指令,该计算机程序指令当在处理器上执行时实现用于生成碱基检出的方法,该方法包括:

处理由流通池生成的传感器数据,以生成多个质量分数,多个质量分数中的每个质量分数指示对应碱基被检出为A、C、T或G中的对应一者的概率;以及

修改各个质量分数以生成对应的各个经修改的质量分数,从而生成多个经修改的质量分数。

条款组3(特定碱基序列的损失惩罚)

1.一种训练用于碱基检出的神经网络模型的计算机实现的方法,该方法包括:

在碱基检出器的神经网络模型的训练阶段期间,在神经网络模型的前向传递区段中处理传感器数据以预测碱基检出;

基于预测碱基检出和基准真值碱基检出,生成损失函数;

至少部分地基于指示特定碱基序列的基准真值碱基检出来惩罚损失函数,以生成受惩罚的损失函数;以及

在神经网络模型的后向传播区段中,处理受惩罚的损失函数,以调整神经网络模型的权重,从而训练用于碱基检出的神经网络模型。

2.根据条款1所述的方法,该方法还包括:

从基准真值碱基检出识别具有(i)第一碱基和(ii)侧接第一碱基的一个或多个第二碱基的特定碱基序列,

其中惩罚该损失函数包括:

(i)用第一惩罚对损失函数的与第一碱基相关联的第一元素进行罚分;以及(ii)用不同于第一惩罚的第二惩罚对损失函数的分别与侧接第一碱基的一个或多个第二碱基相关联的一个或多个第二元素中的每一个第二元素进行惩罚。

3.根据条款2所述的方法,该方法还包括:

从基准真值碱基检出识别未包括在特定碱基序列中的一个或多个第三碱基,

其中惩罚该损失函数包括:

用第二惩罚来对损失函数的分别与一个或多个第三碱基相关联的一个或多个第三元素中的每一个第三元素进行惩罚。

4.根据条款2所述的方法,其中第一惩罚高于第二惩罚。

5.根据条款2所述的方法,其中第二惩罚具有值一。

6.根据条款2所述的方法,其中第一惩罚具有不同于一的值。

7.根据条款2所述的方法,其中第一惩罚具有大于一的值。

8.根据条款2所述的方法,其中第一惩罚是第二惩罚的至少两倍。

9.根据条款1所述的方法,其中惩罚该损失函数包括:

将损失函数的各个元素乘以相应的惩罚。

10.根据条款1所述的方法,其中惩罚该损失函数包括:

将损失函数矩阵的各个元素乘以惩罚矩阵的对应的各个元素。

11.根据条款1的所述方法,其中特异性碱基序列包括GGXGG,其中X为A、C、T或G中的任一者。

12.根据条款1所述的方法,其中特定碱基序列模式包括均聚物模式或侧接均聚物模式。

13.根据条款1所述的方法,其中特定碱基序列包括五个碱基,其中

至少第一碱基和最后一个碱基为G。

14.根据条款1所述的方法,其中特定碱基序列模式包括至少五个碱基,其中特定碱基序列模式的至少三个碱基为G。

15.根据条款1所述的方法,其中特定碱基序列包括GGXGG、GXGGG、GGGXG、GXXGG、GGXXG中的任一者,其中X为A、C、T或G中的任一者。

16.根据条款1所述的方法,其中处理受惩罚的损失函数包括:

处理受惩罚的损失函数,以生成输入梯度,其中输入梯度用于调整神经网络模型的权重,从而训练用于碱基检出的神经网络模型。

17.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质印有计算机程序指令,该计算机程序指令当在处理器上执行时实现用于训练用于碱基检出的神经网络模型的方法,该方法包括:

在碱基检出器的神经网络模型的训练阶段期间,在神经网络模型的前向传递区段中处理传感器数据以预测碱基检出;

基于预测碱基检出和基准真值碱基检出,生成损失函数;

至少部分地基于指示特定碱基序列的基准真值碱基检出来惩罚损失函数,以生成受惩罚的损失函数;以及

在神经网络模型的后向传播区段中,处理受惩罚的损失函数,以调整神经网络模型的权重,从而训练用于碱基检出的神经网络模型。

18.根据条款17所述的非暂态计算机可读存储介质,该非暂态计算机可读存储介质还包括:

从基准真值碱基检出识别具有(i)第一碱基和(ii)侧接第一碱基的一个或多个第二碱基的特定碱基序列,

其中惩罚该损失函数包括:

(i)用第一惩罚对损失函数的与第一碱基相关联的第一元素进行罚分;以及(ii)用不同于第一惩罚的第二惩罚对损失函数的分别与侧接第一碱基的一个或多个第二碱基相关联的一个或多个第二元素中的每一个第二元素进行惩罚。

19.根据条款18所述的非暂态计算机可读存储介质,该非暂态计算机可读存储介质还包括:

从基准真值碱基检出识别未包括在特定碱基序列中的一个或多个第三碱基,

其中惩罚该损失函数包括:

用第二惩罚来对损失函数的分别与一个或多个第三碱基相关联的一个或多个第三元素中的每一个第三元素进行惩罚。

20.根据条款18所述的非暂态计算机可读存储介质,其中第一惩罚高于第二惩罚。

21.根据条款18所述的非暂态计算机可读存储介质,其中第二惩罚器具有值一。

22.根据条款21所述的非暂态计算机可读存储介质,其中第一惩罚具有不同于一的值。

23.根据条款21所述的非暂态计算机可读存储介质,其中第一惩罚具有大于一的值。

24.根据条款21所述的非暂态计算机可读存储介质,其中第一惩罚是第二惩罚的至少两倍。

25.根据条款17所述的非暂态计算机可读存储介质,其中惩罚该损失函数包括:

将损失函数的各个元素乘以相应的惩罚。

26.根据条款17所述的非暂态计算机可读存储介质,其中惩罚该损失函数包括:

将损失函数矩阵的各个元素乘以惩罚矩阵的对应的各个元素。

27.根据条款17所述的非暂态计算机可读存储介质,其中特异性碱基序列包括GGXGG,其中X为A、C、T或G中的任一者。

28.根据条款17所述的非暂态计算机可读存储介质,其中特定碱基序列模式包括均聚物模式或侧接均聚物模式。

29.根据条款17所述的非暂态计算机可读存储介质,其中特定碱基序列包括五个碱基,其中至少第一碱基和最后一个碱基为G。

30.根据条款17所述的非暂态计算机可读存储介质,其中特定碱基序列模式包括至少五个碱基,其中特定碱基序列模式的至少三个碱基为G。

31.根据条款17所述的非暂态计算机可读存储介质,其中特定碱基序列包括GGXGG、GXGGG、GGGXG、GXXGG、GGXXG中的任一者,其中X为A、C、T或G中的任一者。

32.根据条款17所述的非暂态计算机可读存储介质,其中处理受惩罚的损失函数包括:

处理受惩罚的损失函数,以生成输入梯度,其中输入梯度用于调整神经网络模型的权重,从而训练用于碱基检出的神经网络模型。

33.一种用于碱基检出的系统,所述系统包括:

存储器,该存储器存储传感器数据;和

碱基检出器,该碱基检出器包括神经网络模型,该神经网络模型被配置为基于传感器数据来检出碱基,神经网络模型包括:

前向传递区段,该前向传递区段被配置为处理传感器数据以预测碱基检出;

损失生成模块,该损失生成模块被配置为比较预测碱基检出和基准真值碱基检出,以生成损失函数;

损失惩罚模块,该损失惩罚模块被配置为选择性地惩罚该损失函数,以生成受惩罚的损失函数;以及

后向传播区段,该后向传播区段用以处理受惩罚的损失函数,以便于调整神经网络模型的权重,从而训练用于碱基检出的神经网络模型。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种洗涤设备的电机控制方法、装置及一种洗涤设备
  • 一种3D显示装置的检测方法、装置及设备
  • 一种检测装置的校准方法、装置和终端设备
  • 一种碳化设备的PLC程序控制方法及装置
  • 一种应用程序控制方法、装置、电子设备及存储介质
技术分类

06120116550675