掌桥专利:专业的专利平台
掌桥专利
首页

病毒基因突变模式的测量和预测

文献发布时间:2023-06-19 09:44:49


病毒基因突变模式的测量和预测

相关申请的交叉引用

本申请要求获得2018年6月20日提交的第62/687,645号美国临时申请的权益,所述美国临时申请的公开内容通过引用以其整体并入。

背景

本发明总体上涉及病毒感染性疾病(例如,流行性感冒)的遗传流行病学,尤其涉及引起感染性疾病的病毒的病毒基因(或氨基酸)突变模式的测量和预测。

流行性感冒,也称为“流感”,是一种已经困扰人类几个世纪的传染性呼吸系统疾病。当人们发现流感是由病毒(流行性感冒病毒,即流感病毒)引起时,便希望产生有效的疫苗。经过多年的研究,流感疫苗现在得到广泛的应用。然而,流感病毒会迅速突变为新毒株,并且针对一种毒株有效的疫苗可能针对其它(突变的)毒株无效。因此,在制备流感疫苗时使用的流感病毒株的“配方”会根据对未来有效毒株的预测而定期修改,政府鼓励个人每年接种新的流感疫苗,以帮助他们的免疫系统跟上突变的流感病毒。

目前,每年流感疫苗生产和分配的方案包括需要决定在下一轮的疫苗接种中防御哪些流感病毒毒株。目前,这项决定是基于对来自世界各地的流感病毒样本、已知的抗原位点(例如,病毒序列中的特定氨基酸)的研究,以及从经验中学到的关于病毒突变模式的教训得出的。其目的是预测在未来约18个月至2年内哪些流感病毒毒株将有效对抗人类免疫系统(即,产生疾病)。流感疫苗就是根据这一预测研制的。

预测并不总是准确的,因此,每年流感疫苗的有效性差异很大。这使得个体不太愿意接种流感疫苗,从而损害了当大多数人针对某传染原进行免疫时获得的“群体免疫”效应。

因此,改进用于预测病毒突变,且特别是用于预测在未来至少两年的时间范围内哪些突变将会有效对抗人类免疫系统的技术将是尤其重要的。

概述

本发明的某些实施方案涉及基于病毒序列(例如氨基酸序列)和群体流行水平测量和预测病毒突变模式的技术。预测是基于鉴定“有效突变”,即有助于病毒逃避人类免疫的具有进化优势的突变(氨基酸序列或核酸序列的变异),这与对病毒存活和繁殖的能力没有(或有可忽略的)影响的“不重要突变”相反。预测还基于人类免疫将最终学会识别和阻止有效突变(在疫苗的帮助下或不在疫苗的帮助下)的假设。这意味着有效突变具有“有效突变期”,这是突变使病毒能够逃避人类免疫的时间段。使用本文所述的技术,鉴定有效突变和确定有效突变期,可更精准的预测给定病毒的哪些毒株(即,哪些突变)将在未来的时间段中流行。这种预测可实现多种实际目的,包括:(1)帮助选择用于疫苗生产的病毒毒株;(2)提供关于给定版本的疫苗的可能功效的实时信息;和/或(3)预测病毒活性(例如,由病毒引起的感染性疾病的发病率)。

本文所用的一些说明性技术依赖于流感病毒组成(氨基酸序列)和感染率的纵向群组分析,以计算流感病毒的基因突变活性的度量,在本文中称为“g-度量”。下面将从至少两个方面来更具体地描述g-度量如何模拟基因活性。第一是单一突变是否应被认为是重要的。假设更适应的突变将在新出现后广泛地扩散,而不重要的突变将不会扩散,则单一残基的流行率将导致更高的g-度量。基因活性的第二方面体现在同时突变的基因数目,g-度量可捕获同时具有多个残基取代的潜在抗原性转变;在给定的流行率下,较高数量的有效突变将增加g-度量。因此,g-度量反映了突变的适应性和同时有效突变的数目。此外,如果某一位点在研究期内出现多于一个的有效突变期,则g-度量将涵盖随后的有效突变期。计算g-度量还包括优化进一步表征流感病毒基因活性的参数,如优势阈值(残基被认为是有效突变所需的最小流行率)和延长的有效期(代表有效突变在获得优势后保持有效对抗人类免疫的时间)。g-度量和/或相关参数可以用于预测流感病毒的未来基因活性,这可以有助于为下一轮流感疫苗选择病毒毒株和/或预测流感爆发。类似的技术可以应用于其它病毒和相关的感染性疾病。

以下详述与附图一起提供了对所要求保护的发明的性质和优势的更好的理解。

附图简述

图1A-1C示出了根据本发明实施方案的编码序列构造的简化实例。图1A显示了在一段时间内观察到的四种示例性氨基酸序列。图1B显示了根据本发明的实施方案可以定义研究期内的标签序列。图1C显示了对应于图1A的氨基酸序列和图1B的标签序列的编码序列。

图1D显示了根据本发明的实施方案从图1C的编码序列计算的流行率向量。

图2显示了根据本发明的实施方案从流行率向量鉴定有效突变和有效突变期的简化实例。

图3和图4是显示了g-度量与在群体中观察到的流感感染变化的相关性的图。图3显示了获自1996年至2015年香港的流感病毒活性的观察结果的数据。图4显示了获自2003年至2016年纽约的流感病毒活性的观察结果的数据。

图5显示了根据本发明实施方案用于测量和预测流感病毒活性的方法的流程图。

详述

本发明所述的用于模拟病毒活性的技术依赖于病毒组成(氨基酸序列)和感染率的纵向群组分析,以计算病毒的基因突变活性的度量,在本文中称为“g-度量”。在被分成一组相等持续时间的时间段的“研究期”中进行分析。在一些实施方案中,每个时间段可以是一年;其它实施方案可以定义更短的时间段(例如,三个月、一个月、一周)或更长的时间段(例如,两年、五年等)。为了说明的目的,提及了流行性感冒或“流感”病毒;然而,所描述的技术可以应用于其它病毒。

对于给定的时间段t,收集了n

假定病毒可以在研究期期间突变,并且在相同时间段内收集的流感病毒的不同样本可以具有不同的突变。为了便于突变的分析,定义研究期内的“标签序列”是有帮助的,所述“标签序列”可以用于以统一的格式表示每个样本。对于k=1,…,K,标签序列可以是氨基酸序列{a

其中J是病毒的总氨基酸序列长度,并且q

给定标签序列{a

图1A-1C示出了根据本发明实施方案的编码序列

在该实例中,假定在研究期期间的其它时间段(例如,多年)中也观察到氨基酸序列,并且在那些时间段中的至少一个时间段内观察到一些位点上出现其它氨基酸。具体来说,假定进行以下观察:对于位点j=1,观察到氨基酸V、I、N或K;对于位点j=2,观察到氨基酸S;对于位点j=3,观察到氨基酸E或K;对于位点j=4,观察到氨基酸N或D;并且对于位点j=5,观察到氨基酸A或T。图1B显示了根据本发明实施方案可以定义研究期内的标签序列120。在该实例中,对标签序列120的位数进行排序,使得前四个标签序列位置对应于在j=1处观察到的氨基酸,下一个标签序列位置对应于在j=2处观察到的氨基酸,等等。当标签序列的多个位数对应于氨基酸序列中的相同位点时,可以基于第一次观察的时间段对位数进行排序。如果需要,可以使用其它排序。

图1C显示了分别对应于氨基酸序列101、102、103、104的编码序列131、132、133、134。编码序列131-134提供了与原始氨基酸序列101-104相同的信息,但采用了如下所述的计算分析的格式。应理解,流感病毒的氨基酸序列比该简化实例中的氨基酸序列长得多,并且在一段时间内获得的序列样本的数目可以比所示的四个实例大得多。还应理解,图1A-1C中的特定序列仅用于说明的目的,并且可以对应或不对应于现有的病毒。

给定一组与时间段t期间观察到的样本i相对应的n

流行率向量p

为了鉴定有效突变,即提供对抗人类免疫的进化优势的突变,可以在研究期内的整个时间段中分析流行率向量p

则将标签序列的位置a

定义有效突变期(EMP,在本文中用ω表示)也是有用的,所述有效突变期表示有效突变保持其进化优势的时间长度。该时间段包括转变时间t

ω

时间段t期间的有效突变的集合(在本文中用W

θ和h的最佳值可以使用以下所述的拟合程序凭经验确定。原则上,标签序列{a

图2显示了根据本发明实施方案用流行率向量鉴定有效突变和EMP的简化实例。假设来自图1B的标签序列{a

在鉴定有效突变和EMP后,可以计算反应基因突变活性的度量(本文称为“g-度量”)。具体来说,对于每个时间段t,K分量的指示符向量m

其中根据等式(4)定义ω(θ,h)。g-度量可以被定义为:

图2展示了每个时间段的根据等式(7)计算的g

g-度量可以被理解为在给定时间段内所有有效突变的流行率的函数(例如,总和)。它模拟了基因活性的两个相关方面。第一是突变是否应被认为是重要的。假设更适应的突变将在新出现后广泛地扩散,而不重要的突变将不会扩散,则单一残基的流行将导致更高的g-度量。第二个方面是同时突变的数目,其捕获同时具有多个残基取代的潜在抗原性转变;在给定的流行率下,较高数量的有效突变将增加g-度量。因此,g-度量反映了突变的适应性和同时有效突变的数目。此外,如果某一位点在研究期内出现多于一个的有效突变期,则g-度量将涵盖所有的有效突变期。g-度量可以用于各种目的,包括:(1)预测流行病学;(2)基于有效突变和EMP选择用于下一轮流感疫苗的病毒毒株;(3)基于对当前的有效突变与疫苗毒株进行比较来评估当前可用的流感疫苗毒株。

如上所述,g-度量取决于两个参数:优势阈值θ和延长的有效突变期h。在一些实施方案中,可以基于群体水平流行性变量,如亚型的血清阳性率、一段时间内诊断的病毒感染病例的数目或该段时间内病毒感染的住院率,凭经验确定这些参数的值。预期g-度量的时间变化应与群体水平流行性变量的时间变化相关,因为新的有效突变的扩散将导致群体中更多的感染。

因此,在本发明的一些实施方案中,以下拟合程序可以用于确定θ和h的值。群体水平流行性变量(例如,诊断病例的数目或住院治疗的数目)被定义为向量f=[f

其中H={0、1、2、..},并且θ=[0.5,1]。

通过说明的方式,图3和图4显示了g-度量与在群体中观察到的流感感染变化的相关性的图。图3显示了获自1996年至2015年香港的流感病毒活性的观察结果的数据。通过虚线连接的菱形数据点对应于每年诊断出的甲型流行性感冒病例的数目。通过实线连接的圆形数据点表示使用如上所述计算的g-度量预测的病例的数目。类似地,图4显示了获自2003年至2016年纽约的流感病毒活性的观察结果的数据。通过虚线连接的菱形数据点显示了在给定年份中归因于病毒的H3毒株的流行性感冒病例的百分比。通过实线连接的圆形数据点表示使用如上所述计算的g-度量预测的此类病例的数目。如从图3和图4中可以看出的,具有θ和h的最佳值的g-度量可以模拟群体中流感发生率的变化。

如本文所述的g-度量可以用于进行对未来流感病毒活性的预测。在一些实施方案中,可以对流感的未来发生率进行预测。例如,如果拟合函数S(f,g)是泊松回归模型的拟合优度统计量的p值,则可以从现有数据获得以下拟合模型:

其中X是与流行病相关的环境协变量(例如,温度和湿度),并且T是时间变量;通过拟合确定系数

当时间段t+1的病毒序列样本可用时,可以根据等式(7),使用p

其中E表示从条件流行率分布

在一些实施方案中,可以对下一个优势流行性感冒亚型进行预测。例如,可以获得每种亚型的g-度量,并且具有最高

在一些实施方案中,还可以进行有效突变的预测。等式(5)定义了时间段t的有效突变W

在一些实施方案中,可以定义时间段t的代表性病毒序列

其中r

其中,对于序列位点j,范围(r

r

代表性病毒序列

在一些实施方案中,未来时间段的代表性病毒序列

本文所述的分析方法可以应用于特定地区的序列和流行病数据、全球数据,或地区和全球数据的组合。候选疫苗病毒的预测可以是特定地区(例如,国家、大陆或半球)特异性的或制作用于全球使用。

本文所述的分析方法可以应用于流感病毒的任何或所有基因区段。由于每个基因可能具有不同的θ和h参数,因此当样本量足够大时,可以同时进行不同基因的多个g-度量的拟合(全局估计),或者可以首先估计重要基因的θ和h参数(例如,血凝素和神经氨酸酶-最常见的突变区段),然后有条件地估计剩余基因区段的θ和h参数(局部优化)。

本文所述的分析方法可以应用于任何流行性感冒病毒亚型,如H3N2、大流行的H1N1、B/Yamagata、B/Victoria。同样的方法也可以应用于其它已知的引起感染性疾病的病毒,如A-EV71病毒(手足口病的原因)、鼻病毒(普通感冒的原因)或者新出现的可引起流行病或大流行病的病原体。

可以使用任何可用的测序技术(包括但不限于第一代测序(Sanger)、下一代测序(Illumina平台)或第三代测序(PacBio平台或Nanopore平台))获得在本文所述种类的分析中使用的测序数据。

本文所述的分析方法可以用于计算机实施的预测流感病毒活性的方法中。图5显示了根据本发明实施方案用于测量和预测流感病毒活性的过程500的流程图。图5可以使用常规设计的计算机系统来实施。该过程的输入可以包括在研究期内收集的真实世界数据,包括关于流感报告病例的发病率或比率的数据和在研究期内观察到的流感病毒的序列数据。

在框502处,定义了研究期。研究期可以与期望的一样长,例如10年、15年、20年等。研究期可以分成多个相等长度的时间段(例如,一年、三个月等)。研究期的选择和每个时间段的长度可以基于可用于确定流感病毒中特定突变的流行率的数据的可及性。

在框504处,获得每个时间段内的群体水平的流行性变量。如上所述,这可以是代表群体中流感病毒感染发生的次数或频率的变量。根据哪些数据源是可用的,群体水平流行性变量可以基于报告的流感诊断病例数和/或报告的流感住院治疗病例数。这样的数据可以从多年以前的公共健康记录中获得。另外,也可以使用来自前瞻性纵向群组的采样替代,并且可以对回顾性获取的和/或从正在进行的采样中获取的数据的任何组合实施过程500。

在框506处,获得每个时间段内的流感病毒样本的氨基酸序列。例如,可以定期收集流感病毒样本并对其进行测序。可以从感染的患者、从环境表面或以任何其它方式收集样本。可以使用常规技术测定流感病毒样本的氨基酸序列。注意,流感病毒的获得和测序已经在世界上的至少一些地方成为常规实践,允许使用先前获取的和目前获取的并记录的数据来实施过程500。

在框508处,确定了所有时间段内流感病毒的每个样本的编码序列。如上所述,编码序列可以通过首先产生代表在整个研究期的每个序列位置处观察到的每个氨基酸的标签序列来确定,并且特定样本的编码序列可以基于在该特定样本的每个序列位置中存在哪个观察到的氨基酸来确定。

在框510处,对于每个时间段,从与该时间段有关的编码序列中确定流行率向量。可以按上述方式计算流行率向量。

在框512处,可以基于研究期内所有时间段的流行率向量,鉴定一个或多个有效突变,并且对于每个有效突变,可以鉴定其有效突变期。如上所述,有效突变的鉴定可以基于该突变是否在第一个时间段之后首次出现以及该突变是否达到优势阈值θ。有效突变期可以被鉴定为该突变从第一次出现到达到优势阈值的时间加上延长的有效突变期h。

在框514处,基于在框512处鉴定的一个或多个有效突变和在框504处获得的群体水平流行性变量来优化g-度量。例如,如上所述,可以定义相似性函数S(f,g),使得较小的S表示f(代表观察到的群体水平流行性变量的向量)和g之间的更接近的匹配。可以使用θ和h的值的不同组合来计算向量g-度量,并且对于每个g(θ,h),可以确定S的值。通过对θ和h的值的不同组合进行迭代,可以确定使S最小化的值。

在框516处,对未来流感病毒活性(即,在研究期的最后一个时间段之后的至少一个“未来”时间段t+1期间的活性)进行预测。可以基于在流行率向量中观察到的g-度量和/或模式来进行预测。可以使用上述预测方法。例如,可以使用等式(10)和(11)预测未来的流行性水平。未来的有效突变可以使用等式(10)和等式(5)处有效突变的定义来预测。未来的代表性病毒序列可以使用等式(10)和(12)-(14b)进行预测。疫苗匹配评分可以基于当前的代表性病毒序列(如上所述)和疫苗中包括的病毒毒株之间的距离来计算。

可以将在框516处做出的预测报告给医疗专业人员以用于各种用途。实例包括:为流感病毒的预计增加做准备(包括发布公共健康公告、生产用于治疗流感患者的另外的药物等);选择要包括在流感疫苗中的流感毒株(野生型或基因工程改造的序列);和/或评估当前可用的流感疫苗的可能有效性。

虽然已经参考具体实施方案描述了本发明,但本领域技术人员将可以进行改变和修改。以上所述的所有过程都是说明性的并且可以进行修改。可以将描述为单独的框的处理操作进行组合,可以将操作的顺序修改到逻辑允许的程度,可以改变或省略上述的处理操作,并且可以添加没有具体描述的另外的处理操作。可以根据需要修改特定的定义和数据格式。

根据数据的可用性,研究期可以和期望的一样长或者和期望的一样短。在一些实施方案中,可以将病毒样本和群体水平数据定位到特定区域(例如,国家、州或地区、城市),从而允许对病毒活性的地理变化进行建模。

此外,尽管上述实施方案具体涉及流感病毒,但本领域技术人员将理解,相同的分析方法可以应用于与其它感染性疾病相关的其它病毒,并且本发明不限于任何特定的病毒。

本发明描述的数据分析和计算操作可以在常规设计的计算机系统,如台式计算机、膝上型计算机、平板计算机、移动设备(例如智能电话)等中实现。计算集群和/或基于云的计算系统可以用于增加计算能力。这样的系统包括执行程序代码的一个或多个处理器(例如,可用作中央处理单元(CPU)的通用微处理器和/或诸如图形处理器(GPU)的专用处理器,其可以提供增强的并行处理能力);存储程序代码和数据的存储器和其它存储设备;用户输入设备(例如,键盘、诸如鼠标或触摸板的定点设备、麦克风);用户输出设备(例如,显示设备、扬声器、打印机);组合的输入/输出设备(例如,触摸屏显示器);信号输入/输出端口;网络通信接口(例如,有线网络接口,如以太网接口和/或无线网络通信接口,如Wi-Fi);等等。并入本发明的各种特征的计算机程序可以被编码并存储在各种计算机可读存储介质上;合适的介质包括磁盘或磁带、诸如光盘(CD)或DVD(数字通用光盘)的光学存储介质、闪存和其它非暂时性介质上。(应理解,数据的“存储”与使用诸如载波的暂时性介质的数据传播不同。)可以将用程序代码编码的计算机可读介质与兼容的计算机系统或其它电子设备打包在一起,或者可以将程序代码与电子设备分开提供(例如,经由因特网下载或作为单独打包的计算机可读存储介质)。输入数据和/或输出数据可以以安全形式提供,例如使用区块链或其它加密技术。

因此,尽管本发明已经针对特定实施方案进行了描述,但应理解本发明旨在覆盖所附权利要求范围内的所有修改和等同物。

相关技术
  • 病毒基因突变模式的测量和预测
  • 用于对图像预测单元的帧内预测模式进行编码的方法和装置,以及用于对图像预测单元的帧内预测模式进行解码的方法和装置
技术分类

06120112284538