掌桥专利:专业的专利平台
掌桥专利
首页

稀疏数据集中相关信号的提取

文献发布时间:2023-06-19 19:28:50


稀疏数据集中相关信号的提取

相关专利申请的交叉引用

本申请要求于2020年2月13日提交的美国临时专利申请号62/976,175的优先权的权益,所述美国临时专利申请的全部披露通过引用并入本文。

技术领域

本发明总体涉及数据处理领域,特别涉及从稀疏数据集中提取相关信号。

背景技术

处理大量数据以获得相关信号(例如,用于特定诊断查询的感兴趣数据、包含噪声底限或隐写编码内的隐藏或模糊信号的数据、基于大型巡天的天体物理数据集等)是资源密集型和低效的,需要大量的处理能力、存储器和访问数据服务器的网络带宽,以及大量的下游资源来筛选或审查所得到的数据。在缺乏提取相关信号的方法的情况下,用于数据相关性的下游验证过程也需要低效的、密集的资源使用。提取信号的上游方法可能涉及复杂的机器学习算法,或人工管理和数据库,但这些要么需要大量的计算能力和存储空间,要么需要大量的人工干预,无法实际考虑底层数据集的整体。

例如,基因测试和计算遗传学通常面临着庞大但稀疏的数据集的问题,这些数据集占用巨大的存储空间,需要巨大的计算能力,但对于特定的科学研究来说,包含的相关数据项相对较少。这种情况尤其如此,因为遗传信息(例如基因变异信息)经常分散在许多内容可能重叠或不重叠的数据库间,以至于要么是冗余的,要么是互补的。

类似地,通过在时间和/或频率上以各种间隔添加几个比特的隐藏信号,可以将信号隐藏在诸如图像、音频、无线电信号等的其他数据的噪声中。通过将信号作为噪声或其他信号中的稀疏数据提供,信号可以被隐藏而躲过大多数侦听。然而,仍有可能通过强力扫描方法来检测此类信号,尽管这可能需要大量的计算能力和带宽。

发明内容

这里公开的系统和方法提供从稀疏数据集提取相关信号,并且在一些实现中可以从这些数据集过滤或排除噪声。与分析包括低质量、不相关或错误数据的整个数据集相比,这可以减少处理要求,并且可以通过减少花费在可能提供不准确或不相关结果的数据上的计算时间量来提高计算速度。在许多实现中,这些系统和方法还可以相对于处理或传输整个数据集减少存储器和带宽消耗。

根据本发明的至少一个方面,一种从稀疏数据集中提取相关数据的方法可以包括:通过分析设备从第一稀疏数据集中收集数据,所述第一稀疏数据集中的每个数据项包括第一标识符;由所述分析设备将所述第一稀疏数据集的具有用于所述第一标识符的第一值的数据项的数目与预定义阈值进行比较;以及当所述第一稀疏数据集的具有用于所述第一标识符的所述第一值的数据项的数目低于所述预定义阈值时,由所述分析设备从所述至少一个附加数据集收集附加数据,所述至少一个附加数据集包括与所述第一稀疏数据集中的至少一个数据项对应的数据,并且其中所述至少一个附加数据集中的每个数据项缺少所述第一标识符。所述附加数据集也可以是稀疏的。

在一些实现方式中,所述第一稀疏数据集包括基因变异数据库。在一些实现方式中,所述至少一个附加数据集包括至少一个附加基因变异数据库。在一些实现方式中,所述基因变异数据库包括人类基因变异数据。在一些实现方式中,所述至少一个附加基因变异数据库包括人类基因变异数据。在一些实现方式中,每个数据项包括识别基因变异的信息。在一些实现方式中,所述第一值包括对应于在所述数据项中识别的基因变异的功能丧失状态的指示。

在一些实现方式中,用第一组参数执行所述方法以生成第一组相关信号;以及使用至少一组附加参数将所述方法额外执行至少一次,以产生至少一组附加相关信号。

根据本发明的至少一个方面,一种从稀疏数据集中提取相关数据的方法可以包括:由分析设备从第一稀疏数据集中收集多个数据记录,每个数据记录包括第一标识符和至少一个第一值;以及对于每个数据记录,由所述分析设备将所述至少一个第一值与第一预定义信号判据和第一预定义噪声判据进行比较;以及,(i)当所述至少一个第一值对应于所述第一预定义噪声判据时,丢弃所述数据记录;或者(ii)当所述至少一个第一值不对应于所述第一预定义信号判据或所述第一预定义噪声判据时,(1)由所述分析设备从至少一个附加数据集收集附加数据,其中所述至少一个附加数据集包括与所述数据记录的所述第一标识符相对应的附加标识符,并且其中所述附加数据包括至少一个第二值;(2)由所述分析设备将所述至少一个第二值与第二预定义信号判据进行比较;以及(3)除非所述至少一个第二值对应于所述第二预定义信号判据,否则由所述分析设备丢弃所述数据记录。所述附加数据集也可以是稀疏的。

在一些实现方式中,用第一组参数执行所述方法以生成第一组相关信号;以及使用至少一组附加参数将所述方法额外执行至少一次,以产生至少一组附加相关信号。

在一些实现方式中,所述至少一个第二值是在从至少一个附加数据集收集附加数据的步骤之后产生的。在一些实现方式中,所述至少一个附加数据集包括多个附加数据集。

在一些实现方式中,所述至少一个第二值包括所述至少一个附加数据集中的包括与所述数据记录的第一标识符相对应的附加标识符的数据集的计数。

在一些实现方式中,所述第一稀疏数据集包括基因变异数据库。在一些实现方式中,所述基因变异数据库包括人类基因变异数据。在一些实现方式中,所述至少一个附加数据集包括至少一个附加基因变异数据库。在一些实现方式中,所述至少一个附加基因变异数据库包括人类基因变异数据。在一些实现方式中,所述第一标识符标识基因变异。在一些实现方式中,所述附加标识符定义了基因变异。在一些实现方式中,所述至少一个第一值对应于所述基因变异的表型指示。在一些实现方式中,所述第一预定义信号判据包括对应于所述基因变异的功能丧失表型的指示。在一些实现方式中,所述第一预定义信号判据包括对应于所述基因变异的病原体表型的指示。在一些实现方式中,所述第一预定义噪声判据包括预定义基因变异携带者频率范围。在一些实现方式中,所述第二预定义信号判据包括用于数据集计数的预定义范围。

根据本发明的至少一个方面,一种用于提取相关数据的系统包括:分析设备,其包括存储器单元和处理单元;以及存储单元,其与所述分析设备通信,其中所述存储单元用于接收所述分析设备提取的相关信号。所述分析设备被配置为通过执行以下步骤来提取相关信号:(1)从第一稀疏数据集中收集多个数据记录,其中所述第一稀疏数据集包括多个数据记录,每个数据记录包括第一标识符和至少一个第一值;(2)对于每个数据记录:将所述至少一个第一值与第一预定义信号判据和第一预定义噪声判据进行比较;以及(i)当所述至少一个第一值对应于所述第一预定义噪声判据时,丢弃所述数据记录;或者(ii)当所述至少一个第一值不对应于所述第一预定义信号判据或所述第一预定义噪声判据时:(a)从至少一个附加数据集收集附加数据,其中所收集的数据包括对应于所述数据记录的第一标识符的附加标识符;(b)将所述至少一个第二值与第二预定义信号判据进行比较;以及(c)除非所述至少一个第二值对应于所述第二预定义信号判据,否则丢弃所述数据记录;以及(3)将每个未丢弃的数据记录存储在所述存储单元上。任何附加数据集也可以是稀疏的。

在一些实现方式中,所述至少一个第二值是在从至少一个附加数据集收集附加数据的步骤之后产生的。在一些实现方式中,所述第二预定义信号判据包括用于数据集计数的预定义范围。在一些实现方式中,所述至少一个附加数据集包括多个附加数据集。在一些实现方式中,所述至少一个第二值包括所述至少一个附加数据集中的包括与所述数据记录的第一标识符相对应的附加标识符的数据集的计数。

在一些实现方式中,所述第一稀疏数据集包括基因变异数据库。在一些实现方式中,所述至少一个附加数据集包括至少一个附加基因变异数据库。在一些实现方式中,所述基因变异数据库包括人类基因变异数据。在一些实现方式中,所述至少一个附加基因变异数据库包括人类基因变异数据。在一些实现方式中,所述第一标识符标识基因变异。在一些实现方式中,所述至少一个第一值对应于所述基因变异的表型指示。在一些实现方式中,所述第一预定义信号判据包括对应于所述基因变异的功能丧失表型的指示。在一些实现方式中,所述第一预定义信号判据包括对应于所述基因变异的病原体表型的指示。在一些实现方式中,所述第一预定义噪声判据包括预定义基因变异携带者频率范围。

根据本发明的至少一个方面,一种用于从稀疏数据集中提取相关信号的系统包括:分析设备,其包括存储器单元和处理单元;以及存储单元,其与所述分析设备通信,其中所述存储单元用于接收所述分析设备提取的相关信号。所述分析设备被配置为通过执行以下步骤来提取相关信号:(1)从第一稀疏数据集中收集数据,所述第一稀疏数据集中的每个数据项包括第一标识符;(2)将所述第一稀疏数据集的具有用于所述第一标识符的第一值的数据项的数目与预定义阈值进行比较;以及(3)当所述第一稀疏数据集的具有用于所述第一标识符的所述第一值的数据项的数目低于所述预定义阈值时,由所述分析设备从所述至少一个附加数据集收集附加数据,所述至少一个附加数据集包括与所述第一稀疏数据集中的至少一个数据项对应的数据,并且其中所述至少一个附加数据集中的每个数据项缺少所述第一标识符;以及(4)将未丢弃的数据存储在所述存储单元上。任何附加数据集也可以是稀疏的。

在一些实现方式中,所述第一稀疏数据集包括基因变异数据库。在一些实现方式中,所述至少一个附加数据集包括至少一个附加基因变异数据库。在一些实现方式中,所述基因变异数据库包括人类基因变异数据。在一些实现方式中,所述至少一个附加基因变异数据库包括人类基因变异数据。在一些实现方式中,每个数据项包括识别基因变异的信息。在一些实现方式中,所述第一值包括对应于在所述数据项中识别的基因变异的功能丧失状态的指示。

前面的一般描述和下面的附图说明以及具体实施方式是示例性和说明性的,并且旨在提供对所要求保护的发明的进一步解释。从以下附图说明和具体实施方式中,本领域技术人员将容易清楚其他目的、优点和新颖特征。

附图说明

通过结合附图参考以下描述,本发明的方案的前述和其他目的、方面、特征和优点将变得更加明显和更好理解,其中:

图1是用于从稀疏数据集提取相关信号的方法的实现的流程图;以及

图2是示出用于本文讨论的系统和方法的计算环境的实现的框图。

当结合附图时,本发明的方案的特征和优点将从下面阐述的具体实施方式中变得更加明显,在附图中,相似的参考字符始终标识对应的元件。在附图中,相似的参考数字通常表示相同的、功能相似的和/或结构相似的元件。

具体实施方式

可以以多种方式中的任何一种来实现上面介绍和下面更详细讨论的各种概念,因为所描述的概念不限于任何特定的实现方式。提供具体实现方式和应用的示例主要是为了说明的目的。

除非另有定义,否则本文所使用的所有技术和科学术语均具有与本技术所属领域的一般技术人员所通常理解的含义相同的含义。另外,在一些实例中,除了本领域普通技术人员通常理解的含义之外,在此可以提供定义作为替代定义;因此,本文提供的任何定义都应被视为作为通常意义的补充,而不是排除通常意义之外的定义,除非明确说明。

这里使用的短语和术语是为了描述的目的,不应被视为限制。此处使用“包括”、“包含”、“具有”、“含有”、“涉及”、“特征是”、“特征在于”及其变体,意味着包括此后列出的项目、其等价物和附加项目,以及仅由此后列出的项目组成的替代实现。在一个实现中,这里描述的系统和方法由所描述的元件、动作或组件中的一个、多个的每种组合、或所有组成。

如本文所用,术语“约”和“基本上”将为本领域普通技术人员所理解,并且在某种程度上将根据其使用的上下文而变化。如果考虑到其使用的上下文本领域普通技术人员并不清楚所述术语的使用,则“约”将意指高达特定术语的正负10%。

以单数形式提及的对本文所述系统和方法的实现或元件或动作的任何引用也可以包含包括多个这些元件的实现,并且对本文所述任何实现或元件或动作的任何复数形式引用也可以包含仅包括单个元件的实现。单数形式或复数形式的引用并不旨在将当前公开的系统或方法、它们的组件、动作或元件限制为单个或多个配置。对基于任何信息、动作或元件的任何动作或元件的引用可以包括其中该动作或元件至少部分基于任何信息、动作或元件的实现方式。

本文公开的任何实现方式可以与任何其他实现方式或实施方案相结合,并且对“一种实现方式”、“一些实现方式”、“一个实现方式”等的引用不一定是相互排斥的,并且旨在指示结合该实现方式描述的特定特征、结构或特性可以包括在至少一个实现方式或实施方案中。在此使用的这些术语不一定都指相同的实现方式。任何实现方式都可以以与本文所公开的方面和实现方式一致的任何方式包含性地或排他性地与任何其他实现方式结合。

在说明书和权利要求书中使用的不定冠词“一(a)”和“一个(an)”,除非明确表示相反,应理解为表示“至少一个”。

对“或”的引用可以被解释为包含,以便使用“或”描述的任何术语可以指示单个、多个和所有描述的术语中的任何一种情况。例如,对“‘A’和‘B’中至少一个”的引用可以只包括“a”,只包括“B”,也可以同时包括“A”和“B”。与“包括”或其他开放术语一起使用的此类引用可以包括附加项。

术语“分析设备”描述计算设备,例如膝上型计算机、台式计算机、便携式计算机、平板计算机、可穿戴计算机、嵌入式计算机、计算装置、工作站、服务器或多个这样的计算设备,包括由一个或多个物理设备(例如,云、集群或场)执行的虚拟机。

适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,举例来讲,包括半导体存储器设备(例如,EPROM、EEPROM、以及闪存存储器设备)、磁盘(例如,内置硬盘或可移除盘)、磁光盘、以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或结合在其中。

在某些情况下,术语“值”是指数据记录中的一段数据或描述一个或多个数据记录的某些方面的一段数据。例如,对于数据库条目中的一个变异,对与该变异相关联的表型的描述将是一个值。作为另一个示例,标识符出现在其中的数据库数量的计数将是一个值。

在某些情况下,术语“标识符”是指用于标识(或索引)特定数据项的值,例如唯一或半唯一的字符串或值或标签,或可用于标识数据项或其他实体的任何其他此类数据或值,包括名称、计数器值、索引值、序列值或任何其他此类数据。标识符的例子包括入藏号、指定给特定基因变异的名称或数据库主键条目。

在某些情况下,术语“标识基因变异的信息”包括标识符或任何其他表明基因变异身份的信息。

在某些情况下,术语“稀疏数据”是指其中空值或零值明显比非零值更普遍的数据,通常至少比非零值普遍一个数量级,并且在许多实现方式中,比非零值普遍两个、三个或更多数量级。在这个意义上,“空值或零值”和“非零”值可以通过将数据值与相关性判据进行比较来确定。在许多实现方式中,“空值或零值”可能不存在或被删除,因此可能并非明确地指具有零值的项、数据、条目或其他实体,而是指其他非零数据之间的间隙。

在一些实例中,此处使用的术语“数据库”包括本文所述的例子,例如常见的基因变异数据库,以及类似的数据库。在各种实现方式和使用中,该术语包括,例如,gnomAD,包括gnomAD v2和v3数据库;美国国家航空航天局(NASA)提供的天体物理数据系统(ADS);食品和药物管理局的不良事件报告系统(FAERS);或任何其他此类数据集。

如果附图、具体实施方式或任何权利要求中的技术特征后面跟着参考符号,则包括参考符号以增加附图、具体实施方式和权利要求的可理解性。因此,参考符号或其缺失对任何权利要求要素的范围都没有任何限制作用。

在不脱离其特性的情况下,本文描述的系统和方法可以以其他特定形式实现。前述实现方式是说明性的,而不是对所描述的系统和方法的限制。因此,这里描述的系统和方法的范围由所附的权利要求而不是前面的描述来指示,并且在权利要求的等效性的含义和范围内的变化被包含在其中。

在一些实施方案中,本文所述的系统和方法可应用于遗传学的上下文中。例如,基因筛查通常依赖于检测在普通人群中存在率非常低的变异。这种筛选受限于许多变异的科学意义往往需要数据收集后的下游验证以及遗传信息大的事实。例如,人类基因组构成了超过30亿个碱基对;除了基因序列信息之外,基因变异数据库还包括其他信息,如基因功能注释、书目信息和其他扩大其规模和复杂性的数据。另一方面,这类数据集虽然需要强大的计算能力和存储能力,但往往包含相对较少的相关数据。这里的系统和方法可以通过减少在这个过程中所需的计算时间和存储资源来改进计算技术和节约资源。

文献描述了若干包含人类基因变异信息的遗传数据库。例如,特别相关的数据库包括gnomAD、OMIM、ClinVar、HGMD和其他特定疾病的数据库。当单独使用基因组数据库时,每个数据库都有优点和缺点,因此分析通常需要来自多个数据库的信息。

在一些实施方案中,所公开的技术提供了一种从稀疏数据集(即人类基因变异数据库)中提取相关信号(即具有高致病概率的基因变异)的方法。

一个实施方案涉及一种用于从人类基因变异数据库中提取相关基因变异的方法。所述方法首先包括由分析设备从第一稀疏数据集收集数据的步骤。所述稀疏数据集是基因变异数据库,其可以是商业可用或公开可用的数据库(例如gnomAD)、内部数据库,并且可以是整个数据库或已预过滤以仅包括匹配预定义判据的特定基因或变异的数据库。所述稀疏数据集还可以包括来自多个基因变异数据库(例如结合OMIM、Clinvar和其他数据库的gnomAD)的条目。所收集的数据包含:第一标识符,例如入藏号或将数据与特定基因变异联系起来并可用于在其他数据集中查找相关数据的其他唯一标识符;以及第一标识符的第一值,例如与标识符相对应的变异导致功能丧失表型的指示(直接或间接的)。所述方法接下来包括由分析设备将具有用于第一标识符的第一值的第一稀疏数据集的数据项(即,基因变异)的数目与预定义阈值进行比较的步骤。例如,可以将所选择的变异的数量与筛选中应包括的期望数量或确保对感兴趣疾病的足够的检出率所需的期望数量进行比较。如果不满足该阈值,则由分析设备执行附加收集步骤,其中从至少一个附加数据集(例如,附加基因变异数据库,其可包括正式数据库或关于从科学文献中组装的基因变异的数据集合)收集附加数据。该附加数据也可以被预过滤,并且每个附加数据都缺乏第一组收集数据的标识符(即,它们不是冗余的)。

另一实施方案涉及用于从人类基因变异数据库中提取相关基因变异的方法。实施方法首先包括由分析设备从第一稀疏数据集中收集多个数据记录的步骤。所述稀疏数据集是基因变异数据库,其可以是商业可用或公开可用的数据库(例如gnomAD)、内部数据库,并且可以是整个数据库或已预过滤以仅包括匹配预定义判据的特定基因或变异的数据库。所述稀疏数据集还可以包括来自多个基因变异数据库(例如结合OMIM、Clinvar和其他数据库的gnomAD)的条目。每个收集的数据记录包含:第一标识符,例如入藏号或将数据与特定基因变异联系起来并可用于在其他数据集中查找相关数据的其他唯一标识符;以及第一标识符的第一值,例如与数据记录相对应的变异导致功能表型丧失的指示(直接或间接),或变异的基因型或表型特征的指示,或指示数据库中存在变异的标记。所述方法接下来包括将每个数据记录的值与第一预定义信号判据(例如,该基因变异将导致功能丧失表型)和第一预定义噪声判据(例如,该基因变异没有表型效应,或者该基因变异不对应于感兴趣基因)进行比较的步骤。任一判据可包含多个子判据。如果该值对应于噪声判据,则丢弃该值。如果它对应于信号判据,则保留它。如果两者都不对应,则该方法包括由分析设备进行的附加收集步骤,在该步骤中,收集来自至少一个附加数据集(例如,附加基因变异数据库,其可包括正式数据库或关于从科学文献中组装的基因变异的数据集合)的附加数据。该附加数据也可以被预过滤,并且附加数据包含至少一个第二值。第二个值可以是在数据收集之后计算的值,例如在其中找到与变异对应的数据的数据库的数量计数。然后,所述方法包括以下步骤:由所述分析设备将所述第二值(如果适用的话)与第二预定义信号判据(例如,所述基因变异存在于多个数据库中)进行比较,以及除非所述至少一个第二值对应于所述第二预定义信号判据,否则由所述分析设备丢弃所述数据记录。

在另一实施方案中,描述了一种用于选择变异的系统。该系统包括:分析设备,其包括存储器单元和处理单元;以及与分析设备通信的存储单元,其中所述存储单元用于接收所述分析设备提取的相关信号。这可能需要一个带有处理器、RAM和存储内存的生物信息学服务器,或者一个虚拟机,或者云服务,或者诸如此类。所述系统还与第一稀疏数据集和至少一个附加数据集交互。所述分析设备被配置为执行这里讨论的方法。

下面的例子说明了为了多基因诊断筛选的目的提取相关基因变异的方法的使用。特别地,该筛选旨在检测表明患者是一种遗传性疾病的潜在携带者的变异。尽管下面主要根据识别基因变异来讨论,但如上所述,这里讨论的系统和方法可用于许多其他应用和行业中。

用于变异审查和选择的基因必须满足以下几个判据中的一个或多个:(1)在一个或多个人群中升高的携带者频率;(2)临床意义(如发病早;危及生命;潜在可治疗);(3)泛种族状态(见于多个人群);和(4)文献报道的针对一个或多个人群的高检出率。

感兴趣基因包括与已知的遗传性疾病相对应的基因。例如,基因FKTN,对应Fukutin,用于Walker-Warburg综合征。其他感兴趣的基因如表1所示。

表1.用于变异选择的感兴趣基因

/>

/>

/>

/>

变异从多个数据库中收集,从这些数据库中收集和组合数据。变异首先从一个主要数据库gnomAD中收集,该数据库因其覆盖面广而被选中,其包括来自无关联个体的至少123,136个外基因组序列和15,496个全基因组序列,所述无关联个体包括许多种族亚群(非洲人/非裔美国人、拉丁美洲人、阿什肯纳齐犹太人、东亚人、芬兰人、非芬兰欧洲人、南亚人、其他)。以前的方法依赖于在已发表的研究中发现的变异的频率,但许多这些研究的队列很小,不能准确地代表更大的人群。根据需要从附加数据库中进行收集,以确定特定变异的相关性—例如,基于gnomAD关于与变异相关的可能表型(如功能丧失)的指示。

在这个意义上,可以使用多个信号判据(表示一个变异是感兴趣的标志)和噪声判据(表示变异不是致病的并且不需要被包括在内的标志)。信号判据可能是基因变异的结果是功能丧失表型,或者该变异出现在多个数据库中。噪声判据可以是,例如,变异与感兴趣基因不对应,没有导致表型(例如,有义突变),或者没有出现在多个数据库中。

根据致病性的可能性对变异进行分级或分类,这基于变异的类型(例如,预测的表型;突变的影响)以及被包括在多个数据库中,而无需全面审查每个变异。分类可以根据启发式或其他规则。例如,如果变异被预测会导致功能丧失突变,它可能会被归类为潜在的致病性。或者,如果一个变异在已知的基因活性位点上导致移码突变、缺失、插入、无义突变或错义突变,则可能被归类为潜在的致病性。分类可能基于突变是否位于已知的或生物信息学预测的由突变基因编码的蛋白质活性位点。此外,如果在四个数据库中的三个数据库中或其他基于频率的度量中发现了变异,则可能被归类为潜在的致病性。在一些实现方式中,该步骤可以描述为跨数据集的基于频率的数据过滤器。分类也可以结合使用多种启发式,例如满足(1)一个变异存在于多个数据库中或(2)该变异的预测功能丧失表型。或者,可以使用基于机器学习的分类器,该分类器使用已知或高度可能的致病变异的监督数据集。作为另一种选择,可以使用无监督机器学习分类器。这样的分类可以在过程的早期阶段完善,而不需要分析变异的附加特征。分级可能包括多个层级:例如,I级(由于功能丧失变异或被包括在多个数据库中,致病概率最高的变异)和II级(所有可能的致病变异)。在分析其他数据类型和应用的其他实现方式中,相对于所有数据信号的II级数据集,I级数据集可以包括数据信号的可能感兴趣的部分。因此,在一些实现方式中,I级数据集可以是II级数据集的子集,并且可以被称为过滤集、子集、兴趣集或任何其他对应术语。

例如,本文使用的方法可以使用以下参数生成I级列表:

表2.示例参数

作为附加的检查步骤,在许多实现方式中,可以比较来自文献的携带者频率(即,群体基因型频率)或疾病流行率(即,群体表型频率),以发现在gnomAD中发现的预测的致病变异的频率应该是多少。例如,可以使用标准的遗传学原理来进行这种比较,例如,可以使用Hardy-Weinberg方程,该方程可以将隐性性状的表型频率与基因型频率联系起来。这种比较可以通过设置阈值来完成,与该阈值比较变异的数量或组合频率,如果不满足该阈值,则收集附加数据。这也有助于检查gnomAD是否捕捉到了特定疾病或基因的足够广泛的变异分布。例如,如果已知人群疾病流行率与在该人群中发现的潜在致病变异的频率不一致,这表明变异选择可能不够包容,基于选择的遗传筛查的检出率不准确,应从进一步的数据库和文献中查询进一步的数据,以找到更多的变异。这种比较可以在特定的子群体中进行。

然后基于检出率选择变异(或数据信号的感兴趣的部分)。高度包容的筛选(例如,对应于2级)将具有高检出率但是会是资源密集的。包括较少变异(例如,对应于1级)的更多测量的筛选将具有较低的检出率但资源密集程度较低。数据的各个子部分(例如,种族子群体)的检出率可以变化,因此可以为数据的每个子部分(或子群体)设置检出率。例如见表3。这个检出率可以作为一个阈值来指导是否需要额外的数据收集或丢弃。

表3.按民族亚群划分的检出率

·1级–根据数据提取确定为有更高的致病可能

·2级–所有可能致病变异的综合列表

当变异的数量不足以达到期望群体中的期望检出率时,可以使用额外的变异选择步骤来补充上述步骤。例如,可以查询附加数据库,以连接来自主数据库筛选的结果,其中未满足级内可接受的变异计数的阈值。或者,在上述基于频率的过滤中,附加数据库可以包括在辅助数据库判据中。在适用的情况下,可能会包括来自值得信赖的疾病特定数据库的变异。例如,CFTR2数据库可用于囊性纤维化(CF)相关变异,这些变异可能不存在于其他CF含量较低的数据库中。作为另一个例子,gnomAD中不包括拷贝数变异(CNV),但在ExAC中可用。此外,中东人群一般不包括在gnomAD中,因此可以使用已发表的文献和数据库来寻找适用的变异并计算检出率。

一旦产生了变异列表,就对变异进行审查,以确保它们对应致病性。变异选择步骤优先考虑具有更高致病性概率的变异,这意味着在这一步骤中大多数变异只需要截断的注释时间。然而,一些变异将需要进一步审查。变异可以通过体内、体外或计算机方法进行审查。例如,变异可以通过临床试验或对被识别为具有该变异的患者的临床研究来审查。作为另一个例子,可以通过实验室研究带有变异的细胞系来审查变异,这些细胞系要么是从人类受试者那里收集的,要么是通过基因工程得到的。作为另一个例子,变异可以通过计算方法来审查,例如生物物理模拟或建模、变异效应的生物信息学预测、根据基因的已知结构或功能检查变异内任何突变的位置和性质、或通过从附加数据库中收集与变异相关的附加数据。通过上述方法选择的许多变异基本上不需要审查,如具有已知致病性或具有明显功能丧失突变的变异。未知意义的变异(VUS,也称为不确定意义的变异)被排除,使得相关信号集包括可被合理审查的可操作变异。例如,如果没有明显或可行的假设将变异与致病性联系起来,例如与保守的氨基酸突变联系起来,变异可以被归类为VUS。或者,VUS可能是任何与疾病风险关联尚不清楚的变异。VUS分类的阈值可以调整以影响审查的程度以及所需的进一步数据库或其他资源使用。

以上步骤代表了一种新颖而全面的变异选择方法,特别是用于遗传性疾病筛选的变异选择。这种方法需要依赖于比有限的公布队列大得多的数据收集。此外,该方法的结果是选择变异,使跨子种群的检出率最大化,并返回可操作的相关变异。

下面的例子说明了使用这里公开的方法来帮助文本的快速和高效翻译。

对即时翻译文本的需求增加了。例如,在资源贫乏或经济不发达地区应对灾害的医疗和急救人员可能不熟悉灾害发生地的语言。然而,理解这种语言的书面通信可能对工作人员与当地居民和紧急服务部门互动至关重要。这样的环境还可能缺乏可靠和快速的网络连接,并且人员可能被限制只能使用计算能力和存储空间有限的个人设备。

根据本发明的方法可用于提高例如用于近实时翻译文本的设备(例如,移动电话、平板电脑或个人计算机)的技术性能。除了个人设备之外,该方法还可以由处理组织的所有web或其他通信的服务器使用。响应于要翻译的文本串,该设备从诸如翻译数据库的第一稀疏数据集中收集数据。翻译数据库可能在设备上,也可能被远程访问。这种收集是机器翻译步骤的一部分,机器翻译步骤返回基于翻译数据库的建议翻译,以及基于文本预测准确性的置信度得分。然后,所述收集返回划分为子字符串(即数据记录)的字符串及其关联的译文。每个子字符串的文本可以作为方法中的标识符,置信度得分可以作为第一值。

可以设置预定义的信号判据。例如,信号判据可能是某一特定置信度得分,低于该得分需要额外的数据才能准确地翻译子字符串。阈值置信度得分可以被调整以允许在准确性和资源使用之间进行实时权衡,允许用户例如对电信线路突然被淹没和网络通信强度较差的事件进行调整。还可以设置预定义的噪声判据。例如,如果子字符串看起来不符合可理解的文本,例如其为表情符号、数字字符串、ASCII艺术或不使用要翻译的语言的象形图,则可以丢弃该子字符串。这可以从置信度得分中体现出来。例如,置信度得分可能被配置为包括范围0-5(不可译;无法理解的文本)、6-75(需要附加数据)和75-100(初步翻译足够)。

然后,该方法需要将置信度得分与信号和噪声判据进行比较。如果满足噪声判据,则子字符串被丢弃并且不进行翻译。如果满足信号判据,则保留子字符串及其翻译。如果两个条件都不满足,则收集附加数据。附加数据包括,例如,基于附加语言数据库对子字符串执行的翻译,以及可选地,可位于远程服务器上的附加机器翻译程序。附加的语言数据库可能比第一个数据库大得多、复杂得多,并可能使用更复杂、技术要求更高的硬件和软件。然后,附加数据包括用于类似选通比较的第二值(即,基于新译文的第二置信度得分)和第二信号判据(即,第二置信度得分的阈值)。基于第二次比较的结果,该方法可以保留原译文(如果第二次比较差),保留第二次的译文(如果原译文比较差),或者两者都保留并作为替代建议呈现。

以上步骤代表了一种新颖而全面的翻译方法,尤其是使用有限技术的翻译,包括有限的本地存储空间和处理能力。

所公开的系统和方法的其他应用包括在降噪或密码学中,通过滤除不相关的信号和选择用于进一步收集的信号。其他应用包括对大规模毒理学研究或数据库或其他生物医学数据的评估,其中系统和方法可以分离相关数据用于后续或筛选。其他应用包括大量文本语料库的大规模机器翻译,其中可以保留可靠的、直截了当的翻译单词或短语,而翻译中不可靠的部分可以导致以额外的机器或人类翻译的形式收集进一步的数据。其他应用包括实时通信期间文本的同时翻译,其中信号可以首先进行机器翻译,然后对翻译准确性的置信度进行统计评估,然后以额外的机器或人工翻译的形式收集进一步的数据。

图1是用于从稀疏数据集提取相关信号的方法的实现的流程图。在步骤100,可以收集来自第一稀疏数据集的一个或多个数据记录。每个数据记录可以包括一个或多个标识符,以及一个或多个值。在步骤102,可以选择第一记录(例如,按顺序、随机等),并且在步骤104,提取相关联的一个或多个值。在步骤106,系统可以确定所提取的值是否对应于预定义的噪声判据。如果是,则在步骤108,可以丢弃该记录。如果不是,则在步骤108,系统可以确定所提取的值是否对应于预定义的信号判据。如果是,则在步骤112,可以将该记录添加到相关数据记录的提取数据集。

然而,如上所述,在许多情况下,值可能不能立即识别为对应于噪声判据或信号判据,特别是对于稀疏数据集中的信号。因此,在这种情况下,在步骤114,可以从至少一个附加数据集收集附加数据,该附加数据集可以是稀疏数据集,也可以不是稀疏数据集。附加数据可以与第一数据记录、第一数据记录的标识符和/或第一数据记录的值相关联。附加数据可以包括至少第二值。在步骤116,可以将第二值与第二预定义信号判据进行比较。如果第二值不对应于第二预定义信号判据,则在步骤108可丢弃数据记录;否则,可以在步骤112将记录添加到相关数据集。对于第一稀疏数据集中的每个附加数据记录,可以迭代地重复步骤102-118。一旦完成,在步骤120,可以提供提取的相关数据记录的数据集。

已经讨论了从稀疏数据集提取信号的系统和方法的实施方案的具体细节,讨论可在其中部署这些实施方案的计算环境可能是有帮助的。

如图2所示,计算机201可以包括一个或多个处理器203、易失性存储器222(例如,随机存取存储器(RAM))、非易失性存储器228(例如,一个或多个硬盘驱动器(HDD)或其他磁或光存储介质、一个或多个固态驱动器(SSD)(如闪存驱动器或其他固态存储介质)、一个或多个混合磁和固态驱动器、和/或一个或多个虚拟存储卷(如云存储)、或此类物理存储卷和虚拟存储卷或其阵列的组合)、用户接口(UI)223、一个或多个通信接口218和通信总线250。用户接口223可以包括图形用户接口(GUI)224(例如,触摸屏、显示器等)和一个或多个输入/输出(I/O)设备226(例如,鼠标、键盘、麦克风、一个或多个扬声器、一个或多个相机、一个或多个生物测定扫描器、一个或多个环境传感器、一个或多个加速度计等)。非易失性存储器228存储操作系统215、一个或多个应用程序216和数据217,使得例如操作系统215和/或应用程序216的计算机指令由易失性存储器222中的处理器203执行。在一些实施方案中,易失性存储器222可以包括一种或多种类型的RAM和/或高速缓冲存储器,其可以提供比主存储器更快的响应时间。可以使用GUI 224的输入设备输入数据,或者从一个或多个I/O设备226接收数据。计算机201的各种元件可以经由一个或多个通信总线进行通信,所示为通信总线250。

图2中所示的计算机201仅作为示例示出为客户机、服务器、中介和其他网络设备,并且可以由任何计算或处理环境以及任何类型的机器或机器组来实现,所述机器或机器组可以具有能够如本文所述操作的适当硬件和/或软件。处理器203可以由一个或多个可编程处理器实现,以执行一个或多个可执行指令,例如计算机程序,以执行系统的功能。如本文所用,术语“处理器”描述执行功能、操作或操作序列的电路。所述功能、操作或操作序列可以硬编码到所述电路中,或者通过保存在存储器设备中并由所述电路执行的指令进行软编码。“处理器”可以使用数字值和/或使用模拟信号来执行功能、操作或操作序列。在一些实施方案中,“处理器”可以实现为一个或多个专用集成电路(ASIC)、微处理器、数字信号处理器(DSP)、图形处理单元(GPU)、微控制器、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、多核处理器或具有相关存储器的通用计算机。“处理器”可以是模拟、数字或混合信号。在一些实施方案中,“处理器”可以是一个或多个物理处理器或一个或多个“虚拟”(例如,远程或“云”)处理器。包括多个处理器核的处理器和/或多个处理器可以提供用于并行、同时执行指令的功能,或者用于在一个以上的数据段上并行、同时执行一个指令的功能。

通信接口218可以包括一个或多个接口,以使计算机201能够通过各种有线和/或无线或蜂窝连接访问计算机网络,例如局域网(LAN)、广域网(WAN)、个人局域网(PAN)或因特网。

在所描述的实施方案中,计算设备201可以代表客户端计算设备的用户执行应用程序。例如,计算设备201可以执行虚拟机,虚拟机提供应用在其中代表用户或客户端计算设备执行的执行会话,例如托管桌面会话。计算设备201还可以执行终端服务会话以提供托管桌面环境。计算设备201可以提供对计算环境的访问,该计算环境包括以下一个或多个:一个或多个应用程序,一个或多个桌面应用程序,以及一个或多个应用程序可以在其中执行的一个或多个桌面会话。

应当注意的是,本公开文本的某些段落可能与设备、操作模式、发射链、天线等一起使用了例如“第一”和“第二”的术语,以用于识别或区分彼此或其他元素。这些术语并不打算仅仅在时间上或根据顺序将实体(例如,第一设备和第二设备)相关联,尽管在某些情况下,这些实体可以包括这样的关系。这些术语也不限制可以在系统或环境中操作的可能实体(例如,设备)的数量。

应当理解,上述系统可以提供这些组件中的任何一个或每一个的多个,并且这些组件可以提供在独立机器上,或者在一些实施方案中,提供在分布式系统中的多个机器上。此外,上述系统和方法可以作为在一个或多个制品上或在一个或多个制品中实现的一个或多个计算机可读程序或可执行指令来提供。所述制品可以是硬盘、CD-ROM、闪存卡、PROM、RAM、ROM或磁带。通常,计算机可读程序可以用任何编程语言实现,如LISP、PERL、C、C++、C#、PROLOG,或用任何字节码语言实现,如Java。软件程序或可执行指令可以作为目标代码存储在一个或多个制品上或中。

虽然上文对所述方法和系统的书面描述使普通技术人员能够制作和使用目前被认为是其最佳方式的本发明,但是普通技术人员应明白并理解本文的具体实施方案、方法和示例的变化、组合和等同物的存在。因此,本发明的方法和系统不应受上述实施方案、方法和示例的限制,而是受本公开文本的范围和精神内的所有实施方案和方法的限制。

应当理解,上述系统可以提供这些组件中的任何一个或每一个的多个,并且这些组件可以提供在独立机器上,或者在一些实施方案中,提供在分布式系统中的多个机器上。上面描述的系统和方法可以被实现为使用编程和/或工程技术来生产软件、固件、硬件或其任何组合的方法、装置或制品。此外,上述系统和方法可以作为在一个或多个制品上或在一个或多个制品中实现的一个或多个计算机可读程序来提供。此处使用的术语“制品”旨在包括可从一个或多个计算机可读设备、固件、可编程逻辑、存储器设备(例如,EEPROM、ROM、PROM、RAM、SRAM等)、硬件(例如集成电路芯片、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)、电子设备、计算机可读非易失性存储单元(例如CD-ROM、硬盘驱动器等)访问并嵌入其中的代码或逻辑。所述制品可以通过网络传输线、无线传输介质、通过空间传播的信号、无线电波、红外信号等从提供对计算机可读程序的访问的文件服务器获取。所述制品可以是闪存卡或磁带。所述制品包括硬件、逻辑以及嵌入由处理器执行的计算机可读介质中的软件或可编程代码。通常,计算机可读程序可以用任何编程语言实现,如LISP、PERL、C、C++、C#、PROLOG,或用任何字节码语言实现,如Java。所述软件程序可以作为目标代码存储在一个或多个制品上。

虽然已经描述了所述方法和系统的各种实施方案,但这些实施方案是说明性的并且绝不限制所描述的方法或系统的范围。本领域技术人员可以在不偏离所述方法和系统的最广泛范围的情况下对所述方法和系统的形式和细节进行改变。因此,本文描述的方法和系统的范围不应受任何说明性实施方案的限制,而应根据所附权利要求及其等同物来定义。

技术分类

06120115926127