掌桥专利:专业的专利平台
掌桥专利
首页

基于人工智能的基因变异位点的匹配方法、系统及设备

文献发布时间:2023-06-19 13:45:04


基于人工智能的基因变异位点的匹配方法、系统及设备

技术领域

本发明属于自然语言处理技术领域,具体涉及一种基于人工智能的基因变异位点的匹配方法、系统及设备。

背景技术

DNA测序(sequencing)技术是指一种分析特定DNA片段的碱基序列的技术。第一代DNA测序技术以其长达1000bp(base-pair,碱基对)的测序读长,以及99.999%的高准确性帮助人们完成了大量测序工作,但其测试速度慢、成本高、通量低等方面的不足,也致使其不能得到大众化的应用,而第二代DNA测序技术(又称高通量测序技术,High-ThroughputSequencing,HTS)克服了第一代DNA测序技术的缺点,以低成本,高准确率,高效的优势推进了DNA测序面向商业化,大众化的应用。

现有技术中,通过第一代DNA测序技术和第二代DNA测序技术得到的测序报告中基因变异位点位的数量通常庞大,且每个变异类型所表达的身体症状需要具体且精确的术语描述,只有精通医学术语和相关知识的专家才能为客户有效解读测序报告,甚至专家都很难掌握所有相关的术语。例如,基因性状a所对应的疾病表达是A,但A是生物/医学术语,仍然与我们日常对症状的描述有很大差距,导致客户难以将身体的症状与可能相关的基因性状进行关联,进而导致高效DNA测序技术无法对大众进行普及。

发明内容

针对上述技术问题,本发明实施例提供了一种基于人工智能的基因变异位点的匹配方法、系统及设备,旨在解决现有技术中无法从测序报告中准确获得与用户当前症状相匹配的基因变异位点的问题。

第一方面,本发明实施例提供了一种基于人工智能的基因变异位点的匹配方法,其包括:

获取用户的症状文本;

将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;

将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;

根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。

第二方面,本发明实施例提供了一种基于人工智能的基因变异位点的匹配系统,其包括:

第一获取模块,用于获取用户的症状文本;

第一输入模块,用于将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;

第一匹配模块,用于将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;

第一匹配模块,用于根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。

第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于人工智能的基因变异位点的匹配方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的基因变异位点的匹配方法。

本发明实施例提供了一种基于人工智能的基因变异位点的匹配方法、系统及设备,该方法通过获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。本发明实施例通过采用深度学习模型对对用户的症状进行精准的分类识别,进而得到用户当前症状的疾病术语,然后通过疾病术语与基因数据库进行匹配,从而无需专业人员便可在基因检测报告中对用户当前症状所对应的基因变异位点进行精准匹配。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的流程示意图;

图2为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一流程示意图;

图3为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的子流程示意图;

图4为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一流程示意图;

图5为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一子流程示意图;

图6为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一子流程示意图;

图7为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一流程示意图;

图8为本发明实施例提供的基于人工智能的基因变异位点的匹配系统的示意性框图;

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的流程示意图。本发明实施例的所述的基于人工智能的基因变异位点的匹配方法应用于终端设备中,该方法通过安装于终端设备中的应用软件进行执行。其中,终端设备为具备接入互联网功能的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等设备。

如图1所示,该方法包括以下步骤S110-S140。

S110、获取用户的症状文本。

在本实施例中,所述症状文本为用于描述用户当前症状的文本,终端设备在获取到所述用户的症状文本后,便可对所述症状文本进行分类识别,进而便可得到所述用户当前的症状的疾病术语,然后根据疾病术语便可从所述用户的基因测序结果中精准匹配到相应的基因变异位点。

在另一实施例中,如图2所示,步骤S110之前还包括步骤S210。

S210、根据预设的样本集对所述深度学习模型进行训练,得到训练后的深度学习模型。

具体的,所述样本集为用于训练所述深度学习模型的文本集,通过所述样本集对所述深度学习模型进行训练,所述深度学习模型才能用于进行对用户的症状文本进行分类识别。其中,所述深度学习模型为实现语句分类(sentence classification)的Transformer深度学习模型,Transformer深度学习模型为当前最前沿的深度自然语言模型,其注意力机制(Attention Mechanism)使得模型能更可靠地学习较长输入语句的含义。通过Transformer深度学习模型中Encoder进行编码,然后采用Transformer深度学习模型中Decoder进行解码,便可完成目标文本的分类识别。

在另一实施例中,如图3所示,步骤S210包括子步骤S211、S212和S213。

S211、从预设的疾病文献库中提取所述样本集;

S212、对所述样本集进行Word Embedding预处理,得到每个样本的向量;

S213、根据每个所述样本的向量对所述深度学习模型进行训练,得到训练后的深度学习模型。

在本实施例中,所述疾病文献库为美国国家生物信息中心疾病文献库(NCBIDisease Corpus),通过从所述疾病文献库中进行疾病名称的提取,便可对应的得到所述疾病名称的疾病症状的文本描述。终端设备从所述疾病文献库中提取到每个疾病名称以及每个疾病名称对应的疾病症状后,采用词嵌入技术将样本集进行向量化处理,然后将生成的向量输入至待训练的深度学习模型中,通过更新深度学习模型的损失函数,直至深度学习模型达到收敛,便可完成所述深度学习模型的训练。其中,样本集的向量化处理的过程为将样本集中的文字或单词嵌入低维向量空间中,每个单词/单词组被映射为实数域上的向量。

在另一实施例中,如图4所示,步骤S110之前还包括步骤S220、S230。

S220、接收所述用户输入的症状描述的语音;

S230、根据预置的语音转换器将所述语音转换成所述症状文本。

在本实施例中,在对用户进行DNA测序而得到基因检测报告后,用户根据自身的症状进行语音描述,终端设备在接收到所述用户输入的语音后,便可对该语音进行文本识别,进而将所述语音转换成所述症状文本。其中,终端设备为可以进行语音采集的终端设备,如手机、平板电脑、车载电话等。

S120、将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语。

具体的,终端设备在获取到所述症状文本后,将所述症状文本输入至所述深度学习模型中进行分类识别,进而便可得到与所述用户的症状相匹配的疾病术语。其中,疾病术语即为每个疾病的专用名称,通过所述疾病术语便可得知用户当前具体的变异基因,进而便可从所述基因测序结果中获取多个基因变异位点,然后分别与每个基因变异位点进行匹配,进而匹配出与用户的当前症状相匹配的基因变异位点。

在另一实施例中,如图5所示,步骤S120包括子步骤S121和S122。

S121、对所述症状文本进行Word2vec预处理,得到所述症状文本的向量;

S122、对所述症状文本的向量进行编码解码处理,得到所述疾病术语。

在本实施例中,终端设备在获取到所述症状文本后,采用Word2vec算法对所述症状文本进行预处理,以使得所述症状文本以向量化的形式进行表示,然后对所述症状文本的向量进行编码解码后,便可得到所述症状文本的疾病术语。其中,所述症状文本以句子的形式输入,且所有单词都通过Word2vec进行映射,进而便可得到所述症状文本的向量。

在另一实施例中,如图6所示,步骤S122包括子步骤S1221、S1222。

S1221、根据所述深度学习模型中的Encoder模块对所述症状文本的向量进行编码,得到所述症状文本的语义向量;

S1222、根据所述深度学习模型中的Decoder模块对所述语义向量进行解码,得到所述疾病术语。

具体的,所述深度学习模型采用Encoder-Decoder架构构建,其中,Encoder为将输入的向量表示成一个带有语义的向量,Encoder使用最广泛的表示技术是循环神经网络(RNN),循环神经网络是一个基本模型,其中,Encoder可以由LSTM RNN、GRU RNN、BiRNN、BiRNN with LSTM、BiRNN with GRU、多层RNN来构建,输入的文本向量最终表示为最后一个Word的Hidden State Vector,Decoder为是以encoder生成的Hidden State Vector作为输入“解码”出目标文本序列,本质上是一个语言模型,最常见的是用RNN神经网络。

在本实施例中,所述深度学习模型由四个Encoder模块和四个Decoder模块构成,每个Encoder模块均包括输入层、前反馈层,每个Decoder模块均包括输入层、注意力层(self-attention)和前反馈层,其中,所述症状文本的向量经过所述深度学习模型中的四个Encoder模块进行编码处理后,便可得到所述症状文本的语义向量,然后将所述症状文本的语义向量经过所述深度学习模型中的四个Decoder模块后,便可得到所述目标文本。其中,Encoder模块的输入层接收的单词为300位的向量,一个句子最高支持70个单词的输入,经过注意力机制(self-attention)与标准化(normalize)后,输出此句子的编码向量;Encoder模块的注意力层包含4096个节点,与上一层输入层全连接,Encoder模块的注意力层接收输入层输出的编码向量后,使用非线性激活函数,输出结果经过标准化之后,传递到下一个Encoder模块,若下一个Encoder模块是最后一个Encoder模块,则传递到所述深度学习模型的第一个Decoder模块。所述Decoder模块中的输入层与Encoder模块的输入层的架构相同,但Decoder模块中的输入层接收的是Decoder模块在之前的时间节点输出的编码向量,结果标准化后,传递到注意力层;所述Decoder模块中的注意力层接收Decoder模块的上一个输入层的编码向量并接收最后一个Encoder模块输出的编码向量,进行注意力运算,结果标准化后输出到下一个前反馈层;所述Decoder模块中的前反馈层与Encoder模块的前反馈层的架构相同,Decoder模块中的前反馈层接收上一个注意力层的编码向量,使用非线性激活函数,输出结果经过标准化之后,便可传递到下一个Decoder模块中,若下一个Decoder模块是最后一个Decoder模块,则传递到线性层,该线性层具有2048个节点。

S130、将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因。

在本实施例中,所述基因数据库为人类孟德尔遗传数据库(Online MendelianInheritance in Man,OMIM),通过将所述疾病术语与所述基因数据库进行匹配比对,便可从所述基因数据库中筛选出相关的变异基因,然后与用户的基因测序结果中的存在的变异的基因位点进行匹配,便可匹配出与用户的当前症状相匹配的基因变异位点。

S140、根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。

具体的,终端设备在所述基因数据库中筛选出与所述疾病术语相匹配的变异基因后,通过计算该变异基因与所述用户的基因测序结果中突变的基因的相似度,然后根据相似度得到所述基因测序结果中与所述用户当前症状相匹配的突变基因,通过该突变基因便可在所述基因测序结果中匹配出与用户的当前症状相匹配的基因变异位点。

在另一实施例中,如图7所示,步骤S140包括子步骤S141、S142、S143和S144。

S141、获取所述基因测序结果中的多个突变基因;

S142、计算所述变异基因与每个所述突变基因的相似度;

S143、根据所述相似度从所述多个突变基因中获取与所述变异基因相匹配的突变基因;

S144、根据与所述变异基因相匹配的突变基因在所有的基因变异位点中匹配对应基因变异位点。

在本实施例中,用户在进行DNA测序后,生成的基因测序结果中便可得到多个突变基因,通过计算所述变异基因与每个突变基因的相似度来从多个突变基因中筛选出相似度最高的突变基因,通过该突变基因便可从所述基因测序结果中匹配出与用户的当前症状相匹配的基因变异位点。其中,所述变异基因、所述多个突变基因均以向量的形式进行相似度计算,通过计算所述变异基因、每个所述突变基因的距离,便可得到所述变异基因与每个所述突变基因的相似度。另外,相似度计算包括欧式距离计算、曼哈顿距离计算、切比雪夫距离计算、闵可夫斯基距离计算、标准化欧氏距离计算、马氏距离计算、夹角余弦计算、汉明距离计算、杰卡德相似系数计算、相关系数计算、信息熵计算等计算方法。本实施例中可采用任意一种相似度计算方法,在此不做具体的限定。

在本发明实施例所提供的基于人工智能的基因变异位点的匹配方法中,通过获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。本发明实施例通过采用深度学习模型对对用户的症状进行精准的分类识别,进而得到用户当前症状的疾病术语,然后通过疾病术语与基因数据库进行匹配,从而无需专业人员便可在基因检测报告中对用户当前症状所对应的基因变异位点进行精准匹配。

本发明实施例还提供了一种基于人工智能的基因变异位点的匹配系统100,该系统用于执行前述基于人工智能的基因变异位点的匹配方法的任一实施例。

具体地,请参阅图8,图8是本发明实施例提供的基于人工智能的基因变异位点的匹配系统100的示意性框图。

如图8所示,所述的基于人工智能的基因变异位点的匹配系统100,该装置包括:第一获取模块110、第一输入模块120、第一匹配模块130和第一匹配模块140。

第一获取模块110,用于获取用户的症状文本。

在其他发明实施例中,所述的基于人工智能的基因变异位点的匹配系统100还包括:第一训练模块。

第一训练单元,用于根据预设的样本集对所述深度学习模型进行训练,得到训练后的深度学习模型。

在其他发明实施例中,所述第一训练模块包括:提取模块、第一预处理模块和第二训练模块。

提取模块,用于从预设的疾病文献库中提取所述样本集;第一预处理模块,用于对所述样本集进行Word Embedding预处理,得到每个样本的向量;第二训练模块,用于根据每个所述样本的向量对所述深度学习模型进行训练,得到训练后的深度学习模型。

在其他发明实施例中,所述的基于人工智能的基因变异位点的匹配系统100还包括:接收模块和转换模块。

接收模块,用于接收所述用户输入的症状描述的语音;转换模块,用于根据预置的语音转换器将所述语音转换成所述症状文本。

第一输入模块120,用于将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语。

在其他发明实施例中,所述第一输入模块120包括:第二预处理模块、编解码模块。

第二预处理模块,用于对所述症状文本进行Word2vec预处理,得到所述症状文本的向量;编解码模块,用于对所述症状文本的向量进行编码解码处理,得到所述疾病术语。

在其他发明实施例中,所述编解码模块包括:编码模块和解码模块。

编码模块,用于根据所述深度学习模型中的Encoder模块对所述症状文本的向量进行编码,得到所述症状文本的语义向量;解码模块,用于根据所述深度学习模型中的Decoder模块对所述语义向量进行编码,得到所述疾病术语。

第一匹配模块130,用于将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;

第一匹配模块140,用于根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。

在其他发明实施例中,所述第一匹配模块140包括:第二获取模块、相似度计算模块、第二匹配模块和第二匹配模块。

第二获取模块,用于获取所述基因测序结果中的多个突变基因;相似度计算模块,用于计算所述变异基因与每个所述突变基因的相似度;第二匹配模块,用于根据所述相似度从所述多个突变基因中获取与所述变异基因相匹配的突变基因;第二匹配模块,用于根据与所述变异基因相匹配的突变基因在所有的基因变异位点中匹配对应基因变异位点。

本发明实施例所提供的基于人工智能的基因变异位点的匹配系统100用于执行上述获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。

请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。

参阅图9,该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于人工智能的基因变异位点的匹配方法。

该处理器502用于提供计算和控制能力,支撑整个设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于人工智能的基因变异位点的匹配方法。

该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备500的限定,具体的设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。

本领域技术人员可以理解,图9中示出的设备500的实施例并不构成对设备500具体构成的限定,在其他实施例中,设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,设备500可以仅包括存储器及处理器502,在这样的实施例中,存储器及处理器502的结构及功能与图9所示实施例一致,在此不再赘述。

应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。

在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032,其中计算机程序5032被处理器502执行时实现以下步骤:获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备500(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术分类

06120113790492