掌桥专利:专业的专利平台
掌桥专利
首页

患病风险的预测方法及相关装置

文献发布时间:2024-04-18 20:00:50


患病风险的预测方法及相关装置

技术领域

本申请涉及疾病风险预测领域,具体涉及一种患病风险的预测方法及相关装置。

背景技术

目前,随着科学技术的迅速发展,各种人工智能算法被广泛应用于医疗领域。机器学习是人工智能算法的一个分支,包含多种算法,它能够自动分析数据中隐藏的规律,并利用该规律对未知数据进行预测。将机器学习应用于疾病风险预测,可辅助医生进行诊疗诊断,同时,进行疾病风险预测也可使患者即时发现疾病或进行预防,防止疾病进一步恶化造成不可挽回的损伤。

但是现有的针对疾病所采取的风险预测的模型是通过多个特定风险因素或基因组变异对疾病进行预测,无法直接提供具有个性化的特征风险评估,同时无法给出具有针对性的生活改善建议,进而导致用户进行个性化疾病风险预测方面存在缺陷,智能性不足,不符合实际需求。

发明内容

本发明提供了一种患病风险的预测方法及相关装置,以期预测患病风险的同时可以个性化地对用户的个体特征进行评估,从而降低患病风险。

第一方面,本申请实施例提供了一种患病风险的预测方法,方法包括:

获取第一统计量和第二统计量,所述第一统计量包括单个遗传信息与被统计人员的个体特征的关联关系统计数据,所述第二统计量包括多个所述遗传信息与目标疾病的关联关系统计数据,所述个体特征包括:体型特征、年龄特征、生活习惯特征;

根据所述第一统计量和所述第二统计量,在所述个体特征中确定至少一个与所述目标疾病存在因果关系的至少一个目标个体特征;

获取所述被统计人员的疾病信息,根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练,所述疾病信息用于表征所述被统计人员是否患病;

得到目标疾病风险评估模型,并向所述目标疾病风险评估模型输入用户的个体特征,确定所述目标疾病的风险预测分数,以及所述个体特征对应的重要程度分数,所述目标疾病的风险预测分数用于反映患得所述目标疾病的风险预测概率大小,所述重要程度分数用于表征所述个体特征对所述目标疾病的风险预测分数的影响能力。

第二方面,本申请实施例提供了一种患病风险的预测装置,装置包括:第一获取单元、确定单元、第二获取单元、评估单元;其中,

所述第一获取单元,用于获取第一统计量和第二统计量,所述第一统计量包括单个遗传信息与被统计人员的个体特征的关联关系统计数据,所述第二统计量包括多个所述遗传信息与目标疾病的关联关系统计数据,所述个体特征包括:体型特征、年龄特征、生活习惯特征;

所述确定单元,用于根据所述第一统计量和所述第二统计量,在所述个体特征中确定至少一个与所述目标疾病存在因果关系的至少一个目标个体特征;

所述第二获取单元,用于获取所述被统计人员的疾病信息,根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练,所述疾病信息用于表征所述被统计人员是否患病;

所述评估单元,用于得到目标疾病风险评估模型,并向所述目标疾病风险评估模型输入用户的个体特征,确定所述目标疾病的风险预测分数,以及所述个体特征对应的重要程度分数,所述目标疾病的风险预测分数用于反映患得所述目标疾病的风险预测概率大小,所述重要程度分数用于表征所述个体特征对所述目标疾病的风险预测分数的影响能力。

第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面,本申请实施例提供了一种计算机存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如本实施例第一方面中所描述的部分或全部步骤。

第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出,本申请实施例中,首先获取第一统计量和第二统计量,接着根据第一统计量和第二统计量,在个体特征中确定至少一个与目标疾病存在因果关系的至少一个目标个体特征,然后获取被统计人员的疾病信息,根据被统计人员的疾病信息与目标个体特征对预设的初始疾病风险评估模型进行训练,最后得到目标疾病风险评估模型,并向目标疾病风险评估模型输入用户的个体特征,确定目标疾病的风险预测分数,以及个体特征对应的重要程度分数。如此,通过本申请实施例可以通过生活习惯特征对疾病风险评估模型进行训练,从而提高对人员患病风险进行预测的准确性和预测结果可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种患病风险的预测系统的结构示意图;

图2是本申请实施例提供的一种患病风险的预测方法的流程示意图;

图3是本申请实施例提供的一种欧洲人的单核苷酸多态性与冠状动脉性心脏病的关联关系统计量数据的曼哈顿图;

图4是本申请实施例提供的一种因果关系分析步骤流程示意图;

图5是本申请实施例提供的一种疾病风险评估模型的结构示意图;

图6是本申请实施例提供的患有冠状动脉性心脏病样本的个体特征的特征重要程度分数分布图;

图7是本申请实施例提供的没有冠状动脉性心脏病样本的个体特征的特征重要程度分数分布图;

图8是本申请实施例提供的一种患病风险的预测装置的功能单元组成框图;

图9是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

下面先对本实施例中涉及到的相关术语进行解释:

单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的脱氧核糖核酸(deoxyribonucleic acid,DNA)序列多态性。

显著性P值(P value):是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较,P值指当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率;如果P值很小,说明原假设情况的发生的概率很小,总之,P值越小,表明结果越显著。

请参阅图1,图1是本申请实施例提供的一种患病风险的预测系统的结构示意图,如图1所示,患病风险的预测系统10包括特征筛选模块110、模型训练模块120以及风险评估模块130,其中,特征筛选模块110与模型训练模块120以及风险评估模块130相互通信连接;特征筛选模块110用于对与疾病具有因果关系的生活习惯特征进行筛选,模型训练模块120用于对通过特征筛选模块110经过筛选后的生活习惯特征输入到目标疾病风险评估模型中进行模型训练,风险评估模块130用于根据训练完成的目标疾病风险评估模型对用户的个性化生活习惯特征进行疾病风险预测以及生成相关生活习惯改善建议,以减低用户患上目标疾病的风险,保障了用户健康。

具体地,通过特征筛选模块110获取第一统计量和第二统计量,所述第一统计量包括单个遗传信息与被统计人员的个体特征的关联关系统计数据,所述第二统计量包括多个所述遗传信息与目标疾病的关联关系统计数据,所述个体特征包括:体型特征、年龄特征、生活习惯特征,然后特征筛选模块110再根据所述第一统计量和所述第二统计量,在所述个体特征中确定至少一个与所述目标疾病存在因果关系的至少一个目标个体特征,特征筛选模块110获取所述被统计人员的疾病信息,接着通过模型训练模块120根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练,所述疾病信息用于表征所述被统计人员是否患病,得到目标疾病风险评估模型,并向所述目标疾病风险评估模型输入用户的个体特征,最后通过风险评估模块130确定所述目标疾病的风险预测分数,以及所述个体特征对应的重要程度分数,所述目标疾病的风险预测分数用于反映患得所述目标疾病的风险预测概率大小,所述重要程度分数用于表征所述个体特征对所述目标疾病的风险预测分数的影响能力。如此,通过本申请实施例可以通过生活习惯特征对疾病风险评估模型进行训练,从而有利于提高疾病风险预测的智能性,提高对人员患病风险进行预测的准确性和预测结果可靠性。

请参阅图2,图2是本申请实施例提供的一种患病风险的预测方法的流程示意图,如图2所示,患病风险的预测方法包括以下步骤:

步骤210,获取第一统计量和第二统计量。

其中,所述第一统计量为单个遗传信息与被统计人员的个体特征的关联关系统计数据,所述第二统计量为多个所述遗传信息与目标疾病的关联关系统计数据,所述个体特征包括:体型特征、年龄特征、生活习惯特征。

具体地,遗传信息可以是单个单核苷酸多态性,从格瓦斯目录(GWASCatalog)或开源格瓦斯(OpenGWAS)等数据库中下载一个单核苷酸多态性与个体特征的关联关系的第一统计量,和多个单核苷酸多态性与目标疾病的关联关系的第二统计量,其中,第一统计量的示例请参阅图3,图3是本申请实施例提供的一种欧洲人的单核苷酸多态性与冠状动脉性心脏病的关联关系统计量数据的曼哈顿图,其纵坐标为负十的对数,用于评价显著性水平,横坐标为染色体。

示例性的,优选可以将上述两个统计量处理为R语言的两样本孟德尔随机化(TwoSampleMR)方法库所需的格式,便于后续进行孟德尔随机化分析。

步骤220,根据所述第一统计量和所述第二统计量,在所述个体特征中确定至少一个与所述目标疾病存在因果关系的至少一个目标个体特征。

在一个可能的示例中,所述根据所述第一统计量和所述第二统计量,在所述个体特征中确定至少一个与所述目标疾病存在因果关系的至少一个目标个体特征,包括:将所述第一统计量与所述第二统计量进行匹配,得到多组数据对;根据孟德尔随机化模型对所述多组数据对进行孟德尔随机化分析,得到多个第一分析结果;对多个所述第一分析结果进行荟萃分析,确定第二分析结果;若所述第二分析结果满足因果关系条件,则确定所述第二分析结果为所述目标个体特征,所述因果关系条件包括:所述第一分析结果的显著性P值小于预设阈值、所述第二分析结果的固定效应显著性P值小于所述预设阈值、所述固定效应95%置信区间不包括0、所述第二分析结果的I平方小于所述预设阈值、所述第二分析结果等效性P值大于所述预设阈值。

其中,将第一统计量和第二统计量进行一对多匹配后,组成得到多个数据对。

具体地,请参阅图4,图4是本申请实施例提供的一种因果关系分析步骤流程示意图,如图4所示,步骤410,根据多个数据对,选择孟德尔随机化模型。

具体地,例如总结型遗传数据的随机化分析方法(MR Egger)和逆方差加权法(inverse-variance weighted,IVW)等。

步骤420,进行孟德尔随机化分析,并得到多个孟德尔随机化结果。

具体地,可以使用R语言TwoSampleMR包中的方法进行孟德尔随机化分析。

步骤430,对多个孟德尔随机化结果进行荟萃分析,若荟萃分析结果满足以下所有条件则认为该个体特征与目标疾病具有因果关系,该个体特征即为目标个体特征:1、其中一个孟德尔随机化结果的显著性P值小于预设阈值;2、荟萃分析结果的固定效应95%置信区间不包含0;3、荟萃分析结果的固定效应显著性P值小于预设阈值;4、荟萃分析结果I平方小于预设阈值;5、荟萃分析结果等效性P值大于预设阈值。

可见,本示例中,通过将第一统计量与第二统计量进行匹配,得到多组数据对,然后根据孟德尔随机化模型对多组数据对进行孟德尔随机化分析,得到多个第一分析结果,接着对多个第一分析结果进行荟萃分析,确定第二分析结果,最后若第二分析结果满足因果关系条件,则确定第二分析结果为目标个体特征,在训练模型前进行数据清洗和筛选,加强了训练数据的关联性和可信度,进而有利于提高疾病风险评估模型对疾病预测的准确性和可靠性。

在一个可能的示例中,在所述将所述第一统计量与所述第二统计量进行匹配之前,所述方法还包括:

设置显著性P值的所述预设阈值,并根据所述预设阈值筛选掉所述显著性P值高于所述预设阈值的所述遗传信息,得到初始遗传信息;

在多个所述初始遗传信息中确定一个或多个所述初始遗传信息的次要等位基因的频率大于第二预设阈值时,删除所述次要等位基因的频率大于所述第二预设阈值的初始遗传信息,得到更新后的遗传信息;

根据多个所述更新后的遗传信息与多个所述遗传信息间存在强关联关系时,则从多个所述更新后的遗传信息中清除与所述多个所述遗传信息存在所述强关联关系的更新后的遗传信息,得到目标遗传信息;

根据所述目标遗传信息与所述被统计人员的个体特征的关联关系统计数据,更新所述第一统计量。

具体地,提取与个体特征强相关的单核苷酸多态性,设定显著性P值的阈值,并删除高于该阈值的单核苷酸多态性。

具体地,使用R语言TwoSampleMR包中的泥团数据(clump_data)方法保证剩余的单核苷酸多态性之间相互独立且筛除掉次要等位基因的频率大于0.01的单核苷酸多态性。

具体地,使用R语言人类基因型-表型关联的数据库(PhenoScanner)包通过设置显著性P值的阈值,来检测单核苷酸多态性是否与多个暴露变量强相关,如果是,则筛除,最终得到目标遗传信息;保留目标遗传信息对应的第一统计量,完成对第一统计量的更新。

可见,本示例中,通过设置显著性P值的预设阈值,并根据预设阈值筛选掉显著性P值高于预设阈值的遗传信息,得到初始遗传信息;接着在多个初始遗传信息中确定一个或多个初始遗传信息的次要等位基因的频率大于第二预设阈值时,删除次要等位基因的频率大于第二预设阈值的初始遗传信息,得到更新后的遗传信息;然后,根据多个更新后的遗传信息与多个遗传信息间存在强关联关系时,则从多个更新后的遗传信息中清除与多个遗传信息存在强关联关系的更新后的遗传信息,得到目标遗传信息;最后,根据目标遗传信息与被统计人员的个体特征的关联关系统计数据,更新第一统计量,在训练模型前进行数据筛选排除掉不可靠以及关联度不强的数据,加强了训练数据的关联性和可信度,避免了噪声数据混入训练数据,进而有利于提高疾病风险评估模型对疾病预测的准确性和可靠性。

步骤230,获取所述被统计人员的疾病信息,根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练。

其中,所述疾病信息用于表征所述被统计人员是否患病。

在一个可能的示例中,所述根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练,包括:向初始疾病风险评估模型输入所述目标个体特征以及所述被统计人员的疾病信息,通过梯度下降法对所述初始疾病风险评估模型进行训练,其中,所述初始疾病风险评估模型中包括损失函数,所述损失函数包括以下至少一种:二元交叉熵损失函数、余弦相似度损失函数以及均方误差重构损失函数。

具体地,请参与如图5,图5是本申请实施例提供的一种疾病风险评估模型的结构示意图,如图5所示,疾病风险评估模型500包括特征筛选层51、二分类层52、编码层53以及解码层54;其中,特征筛选层51为一个多层全连接层组成的模型,训练时数据经过多层全连接层后使用重参数化技巧(GumbelSoftmax)方法随机最多采样K个生活习惯特征进入后续的处理,在测试时数据经过多层全连接层后使用归一化指数函数(Softmax)方法计算特征权重值再挑选出前K个权重值大的特征进入后续的处理;二分类层52为一层全连接层,将挑选出来的特征进行疾病风险分数预测;编码层53用于获取未经过特征选取层和经过特征选取层的特征的隐藏信息;解码层54用于将经过编码层的隐藏信息重构回原始特征。

具体地,图5中的损失函数包含:在二分类层52采用的二分类交叉熵损失值、编码层53与解码层54间隐藏信息所采用的余弦值损失值、以及对于重构特征各采用的两个均方误差重构损失值,使用梯度下降的方法进行训练。

具体的,在图5中首先输入特征,经过特征筛选层51进行筛选特征,然后输出到编码层53与二分类层52,在二分类层52中预测标签,并进行采用的二分类交叉熵损失值确定真实标签;在编码层53确定隐藏信息A,输出到解码层54,再进行重构特征。

其中,编码层53包括编码层A和编码层B,以及对应的解码层54包括解码层A和解码层B,隐藏信息也包括编码层A对应的隐藏信息A和编码层B对应的隐藏信息B,并根据解码层A得到重构特征A,根据解码层B得到重构特征B;编码层A接收到筛选后的特征时,向编码层B进行共享参数,隐藏信息A与隐藏信息B间存在余弦值损失值关系,解码层A与解码层B间同样存在共享参数操作。

可见,本示例中,向初始疾病风险评估模型输入目标个体特征以及被统计人员的疾病信息,通过梯度下降法对初始疾病风险评估模型进行训练,实现了降低数据总损失,提高了训练模型准确度,进而有利于提高对疾病风险预测的准确性和可靠性。

步骤240,得到目标疾病风险评估模型,并向所述目标疾病风险评估模型输入用户的个体特征,确定所述目标疾病的风险预测分数,以及所述个体特征对应的重要程度分数。

其中,所述目标疾病的风险预测分数用于反映患得所述目标疾病的风险预测概率大小,所述重要程度分数用于表征所述个体特征对所述目标疾病的风险预测分数的影响能力。

在一个可能的示例中,在所述确定所述目标疾病的风险预测分数,以及所述个体特征对应的重要程度分数之后,所述方法还包括:根据所述重要程度分数生成改善建议,所述改善建议用于指示所述用户对所述重要程度分数为正数的所述用户的个体特征进行调节,以降低患得所述目标疾病的风险,所述重要程度分数包括负数和/或正数,其中,所述重要程度分数为负数表征所述用户的个体特征使得所述患病风险降低,所述重要程度分数为正数表征所述用户的个体特征使得所述患病风险增大。

具体地,请参阅图6和图7,图6是本申请实施例提供的患有冠状动脉性心脏病样本的个体特征的特征重要程度分数分布图,图7是本申请实施例提供的没有冠状动脉性心脏病样本的个体特征的特征重要程度分数分布图,如图6和图7所示,与目标疾病,在本实例中示例为冠状动脉性心脏病,存在关联的个体特征包括:白天小睡习惯、年龄大小、过去吸烟情况、饮酒频率、失眠情况、平常步行速度、过去4周内爬楼梯频率、全身水质量、禽类摄入量以及手机使用时长,示例性的与冠状动脉性心脏病存在一定关联的个体特征可以包括上述更多或更少的特征,再次不做限制;特征重要程度的分数越大则说明该个体特征对患得目标疾病的影响程度越大,且特征重要程度的分数若为正数则说明该个体特征对患得目标疾病的风险具有正向影响,若为负数则说明该个体特征对患得目标疾病的风险具有反向影响,因此根据图6分布图结果可知,患有冠状动脉性心脏病的样本影响分数较高的生活习惯特征是具有白天小睡习惯、饮酒较为频繁、年龄较大且失眠,而根据图7分布图结果可知,没有患有冠状动脉性行的样本在这些特征上的影响分数都相对较低,因此根据正向影响分数较高的个体特征生成个性化的改善建议,本示例中可以是:建议高年龄用户多做适量运动减脂并减少饮酒频率,以此降低患得冠状动脉性心脏病的风险。

可见,本示例中,通过根据特征重要程度的分数生成改善建议,不仅可以预测患病风险,而且可以直接个性化地对用户的个体特征进行评分和给出改善建议,更符合实际需求,提高疾病风险预测的智能性,降低了患病风险,保障了用户身体的健康水平。

在一个可能的示例中,在所述向所述目标疾病风险评估模型输入用户的个体特征之前,所述方法还包括:通过所述目标疾病风险评估模型评估所述个体特征对所述目标疾病的全局影响力,所述全局影响力用于表征所述目标个体特征对患得所述目标疾病的影响能力。

其中,使用目标疾病分析评估模型中二分类层的模型参数值来评估个性特征的全局影响能力,二分类层中参数的正值代表参数对应的个性特征对疾病风险预测分数的影响是正影响,二分类层中参数的负值代表参数对应的个性特征对疾病风险预测分数的影响是负影响。

可见,本示例中,通过目标疾病风险评估模型评估目标个体特征患病影响程度,不仅增加了预测模型的可解释性,也为用户提供了个性化的评估,提供全面且具有个性化的个体特征作为疾病风险预测的评估因素,更符合实际需求,提高疾病风险预测的智能性。

在一个可能的示例中,在所述根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练之前,所述方法还包括:提取所述目标个体特征中的生活习惯特征,对所述生活习惯特征进行缩放处理,其中,所述生活习惯特征的类型为连续型;将多个完成所述缩放处理后的生活习惯特征间计算相关系数,根据所述相关系数确定存在强关联关系多个所述生活习惯特征;保留存在强关联关系的所述多个生活习惯特征中的目标生活习惯特征,所述目标生活习惯特征是指一个与所述多个生活习惯特征中的任一生活习惯特征存在强关联关系的特征。

具体地,对训练数据进行预处理包括:一、对数据类型为连续型的生活习惯数据做最小最大缩放器处理即使得数据缩放到[0,1],以实现减小异常值的影响,提高模型的收敛速度和稳定性;二、为了消除生活习惯数据共线性问题,首先对生活习惯之间计算相关系数,示例性的,例如手臂、腿部和全身脂肪数据等与体重有强关联,因此只保留体重特征的数据即可。

可见,本示例中,首先通过提取目标个体特征中的生活习惯特征,对生活习惯特征进行缩放处理,然后将多个完成缩放处理后的生活习惯特征间计算相关系数,根据相关系数确定存在强关联关系多个生活习惯特征,最后保留存在强关联关系的多个生活习惯特征中的目标生活习惯特征,进一步降低了训练数据的噪声,提高了训练数据准确度,从而提高对疾病风险进行预测的可靠性,降低了用户的患病风险。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,移动电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

与图2的实施例一致,请参阅图8,图8是本申请实施例提供的一种患病风险的预测装置的功能单元组成框图,患病风险的预测装置800包括:第一获取单元810、确定单元820、第二获取单元830、评估单元840;其中,

所述第一获取单元810,用于获取第一统计量和第二统计量,所述第一统计量包括单个遗传信息与被统计人员的个体特征的关联关系统计数据,所述第二统计量包括多个所述遗传信息与目标疾病的关联关系统计数据,所述个体特征包括:体型特征、年龄特征、生活习惯特征;所述确定单元820,用于根据所述第一统计量和所述第二统计量,在所述个体特征中确定至少一个与所述目标疾病存在因果关系的至少一个目标个体特征;所述第二获取单元830,用于获取所述被统计人员的疾病信息,根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练,所述疾病信息用于表征所述被统计人员是否患病;所述评估单元840,用于得到目标疾病风险评估模型,并向所述目标疾病风险评估模型输入用户的个体特征,确定所述目标疾病的风险预测分数,以及所述个体特征对应的重要程度分数,所述目标疾病的风险预测分数用于反映患得所述目标疾病的风险预测概率大小,所述重要程度分数用于表征所述个体特征对所述目标疾病的风险预测分数的影响能力。

在一个可能的示例中,所述根据所述第一统计量和所述第二统计量,在所述个体特征中确定至少一个与所述目标疾病存在因果关系的至少一个目标个体特征,所述确定单元820具体用于:将所述第一统计量与所述第二统计量进行匹配,得到多组数据对;根据孟德尔随机化模型对所述多组数据对进行孟德尔随机化分析,得到多个第一分析结果;对多个所述第一分析结果进行荟萃分析,确定第二分析结果;若所述第二分析结果满足因果关系条件,则确定所述第二分析结果为所述目标个体特征,所述因果关系条件包括:所述第一分析结果的显著性P值小于预设阈值、所述第二分析结果的固定效应显著性P值小于所述预设阈值、所述固定效应95%置信区间不包括0、所述第二分析结果的I平方小于所述预设阈值、所述第二分析结果等效性P值大于所述预设阈值。

在一个可能的示例中,在所述将所述第一统计量与所述第二统计量进行匹配之前,所述确定单元820具体还用于:设置显著性P值的所述预设阈值,并根据所述预设阈值筛选掉所述显著性P值高于所述预设阈值的所述遗传信息,得到初始遗传信息;在多个所述初始遗传信息中确定一个或多个所述初始遗传信息的次要等位基因的频率大于第二预设阈值时,删除所述次要等位基因的频率大于所述第二预设阈值的初始遗传信息,得到更新后的遗传信息;根据多个所述更新后的遗传信息与多个所述遗传信息间存在强关联关系时,则从多个所述更新后的遗传信息中清除与所述多个所述遗传信息存在所述强关联关系的更新后的遗传信息,得到目标遗传信息;根据所述目标遗传信息与所述被统计人员的个体特征的关联关系统计数据,更新所述第一统计量。

在一个可能的示例中,在所述向所述目标疾病风险评估模型输入用户的个体特征之前,所述评估单元840具体还用于:通过所述目标疾病风险评估模型评估所述个体特征对所述目标疾病的全局影响力,所述全局影响力用于表征所述目标个体特征对患得所述目标疾病的影响能力。

在一个可能的示例中,所述根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练,所述第二获取单元830具体还用于:向初始疾病风险评估模型输入所述目标个体特征以及所述被统计人员的疾病信息,通过梯度下降法对所述初始疾病风险评估模型进行训练,其中,所述初始疾病风险评估模型中包括损失函数,所述损失函数包括以下至少一种:二元交叉熵损失函数、余弦相似度损失函数以及均方误差重构损失函数。

在一个可能的示例中,在所述根据所述被统计人员的疾病信息与所述目标个体特征对预设的初始疾病风险评估模型进行训练之前,所述第二获取单元830具体还用于:提取所述目标个体特征中的生活习惯特征,对所述生活习惯特征进行缩放处理,其中,所述生活习惯特征的类型为连续型;将多个完成所述缩放处理后的生活习惯特征间计算相关系数,根据所述相关系数确定存在强关联关系多个所述生活习惯特征;保留存在强关联关系的所述多个生活习惯特征中的目标生活习惯特征,所述目标生活习惯特征是指一个与所述多个生活习惯特征中的任一生活习惯特征存在强关联关系的特征。

在一个可能的示例中,在所述确定所述目标疾病的风险预测分数,以及所述个体特征对应的重要程度分数之后,所述评估单元840具体用于:根据所述重要程度分数生成改善建议,所述改善建议用于指示所述用户对所述重要程度分数为正数的所述用户的个体特征进行调节,以降低患得所述目标疾病的风险,所述重要程度分数包括负数和/或正数,其中,所述重要程度分数为负数表征所述用户的个体特征使得所述患病风险降低,所述重要程度分数为正数表征所述用户的个体特征使得所述患病风险增大。

可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。

上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。

图9是本申请实施例提供的一种服务器的结构框图。如图9所示,服务器900可以包括一个或多个如下部件:处理器901、与处理器901耦合的存储器902,其中存储器902可存储有一个或多个计算机程序,一个或多个计算机程序可以被配置为由一个或多个处理器901执行时实现如上述各实施例描述的方法。

处理器901可以包括一个或者多个处理核。处理器901利用各种接口和线路连接整个服务器900内的各个部分,通过运行或执行存储在存储器902内的指令、程序、代码集或指令集,以及调用存储在存储器902内的数据,执行服务器900的各种功能和处理数据。可选地,处理器901可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogicArray,PLA)中的至少一种硬件形式来实现。处理器901可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器901中,单独通过一块通信芯片进行实现。

存储器902可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器902可用于存储指令、程序、代码、代码集或指令集。存储器902可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储服务器900在使用中所创建的数据等。

应理解,服务器900能够实现图2所示方法实施例中涉及患病风险的预测方法的各个过程。服务器900中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详述描述。

本申请实施例还提供一种计算机存储介质,其中,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述方法实施例中记载的任一方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。

应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、磁碟、光盘、易失性存储器或非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)等各种可以存储程序代码的介质。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,可轻易想到变化或替换,均可作各种更动与修改,包含上述不同功能、实施步骤的组合,包含软件和硬件的实施方式,均在本发明的保护范围。

相关技术
  • 电子设备的显示控制方法、装置、电子设备和存储介质
  • 电子设备控制方法及装置、电子设备及存储介质
  • 数据分布存储方法、装置、存储介质及电子设备
  • 存储清理方法、装置、电子设备及存储介质
  • 多版本数据存储管理方法及装置、电子设备、存储介质
  • 文档编辑的方法、文档编辑系统、电子设备及存储介质
  • 文档编辑方法、装置、电子设备和存储介质
技术分类

06120116543236