掌桥专利:专业的专利平台
掌桥专利
首页

疾病危险因素的分析、预测方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:58:30


疾病危险因素的分析、预测方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域,特别地涉及一种疾病危险因素的分析、预测方法、装置、设备及存储介质。

背景技术

疾病的预防及早期干预在现代医学领域中仍然是减少人们患病或减轻患病痛苦的主要手段,疾病的干预与预防可以通过控制各种危险因素来实现。不同疾病的危险因素不同,且疾病的危险因素较多。例如,作为一种心脑血管疾病,如心房颤动时间、糖尿病史等的基础疾病以及一些诸如抽烟、饮酒等的生活习惯都是脑卒中的危险因素。根据经验及研究表明,即使同一种危险因素在不同的条件或特性下其影响力也不同,以脑卒中例如,不同年龄段、不同地区的脑卒中危险因素差异性较大。因而根据疾病的特点分析出各种危险因素的重要性在医学领域上具有重大意义,当能够准确地为一种疾病分析出不同危险因素的各自重要性时,则能够很好地进行预防和干预,从而降低患病或复发的风险。

目前,对疾病的危险因素重要性的分析方法最初通过统计患病比例,以脑卒中为例,统计特定地区的特定年龄段的人群中患病比例以确定易发病的地区和年龄段;统计患者人群中患有某类基础疾病,如心房颤动时间、糖尿病史等的比例,统计患者人群中具有抽烟与饮酒生活习惯的比例等等,根据这些比例来确定各种危险因素的重要性。

又例如,金意,鞠忠等人在2008年在《中国公共卫生》第24卷第3期发表的《缺血性与出血性脑卒中危险因素对比分析》中公开了一种使用现有统计学分析软件(如SPSS13.0)进行统计分析的方法,分析软件采用t检验对样本均数进行比较,采用x

经上述说明可见,机器学习方法在疾病的防控领域已经有实践,并且也取得了一定的成效,但是通常采用单一指标进行分析,如t检验方法和卡方检验方法,因而分析结构的准确性仍有待提高,对预防发病风险的预测误差较大。

发明内容

针对现有技术中存在的技术问题,本发明提出了一种疾病危险因素的分析、预测方法、装置、设备及存储介质,以提高目标疾病危险因素的重要性分析的准确性。

为了解决上述技术问题,本发明提出了一种疾病危险因素的分析方法,包括以下步骤:

获取并处理m个采样对象的健康数据得到样本数据集,所述样本数据集包括m个样本,其中每个样本数据包括n种目标疾病的危险因素的指标数据;

分别计算每种危险因素的数据偏离程度,根据数据偏离程度的大小对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第一重要性权值;

分别计算每种危险因素与剩余多个危险因素的关联性,根据关联性的强弱对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第二重要性权值;

分别计算每种危险因素的样本相关性,根据样本相关性的强弱对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第三重要性权值;

基于第一重要性权值、第二重要性权值和第三重要性权值,分别计算每种危险因素对第一重要性的贡献度、对第二重要性的贡献度和对第三重要性的贡献度;

计算每种危险因素的第一重要性的贡献度、第二重要性的贡献度和第三重要性的贡献度的总和作为每种危险因素的综合贡献度;以及

按照综合贡献度从大到小的顺序对全部的危险因素进行排序得到危险因素重要性排序。

在另一方面,本发明还提供了一种疾病危险因素的分析装置,其中包括:

样本数据处理模块,经配置以获取并处理m个采样对象的健康数据得到样本数据集,所述样本数据集包括m个样本,其中每个样本数据包括n种目标疾病的危险因素的指标数据;

第一指标处理模块,经配置以分别计算每种危险因素的数据偏离程度,根据数据偏离程度的大小对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第一重要性权值;

第二指标处理模块,经配置以分别计算每种危险因素与剩余多个危险因素的关联性,根据关联性的强弱对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第二重要性权值;

第三指标处理模块,经配置以分别计算每种危险因素的样本相关性,根据样本之间的相关性的强弱对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第三重要性权值;

指标融合模块,经配置以分别基于第一重要性权值、第二重要性权值和第三重要性权值,分别计算每种危险因素对第一重要性的贡献度、对第二重要性的贡献度和对第三重要性的贡献度;以及

排序模块,经配置以计算每种危险因素的第一重要性的贡献度、第二重要性的贡献度和第三重要性的贡献度的总和作为每种危险因素的综合贡献度;按照综合贡献度从大到小的顺序对全部的危险因素进行排序得到危险因素重要性排序。

在另一方面,本发明还提供了一种疾病危险因素重要性预测方法,包括以下步骤:

获取目标待测人员的年龄和地域;

基于目标待测人员的年龄和地域为其匹配样本数据集;

获取目标待测人员的目标疾病标识,在目标疾病标识表明目标待测人员为目标疾病的患者时,基于前述方法得到影响患者恢复或者预测患者复发的危险因素重要性排序;以及

在目标疾病标识表明目标待测人员为未患有所述目标疾病时,基于前述方法得到预测患所述目标疾病的危险因素重要性排序。

在另一方面,本发明还提供了一种电子设备,包括处理器和存储器,所述存储器中存储有计算机可执行指令,在所述处理器执行所述计算机可执行指令时,实现前述的疾病危险因素的分析方法或实现前述的疾病危险因素重要性预测方法。

在另一方面,本发明还提供了一种计算机可读存储介质,其中存储有计算机可执行指令,在所述计算机可执行指令被处理器执行时,实现前述的疾病危险因素的分析方法或实现前述的疾病危险因素重要性预测方法。

本发明基于采集的样本数据分析致病风险的危险因素数据的内在关系、危险因素之间的关系及每种危险因素的样本之间的关系,通过全方位地挖掘数据的相关性并融合各种相关性,从而能够准确地确定一种疾病的多种危险因素的重要性排序,准确率高、应用范围广。

附图说明

下面,将结合附图对本发明的优选实施方式进行进一步详细的说明,其中:

图1是根据本发明一个实施例提供的一种疾病危险因素的分析方法的流程图;

图2是根据本发明一个实施例在计算目标危险因素对目标重要性的贡献度时的方法流程图;

图3是根据本发明一个应用实施例提供的一种脑卒中风险因素的分析方法流程图;

图4是根据本发明一个实施例提供的疾病危险因素重要性预测方法流程图;

图5是根据本发明一个实施例提供的疾病危险因素的分析装置原理框图;以及

图6是根据本发明一个实施例的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在以下的详细描述中,可以参看作为本发明一部分用来说明本发明的特定实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体上类似的组件。本发明的各个特定实施例在以下进行了足够详细的描述,使得具备本领域相关知识和技术的普通技术人员能够实施本发明的技术方案。应当理解,还可以利用其它实施例或者对本发明的实施例进行结构、逻辑或者电性的改变。

本发明涉及一种疾病危险因素的分析、预测方法、装置、设备及存储介质,通过收集到的危险因素指标数据,对数据进行分类,分析各类数据的关联,从而确定出各种危险因素对于特定人群的重要性,从而为疾病的预防和干预提供了有效地帮助。另外,为了清楚、简要地描述本发明提供的技术方案,描述中采用的“第一”、“第二”等词汇仅用于区别相同名称的技术特征,而不是用于排序。

图1是根据本发明一个实施例提供的一种疾病危险因素的分析方法的流程图,在本实施例中,所述方法包括以下步骤:

步骤S11,获取并处理m个采样对象的健康数据得到样本数据集,所述样本数据集包括m个样本,其中每个样本数据包括n种目标疾病的危险因素的指标数据。

步骤S12,获取每种危险因素的第一重要性权值。具体地,分别计算每种危险因素的数据偏离程度,根据数据偏离程度的大小对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第一重要性权值。

步骤S13,获取每种危险因素的第二重要性权值。具体地,分别计算每种危险因素与剩余多个危险因素的关联性,根据关联性的强弱对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第二重要性权值。

步骤S14,获取每种危险因素的第三重要性权值。分别计算每种危险因素的样本相关性,根据样本相关性的强弱对全部的危险因素进行排序,以危险因素的排序作为每种危险因素的第三重要性权值。

步骤S15,计算每种危险因素的贡献度。具体地,基于第一重要性权值、第二重要性权值和第三重要性权值,分别计算每种危险因素对第一重要性的贡献度、对第二重要性的贡献度和对第三重要性的贡献度。

步骤S16,计算每种危险因素的综合贡献度。具体地,计算每种危险因素的第一重要性的贡献度、第二重要性的贡献度和第三重要性的贡献度的总和作为每种危险因素的综合贡献度。

步骤S17,排序。按照综合贡献度从大到小的顺序对全部的危险因素进行排序得到危险因素重要性排序。

其中,在步骤S11中,所述的危险因素是指容易导致健康人患上目标疾病、导致已患上目标疾病的患者加重,或者导致已康复的患者复发的各种因素,例如,当目标疾病为脑卒中时,血压、体重、患有糖尿病的时间以及饮酒、吸烟等都是危险因素。步骤S11中的采集对象来自于根据目标疾病的属性特征划分的特定人群。所述目标疾病的属性特征例如为使同一危险因素产生不同影响力的属性特征。例如,对于心脑血管疾病,在不同的年龄阶段,血压对脑卒中疾病的影响力不同;在不同的地域,饮食对冠心病的影响力不同,因而当目标疾病为心脑血管方向的疾病(如脑卒中、冠心病等)时,年龄和地域则作为划分的特定人群的属性特征,对应地,基于某些属性特征的特定人群得到的数据集也具有相同的属性特征。

采集特定人群的各种危险因素的指标数据,并处理成样本数据。为方便说明,假设获取m个采样对象的健康数据,基于危险因素的种类,处理得到m个样本,其中每个样本包括目标疾病的n种危险因素的指标数据,任意一个样本中的任意一个危险因素的指标数据表示为x

在步骤S12中,在一个实施例中,基于样本数据集中每一列的危险因素的指标数据计算每一种危险因素的标准差,以所述标准差作为所述危险因素的数据偏离程度的度量值,从而反应该种数据的偏离程度。

在步骤S13中,在一个实施例中,基于样本数据集中各列危险因素的指标数据计算危险因素之间的皮尔逊相关系数作为危险因素之间的关联性的度量值,从而得到每种危险因素与其它危险因素之间的关联性。

在步骤S14中,在一个实施例中,在计算每种危险因素的样本相关性时,以计算一种危险因素的样本相关性为例,首先计算包含该危险因素的大类危险因素的数据样本与同类样本之间的马氏距离,从中得到最小马氏距离的一个同类样本,而后再计算包含该危险因素的大类危险因素的数据样本与异类样本之间的马氏距离,从中得到最小的马氏距离一个异类样本,再计算包含该危险因素的大类危险因素的数据样本与两个最小马氏距离样本的马氏距离的平方和作为该大类危险因素样本行相关性的值。最后将所有行相关性值求和,然后将该值按照大危险因素中危险因素的个数,均分到每个危险因素,作为一种危险因素的样本相关性的度量值。其中,样本数据集中具有相同患者标识的样本为同类样本,具有不同患者标识的样本为异类样本。

另外,危险因素的指标数据可以为连续数据,也可以为离散数据,当危险因素的指标数据为离散数据时,除了通过前述步骤S12、步骤S13、步骤S14得到三种重要性外,还计算离散型危险因素的不确定性,根据不确定性的大小对离散型危险因素进行排序,以每一种离散型危险因素的排序作为所述离散型危险因素的第四重要性权值。在计算离散型危险因素的综合贡献度时,先计算所述离散型危险因素的第一重要性的贡献度、第二重要性的贡献度和第三重要性的贡献度的总和作为所述离散型危险因素的第一贡献度;然后再按照对应的权重计算第一贡献度和第四重要性权值的加权和作为所述离散型危险因素的综合贡献度。在一个实施例中,在计算离散型危险因素的不确定性时,基于样本数据计算离散型危险因素的信息增益,将所述信息增益作为所述离散型危险因素的不确定性的度量值。

在步骤S15中,参见图2,图2是根据本发明一个实施例在计算目标危险因素对目标重要性的贡献度时的方法流程图,所述的目标危险因素为任一个危险因素,所述的目标重要性为第一重要性的贡献度、第二重要性的贡献度和第三重要性中的任意一种。所述方法具体包括:

步骤S151,将重要性权值排序中的所述危险因素标记为未计算。

步骤S152,将未计算的危险因素中权值最大的危险因素加入到机器学习模型的输入特征中,所述机器学习模型以所述危险因素作为输入特征进行处理得到结果。

步骤S153,判断是否已有计算完的危险因素,如果目前没有计算完的危险因素,则在步骤S154,将所述结果作为当前危险因素对当前重要性的贡献度,如果有计算完的危险因素,则在步骤S155,计算当前结果与前一个结果的差值,并将所述差值作为当前危险因素对当前重要性的贡献度。

步骤S156,标记所述危险因素已完成计算。

步骤S157,判断是否还有未计算的危险因素,如果有,返回步骤S152如果没有,则结束。

通过前述的计算可见,首先,将重要性权值排序中排序第一的危险因素加入到机器学习模型输入特征中,所述机器学习模型以所述危险因素作为输入特征进行处理得到的结果作为排序第一的危险因素的贡献度。

将权值排序中的第j个危险因素加入到所述机器学习模型的输入特征中,所述机器学习模型以第一个危险因素至第j个危险因素作为输入特征进行处理得到第j结果;其中j=2,3,……,n。

计算第j结果与第j-1结果的差值,将所述差值作为第j危险因素对当前重要性的贡献度,直到计算完成。在一个实施例中,机器学习模型根据输入特征进行处理后得到的结果例如为分类准确率。

采用图2所示流程分别得到每种危险因素对第一重要性的贡献度、第二重要性的贡献度和第三重要性的贡献度。

本发明基于采集的样本数据,分析了危险因素各自数据的内在关系、危险因素之间的关系及每种危险因素样本之间的关系,通过全方位地挖掘数据的相关性保证了确定的危险因素的重要性排序的准确率,并且,本发明在分析各种方法贡献度时采用的机器学习方法的灵敏度高和特异度好。

应用实施例

在本实施例中,在制备样本数据集时,分别以40岁以上具备脑卒中风险、正在患有脑卒中或已康复的人群作为数据采集对象(或称受试者),并按照地域和年龄得到多个数据采集组,以年龄为例,确定40~49岁、50~59岁、60~69岁、70~79岁和≥80岁作为不同的数据采集组。

在每个数据采集组,采集三个大类、共八个小项指标的脑卒中危险因素数据。其中,第一大类指标为身体状态,其中包括血压(单位:mmHg,指的是收缩压)、低密度脂蛋白(单位:mol/L)与体重质量指数三个小项指标数据;第二大类指标为基础疾病,其中包括心房颤动时间与糖尿病时间两个小项指标数据;第三大类指标为生活习惯,其中包括饮酒、吸烟与运动三个小项指标数据。

其中,体重质量指数的计算方法是:体重(以千克为单位)除以身高的平方(以米为单位),例如:一个人的身高为1.75米,体重为68千克,则其体重质量指数=68/(1.75*1.75)=22.2,以计算得到的数据作为指标数据。

心房颤动时间与糖尿病时间都是以发病时起到数据采集时止,计算这一时间阶段内的月份数,以月份数作为指标数据。

生活习惯中的饮酒、吸烟与运动指标均分为四类,即无,轻度、中度与重度,分别采用数字“1”、“2”、“3”、“4”表示。

另外,对未患有脑卒中的受试者的数据标记为0,脑卒中患者的受试者的数据标记为1。

经过整理后得到一个特定年龄段、M行、N维的样本数据集,例如表1所示。本实施例中N为9,对应8种危险因素。M为样本总数量。

表1

其中,身体状态类指标与基础疾病类指标为连续型危险因素,如表1中的j=1~5列为连续型危险因素,生活习惯类指标为离散型危险因素,如表1中的j=6~8列为离散型危险因素,最后一列为患病标识,其中1表示正在患有脑卒中或者曾经患过脑卒中,0表示还未患脑卒中。

本实施例中执行脑卒中风险因素分析方法的执行载体例如为具有处理器和存储器的电子设备,例如个人电脑。存储器中存储有脑卒中风险因素分析方法的应用程序,处理器在运行所述应用程序时执行所述分析方法。因而,在个人电脑中执行脑卒中风险因素分析方法的流程如图3所示,图3是根据本发明应用实施例提供的一种脑卒中风险因素的分析方法流程图。

步骤S210,向个人电脑中输入所选年龄段的受试者的N维数据,如表1所示的数据,其为一个与所选年龄属性相匹配的样本数据集。

步骤S220,对数据进行归一化处理,从而方便后续的各种计算。

步骤S230,应用三种重要性方法分别计算每种危险因素的方法指标值,所述的方法指标值作为重要性权值。所述的三种重要性方法分别为计算每种危险因素的数据偏离程度的方法、计算每种危险因素与剩余多个危险因素的关联性的方法和计算每种危险因素的样本相关性,每种方法根据采用的具体计算方法得到对应的方法指标值。

在本实施例中,对于第一种重要性方法,以患者的样本计算每种危险因素的数据偏离程度。具体地,基于样本数据集中每列危险因素的指标数据计算每一种危险因素的标准差作为度量所述危险因素的数据偏离程度的方法指标值。

标准差计算公式(1-1)如下:

其中,x

通过上述公式分别为8种危险因素计算得到对应的标准差,此时得到了第一种重要性方法的方法指标值集合S

对于第二种重要性方法,以患者的样本计算每种危险因素与剩余多个危险因素的关联性,其中采用皮尔逊相关系数(Pearson correlation coefficient)来度量危险因素之间的关联性,即数据集中的列的相联性。其中,皮尔逊相关系数的计算公式如下式(1-2)所示。

其中,cov(·)和var(·)分别代表协方差和方差。x和y分别对应两个危险因素,x

以计算表1中的第一个危险因素的皮尔逊相关系数为例,以第一列的数据作为目标数据,分别以第2至第8列的数据作为相关列,通过公式(1-2)计算得到7个数值,而后再计算这7个数据的绝对值的和,将所述绝对值的和作为第一个危险因素的皮尔逊相关系数。

按照这个方法,得到了第二种重要性方法的方法指标值集合S

本实施例除了描述每一个危险因素内的数据偏离程度,还通过皮尔逊相关系数评估了危险因素之间的关联性。

对于第三种重要性方法,本实施例首先计算每一个大类指标的每一个样本与其他样本的马氏距离,马氏距离的计算公式如下所示:

其中x和y分别表示两个样本。

具体地,以一个大类指标的一个样本为例,按照公式(1-3),分别计算该样本与其他同类样本的马氏距离,从中得到最小马氏距离的一个同类样本。同理,按照公式1-3,分别计算该样本与其他异类样本的马氏距离,从中得到最小马氏距离的一个异类样本。所述的同类、异类是指与计算目标样本的类别相同或不同,在本实施例中,与计算目标样本的患病标识相同的样本为同类样本,与计算目标样本的患病标识不同的样本为异类样本。

重复上述步骤,每一个大类指标的每一个样本分别得到对应最小马氏距离的一个同类样本和一个同类样本。

然后基于公式(1-4)再计算每一个大类指标的所有的样本与其各自的两个最小马氏距离样本的马氏距离的平方和的总和作为该大类指标的样本行相关性的值。

其中,M表示样本的个数,x表示目标大类指标的样本,same表示样本x与同类样本中具有最小马氏距离的样本,unlike表示x与异类样本中具有最小马氏距离的样本。

最后按照大类指标中小项(危险因素)的数量,将大类指标的样本行相关性的值w均分,均分后的数值作为该大类指标中每一个小项对应的危险因素的样本相关性度量值,也就得到了该大类指标中的每个危险因素的样本相关性的方法指标值。

经过上述计算,得到了第三种重要性方法的方法指标值集合S

步骤S240,设置当前重要性方法的序号i=1。

步骤S250,判断当前重要性方法的序号i是否小于等3,如是,则执行步骤S260,如果不是,说明已经计算完三种重要性方法中的所有危险因素的贡献度,则执行步骤S370。

步骤S260,按照方法指标值对危险因素进行从高到低的排序。例如,在当前为第一种重要性方法时,对第一种重要性方法的方法指标值集合S

步骤S270,设置当前危险因素的序号j=1。

步骤S280,判断当前危险因素的序号j是否小于等于N-1,即是否小于等于8,如是,则执行步骤S300,如果不是,说明已经对当前重要性方法计算完全部的危险因素的贡献度,则在步骤S290,对重要性方法的序号加1,再执行步骤S250。

步骤S300,选取前j个危险因素作为机器学习模型的输入特征,例如,在j=1时,只选取第一危险因素作为机器学习模型的输入特征,在j=2时,选取第一危险因素和第二危险因素作为机器学习模型的输入特征,按照此方式,在j=8时,选取全部危险因素作为机器学习模型的输入特征。

步骤S310,将选取的输入特征输入给随机森林。本实施例以训练好的随机森林作为机器学习模型。

步骤S320,经过随机森林的处理得到分类准确率z

步骤S330,判断j是否等于1,如果j等于1,则在步骤S350将分类准确率z

步骤S360,对危险因素的序号加1,再执行步骤S280。当所有危险因素都计算完后得到第i个重要性方法的所有危险因素的贡献度集合

步骤S370,计算每种危险因素的综合贡献度。当三个重要性方法都计算完成后,得到每种危险因素分别对三重要性方法的贡献度,此时得到贡献度集合

对于连续型危险因素,按照公式(1-5)计算得到综合贡献度则为最终值。对于离散型危险因素,还需要通过步骤S380调整离散型危险因素的综合贡献度。具体地,首先按照公式(1-5)计算得到对前三个重要性方法的总和作为所述离散型危险因素的第一贡献度μ

而后再计算离散型危险因素的不确定性,根据不确定性的大小对离散型危险因素进行排序,以每一种离散型危险因素的排序作为所述离散型危险因素的第四重要性权值,也就是第四种重要性方法的方法指标值。

在本实施例中,对于生活习惯中的饮酒、吸烟与运动等离散型危险因素,在数据收集时存在较大的不确定性。因此,本实施例还度量了离散型危险因素在数学上的不确定性。本实施例采用信息增益(Information gain)计算该危险因素获得的先验不确定性与期望后验不确定性之间的差值。按照公式(2-1)基于样本数据计算离散型危险因素的信息增益I,将所述信息增益I作为度量所述离散型危险因素的不确定性的权值或第四种重要性方法的方法指标值。

I=H(y)-H(y|x) (2-1)

其中H(y)为边际熵,H(y|x)为条件熵,各自的计算公式如下式(2-2)和(2-3):

其中,c在本实施例中表示类别的种类,pi指的是类别的概率。以表1的数据为例,对于j=6列的危险因素为“饮酒”的数据,“饮酒”其有4种状态,每种状态分别为1,2,3和4,当前共有5个样本,数据值为[1,1,3,2,4],同样也有两种类别分别为“1”与“0”。因此,j=6列的危险因素数据分布如下表2所示:

表2

在这5个样本中,类别为“1”的样本有3个,类别为“0”的样本有2个。

因而,类别的概率分别为:

P

因而本实施例中H(y)的计算方式为:

另外,

其中,n为状态值数量,z

因而,

/>

从而得到离散型危险因素“饮酒”的信息增益I为:

将计算得到的信息增益I作为度量所述离散型危险因素的不确定性的权值或第四种重要性方法的方法指标值,因而得到第四种重要性方法的方法指标值集合S

而后,按照公式(1-6)计算每种离散型危险因素的综合贡献度。

其中,μ

经过上述的计算得到了8种危险因素的综合贡献度,记作综合贡献度集合

本实施例中在步骤S230中计算第一种和第二种重要性方法的每种危险因素的方法指标值时采用的是患者样本,计算得到的8种危险因素的重要性排序是影响患者恢复或者预测患者复发的危险因素重要性排序,例如将该种危险因素的重要性排序记为结果类型1。

当在步骤S230中计算第一种和第二种重要性方法的每种危险因素的方法指标值时采用的是健康者样本时,计算得到的8种危险因素的重要性排序是预测患所述目标疾病的危险因素重要性排序,例如将该种危险因素的重要性排序记为结果类型2。

对于由个人电脑执行的应用程序,通过使用者设置需要输入的结果类型,应用程序选择不同的样本类别计算第一种重要性方法和第二种重要性方法的每种危险因素的方法指标值。

本实施例中的机器学习模型采用的随机森林,当然也可以同时采用支持向量机分类器。在每次通过随机森林得到一个结果时,也将同样的输入特征输入给支持向量机分类器得到另一个结果,将两个结果的和作为最终的结果。

本发明中采用随机森林分类器和支持向量机分类器可以为常规的训练好的分类器。其中,随机森林是由多棵决策树构成,假设训练集的样本个数为n,特征数目为m,随机森林中决策树个数K=3,其构建步骤如下:

遍历随机森林的大小K=3次:

从训练集中有放回抽样的方式,取样n次,形成一个子集D;

随机选择j个特征,其中j

每次使用D和j个特征,学习出一个完整的决策树,从而得到随机森林分类器。

关于支持向量机,假设训练数据集表示为D:

D={(x

其中n为样本个数,m为危险因素个数。可用超平面w·x+b=0分开数据集D,其中w为法向量,b为偏置。为了求得最优的w与b,可以解如下的优化问题(其中本发明采用高斯径向基核函数与五折参数寻优):

S.t.y

从而得到训练完成的支持向量机分类器。

以上说明仅简要介绍本发明使用的机器学习模型,本领域的普通技术人员可基于随机森林和支持向量机的常规训练方法、采用合适的训练数据得到,在此不再赘述。

当采用图3所述方法进行危险因素重要性分析时,基于使用的样本数据集,得到的结果适应于所述样本数据集的属性特征。在本实施例中,样本数据集的属性特征与样本数据采集人群的属性特征相同,即具有特定的年龄和地域。

本发明还提供了一种疾病危险因素重要性预测方法,参见图4,图4是根据本发明一个实施例提供的疾病危险因素重要性预测方法流程图,所述方法包括以下步骤:

步骤S510,获取目标待测人员的年龄和地域。

步骤S520,基于目标待测人员的年龄和地域为其匹配样本数据集。

步骤S530,确定目标待测人员的目标疾病标识。

步骤S540,判断目标疾病标识是否为1,如果目标疾病标识为1,表明目标待测人员为目标疾病的患者,在步骤S550,设置所需的结果类型为1。而后在步骤S551执行风险因素分析方法,具体如图3所示的流程,此方法中在计算第一种和第二种重要性方法的方法指标值时采用患者样本,在步骤S552输出影响患者恢复或者预测患者复发的危险因素重要性排序。如果目标疾病标识为0,表明目标待测人员为未患有所述目标疾病时,在步骤S560,设置所需的结果类型为2。而后在步骤S561执行风险因素分析方法,具体如图3所示的流程,此方法中在计算第一种和第二种重要性方法的方法指标值时采用健康人样本,在步骤S562输出患所述目标疾病的危险因素重要性排序。

本发明提供的疾病危险因素重要性预测方法能够根据目标受试者的特点确定与其对应的样本集,从而得到容易致使其患上该目标疾病或从该已患疾病康复的各种危险因素及重要性的排序,准确率高、计算速度快。

在另一方面,本发明还提供了一种疾病危险因素的分析装置,如图5所示,其为根据本发明实施例提供的疾病危险因素的分析装置原理框图。所述分析装置包括样本数据处理模块110、第一指标处理模块120、第二指标处理模块130、第三指标处理模块140、指标融合模块150和排序模块160。图中各个模块之间的箭头线表示指令流,点划线表示数据流。其中,所述样本数据处理模块110经配置以获取并处理m个采样对象的健康数据得到样本数据集,所述样本数据集包括m个样本,其中每个样本数据包括n种目标疾病的危险因素的指标数据。根据需要,为所述样本数据集设置属性特征标签,例如年龄范围、地域及是否患病的标识等等。通过样本数据处理模块110能够得到多个样本数据集,并存储到数据库或存储器中以供后续进行分析时选择使用。在应用时,样本数据处理模块110根据用户指令对采样数据进行相应的处理,如分类,格式化、数据的归一化等处理。或者,根据用户输入的选择指令确定对应的样本数据集,并发送通知给各个指标处理模块。

本实施例包括多个指标处理模块,每个指标处理模块可以并行处理,并将处理结果存储到数据库中或指定的存储地址,并在处理完成后发送通知给指标融合模块150,或者直接将处理结果发送给指标融合模块150。具体地,所述第一指标处理模块120分别计算每种危险因素的数据偏离程度,根据数据偏离程度的大小对全部的危险因素进行排序,以每一种危险因素的排序作为所述危险因素的第一重要性权值。在一个实施例中,以未患所述目标疾病的健康人的样本和患者的样本分别计算每一种危险因素的数据偏离程度。在计算数据偏离程度时,根据计算每一种危险因素的标准差作为所述危险因素的数据偏离程度的度量值。

所述第二指标处理模块130分别计算每种危险因素与剩余多个危险因素的关联性,根据危险因素之间的关联性的强弱对全部的危险因素进行排序,以每一种危险因素的排序作为所述危险因素的第二重要性权值。在一个实施例中,以未患所述目标疾病的健康人的样本和患者的样本分别计算每一种危险因素与剩余多个危险因素的关联性。在计算关联性时,基于样本数据集中各列危险因素的指标数据计算每种危险因素与剩余多个危险因素的皮尔逊相关系数的绝对值的和作为相关性的度量值。

第三指标处理模块140用以分别计算每种危险因素的样本之间的相关性,根据样本之间的相关性的强弱对全部的危险因素进行排序,以每一种危险因素的排序作为所述危险因素的第三重要性权值。

以上各个处理模块的处理过程参见前述方法实施例中的说明,在此不再赘述。

指标融合模块150接收到处理模块的通知后分别基于第一重要性权值、第二重要性权值和第三重要性权值,分别计算每种危险因素对第一重要性的贡献度、对第二重要性的贡献度和对第三重要性的贡献度,在计算完成后发送通知给排序模块160,并将各个重要性的贡献度存储到数据库中或者直接发送给排序模块160。在计算危险因素对某重要性的贡献度时,参见图2所示的流程,在此不再赘述。

排序模块160接收到指标融合模块150后计算每种危险因素的第一重要性的贡献度、第二重要性的贡献度和第三重要性的贡献度的总和作为每种危险因素的综合贡献度;按照综合贡献度从大到小的顺序对全部的危险因素进行排序。

对于连续型的多种危险因素,按照图5所示的原理框图的分析装置可以得到危险因素重要性的排序。当数据集中的危险因素还包括离散型危险因素时,还包括第四指标处理模块170,用以计算离散型危险因素的不确定性,根据不确定性的大小对离散型危险因素进行排序,以每一种离散型危险因素的排序作为所述离散型危险因素的第四重要性权值。此时,排序模块160计算所述离散型危险因素的第一重要性的贡献度、第二重要性的贡献度和第三重要性的贡献度的总和作为所述离散型危险因素的第一贡献度;再按照对应的权重计算第一贡献度和第四重要性权值的加权和作为所述离散型危险因素的综合贡献度,而后再按照综合贡献度的从大到小的顺序对全部的危险因素进行排序。

本发明提供的疾病危险因素的分析装置除了前述各种模块外,还可以包括诸如界面模块,通过界面模块与用户(使用者)进行交互,例如接收用户输入的采样数据。在进行样本数据处理时,接收用户设置的样本标识或标签。所述标识例如为每个样本的患病标识,所述的标签例如用于记录样本数据集的属性特征,如年龄属性和地域属性等等。界面模块还提供用户所需分析结果类型的选项,如对应于影响患者恢复或者预测患者复发的危险因素重要性排序的分析结果或者预测患所述目标疾病的危险因素重要性排序的分析结果等等。

本发明实施例还提供了一种电子设备,可以是用户终端设备,可以是服务器,还可以是其他计算设备。图6是根据本发明一个实施例的电子设备的硬件结构示意图,该电子设备可以包括处理器601以及存储有计算机程序指令的存储器602,处理器601执行计算机程序指令时实现上述任一实施例的疾病危险因素的分析方法的流程或功能,或者疾病危险因素重要性的预测方法或功能。

具体地,处理器601可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。存储器602可以包括用于数据或指令的大容量存储器。举例来说,存储器602可以是以下至少一者:硬盘驱动器(Hard Disk Drive,HDD)、只读存储器(ROM),随机存取存储器(RAM)、软盘驱动器、闪存、光盘、磁光盘、磁带、通用串行总线(Universal Serial Bus,USB)驱动器或其他物理/有形的存储器存储设备。又如,存储器602可包括可移除或不可移除(或固定)的介质。再如,存储器602可在综合网关容灾设备的内部或外部。存储器602可以是非易失性固态存储器。换句话说,通常存储器602包括编码有计算机可执行指令的有形(非暂态)计算机可读存储介质(如存储器设备),并且当该软件被执行(如由一个或多个处理器执行)时,可执行本发明实施例的方法所描述的操作。处理器601通过读取并执行存储器602中存储的计算机程序指令,实现上述实施例中任一种方法的流程或功能。

在一个示例中,图6所示的电子设备还可包括通信接口603和总线610。其中,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。通信接口603主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。总线610包括硬件、软件或两者皆有,可将在线数据流量计费设备的部件彼此耦接在一起。举例来说,总线可包括以下至少一者:加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线。总线610可包括一个或多个总线。尽管本发明实施例描述或示出了特定的总线,但本发明实施例可考虑任何合适的总线或互连方式。

结合上述实施例中的方法,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述实施例中任一实施例的疾病危险因素的分析方法的流程或功能,或者疾病危险因素重要性的预测方法或功能。

另外,本发明实施例还提供一种计算机程序产品,该计算机程序产品上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述实施例中任一种疾病危险因素的分析方法的流程或功能,或者疾病危险因素重要性的预测方法或功能。

以上示例性地描述了本发明实施例的方法、装置、系统和计算机程序产品的流程图和/或框图,并描述了相关的各个方面。应当理解,流程图和/或框图中的每个方框或其组合,可以由计算机程序指令实现,也可以由执行指定功能或动作的专用硬件来实现,还可由专用硬件和计算机指令的组合来实现。例如,这些计算机程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,以形成一种机器可使得经由这种处理器执行的这些指令使能对流程图和/或框图中的每个方框或其组合中指定的功能/动作的实现。这种处理器可以是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。

本发明实施例的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等;当以软件方式实现时,是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在存储器中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

上述实施例仅供说明本发明之用,而并非是对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明范围的情况下,还可以做出各种变化和变型,因此,所有等同的技术方案也应属于本发明公开的范畴。

相关技术
  • 疾病数据映射方法、装置、计算机设备和存储介质
  • 一种网络安全态势预测方法、装置、设备及存储介质
  • 客户稳定性的预测方法、装置、计算机设备和存储介质
  • 软件可靠性预测方法、装置、计算机设备和存储介质
  • 一种进馆档案数量预测方法、装置、电子设备及存储介质
  • 利用局部突出危险预测预报数据反演工作面突出危险因素的大数据分析方法
  • 一种基于混合模型的疾病危险因素重要性分析方法
技术分类

06120116496142