掌桥专利:专业的专利平台
掌桥专利
首页

数据筛选模型建立及数据筛选方法、装置、设备和介质

文献发布时间:2023-06-19 10:58:46


数据筛选模型建立及数据筛选方法、装置、设备和介质

技术领域

本发明实施例涉及计算机技术领域,尤其涉及一种数据筛选模型建立及数据筛选方法、装置、设备和介质。

背景技术

糖尿病是一种由于胰岛素分泌缺陷或胰岛素作用障碍所致的以高血糖为特征的代谢性疾病。持续高血糖与长期代谢紊乱等可导致全身组织器官,特别是眼、肾、心血管及神经系统的损害及其功能障碍和衰竭。

目前,糖尿病患者的数量不断增长,且呈现低龄化的特点。可以知道的是糖尿病虽然是不可逆转的,但是,是可以通过药物治疗并保持健康的生活及饮食来维持身体状况。希望可以通过对糖尿病患者以及非糖尿病患者的临床数据的分析,筛选出潜在糖尿病患者的数据,从而给潜在的糖尿病患者以合理的建议,从而能够有效的减缓患者的增长速度、降低患病风险。

发明内容

本发明实施例提供了一种数据筛选模型建立及数据筛选方法、装置、设备和介质,以实现基于对糖尿病患者以及非糖尿病患者的临床数据的处理与分析,建立用于筛选出潜在糖尿病患者数据的数据筛选模型,从而减缓患者的增长速度、降低患病风险。

第一方面,本发明实施例提供了一种数据筛选模型建立方法,该方法包括:

获取带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据;

对所述预设项目临床数据进行数据预处理;

基于预处理后的预设项目临床数据进行特征筛选处理,筛选出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据;

将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练,当所述预设提升树模型输出的分类结果与所述感兴趣特征数据对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型。

可选的,获取带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据,包括:

读取带有糖尿病患者标签或非糖尿病患者标签,且进行加密处理的患者基础信息,以及各患者的临床数据,其中,所述患者基础信息包括患者编号、姓名、性别及年龄中至少一个;

对所述患者基础信息进行解密操作,得到与各条患者基础信息对应的患者虚拟标识及预设基础信息项,其中,所述预设基础信息项为所述患者基础信息中的信息项,所述患者虚拟标识是将预设基础信息项与对应的临床数据相关联的标识;

根据所述虚拟标识将各患者的预设基础信息项与对应的临床数据进行拼接,得到带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据。

可选的,所述对所述预设项目临床数据进行数据预处理,包括:

删除同一患者的重复的预设项目临床数据;和/或,

删除存在一个或多个预设项目的数据缺失的预设项目临床数据;和/或,

针对存在数据异常项目的预设项目临床数据,计算不同患者的预设项目临床数据中所述数据异常项目对应的数据的众数,将所述众数替换异常的数据。

可选的,基于预处理后的预设项目临床数据进行特征筛选处理,筛选出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据,包括:

将预处理后的预设项目临床数据中连续数据进行离散化处理,使各预设项目临床数据均为离散数据;

将各预设项目离散的临床数据进一步进行性离散化处理;

将进一步离散处理后的各预设项目临床数据进行归一化处理,使各预设项目临床数据具有相同量纲;

将归一化处理后的各预设项目临床数据进行筛选,筛选出重要性满足预设条件的预设项目临床数据作为感兴趣特征数据。

可选的,将归一化处理后的各预设项目临床数据进行筛选,筛选出重要性满足预设条件的预设项目临床数据作为感兴趣特征数据,包括:

将归一化处理后的各项临床数据输入至XGBoost模型,由所述XGBoost模型计算并输出各预设项目临床数据特征重要度值;

对各预设项目临床数据特征重要度值进行排序,并将重要度值排序满足预设条件的数据作为感兴趣特征数据。

可选的,在将预处理后的预设项目临床数据中连续数据进行离散化处理之前,所述方法还包括:

基于预设运算规则,将预处理后的预设项目临床数据中两项或两项以上临床数据进行组合得到新的数据项;相应的,所述方法还包括:

将预处理后的预设项目临床数据和所述新的数据项中连续数据进行离散化处理,使各项目临床数据均为离散数据;

将各项目离散的临床数据进一步进行性离散化处理;

将进一步离散处理后的各项目临床数据进行归一化处理,使各项目临床数据具有相同量纲;

将归一化处理后的各项目临床数据进行筛选,筛选出重要性满足预设条件的项目临床数据作为感兴趣特征数据。

可选的,所述预设基础信息项包括所述患者基础信息中的性别和年龄;

所述预设项目临床数据包括是否多尿症、是否烦渴、是否体重减轻、是否身体虚弱无力、是否出现脱发严重、是否肥胖、是否吸烟、血压值、空腹血糖值、餐后血糖值、血脂值及糖耐量试验值中至少一个。

第二方面,本发明实施例提供了一种数据筛选方法,该方法包括:

获取待筛选预设项目临床数据,并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据;

将所述预设感兴趣特征数据输入至,经任一实施例所提供的数据筛选模型建立方法,确定的数据筛选模型中,使所述数据筛选模型确定并输出所述待筛选预设项目临床数据的标签为糖尿病患者的概率;

当所述概率值大于预设概率阈值时,确定所述待筛选预设项目临床数据为目标数据;

其中,所述预设项目临床数据是用于建立所述数据筛选模型的临床数据中对应项目的临床数据,所述预设感兴趣特征数据是所述数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的数据。

可选的,所述数据筛选还包括:

为所述目标数据增加目标数据标识,并将所述目标数据和对应的标签为糖尿病患者的概率进行显示。

可选的,所述数据筛选还包括:

根据所述目标数据对应的感兴趣特征数据的数值以及所述标签为糖尿病患者的概率,为所述目标数据匹配健康警示信息并显示。

第三方面,本发明实施例还提供了一种数据筛选模型建立装置,该装置包括:

数据获取模块,用于获取带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据;

数据预处理模块,用于对所述预设项目临床数据进行数据预处理;

特征筛选模块,用于基于预处理后的预设项目临床数据进行特征筛选处理,筛选出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据;

模型建立模块,用于将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练,当所述预设提升树模型输出的分类结果与所述感兴趣特征数据对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型。

第四方面,本发明实施例还提供了一种数据筛选装置,该装置包括:

数据预处理模块,用于获取待筛选预设项目临床数据,并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据;

数据初筛模块,用于将所述预设感兴趣特征数据输入至,经任一实施例所提供的数据筛选模型建立方法,确定的数据筛选模型中,使所述数据筛选模型确定并输出所述待筛选预设项目临床数据的标签为糖尿病患者的概率;

数据筛选确定模块,用于当所述概率值大于预设概率阈值时,确定所述待筛选预设项目临床数据为目标数据;

其中,所述预设项目临床数据是用于建立所述数据筛选模型的临床数据中对应项目的临床数据,所述预设感兴趣特征数据是所述数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的数据。

第五方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的数据筛选模型建立方法或数据筛选方法。

第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的数据筛选模型建立方法或数据筛选方法。

上述发明中的实施例具有如下优点或有益效果:

本发明实施例,通过基于带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据,并在数据预处理之后从中提取出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据,进而通过感兴趣特征数据训练数据分类模型训练,当数据分类模型输出的分类结果与输入数据本身对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型;解决了现有技术中未能基于大量的糖尿病患者以及非糖尿病患者的临床数据进行分析并学习数据特征,筛选出目标数据的问题,实现了基于对糖尿病患者以及非糖尿病患者的临床大数据的处理与分析,获取特征数据,建立用于筛选出目标患者数据的数据筛选模型,以根据筛选出的目标数据给患者相应的建议,从而减缓患者的增长速度、降低患病风险。

附图说明

图1是本发明实施例一提供的一种数据筛选模型建立方法的流程图;

图2是本发明实施例一提供的一种临床数据特征重要度值展示图;

图3是本发明实施例一提供的一种糖尿病潜在患者数据筛选模型训练效果图;

图4是本发明实施例二提供的一种数据筛选方法的流程图;

图5是本发明实施例三提供的一种数据筛选模型建立装置的结构示意图;

图6是本发明实施例四提供的一种数据筛选装置的结构示意图;

图7是本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据筛选模型建立方法的流程图,本实施例可适用于基于大量的糖尿病相关的临床数据建立糖尿病数据筛选模型的情况。该方法可以由配置于数据筛选模型建立装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的电子设备中。

如图1所示,数据筛选模型建立方法包括以下步骤:

S110、获取带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据。

本实施例中建立的数据筛选模型,主要的应用场景是对确诊的或未确诊的糖尿病患者数据进行筛选,以筛选出符合设定条件的患者数据。因此,在模型建立阶段采用的样本数据为糖尿病患者和非糖尿病患者的预设项目的临床数据。其中,预设项目临床数据可以是任何在临床中采集的与糖尿病相关的数据,包括糖尿病患者或非糖尿病患者的基本信息、患者生活习惯或身体状态方面的数据,以及通过生物化学实验进行测得的指标数据。示例性的,预设项目临床数据包括性别、年龄、身高、体重、是否多尿症、是否烦渴、是否体重减轻、是否身体虚弱无力、是否出现脱发严重、是否肥胖、是否吸烟、血压值、空腹血糖值、餐后血糖值、血脂值及糖耐量试验值中至少一个。每一条样本数据即为一个对象的预设项目临床数据,该对象是糖尿病患者或者非糖尿病患者即为该条样本数据的数据标签,即在大体上将样本数据分类为糖尿病患者的预设项目临床数据和非糖尿病患者的预设项目临床数据。

进一步的,样本数据的来源通常是各个医院方的临床数据,数据是相对较为分散的,需要从各医院方将获取到的数据进行整合。而且,为了保护患者的隐私,从医院方获取到的临床数据通常是进行加密的,包括患者基础信息以及与糖尿病相关的临床数据项两部分。在进行数据整合的过程中,最主要的是进行数据解密,以及数据拼接,从而获得完整的一条样本数据。

具体的,执行数据筛选模型建立的装置,能够读取的数据均为带有糖尿病患者标签或非糖尿病患者标签,且进行加密处理的患者基础信息,以及各患者的与糖尿病相关的临床数据。这是院方对数据进行加密处理的结果,会隐藏患者的姓名、身份证号码及医保卡等患者基础信息,并将各患者与其对应的临床数据建立关联关系。因此,在读取了患者基础信息及临床数据之后,对患者基础信息进行解密操作,得到与各条患者基础信息对应的患者虚拟标识及预设基础信息项,其中,患者虚拟标识是将患者基础信息与对应的预设项目临床数据相关联的标识,预设基础信息项为患者基础信息中的信息项,例如病患性别、与年龄,主要目的是方便院方能够将数据筛选模型的结果与真实的数据相关联。然后,再通过患者虚拟标识将各患者的基础信息与对应的临床信息进行拼接,得到隐私加临床共存的数据,即带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据。

若是,执行数据筛选模型建立的装置能够直接获得满足需求的带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据,便可以直接进行后续的数据处理过程。

S120、对所述预设项目临床数据进行数据预处理。

通常,在将患者基础信息与临床数据关联(拼接)保存后,会出现因数据同步延迟问题导致出现患者预设基础信息项或者临床数据不统一或不同步的情况,因此,会出现数据缺失、重复的情况。经过数据同步延时处理后,仍然出现数据缺失或重复时,则需要对数据进行数据清洗预处理。

具体的,针对重复出现的样本数据,需要进行删除,即删除同一患者的重复的预设项目临床数据,例如一个患者的数据重复出现了两次,那么将其中一份数据删除即可。

针对存在数据项缺失的预设项目临床数据,则删除该条预设项目临床数据。举例说明,若一条带有标签的预设项目临床数据中,空腹血糖项数据缺失,则将该条数据删除。

进一步的,针对存在数据异常项目的预设项目临床数据,计算不同患者的预设项目临床数据中数据异常项目对应的数据的众数,利用确定的众数替换异常的数据即可。示例性的,可以将所有的预设项目临床数据保存在一个数据表中,在数据表中每一列数据为不同项目的数据,每一行则为同一个对象的各预设项目临床数据。可以确定的是,在性别项中仅会存为0和1,表示不是某一性别或是某一性别,若出现其他数据,如999,则说明该数据为不在正常范围内数据,则将此项数据先删除,变为空数据,在通过计算性别整列数据的众数,最终通过众数修复的形式对异常的数据999进行替换。需要注意的是,若异常数据在转为空数据后与该存在异常数据的项目原有缺失数据占比和超过整体数据量的15%,则该存在异常数据的项目成为不可用特征数据,失去数据价值,最终会影响到模型建立的结果,需要删除该存在异常数据的项目,即整列删除,此特征数据,不再纳入模型训练(建立)样本数据中。

S130、基于预处理后的预设项目临床数据进行特征筛选处理,筛选出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据.

具体的,由于预设项目临床数据存在多个数据项目,而且通过不同数据项目中的组合还可以确定更多的数据项目,例如,通过身高和体重计算出人体体重指数BMI,作为新的数据项;需要从预设项目临床数据以及新的项目数据中筛选出对模型建立的结果影响较大的数据项作为特征数据,进行模型的训练,以保证模型的训练效率。

首先,在预设项目临床数据和新的项目数据中的各项目数据,分为连续数据(如年龄、血压及血糖值含量等)与离散数据(如性别、是否吸烟及是否情绪烦躁等)。需要将数据进行统一。

具体的,连续数据存在大小关系,但为了让模型更加充分的理解数据,可以根据现有的连续数据生成相关的离散数据。即将预处理后的预设项目临床数据中连续数据进行离散化处理,使各预设项目临床数据均为离散数据。例如,年龄原始数据范围在20-90岁之间的整数,可以进行平均分段操作将年龄划分为以10岁为一个阶段,并生成一列数据。如20-30、30-40等,这样就能将数据从连续数据转换为离散数据。

进一步的,而由于数据数值会存在大小的逻辑关系,而离散数据并非存在大小关系,因此,将各预设项目离散的临床数据进一步进行性离散化处理。例如,将性别值为(0或1)的情况转换为性别男1和性别女0,或性别男0,性别女1。也就是将原来的一项为性别的特征转换为两项分别为性别男和性别女,其中,是对应性别时值为1,否则为0。这样的离散特征将不在受到其中大小关系的影响。

由于其中不同数据项的数据范围不同,会影响数据筛选模型对不同数据的判断。例如,年龄项中最大值为90,而性别最大值为1,需要,将进一步离散处理后的各预设项目临床数据进行归一化处理,使各预设项目临床数据具有相同量纲,即将所有数据均放到同一维度下进行比较与计算才能更加准确的让模型理解。示例性的,可以采用最大最小归一算法进行数据的处理,即先将需要进行归一化处理的数据减去其所在列中的最小值得到第一差值,然后将需要进行归一化处理的数据所在列的最大值减去最小值得到第二差值,最后再用第一差值除以第二差值,得到归一化处理后的数值。

经过上述操作之后,会生成比原有预设项目临床数据和新的项目数据特征更多的特征,这些特征中,有些会对模型有影响,有些没有。需要在最终模型训练之前,再从更多的特征中进行筛选,选出对数据筛选模型影响更大,更加重要的特征,以提高模型的计算效率。在本实施例中,特征重要度计算方法主要采用XGBoost提升树模型进行特征重要度选择计算,将归一化处理后的各项临床数据输入至XGBoost模型,由XGBoost模型计算并输出各预设项目临床数据特征重要度值;进而对各预设项目临床数据特征重要度值进行排序,并将重要度值排序满足预设条件的数据作为感兴趣特征数据。在一个具体实例中,一些在临床采集数据的特征重要度计算结果可参考图2所示的特征重要度(Feature importance)展示图表,其中,展示出来的仅为特征重要性排序后较为靠前的特征名称与特重要度值。具体的,在图2中,横坐标为特征重要度得分(F score),纵坐标则是各特征项(Features),包括年龄(age)、未出现脱发症状(Alopecia_No)、未出现口渴烦躁症状(Polydipsia_No)、女性标示(Gender_Female)、没有延迟康复(Delayed_healing_No)、未出现烦躁症状(Irritability_No)、未出现多尿症状(Polyuria_No)、未出现瘙痒症状(Itching_No)、未出现肌肉紧张症状(Muscle_stiffness_no)、未出现生殖器鹅口疮症状(Genital_thrush_No)、未出现多食症症状(Polyphagia_No)、未出现体重降低症状(Sudden_weight_loss_No)、未出现视觉模糊症状(Visual blurring_No)、未出现部分偏瘫症状(Partial_paresis_No)、未出现虚弱症状(Weakness_No)、年龄范围2(Age_range_2,40-45岁)、未出现肥胖症状(Obesity_No)、年龄范围3(Age_range_3,50~60岁)、年龄范围5(Age_range_5,70~80岁)、年龄范围1(Age_range_1,30~40岁)和年龄范围4(Age_range_4,60~70岁)。根据图2,例如可以选取特征重要度值大于1或其他数值的特征作为感兴趣特征。

S140、将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练,当所述预设提升树模型输出的分类结果与所述感兴趣特征数据对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型。

在本实施例中,考虑到后续部署的可实施与操作性,采用传统机器学习中的XGBoost或lightgbm等提升树模型架构进行模型训练,将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练,使模型学习糖尿病患者和非糖尿病患者的相同项目的临床特征数据,最终能够识别出各输入数据的标签,进行数据的分类。当预设提升树模型输出的分类结果与感兴趣特征数据对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型。其中,模型的分类结果包括感兴趣特征数据对应的对象是糖尿病患者的概率值,因此,可以通过目标数据筛选模型筛选出在一定概率上属于糖尿病患者的数据,从而确定潜在的糖尿病患者。

当然,可用于分类的模型有很多均可以实现本实施例的方法,但是经过在实例中的数据测试,XGBoost的最终模型效果以及评估指标相较于其他模型更优,因此,采用xgboost进行模型训练,模型训练的效果图可参考图3所示的效果图。图3中,横坐标为假阳性率,纵坐标为真阳性率。实线为ROC曲线(receiver operating characteristic curve,受试者工作特征曲线)较靠近左上角,模型输出结果的准确性就较高。

本实施例的技术方案,通过基于带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据,并在数据预处理之后从中提取出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据,进而通过感兴趣特征数据训练数据分类模型训练,当数据分类模型输出的分类结果与输入数据本身对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型;解决了现有技术中未能基于大量的糖尿病患者以及非糖尿病患者的临床数据进行分析并学习数据特征,筛选出目标数据的问题,实现了基于对糖尿病患者以及非糖尿病患者的临床大数据的处理与分析,获取特征数据,建立用于筛选出目标患者数据的数据筛选模型,以根据筛选出的目标数据给患者相应的建议,从而减缓患者的增长速度、降低患病风险。而且,对加密的患者数据进行部分解密以及数据拼接,能够解决隐私数据在数据获取以及科研模型时仍然为加密状态,很好的保护了患者隐私。

实施例二

图4为本发明实施例二提供的一种数据筛选方法的流程图,本实施例可适用于对糖尿病数据进行筛选的情况。该方法可以由数据筛选装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。

如图4所示,数据筛选方法包括以下步骤:

S210、获取待筛选预设项目临床数据,并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据。

当在实验过程中或是应用过程中,有需要进行筛选的糖尿病相关的预设项目临床数据时,便可以采用由本发明实例提供的数据筛选模型建立方法建立的数据筛选模型进行数据的筛选。

首先,就是对待筛选预设项目临床数据进行预处理,如异常的数据纠正、数据离散化处理、数据归一化处理及将不属于预设感兴趣特征数据进行删除等操作,最终得到预设感兴趣特征数据。当然,预设项目临床数据是与用于建立数据筛选模型的临床数据中相对应项目的临床数据,预设感兴趣特征数据是与数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的特征数据。

S220、将所述预设感兴趣特征数据输入至,经任一实施例所提供的数据筛选模型建立方法,确定的数据筛选模型中,使所述数据筛选模型确定并输出所述待筛选预设项目临床数据的标签为糖尿病患者的概率。

将数据预处理后得到的,与待筛选预设项目临床数据对应的预设感兴趣特征数据输入至由本发明实例提供的数据筛选模型建立方法建立的数据筛选模型,即可通过模型计算并输出待筛选预设项目临床数据属于糖尿病患者的概率。

这里需要说明的是,该模型并不用于对糖尿病进行诊断,只是基于大数据的学习,对临床数据的趋势进行预测,通常输出的结果不会是百分之百,对于非糖尿病患者来说,可以将数据作为参考,以作为警示,提醒大家注意保持身体健康的状态。

S230、当所述概率值大于预设概率阈值时,确定所述待筛选预设项目临床数据为目标数据。

预设概率阈值可以是50%或是其他数值,也就是说,数据筛选模型输出的结果是某一待筛选预设项目临床数据为糖尿病患者数据的概率高于50%,则认为该筛选预设项目临床数据对应的对象为糖尿病潜在患者,待筛选预设项目临床数据为目标数据。

在一种实施方式中,数据筛选模型在应用过程中,可被设置为仅输出概率大于预设概率阈值的结果。当待筛选预设项目临床数据为目标数据时,增加目标数据标识,并将目标数据和对应的标签为糖尿病患者的概率进行显示,以便于专业人士作为参考。

进一步的,还可以在待筛选预设项目临床数据为目标数据时,根据目标数据对应的感兴趣特征数据的数值以及对应的重要度值以及目标数据为糖尿病患者数据的概率,为所述目标数据匹配健康警示信息并显示。即结合确定为目标数据的待筛选预设项目临床数据,以及图2中特征重要度值排序做一次特征关联匹配,并将其特征重要度大于0且能够与目标数据中的数值为1的数据进行返回,可以使专业人员根据反馈结果,并结合该目标数据对应的对象自身的情况,给出指导性建议,以助于潜在的糖尿病患者更有针对性的预防疾病发生,降低患病概率。例如,目标数据为糖尿病患者数据的概率越高,给出的警示应该更加的严素一些,对糖尿病潜在患者的身体管理建议更加详细。感兴趣特征数据中某一项的数值越高,说明该项更需要被关注,该项指标引起的糖尿病风险更高。

本实施例的技术方案,通过对待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据,然后将预设感兴趣特征数据输入至,本发明任一实施例提供的数据筛选模型建立方法确定的数据筛选模型中,从而得到待筛选预设项目临床数据的标签为糖尿病患者的概率,以筛选出概率值大于预设概率阈值的目标数据。因此,可以使临床专业人士或是潜在的糖尿病患者本人,根据模型输出的结果,更有针对性的预防疾病发生,降低患病概率。

实施例三

图5为本发明实施例三提供的一种数据筛选模型建立装置的结构示意图,本实施例可适用于基于大量的糖尿病相关的临床数据建立糖尿病数据筛选模型的情况。

如图5所示,数据筛选模型建立装置包括数据获取模块310、数据预处理模块320、特征筛选模块330和模型建立模块340。

其中,数据获取模块310,用于获取带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据;数据预处理模块320,用于对所述预设项目临床数据进行数据预处理;特征筛选模块330,用于基于预处理后的预设项目临床数据进行特征筛选处理,筛选出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据;模型建立模块340,用于将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练,当所述预设提升树模型输出的分类结果与所述感兴趣特征数据对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型。

本实施例的技术方案,通过基于带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据,并在数据预处理之后从中提取出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据,进而通过感兴趣特征数据训练数据分类模型训练,当数据分类模型输出的分类结果与输入数据本身对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型;解决了现有技术中未能基于大量的糖尿病患者以及非糖尿病患者的临床数据进行分析并学习数据特征,筛选出目标数据的问题,实现了基于对糖尿病患者以及非糖尿病患者的临床大数据的处理与分析,获取特征数据,建立用于筛选出目标患者数据的数据筛选模型,以根据筛选出的目标数据给患者相应的建议,从而减缓患者的增长速度、降低患病风险。

可选的,数据获取模块310用于:

读取带有糖尿病患者标签或非糖尿病患者标签,且进行加密处理的患者基础信息,以及各患者的临床数据,其中,所述患者基础信息包括患者编号、姓名、性别及年龄中至少一个;

对所述患者基础信息进行解密操作,得到与各条患者基础信息对应的患者虚拟标识及预设基础信息项,其中,所述预设基础信息项为所述患者基础信息中的信息项,所述患者虚拟标识是将预设基础信息项与对应的临床数据相关联的标识;

根据所述虚拟标识将各患者的预设基础信息项与对应的临床数据进行拼接,得到带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据。

可选的,数据预处理模块320用于:

删除同一患者的重复的预设项目临床数据;和/或,

删除存在一个或多个预设项目的数据缺失的预设项目临床数据;和/或,

针对存在数据异常项目的预设项目临床数据,计算不同患者的预设项目临床数据中所述数据异常项目对应的数据的众数,将所述众数替换异常的数据。

可选的,所述特征筛选模块330用于:

将预处理后的预设项目临床数据中连续数据进行离散化处理,使各预设项目临床数据均为离散数据;

将各预设项目离散的临床数据进一步进行性离散化处理;

将进一步离散处理后的各预设项目临床数据进行归一化处理,使各预设项目临床数据具有相同量纲;

将归一化处理后的各预设项目临床数据进行筛选,筛选出重要性满足预设条件的预设项目临床数据作为感兴趣特征数据。

可选的,所述特征筛选模块330还用于:

将归一化处理后的各项临床数据输入至XGBoost模型,由所述XGBoost模型计算并输出各预设项目临床数据特征重要度值;

对各预设项目临床数据特征重要度值进行排序,并将重要度值排序满足预设条件的数据作为感兴趣特征数据。

可选的,所述特征筛选模块330还用于:

基于预设运算规则,将预处理后的预设项目临床数据中两项或两项以上临床数据进行组合得到新的数据项;

将预处理后的预设项目临床数据和所述新的数据项中连续数据进行离散化处理,使各项目临床数据均为离散数据;

将各项目离散的临床数据进一步进行性离散化处理;

将进一步离散处理后的各项目临床数据进行归一化处理,使各项目临床数据具有相同量纲;

将归一化处理后的各项目临床数据进行筛选,筛选出重要性满足预设条件的项目临床数据作为感兴趣特征数据。

本发明实施例所提供的数据筛选模型建立装置可执行本发明任意实施例所提供的数据筛选模型建立方法,具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种数据筛选装置的结构示意图,本实施例可适用于基于数据筛选模型筛选出潜在糖尿病患者数据的情况。

如图6所示,数据筛选装置包括数据预处理模块410、数据初筛模块420和数据筛选确定模块430。

其中,数据预处理模块410,用于获取待筛选预设项目临床数据,并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据;数据初筛模块420,用于将所述预设感兴趣特征数据输入至,经任一实施例所提供的数据筛选模型建立方法,确定的数据筛选模型中,使所述数据筛选模型确定并输出所述待筛选预设项目临床数据的标签为糖尿病患者的概率;数据筛选确定模块430,用于当所述概率值大于预设概率阈值时,确定所述待筛选预设项目临床数据为目标数据;其中,所述预设项目临床数据是用于建立所述数据筛选模型的临床数据中对应项目的临床数据,所述预设感兴趣特征数据是所述数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的数据。

本实施例的技术方案,通过对待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据,然后将预设感兴趣特征数据输入至,本发明任一实施例提供的数据筛选模型建立方法确定的数据筛选模型中,从而得到待筛选预设项目临床数据的标签为糖尿病患者的概率,以筛选出概率值大于预设概率阈值的目标数据。因此,可以使临床专业人士或是潜在的糖尿病患者本人,根据模型输出的结果,更有针对性的预防疾病发生,降低患病概率。

可选的,数据筛选装置还包括标识添加模块:

用于为所述目标数据增加目标数据标识,并将所述目标数据和对应的标签为糖尿病患者的概率进行显示。

可选的,数据筛选装置还包括信息提示模块:

用于根据所述目标数据对应的感兴趣特征数据的数值以及所述标签为糖尿病患者的概率,为所述目标数据匹配健康警示信息并显示。

本发明实施例所提供的数据筛选装置可执行本发明任意实施例所提供的数据筛选方法,具备执行方法相应的功能模块和有益效果。

实施例五

图7为本发明实施例四提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备,如智能控制器及服务器、手机等终端设备。

如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据筛选模型建立方法步骤,该方法包括:

获取带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据;

对所述预设项目临床数据进行数据预处理;

基于预处理后的预设项目临床数据进行特征筛选处理,筛选出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据;

将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练,当所述预设提升树模型输出的分类结果与所述感兴趣特征数据对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型。

例如,还可以实现本发明实施例所提供的一种数据筛选方法步骤,该方法包括:

获取待筛选预设项目临床数据,并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据;

将所述预设感兴趣特征数据输入至,经任一实施例所述的数据筛选模型建立方法,确定的数据筛选模型中,使所述数据筛选模型确定并输出所述待筛选预设项目临床数据的标签为糖尿病患者的概率;

当所述概率值大于预设概率阈值时,确定所述待筛选预设项目临床数据为目标数据;

其中,所述预设项目临床数据是用于建立所述数据筛选模型的临床数据中对应项目的临床数据,所述预设感兴趣特征数据是所述数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的数据。

实施例六

本实施例六提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实现本发明实施例所提供的一种数据筛选模型建立方法步骤,该方法包括:

获取带有糖尿病患者标签或非糖尿病患者标签的预设项目临床数据;

对所述预设项目临床数据进行数据预处理;

基于预处理后的预设项目临床数据进行特征筛选处理,筛选出重要性满足预设条件的预设项目临床数据,作为感兴趣特征数据;

将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练,当所述预设提升树模型输出的分类结果与所述感兴趣特征数据对应的糖尿病患者标签或非糖尿病患者标签间损失函数满足预设收敛条件时,得到目标数据筛选模型。

例如,还可以实现本发明实施例所提供的一种数据筛选方法步骤,该方法包括:

获取待筛选预设项目临床数据,并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据;

将所述预设感兴趣特征数据输入至,经任一实施例所述的数据筛选模型建立方法,确定的数据筛选模型中,使所述数据筛选模型确定并输出所述待筛选预设项目临床数据的标签为糖尿病患者的概率;

当所述概率值大于预设概率阈值时,确定所述待筛选预设项目临床数据为目标数据;

其中,所述预设项目临床数据是用于建立所述数据筛选模型的临床数据中对应项目的临床数据,所述预设感兴趣特征数据是所述数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的数据。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 数据筛选模型建立及数据筛选方法、装置、设备和介质
  • 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质
技术分类

06120112756073