掌桥专利:专业的专利平台
掌桥专利
首页

一种医疗数据的异常检测方法、装置、设备及存储介质

文献发布时间:2023-06-19 13:49:36


一种医疗数据的异常检测方法、装置、设备及存储介质

技术领域

本申请涉及人工智能和数字医疗领域,尤其涉及一种医疗数据的异常检测方法、装置、设备及存储介质。

背景技术

在医院收费中,按项目付费支付方式下,医院降低住院标准将患者甚至非患者收治入院以套取医保基金,是典型的欺诈骗保行为,严重危害医保基金安全,严重侵犯参保人员利益。伴随DRG、DIP支付的进行,这种违规行为并不会被纠正而可能以更隐蔽的方式长期存在。在现有技术中,常通过判断住院病历的药品费用、检验检查费用及治疗费用三者的占比,来判断所述住院病历是否为异常数据,但仅以简单的判断各项费用比例,使得判断准确率较低。因此,如何准确判断住院病历是否为异常数据成为了亟待解决的问题。

发明内容

本申请提供了一种医疗数据的异常检测方法、装置、设备及存储介质,以解决现有技术中如何对住院病历进行审核判断其是否符合住院资质的问题。

为解决上述问题,本申请提供了一种医疗数据的异常检测方法,包括:

接收住院医疗数据;

将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;

若所述住院医疗数据未通过所述判断引擎的校验,则确定所述住院医疗数据为异常数据;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取;

根据所述疾病名称,获取对应的识别模型,将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据;

在所述待处理数据确定为所述异常数据时,输出对应的所述待处理数据。

进一步的,在所述接收住院医疗数据之前,还包括:

获取历史住院医疗数据;

基于所述历史住院医疗数据的类型,利用特征抽取模型进行特征抽取,得到各所述类型的历史住院医疗数据对应的特征数据,所述特征抽取模型为基于文档主题抽取模型训练得到的;

根据所述特征数据,形成对应的判断条件,将所述判断条件存储至所述预设的判断引擎中。

进一步的,所述获取历史住院医疗数据包括:

向预设知识库发送调用请求,所述调用请求携带验签令牌;

接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述知识库中的历史住院医疗数据,所述验签结果为所述知识库根据所述验签令牌进行RSA非对称加密方式验证得到。

进一步的,所述利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取包括:

将所述待处理数据经所述疾病主题抽取模型中的嵌入层进行向量转换,得到对应的字向量,所述嵌入层为基于Bert模型训练得到的;

将所述字向量再输入所述疾病主题抽取模型中的提取层处理,得到所述待处理数据对应的疾病名称,所述提取层为基于TextCNN模型训练得到的。

进一步的,所述识别模型包括因果分析模型,所述待处理数据包括不同人的多次住院病历数据,所述将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据包括:

将所述多次住院病历数据输入至所述因果分析模型进行分析处理,得到所述多次住院病历数据的因果关联关系,所述因果分析模型为基于结构因果模型训练得到的;

当所述多次住院病历数据间具有因果关联时,确定所述待处理数据为异常数据;当所述多次住院病历数据间不具有因果关联时,确定所述待处理数据为正常数据。

进一步的,所述识别模型包括匹配模型,所述待处理数据包括不同人的多次住院病历数据,所述将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据包括:

将所述多次住院病历数据输入至所述匹配模型进行处理,得到所述多次住院病历数据间的匹配度,所述匹配模型为基于深度语义匹配模型训练得到的;

将所述匹配度与预设数值进行比较判断;

当所述匹配度大于等于所述预设数值时,确定所述待处理数据为异常数据;当所述匹配度小于所述预设数值时,确定所述待处理数据为正常数据。

进一步的,在所述根据所述疾病名称,获取对应的识别模型之前,还包括:

获取所述多次住院病历数据中对应的住院时间;

依次计算所述多次住院病历数据中相邻两次住院病历数据中住院时间的间隔天数;

仅提取满足所述间隔天数小于等于预设天数对应的两次相邻住院病历数据。

为了解决上述问题,本申请还提供一种医疗数据的异常检测装置,所述装置包括:

接收模块,用于接收住院医疗数据;

校验模块,用于将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;

抽取模块,用于若所述住院医疗数据未通过所述判断引擎的校验,则确定所述住院医疗数据为异常数据;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取;

判断模块,用于根据所述疾病名称,获取对应的识别模型,将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据;

输出模块,用于在所述待处理数据确定为所述异常数据时,输出对应的所述待处理数据。

为了解决上述问题,本申请还提供一种计算机设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的医疗数据的异常检测方法。

为了解决上述问题,本申请还提供一种非易失性的计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的医疗数据的异常检测方法。

根据本申请实施例提供的一种医疗数据的异常检测方法、装置、设备及存储介质,与现有技术相比至少具有以下有益效果:

通过接收住院医疗数据,将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;从而对住院医疗数据进行初筛,对明显不符合住院资质的住院医疗数据,作为异常数据直接筛选出来;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取,便于后续根据住院医疗数据对应的疾病名称,输入对应的识别模型进行异常判断,以判断所述住院医疗数据是否为异常数据,即是否为不符合住院资质的病例,若所述住院医疗数据为所述异常数据,则输出所述待处理,通过对住院医疗数据进行两次筛选操作,能准确的识别出住院资质不足的病例,提高了整体的审核精度,便于有关人员根据筛选出的不符合住院资质的住院医疗数,即异常数据据进一步处理。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图做一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的医疗数据的异常检测方法的流程示意图;

图2为本申请一实施例提供的医疗数据的异常检测装置的模块示意图;

图3为本申请一实施例的计算机设备的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例,也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

本申请提供一种医疗数据的异常检测方法。参照图1所示,为本申请一实施例提供的医疗数据的异常检测方法的流程示意图。

在本实施例中,医疗数据的异常检测方法包括:

S1、接收住院医疗数据;

在本申请中,直接接收用户输入的住院医疗数据或者接收数据库中存储的大量的住院医疗数据来进行处理。所述住院医疗数据包括住院人员在住院期间或住院之前检测阶段所产生的所有数据,例如检查类型及费用、药物类型及费用、手术类型及费用等。并且从数据库中获取住院医疗数据需要进行验签,验签通过才能从数据库中获取住院医疗数据,且数据库验签的方式采用RSA非对称加密方式验证。

首先,从卫健委获取到大量的医疗数据,根据人员的住院次数对医疗数据进行筛选,去除掉所述住院次数为0次或1次的医疗数据,从而得到同一人住院次数为2次及以上的医疗数据作为住院医疗数据。

S2、将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;

具体的,首先将所述住院医疗数据输入预设的判断引擎来对住院医疗数据进行初筛,所述预设的判断引擎中预设有多条判断条件,从而来判断所述住院医疗数据能否通过所述判断引擎的处理,即能否通过其中预设的多条判断条件。

在本申请中,判断引擎采用的是Drools引擎,Drools引擎是一个基于CharlesForgy's的RETE算法的,易于访问企业策略、易于调整以及易于管理的开源业务规则引擎,符合业内标准,速度快、效率高。

进一步的,在所述接收住院医疗数据之前,还包括:

获取历史住院医疗数据;

基于所述历史住院医疗数据的类型,利用特征抽取模型进行特征抽取,得到各所述类型的历史住院医疗数据对应的特征数据,所述特征抽取模型为基于文档主题抽取模型训练得到的;

根据所述特征数据,形成对应的判断条件,将所述判断条件存储至所述预设的判断引擎中。

其中,通过获取大量的历史住院医疗数据,所述历史住院医疗数据中还有大量的住院资质合格和不合格的住院病历数据,所述住院病历数据中包括治疗资源品类、治疗资源数量和治疗资源费用数据等类型。所述治疗资源品类包括药品、耗材、诊疗项目等,药品类别下又包括辅助用药和中药注射剂等;所述治疗资源数量,对于应用抗生素的病例中各类抗生素的日平均剂量和每次住院总平均剂量等,对于腹部彩超住院的均使用量;治疗资源费用数据,如“CT类检查”住院次均费用,某诊断下病例总次均费用。

基于所述历史住院医疗数据的类型,利用特征抽取模型进行特征抽取,得到各所述类型的历史住院医疗数据对应的特征数据,所述特征数据即每一住院病历下的治疗资源品类特征、治疗资源数量特征和治疗资源费用特征。

综合历史住院医疗数据中所有住院病历下的治疗资源品类特征、治疗资源数量特征和治疗资源费用特征,得到平均治疗资源品类特征、平均治疗资源数量特征和平均治疗资源费用特征。

综合所有历史住院医疗数据对应的特征数据得到平均特征数据,根据平均特征数据,形成对应的判断条件,将所述判断条件存储至所述预设的判断引擎中。

例如,对于得到的平均治疗费用特征下,得到平均的检验费用和平均的总费用,以及平均的检验费用和平均的总费用的费用比例,即可得到判断条件:当本次住院所述检验费用与总费用的比例大于费用比例时,则此次住院不符合住院资质,为异常数据;并且平均治疗费用特征下,得到所有数据都包含手术费用、治疗性操作费用或康复治疗费用,即可得到判断条件:若本次住院的费用中不包含手术费用、治疗性操作费用或康复治疗费用时,则此次住院不符合住院资质,为异常数据。判断条件形成完毕后,将其存储至所述预设的判断引擎。

文档主题抽取模型(LDA,Latent Dirichlet Allocation),也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。

根据历史住院医疗数据,来生成对应的判断条件,从而来对后续的医疗数据进行判断,提高了条件对于数据的适应性,提高对医疗数据的筛选效果。

再进一步的,所述获取历史住院医疗数据包括:

向预设知识库发送调用请求,所述调用请求携带验签令牌;

接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述知识库中的历史住院医疗数据,所述验签结果为所述知识库根据所述验签令牌进行RSA非对称加密方式验证得到。

具体的,由于历史住院医疗数据,会涉及用户的隐私数据,所以对于历史住院医疗数据都会保存至预设数据库中,所以在获取历史住院医疗数据时,数据库会进行验签步骤,以保证数据的安全,避免泄露数据等问题。

整个过程为,客户端计算消息m的第一消息摘要,并用RSA非对称加密方式对第一消息摘要进行加密(利用客户端的私钥),得到签名s,将消息m和签名s再利用知识库的公钥,得到密文c,发送至知识库,知识库使用自己的私钥对密文c进行解密,得到消息m和签名s,知识库使用客户端的公钥对签名s进行解密,得到第一消息摘要;同时知识库用同样的方法对消息m进行摘要提取,得到第二消息摘要,判断第一消息摘要和第二消息摘要是否相同,相同则验证成功;不同则验证失败。

通过在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。

S3、若所述住院医疗数据未通过所述判断引擎的校验,则确定所述住院医疗数据为异常数据;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取;

具体的,当所述住院医疗数据未通过所述判断引擎中所有预设的判断条件校验时,则直接输出对应的住院医疗数据,直接输出的住院医疗数据为不符合住院资质的病例,即异常数据;若所述住院医疗数据通过所述判断引擎中所有预设的判断条件校验时,即证明所述住院医疗数据通过初筛,随即将通过所述判断引擎处理的所述住院医疗数据作为待处理数据,并输入所述疾病主题抽取模型,经疾病主题抽取模型中的嵌入层和提取层处理,得到所述待处理数据对应的疾病名称。

进一步的,所述利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取包括:

将所述待处理数据经所述疾病主题抽取模型中的嵌入层进行向量转换,得到对应的字向量,所述嵌入层为基于Bert模型训练得到的;

将所述字向量再输入所述疾病主题抽取模型中的提取层处理,得到所述待处理数据对应的疾病名称,所述提取层为基于TextCNN模型训练得到的。

具体的,所述疾病主题抽取模型获取到所述待处理数据,首先将待处理数据经所述疾病主题抽取模型中的嵌入层进行向量转换,得到对应的字向量;再将字向量输入疾病主题抽取模型中的提取层进行疾病名称的分类提取。

其中,Bert模型为一种语言表示模型,BERT(Bidirectional EncoderRepresentations from Transformers)代表来自Transformer的双向编码器表示。BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示,提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。而TextCNN模型,包括卷积层、最大池化层和全连接层,TextCNN模型通过利用不同的卷积核尺寸并行提取文本的信息,并通过最大池化来突出最重要的关键词来实现分类。

所述疾病主题抽取模型采用Bert+TextCNN的方式,提高疾病名称提取的准确度。

S4、根据所述疾病名称,获取对应的识别模型,将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据;

具体的,在得到所述疾病名称后,将待处理数据输入对应的识别模型进行处理,以判断所述待处理数据是否为异常数据,所述识别模型包括因果分析模型和匹配模型,当因果分析模型和匹配模型中任一模型得到的结果为,所述待处理数据为异常数据时,则所述待处理数据为异常数据。根据不同的疾病名称,预训练有对应的识别模型。在利用模型时,根据疾病名称,获取到对应的识别模型,来进行处理。

进一步的,所述识别模型包括因果分析模型,所述待处理数据包括不同人的多次住院病历数据,所述将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据包括:

将所述多次住院病历数据输入至所述因果分析模型进行分析处理,得到所述多次住院病历数据的因果关联关系,所述因果分析模型为基于结构因果模型训练得到的;

当所述多次住院病历数据间具有因果关联时,确定所述待处理数据为异常数据;当所述多次住院病历数据间不具有因果关联时,确定所述待处理数据为正常数据。

具体的,所述待处理数据包含有多人的病例数据,且每一人的病例数据包括有多次住院病历数据,每组输入因果分析模型进行处理的数据为同一人的多次住院病历数据,所述因果分析模型对多次住院病历数据间的因果关系进行判断,从而得出所述多次住院病历数据间是否有关联,当具有因果关联时,确定所述待处理数据为异常数据,当不具有因果关联时,确定所述待处理数据为正常数据。

因果模型是表示单个系统或群体内因果关系的数学模型。

通过利用大量的数据进行训练,并设每年度住院次数为自变量,设定诊断、手术操作、两次住院间隔、药品种类、检验种类、检查种类为因变量来进行训练,利用训练完成后得到的因果分析模型,来判断得出所述多次住院病历数据间是否有因果关联。

通过对同一人的多次住院病历数据进行因果分析,判断多次住院病历之间是否有因果关联,增加了判断所述待处理数据是否为异常数据的判断维度,使得筛选出异常数据的准确率更高。

进一步的,所述识别模型包括匹配模型,所述待处理数据包括不同人的多次住院病历数据,所述将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据包括:

将所述多次住院病历数据输入至所述匹配模型进行处理,得到所述多次住院病历数据间的匹配度,所述匹配模型为基于深度语义匹配模型训练得到的;

将所述匹配度与预设数值进行比较判断;

当所述匹配度大于等于所述预设数值时,确定所述待处理数据为异常数据;当所述匹配度小于所述预设数值时,确定所述待处理数据为正常数据。

具体的,将多次住院病历数据输入至所述匹配模型进行匹配,具体对不同住院病历数据间的同一类型数据进行匹配,例如,将多个住院病历数据中的药品种类进行匹配、检查种类等进行匹配,并得到各类的匹配值,综合所有类的匹配值,得到多个住院病历数据中两两之间的匹配度。将匹配度与预设数值进行比较判断,当所述匹配度大于等于所述预设数值时,输出所述待处理数据为异常数据;当所述匹配度小于所述预设数值时,输出所述待处理数据为正常数据。

并且,根据不同的疾病名称,输入对应的匹配模型,所述匹配模型为基于大量的历史住院医疗数据训练得到,所述历史住院医疗数据中每一组数据为同一人的多次住院病历数据,并将深度语义匹配模型为基础模型进行训练。

所述深度语义匹配(DSSM,Deep Structured Semantic Models)是一种用于语义相似度计算的深度网络。

在本申请的其他实施例中,还可利用上述bert模型,得到的多次住院病历数据中各文本数据对应的字向量,获取各住院病历数据中药品种类对应的字向量,计算多次住院病历数据中两两住院病历数据中药品种类、检查种类等对应字向量间的欧式距离,来得到两次住院病历数据间的相似度。例如得到两次住院病历数据中药品种类对应字向量间的欧式距离为a,两次住院病历数据中检查种类对应字向量间的欧式距离为b,a和b都除以一常数,得到对应的相似度,将综合各对应的相似度,得到两次住院病历间的相似度。

可将上述利用欧式距离计算相似度的方案,替换所述识别模型中的匹配模型的步骤,来计算多次住院病历数据间的相似度。

通过对同一人的多次住院病历数据进行匹配分析,判断多次住院病历之间是否有高度相似,增加了判断所述待处理数据是否为异常数据的判断维度,使得筛选出异常数据的准确率更高。

通过将对多次住院病历数据进行匹配分析和因果关系分析两者结合,从两个维度来对多次住院病历数据进行是否符合住院资质判断,若通过了匹配分析和因果关系分析,则所述多次住院病历数据符合住院资质,为正常数据,若匹配分析和因果关系分析中有一个未通过,则所述多次住院病历数据不符合住院资质,为异常数据。

再进一步的,在所述根据所述疾病名称,获取对应的识别模型之前,还包括:

获取所述多次住院病历数据中对应的住院时间;

依次计算所述多次住院病历数据中相邻两次住院病历数据中住院时间的间隔天数;

仅提取满足所述间隔天数小于等于预设天数对应的两次相邻住院病历数据。

具体的,在输入识别模型之前,获取待处理数据中多次住院病历数据对应的住院时间,计算相邻两次住院病历数据中住院时间的间隔天数,将所述间隔天数与预设天数进行判断,仅提取间隔天数小于等于所述预设天数的两次住院病历数据来输入至所述识别模型中,间隔天数大于所述预设天数的住院病历数据,则可视为符合住院资质的,即正常数据。

通过对间隔时间的限制,避免间隔时间较长的两次住院数据,仍输入识别模型进行判断,避免造成计算资源的浪费,且提高了处理效率。

S5、在所述待处理数据确定为所述异常数据时,输出对应的所述待处理数据。

具体的,若所述待处理数据为异常数据时,则输出对应的所述待处理数据,在收集到所述住院医疗数据中的所有异常数据后,便于用户后续对异常数据,这种不符合住院资质的病例,进行进一步处理,例如获取到异常数据对应的处理医院,对医院进行评级认定等。

需要强调的是,为了进一步保证数据的私密性和安全性,所述住院医疗数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

通过接收住院医疗数据,将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;从而对住院医疗数据进行初筛,对明显不符合住院资质的住院医疗数据,作为异常数据直接筛选出来;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取,便于后续根据住院医疗数据对应的疾病名称,输入对应的识别模型进行异常判断,以判断所述住院医疗数据是否为异常数据,即是否为不符合住院资质的病例,若所述住院医疗数据为所述异常数据,则输出所述待处理,通过对住院医疗数据进行两次筛选操作,能准确的识别出住院资质不足的病例,提高了整体的审核精度,便于有关人员根据筛选出的不符合住院资质的住院医疗数,即异常数据据进一步处理。

本实施例还提供一种医疗数据的异常检测装置,如图2所示,是本申请医疗数据的异常检测装置的功能模块图。

本申请所述医疗数据的异常检测装置100可以安装于电子设备中。根据实现的功能,所述医疗数据的异常检测装置100可以包括接收模块101、校验模块102、抽取模块103、判断模块104和输出模块105。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

接收模块101,用于接收住院医疗数据;

具体的,接收模块101直接接收用户输入的住院医疗数据或者接收数据库中存储的大量的住院医疗数据来进行处理。

校验模块102,用于将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;

具体的,首先将所述住院医疗数据输入预设的判断引擎来对住院医疗数据进行初筛,所述预设的判断引擎中预设有多条判断条件,从而来判断所述住院医疗数据能否通过所述判断引擎的处理,即能否通过其中预设的多条判断条件。

进一步的,所述医疗数据的异常检测装置100包括获取模块、特征抽取模块和形成模块;

所述获取模块,用于获取历史住院医疗数据;

所述特征抽取模块,用于基于所述历史住院医疗数据的类型,利用特征抽取模型进行特征抽取,得到各所述类型的历史住院医疗数据对应的特征数据,所述特征抽取模型为基于文档主题抽取模型训练得到的;

所述形成模块,用于根据所述特征数据,形成对应的判断条件,将所述判断条件存储至所述预设的判断引擎中。

具体的,获取模块通过获取大量的历史住院医疗数据,所述历史住院医疗数据中还有大量的住院资质合格和不合格的住院病历数据,所述住院病历数据中包括治疗资源品类、治疗资源数量和治疗资源费用数据等类型。

所述特征抽取模块基于所述历史住院医疗数据的类型,利用特征抽取模型进行特征抽取,得到各所述类型的历史住院医疗数据对应的特征数据,所述特征数据即每一住院病历下的治疗资源品类特征、治疗资源数量特征和治疗资源费用特征。

综合历史住院医疗数据中所有住院病历下的治疗资源品类特征、治疗资源数量特征和治疗资源费用特征,得到平均治疗资源品类特征、平均治疗资源数量特征和平均治疗资源费用特征。

所述形成模块综合所有历史住院医疗数据对应的特征数据得到平均特征数据,根据平均特征数据,形成对应的判断条件,将所述判断条件存储至所述预设的判断引擎中。

通过获取模块、特征抽取模块和形成模块的配合,根据历史住院医疗数据,来生成对应的判断条件,从而来对后续的医疗数据进行判断,提高了条件对于数据的适应性,提高对医疗数据的筛选效果。

进一步的,所述获取模块包括请求发送子模块和数据调用子模块;

所述请求发送子模块,用于向预设知识库发送调用请求,所述调用请求携带验签令牌;

所述数据调用子模块,用于接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述知识库中的历史住院医疗数据,所述验签结果为所述知识库根据所述验签令牌进行RSA非对称加密方式验证得到。

通过请求发送子模块和数据调用子模块的配合在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。

抽取模块103,用于若所述住院医疗数据未通过所述判断引擎的校验,则确定所述住院医疗数据为异常数据;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取;

具体的,抽取模块103当所述住院医疗数据未通过所述判断引擎中所有预设的判断条件校验时,则直接输出对应的住院医疗数据,直接输出的住院医疗数据为不符合住院资质的病例,即异常数据;若所述住院医疗数据通过所述判断引擎中所有预设的判断条件校验时,即证明所述住院医疗数据通过初筛,随即将通过所述判断引擎处理的所述住院医疗数据作为待处理数据,并输入所述疾病主题抽取模型,经疾病主题抽取模型中的嵌入层和提取层处理,得到所述待处理数据对应的疾病名称。

进一步的,所述抽取模块103包括转换子模块和主题提取子模块;

所述转换子模块,用于将所述待处理数据经所述疾病主题抽取模型中的嵌入层进行向量转换,得到对应的字向量,所述嵌入层为基于Bert模型训练得到的;

所述主题提取子模块,用于将所述字向量再输入所述疾病主题抽取模型中的提取层处理,得到所述待处理数据对应的疾病名称,所述提取层为基于TextCNN模型训练得到的。

具体的,所述转换子模块首先将待处理数据经所述疾病主题抽取模型中的嵌入层进行向量转换,得到对应的字向量;所述主题提取子模块再将字向量输入疾病主题抽取模型中的提取层进行疾病名称的分类提取。

通过转换子模块和主题提取子模块的配合,所述疾病主题抽取模型采用Bert+TextCNN的方式,提高疾病名称提取的准确度。

判断模块104,用于根据所述疾病名称,获取对应的识别模型,将所述待处理数据输入对应的所述识别模型进行异常判断,以确定所述待处理数据是否为异常数据;

具体的,判断模块104在得到所述疾病名称后,将待处理数据输入对应的识别模型进行处理,以判断所述待处理数据是否为异常数据,所述识别模型包括因果分析模型和匹配模型,当因果分析模型和匹配模型中任一模型得到的结果为,所述待处理数据为异常数据时,则所述待处理数据为异常数据。根据不同的疾病名称,预训练有对应的识别模型。在利用模型时,根据疾病名称,获取到对应的识别模型,来进行处理。

进一步的,所述识别模型包括因果分析模型,所述待处理数据包括不同人的多次住院病历数据,所述判断模块104包括因果分析子模块和第一结果输出子模块;

所述因果分析子模块,用于将所述多次住院病历数据输入至所述因果分析模型进行分析处理,得到所述多次住院病历数据的因果关联关系,所述因果分析模型为基于结构因果模型训练得到的;

所述第一结果输出子模块,用于当所述多次住院病历数据间具有因果关联时,确定所述待处理数据为异常数据;当所述多次住院病历数据间不具有因果关联时,确定所述待处理数据为正常数据。

具体的,所述待处理数据包含有多人的病例数据,且每一人的病例数据包括有多次住院病历数据,所述因果分析子模块每组输入因果分析模型进行处理的数据为同一人的多次住院病历数据,所述因果分析模型对多次住院病历数据间的因果关系进行判断,从而得出所述多次住院病历数据间是否有关联,所述第一结果输出子模块当具有因果关联时,确定所述待处理数据为异常数据,当不具有因果关联时,确定所述待处理数据为正常数据。

通过因果分析子模块和第一结果输出子模块的配合对同一人的多次住院病历数据进行因果分析,判断多次住院病历之间是否有因果关联,增加了判断所述待处理数据是否为异常数据的判断维度,使得筛选出异常数据的准确率更高。

进一步的,所述识别模型包括匹配模型,所述待处理数据包括不同人的多次住院病历数据,所述判断模块104包括匹配子模块、比较子模块和第二结果输出子模块;

所述匹配子模块,用于将所述多次住院病历数据输入至所述匹配模型进行处理,得到所述多次住院病历数据间的匹配度,所述匹配模型为基于深度语义匹配模型训练得到的;

所述比较子模块,用于将所述匹配度与预设数值进行比较判断;

所述第二结果输出子模块,用于当所述匹配度大于等于所述预设数值时,确定所述待处理数据为异常数据;当所述匹配度小于所述预设数值时,确定所述待处理数据为正常数据。

具体的,所述匹配子模块将多次住院病历数据输入至所述匹配模型进行匹配,具体对不同住院病历数据间的同一类型数据进行匹配,例如,将多个住院病历数据中的药品种类进行匹配、检查种类等进行匹配,并得到各类的匹配值,综合所有类的匹配值,得到多个住院病历数据中两两之间的匹配度。所述比较子模块将匹配度与预设数值进行比较判断,所述第二结果输出子模块当所述匹配度大于等于所述预设数值时,输出所述待处理数据为异常数据;当所述匹配度小于所述预设数值时,输出所述待处理数据为正常数据。

通过匹配子模块、比较子模块和第二结果输出子模块的配合,对同一人的多次住院病历数据进行匹配分析,判断多次住院病历之间是否有高度相似,增加了判断所述待处理数据是否为异常数据的判断维度,使得筛选出异常数据的准确率更高。

再进一步的,医疗数据的异常检测装置100还包括时间获取模块、天数计算模块和病历数据提取模块;

所述时间获取模块,用于获取所述多次住院病历数据中对应的住院时间;

所述天数计算模块,用于依次计算所述多次住院病历数据中相邻两次住院病历数据中住院时间的间隔天数;

所述病历数据提取模块,用于仅提取满足所述间隔天数小于等于预设天数对应的两次相邻住院病历数据。

通过时间获取模块、天数计算模块和病历数据提取模块的配合对间隔时间的限制,避免间隔时间较长的两次住院数据,仍输入识别模型进行判断,避免造成计算资源的浪费,且提高了处理效率。

输出模块105,用于在所述待处理数据确定为所述异常数据时,输出对应的所述待处理数据。

具体的,输出模块105若所述待处理数据为异常数据时,则输出对应的所述待处理数据,在收集到所述住院医疗数据中的所有异常数据后,便于用户后续对异常数据,这种不符合住院资质的病例,进行进一步处理,例如获取到异常数据对应的处理医院,对医院进行评级认定等。

通过采用上述装置,所述医疗数据的异常检测装置100通过接收模块101、校验模块102、抽取模块103、判断模块104和输出模块105的配合使用,接收住院医疗数据,将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;从而对住院医疗数据进行初筛,对明显不符合住院资质的住院医疗数据,作为异常数据直接筛选出来;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取,便于后续根据住院医疗数据对应的疾病名称,输入对应的识别模型进行异常判断,以判断所述住院医疗数据是否为异常数据,即是否为不符合住院资质的病例,若所述住院医疗数据为所述异常数据,则输出所述待处理,通过对住院医疗数据进行两次筛选操作,能准确的识别出住院资质不足的病例,提高了整体的审核精度,便于有关人员根据筛选出的不符合住院资质的住院医疗数,即异常数据据进一步处理。

本申请实施例还提供一种计算机设备。具体请参阅图3,图3为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如医疗数据的异常检测方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述医疗数据的异常检测方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例医疗数据的异常检测方法的步骤,通过接收住院医疗数据,将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;从而对住院医疗数据进行初筛,对明显不符合住院资质的住院医疗数据,作为异常数据直接筛选出来;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取,便于后续根据住院医疗数据对应的疾病名称,输入对应的识别模型进行异常判断,以判断所述住院医疗数据是否为异常数据,即是否为不符合住院资质的病例,若所述住院医疗数据为所述异常数据,则输出所述待处理,通过对住院医疗数据进行两次筛选操作,能准确的识别出住院资质不足的病例,提高了整体的审核精度,便于有关人员根据筛选出的不符合住院资质的住院医疗数,即异常数据据进一步处理。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的医疗数据的异常检测方法的步骤,通过接收住院医疗数据,将所述住院医疗数据输入预设的判断引擎进行校验,其中,所述判断引擎预设有多条判断条件;从而对住院医疗数据进行初筛,对明显不符合住院资质的住院医疗数据,作为异常数据直接筛选出来;若所述住院医疗数据通过所述判断引擎的校验,则将通过所述判断引擎校验的所述住院医疗数据作为待处理数据,利用疾病主题抽取模型对所述待处理数据进行疾病名称抽取,便于后续根据住院医疗数据对应的疾病名称,输入对应的识别模型进行异常判断,以判断所述住院医疗数据是否为异常数据,即是否为不符合住院资质的病例,若所述住院医疗数据为所述异常数据,则输出所述待处理,通过对住院医疗数据进行两次筛选操作,能准确的识别出住院资质不足的病例,提高了整体的审核精度,便于有关人员根据筛选出的不符合住院资质的住院医疗数,即异常数据据进一步处理。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

本申请上述实施例的医疗数据的异常检测装置、计算机设备、计算机可读存储介质具有与上述实施例的医疗数据的异常检测方法相同的技术效果,在此不作展开。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 一种医疗数据的异常检测方法、装置、设备及存储介质
  • 医疗数据异常检测方法、装置、设备及存储介质
技术分类

06120113820110