掌桥专利:专业的专利平台
掌桥专利
首页

审核方法、装置、电子设备和存储介质

文献发布时间:2024-04-18 19:58:30


审核方法、装置、电子设备和存储介质

技术领域

本发明涉及医保支付技术领域,尤其涉及一种审核方法、装置、电子设备和存储介质。

背景技术

诊断相关组(Diagnosis-Related Groups,DRG)为代表的支付模式,能够有效控制医疗费用不合理增长,是实现医保患三方共赢和推进分级诊疗促进服务模式转变的重要手段。

相关技术中,DRG支付模式下的审核和监管方式包括人工抽检和基于先验知识的规则审核。人工抽检方式耗时耗力,且时间上存在滞后性;基于先验知识的规则审核方式覆盖面少,不可泛化,且审核准确性较低。

发明内容

本发明提供一种审核方法、装置、电子设备和存储介质,用以解决现有技术中人工抽检方式耗时耗力、基于规则的审核方式覆盖面少,且审核准确性较低的缺陷。

本发明提供一种审核方法,包括:

对待审核的病历文本进行医学实体抽取,得到所述病历文本对应的病历实体;

从知识库中确定所述病历文本中病历诊断组的对照组,并将所述病历诊断组和所述对照组作为相关组,从所述知识库中抽取各相关组分别对应的知识实体;

基于所述各相关组分别对应的知识实体,与所述病历文本对应的病历实体之间的相似度,对所述病历诊断组进行审核。

根据本发明提供的审核方法,所述基于所述各相关组分别对应的知识实体,与所述病历文本对应的病历实体之间的相似度,对所述病历诊断组进行审核,包括:

基于所述知识实体和所述病历实体的实体类型,构建所述各相关组与所述病历文本之间各实体类型下的实体对;

确定各实体类型下各实体的实体对相似度,并基于所述各实体对的实体对相似度,对所述病历诊断组进行审核。

根据本发明提供的审核方法,所述基于所述各实体对的实体对相似度,对所述病历诊断组进行审核,包括:

基于所述实体对相似度,确定各实体类型的类型相似度;

基于所述类型相似度和所述各实体类型的权重,确定所述各相关组与所述病历文本之间的组别相似度;

基于所述组别相似度,对所述病历诊断组进行审核。

根据本发明提供的审核方法,所述确定各实体类型下各实体的实体对相似度,包括:

基于相似度计算模型,确定各实体类型下各实体对的实体对相似度,所述相似度计算模型以医学文本对为样本,所述医学文本对的相似度为标签,对预训练医学语言模型进行微调得到。

根据本发明提供的审核方法,所述知识库的确定步骤包括:

获取各诊断组下的医学文本;

基于医学实体识别模型,对所述各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的知识实体,并基于所述知识实体构建知识库,所述医学实体识别模型是对预训练医学语言模型进行微调得到的。

基于所述各诊断组对应的候选知识实体,构建所述知识库。

根据本发明提供的审核方法,所述对所述各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的知识实体,包括:

对所述各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的候选知识实体;

基于所述候选知识实体在对应诊断组下的重要程度,对所述候选知识实体进行筛选,得到各诊断组对应的知识实体。

根据本发明提供的审核方法,所述从知识库中确定所述病历文本中病历诊断组的对照组,包括:

基于所述知识库中各诊断组对应的知识实体,对所述各诊断组进行聚类,得到所述病历诊断组所在的诊断组簇;

基于所述病历诊断组和所述诊断组簇中其他诊断组的结算点数,从所述诊断组簇中确定出所述病历诊断组的对照组。

本发明还提供一种审核装置,包括:

病历实体抽取单元,用于对待审核的病历文本进行医学实体抽取,得到所述病历文本对应的病历实体;

知识实体抽取单元,用于从知识库中确定所述病历文本中病历诊断组的对照组,并将所述病历诊断组和所述对照组作为相关组,从所述知识库中抽取各相关组分别对应的知识实体;

审核单元,用于基于所述各相关组分别对应的知识实体,与所述病历文本对应的病历实体之间的相似度,对所述病历诊断组进行审核。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述审核方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述审核方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述审核方法。

本发明提供的审核方法、装置、电子设备和存储介质,通过从知识库中抽取各相关组分别对应的知识实体,覆盖面更广更加全面;基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历文本中的病历诊断组进行审核,可简化病历文本的审核流程,使得病历诊断组审核更具有针对性,进而提高审核效率和准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的审核方法的流程示意图之一;

图2是本发明提供的审核方法的流程示意图之二;

图3是本发明提供的审核方法的流程示意图之三;

图4是本发明提供的审核方法的流程示意图之四;

图5是本发明提供的相似度计算模型的示意图;

图6是本发明提供的预训练医学语言模型示意图;

图7是本发明提供的知识库确定方法的流程示意图之一;

图8是本发明提供的医学实体识别模型示意图;

图9是本发明提供的各诊断组对应的知识实体类型的示意图;

图10是本发明提供的以各诊断组为维度构建的知识库示意图;

图11是本发明提供的知识库确定方法的流程示意图之二;

图12是本发明提供的审核方法的流程示意图之五;

图13是本发明提供的审核方法的流程示意图之六;

图14是本发明提供的审核装置的结构示意图;

图15是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

DRG是一种以诊断为主、将住院病人进行分类和分组的方法,具体是根据住院病人的患病类型、病情严重程度、治疗方法以及病人个体特征、并发症等因素,将患者分到不同的“疾病诊断相关组”,并以“组”为单位打包确定费用、医保支付标准等。按DRG支付模式下,医疗机构的收入与患者的诊断和治疗情况无关,医疗机构有动力优化资源分配和治疗流程,提高医疗效率。并且,传统的按项目结算可能导致同样的治疗项目被不同机构收费不一,引发不公平现象。DRG支付通过将患者划分为相似的诊断组,确保同一组内的患者获得相同的支付,从而提供更加公平的支付方式。此外,按DRG支付可以减少不必要的医疗费用,医疗机构倾向于更精确地确定治疗方案,避免过度治疗,从而降低整体医疗费用。

然而,DRG支付模式下也存在一些潜在的违规行为,其中低码高编属于最典型的违规行为。DRG支付模式下的低码高编行为是指违反《医疗保障基金结算清单填写规范》,通过不实不当填报诊断、手术/操作等信息的方式将病例分入权重更高的DRG分组的行为,影响正常的费用结算,干扰DRG支付模式的推广。

相关技术中,DRG支付模式下的审核和监管方式包括人工抽检审核和基于先验知识的规则审核。

1、人工抽检审核

当前DRG支付模式下常用的监管方式为人工抽检,由医保局组织内部的专家或者保险机构的专业人员组成抽检队伍,并分配到不同的医院进行数据的调取以及病历质量的审核,其中包括DRG支付模式下低码高编违规行为的审核。

人工审核虽然能保证审核准确率,但每家医院都会有大量的病历数据,人工审核需要非常大的人力,难以高效地进行。并且,人工审核和检查需要一定时间,导致违规行为的发现和应对存在滞后性。

2、基于先验知识的规则审核

按DRG支付是医保支付体系改革中一个新型的支付方式,因此基于该方向的研究和关注较少。技术层面只是基于常见的几个特殊DRG组别,维护一个较为简单的知识体系,针对DRG组别做简单的规则审核,即通过字符层面的匹配关系,基于结算清单判断关键药品和手术与DRG组别的要求是否一致。如果不一致,则需人工校验当前病历应分入哪个DRG组别,基于两个DRG组别的支付金额比较得出具体的违规行为。

基于知识库的规则质检覆盖面非常的少。根据既往分析结果及经验,医生写病历基本上是在医院信息化系统的基础上进一步修改完善。首先信息化系统提供商数量众多,他们开发的病历模板各不相同;其次,医生写病历并没有经历过正规的培训,基本上都是以所在医院、所在科室的习惯和经验为主。因此,依据规则库进行质检,很有可能只能覆盖一小部分涉及到的治疗方法,覆盖面会非常的小,不可泛化,还需要人工进行二次校对。并且,总体可覆盖DRG组别也非常少。此外,现有审核只是基于结算清单,脱离了完整的病历,可能造成错误检出。

基于上述考虑,为了提升DRG支付模式下的审核效率和准确性,本发明的发明构思在于:对待审核的病历文本进行医学实体抽取,得到所述病历文本对应的病历实体,从知识库中抽取各相关组分别对应的知识实体,基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历文本中的病历诊断组进行审核。

基于上述发明构思,本发明提供一种审核方法、装置、电子设备和存储介质,应用于DRG支付模式下的病历文本低码高编违规行为的审核场景,以提高审核效率和准确性。

下面将结合附图详细描述本发明的技术方案。图1是本发明提供的审核方法的流程示意图之一,该方法中各步骤的执行主体可以是审核装置,该装置可通过软件和/或硬件实现,该装置可集成在电子设备中,电子设备可以是终端设备(如智能手机、个人电脑等),也可以是服务器(如本地服务器或云端服务器,也可以为服务器集群等),也可以是处理器,也可以是芯片等。如图1所示,该方法可以包括如下步骤:

步骤110,对待审核的病历文本进行医学实体抽取,得到病历文本对应的病历实体。

具体地,待审核的病历文本即需要进行低码高编违规行为审核的病历文本。待审核的病历文本可以是用户直接输入的,也可以是将采集所得的音频进行语音转写后得到的,还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像,并对图像进行OCR(Optical Character Recognition,光学字符识别)得到的,本发明实施例对此不作具体限定。

医学实体抽取是指从病历文本中抽取预先定义的实体信息,此处医学实体的类型可以是预先定义的,具体可包括症状、检查结果、检验结果、药品、手术/操作等。

针对医学实体抽取,可通过基于规则的方法、基于统计的方法和基于深度学习的方法实现。在一些实施例中,可通过预先构建的医学实体识别模型对待审核的病历文本进行医学实体抽取。将病历文本输入至医学实体识别模型,得到医学实体识别模型输出病历文本中包含的各预设医学实体类型下的医学实体,即病历文本对应的病历实体。

例如,病历文本对应的病历实体可展示如下:

症状:偏瘫、感觉障碍;

检查结果:陈旧性梗塞灶;

检验结果:无;

药物:瑞舒伐他汀钙片;

手术/操作:康复训练。

其中,“偏瘫、感觉障碍”为“症状实体类型”下的病历实体;“瑞舒伐他汀钙片”为“药物实体类型”下的病历实体,在此不一一列举。

步骤120,从知识库中确定病历文本中病历诊断组的对照组,并将病历诊断组和对照组作为相关组,从知识库中抽取各相关组分别对应的知识实体。

具体地,在DRG支付模式下,病历文本中记载有当前病历文本所划分的疾病诊断相关组,可称为病历诊断组。病历诊断组可从病历文本中查找得到。

考虑到相关技术只是基于常见的几个特殊DRG组别,维护一个较为简单的知识体系,针对DRG组别做简单的规则审核,即通过字符层面的匹配关系进行审核,导致审核的覆盖面非常的少,准确性很低。

本发明实施例中,预先构建适用于DRG支付模式下病历文本审核的知识库,知识库以DRG诊断组为维度构建,知识库中包括各个诊断组下的各类型知识,以及各类型知识对应的知识实体。知识库可以是基于医学文本资源自动构建的,既省去了人工构建知识库的成本,保证了知识库构建的效率,又可以为DRG支付模式下的病历文本审核提供参考。

在DRG支付模式下,低码高编违规行为基本都是违规编码到了诊疗相似,但是DRG结算费用较贵的其他组。例如脑梗死属于BR21(脑缺血性疾患,伴严重并发症或合并症)组别,脑梗死恢复期属于BZ11(神经系统其他疾患,伴严重并发症或合并症)组别,BR21结算点数要高于BZ11,脑梗死和脑梗死恢复期在诊疗上存在一定的相似性。真实模式下的实际是应选择脑梗死恢复期做主要诊断,患者并未确诊脑梗死,但是医生违规将主要诊断选为脑梗死,以将病历编入结算费用更高的DRG组别。

此处,病历诊断组的对照组是指与当前病历所属DRG组别的知识具有高度相似性,且支付结算权重更高的组别。如果病历诊断组为“BZ11”,则“BR21”可认为是“BZ11”的对照组。病历诊断组的对照组可以是一个或多个组别,可将知识库中与病历诊断组对应的知识实体相近的知识实体对应的组别作为对照组。

在此基础上,从知识库中抽取各相关组分别对应的知识实体,此处各相关组即病历诊断组和各个对照组。此处知识实体抽取的方式可参照步骤110中病历实体的抽取方式,在此不再赘述。

步骤130,基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历诊断组进行审核。

具体地,由于各相关组中包括病历诊断组和对照组,各相关组分别对应的知识实体能够表征病历诊断组和各对照组下的标准诊疗知识;病历文本对应的病历实体能够表征病历文本下的重要诊疗信息。基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历诊断组进行审核,可简化病历文本的审核流程,并使得病历诊断组审核更具有针对性。

可理解的是,各相关组中任一组别对应的知识实体,与病历实体之间的相似度越高,则将病历文本划分为知识实体对应的该组别的可能性越高;反之,各相关组中任一组别对应的知识实体,与病历实体之间的相似度越低,则将病历文本划分为知识实体对应的该组别的可能性越低。

由此可根据相似度确定病历文本的实际划分组别,进而对病历文本下的病历诊断组进行审核,审核是否存在低码高编行为。当实际划分组别与病历诊断组相同时,则不存在低码高编行为;当实际划分组别与病历诊断组不相同时,则可能存在低码高编行为。

本发明实施例提供的方法,通过从知识库中抽取各相关组分别对应的知识实体,覆盖面更广更加全面;基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历文本中的病历诊断组进行审核,可简化病历文本的审核流程,使得病历诊断组审核更具有针对性,进而提高审核效率和准确性。

基于上述实施例,图2是本发明提供的审核方法的流程示意图之二,如图2所示,基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历诊断组进行审核,即步骤130具体包括:

步骤131,基于知识实体和病历实体的实体类型,构建各相关组与病历文本之间各实体类型下的实体对;

步骤132,确定各实体类型下各实体的实体对相似度,并基于各实体对的实体对相似度,对病历诊断组进行审核。

具体地,针对基于相似度对病历诊断组进行审核,可通过首先构建各相关组与病历文本之间各实体类型下的实体对,再通过实体对中两个实体之间的相似度进行审核。

考虑到相关技术中通常只从疾病诊断的层面进行分组划分,但是治疗方式同样对分组进行很大影响,即在DRG支付模型下,诊断和治疗的合理性都对最终的分组结果有着很重要的影响。

比如,RC19(恶性增生性疾患放射治疗)和RV15(与放射治疗有关的恶性增生性疾患,不伴并发症或合并症),它们之间的诊断是基本重合的,分组的差别就是在治疗方式上,而BR21和BZ11分别包含的脑梗死和脑梗死后遗症在检查结果上就有差别。

因此,基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历诊断组进行审核时,需考虑知识实体和病历实体的实体类型,从症状、检查结果、检验结果、药品、手术/操作等各个实体类型下的知识实体和病历实体出发,构建各相关组与病历文本之间各实体类型下的实体对,其中任一实体对包括病历实体和任一相关组对应的知识实体。

例如,病历诊断组中有m个“症状”实体,从病历文本中提取到n个“症状”实体,则针对病历诊断组和病历文本,可构建“症状”实体类型下的m*n个实体对;再例如,对照组中有j个“检查结果”实体,从病历文本中提取到k个“检查结果”实体,则针对该对照组和病历文本,可构建“检查结果”实体类型下的j*k个实体对。

随即,可计算各实体类型下各实体对的实体对相似度,此处实体对相似度即任一实体对中两个实体之间的相似度。实体对相似度可通过相似度计算模型实现,即将实体对输入至相似度计算模型,得到相似度计算模型输出的相似度;也可以通过对实体对中的实体分别进行语义特征提取,基于提取得到的语义特征计算语义特征之间的相似度;还可以基于字符串匹配的方式,计算实体对之间的文本相似度,本发明实施例对此不作具体限定。进一步地,相似度可通过余弦相似度、欧氏距离或皮尔逊相关系数等方式计算得到。

得到各实体对的实体对相似度之后,即可基于实体对相似度对病历诊断组进行审核。

本发明实施例提供的方法,通过各实体类型下各实体对之间的实体对相似度,对病历诊断组进行审核,从各实体类型下的实体对相似度出发,综合考虑了诊断和治疗两个角度,进一步提高了审核的全面性和准确性。

基于上述任一实施例,图3是本发明提供的审核方法的流程示意图之三,如图3所示,步骤132中基于各实体对之间的实体对相似度,对病历诊断组进行审核,具体包括:

步骤132-1,基于实体对相似度,确定各实体类型之间的类型相似度;

步骤132-2,基于类型相似度和各实体类型的权重,确定各相关组与病历文本之间的组别相似度;

步骤132-3,基于组别相似度,对病历诊断组进行审核。

具体地,针对每个实体类型,可构建多个实体对,相应地得到多个实体对相似度,可以取实体对相似度分值最高的作为类型相似度。照此方法,可得到各实体类型之间的类型相似度。

例如,针对病历诊断组和病历文本,构建“症状”实体类型下的m*n个实体对,得到m*n个实体对相似度分值,筛选出实体对相似度最高分值作为病历诊断组与病历文本之间的的症状类型相似度。随即,还可得到病历诊断组和病历文本之间,检查结果类型相似度、检验结果类型相似度、药品类型相似度和手术/操作类型相似度。

各相关组与病历文本之间的组别相似度可基于各个类型相似度和各实体类型的权重,计算得到类型相似度的平均值,进而将类型相似度的平均值作为组别相似度。此处,各实体类型的权重可以是预先设置的,如果各相关组中的知识实体不包含某类型实体,则计算时不考虑该类实体,此时该实体类型的权重可为0;否则该实体类型的权重可为1。

组别相似度可理解为各相关组与病历文本之间的相似度,具体可包括病历诊断组与病历文本之间的相似度,和对照组与病历文本之间的相似度。得到组别相似度之后,可将与病历文本之间相似度最大的组别作为真实划分组。然后比较真实划分组与病历诊断组是否相同,如果相同则待审核病历的病历诊断组分组正常;如果不同,则存在低码高编行为。

本发明实施例提供的方法,通过实体对相似度确定类型相似度,基于类型相似度和各实体类型的权重,确定组别相似度,最后根据组别相似度对病历诊断组进行审核,能够进一步提高病历文本中病历诊断组的审核准确性。

在一些实施例中,组别相似度可通过如下公式计算得到:

(w

*max_score

*max_score

式中,similarity score表示组别相似度,max_score

图4是本发明提供的审核方法的流程示意图之四,如图4所示,病历所属DRG分组,即病历诊断组为BR21,病历文本与病历诊断组之间的组别相似度分值为0.2;病历诊断组BR21的对照组为BZ11,病历文本与对照组之间的组别相似度分值为1,则病历文本实际分组应该为对照组BZ11而非病历诊断组BR21,审核结果为存在低码高编行为。

基于上述任一实施例,确定各实体类型下各实体对之间的实体对相似度,包括:

基于相似度计算模型,确定各实体类型下各实体对之间的实体对相似度,相似度计算模型以医学文本对为样本,医学文本对之间的相似度为标签,对预训练医学语言模型进行微调得到。

具体地,考虑到医生在书写病历时,由于不同地区书写规范的不同、医生书写习惯的不同等原因,会造成对同一症状或者检查结果等内容的文本记录有所差异。此时基于规则的完全匹配会造成很多检出出错,因此,需要一个具有优异泛化性能的医学短文本相似度计算模型,用于辅助病历审核,以提高最终的准确率。

因此,针对实体对相似度计算,可通过相似度计算模型得到,此处的相似度计算模型可以是已训练的医学短文本相似度计算模型。可将实体对中的两个文本输入到预训练模型中,得到信息交互后的向量,并通过值映射(全连接到一个节点)获取短文本的相似度分值。

图5是本发明提供的相似度计算模型的示意图,如图5所示,[SEP]是分隔符,[CLS]用于输出最终的相似度分值。在此基础上,以医学文本对为样本,医学文本对之间的相似度为标签,对预训练医学语言模型进行微调。此处的预训练医学语言模型可以是对ClinicalBert进行微调得到的。

对预训练医学语言模型进行微调,得到相似度计算模型的过程具体可包括:

首先,基于中文医学文献数据库、公开医学文本数据集,病历数据等来源搜集医学文本,筛选出短文本构造文本对,交由医生进行少量任务的标注,即两个句子的相似度,保证正负样本数量为1:1,得到训练数据集。

其次,将得到的数据集输入模型进行训练。

最后,将训练好的模型作为相似度计算模型进行部署,支持实时调用。

本发明实施例提供的方法,通过相似度计算模型确定各实体类型下各实体对之间的实体对相似度,相比基于规则的完全匹配方法,具有优异的泛化性能,同时能够提高准确率。

基于上述任一实施例,对医疗领域中的深度学习模型来说,一个高性能的预训练模型能带来很大帮助,包括中文医学实体识别任务、中文医学文本相似度计算任务等,从而能更好的辅助于病历审核。因此,可从数据和任务构建等方面进行设计,最终得到一个适用于医疗领域中各项任务的预训练模型,即预训练医学语言模型。预训练医学语言模型的获取方式具体可包括:

首先,基于大型语言模型,例如星火大模型引导问答、医学书籍、公开医学数据集等来源搜集医学文本构建中文医学语料库。

其次,选择ClinicalBert模型作为预训练模型。ClinicalBert模型使用了大规模医学文本数据进行预训练,这使得它能够捕捉医学领域的专业知识和上下文,有助于提高跟医学文本相关任务的性能。为了进一步提高ClinicalBert模型对中文医学文本的表征能力,选择使用中文医学语料库再次进行无监督训练,从而使其能够更好地适应中文医学领域中的任务。采用随机掩码的方式,使模型进行无监督训练。图6是本发明提供的预训练医学语言模型示意图,如图6所示,图中T1-T5分别代表具体的病历文本内容,[mask]代表被掩码的内容。无监督训练微调后的ClinicalBert模型可作为预训练医学语言模型。

基于上述任一实施例,图7是本发明提供的知识库确定方法的流程示意图之一,如图7所示,知识库的确定步骤包括:

步骤710,获取各诊断组下的医学文本;

步骤720,基于医学实体识别模型,对各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的知识实体,并基于知识实体构建知识库,医学实体识别模型是对预训练医学语言模型进行微调得到的。

具体地,各诊断组可以是预先设置的,各诊断组下的医学文本可以是病历文本、星火大模型医学问答数据、医学书籍等文本。在执行步骤720之前,可对预训练医学语言模型进行微调,获取医学实体识别模型。

在DRG支付模式下,无论是知识库的构建,还是低码高编的审核,均需要从医学文本中提取特定的医学实体,以辅助于后续任务的开展,因此需要一个优秀的医学实体识别模型。本实施例中,可对预训练医学语言模型进行微调,得到一个中文医学实体识别模型。图8是本发明提供的医学实体识别模型示意图,如图8所示,图中T1-T5分别代表不同类别下医学实体的具体内容。

对预训练医学语言模型进行微调得到医学实体识别模型的过程具体包括:

首先,定义本次任务中用到的医学实体类别,包括症状、检查结果、检验结果、药品、手术/操作。其次,搜集现有公开中文医学实体识别数据集、现有知识储备,结合上述实体类别构建训练集,经过医生校准用于模型训练。因为微调后的ClinicalBert已经通过大量中文医学语料库进行了预训练,因此在用于中文医学实体识别任务时,只需要相对较少的标记数据进行微调,即可获得优异的性能。最后,将训练好的模型作为医学实体识别模型进行部署,用于自动识别病历文本中特定类别的医学实体。

得到医学实体识别模型之后,随即可对各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的知识实体。

图9是本发明提供的各诊断组对应的知识实体类型的示意图,如图9所示,各诊断组对应的知识实体的类型包括症状、检查结果、检验结果、药品、手术/操作等实体类型。随即,汇集所有DRG组别对应的知识实体构成一个完整的知识库。

图10是本发明提供的以各诊断组为维度构建的知识库示意图,如图10所示,该诊断组为BR21(脑缺血性疾患,伴严重并发症或合并症),常见症状包括:偏瘫、感觉障碍、失语、共济失调、头疼等;

常见检查结果包括:急性梗塞、急性梗死等;

无特异性检验;

常见手术操作包括:溶检治疗、血检摘除术等;

常见药品包括:阿替普酶、rt-PA、替奈普酶、尿激酶、链激酶等。

基于上述任一实施例,步骤720中对各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的知识实体,具体包括:

步骤721,对各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的候选知识实体;

步骤722,基于候选知识实体在对应诊断组下的重要程度,对候选知识实体进行筛选,得到各诊断组对应的知识实体。

具体地,为了进一步提高知识库中各诊断组对应的知识实体的准确性,首先基于医学实体识别模型,对各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的候选知识实体。

在此基础上,基于候选知识实体在对应诊断组下的重要程度,对候选知识实体进行筛选。可使用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法,从每个DRG组别对应的待筛选的知识中挖掘出与当前DRG组别具有强相关性的医学实体文本。TF-IDF算法是一种用于信息检索和文本挖掘的常用算法,用于评估一个词语在文档集合中的重要程度。该算法通过计算每个单词在文档中出现的次数以及在整个文档集合中出现的频率来衡量其权重,从而确定其在搜索结果或文本分类中的排名。TF-IDF可以评估每一个实体在当前DRG组别下的重要程度。

随即,可基于重要程度对候选知识实体进行筛选,得到各诊断组对应的知识实体。例如可将重要程度低于重要度阈值的候选知识实体删除,保留重要程度等于高于重要度阈值的候选知识实体,作为最终各诊断组对应的知识实体。

图11是本发明提供的知识库确定方法的流程示意图之二,图中各步骤可参见上述实施例的描述,在此不再赘述。

基于上述任一实施例,图12是本发明提供的审核方法的流程示意图之五,如图12所示,步骤120中从知识库中确定病历文本中病历诊断组的对照组,具体包括:

步骤121,基于知识库中各诊断组对应的知识实体,对各诊断组进行聚类,得到病历诊断组所在的诊断组簇;

步骤122,基于病历诊断组和诊断组簇中其他诊断组的结算点数,从诊断组簇中确定出病历诊断组的对照组。

具体地,病历诊断组的对照组是指与当前病历所属DRG组别的知识具有高度相似性,且支付结算权重更高的组别。为了更加准确的得到对照组,可通过对知识库中各诊断组进行聚类实现。

首先,基于知识库中各诊断组对应的知识实体,对各诊断组进行聚类,得到病历诊断组所在的诊断组簇,此处聚类例如可采用K-Means算法。可理解的是,病历诊断组所在的诊断组簇里的各个诊断组与病历诊断组诊疗方式上高度相似。

诊断组簇中其他诊断组即诊断组簇中除病历诊断组之外的其他组。随即,可将诊断组簇中结算点数比病历诊断组低的其他诊断组作为病历诊断组的对照组。

本发明实施例中,基于各诊断组对应的知识实体以及结算点数,从诊断组簇中确定出病历诊断组的对照组,使得病历诊断组审核更具有针对性。

基于上述任一实施例,图13是本发明提供的审核方法的流程示意图之六,如图13所示,提供一种审核方法,包括:

S1,基于中文医学语料库和ClinicalBert的无监督训练,对ClinicalBert模型进行微调,得到预训练医学语言模型。

S2,对S1中预训练医学语言模型进行微调得到医学实体识别模型。

S3,以医学文本对为样本,医学文本对的相似度为标签,对S1中预训练医学语言模型进行微调得到相似度计算模型。

S4,获取各诊断组下的医学文本;基于医学实体识别模型,对各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的知识实体,并基于知识实体构建知识库。

S5,基于医学实体识别模型,对待审核的病历文本进行医学实体抽取,得到病历文本对应的病历实体;

S6,从知识库中确定病历文本中病历诊断组的对照组,并将病历诊断组和对照组作为相关组,基于医学实体识别模型从知识库中抽取各相关组分别对应的知识实体。

S7,基于相似度计算模型,确定各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度;基于相似度对病历诊断组进行审核。

与现有技术相比,本发明实施例提供的审核方法具有以下优点:

1)现有DRG支付模式下的病历违规行为审核,均是医生依据自身经验或者依据少量知识储备用于审核病历,这会因为医生认知的不同或者知识不全面造成相同病历审核结果不同,从而造成审核结果异常,本实施例中提出基于医学文本资源自动构建以DRG组别为维度的知识库,为病历审核提供一个通用的参考依据。

2)现有DRG支付模式下的病历审核方法都是先去审核病历,然后看病历中存在哪些问题,并需要基于找出的问题做大量分析,判断应该分到那个DRG组别,以及存在哪些违规行为,本发明实施例提出基于知识库首先筛选出与当前病历所属DRG组别的知识具有高度相似的组别作为对照组,基于对照组知识的差异去判别病历是否存在违规行为,更具有针对性。

3)现有DRG支付模式下的病历违规行为审核,均需人工参与进行审核,涉及组比较少,并且只是基于结算清单进行。本发明实施例提供的方法基于全病历进行审核,充分考虑患者住院的真实经过,并且可以线下部署,支持实时审核。该方法无需人工参与,可以节省人力成本,提高审核效率,审核结果的实时反馈的可以提前预警,防止违规行为的大规模发生,保障DRG医保支付改革的顺利实行。

下面对本发明提供的审核装置进行描述,下文描述的审核装置与上文描述的审核方法可相互对应参照。

图14是本发明提供的审核装置的结构示意图,如图14所示,审核装置包括病历实体抽取单元1410、知识实体抽取单元1420和审核单元1430,其中:

病历实体抽取单元1410,用于对待审核的病历文本进行医学实体抽取,得到所述病历文本对应的病历实体;

知识实体抽取单元1420,用于从知识库中确定所述病历文本中病历诊断组的对照组,并将所述病历诊断组和所述对照组作为相关组,从所述知识库中抽取各相关组分别对应的知识实体;

审核单元1430,用于基于所述各相关组分别对应的知识实体,与所述病历文本对应的病历实体之间的相似度,对所述病历诊断组进行审核。

本发明实施例提供的审核装置,通过从知识库中抽取各相关组分别对应的知识实体,覆盖面更广更加全面;基于各相关组分别对应的知识实体,与病历文本对应的病历实体之间的相似度,对病历文本中的病历诊断组进行审核,可简化病历文本的审核流程,使得病历诊断组审核更具有针对性,进而提高审核效率和准确性。

基于上述实施例,审核单元1430具体用于:

基于所述知识实体和所述病历实体的实体类型,构建所述各相关组与所述病历文本之间各实体类型下的实体对;

确定各实体类型下各实体的实体对相似度,并基于所述各实体对的实体对相似度,对所述病历诊断组进行审核。

基于上述实施例,审核单元1430还具体用于:

基于所述实体对相似度,确定各实体类型的类型相似度;

基于所述类型相似度和所述各实体类型的权重,确定所述各相关组与所述病历文本之间的组别相似度;

基于所述组别相似度,对所述病历诊断组进行审核。

基于上述实施例,审核单元1430还具体用于:

基于相似度计算模型,确定各实体类型下各实体对的实体对相似度,所述相似度计算模型以医学文本对为样本,所述医学文本对的相似度为标签,对预训练医学语言模型进行微调得到。

基于上述实施例,审核装置还包括知识库确定单元,用于:

获取各诊断组下的医学文本;

基于医学实体识别模型,对所述各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的知识实体,并基于所述知识实体构建知识库,所述医学实体识别模型是对预训练医学语言模型进行微调得到的。

基于上述实施例,知识库确定单元,具体用于:

对所述各诊断组下的医学文本进行医学实体识别,得到各诊断组对应的候选知识实体;

基于所述候选知识实体在对应诊断组下的重要程度,对所述候选知识实体进行筛选,得到各诊断组对应的知识实体。

基于上述实施例,知识实体抽取单元1420具体用于:

基于所述知识库中各诊断组对应的知识实体,对所述各诊断组进行聚类,得到所述病历诊断组所在的诊断组簇;

基于所述病历诊断组和所述诊断组簇中其他诊断组的结算点数,从所述诊断组簇中确定出所述病历诊断组的对照组。

图15示例了一种电子设备的实体结构示意图,如图15所示,该电子设备可以包括:处理器(processor)1510、通信接口(Communications Interface)1520、存储器(memory)1530和通信总线1540,其中,处理器1510,通信接口1520,存储器1530通过通信总线1540完成相互间的通信。处理器1510可以调用存储器1530中的逻辑指令,以执行审核方法,该方法包括:

对待审核的病历文本进行医学实体抽取,得到所述病历文本对应的病历实体;

从知识库中确定所述病历文本中病历诊断组的对照组,并将所述病历诊断组和所述对照组作为相关组,从所述知识库中抽取各相关组分别对应的知识实体;

基于所述各相关组分别对应的知识实体,与所述病历文本对应的病历实体之间的相似度,对所述病历诊断组进行审核。

此外,上述的存储器1530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的审核方法,该方法包括:

对待审核的病历文本进行医学实体抽取,得到所述病历文本对应的病历实体;

从知识库中确定所述病历文本中病历诊断组的对照组,并将所述病历诊断组和所述对照组作为相关组,从所述知识库中抽取各相关组分别对应的知识实体;

基于所述各相关组分别对应的知识实体,与所述病历文本对应的病历实体之间的相似度,对所述病历诊断组进行审核。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的审核方法,该方法包括:

对待审核的病历文本进行医学实体抽取,得到所述病历文本对应的病历实体;

从知识库中确定所述病历文本中病历诊断组的对照组,并将所述病历诊断组和所述对照组作为相关组,从所述知识库中抽取各相关组分别对应的知识实体;

基于所述各相关组分别对应的知识实体,与所述病历文本对应的病历实体之间的相似度,对所述病历诊断组进行审核。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 处方审核分配方法、装置、电子设备及存储介质
  • 处方审核改进方法、装置、电子设备及存储介质
  • 处方审核保密方法、装置、电子设备及存储介质
  • 处方审核推送方法、装置、电子设备及存储介质
  • 审核合同的方法、装置、电子设备及计算机可读存储介质
  • 线上贷款审核方法、审核装置、电子设备及存储介质
  • 文件审核方法、文件审核装置、电子设备和可读存储介质
技术分类

06120116503466