掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及中医临床文本标注与抽取领域,尤其涉及中医临床科研知识智能提取方法及系统。

背景技术

中医临床诊疗过程中会产生大量临床数据,挖掘其中蕴含的丰富临床实践经验知识,对中医临床诊疗具有重要价值,也是中医临床研究创新发展的必然趋势,而中医临床数据分析利用的重要前提是抽取出其中有用的医疗信息。

但目前对于中医临床症状语料标注的研究多数还停留在概念层面,尚未对其进行深层次的知识属性划分以及规范标注,在实际临床中对于症状的描述往往包含轻重程度、发生因素、持续时间等更多内容,临床诊疗时医生需要综合考虑这些因素,数据挖掘时数据分析人员也需要考虑这些因素。对于中医症状信息抽取不能只抽取其概念词,还需要抽取其属性信息。因此,研究如何对中医症状信息进行带有知识属性的语义标注与抽取尤为重要。

徐永东等指出病历信息的五元组表示:〈对象修饰,对象,程度,性质,对象描述〉;龚凡等提出中文症状可以由否定词、修饰词、部位词、症状词通过相应的组合规则构成,并对网页进行抽取得到了包含16种关系、38160个医疗实体和367524条三元组的症状知识库,进而构建了西医症状词库;曾露等提出将中文症状看作是一个由原子症状、连词、否定词等16种构成元素中的一个或多个所组成的构成序列,并利用条件随机场模型实现对症状构成序列的自动标注。但这些研究均是针对西医症状进行标注,由于中医症状与西医症状之间存在差异,无法直接使用到中医症状标注中。王国龙等针对中医诊断古文进行了词性标注与特征重组研究,将中医诊断古文分为症状部位、症状表现、中医专有名词、时机、属性、附加描述、标点符号和无用信息,但中医古文行文简练、多省略,且以单音词居多,难以应用到实际中医临床研究中。且上述研究没有参照标准文件对症状构成元素进行分类,存在较强的主观性,较难得到广泛认可与统一。

发明内容

本发明主要目的在于针对上述技术缺陷,提供一种基于相应标准文件对中医临床症状进行知识属性系统性标注并抽取的中医临床科研知识智能提取方法及系统。

本发明所采用的技术方案是:

提供一种中医临床科研知识智能提取方法,其特征在于,包括以下步骤:

S1、利用中医临床各科名词构建原始症状语料数据库;

S2、根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行提取并标注,具体为:

用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;

用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;

S3、构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;

S4、构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;

S5、将待标注的症状语料输入训练好的语料标注模型中,对该待标注的症状语料进行分类标注,输出标注好的症状语料;

S6、将标注好的症状语料输入训练好的知识属性识别模型中,识别出骨干实体和属性实体,生成知识属性识别结果。

接上述技术方案,知识属性分类体系与标注规范包括15类骨干实体和23类属性实体,其中骨干实体包括骨干症状GA、寒热情况GB、病理声音情况GC、情志情况GD、排出物GE、机体活动类GF、体位情况GG、身体机能类GH、异常形体GI、皮肤专科GJ、妇科专科GK、男科专科GL、肛肠专科GM、五官专科CN、儿科专科GP;属性实体包括性质A、人群B、颜色描述C、光泽D、浮沉情况E、发作情况F、发作缓急G、次数描述H、量情况I、时间描述J、部位K、方位L、程度S、改变情况T、气味情况U、形态情况V、分布情况W、质地X、排泄情况Y、伴随产物Z、影响因素ZZ、获取方式HQFS、否定词NEG。

接上述技术方案,该二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号进行区隔。

接上述技术方案,每个症状语料由两个标注者独立标注,在一个标注者标注完成后,另一标注者进行二次标注,当两者标注不一致和不确定时经过讨论找出解决方案,并进行修改,形成最终标注版本。

接上述技术方案,不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。

接上述技术方案,一级标识符为“{}”,二级标识符为“<>”,连接符为“:”。

接上述技术方案,该二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号为“:”。

本发明还提供一种中医临床科研知识智能提取系统,包括:

语料库构建模块,用于利用中医临床各科名词构建原始症状语料数据库;并根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行一级标注和二级标注,具体用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;

语料标注模块,用于预先构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;并用于将待标注的症状语料通过训练好的语料标注模型进行分类标注,输出标注好的症状语料;

知识属性识别模块,用于预先构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;并用于将语料标注模块输出的标注好的症状语料通过训练好的知识属性识别模型进行识别,识别出骨干实体和属性实体,生成知识属性识别结果。

接上述技术方案,该系统还包括更新模块,用于不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。

本发明还提供一种计算机存储介质,其内存储可被处理器执行的计算机程序,该计算机程序执行上述技术方案所述的中医临床科研知识智能提取方法。

本发明产生的有益效果是:本发明通过构建原始症状语料数据库,并构建标注体系,在预先确立的知识属性分类体系与标注规范的基础之上将原始症状语料进行一级症状实体标注以及二级知识属性标注;在原始症状语料库的基础之上构建两级神经网络学习模型,其中一个模型用于对语料进行标注,另一个模型对标注好的语料进行知识属性识别,从而为中医临床提供了一种统一且标准的知识智能提取方法,完成中医临床数据知识自动编码,将中医临床数据进行知识化,使中医临床症状隐性知识显性化,实现中医临床症状知识的完整表达,提高中医临床大数据分析的效率,为中医临床科研一体化以及症状知识的深度利用和相关知识库的构建奠定基础,更好地服务于临床诊疗过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例中医临床科研知识智能提取方法的流程图;

图2是本发明实施了扩展后的知识属性分类图;

图3是本发明实施例中医电子病历知识属性抽取结果的知识图谱示例;

图4是本发明实施例中医临床科研知识智能提取系统的结构示意图;

图5是本发明实施例中医临床科研知识智能提取系统的另一结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例1

如图1所示,该实施例中医临床科研知识智能提取方法包括以下步骤:

S1、利用中医临床各科名词构建原始症状语料数据库;

S2、根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行提取并标注,具体为:

用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;

用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;

S3、构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;

S4、构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;

S5、将待标注的症状语料输入训练好的语料标注模型中,对该待标注的症状语料进行分类标注,输出标注好的症状语料;

S6、将标注好的症状语料输入训练好的知识属性识别模型中,识别出骨干实体和属性实体,生成知识属性识别结果。

该实施例中,知识属性分类体系与标注规范包括15类骨干实体和23类属性实体,其中骨干实体包括骨干症状GA、寒热情况GB、病理声音情况GC、情志情况GD、排出物GE、机体活动类GF、体位情况GG、身体机能类GH、异常形体GI、皮肤专科GJ、妇科专科GK、男科专科GL、肛肠专科GM、五官专科CN、儿科专科GP;属性实体包括性质A、人群B、颜色描述C、光泽D、浮沉情况E、发作情况F、发作缓急G、次数描述H、量情况I、时间描述J、部位K、方位L、程度S、改变情况T、气味情况U、形态情况V、分布情况W、质地X、排泄情况Y、伴随产物Z、影响因素ZZ、获取方式HQFS、否定词NEG。

标注过程中,可将二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号进行区隔。

标识符可以自定义,本实施例中,一级标识符为“{}”,二级标识符为“<>”,连接符为“:”。二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号为“:”。

每个症状语料可由两个标注者独立标注,在一个标注者标注完成后,另一标注者进行二次标注,当两者标注不一致和不确定时经过讨论找出解决方案,并进行修改,形成最终标注版本。

为了进一步完善,可以不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。

如:

原文本:壮热口渴,痰壅气粗,烦躁不安,甚至神昏谵语。

将原文本输入语料标注模型进行标注,包括:

一级标注(症状实体标注):{壮热}{口渴},{痰壅}{气粗},{烦躁不安},甚至{神昏}{谵语}。

二级标注(知识属性标注):{}{},{}{},{不安},甚至{}{}

将标注结果输入知识属性识别模型,得到症状识别结果:

壮热;口渴;痰壅;气粗;烦躁不安;神昏;谵语

最终所得知识属性识别结果,如下表1所示:

表1识别结果

本发明通过构建原始症状语料数据库,并构建标注体系,在预先确立的知识属性分类体系与标注规范的基础之上将原始症状语料进行一级症状实体标注以及二级知识属性标注;在原始症状语料库的基础之上构建两级神经网络学习模型,其中一个模型用于对语料进行标注,另一个模型对标注好的语料进行知识属性识别,从而为中医临床提供了一种统一且标准的知识智能提取方法,更好地服务于临床诊疗过程。

实施例2

该实施例基于实施例1,区别在于原始语料库的建立和标注规范。

该实施例以现有的各种中医书籍为基础,涉及了全面的临床分科,将其作为症状知识属性标注的数据源,并录入Excel,构建原始症状语料数据库。同时,在可参考的各个标准基础之上结合临床症状知识属性标注要求和医学专家指导对属性进行扩展,并将其作为症状知识属性标注规范,扩展后的知识属性分类如图2所示,将知识属性分为两大类,分别为骨干实体和属性实体,包括15类骨干实体和23类属性实体。

本实施例中,对原始症状语料进行整理标注,其方法为:首先用{}标识出一个症状实体,症状实体中包括知识属性,知识属性又包含了骨干实体和属性实体,其中骨干实体为必要知识属性,在症状知识属性标注规范中确定对应的骨干实体与属性实体,用“<>”标识属性实体,用知识属性分类中相应的字母对分别对属性实体进行分类标注,当原文出现的词与症状知识属性标注规范中的标准词不匹配时,使用“-”后接“标准词”来进行特殊标识。标注方法示例如下:

原文:在急危重症中,以大汗淋漓,汗出如油,精神疲惫,四肢厥冷,气短息微,舌卷少津,脉微欲绝,或脉大无力等为常见症的液脱证候。标注文:在急危重症中,以{symptom:汗异常-问汗出;大汗<J:淋漓-量多>},{symptom:汗异常-问汗出;汗出如油},{symptom:少神-望神;精神疲惫},{symptom:怕冷-问寒热;<A:四肢><C:厥冷-逆冷>},{symptom:呼吸微弱-呼吸异常;气短息微},{SZ:舌卷}{ST:少津},{MZ:脉微欲绝},或{MZ:脉大无力}等为常见症的液脱证候。对《中医药学名词》中的症状描述进行标注,部分症状标注如表1所示。

表2标注示例

为了确保标注的准确性,通过分析基础语料文本以及中医临床症状信息的特点,在相关医学专家的指导下,确立分类体系与标注规范,并基于《中医临床基本症状信息分类与代码》进行属性扩展,制定症状知识属性标注规范,构建原始中医症状语料数据库。将每个文本由A、B两个标注者独立标注,在A标注完成后,B进行二次标注,当A、B标注不一致和不确定时应经过讨论找出解决方案,再由A进行修改,形成最终标注版本。在此过程中,不断地对中医症状语料库进行标注更新,同时不断修订、完善标注规范,使其更加科学合理和易于操作,最终构建的中医症状语料库包含了7154个症状实体。

实施例3

该实施例基于实施例1,区别在于本实施例给出了具体的知识属性识别模型构建。本发明中识别知识属性分为两步,第一步识别症状、第二步识别症状中的属性。

对知识属性进行识别的基础是对症状实体进行识别,若要对知识属性进行识别,首先需要确定症状实体,对症状实体进行识别后,再对症状实体中包含的知识属性进行识别,其中知识属性包括骨干实体和属性实体。

本发明中知识属性识别的过程中两步用到的模型均是BERT-BiLSTM-CRF模型。该模型的选择是基于多个模型的比较结果而决定。

以构建的中医症状语料库作为基础语料,对构建的多个模型进行性能比较,遴选适合抽取症状实体以及知识属性的模型。在抽取模型遴选的过程中,使用神经学习网络模型BiLSTM-CRF、BERT、IDCNN-CRF和BERT-BiLSTM-CRF进行结果对比实验。

针对识别任务,采用机器学习算法中常用的三个指标,与国内外通行的指标一致,即精确率(Precision,P)、召回率(Recall,R)和F值(F1-score,F1),实验中将这三个指标作为模型识别性能的客观评价。其中TP表示把正例预测为正例的数目;TN表示把反例预测为反例的数目;FP表示把反例预测为正例的数目;FN表示把正例预测为反例的数目。

(1)精确率:是相对于预测结果而言的,表示正确预测为正例的样本占全部预测为正例的样本的比例。

(2)召回率:是相对原始样本而言的,表示正确预测为正例的样本占全部实际为正例的样本的比例。

(3)F1值:综合了Precision与Recall的产出的结果,可以看作是精确度和召回率的调和均值,范围在0到1之间。

由评价指标的定义可知,虽然精确率和召回率之间没有一定的关联,但是在大规模数据集中,两个评价指标互相牵制,而F1值则是融合了两者之间的一种新的度量方法,作为综合精确率和召回率的评估指标,反映了整体水平。

在模型遴选的实验过程中将每个数据集中的样本随机分为训练集、验证集和测试集,比例为6:2:2。

对症状实体进行识别时,使用BiLSTM-CRF、BERT、IDCNN-CRF和BERT-BiLSTM-CRF模型进行训练。结果如表3所示。当选取BERT-BiLSTM-CRF模型进行实体识别时,F1值最高,达到88.34%,相比BiLSTM-CRF、BERT、IDCNN-CRF模型分别提高了2.61%、0.75%、0.36%,因此选用BERT-BiLSTM-CRF模型对症状实体进行识别。

表3症状实体识别结果

在对知识属性的识别中,使用BiLSTM-CRF、BERT、IDCNN-CRF和BERT-BiLSTM-CRF模型进行训练。结果如表4所示。

表4知识属性识别结果

由表4数据可以看出,当选取BERT-BiLSTM-CRF模型识别知识属性时,F1值最高,相比BiLSTM-CRF、BERT、IDCNN-CRF模型分别提高了20.68%、5.06%、1.86%。因此,选用BERT-BiLSTM-CRF模型对知识属性进行识别。

将BERT-BiLSTM-CRF模型运用至中医医案、中医电子病历以及中医文献摘要抽取中发现其结果相较其他模型而言更好,对部分电子病历进行知识属性抽取,并以知识图谱方式对结果进行展示如图3所示。

实施例4

该实施例基于上述方法实施例,主要用于通过系统的方式实现方法实施例。

如图4所示,该实施例的中医临床科研知识智能提取系统,包括:

语料库构建模块,用于利用中医临床各科名词构建原始症状语料数据库;并根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行一级标注和二级标注,具体用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;

语料标注模块,用于预先构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;并用于将待标注的症状语料通过训练好的语料标注模型进行分类标注,输出标注好的症状语料;

知识属性识别模块,用于预先构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;并用于将语料标注模块输出的标注好的症状语料通过训练好的知识属性识别模型进行识别,识别出骨干实体和属性实体,生成知识属性识别结果。

进一步地,如图5所示,该系统还包括更新模块,用于不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。

各个模块均是用于具体实现上述方法实施例的步骤,在此不赘述。

实施例5

本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质被处理器执行时实现方法实施例的中医临床科研知识智能提取方法。

需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。

上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

相关技术
  • 一种医疗认知智能科研平台的知识提取方法
  • 一种基于临床知识图谱表示学习的中医诊疗知识发现方法
技术分类

06120116497056