导航：首页> 水、废水、污水或污泥的处理>一种检验数据标准化的方法、装置、电子设备和存储介质

一种检验数据标准化的方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 13:45:04

技术领域

本发明实施例涉及数据处理技术，尤其涉及一种检验数据标准化的方法、装置、电子设备和存储介质。

背景技术

目前，医学领域中存在大量的非结构化文本和结构化文本数据，区域化医疗数据的数据差别越来越明显，对医学数据进行数据检验时，术语标准化问题成为亟待解决的首要问题。

目前已有的检验术语方法大部分是通过字面特征进行统计打分，仅仅依靠名称相似度获得与术语相匹配的数据信息，这种传统的仅利用字面特征获取的匹配结果丢失了检验文本中的有用信息，不能及时的反馈术语准确的信息，极大的耗费人力物力，并且耽误宝贵的治疗时间，还会给病人造成不必要的经济损失。

发明内容

本发明实施例提供一种检验数据标准化的方法、装置、电子设备和存储介质，以实现对数据进行标准化处理，输出具有可读性的标准化语句。

第一方面，本发明实施例提供了一种检验数据标准化的方法，包括：

获取待确定标准化词条的待处理文本；

根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条；和/或，

基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条；

根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条。

第二方面，本发明实施例还提供了一种检验数据标准化的装置，该装置包括：

文本获取模块，用于获取待确定标准化词条的待处理文本；

文本处理模块，用于根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条；和/或，基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条；

词条确定模块，用于根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条。

第三方面，本发明实施例还提供了一种检验数据标准化的电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例任一所述的检验数据标准化的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例任一所述的检验数据标准化的方法。

本发明实施例通过将预先设置的与待处理术语相对应的待配准术语信息，存储至检验术语知识库，将待处理文本利用描述逻辑标注以及知识表示拆解为待处理术语，根据检验术语知识库中的待配准术语查找到与待处理术语匹配的第一待确定标准词条。同时，通过提前利用训练样本训练对比学习模型，得到预设损失函数收敛的对比学习模型，将待处理术语与各待配准术语输入对比学习模型进行相似度匹配，输出待处理术语与各待配准术语的相似度值，取相似度值较高的术语信息作为第二待确定标准词条，通过第一待确定标准词条和/或第二待确定标准词条确定目标标准词条，解决了目前检验数据标准化仅靠外部输入信息与待处理文本直接进行名称的语义匹配，通过字面特征进行统计打分，不考虑语义的上下文信息，存在检验效率较低，以及人力成本较高的问题，保证了检验的精确度，同时提升了检验数据标准化的效果。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1为本发明实施例一提供的一种检验数据标准化的方法的流程图；

图2为本发明实施例二提供的一种检验数据标准化的方法的流程图；

图3为本发明实施例三提供的一种检验数据标准化的方法的流程图；

图4为本发明实施例四提供的一种检验数据标准化的方法的流程图；

图5为本发明实施例五提供的一种检验数据标准化的装置的结构框图；

图6为本发明实施例六提供的一种检验数据标准化的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种检验数据标准化的方法的流程图，本实施例可适用于在检验数据时，对数据进行标准化处理，输出标准化语句的情况，该方法可以由本发明实施例中的检验数据标准化的装置来执行，该装置可以采用软件和/或硬件的方式来实现，可选的，通过电子设备来实现，该电子设备可以是移动终端、PC端或服务端等。该装置可配置于计算设备中，本实施例提供的检验数据标准化的方法具体包括如下步骤：

S110、获取待确定标准化词条的待处理文本。

其中，词条可以是字、词，也可以由字、词等组成的数据信息，用于对各种概念、事物、现象及最新发现等概念的解释。标准化词条可以理解为通过制订、发布和实施标准使复杂难懂的词条转换成标准化可读性强的词条。待处理文本是指需要进行标准化处理的文本，例如，在检验领域中，待处理文本可以是需要进行检验的数据，进一步的，可以将待处理文本利用标准化操作转化成为一个标准化词条，在实际应用中，可以通过将待确定的标准化词条中的数据存储在预设的数据库，通过提取数据库中的数据信息获取待处理文本，也可以是当服务器检测到上传的待确定的标准化词条的待处理数据时，可以认为获取到待处理数据，即获取到待处理文本。如，当检验科室在医院系统中上传患者的检验单时，可以认为服务器获取到了检验单上的数据信息，可以将这些数据信息作为待处理文本，即认为获取到了待处理文本。

S120、根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条，和/或基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条。

其中，术语可以是词，也可以是词组，用来正确标记生产技术、科学、艺术、社会生活等各个专门领域中的事物、现象、特性、关系和过程，表示概念称谓的集合。检验术语知识库是指根据计算机特有的功能，利用统一的科技语言存储大量用于检验术语的数据库，例如，通过输入计算机的术语，输出具有明确的概念和准确的名称，将这些输入计算机的术语与对应的输出名称存储在数据库中构成检验术语知识库。第一待确定标准词条是采用检验术语知识库对待处理文本进行处理后，得到的所有与待处理文本相对应的词条信息的统称。第一待确定标准词条可以为零个或多个。对比学习模型是指基于训练样本训练得到的模型，训练样本可以通过获取检验单上数据信息及医生标注的结果得到，进一步的，为了提高对比学习模型训练的便捷性，可以将检验术语知识库中输入术语以及对应的标准化词条作为训练样本，进而对对比学习模型进行训练，可以从词条信息中学习到一个好的语义表示空间。第二待确定标准词条是针对采用训练好的对比学习模型对待处理文本进行处理后，得到的所有与待处理文本相对应的词条信息的统称，第二待确定标准词条可以为零个或多个。

具体的，可以根据预先确定的检验术语知识库对所述待处理文本进行处理，也可以基于预先训练得到的对比学习模型对所述待处理文本进行处理，还可以根据预先确定的检验术语知识库和基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的待确定标准词条。

进一步的，为了清楚的介绍如何采用哪种方式对待处理文本进行处理，可以参照下述具体表述。

如果仅采用基于预先确定的检验术语知识库对所述待处理文本进行处理，将得到与所述待处理文本相对应的第一待确定标准词条。

其中，当根据预先确定的检验术语知识库对所述待处理文本进行处理时，可以对待处理文本进行标注处理，可选的，对待处理文本基于描述逻辑进行标注处理，其中，描述逻辑中应用不同的英文字母来表达每个检验术语概念的特征属性，从而将待处理文本进行字母模式的标注处理，即输入的待处理文本可以用若干个特殊字母标注进行表示，例如，专业技术人员在计算机应用程序中将不同字母定义为不同的词条数据信息，如，"B":[["乙","肝"],["乙","型","肝","炎"],["hb"]],"C":[["表"],["s"]],"D":[["抗","体"],["ab"]],"O":[["empty"]],其中，一个字母可以对应于一个词条数据信息，如，“B”元素代表医学拆解词条信息为“乙肝|乙型肝炎|hb”的数据，当输入的待处理文本为“血清乙肝表面抗体定性”，可以利用描述逻辑中的字母信息将“血清乙肝表面抗体定性”用相对应的字母进行标注，可以标注为((BCDOPQ)I[1]|E^[1]&)J[0]|(FH)[0]&G^[0]&K[2]&L^[2]&M[3]&，其中，“BCDOPQ”对应的是医学的基础属性，“[]”用来指定运算的输入内容，“()”用来指定运算的优先层级，“&”表示与的关系。需要说明的是，词条数据信息可以采用知识拆解方法查找到对应的字母，不同领域的知识拆解需要依赖相应领域的专业团队成员进行操作。进一步的，将待处理文本用字母进行标注后，在检验术语知识库中查找与待处理文本相对应的术语信息，将信息一致的或重合度达到某一阈值的与待处理文本相对应的词条作为第一待确定标准词条。

具体的，当根据预先确定的检验术语知识库对所述待处理文本进行处理时，可以基于描述逻辑对待处理文本进行标注处理，如，提取出待确定标准化词条的待处理文本，相应的，可以应用描述逻辑中的英文字母来描述待处理文本中各个概念名词的具体特征，根据检验术语知识库中的知识拆解元素信息进而查找到待处理文本中各个概念名词特征所对应的字母元素，将待处理文本进行字母模式的标注处理。进一步的，将待处理文本用字母进行标注后，在检验术语知识库中查找与待处理文本相对应的术语信息，将一致的或重合度达到某一阈值的与与待处理文本相对应的词条作为第一待确定标准词条。

可选的，所述根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条，包括：对所述待处理文本进行标注处理，得到与所述待处理文本相对应的待处理术语；基于所述待处理术语和所述检验术语知识库中的各待配准术语，确定与所述待处理文本相对应的第一待确定标准词条。

其中，待处理术语是指将待处理文本进行标注处理后得到的术语，如，((BCDOPQ)I[1]|E^[1]&)J[0]|(FH)[0]&G^[0]&K[2]&L^[2]&M[3]&是待处理文本“血清乙肝表面抗体定性”根据描述逻辑标注，并进行知识表示拆解后得到的与待处理文本相对应的待处理术语，待处理术语中可以包含字母，也可以包含词汇，检验术语知识库中包括用于检验待处理术语的信息以及对应的知识拆解的表示信息。其中，待配准术语是指在检验术语知识库中通过输入待处理术语，根据待处理术语中的标注信息通过描述逻辑表达式计算，在检验术语知识库中得到多个与待处理术语相对应的术语集合。进一步的，根据待处理术语和各待配准术语，在各待配准术语中查找与待处理术语相同或重合度达到某一阈值的标准术语所对应的词条，作为第一待确定标准词条，例如，可以将检验术语知识库中的知识拆解表示信息采用倒排索引进行排序，当外部输入待处理术语特征命中索引表时，计算机给出待处理术语特征对应的检验术语知识库中的多个术语，将所述多个术语作为待配准术语，若在各待配准术语中查找到与待处理文本名称一样的词条，将此词条作为第一待确定标准词条，若在各待配准术语中查找不到与待处理文本名称一样的结果，可以找到一个较其他查找结果与其名称高度重合的结果作为第一待确定标准词条。采用知识拆解表示术语策略，无需上下文信息且能够积累同义词库，积累了术语的逻辑表达，提高了检验术语标准化效率。

在本实施例中，如果仅采用基于预先训练得到的对比学习模型对所述待处理文本进行处理，将得到与所述待处理文本相对应的第二待确定标准词条。

其中，当基于预先训练得到的对比学习模型对所述待处理文本进行处理时，可以对待处理文本与预先设置的待配准标准术语库中的各待配准标准术语进行相似度值的比对处理，其中，待配准标准术语库用于存储标准词条信息与对应的计算机术语，即待配准标准术语是指待配准标准术语库中所有的标准词条信息，可选的，可以将待处理文本和各待配准标准术语输入至预先训练得到的对比学习模型，利用对比学习的相似度匹配计算出各待配准标准术语与待处理文本相对应的相似度值，比较各个相似度值大小，将相似度值高于某个阈值的所对应的待配准标准术语作为与待处理文本相对应的第二待确定标准词条。

具体的，基于预先训练得到的对比学习模型，可以对所述待处理文本与各待配准标准术语进行相似度值的比对处理，需要将待处理文本和各待配准标准术语输入至预先训练得到的对比学习模型中，对比学习模型可以输出待处理文本与各待配准标准术语的多个相似度值，基于各相似度值大小，可以确定与待处理文本相似的待配准标准术语，将相似度值高于某个阈值的所对应的待配准标准术语作为与待处理文本相对应的第二待确定标准词条。

可选的，所述基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条，包括：将所述待处理文本和各待配准标准术语输入至预先训练得到的对比学习模型中，得到各待配准标准术语与所述待处理文本之间的相似度值；基于各相似度值，确定与所述待处理文本相对应的第二待确定标准词条。

其中，将待处理文本和预先设置的待配准标准术语库中的各待配准标准术语表示为向量，输入至预先训练得到的对比学习模型，可以通过对比学习模型输出待处理文本和各待配准标准术语的相似度值，可以将得到的多个相似度值，基于各相似度值大小，可以确定与待处理文本相似的标准术语作为第二待确定标准词条。其中，第二待确定标准词条可以是相似度值高于某个设定阈值的所有标准术语，也可以是将相似度值进行降序排序，取前k个相似度值的标准术语作为与待处理文本相对应的第二待确定标准词条，其中，k为一个正常数。例如，当待处理文本为“乙肝病毒表面抗体”与标准术语库的待配准标准术语同时输入对比学习模型进行术语相似度匹配，可以设定取top k的相似度值所对应的候选词条作为标准词条，举例如下，若设定top k＝3，则获得候选词条依次为：('血清乙肝表面抗体定量检测',0.9450024366378784)、('血清乙肝表面抗体定性',0.9373874664306641)和('血清乙肝表面抗原定量',0.9227596521377563)，所以将相似度值排在前3的候选词条作为第二待确定标准词条。采用无监督的方式训练语义信息，引入预训练对比学习模型，能够学习到丰富的术语语义表示，保证了检验数据标准化的精确度，同时提高了检验效率。

在具体应用中，还可以同时采用预先确定的检验术语知识库和预先训练得到的对比学习模型对所述待处理文本进行处理，从而得到目标标准词条。

可选的，将分别得到根据预先确定的检验术语知识库对所述待处理文本进行处理，与所述待处理文本相对应的第一待确定标准词条，和基于预先训练得到的对比学习模型对所述待处理文本进行处理，与所述待处理文本相对应的第二待确定标准词条。

其中，根据预先确定的检验术语知识库对所述待处理文本进行处理，可以基于描述逻辑对待处理文本进行标注处理，如，提取出待确定标准化词条的待处理文本，相应的，可以应用描述逻辑中的英文字母来描述待处理文本中各个概念名词的具体特征，根据检验术语知识库中的知识拆解元素信息进而查找到待处理文本中各个概念名词特征所对应的字母元素，将待处理文本进行字母模式的标注处理。进一步的，将待处理文本用字母进行标注后，在检验术语知识库中查找与待处理文本相对应的术语信息，将信息一致的或重合度达到某一阈值的与待处理文本相对应的词条作为第一待确定标准词条。和将待处理文本和预先设置的待配准标准术语库中的各待配准标准术语表示为向量，输入至预先训练得到的对比学习模型，进一步的，可以通过对比学习模型输出待处理文本和各待配准标准术语的相似度值，可以将得到的多个相似度值，基于各相似度值大小，可以确定与待处理文本相似的标准术语作为第二待确定标准词条。进而，与所述待处理文本相对应的第一待确定标准词条和与第二待确定标准词条。采用预先确定的检验术语知识库和基于预先训练得到的对比学习模型分别对所述待处理文本进行处理，弥补了上下文信息缺失的问题，采用知识拆解的方式进行术语整理，无需上下午信息且能够积累同义词库，且提高了该术语的逻辑表达能力，同时，采用无监督的方式训练语义信息，引入预训练对比学习模型，能够学习到丰富的术语语义表示，保证了检验数据标准化的精确度，同时提高了检验效率。

S130、根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条。

其中，目标标准化词条是指与待处理文本对应的标准化词条，该词条是具有清晰，明确的特征属性的名称，例如，在检验科室中检验单上有很多患者的检验数据，这些待检验数据构成了待处理文本，将这些检验数据进行标准化处理后可以得到一些与待检验数据相关的词条，且得到的标准化词条名称可以供医生或者患者可以明确的知道待检验数据的结果，通常可以将相似度最高的词条作为目标标准化词条，也可以将获取的第一待确定标准词条和/或第二待确定标准词条进行处理，确定与待处理文本相对应的目标标准化词条。进一步的，当仅获得第一待确定标准词条时，可以将第一待确定标准词条作为目标标准化词条；当仅获得第二待确定标准词条时，可以将第二待确定标准词条中相似度值最高的词条作为目标标准化词条；如果既获得第一待确定标准词条，还获得第二待确定标准词条时，可以将第一待确定标准词条和第二待确定标准词条进行术语筛选融合处理，可选的，可以通过确定第一待确定标准词条和第二待确定标准词条中是否存在重复的待确定标准词条，若存在，可以将重复的待确定标准词条数据信息作为待显示标准词条，即，根据待显示标准词条确定目标标准化词条，若不存在，则将第一待确定标准词条作为目标标准化词条。

可选的，根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条，包括：如果所述第一待确定标准词条和所述第二待确定标准词条中存在重复的待显示标准词条，则将所述待显示标准词条作为所述目标标准化词条；如果所述第一待确定标准词条与所述第二待确定标准词条中不存在重复的待显示标准词条，则将所述第一待确定标准词条作为所述目标标准化词条；如果仅包括第一待确定标准词条，将所述第一待确定标准词条作为所述目标标准词条；如果仅包括第二待确定标准词条，将相似度值最高的第二待确定标准词条作为所述目标标准词条。

其中，待显示标准词条是指第一待确定标准词条与第二待确定标准词条中具有重复内容的待确定标准词条数据信息，可选的，可以将根据预先确定的检验术语知识库对所述待处理文本进行处理时，得到的第一待确定标准词条，与基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到的第二待确定标准词条，进行术语融合处理，确定最终的与待处理文本相对应的目标标准词条，如，将第一待确定标准词条与第二待确定标准词条合并，根据每个术语词条的计算逻辑表达式查找第一待确定标准词条与第二待确定标准词条中具有重复内容的词条，将存在的重复内容的词条作为待显示标准词条，同时将待显示标准词条作为目标标准化词条。如果第一待确定标准词条与第二待确定标准词条中不存在重复的待显示标准词条，则将第一待确定标准词条作为目标标准化词条；如果仅包括第一待确定标准词条，将第一待确定标准词条作为目标标准词条；如果仅包括第二待确定标准词条，将相似度值最高的第二待确定标准词条作为目标标准词条，从而得到所有目标标准词条，既考虑了知识拆解方式的术语逻辑表达，又考虑了根据对比学习模型学习更丰富的术语语义表示，提高了检测数据的精确度和检测效率。

本发明实施例的技术方案通过将获得的待处理文本进行描述逻辑标注处理，结合知识拆解规则确定待处理术语，从检验术语知识库中查找到与待处理术语匹配的第一待确定标准词条。同时通过提前利用训练样本训练对比学习模型，得到预设损失函数收敛的对比学习模型，将待处理术语与各待配准标准术语输入对比学习模型进行相似度匹配，输出待处理术语与各待配准标准术语的相似度值，取相似度值较高的术语信息作为第二待确定标准词条，通过第一待确定标准词条和/或第二待确定标准词条确定目标标准词条，解决了目前检验数据标准化仅靠外部输入信息与待处理文本直接进行名称的语义匹配，通过字面特征进行统计打分，不考虑语义的上下文信息，存在检验效率较低，以及人力成本较高的问题，保证了检验的精确度，同时提升了检验数据标准化的效果。

实施例二

图2为本发明实施例二提供的一种检验数据标准化的方法的流程图。在本实施例中，在根据预先确定的检验术语知识库对所述待处理文本进行处理之前，需要提前确定检验术语知识库，由此，本实施例的技术方案在上述技术方案的基础上进一步细化，具体主要包括如下步骤：

S210、确定检验术语知识库。

其中，所述确定检验术语知识库，包括：获取至少一条待处理检验术语语料，并基于预先确定的拆分规则，得到与每条待处理检验术语语料相对应的待处理术语；根据各待处理检验术语确定所述检验术语知识库。

其中，待处理检验术语语料是指用于检验待处理文本的术语信息，在实际应用中，待处理检验术语语料可以通过与其他术语语料库联网、交换语料数据及记录载体等方式获得，也可以通过收集标准化词条信息的术语表示信息获得。其中，拆分规则可以为知识表示拆解规则，将每条待处理检验术语语料利用知识表示拆解规则进行拆解，得到与其相对应的待处理术语，其中，待处理术语是指将每条待处理检验术语语料利用拆分规则拆分后得到的术语信息。需要说明的是，不同领域的知识拆解需要依赖相应领域的专业团队成员进行操作。相应的，得到待处理检验术语以及对应的知识拆解的表示信息，即检验术语知识库中包括待处理检验术语以及对应的知识拆解的表示信息，通过将待处理检验术语利用拆分规则进行拆分，得到拆分后的每条待处理检验术语语料作为待处理术语，将待处理术语和每条待处理检验术语语料信息存储至检验术语知识库。例如，检验术语知识库存储两条待处理检验术语语料信息，分别为，((BCDOPQ)I[1]|E^[1]&)J[0]|(FH)[0]&G^[0]&K[2]&L^[2]&M[3]&：血清乙肝表面抗体定性，((BCDOPQ)I[1]|E^[1]&)J[0]|(FH)[0]&G^[0]&K[2]&L^[2]&M[3]&：血清乙肝表面抗体定量检测，其中，血清乙肝表面抗体定性为待处理术语((BCDOPQ)I[1]|E^[1]&)J[0]|(FH)[0]&G^[0]&K[2]&L^[2]&M[3]&的知识表示信息。根据待处理检验术语以及对应的知识拆解的表示信息，预先确定检验术语知识库，提高了检验数据标准化的速度。

S220、获取待确定标准化词条的待处理文本。

S230、根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条，和/或，基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条。

S240、根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条。

本发明实施例的技术方案通过将预先设置的与待处理术语相对应的待配准术语信息，存储至检验术语知识库，将待处理文本利用描述逻辑标注以及知识表示拆解为待处理术语，根据检验术语知识库中的待配准术语查找到与待处理术语匹配的第一待确定标准词条。同时，通过提前利用训练样本训练对比学习模型，得到预设损失函数收敛的对比学习模型，将待处理术语与各待配准术语输入对比学习模型进行相似度匹配，输出待处理术语与各待配准术语的相似度值，取相似度值较高的术语信息作为第二待确定标准词条，通过第一待确定标准词条和/或第二待确定标准词条确定目标标准词条，解决了目前检验数据标准化仅靠外部输入信息与待处理文本直接进行名称的语义匹配，通过字面特征进行统计打分，不考虑语义的上下文信息，存在检验效率较低，以及人力成本较高的问题，保证了检验的精确度，同时提升了检验数据标准化的效果。

实施例三

图3为本发明实施例三提供的一种检验数据标准化的方法的流程图。在本实施例中，在基于预先训练得到的对比学习模型对所述待处理文本进行处理之前，需要提前训练得到所述对比学习模型，由此，本实施例的技术方案在上述技术方案的基础上进一步细化，具体主要包括如下步骤：

S310、确定检验术语知识库。

S320、训练得到所述对比学习模型。

其中，所述训练得到所述对比学习模型，包括：获取训练样本集，其中，所述训练样本集中包括多个训练样本，每个训练样本中包括多个待处理检验术语语料；针对每个训练样本，根据当前训练样本中的多个待处理检验术语语料得到至少一个正样本以及与每个正样本相对应的参照样本；将每个训练样本中的正样本以及参照样本分别作为待训练对比学习模型的输入，得到至少两个实际输出值；根据与每个正样本相对应的至少两个实际输出值与预设损失函数，确定损失值，并根据所述损失值修正所述待训练对比学习模型中的模型参数；将所述预设损失函数收敛作为训练目标，得到所述对比学习模型。

其中，训练样本用于检测对比学习模型的可靠程度，可以将获取的多个待处理检验术语语料作为训练样本，并将每个训练样本作为对比学习模型的输入，依次以每个待处理检验术语作为正样本，将剩余的待处理检验术语语料作为负样本，即每个训练样本可以构建多组样本信息。其中，参照样本是指样本信息中只包含正样本的样本，可以通过将训练样本中的负样本置空或者置为某个预设值，由此，可以将包含正、负样本中的负样本置空或者置为某个预设值，得到正样本相对应的参照样本。例如，在实际应用中，假设有A、B和C三个待处理检验术语作为一个训练样本，将[A,B,C]作为模型的输入，在模型训练过程中，依次将A、B和C三个待处理检验术语分别作为正样本，第一次可以将A作为正样本，则剩余的B和C为负样本，也可以得到将[A,B,C]中B和C进行置空处理或者置为某个预设值的参照样本，将得到的[A,B,C]样本以及处理后的参照样本作为模型的输入。依次可以将B作为正样本，则A和C作为负样本，也可以将C作为正样本，A和B作为负样本，由此，可以得到一个训练样本中的三组样本信息以及与正样本对应的参照样本。

进一步的，将每个训练样本中的正样本以及参照样本分别作为待训练对比学习模型的输入，将得到与正样本相对应的至少两个实际输出值与预设损失函数，其中，预设损失函数可以为噪声对比估计函数，也可以是info噪声对比估计函数，对损失函数不做限定。由此，根据获取的损失值不断调整待训练对比学习模型中的模型参数，即修正待训练对比学习模型中的模型参数，使模型的预设损失函数达到收敛状态，得到损失函数收敛的对比学习模型。

需要说明的是，根据当前训练样本中的多个待处理检验术语语料得到至少一个正样本以及与每个正样本相对应的参照样本，可以对待处理检验术语语料进行处理，可选的，将参与训练的每个训练样本中的待处理检验术语分别标定为正、负样本，例如，可以依次将当前训练样本中的每个待处理检验术语分别作为正样本，其他待处理检验术语作为负样本，由此得到多个参与模型训练的正样本。进一步的，可以对标定好的正、负样本进行处理，可以将包含正、负样本的负样本置空或者置为某个预设值，得到正样本相对应的参照样本。

具体的，将当前训练样本中的多个待处理检验术语语料进行标定处理，可以依次将每个待处理检验术语分别作为正样本，其他待处理检验术语作为负样本，由此得到多个参与模型训练的正样本。进一步的，可以对标定好负样本进行置空或者置为某个预设值处理，得到每个正样本相对应的参照样本。

可选的，所述根据当前训练样本中的多个待处理检验术语语料得到至少一个正样本以及与每个正样本相对应的参照样本，包括：依次将当前训练样本中的每个待处理检验术语作为正样本，其他待处理检验术语作为所述正样本中的负样本，得到多个参与模型训练的正样本；将所述待处理检验术语作为与所述正样本相对应的参照样本，以根据所述正样本和相应的参照样本对待训练对比学习模型进行训练。

其中，正样本是指属于某一术语类别的样本，负样本是指不属于某一术语类别的样本。每个训练样本可以通过将样本中的待处理检验术语语料标定为正、负样本，获取多个参与模型训练的正样本，例如，可以将训练样本中的一个待处理检验术语语料作为正样本，剩余的待处理检验术语语料作为负样本，可以对标定好负样本进行置空或者置为某个预设值处理，得到每个正样本相对应的参照样本。，将正样本和参照样本输入到对比学习模型中，将得到正样本和参照样本相对应的实际输出值与预设损失函数，进而得到损失值，相应的，为了利用损失值修正待训练对比学习模型中的模型参数，可以将训练样本中的每条待处理检验术语语料依次作为正样本，可以得到多个参与模型训练的正样本以及与正样本相对应的参照样本，将正样本以及参照样本输入到学习模型进行训练，得到多个损失值，进而不断修正待训练对比学习模型中的模型参数，直至预设损失函数收敛，得到需要的的对比学习模型。利用正样本以及与正样本对应的参照样本对对比学习模型训练，得到预设损失函数收敛的模型，保证了学习模型的精度。

S330、获取待确定标准化词条的待处理文本。

S340、根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条，和/或，基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条。

S350、根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条。

实施例四

作为上述各实施例的一可选实施例，图4为本发明实施例四提供的一种检验数据标准化的方法的流程图，具体的，可以参见下述具体内容。

如图4所示，将数千条检验术语语料输入至描述逻辑模块，参见框1，应用描述逻辑scheme进行定义，作为待处理术语，然后将待处理术语通过医学知识拆解，得到由检验术语以及和检验术语相对应的待处理术语拆解后的术语信息组成的检验术语知识表示库。将利用描述逻辑scheme标注的外部检验术语利用倒排索引进行排序，根据排序后的外部检验术语和所述检验术语知识库中的各待配准术语，确定与待处理术语相对应的第一待确定标准词条。

其中，描述逻辑用于构造知识表示的逻辑语言和以其为对象的推理方法，主要用于描述概念分类及其概念之间的关系。在计算机里我们用不同的英文字母来表达每个检验术语概念的特征属性，定义不同的符号来类比描述逻辑里面的“或”、“且”、“非”等基础逻辑符号，同时描述逻辑schema也定义了其他特殊的运算操作符号，如“[]”用来指定运算的输入内容，“()”用来指定运算的优先层级。需要说明的是，医学知识拆解需要依赖专业医学团队成员进行，例如，术语库存储拆解信息表示为"B":[["乙","肝"],["乙","型","肝","炎"],["hb"]]，待处理术语中“B”元素代表医学拆解元素为“乙肝|乙型肝炎|HB”，其中，“|”为逻辑符号“或”,通过自由组合不同运算符可以组合出不同医学原子特征，构建出丰富且准确的医学信息表达。

同时，将数千条检验术语语料输入至预训练模型，参见框2，利用对比学习算法，将检验术语转换成向量表示信息，得到训练好的对比学习模型。利用相似度匹配算法，将外部输入的待检验术语与各待配准标准术语输入到训练好的对比学习模型中，输出外部待检验术语与各待配准标准术语的相似度值，根据相似度值的大小将检验术语进行降序排序，取前k个相似度值对应的标准术语作为与待检验术语相对应的第二待确定标准词条。

将第一待确定标准词条与第二待确准标准词条进行术语筛选融合，参见框3，最终获得匹配后的检验术语。

例如，外部输入待检验术语为“hbsab 50260乙肝病毒表面抗体107血清string”，可以提前定义后续逻辑表达式的[0],[1],[2],[3],定义待检验术语的内部特征表示为：

[

[['hbsab'],['乙','肝','病','毒','表','面','抗','体'],['血','清'],[”],['string']],

[['hbsab'],['乙','肝','病','毒','表','面','抗','体']], [1]

[['血','清']] [2]

[['string']] [3]

]

其中，[0]表示是整体拆解特征，最外层的括号，[1]是代表上面第1个外部输入拆解特征[['hbsab'],['乙','肝','病','毒','表','面','抗','体']],[2]是代表[['血','清']]，[3]是代表[['string']]。

进一步的，可以取出每个待确定标准术语词条的计算逻辑表达式，如：

((BCDOPQ)I[1]|E^[1]&)J[0]|(FH)[0]&G^[0]&K[2]&L^[2]&M[3]&

依次从左到右计算逻辑表达式。

计算(BCDOPQ)I[1]，其中，[1]代表对应的外部特征，(BCDOPQ)I为内部术语库特征为：

"B":[["乙","肝"],["乙","型","肝","炎"],["hb"]]

"C":[["表"],["s"]]

"D":[["抗","体"],["ab"]]

"O":[["empty"]]

"P":[["empty"]]

"Q":[["empty"]]

如果外部特征包括内部特征，则该计算逻辑通过，继续计算(BCDOPQ)I[1]|，其中，I代表的是缩写特征，如果外部的输入[1]满足缩写特征，则I表达式成立，需要说明的是，这里术语拆解后可以没有缩写，那就用empty来表示，如果逻辑计算遇到empty，则判定表达式为真，继续执行后续表达式。继续计算E^[1]&，其中，^代表的含义是，外部输入中一定不能包括E的医学拆解特征，否则该表达式为错误，算法终止，只有当算法执行到最后一个字符，且每次逻辑计算符号都为真的时候，表达式为真，输出表达式。即如果整体逻辑表达式运算通过，则输出该匹配术语，完成算法匹配。

其中，如果第一待确定标准词条与第二待确准标准词条存在重复的待显示词条时，取出每个术语词条的逻辑表达式进行逻辑计算，逻辑表达式通过时，取存在重复的待显示词条作为目标标准词条。如果第一待确定标准词条与第二待确准标准词条不存在重复的待显示词条时，以第一待确定标准词条为主，将第一待确定标准词条作为目标标准词条。如果仅包括第一待确定标准词条，将第一待确定标准词条作为目标标准词条。如果仅包括第二待确定标准词条，将相似度值最高的第二待确定标准词条作为目标标准词条，从而得到所有目标标准词条。

在本发明实施例中，通过分别将将数千条检验术语语料输入至描述逻辑模块和预训练对比学习模型，得到第一待确定标准词条与第二待确定标准词条，利用术语筛选融合获得匹配后的检验术语作为目标标准词条。结合描述逻辑信息以及无监督方式的训练语义信息，提高了检验数据标准化的效率

本实施例的技术方案通过将预先设置的与待处理术语相对应的待配准术语信息，存储至检验术语知识库，将待处理文本利用描述逻辑标注以及知识表示拆解为待处理术语，根据检验术语知识库中的待配准术语查找到与待处理术语匹配的第一待确定标准词条。同时，通过提前利用训练样本训练对比学习模型，得到预设损失函数收敛的对比学习模型，将待处理术语与各待配准术语输入对比学习模型进行相似度匹配，输出待处理术语与各待配准术语的相似度值，取相似度值较高的术语信息作为第二待确定标准词条，通过第一待确定标准词条和/或第二待确定标准词条确定目标标准词条，解决了目前检验数据标准化仅靠外部输入信息与待处理文本直接进行名称的语义匹配，通过字面特征进行统计打分，不考虑语义的上下文信息，存在检验效率较低，以及人力成本较高的问题，保证了检验的精确度，同时提升了检验数据标准化的效果。

实施例五

图5为本发明实施例三提供的一种检验数据标准化的装置的结构框图。该装置包括：文本获取模块510、文本处理模块520和词条确定模块530。

其中，文本获取模块510，用于获取待确定标准化词条的待处理文本；

文本处理模块520，用于根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条；和/或，基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条；

词条确定模块530，用于根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条。

上述装置中，可选的是，文本处理模块520具体用于：对所述待处理文本进行标注处理，得到与所述待处理文本相对应的待处理术语；基于所述待处理术语和所述检验术语知识库中的各待配准术语，确定与所述待处理文本相对应的第一待确定标准词条。

上述装置中，可选的是，文本处理模块520还具体用于：将所述待处理文本和各待配准标准术语输入至预先训练得到的对比学习模型中，得到各待配准标准术语与所述待处理文本之间的相似度值；基于各相似度值，确定与所述待处理文本相对应的第二待确定标准词条。

上述装置中，可选的是，文本处理模块520还具体用于：如果所述第一待确定标准词条和所述第二待确定标准词条中存在重复的待显示标准词条，则将所述待显示标准词条作为所述目标标准化词条；如果所述第一待确定标准词条与所述第二待确定标准词条中不存在重复的待显示标准词条，则将所述第一待确定标准词条作为所述目标标准化词条；如果仅包括第一待确定标准词条，将所述第一待确定标准词条作为所述目标标准词条；如果仅包括第二待确定标准词条，将相似度值最高的第二待确定标准词条作为所述目标标准词条。

上述装置中，可选的是，所述装置还包括：知识库确定模块，用于确定检验术语知识库；所述确定检验术语知识库，包括：获取至少一条待处理检验术语语料，并基于预先确定的拆分规则，得到与每条待处理检验术语语料相对应的待处理术语。

上述装置中，可选的是，所述装置还包括：模型训练模块，用于训练得到所述对比学习模型；所述训练得到所述对比学习模型，包括：获取训练样本集，其中，所述训练样本集中包括多个训练样本，每个训练样本中包括多个待处理检验术语语料；针对每个训练样本，根据当前训练样本中的多个待处理检验术语语料得到至少一个正样本以及与每个正样本相对应的参照样本；将每个训练样本中的正样本以及参照样本分别作为待训练对比学习模型的输入，得到至少两个实际输出值；根据与每个正样本相对应的至少两个实际输出值与预设损失函数，确定损失值，并根据所述损失值修正所述待训练对比学习模型中的模型参数；将所述预设损失函数收敛作为训练目标，得到所述对比学习模型。

本发明实施例所提供的检验数据标准化的装置可执行本发明任意实施例所提供的检验数据标准化的方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例四提供的一种检验数据标准化的电子设备的结构示意图。图6显示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图6显示的电子设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备60以通用计算设备的形式表现。电子设备60的组件可以包括但不限于：一个或者多个处理器或者处理单元601，系统存储器602，连接不同系统组件(包括系统存储器602和处理单元601)的总线603。

总线603表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备60访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器602可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)604和/或高速缓存存储器605。电子设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统606可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线603相连。存储器602可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块607的程序/实用工具608，可以存储在例如存储器602中，这样的程序模块607包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块607通常执行本发明所描述的实施例中的功能和/或方法。

电子设备60也可以与一个或多个外部设备609(例如键盘、指向设备、显示器610等)通信，还可与一个或者多个使得用户能与该电子设备60交互的设备通信，和/或与使得该电子设备60能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口611进行。并且，电子设备60还可以通过网络适配器612与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器612通过总线603与电子设备60的其它模块通信。应当明白，尽管图6中未示出，可以结合电子设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元601通过运行存储在系统存储器602中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的检验数据标准化的方法。

实施例七

本发明实施例七还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种检验数据标准化的方法，该方法包括：

获取待确定标准化词条的待处理文本；

根据预先确定的检验术语知识库对所述待处理文本进行处理，得到与所述待处理文本相对应的第一待确定标准词条；和/或，

基于预先训练得到的对比学习模型对所述待处理文本进行处理，得到与所述待处理文本相对应的第二待确定标准词条；

根据所述第一待确定标准词条和/或第二待确定标准词条，确定与所述待处理文本相对应的目标标准化词条。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘霄晨;罗永贵;肖劲;尹芳;张晓璐;马晶;
专利申请人：联仁健康医疗大数据科技股份有限公司;

上一篇：一种三通球阀
下一篇：复合生物处理系统联合修复富营养化水体的装置及方法