掌桥专利:专业的专利平台
掌桥专利
首页

医疗数据的特征化处理方法、装置、设备、介质及产品

文献发布时间:2024-04-18 19:57:31


医疗数据的特征化处理方法、装置、设备、介质及产品

技术领域

本申请实施例涉及数据处理领域,特别涉及一种医疗数据的特征化处理方法、装置、设备、介质及产品。

背景技术

随着计算机技术和网络的快速发展,为了实现更高效的数据分析过程,各个领域发展信息化建设,在医疗领域中,对数据进行分析的需求尤为强烈,如:对描述不同患者表型的文本描述内容进行分析,对检测不同患者的检验数据进行分析等。

相关技术中,通常将参与对象的文本描述内容输入预先训练的文本分析模型,通过文本分析模型确定文本描述内容中与表型相关的生理特征情况,并输出体现生理特征情况的数据供参与对象进行查看;或者,由医生对上述文本描述内容和针对参与对象检测得到的检验数据进行分析,从而为使用对象提供表型的分析结果。

在上述过程中,使用对象虽然可以借助文本分析模型或者医生的帮助,对自身的生理特征情况进行了解,但经过上述过程得到的结果较为分散,且文本描述内容与检验数据之间的关联度较差,不易于对同一类型的多种结果进行综合分析,数据分析的适应性较差。

发明内容

本申请实施例提供了一种医疗数据的特征化处理方法、装置、设备、介质及产品,能够对文本描述内容和检验数据进行标准化处理,并借助整合后的数据特征项对样本对象的生理情况进行更全面地分析和预测。所述技术方案如下。

一方面,提供了一种医疗数据的特征化处理方法,所述方法包括:

获取文本描述内容和检验数据,所述文本描述内容用于描述样本对象的表型,所述检验数据是基于文本描述内容对所述样本对象进行表型检测得到的数据;

将所述文本描述内容与预先配置的表型术语集中的表型术语进行匹配,基于生成的第一匹配结果对所述文本描述内容进行格式转换,得到与所述文本描述内容匹配的表型特征,所述表型特征用于通过预设的特征格式和所述表型术语对所述文本描述内容进行表达;

将所述检验数据与预先配置的检验术语集中的检验术语类型进行匹配,基于生成的第二匹配结果对所述检验数据进行格式转换,得到与所述检验数据匹配的检验特征,所述检验特征用于通过预设的特征格式和所述检验数据类型对所述检验数据进行表达;

对所述表型特征和所述检验特征进行整合,得到用于表征所述样本对象生理情况的数据特征项。

另一方面,提供了一种医疗数据的特征化处理装置,所述装置包括:

数据获取模块,用于获取文本描述内容和检验数据,所述文本描述内容用于描述样本对象的表型,所述检验数据是基于文本描述内容对所述样本对象进行表型检测得到的数据;

第一转换模块,用于将所述文本描述内容与预先配置的表型术语集中的表型术语进行匹配,基于生成的第一匹配结果对所述文本描述内容进行格式转换,得到与所述文本描述内容匹配的表型特征,所述表型特征用于通过预设的特征格式和所述表型术语对所述文本描述内容进行表达;

第二转换模块,用于将所述检验数据与预先配置的检验术语集中的检验术语类型进行匹配,基于生成的第二匹配结果对所述检验数据进行格式转换,得到与所述检验数据匹配的检验特征,所述检验特征用于通过预设的特征格式和所述检验数据类型对所述检验数据进行表达;

特征整合模块,用于对所述表型特征和所述检验特征进行整合,得到用于表征所述样本对象生理情况的数据特征项。

另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的医疗数据的特征化处理方法。

另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的医疗数据的特征化处理方法。

另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的医疗数据的特征化处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

获取描述样本对象表型的文本描述内容,以及基于文本描述内容对样本对象进行表型检测得到的检验数据,将文本描述内容与表型术语进行匹配,并通过格式转换得到表型特征;将检验数据与检验术语类型进行匹配,并通过格式转换得到检验特征,从而将表型特征和检验特征进行整合,得到表征样本对象生理情况的数据特征项。通过数据特征项,能够结合文本描述内容和检验数据,更全面地把握样本对象的生理情况,借助格式转换过程,使得离散的文本描述内容和检验数据更加的标准化,不仅提升了样本对象生理情况呈现的直观性,也有利于借助多个数据特征项,对样本对象的生理情况进行更加全面、细致地分析和预测。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图;

图2是本申请一个示例性实施例提供的医疗数据的特征化处理方法的流程图;

图3是本申请另一个示例性实施例提供的医疗数据的特征化处理方法的流程图;

图4是本申请一个示例性实施例提供的表型节点树的示意图;

图5是本申请一个示例性实施例提供的描述对象节点树的示意图;

图6是本申请一个示例性实施例提供的表型术语集的示意图;

图7是本申请一个示例性实施例提供的文本描述内容的处理方法流程图;

图8是本申请一个示例性实施例提供的采用最大后向匹配算法对文本描述内容进行分析的流程图;

图9是本申请一个示例性实施例提供的字符拆分比较的示意图;

图10是本申请一个示例性实施例提供的采用多模子序列匹配算法对文本描述内容进行分析的流程图;

图11是本申请一个示例性实施例提供的文本描述内容结构化和文本匹配的过程示意图;

图12是本申请一个示例性实施例提供的粗粒度文本匹配模型的处理示意图;

图13是本申请一个示例性实施例提供的细粒度文本匹配模型的处理示意图;

图14是本申请又一个示例性实施例提供的医疗数据的特征化处理方法的流程图;

图15是本申请一个示例性实施例提供的检验数据分析的流程图;

图16是本申请一个示例性实施例提供的构建的部分节点树的示意图;

图17是本申请一个示例性实施例提供的单位转换示意图;

图18是本申请一个示例性实施例提供的数据特征项的示意图;

图19是本申请一个示例性实施例提供的局部的表型本体示意图;

图20是本申请一个示例性实施例提供的使用医疗数据的特征化处理方法的界面示意图;

图21是本申请一个示例性实施例提供的通过模型进行医疗数据的特征化处理方法的示意图;

图22是本申请一个示例性实施例提供的医疗数据的特征化处理装置结构框图;

图23是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

首先,针对本申请实施例中涉及的名词进行简单介绍。

医疗文本数据:用于指示以文本形式存在的医疗数据,在本申请实施例中包括数据文本描述内容和检验数据。

表型术语:也称“表型”、“性状”等,用于指示生物表现出来的形态、功能、行为等方面的特征,包括症状(如:发热)、体征(如:呼吸音粗)、疾病(如:白血病)、检验特征(如:血白细胞计数偏高)、医学影像特征(如:肺磨玻璃影)、电信号特征(如:QT间期延长;QT间期用于指示心电图上Q波和T波之间的时长)等。

原子词:表型中可拆分出的各个“成分”词,例如:原子词表示为解剖学部位词汇、异常描述词汇、方位词汇、数量词汇等,例如:表型“膝关节疼痛”中包含两个原子词,即“膝关节”与“疼痛”;表型“血脂升高”中包含两个原子词,即:“血脂”与“升高”。

表型本体(表型术语集):将表型组织为有向无环图(Directed Acyclic Graph,DAG)的形式,有向无环图中的节点为表型概念,节点之间通过具有从属关系的边进行连接。例如:将边表示为“is_a”,从而代表相连接节点之间的从属关系、上下位关系等。

表型抽取:对待识别的输入文本进行识别,从输入文本中抽取得到相应的表型描述mention,将表型描述链接到表型本体的节点,并判断表型在输入文本中的极性,极性包括阴性、阳性、不确定性。

相关技术中,通常将参与对象的文本描述内容输入预先训练的文本分析模型,通过文本分析模型确定文本描述内容中与表型相关的生理特征情况,并输出体现生理特征情况的数据供参与对象进行查看;或者,由医生对上述文本描述内容和针对参与对象检测得到的检验数据进行分析,从而为使用对提供表型的分析结果。在上述过程中,使用对象虽然可以借助文本分析模型或者医生的帮助,对自身的生理特征情况进行了解,但经过上述过程得到的结果较为分散,且文本描述内容与检验数据之间的关联度较差,不易于对同一类型的多种结果进行综合分析,数据分析的适应性较差。

本申请实施例中,提供了一种医疗数据的特征化处理方法,能够对文本描述内容和检验数据进行标准化处理,并借助整合后的数据特征项对样本对象的生理情况进行更全面地分析和预测。针对本申请训练得到的医疗数据的特征化处理方法,在应用时包括辅助检查场景、医疗数据分析场景、疾病预测场景等多种医疗场景中的至少一种。值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的医疗数据的特征化处理方法还可以应用于其他场景中,本申请实施例对此不加以限定。

需要进行说明的是,本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。

本申请实施例提供的医疗数据的特征化处理方法可以由终端110单独执行实现,也可以由服务器120执行实现,或者由终端110和服务器120通过数据交互实现,本申请实施例对此不加以限定。可选地,以服务器120对接收终端110发送的数据,并进行医疗数据的特征化处理方法为例进行说明。

在一些实施例中,终端110用于向服务器120发送文本描述内容和检验数据。示意性的,终端110中安装有具有数据获取功能的应用程序,以根据样本对象对表型的描述生成文本描述数据,还可以基于文本描述内容对样本对象进行表型检测,并得到与文本描述内容相关的检验数据。

可选地,服务器120接收终端110发送的文本描述内容和检验数据后,对文本描述内容和检验数据分别进行处理。

示意性的,服务器120将文本描述内容与预先配置的表型术语集中的表型术语进行匹配并生成第一匹配结果,基于第一匹配结果对文本描述内容进行格式转换,从而得到与文本描述内容匹配的表型特征,表型特征用于通过预设的特征格式和表型术语对文本描述内容进行表达。

示意性的,服务器120将检验数据与预先配置的检验术语集中的检验术语类型进行匹配并生成第二匹配结果,基于第二匹配结果对检验数据进行格式转换,得到与检验数据匹配的检验特征,检验特征用于通过预设的特征格式和检验数据类型对检验数据进行表达。

在一些实施例中,服务器120将对文本描述内容进行处理后得到的表型特征,与对检验数据进行处理后得到的检验特征进行整合,从而得到用于表征样本对象生理情况的数据特征项,也即:在数据特征项中,不仅能够同时体现文本描述内容中描述的表型,还能体现检验数据中检测到的表型,从而借助数据特征项,更加标准且清晰地体现样本对象表型的综合情况。

可选地,服务器120将数据特征项发送至终端110,由终端110对数据特征项进行显示;或者,由终端110对数据特征项进行提炼分析,并将分析得到的数据分析结果显示在终端110上,从而辅助样本对象或者医生,对样本对象的生理情况进行更全面地了解。

值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。

在一些实施例中,上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景,对本申请提供的医疗数据的特征化处理方法进行说明,以该方法应用于服务器为例,如图2所示,该方法包括如下步骤210至步骤240。

步骤210,获取文本描述内容和检验数据。

可选地,文本描述内容和检验数据为医学领域的医疗数据。其中,文本描述内容用于描述样本对象的表型。

示意性的,文本描述内容是样本对象对其在历史时间段内的表型进行描述后生成的文本内容。

例如:样本对象对其在历史时间段内的表型进行描述,医生对该描述内容进行总结,并将描述内容记载在记录单上,将记载在记录单上的描述内容作为文本描述内容;或者,样本对象对其在历史时间段内的表型进行描述,并将描述内容以文本、语音等形式输入在终端等设备上,将输入内容作为文本描述内容发送至服务器,从而使得服务器获取得到文本描述内容等。

示意性的,文本描述内容包括多种不同类型。例如:文本描述内容实现为门诊记录类型对应的内容、入院记录类型对应的内容、出院记录类型对应的内容、病程记录类型对应的内容、影像报告类型对应的内容等。

可选地,不同类型的文本描述内容还可以拆分成不同的章节。例如:门诊记录内容可以拆分为主诉章节、现病史章节、既往病史章节、家族病史章节、个人病史章节、辅助检查章节、体格检查章节、专科检查章节、门诊诊断章节等多个章节;影像报告内容可以拆分为客观事实章节、主观提示章节等多个章节。

如下表1所示,包括多条文本描述内容,其中每一行代表一个文本描述内容。例如:第1行表示门诊记录类型中主诉章节对应的一条文本描述内容:咳嗽、咽痛3天,发热2天,即表示样本对象在门诊就诊所描述的表型。

表1

其中,检验数据是基于文本描述内容对样本对象进行表型检测得到的数据。

示意性的,检验数据针对样本对象进行表型进行检测得到的数据,表示了样本对象在检测时刻检测得到的结果情况。

例如:基于样本对象对应的文本描述内容表示样本对象具有“咳嗽”症状,医生建议样本对象进行血常规检查,将血常规检查结果作为对样本对象进行表型检测得到的检验数据;或者,基于样本对象对应的文本描述内容表示样本对象具有“蛋白尿”症状,医生建议样本对象进行尿常规检查,将尿常规检查结果作为对样本对象进行表型检测得到的检验数据等。

可选地,将基于文本描述内容对样本对象进行表型检测得到的检验单上检验内容作为上述的检验数据。

示意性的,在检验数据中包括如下至少一种字段,如:标本名称、检验项目名称、检验方法、检测结果、提示、参考范围、单位等。如下表2所示,包括多条检验数据,其中每一行代表一个检验数据。例如:在第1行表示的检验数据中,标本名称为“血”、检验项目名称为“白细胞数目”、检测结果为2.99、提示为“↓”、参考范围为3.5-3.9、单位为10

表2

其中,上述表2中空白格的位置用于该处内容未被记录;上述表2中提示为“↓”用于指示当检测结果为数值型结果时,检测结果低于参考范围,提示为“↑”用于指示当检测结果为数值型结果时,检测结果高于参考范围等。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤220,将文本描述内容与预先配置的表型术语集中的表型术语进行匹配,基于生成的第一匹配结果对文本描述内容进行格式转换,得到与文本描述内容匹配的表型特征。

示意性的,表型术语集用于指示预先配置的、存储有多个表型术语的数据集。可选地,表型术语集中存储有多个用于指示生物表现出来的形态、功能、行为等方面的表型术语,也可称为生物对应的生理状态。

在一些实施例中,确定上述多个表型术语之间的从属关系,将多个表型术语作为节点,并根据多个表型术语之间的从属关系构建节点关系树,将节点关系树作为上述表型术语集。

其中,节点关系树中的节点为上述表型术语。节点关系树中节点之间的关系,为上述多个表型术语之间的从属关系,从而使得预先配置的表型术语集不仅包括表型术语,还蕴含了表型术语之间的从属关系。

可选地,对文本描述内容与表型术语集中的表型术语进行匹配,将从文本描述内容中提取得到至少一个表型术语作为第一匹配结果。

示意性的,在得到第一匹配结果后,通过预设的特征格式对文本描述内容进行格式转换,从而得到与文本描述内容匹配的表型特征。也即:表型特征用于通过预设的特征格式和表型术语对文本描述内容进行表达。

可选地,特征格式是预先设定的一种文本格式转化标准,用于指示将文本描述内容转化为预先设定的标准的特征格式。

例如:特征格式中特征组成的排列顺序为:特征名称——特征值——特征类型,则在文本描述内容进行分析时,从文本描述内容中分析特征名称、特征值以及特征类型,并按照特征格式中特征组成的排列顺序,对文本描述内容中相应的文本内容进行排列。

可选地,以上述与表型术语集进行匹配后得到的第一匹配结果为基准,对文本描述内容中除第一匹配结果之外的其他文本内容进行分析,从而围绕第一匹配结果,根据文本描述内容中其他文本内容的记载,以特征格式中特征组成的形式对文本描述内容进行分析,从而得到与文本描述内容匹配的表型特征。

示意性的,以特征格式中特征组成的排列顺序为:特征名称——特征值——特征类型为例进行说明,文本描述内容与表型术语集进行匹配后得到的第一匹配结果为特征格式中的特征名称,围绕该特征名称,基于文本描述内容中确定对应的特征值以及特征类型,从而得到与文本描述内容匹配的表型特征。

示意性的,在确定特征值时,确定围绕该特征名称所表述的文本描述内容的情感取向,基于情感取向确定文本描述内容的特征值。

在一些实施例中,基于特征值确定特征类型。示意性的,特征类型包括如下四种类型中的至少一种:是否型、偏离型、类别型、数值型。

其中,是否型对应的特征值可以实现为阳性、阴性和未知3种情况;偏离型对应的特征值可以实现为偏高、偏低、正常和未知4种情况;类别型对应的特征值的情况决定于特征名称,例如:当特征名称为“性别”时,特征值包括男性、女性、其他和未知4种情形;当特征名称为“尿_颜色”时,特征值包括无色、黄色、红色、绿色、黑色等;数值型对应的特征值实现为任意的浮点数等。

例如:文本描述内容为“患者10天前出现咳嗽症状”,将该文本描述内容与表型术语集进行匹配后得到的第一匹配结果为“咳嗽”,该“咳嗽”为特征格式中的特征名称,围绕“咳嗽”一词,根据文本描述内容中其他文本内容的记载对文本描述内容进行分析,确定并无否决“咳嗽”一词的内容,则基于“咳嗽”确定“咳嗽”的特征值为“阳性”,特征类型为“是否型”,从而基于生成的第一匹配结果对文本描述内容进行格式转换,得到的与文本描述内容匹配的表型特征为如下形式:特征名称:咳嗽——特征值:阳性——特征类型:是否型,从而实现对文本描述内容进行特征标准化的过程。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤230,将检验数据与预先配置的检验术语集中的检验术语类型进行匹配,基于生成的第二匹配结果对检验数据进行格式转换,得到与检验数据匹配的检验特征。

示意性的,检验术语集用于指示预先配置的、存储有多个检验术语的数据集。可选地,为了将各种具有多样性的检验数据进行格式转换,以得到具有一定标准的表型术语,需要首先确定检验术语集中存储的检验术语的数据组成形式,从而基于检验术语的数据组成形式,对检验数据进行格式转换。

示意性的,检验术语中包括如下至少一种数据组成:“标本名称”、“检验项目名称”、“检验方法”以及“单位”。其中,上述四个字段有任一个字段不同,则可组成不同的检验术语。

可选地,对检验术语进行编码,从而可以基于编码结果,快速分辨、识别不同检验术语。

示意性的,如下表3所示,为检验术语集中部分检验术语的示意性表示,其中每一行代表一个检验术语。例如:第一行表示标本名称为“血”、“检验项目名称”为“白细胞计数”、“单位”为10^9/L,即表示在对“血”进行白细胞计数时,采用10^9/L对检验得到的数值进行表示。

表3

其中,上述表3中空白格的位置用于该处内容未被记录;或者,该处内容呈现为缺失状态等。

示意性的,上述表3中,当“检验项目名称”实现为“肌酸激酶同工酶”时,对应存在3个检验术语,且编码分别为0002、0003以及0004。

在一些实施例中,将检验数据与上述检验术语集中的检验术语类型进行匹配,从检验术语集中确定与检验数据的检验数据类型相对应的生理数据类型,并确定包括该生理数据类型的检验术语,将该检验术语作为上述第二匹配结果。

示意性的,在得到第二匹配结果后,通过预设的特征格式对检验数据进行格式转换,从而得到与检验数据匹配的检验特征。也即:基于生成的第二匹配结果对检验数据进行格式转换,得到与检验数据匹配的检验特征,检验特征用于通过预设的特征格式和检验术语对检验数据进行表达。

可选地,特征格式是预先设定的一种数据格式转化标准,用于指示将检验数据转化为预先设定的标准的特征格式。

示意性的,将上述检验术语中包括的数据组成作为预先设定的特征格式,在将检验数据与检验术语集中的检验术语类型进行匹配后得到第二匹配结果,该第二匹配数据实现为检验术语中的一个数据组成,如:第二匹配数据实现为检验术语中的标本名称,围绕该第二匹配数据对检验数据中的其他数据内容进行分析,从而得到围绕第二匹配数据说明的分析数据,根据检验术语中的数据组成形式,将第二匹配数据和围绕第二匹配数据得到的分析数据进行格式转换,使得得到的、与检验数据匹配的检验特征的数据组成与检验术语的数据组成相同。

例如:检验数据为血常规检查中的一项内容,呈现为如上表2所示的第一行检验数据,将检验数据与上述表3所示的检验术语集进行匹配后,确定检验术语集中标本名称为“血”的检验术语包括编号为0001的检验术语、编号为0002的检验术语、编号为0003的检验术语以及编号为0004的检验术语,可选地,将“标本名称”作为第二匹配结果,则围绕“血”确定表2所示的第一行检验数据中的其他数据内容。

其他数据内容包括检验项目名称、检验方法、检验结果、提示、参考范围以及单位,对其他数据内容进行分析,从而得到围绕“血”说明的分析数据。根据检验术语中的数据组成形式实现为“编码——标本名称——检验项目名称——检验方法——单位”,则围绕“血”以及上述检验术语中的数据组成形式,对检验数据进行格式转换,得到检验特征实现为“0001——血——白细胞计数——()——10^9/L”。

步骤240,对表型特征和检验特征进行整合,得到用于表征样本对象生理情况的数据特征项。

示意性的,在得到表型特征和检验特征后,基于文本描述内容和检验数据之间的关系,将表型特征和检验特征进行整合,从而围绕样本对象的生理情况,得到用于表征样本对象生理情况的数据特征项。

例如:文本描述内容为“患者10天前出现咳嗽症状”,基于文本描述内容对样本对象的血液进行血常规检测,从而得到对表型进行检测后的检验数据,如:检验数据为表2中第1行表的内容:对血液的白细胞数目检测的检测结果为2.99、低于参考范围3.5-3.9,且检测结果的单位为10

通过上述方法对文本描述内容进行处理后得到表型特征,即:特征名称:咳嗽——特征值:阳性——特征类型:是否型;通过上述方法对检验数据进行处理后得到检验特征,即:0001——血——白细胞计数——()——10^9/L。将该表型特征与该检验特征进行整合,从而得到数据特征项,该数据特征项表示为:特征名称:咳嗽——特征值:阳性——特征类型:是否型——0001——血——白细胞计数——()——10^9/L。

可选地,上述数据特征项中的数据特征还可以排列为其他形式,如调整不同数据特征的顺序,得到的数据特征项表示为“0001——特征名称:咳嗽——特征类型:是否型——特征值:阳性——血——白细胞计数——()——10^9/L”等。通过上述格式转化的标准化过程,使得文本描述内容和检验数据更加规范化,便于通过数据特征项更快速、清楚地知悉样本对象的生理情况。

在一个可选的实施例中,通过上述过程对不同的样本对象分别进行分析,从而将不同样本对象对应的文本描述内容和检验数据进行规范性、标准性地格式转化处理。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

综上所述,获取描述样本对象表型的文本描述内容,以及基于文本描述内容对样本对象进行表型检测得到的检验数据,将文本描述内容与表型术语进行匹配,并通过格式转换得到表型特征;将检验数据与检验术语类型进行匹配,并通过格式转换得到检验特征,从而将表型特征和检验特征进行整合,得到表征样本对象生理情况的数据特征项。通过数据特征项,能够结合文本描述内容和检验数据,更全面地把握样本对象的生理情况,借助格式转换过程,使得离散的文本描述内容和检验数据更加的标准化,不仅提升了样本对象生理情况呈现的直观性,也有利于借助多个数据特征项,对样本对象的生理情况进行更加全面、细致地分析和预测。

在一个可选的实施例中,上述表型术语集是对状态词汇数据集进行扩充之后得到的数据集。示意性的,如图3所示,对状态词汇数据集进行扩充的过程实现为如下步骤310至步骤350。

步骤310,获取状态词汇数据集。

其中,状态词汇数据集中存储有多个指示表型的状态词汇数据。示意性的,状态词汇数据集为现存的词汇数据集。

步骤320,基于不同表型之间的从属关系,将状态词汇数据集中的多个状态词汇数据作为数据节点,并构建具有节点层级关系的表型节点树。

不同表型之间具有从属关系,例如:下肢异常包括膝关节异常;骨骼系统异常包括关节异常等。

可选地,将状态词汇数据集中的多个状态词汇数据作为数据节点,从而构建具有节点层级关系的表型节点树。该表型节点树还可以称为表型本体。

示意性的,同一个表型概念可能有多种同义表达方式,从而体现为具有同一表型概念但具有不同表型形式的表型(状态词汇数据),例如:“膝关节疼痛”、“膝盖疼痛”与“膝痛”属于同一个表型。

根据表型概念之间的上下位关系,构建了一个有向无环图,即上述的表型节点树,如图4所示,为一个示意性的表型节点树(初始表型术语集中的初始表型术语组成的节点树),表型节点树中的每个数据节点代表一个状态词汇数据,不同状态词汇数据之间通过is_a边进行连接。

在一些实施例中,以所有表型410为表型节点树的根节点,将表型异常420和表型正常430作为所有表型410下的两个子节点,即:主要分为“表型异常”与“表型正常”两个分支。

其中表型正常430下包括多种的表型术语,如:黄便(粪便黄),尿清亮(尿清澈)等。其中表型异常420包括下肢异常和骨骼系统异常;下肢异常下包括膝关节异常;骨骼系统异常下包括关节异常;关节异常下包括膝关节异常和关节疼痛;膝关节异常和关节疼痛又可以统称为膝关节疼痛(膝痛)等。示意性的,括号内用于指示同一概念下不同的状态词汇数据。

在一个可选的实施例中,表型异常420分支下的数据节点严格满足具有传递性的“is_a”关系,即如果样本对象符合表型异常420分支下的某个数据节点,则也应当符合该数据节点的所有祖先节点。例如:若样本对象符合关节疼痛的表达,则样本对象也应当符合“关节异常”、“骨骼系统异常”、以及“表型异常”的表达。

对于“表型正常”分支的引入,是用于对文本描述内容中的正常描述也能够进行识别处理。可选地,采用“扁平化”的设计,将所有表型正常(即:不属于异常表型的状态词汇数据)的数据节点挂载到表型正常430的数据节点下。因此需注意的是,表型正常430分支下的数据节点并不是严格的is_a关系。例如:样本对象“尿清亮”并不意味着该样本对象“表型正常”,因为该样本对象还可能符合“关节疼痛”的异常症状。

基于上述原因,在实际使用表型节点树时,删除表型节点树中所有表型410下的表型正常430的数据节点,以保持表型节点树中遗留下的数据节点(即:表型异常420下的数据节点)满足“is_a”关系的传递性。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤330,获取对象描述数据集。

其中,对象描述数据集中存储有多个指示表型所描述对象的对象描述数据。

可选地,对象描述对象集中存储的对象描述数据还可以称为原子词、成分词等,基于对象描述数据用于指示表型所描述的对象;状态词汇数据用于指示对象的表型,因此对象描述数据可以作为从状态词汇数据中拆分出来的词项。

示意性的,对象描述数据集中包括用于描述解刨学部位,如:眼睛、舌头等;或者,对象描述数据集中包括用于描述标本,如:血液、粪便、尿液等;或者,对象描述数据集中包括用于描述特征表现,如:疼痛、刺痛、瘙痒、麻木、错位等。

步骤340,基于对象描述数据之间的从属关系,将对象描述数据集中的多个对象描述数据作为数据节点,并构建具有节点层级关系的描述对象节点树。

不同对象描述数据之间具有从属关系,例如:关节包括膝关节、踝关节等;疼痛包括胀痛、刺痛等。

示意性的,将对象描述数据集中的多个对象描述数据作为数据节点,从而构建具有节点层级关系的描述对象节点树。该表型节点树还可以称为原子词本体。原子词本体中的节点即为上述的原子词(对象描述数据)。

在一些实施例中,同一个对象描述数据对应的概念可能有多种同义表达方式,从而体现为具有同一概念但具有不同形式的对象描述数据,例如:“膝关节”与“膝盖”属于同一个对象描述数据。

根据对象描述数据之间的上下位关系,构建了一个有向无环图,即上述的描述对象节点树。也即:将原子词组织为有向无环图的形式,构建得到了原子词本体。

如图5所示,为一个示意性的原子词术语集500中的部分内容,其中包括多个描述对象节点树,不同的描述对象节点树有其对应的根节点,从而能够将多个具有相同根节点的描述对象数据进行更为标准的归纳。示意性的,描述对象节点树中的每个数据节点代表一个对象描述数据,不同对象描述数据之间通过is_a边进行连接。

在一些实施例中,原子词术语集500包括四个描述对象节点树,其中第一个描述对象节点树的根节点为关节510;第二个描述对象节点树的根节点为疼痛520;第三个描述对象节点树的根节点为痰530;第四个描述对象节点树的根节点为核酸540。

例如,关节510包括子节点膝盖(膝关节)以及踝关节(脚踝、踝部);疼痛520包括子节点胀痛以及刺痛等。示意性的,括号内用于指示同一概念下不同的对象描述数据。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤350,通过描述对象节点树对表型节点树进行扩充,得到具有节点层级关系的多个表型术语,并得到表型术语集。

在一个可选的实施例中,为了使得对文本描述内容进行匹配后能够具有更好地匹配效果,以使得与文本描述内容进行匹配的表型术语集能够表达更全面的内容。在表型节点树的基础上,围绕描述对象节点树中的多个描述对象数据,对表型节点树进行扩充,从而期望能够在状态词汇数据集的基础上,自动化地确定并生成状态词汇数据的同义词或下位词,从而实现对状态词汇数据集的扩充过程,得到扩充后的表型术语集。

示意性的,如图6所示,将如图4所示的初始表型本体(表型节点树,即:初始表型术语组成的节点树)610和如图5所示的原子词术语集620进行合并,通过原子词术语集620对初始表型本体610进行扩充,从而得到表型术语集630。

示意性的,将上述扩充过程称为文本改写过程,通过该文本改写过程能够自动化地生成表型节点树中不存在的表型术语,从而将生成的表型术语与原先存储的状态词汇数据共同组成表型术语集。可选地,采用最大后向匹配算法,对文本改写过程进行说明。

示意性的,将用于扩充表型节点树的文本作为输入文本s,通过最大后向匹配算法对输入文本进行切分,得到文本中的原子词提及(mentioin)a

s=o

其中,o

示意性的,以“输入文本”为“膝关节疼痛”为例,利用“膝关节”与“膝盖”的同义关系,可以生成同义表达“膝盖疼痛”;利用“疼痛”与“胀痛”的上下位关系,可以生成下位表达“膝盖胀痛”,从而基于“膝关节疼痛”还可以生成“膝盖疼痛”、“膝盖胀痛”等文本内容作为表型术语,从而将生成的表型术语与原先存储的状态词汇数据共同组成表型术语集,以实现扩充状态词汇数据集并得到表型术语集的扩充过程。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

在本申请实施例中,对扩充得到表型术语集的过程进行说明。通过具有层级关系的描述对象节点树,对具有层级关系的表型节点树进行扩充,从而得到具有节点层级关系的多个表型术语,通过该多个表型术语得到的表型术语集,能够从文本描述内容中识别得到更加全面的第一匹配结果,从而便于对文本描述内容进行更全面、更准确的把握。

在一个可选的实施例中,在对文本描述内容进行格式转换以获得表型特征时,可以通过多种方式对文本描述内容进行分析。可选地,上述表型术语集是预先存储的数据集;或者,上述表型术语集是经过上述图3所示的扩充方法后得到的数据集。

示意性的,以上述表型术语集是经过扩充方法后得到的数据集为例进行说明。在获得状态词汇数据集后,通过描述对象数据集对状态词汇数据集进行文本改写,从而得到表型术语集,并以表型术语集进行后续过程。相关内容可以参照如图3所示的实施例,此处不再赘述。

可选地,在获得文本描述内容620后,结合文本描述内容620以及表型术语集613,通过如下三种方法中的至少一种方法对文本描述内容620进行处理,三种方法包括:(一)最大后向匹配算法+极性检测(情感极性检测);(二)多模子序列匹配算法+重叠检测+极性检测(情感极性检测);(三)文本描述内容结构化+文本匹配。

其中,前两种方法为对字符串算法进行的改进,最后一种方法使用了人工智能(AI,Artificial Intelligence)模型。可选地,对于速度要求高、计算资源有限的业务场景,使用前两种方法对文本描述内容进行调整;对于计算资源充裕的业务场景,可以同时使用三种方法对文本描述内容进行调整等。

示意性的,文本描述内容620实现为医生以自然语言对样本对象进行描述的文本内容,具有行文较规范、句子简单、包含医学术语表达等特点。如图7所示,对上述三种方法分别进行说明,上述图2所示出的实施例中的步骤220还可以实现为如下步骤。

(一)最大后向匹配算法+极性检测(情感极性检测)

步骤711,将文本描述内容与表型术语集中的表型术语进行文本匹配,将从文本描述内容中提取得到至少一个表型术语作为第一匹配结果。

示意性的,在得到文本描述内容后,将文本描述内容与预先配置的表型术语集中的表型术语进行文本匹配,从而对文本描述内容中的表型术语进行识别,以提取得到的至少一个表型术语作为上述第一匹配结果。

在一个可选的实施例中,从文本描述内容的第一端向第二端扫描文本描述内容中的字符串,并将字符串与表型术语集进行文本匹配。

其中,第一端和第二端用于指示对文本描述内容进行识别时的起点和终点。

可选地,将文本描述内容从左向右数的第一个字符作为第一端,将文本描述内容从右向左数的第一个字符作为第二端;或者,将文本描述内容从右向左数的第一个字符作为第一端,将文本描述内容从左向右数的第一个字符作为第二端。

或者,对文本描述内容进行分句处理,将分句处理后得到的多个文本描述语句作为一个单独的识别主体,将每个文本描述语句的起始字符作为第一端、终止字符作为第二端;或者,对文本描述内容进行分句处理,将分句处理后得到的多个文本描述语句作为一个单独的识别主体,将每个文本描述语句的终止字符作为第一端、起始字符作为第二端。则在对文本描述内容进行分句处理后,文本描述内容包括多个第一端以及多个第二端,第一端和第二端存在一一对应关系。

在一些实施例中,以从右向左的顺序对文本描述内容(或上述的文本描述语句)进行识别为例进行说明。即:将文本描述内容从右向左数的第一个字符作为第一端,将文本描述内容从左向右数的第一个字符作为第二端。在对文本描述内容进行识别时,对文本描述内容中的字符串进行识别。

其中,字符串用于指示组成文本描述内容的词汇内容。

可选地,从右向左对文本描述内容中的字符串进行识别,响应于字符串存在于表型术语集中,从文本描述内容中提取字符串作为表型术语,得到第一匹配结果。

在一个可选的实施例中,采用最大后向匹配算法进行上述字符串识别过程。

示意性的,最大后向匹配处理算法是基于表型术语集(词典)进行的分词算法,其基本原理为:从右至左扫描文本描述内容(或文本描述语句)中的字符串,然后从表型术语集中查找该字符串是否存在于在表型术语集中,如果该字符串在表型术语集中,则匹配成功,该字符串即为表型术语集中存储的表型术语,并将该字符串切出,以得到第一匹配结果,随后继续从当前位置向左对字符串进行识别,并与表型术语集中的表型术语进行匹配。

可选地,上述最大后向匹配算法还可以同于进行分词过程。可选地,采用上述最大后向匹配算法对文本描述内容进行分句处理。

示意性的,输入一个文本描述内容,根据标点符号将文本描述内容拆分为一条条文本描述语句,标点符号集合F实现为如下形式。

F={,,。!!;;##?? }

其中,标点符号集合F中不包括英文句号、顿号以及冒号。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤712,通过情感词汇数据集对文本描述内容进行情感极性检测,确定文本描述内容的情感取向。其中,情感词汇数据集中存储有表示情感取向的情感词汇数据。情感取向用于指示词汇所表达的情感内容,具有情感取向的词汇称为极性词汇数据。

示意性的,如下表4所示,为情感词汇数据集中的部分极性词汇数据。该情感词汇数据集中包括表达不同情感取向的三种类型的词表,即:否定词表、肯定词表以及不定词表。

其中,否定词表中的极性词汇数据具有否定的情感倾向,即:表达了否定含义,如:未见、没有等;肯定词表中的极性词汇数据具有肯定的情感倾向,即:表达了肯定含义,其中可以包含有否定词但不表达否定意义的极性词汇数据,如:无原因、不得不等;不定词表中的极性词汇数据具有不确定的情感倾向,即:表示极性无法确定的一些提示词,如:待查、待定等。

表4

在一些实施例中,采用上述最大后向匹配算法对文本描述内容进行分句处理,从而借助标点符号将文本描述内容拆分为一条条文本描述语句,从而能够更好地判断文本描述内容的情感取向。

示意性的,通常在同一个文本描述语句中识别到的多个表型术语,会具有相同的情感取向。

例如:采用上述最大后向匹配算法对文本描述内容进行分句处理后得到多个文本描述语句,其中文本描述语句A为“没有咳嗽、发热症状”(顿号不属于分句处理中的标点符号),将文本描述语句A与表型术语集进行上述字符串匹配过程后,确定其中的第一匹配结果为“咳嗽”和“发热”;对文本描述语句A的情感取向进行分析后,确定其中的情感词汇为情感词汇数据集中否定词表下的词汇“没有”,从而确定该文本描述语句A的情感取向,如:文本描述语句A的情感取向为否定取向。

示意性的,对文本描述内容中的多条文本描述语句分别进行上述分析过程,从而确定多条文本描述语句的情感取向。例如:基于多条文本描述语句分别对应的情感取向,确定文本描述内容对应的情感取向。

示意性的,将较多文本描述语句对应的情感取向作为文本描述内容对应的情感取向,例如:80%的文本描述语句对应的情感取向为否定取向,则将文本描述内容对应的情感取向确定为否定取向。

或者,分析每一条文本描述语句对应的情感取向的取向得分,综合每一条文本描述语句分别对应的取向得分,确定文本描述内容对应的情感取向。例如:对情感词汇数据集中的极性词汇数据进行赋值,如肯定词表中的极性词汇数据为正值、否定词表中的极性词汇数据为负值、不定词表中的极性词汇数据为0,且肯定程度越高,极性词汇数据的正向取值越高,同理,否定程度越高,极性词汇数据的负向取值越高等,基于赋值情况确定每一条文本描述语句对应的情感取向的取向得分,进而将每一条文本描述语句对应的取向得分相加后,得到文本描述内容对应的情感取向。

在一个可选的实施例中,将对文本描述内容进行分句处理后得到的每一条文本描述语句的情感取向,作为文本描述内容的情感取向。即:文本描述内容的情感取向是多条文本描述语句的情感取向的组成。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤713,基于第一匹配结果和文本描述内容的情感取向,对文本描述内容进行格式转换,得到与文本描述内容匹配的表型特征。

示意性的,在得到第一匹配结果和文本描述内容的情感取向后,通过预设的特征格式对文本描述内容进行格式转换,从而得到与文本描述内容匹配的表型特征。

可选地,特征格式是预先设定的一种文本格式转化标准,用于指示将文本描述内容转化为预先设定的标准的特征格式。

示意性的,预先设定的特征格式为:特征名称——特征值——特征类型。

例如:文本描述内容为“患者10天前出现咳嗽症状”,将该文本描述内容与表型术语集进行匹配后得到的第一匹配结果为“咳嗽”。将该文本描述内容与情感词汇数据集进行匹配后,未找到对应的极性词汇数据,也证明不存在“否定词表”中的极性词汇数据对“咳嗽”进行否决,则确定该文本描述内容的情感取向为“正向”。因此特征值为“阳性”,特征类型为四种类型中的“是否型”。

基于上述特征格式,确定对文本描述内容进行格式转换后得到的表型特征表示为:特征名称:咳嗽——特征值:阳性——特征类型:是否型。

在一个可选的实施例中,响应于文本描述内容中包括忽略词汇数据集中存储的忽略词汇数据,将文本描述内容中与忽略词汇数据对应的字符串进行删除,得到文本描述字符串。其中,忽略词汇数据集为预先存储有多个忽略词汇数据的数据集,忽略词汇数据用于指示在对文本描述内容进行字符串识别时,希望忽略并跳过的词汇数据。

示意性的,在将文本描述内容与表型术语集中的表型术语进行匹配前,首先将文本描述内容与忽略词汇数据集中存储的忽略词汇数据进行匹配。

例如:采用从右向左进行字符识别的方式,对文本描述内容进行字符串识别,将识别到的字符串与忽略词汇数据集中存储的忽略词汇数据进行匹配,当文本描述内容中存在与忽略词汇数据对应的字符串时,将该字符串予以删除,并继续按照从右向左进行字符识别的方式,对文本描述内容中剩余内容进行字符串识别,直至识别至文本描述内容的左端,结束与忽略词汇数据集中存储的忽略词汇数据进行匹配的匹配过程。

在将文本描述内容中与忽略词汇数据对应的字符串进行删除后,得到文本描述字符串,即:该文本描述字符串中不存在与忽略词汇数据对应的字符串。

示意性的,忽略词汇数据集中的忽略词汇数据包括多个字符,且多个字符中存在表型术语对应的字符组成,但并不表示表型术语对应的含义。

例如:忽略词汇数据集中包括忽略词汇数据“三天两头痛”,其中包括5个字符,且“头痛”为表型术语集中存储的一个表型术语,但忽略词汇数据“三天两头痛”并不表示“头痛”的表型。基于上述方式,在对包括“三天两头痛”的文本描述内容进行识别时,首先将文本描述内容与忽略词汇数据集进行匹配,从而能够率先确定文本描述内容中存在忽略词汇数据“三天两头痛”,由于“三天两头痛”比“头痛”的字符数量更多,字符串的长度更长,根据最大后向匹配算法,将优先匹配忽略词汇数据“三天两头痛”,并忽略表型术语“头痛”,从而解决识别错误问题。

同理,忽略词汇数据“新冠疫苗”不表示表型术语“新冠”;忽略词汇数据“狂犬病暴露”不表示表型术语“狂犬病”,从而通过对忽略词汇数据的优先识别率先筛除字符长度大于表型术语但不表示表型术语含义的忽略词汇数据,避免对文本描述内容进行识别时,忽略词汇数据对正确识别表型术语所可能造成的干扰。

其中,当文本描述内容中不存在与忽略词汇数据对应的字符串时,文本描述内容与文本描述字符串的内容相同。可选地,将文本描述字符串与表型术语集中的表型术语进行匹配,基于生成的第一匹配结果对文本描述内容进行格式转换,得到与文本描述内容匹配的表型特征。

示意性的,在得到删除了与忽略词汇数据对应字符串的文本描述字符串后,将文本描述字符串与表型术语集中的表型术语进行匹配,从而将从文本描述字符串中提取得到的表型术语作为第一匹配数据。随后通过预设的特征格式对文本描述内容进行格式转换,得到与文本描述内容匹配的表型特征。

在一些实施例中,如图8所示,以采用最大后向匹配算法对文本描述内容进行分析为例进行说明。

在得到文本描述内容810后,对文本描述内容810进行子句拆分(分句处理),得到文本描述语句。通过情感词汇数据集820(包括否定词表、肯定词表以及不定词表)、忽略词汇数据集830以及表型术语集840对文本描述语句810进行分析,并采用最大后向匹配算法确定第一匹配结果,采用极性判断方式确定文本描述语句中的情感取向,从而确定文本描述内容的情感取向。

在一个可选的实施例中,将对文本描述内容进行分句处理后得到的每一条文本描述语句的情感取向,作为文本描述内容的情感取向,从而在确定文本描述内容的情感取向时,基于每一条文本描述语句中的情感取向以及该条文本描述语句中的表型术语(第一匹配结果),确定每一条文本描述语句分别对应的表型特征,将每一条文本描述语句分别对应的表型特征组成表型特征表格(其中包括多个表型特征),从而将表型特征表格作为与文本描述内容匹配的表型特征。

或者,将每一条进行分句处理后得到的文本描述语句作为一个文本描述内容,从而确定每一个文本描述内容分别对应的表型特征。

示意性的,假设表型术语集中包括如下表型术语:“咳嗽、咳痰、胸闷、胸痛、新冠”;忽略词汇数据集中包括如下忽略词汇数据:“三天两头疼、新冠疫苗”;情感词汇数据集如上表4所示。则对不同文本描述内容(文本描述语句)进行上述匹配过程和格式转换过程,得到不同文本描述内容分别对应的表型特征,如下表5所示,为不同文本描述内容分别对应的表型特征。

表5

/>

其中,LINK_TERM用于指示表型特征;Node用于指定进行匹配后从文本描述内容中确定的表型术语;MENTION用于指示基于匹配情况确定的第一匹配结果;POLARITY用于指示文本描述内容的情感取向。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

(二)多模子序列匹配算法+重叠检测+极性检测(情感极性检测)

步骤721,获取表型术语集中的表型术语。

可选地,在获取表型术语集后,从表型术语集中获取与文本描述内容存在一定关联的表型术语。

示意性的,识别文本描述内容中的多个字符,从表型术语集中获取包括相同字符的表型术语。例如:文本描述内容为“膝盖疼”,其中包括的多个字符为“膝”、“盖”和“疼”,将表型术语集中包括字符“膝”的表型术语进行提取,将表型术语集中包括字符“盖”的表型术语进行提取,将表型术语集中包括字符“疼”的表型术语进行提取,从而得到多个表型术语。

或者,文本描述内容为“膝盖疼”,其中包括的多个字符串为“膝盖”和“疼”,将表型术语集中包括字符串“膝盖”的表型术语进行提取,将表型术语集中包括字符“疼”的表型术语进行提取,从而得到多个表型术语。

步骤722,对表型术语进行字符拆分,获取得到多个表型字符数据。

示意性的,在提取得到表型术语后,对每个表型术语分别进行字符拆分,从而获取得到多个表型字符数据。其中,上述子序列用于指示从字符串中删除一些字符后且不改变剩余字符的相对顺序而生成的新的字符串。

示意性的,子序列匹配任务指的是:给定两个文本s、t,判断s是否为t的子序列,算法的最快时间复杂度为O(L),L为文本t的长度;多模子序列匹配任务指的是,给定文本s与词表T,判断T中存在哪些词为s的子序列。

相关技术中,多模子序列匹配任务的方案实现如下过程:遍历词表T的每一个词t,依次判断该词t是否为s的子序列,上述过程的时间复杂度为O(LN),L为输入文本s的长度,N为词表大小,然而,由于词表T通常非常大,上述方法非常耗时。

更进一步地,采用一种预召回的方案,提前从整个词表T中召回一批可能是文本s的子序列的词集合T’,例如:为词表T建立倒排索引,从而可在O(L)的时间内,在T中找到与s存在字符交集的词作为T’,只需要用T’中的词与s进行子序列匹配计算即可,从而将时间复杂度降为O(LN’),N’为预召回词集T’的大小。然而,上述预召回方法的时间复杂度还是平方级的,仍然不够快。

在一个可选的实施例中,采用一种基于多模子序列匹配的表型识别链接和极性判断方法;同时,为了提高算法的运行速度,还采用基于前缀树的、具有线性时间复杂度的子序列多模匹配算法,对基于前缀树的、具有线性时间复杂度的子序列多模匹配算法进行如下阐述。示意性的,如图9所示,预先确定表型术语集910中的多个表型术语;或者,在获取表型术语集后,从表型术语集910中获取与文本描述内容存在一定关联的表型术语。假设输入的文本描述内容920为“右肺下叶后基底段胸膜下见斑片状磨玻璃样密度影改变”,基于文本描述内容920确定表型术语集910中的多个表型术语。例如:表型术语集910中的多个表型术语包括:“肺磨玻璃影、肺磨玻璃改变、肺磨玻璃影改变、肺斑片影、肺结节、肺结核、胸腔积液”。

可选地,在得到表型术语集910中的多个表型术语:肺磨玻璃影、肺磨玻璃改变、肺磨玻璃影改变、肺斑片影、肺结节、肺结核以及胸腔积液后,对多个表型术语分别进行字符拆分,从而获取得到多个表型字符数据,如:对上述多个表型术语进行字符拆分后,得到的表型字符数据包括“肺”、“磨”、“玻”、“璃”、“影”、“改”、“变”、“斑”、“片”、“结”、“节”、“核”、“胸”、“腔”、“积”以及“液”。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤723,基于多个表型字符数据在表型术语中的字符排列顺序,将多个表型字符数据组成字符前缀树。

可选地,如图9所示,基于对表型术语集910中的上述多个表型术语进行字符拆分后得到的表型字符数据,根据多个表型字符数据在表型术语中的字符排列顺序,将多个表型字符数据组成字符前缀树930。

其中,字符前缀树930的根节点为R,用于指示起点;根节点下包括两个子节点“肺”以及“胸”,用于指示上述表型术语的起始字符,并依据不同表型术语中表型字符数据的排列数据,增加对应的子节点。

可选地,将可以组成一个表型术语的最后一个表型字符数据进行加粗,以指示可以从此处进行一次拆分,得到对应的表型术语。例如:“肺磨玻璃影”和“肺磨玻璃影改变”为两个表型术语,对“影”和“变”进行加粗,以指示可以从此处进行一次拆分,得到表型术语“肺磨玻璃影”以及“肺磨玻璃影改变”。

步骤724,依据组成文本描述内容中文本字符的字符顺序,将文本描述内容与字符前缀树中的多个表型字符数据进行字符比对,确定文本描述内容中包括的第一匹配结果。

在一个可选的实施例中,将文本描述内容与字符前缀树中的多个表型字符数据进行字符比对,并标记字符前缀树中与文本描述内容中的字符相匹配的表型字符数据,获得与文本描述内容存在字符匹配关系的多个字符匹配树。

示意性的,如图9右侧所示,为依据组成文本描述内容中文本字符的字符顺序,将文本描述内容与字符前缀树中的多个表型字符数据进行字符比对的比对过程的示意图。将文本描述内容与字符前缀树中的多个表型字符数据进行字符比对,并标记字符前缀树中与文本描述内容中的字符相匹配的表型字符数据,获得与文本描述内容存在字符匹配关系的多个字符匹配树。

其中,字符前缀树(即:图9中右侧多个子图)上的灰色节点为命中过(即被标记)的节点。每个字符匹配树(子图)下方为命中到的表型字符数据,并记录了下一个开始节点以及需要进行比对的表型字符数据。

基于多个字符匹配树中被标记的表型字符数据,获取多个候选词汇匹配结果。示意性的,在图9中右侧中从上至下、从左至右的11个字符匹配树中,分别得到的候选词汇匹配结果包括:R(右);右肺;右肺、右胸;右肺斑、右胸;右肺斑片、右胸;右肺斑片、右肺磨、右胸;右肺斑片、右肺磨玻、右胸;右肺斑片、右肺磨玻璃、右胸;右肺斑片影、右肺磨玻璃影、右胸;右肺斑片影、右肺磨玻璃影改、右肺磨玻璃改、右胸;右肺斑片影、右肺磨玻璃影改变、右肺磨玻璃改变、右胸。

在一些实施例中,如图10所示,以采用多模子序列匹配算法对文本描述内容进行分析为例进行说明。

在得到文本描述内容1010后,对文本描述内容1010进行子句拆分(分句处理),得到文本描述语句。通过情感词汇数据集1020(包括否定词表、肯定词表以及不定词表)、忽略词汇数据集1030以及表型术语集1040对文本描述语句进行分析,并采用多模子序列匹配算法确定第一匹配结果,采用极性判断方式确定文本描述语句中的情感取向,从而确定文本描述内容的情感取向。

在一个可选的实施例中,对多个候选词汇匹配结果进行重叠检测,将符合重叠标准且字符数量达到预设数量阈值的候选词汇匹配结果作为所述第一匹配结果。

可选地,在多模子序列匹配算法过程中引入重叠检测(机制),以解决匹配错误的问题。重叠检测机制用于指示将从属于一个字符串的字符串进行删除的过程,例如:候选词汇匹配结果中包括“肺磨玻璃改变”以及“肺磨玻璃影改变”,其中“肺磨玻璃改变”属于“肺磨玻璃影改变”的子序列,则在进行重叠检测机制时,将从属于“肺磨玻璃影改变”的“肺磨玻璃改变”进行删除。

示意性的,假设表型术语集1040中的表型术语包括“咳嗽、肺磨玻璃影、肺磨玻璃改变、肺磨玻璃影改变、肺斑片影、视乳头水肿、视乳头出血、乳头水肿、乳头出血”;忽略词表为空,对文本描述内容1010中的多条文本描述语句进行识别的识别结果如下表6所示。

表6

其中,LINK_TERM用于指示表型特征;Node用于指定进行匹配后从文本描述内容中确定的表型术语;POLARITY用于指示文本描述内容的情感取向。

针对第一行所示的文本描述语句“右肺下叶后基底段胸膜下见斑片状磨玻璃样密度影改变”,其中,“肺磨玻璃改变”以及“肺磨玻璃影”均为“肺磨玻璃影改变”的子序列,因此基于重叠机制,“肺磨玻璃改变”以及“肺磨玻璃影”进行删除,将“肺磨玻璃影改变”作为该文本描述语句的第一匹配结果。

针对第二行所示的文本描述语句“体检时视乳头未见水肿出血”,其中“乳头水肿”是“视乳头水肿”的子序列,因此基于重叠机制,将“乳头水肿”进行删除;且“乳头出血”是“视乳头出血”的子序列,因此将“乳头出血”进行删除,将“视乳头水肿”以及“视乳头出血”作为该文本描述语句的第一匹配结果。

可选地,采用极性检测方法,对上述重叠检测后得到的第一匹配结果进行情感极性检测。示意性的,对第一行文本描述语句进行分析后,确定情感取向为阴性;对第二行文本描述语句进行分析后,确定情感取向为阴性。

例如:在匹配出第一匹配结果为“视乳头水肿”后,依次在剩余序列“体检时”、“未见”中进行情感极性检测,从而确定该子句的情感取向为阴性。

在一些实施例中,可以对允许进行子序列匹配的表型术语的字符长度进行限制。例如:限定长度大于等于4的词才允许使用子序列匹配的方案进行搜索,以降低错误率;同时,可以通过一些启发式的方案,例如:根据子序列的分散程度,当匹配的子序列的每个字都彼此不相邻时,可以考虑丢弃该匹配结果等。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤725,基于第一匹配结果对文本描述内容进行格式转换,得到与文本描述内容匹配的表型特征。

在一个可选的实施例中,将对文本描述内容进行分句处理后得到的每一条文本描述语句的情感取向,作为文本描述内容的情感取向,从而在确定文本描述内容的情感取向时,基于每一条文本描述语句中的情感取向以及该条文本描述语句中的表型术语(第一匹配结果),确定每一条文本描述语句分别对应的表型特征,将每一条文本描述语句分别对应的表型特征组成表型特征表格(其中包括多个表型特征),从而将表型特征表格作为与文本描述内容匹配的表型特征。

(三)文本描述内容结构化+文本匹配

步骤731,对文本描述内容进行词汇提取,得到文本描述内容中的多个文本词汇数据。

示意性的,除了上述两种方法外,借助机器学习模型对文本描述内容进行结构化处理。

步骤732,对多个文本词汇数据在文本描述内容中的关键程度进行分析,从多个文本词汇数据中获取文本描述词汇。

其中,文本描述词汇用于指示文本描述内容中关键词汇,关键程度是基于串联起文本描述内容的词汇关系进行确定的。

示意性的,对文本描述内容进行词汇提取,从而得到文本描述内容中的多个文本词汇数据,并基于预先配置的数据关系识别格式,对多个文本词汇数据之间的数据关系进行分析,从而实现对文本描述内容进行结构化处理的过程。

例如:文本描述内容为“3天前无明显诱因出现膝盖疼”,对文本描述内容进行词汇提取后得到的多个文本词汇数据包括“3天前、无明显诱因、出现、膝盖以及疼”,基于预先配置的数据关系识别格式,确定对文本描述内容进行结构化处理后的结果为“{表型Mention:膝盖疼,时间:3天前,病因:无明显诱因,描述对象:膝盖,异常描述:疼}”。

可选地,将上述表型Mention作为文本描述词汇,该文本描述词汇是文本描述内容的主要描述内容。

步骤733,将文本描述词汇与从表型术语集中获取的表型术语进行词汇匹配,确定词汇相似度结果。

可选地,将文本描述词汇与表型术语集中的表型术语进行词汇匹配,从表型术语集中获取候选表型术语。

其中,候选表型术语中的至少一个字符与文本描述词汇中的字符相同。

示意性的采用表型Mention(文本描述词汇)从表型术语集中预召回前k(top k)个候选表型术语。示意性的,预召回时,采用搜索引擎常用的最佳匹配(Best Match25,BM25)算法或向量空间模型(Vector Space Model,VSM)对表型Mention分析,以确定与表型Mention相关的表型术语,将该表型术语作为候选表型术语。

示意性的,对于每一个候选表型术语,将表型术语与表型Mention进行文本匹配,包括以下两种情况。

(1)若从表型术语集中召回的候选表型术语与表型Mention有其中一者无法拆解出“描述对象”和“异常描述”,则使用粗粒度文本匹配模型计算语义相似度得分,输出得分高于阈值的表型术语,并将该表型术语作为第一匹配结果。

(2)若从表型术语集中召回的候选表型术语与表型Mention均可以拆解出“描述对象”以及“异常描述”,则使用细粒度文本匹配模型计算语义相似度得分,输出得分高于阈值的表型术语,并将该表型术语作为第一匹配结果。

其中,描述对象用于指示文本描述词汇中的描述主体;异常描述用于指示文本描述词汇中的异常情况内容。

在一些实施例中,若对文本描述内容进行情感取向分析后,确定文本描述内容存在“否定描述”字段,则情感取向为阴性;或者,若对文本描述内容进行情感取向分析后,确定文本描述内容存在“不确定描述”字段,则情感取向为“未知”;否则,文本描述内容的情感取向为阳性。

示意性的,如图11所示,为文本描述内容结构化和文本匹配的过程示意图。将表型术语集1110和文本描述内容1120进行结构化过程,在对表型术语集1110进行结构化后,通过预召回过程,从表型术语集1110中选择部分候选表型术语;在对文本描述内容1120进行结构化后,结合表型术语集1110和文本描述内容1120,对文本描述内容1120中的词汇内容进行分析,从而确定文本描述词汇。并将从表型术语集1110中选择得到的多个候选表型术语,与进行结构化过程后得到的文本描述词汇进行比较,并通过上述两种情况,采用不同的模型(粗粒度文本匹配模型1131或细粒度文本匹配模型1132)对文本描述内容进行处理,从而得到第一匹配数据。

可选地,当候选表型术语与文本描述词汇(表型Mention)有其中一者无法拆解出“描述对象”和“异常描述”,则使用粗粒度文本匹配模型1131计算语义相似度得分,输出得分高于阈值的表型术语,并将该表型术语作为第一匹配结果。

示意性的,在使用粗粒度文本匹配模型进行分析时,对文本描述词汇(表型Mention)进行特征提取后,得到文本描述特征;对候选表型术语进行特征提取后,得到候选的表型特征;将文本描述特征和候选的表型特征进行拼接后输入预训练模型(MedBERT,Bidirectional Encoder Representation from Transformers)模型,进行二分类并得到预测概率,将预测概率作为相似度得分。

其中,MedBERT模型为在样本文本描述内容上进行预训练后得到的BERT模型;预训练过程中的损失函数可以使用softmax函数与交叉熵损失函数,从而通过计算得到的损失值进行训练过程。

如图12所示,对文本描述内容进行结构化分析后,得到多个词汇内容,其中包括文本描述词汇(表型Mention):发烧;且基于文本描述内容,确定从表型术语集中获取得到的候选表型术语包括:发热、腹部灼热等。对文本描述词汇进行特征提取后得到文本描述特征;对候选表型术语进行特征提取后得到候选的表型特征;将文本描述特征和候选的表型特征进行拼接后输入粗粒度文本匹配模型1210,将得到的分类(classification,cls)向量通过多层感知机(Multilayer Perceptron,MLP)并得到预测概率,将预测概率作为相似度得分。

可选地,当候选表型术语与文本描述词汇(表型Mention)均可以拆解出“描述对象”和“异常描述”,则使用细粒度文本匹配模型1132计算语义相似度得分,输出得分高于阈值的表型术语,并将该表型术语作为第一匹配结果。

在一些实施例中,响应于多个文本描绘词汇数据中存在代表文本描述内容所描述对象的目标文本词汇数据,且多个候选表型术语中存在代表文本描述内容数据所描述对象的目标表型词汇数据,对目标文本词汇数据进行特征提取,得到目标文本词汇数据对应的目标文本词汇特征;对目标表型词汇数据进行特征提取,得到目标表型词汇数据对应的目标表型词汇特征。

可选地,目标文本词汇数据实现为文本描述内容的“描述对象”和“异常描述”中的至少一种;目标表型词汇数据实现为从候选表型术语提取得到的“描述对象”和“异常描述”中的至少一种。

示意性的,在使用细粒度文本匹配模型进行分析时,将对文本描述词汇(表型Mention)进行拆解后,从中确定“描述对象”以及“异常描述”;同理,对候选表型术语进行拆解后,从中确定“描述对象”以及“异常描述”,将从文本描述词汇中确定的“描述对象”以及从候选表型术语中确定的“描述对象”输入“描述对象”模型,从而确定“描述对象”对应的第一交互向量;将从文本描述词汇中确定的“异常描述”以及从候选表型术语中确定的“异常描述”输入“异常描述”模型,从而确定“异常描述”对应的第二交互向量,将第一交互向量与第二交互向量进行拼接后送入全连接网络进行二分类后以得到预测概率,并将预测概率作为相似度得分。

其中,“描述对象”模型和“异常描述”模型均可以实现为预先训练的BERT模型,且预训练过程中的损失函数可以使用softmax函数与交叉熵损失函数,从而通过计算得到的损失值进行训练过程。

如图13所示,对文本描述内容进行结构化分析后,得到多个词汇内容,其中包括文本描述词汇(表型Mention):膝盖疼;且基于文本描述内容,确定从表型术语集中获取得到的候选表型术语包括:膝关节疼痛、肘关节疼痛。随后将上述内容输入细粒度文本匹配模型,即:将文本描述词汇中的“描述对象”和候选表型术语中的“描述对象”输入“描述对象”模型1311;将文本描述词汇中的“异常描述”和候选表型术语中的“异常描述”输入“异常描述”模型1312,将得到的cls向量通过MLP并得到预测概率,将预测概率作为相似度得分。可选地,“描述对象”模型1311和“异常描述”模型1312可以采用针对各自内容进行训练的MedBERT模型进行处理。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

步骤734,基于词汇相似度结果,确定文本描述内容中包括的第一匹配结果,并对文本描述内容进行格式转换,得到与文本描述内容匹配的表型特征。

可选地,基于上述三种方法中的至少一种,对文本描述内容进行分析,从而确定文本描述内容中的第一匹配结果,并基于生成的第一匹配结果对文本描述内容进行格式转换,得到与文本描述内容匹配的表型特征。

示意性的,从文本描述内容中识别出第一匹配结果(表型)及情感取向(极性)后,将第一匹配结果经过一个转换模块,从而对其进行格式转换,得到表型特征,格式转换过程示例如下表7所示。

表7

可选地,根据文本描述内容的情感取向和格式转换后的特征类型,特征值采用不同逻辑进行处理,下表8展示了特征的可能处理情况。

表8

需注意,表型特征是基于文本描述数据得到的特征表示,因此无法转换为数值型特征,故表8中没有数值型的特征类型。

在本申请实施例中,采用如上三种方法中的至少一种方法,对文本描述内容与表型术语集进行匹配过程,从而借助极性词汇,更加准确地把握文本描述内容的情感取向,提高表型特征的信息有效性。

在一个可选的实施例中,在对检验数据进行格式转换以获得检验特征时,可以通过如下过程对检验数据进行分析。示意性的,如图14所示,上述图2所示出的实施例中的步骤230还可以实现为如下步骤1410至步骤1450。

步骤1410,获取检验术语集。

其中,检验术语集中包括检验术语,检验术语对应有检验术语类型。

可选地,检验术语集为基于经验预先统计得到的数据集。示意性的,如下表所示,为现存的、进行统计分析后得到的检验术语集,采用人工归纳的方式总结了常见的检验术语,得到如下表9所示的检验术语集。

表9

可选地,将表9所示的标本名称作为检验术语类型。其中的编码为人为标注的编码情况。示意性的,检验项基本可分为3种类型,即:偏离型、是否型和类别型。其中,偏离型指检验结论是偏高还是偏低的检验项,例如:白细胞计数等;是否型指检验结论是阴性还是阳性的检验项,例如:新型冠状病毒核酸等;类别型指检验结果存在分类体系的检验等。如下表10所示。

表10

步骤1420,将检验数据对应的检验数据类型以及检验术语集中的检验术语类型进行匹配,从检验术语集中获取与检验数据类型对应的检验术语。

示意性的,如图15所示,为对检验数据进行分析的流程图。在获得检验数据1510后,将检验数据1510经过缺失值补全模块1520以进行缺失值补全过程。

缺失值补全模块1520

可选地,当输入的检验数据1510中的某些字段存在缺失时,例如:标本名称缺失、单位缺失等,需要对检验数据1510中的字段进行补全。

示意性的,缺失值补全模块1520的基本原理实现为:借助多字段倒排索引方法,从检验术语集中召回候选检验术语,若检验数据中除缺失字段之外的其他字段与召回的候选检验术语对应字段相同,则采用候选检验术语中的字段对检验数据中的缺失字段进行填充,从而以该值作为缺失字段的填充值。

其中,倒排索引(Inverted Index)用于指示根据词汇快速获取包含这个词汇的文本内容。倒排索引通常由两个部分组成:“词汇数据集”和“倒排文本”,即上述的检验数据和检验术语集。

示意性的,假设检验数据实现为:{标本:None,检验项目名称:肌酸激酶同工酶,检验方法:None,单位:None},通过未缺失字段,即检验项目名称,通过检验数据与检验术语集(如:表9所示)之间进行的倒排索引,确定召回的候选检验术语为检验术语集中编号为LAB:0002、LAB:0003以及LAB:0004,由于这三个候选检验术语的标本名称均为“血”,因此检验数据中缺失的标本名称可填写为“血”;对于检验方法,既有“化学发光法”,又有“无”,即:检验方法表现不一致,因此不做填充;对于单位,既有U/L又有ng/mL,即:单位表现不一致,因此不做填充。

步骤1430,获取检验数据中结果数值。

其中,结果数值用于指示针对样本对象检测得到的数值数据。

示意性的,检验数据中包括多个字段。例如:检验数据中包括如下字段中的至少一种:“标本名称”、“项目名称”、“检验方法”、“单位”、“检验结果”、“参考范围”以及“提示”。

可选地,在对检验数据进行缺失值补全后,对补全后的检验数据进行分析。示意性的,如图15所示,对补全后的检验数据进行标准化分析过程1520以及预处理过程1530。

标准化分析过程1530

示意性的,根据检验数据1510中的“标本名称”、“项目名称”、“检验方法”以及“单位”4个字段,对检验数据1510进行“检验标准化”处理,即:将检验数据1510归一到检验术语集的某个编码上。

可选地,基于检验术语集中不同的字段,对不同种的字段分别构建各自的节点树,例如:对检验术语集中的字段“标本名称”下的内容进行分析,从而构建“标本名称”对应的节点树;对检验术语集中的字段“检验项目名称”下的内容进行分析,从而构建“检验项目名称”对应的节点树;对检验术语集中的字段“检验方法”下的内容进行分析,从而构建“检验方法”对应的节点树。

示意性的,如图16所示,为构建得到的“标本名称”对应的节点树、“检验项目名称”对应的节点树以及“检验方法”对应的节点树中的部分内容示意图。

在“标本名称”对应的节点树中,以标本名称1610为根节点,其下包括子节点血(血液)、尿(尿液),且血(血液)下还包括动脉血等内容;在“检验项目名称”对应的节点树中,以检验项目名称1620为根节点,并具有对应的子节点;在“检验方法”对应的节点树中,以检验方法1630为根节点,并具有对应的子节。其中,每个节点表示一个“标本名称”内容,不同节点之间用is_a边进行连接形成有向无环图。

示意性的,将检验数据对应的上述内容(“标本名称”、“检验项目名称”以及“检验方法”)链接至对应的节点树上,即:将检验数据对应的“标本名称”链接至“标本名称”对应的节点树上;将检验数据对应的“检验项目名称”链接至“检验项目名称”对应的节点树上;将检验数据对应的“检验方法”链接至“检验方法”对应的节点树上。

基于标本名称、检验项目名称、检验方法的书写相对规范可控,故上述链接至对应的节点树时不需要复杂的模型。例如:基于词向量、BERT的语义相似度计算等方式,进行上述链接过程。然而,上述模型也可能会引入不可控性与错误,还需要额外的训练数据。示意性的,以将检验数据中的“检验项目名称”链接至“检验项目名称”对应的节点树上为例进行说明,即:以对检验数据中的“检验项目名称”进行标准化为例进行说明。

示意性的,为“检验项目名称”对应的节点树中的每一节点,指定需要匹配的字符串以及匹配方式,如下表11所示。

表11

示意性的,在匹配方式上,最大后向匹配采用考虑忽略词表、但不考虑极性判断的最大后向匹配算法;根据检验数据中“检验项目名称”,从“检验项目名称”对应的节点树中,搜索对应的节点,当命中时则认为能够链接至对应的本体节点。完全匹配用于指示当且仅当输入的检验数据中“检验项目名称”与“检验项目名称”对应的节点树中的某个节点对应的词完全一致时,才能将输入链接至对应的本体节点。

需要注意的是,若节点未配置检索词表,则默认使用该节点在对应节点树中的所有同义表达(存储于对应节点树中的数据中)。

示意性的,如下表12所示,为将检验数据中“检验项目名称”与“检验项目名称”对应的节点树采用对应匹配方法进行匹配(链接)后的结果。

表12

其中,以第一行为例进行说明,当检验数据中的“检验项目名称”为“铁蛋白”时,采用最大后向匹配方法,忽略词表为“转铁蛋白”,将检验数据中的“铁蛋白”与检验术语集中“检验项目名称”对应的节点树进行匹配,从而确定检验数据中的“铁蛋白”与检验术语集中的“铁蛋白”匹配等。

在一些实施例中,对于关键词逻辑规则方案,为不同字段对应的节点树中的每一节点指定关键词规则,如下表13所示。

表13

示意性的,关键词规则的基本原理实现为:使用多模匹配算法(Aho-Corasick,AC)自动机,快速匹配检验数据中的关键词,再判断是否符合预设的关键词规则。例如:检验数据实现为上表所示“&(尿酸^(结晶)^(酸碱))”,表示当检验数据中包含“尿酸”但不包含“结晶”且不包含“酸碱”时,才能将检验数据中为“检验名称节点”链接至检验术语集中“检验项目名称”对应的节点树中的节点“Node(尿酸)”。

可选地,对于检验数据的每一项内容,或者,对于每一项检验数据,分别采用上述“字符串匹配方案”与“关键词逻辑规则”方案进行节点链接,将链接后得到的节点合并,以作为最后的结果。

在一些实施例中,在得到初始的节点列表后,对于“标本名称”与“检验方法”,还可以将其进行“祖先扩展”,即:将已链接节点的所有祖先节点也纳入进来,例如:若节点Node(EDTA抗凝血)在链接列表中,则应把Node(抗凝血)、Node(血)加入进来。由于不同的检验项目名称之间具有严格的区别性针对性,因此对于检验项目名称,不进行上述“祖先扩展”操作。

例如:“病理管型”与“管型”均属于检验项目名称,可以存在于一项检验数据中,虽然“病理管型”在字符构成上包含“管型”,但“病理管型”与“管型”属于两个独立的项目,当检验数据实现为“病理管型”时,不应将其匹配至“管型”上。示意性的,对标本名称、检验项目名称、检验方法分别建立倒排索引,从而确定“标本名称节点”链接至检验术语集后,存在的编码集合。如下表14所示,标本名称对应的编码集合实现为如下形式。

表14

如下表15和表16所示,检验项目名称对应的编码集合实现为如下形式。

表15

表16

示意性的,若检验数据未指明标本名称,则默认其可与任何标本名称相匹配,因此Node(“血”)可映射至LAB:0005、LAB:0006、LAB:0007。

示意性的,对于检验数据,分别对检验数据中的“标本数据”、“检验项目名称”、“检验方法”进行处理,从而得到匹配后的结果;再根据倒排索引,得到各自映射至的编码集合,将3个集合取交集,从而得到候选编码集合。

例如:检验数据为{标本名称:血,检验项目名称:肌酸激酶同工酶,检验方法:None,单位:ng/mL},得到的候选编码集合为{LAB:0002,LAB:0003}。

在一个可选的实施例中,只有当标本名称、检验项目名称、检验方法均能够与检验术语集符合时,且单位能够转换,才能将检验数据映射到检验术语集中的某一检验术语上。

步骤1440,将结果数值的结果单位表示与检验术语对应的单位表示进行比较,确定单位比较结果。

示意性的,在得到候选编码集合后,通过“单位转换”模块,判断检验数据中的单位与检验术语集中的单位能否互相转换;如能转换,则给出转换的倍数。

步骤1450,基于单位比较结果对检验数据进行调整,得到与检验数据对应的检验特征。

示意性的,整体的流程如图17所示,检验数据中的单位经过单位预处理模块1710,例如:将复合型单位“g/L”拆分为原子单位“g”、“L”,例如:将不规范的单位“10~9/L”改写为标准单位写法“10^9”等。

可选地,采用如下两种方式单位之间是否可以转换。即:朴素转换器(NaiveConvertor)与品脱转换器(Pint Convertor)负责判断两个原子单位能否转换,如能转换,则输出转换倍数。

其中,品脱转换器用于指示对开源单位转换工具进行一层封装,然而,在实践中发现品脱转换器无法覆盖检验数据中的所有单位,因此构建了朴素转换器。

在运行时,二者的逻辑关系为,若朴素转换器能处理,则返回其处理的结果,否则,继续尝试使用品脱转换器得到处理结果。

在朴素转换器中,适用支持自定义的单位转换方案。示意性的,令u

m

第一阶段:

第二阶段:

算法运行阶段:

在一个可选的实施例中,在上述流程中,核心在于单位转换关系补全算法。

示意性的,通过上述算法接收的输入为“原子单位”,则对于复合单位,例如:“g/L”与“mg/L”,先计算“g”与“mg”的换算,再计算“L”与“L”的换算,最后计算复合单位的换算关系。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

预处理过程1540

示意性的,根据检验数据1510中的“检验结果”、“参考范围”以及“提示字段”,对检验数据1510进行“预处理”,即:通过规则对特征类型进行判断,并生成特征值。

在特征类型判断阶段:

在一些实施例中,将“参考范围”通过正则表达式转换为“{参考值下限:3.5,参考值上限:9.5}”;例如:将检验数据“+”、“阳性”、“++”、“3+”等转换为表示“阳性”的程序常量值;例如:将提示“↑”、“偏高”等转换为表示“偏高”的程序常量值,从而实现规范化处理的过程。

在特征值生成阶段:

例如:若特征类型为“偏离型”,需要根据“检验结果”与参考范围,或根据“提示字段”,判断特征值为“偏高”、“偏低”还是“正常”,并且对“检验结果”进行“归一化”处理,以得到“额外特征值”。

例如:若特征类型为“是否型”,则可以将预处理阶段得到的程序常量值直接作为特征值。

例如:若特征类型为“类别型”,则对每个类别型特征都提供了一个检验结果分类器,将原始结果转换为类别名称,例如:转化标准为(尿,颜色),当检验数据对应的“检验结果”为“乳糜”、“乳白色”、“乳色”等,则会将其分类为“白色”。

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

在本申请实施例中,采用如上过程对检验数据与检验术语集进行匹配过程,从而格式转换以及单位转换等过程,标准化检验数据并得到对应的检验特征,便于进行后续的特征整合过程。

一个可选的实施例中,在经过上述过程得到表型术语和检验特征后,则可对表型特征和检验特征进行整合,得到用于表征样本对象生理情况的数据特征项。

示意性的,如图18所示,对样本对象在历史时间段中的文本描述内容和检验数据进行分析后,得到在不同时刻分别对应的表型特征和检验特征,在对不同时刻分别对应的表型特征和检验特征进行整合后,得到在“时间轴”上分布的多个数据特征项,即:将数据时间轴1810转化为特征时间轴1820。

可选地,当需要取出某一时刻或者某一历史时间段中的数据特征项,作为某次就诊事件时的数据特征项,例如:取某次门诊记录的前后3天作为一个就诊事件,对前后3天时间段内的多个数据特征项进行获取,多个数据特征项之间实际上可能存在冲突。此外,数据特征项中直接描述的特征还不是全貌,还可以根据表型术语集和检验术语集推导出其他的特征。下面依次采用“特征冲突处理”与“特征自动推导”说明,对上述两个过程进行阐述。

特征冲突处理

特征冲突是指出现了同一个特征但有不同特征值的情况,例如:同时出现了“{特征名称:血_白细胞计数,特征值:偏低,额外特征值:-0.95,来源:结构化检验,时间:2021.12.13}”和“{特征名称:血_白细胞计数,特征值:正常,额外特征值:None,来源:门诊记录,时间:2021.12.14}”时,需要删除其中一个。例如:依次对比两者的特征值、额外特征值、来源以及时间,优先保留特征值异常的(e.g:偏低优先于正常)、带有额外特征值的、来自结构化检验的、时间更新的。在上述例子中,则将保留前者删除后者。

特征自动推导

由于特征与表型(文本描述内容或检验数据)之间存在一定的映射关系,而表型之间又存在上下位关系,因此可以进行特征项的自动推导,步骤实现为如下过程。

(1)将特征项f转换为表型节点p;(2)获取表型节点p的所有祖先表型节点a;(3)将表型节点a转换为特征项,加入特征列表。

示意性的,如图19所示,为局部的表型本体1910。对特征抽取结果未进行推导前的形式,如下表17所示。

表17

对特征抽取结果进行推导后的形式,如下表18所示。

表18

在一个可选的实施例中,使用上述医疗数据的特征化处理方法构建特征层,特征层作为整个系统的支撑底座,支持了症状发生率监测、组合症状分析、传染病个体风险预警、传染病区域风险预测等上层应用。

示意性的,如图20所示,界面左侧为待处理的疾病就诊事件列表2010;界面右侧为某个就诊事件的相关信息2020,该相关信息即为服务器或者终端通过特征层提取得到数据特征项。例如:相关信息中展示了乏力、发热、咳嗽等症状,即:上述症状来自该就诊事件对应的特征层抽取结果。

在一个可选的实施例中,将上述医疗数据的特征化处理方法应用于医疗领域中,针对医疗数据(医学领域的文本描述内容和检验数据)的特点,设置整合后的数据特征项的形式,每个数据特征项中包括特征名称、特征类型、特征值、额外特征值、单位、特征来源、特征发生时间、标签等字段,各个类型的医疗数据都可以转换为如下表19的统一的数据特征项列表形式。

表19

其中,(特征)名称、(特征)类型、单位三元组可以唯一确定一个特征项,特征类型包括是否型、偏离型、类别型、数值型4种。对于是否型,特征值可能为阳性、阴性、未知3种;对于偏离型,特征值可能为偏高、偏低、正常、未知4种;对于类别型,特征值种类数目决定于特征项,例如“性别”包括男性、女性、其他、未知4种类型,“尿_颜色”特征包括无色、黄色、红色、绿色、黑色等;对于数值型,其值可为任意的浮点数。

对于偏离型特征,还可能带有额外的特征值,之所以不把它拆分为一个偏离型特征与另一个数值型特征,是为了将特征值(偏低)与额外特征值(-0.085)绑定在一起,在后续的特征整合模块,如果遇到冲突可以更加方便地删除该特征。

需要注意的是,对于额外特征值(-0.085),根据参考范围在原始结果(2.9)的基础上进行了进一步的转换。在结构化检验中,即使标本名称、项目名称、单位均一致,但由于检验方法不同、或仪器试剂的不同,参考范围也可能不同;当参考范围不同时,检验结果之间不具有可比性。因此,为了在应用层更好地使用额外特征值,可以对额外特征值进行归一化处理。

示意性的,令参考范围下限为L,上限为U,检验结果的原始值为X,检验结果的转换值为X′。当参考范围为“L-U”的形式时(如:3.5-9.5),则检验结果X′实现为如下形式:

当参考范围为“

当参考范围为“>L”的形式时(如:>2.3),则检验结果X′实现为如下形式:

值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。

可选地,上述数据处理过程可以通过文本特征转换模块(或模型)、检验特征转换模块(或模型)以及特征整合模块(或模型)实现,即:如图21所示的流程。

将文本描述内容通过文本特征转换模块2110,进行上述步骤220或图7所示的方法内容,并得到表型特征;将文本描述内容通过检验特征转换模块2120,进行上述步骤230所示的方法内容,并得到检验特征;通过整合模块2130将表型特征和检验特征进行整合,从而得到数据特征项,将多个数据特征项整合可以得到数据特征项列表。

在本申请实施例中,对特征整合情况下的特征冲突和特征自动推导过程进行说明,从而对特征进行整合时,使得整合后的数据特征项更加标准、更加全面。

图22是本申请一个示例性实施例提供的医疗数据的特征化处理装置的结构框图,如图22所示,该装置包括如下部分:

获取模块2210,用于获取文本描述内容和检验数据,所述文本描述内容用于描述样本对象的表型,所述检验数据是基于文本描述内容对所述样本对象进行表型检测得到的数据;

数据匹配模块2220,用于将所述文本描述内容与预先配置的表型术语集中的表型术语进行匹配,基于生成的第一匹配结果对所述文本描述内容进行格式转换,得到与所述文本描述内容匹配的表型特征,所述表型特征用于通过预设的特征格式和所述表型术语对所述文本描述内容进行表达;

类型匹配模块2230,用于将所述检验数据与预先配置的检验术语集中的检验术语类型进行匹配,基于生成的第二匹配结果对所述检验数据进行格式转换,得到与所述检验数据匹配的检验特征,所述检验特征用于通过预设的特征格式和所述检验数据类型对所述检验数据进行表达;

整合模块2240,用于对所述表型特征和所述检验特征进行整合,得到用于表征所述样本对象生理情况的数据特征项。

在一个可选的实施例中,所述数据匹配模块2220还用于将所述文本描述内容与所述表型术语集中的表型术语进行文本匹配,将从所述文本描述内容中提取得到至少一个表型术语作为所述第一匹配结果;通过情感词汇数据集对所述文本描述内容进行情感极性分析,确定所述文本描述内容的情感取向,所述情感词汇数据集中存储有表示情感取向的极性词汇数据;基于所述第一匹配结果和所述文本描述内容的情感取向,对所述文本描述内容进行格式转换,得到与所述文本描述内容匹配的所述表型特征。

在一个可选的实施例中,所述数据匹配模块2220还用于基于所述第一匹配结果,确定进行格式转换后得到的所述表型特征中的表型名称;基于所述文本描述内容的情感取向,确定进行格式转换后得到的所述表型特征中的表型类型;构建所述表型名称和所述表型类型的对应关系,生成与所述文本描述内容匹配的所述表型特征。

在一个可选的实施例中,所述数据匹配模块2220还用于从所述文本描述内容的第一端向第二端扫描所述文本描述内容中的字符串,并将所述字符串与所述表型术语集进行文本匹配;响应于所述字符串存在于所述表型术语集中,从所述文本描述内容中提取所述字符串作为所述表型术语,得到所述第一匹配结果。

在一个可选的实施例中,所述数据匹配模块2220还用于响应于所述文本描述内容中包括忽略词汇数据集中存储的忽略词汇数据,将所述文本描述内容中与所述忽略词汇数据对应的字符串进行删除,得到文本描述字符串,所述忽略词汇数据集为预先存储有多个忽略词汇数据的数据集;将所述文本描述字符串与所述表型术语集中的表型术语进行匹配,基于生成的第一匹配结果对所述文本描述内容进行格式转换,得到与所述文本描述内容匹配的所述表型特征。

在一个可选的实施例中,所述数据匹配模块2220还用于获取所述表型术语集中的所述表型术语;对所述表型术语进行字符拆分,获取得到多个表型字符数据;基于所述多个表型字符数据在所述表型术语中的字符排列顺序,将所述多个表型字符数据组成字符前缀树;依据组成所述文本描述内容中文本字符的字符顺序,将所述文本描述内容与所述字符前缀树中的多个表型字符数据进行字符比对,确定所述文本描述内容中包括的所述第一匹配结果;基于所述第一匹配结果对所述文本描述内容进行格式转换,得到与所述文本描述内容匹配的所述表型特征。

在一个可选的实施例中,所述类型匹配模块2230还用于对所述文本描述内容进行词汇提取,得到所述文本描述内容中的多个文本词汇数据;对所述多个文本词汇数据在所述文本描述内容中的关键程度进行分析,从所述多个文本词汇数据中获取文本描述词汇,所述文本描述词汇用于指示所述文本描述内容中关键词汇;将所述文本描述词汇和所述表型术语集中的表型术语进行词汇匹配,确定词汇相似度结果;基于所述词汇相似度结果,确定所述文本描述内容中包括的所述第一匹配结果,并基于所述第一匹配结果对所述文本描述内容进行格式转换,得到与所述文本描述内容匹配的所述表型特征。

在一个可选的实施例中,所述类型匹配模块2230还用于将所述文本描述词汇与所述表型术语集中的表型术语进行词汇匹配,从所述表型术语集中获取候选表型术语,所述候选表型术语中的至少一个字符与所述文本描述词汇中的字符相同;响应于所述多个文本描绘词汇中存在代表所述文本描述内容所描述对象的目标文本词汇数据,且所述多个候选表型术语中存在代表所述文本描述内容所描述对象的目标表型词汇数据,对所述目标文本词汇数据进行特征提取,得到所述目标文本词汇数据对应的目标文本词汇特征;对所述目标表型词汇数据进行特征提取,得到所述目标表型词汇数据对应的目标表型词汇特征;将所述目标文本词汇特征和所述目标表型词汇特征输入预先训练的文本匹配模型,确定所述词汇相似度结果。

在一个可选的实施例中,所述类型匹配模块2230还用于获取所述检验术语集,所述检验术语集中包括检验术语,所述检验术语对应有检验术语类型;将所述检验数据对应的检验数据类型以及所述检验术语集中的检验术语类型进行匹配,从所述检验术语集中获取与所述检验数据类型对应的检验术语;获取所述检验数据中结果数值,所述结果数值用于指示针对样本对象检测得到的数值数据;将所述结果数值的结果单位表示与所述检验术语对应的单位表示进行比较,确定单位比较结果;基于所述单位比较结果对所述检验数据进行调整,得到与所述检验数据对应的检验特征。

在一个可选的实施例中,所述装置包括扩充模块;

所述扩充模块用于获取状态词汇数据集,所述状态词汇数据集中存储有多个指示表型的状态词汇数据;基于不同表型之间的从属关系,将所述状态词汇数据集中的多个状态词汇数据作为数据节点,并构建具有节点层级关系的表型节点树;获取对象描述数据集,所述对象描述数据集中存储有多个指示表型所描述对象的对象描述数据;基于所述描述对象之间的从属关系,将所述对象数据集中的多个对象描述数据作为数据节点,并构建具有节点层级关系的描述对象节点树;通过所述描述对象节点树对所述表型节点树进行扩充,得到具有节点层级关系的多个表型术语,并得到所述表型术语集。

综上所述,通过数据特征项,能够结合文本描述内容和检验数据,更全面地把握样本对象的生理情况,借助格式转换过程,使得离散的文本描述内容和检验数据更加的标准化,不仅提升了样本对象生理情况呈现的直观性,也有利于借助多个数据特征项,对样本对象的生理情况进行更加全面、细致地分析和预测。

需要说明的是:上述实施例提供的医疗数据的特征化处理装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的医疗数据的特征化处理装置与医疗数据的特征化处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图23示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器2300包括中央处理单元(Central Processing Unit,CPU)2301、包括随机存取存储器(RandomAccess Memory,RAM)2302和只读存储器(Read Only Memory,ROM)2303的系统存储器2304,以及连接系统存储器2304和中央处理单元2301的系统总线2305。服务器2300还包括用于存储操作系统2313、应用程序2314和其他程序模块2315的大容量存储设备2306。

大容量存储设备2306通过连接到系统总线2305的大容量存储控制器(未示出)连接到中央处理单元2301。大容量存储设备2306及其相关联的计算机可读介质为服务器2300提供非易失性存储。也就是说,大容量存储设备2306可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。上述的系统存储器2304和大容量存储设备2306可以统称为存储器。

根据本申请的各种实施例,服务器2300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器2300可以通过连接在系统总线2305上的网络接口单元2311连接到网络2312,或者说,也可以使用网络接口单元2311来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。

本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的医疗数据的特征化处理方法。

本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的医疗数据的特征化处理方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的医疗数据的特征化处理方法。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120116458978