掌桥专利:专业的专利平台
掌桥专利
首页

网络本体语言表达式的生成方法、装置、设备和介质

文献发布时间:2023-06-19 18:32:25


网络本体语言表达式的生成方法、装置、设备和介质

技术领域

本说明书中实施方式关于数据处理领域,具体关于一种网络本体语言表达式的生成方法、装置、设备和介质。

背景技术

在医学知识图谱的构建过程中,针对新增的医学术语,需要使用已经构建完成的医学知识图谱中的医学词来构建新增的医学术语的网络本体语言表达式。目前,需要通过人工构建新增的医学术语的网络本体语言表达式。人工构建网络本体语言表达式的过程中,工作人员需要在已经构建完成的医学知识图谱包括的大量医学词中查找与新增医学术语匹配的医学词,进一步地构建医学术语的网络本体语言表达式。

因此,现有技术中存在医学术语的网络本体语言表达式的生成方法效率较低的技术问题。

发明内容

有鉴于此,本说明书多个实施方式致力于提供一种网络本体语言表达式的生成方法、装置、设备和介质,以一定程度上提高了网络本体语言表达式的生成的效率。

本说明书中多个实施方式提供一种网络本体语言表达式的生成方法,包括:将医学术语在预设医学词典中匹配,预测得出多个多元组数据;其中,所述预设医学词典包括多个层级化的医学词;多元组数据包括所述医学术语和至少一个与所述医学术语相关的医学词;将所述多个多元组数据划分为多个医学知识组;其中,所述医学知识组中的多元组数据用于表示针对所述医学术语的医学知识;不同医学知识组表示的医学知识不同;根据所述多个医学知识组,生成所述医学术语的网络本体语言表达式;其中,所述医学术语的网络本体语言表达式用于依照所述多个医学知识组表示所述多个多元组数据的关联关系。

本说明书的一个实施方式提供一种网络本体语言表达式的生成装置,包括:预测模块,用于将医学术语在预设医学词典中匹配,预测得出多个多元组数据;其中,所述预设医学词典包括多个层级化的医学词;多元组数据包括所述医学术语和至少一个与所述医学术语相关的医学词;划分模块,用于将所述多个多元组数据划分为多个医学知识组;其中,所述医学知识组中的多元组数据用于表示针对所述医学术语的医学知识;不同医学知识组表示的医学知识不同;生成模块,用于根据所述多个医学知识组,生成所述医学术语的网络本体语言表达式;其中,所述医学术语的网络本体语言表达式用于依照所述多个医学知识组表示所述多个多元组数据的关联关系。

本说明书实施方式提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述任一实施方式所述的方法。

本说明书实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述任一实施方式所述的方法。

本说明书提供的多个实施方式,通过在医学词典中预测出与医学术语相关的医学词,并根据所述医学词组成多个多元组数据,接着在所述多个多元组数据中划分出多个医学知识组,进一步地使用医学知识组生成网络本体语言表达式,实现提高了网络本体语言表达式生成的便捷性。

附图说明

图1为本说明书的一个实施方式提供的网络本体语言表达式的生成方法的场景示例的示意图。

图2为本说明书的一个实施方式提供的医学知识组的展示界面的示意图。

图3为本说明书的一个实施方式提供的医学知识组的网络本体语言表达式的示意图。

图4为本说明书的一个实施方式提供的医学知识组的网络本体语言表达式的示意图。

图5为本说明书的一个实施方式提供的不同端交互的示意图。

图6为本说明书的一个实施方式提供的网络本体语言表达式的生成方法的流程示意图。

图7为本说明书的一个实施方式提供的网络本体语言表达式的生成装置的示意图。

图8为本说明书的一个实施方式提供的计算机设备的示意图。

具体实施方式

在相关技术中,为保证不同医学知识图谱之间的一致性,针对新增的医学术语,工作人员会使用已经构建完成的知识图谱中的医学词构建新增的医学术语的网络本体语言表达式。

因此,工作人员在构建医学术语的网络本体语言表达式的过程中,需要在已经构建完成的医学知识图谱所包含的大量医学词中,查询可以用于构建新增的医学术语的网络本体语言表达式的医学词,并根据查询到的医学词构建医学术语的网络本体语言表达式。这可能会耗费大量的时间。

因此,有必要提供一种网络本体语言表达式的生成方法,可以通过在医学词典中预测出与医学术语相关的医学词,并根据所述医学词组成多个多元组数据,接着在所述多个多元组数据中划分出多个医学知识组,进一步地使用医学知识组生成网络本体语言表达式,实现解决提高网络本体语言表达式的生成效率的技术问题。

本说明书中提供一种网络本体语言表达式的生成系统的应用场景示例。所述网络本体语言表达式的生成系统可以包括客户端和服务器。网络本体语言表达式的生成系统的用户可能是医疗领域的工作人员,需要使用网络本体语言表达式生成医学术语对应的网络本体语言表达式。

请参阅图1,在一次网络本体语言表达式的生成过程中,服务器可以接收到一个内容为“手伸肌腱断裂”的医学术语。接着,服务器针对“手伸肌腱断裂”,在多个预设医学类别中确定“手伸肌腱断裂”对应的医学类别为“疾病”。进一步地,在从属于“疾病”的多个预设的医学子类别中,服务器可以匹配到与医学术语“手伸肌腱断裂”相对应的医学子类别“肌肉骨骼疾病”。

不同医学类别对应有不同的医学属性。医学子类别对应的医学属性可以与其从属于的医学类别相同。相应的,服务器在确定了医学术语的医学类别和医学子类别后,可以获取到所述医学类别对应的多个医学属性。接着,服务器可以将“手伸肌腱断裂”在所述多个医学属性中,预测出与“手伸肌腱断裂”相关的目标医学属性。具体的,目标医学属性可以包括“病位”和“相关形态”。

不同的医学属性可以对应有至少一个医学属性取值。根据医学术语“手伸肌腱断裂”,服务器可以在目标医学属性所对应的多个医学属性取值中,匹配与出医学术语相关的目标医学属性取值。具体的,目标医学属性“病位”的目标医学属性取值为“手伸肌腱的结构”,目标医学属性“相关形态”的目标医学属性取值为“破裂”。

将目标术语“手伸肌腱断裂”与其对应的医学类别“疾病”和医学子类别“肌肉骨骼疾病”分别进行组合,可以得到两个多元组数据,分别为(手伸肌腱断裂,is a,疾病)和(手伸肌腱断裂,is a,肌肉骨骼疾病)。将目标术语“手伸肌腱的结构”与其对应的目标医学属性和目标医学属性取值进行组合,可以得到两个多元组数据,为(手伸肌腱断裂,相关形态,破裂)和(手伸肌腱断裂,病位,手伸肌腱的结构)。

进一步地,根据多个多元组数据之间的关联关系,可以将多个多元组数据划分为多个医学知识组。其中,属于同一个医学知识组的多元组数据可以用于表示医学术语的同一个医学知识。具体的,(手伸肌腱断裂,is a,疾病)、(手伸肌腱断裂,is a,肌肉骨骼疾病)、(手伸肌腱断裂,相关形态,破裂)和(手伸肌腱断裂,病位,手伸肌腱的结构)经过划分后可以得到三个医学知识组。其中,(手伸肌腱断裂,is a,疾病)构成第一个医学知识组。(手伸肌腱断裂,is a,肌肉骨骼疾病)构成第二个医学知识组。(手伸肌腱断裂,相关形态,破裂)和(手伸肌腱断裂,病位,手伸肌腱的结构)构成第三个医学知识组。

接着服务器可以判断所述多个多元组数据表示的医学信息是否与医学术语表示的医学信息等价。在等价的情况下,添加等价标识。

服务器在得到医学知识组后,可以将医学知识组的展示界面的界面数据发送给客户端。客户端在接收到所述界面数据后,可以为用户展示医学知识组的展示界面。请参阅图2,展示界面中可以包括多个多元组数据和其所属于医学知识组的组别标识。

在用户根据客户端提供的展示界面确定服务器生成的医学知识组准确的情况下,可以向客户端发送确认指令。客户端在接收到所述确认指令后,可以将所述确认指令发送给服务器。服务器可以进一步地根据医学知识组生成网络本体语言表达式,并将所述网络本体语言表达式的图形化展示数据发送给客户端。客户端在接收到图形化展示数据可以展示给用户。

请参阅图4,本说明书实施方式提供一种网络本体语言表达式的生成系统。所述网络本体语言表达式的生成系统可以包括客户端和服务器。

所述客户端可以是具有网络访问能力的电子设备。所述客户端可以用于展示服务器生成的医学知识组,以提供给审核人员进行审核。具体的,例如,客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中,智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者,客户端也可以为能够运行于所述电子设备中的软件。

所述服务器可以是具有一定运算处理能力的电子设备。所述服务器可以用于执行网络本体语言表达式的生成方法,以生成医学知识组。服务器可以具有网络通信模块、处理器和存储器等。当然,所述服务器也可以是指运行于所述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。

请参阅图5,本说明书的一个实施方式提供一种网络本体语言表达式的生成方法。所述网络本体语言表达式的生成方法可以应用于前述生成系统。具体的,所述网络本体语言表达式的生成方法可以应用于服务器。所述网络本体语言表达式的生成方法可以包括以下步骤。

步骤S110:将医学术语在预设医学词典中匹配,预测得出多个多元组数据;其中,所述预设医学词典包括多个层级化的医学词;多元组数据包括所述医学术语和至少一个与所述医学术语相关的医学词。

在一些情况下,可以将医学术语在医学词典中进行匹配,得到与所述医学术语相关的医学词。进一步地,根据医学术语相关的医学词,可以预测出多个多元组数据。使用所述多元组数据,可以生成医学术语的网络本体语言表达式。

在本实施方式中,所述医学术语可以用于表示一个医学概念。具体的,所述医学术语可以包括表示疾病、检查、手术、用药、症状的术语。具体的,例如,所述医学术语可以是“手伸肌腱断裂”。手伸肌腱为在处于手腕和手指部位的肌腱。“手伸肌腱断裂”可以表示一种疾病或者疾病的症状。或者,所述医学术语可以为“新生儿肠穿孔宫腔内梗阻”。所述医学术语描述了患者身份、疾病、疾病发生位置等多种医学信息。

在本实施方式中,所述多元组数据可以是三元组数据,也可以是五元组数据。所述多元组数据可以是用于表征所述医学术语所描述的医学信息。具体的,例如,针对医学术语“手伸肌腱断裂”,可以形成表征“手伸肌腱断裂”这个疾病的相关形态的多元组数据,如(手伸肌腱断裂,相关形态,破裂(异常结构和形态))。当然,针对医学术语“手伸肌腱断裂”,也可以形成表征“手伸肌腱断裂”这个疾病的病位的多元组数据,如(手伸肌腱断裂,病位,手伸肌腱的结构(组织))。

在本实施方式中,所述医学词可以用于描述医学术语,以构建多元组数据。具体的,所述医学词可以包括医学类别、医学属性和属性值。例如,所述医学词可以是“病位”、“相关形态”等表示医学术语所描述的医学对象的属性的词语。当然,所述医学词也可以是“疾病”、“肌肉骨骼系统疾病”等表示医学术语所属于的医学类别的词语。

在本实施方式中,所述预设医学词典可以包括具有层级关系的多个医学词。预设医学词典包括的多个医学词可以具有所属于的层级。具体的,例如,所述医学词典可以包括表示医学类别的词语。医学类别可以包括表示医学大类的一级类别和医学小类的二级类别。其中,一级类别和二级类别可以属于不同的层级。当然,所述医学词典的医学词中也可以包括医学类别的医学属性和属性值。其中,医学属性和属性值可以属于不同的层级。

所述将医学术语在预设医学词典中匹配,预测得出多个多元组数据的方法,可以在所述医学词典中匹配出与所述医学术语相关的医学词,进一步的,基于医学术语和医学词组成多个多元组数据。具体的,例如,可以使用自然语言处理技术,计算所述医学词典中的医学词与医学术语的语义相似度,得出所述医学术语相关的医学词。接着根据所述医学词和所述医学术语之间的关系,构建多元组数据。例如,所述医学术语可以是“手伸肌腱断裂”,医学术语相关的医学词可以是医学术语的医学类别“肌肉骨骼系统疾病”。相应的,预测得到的多元组数据可以是(手伸肌腱断裂,is a,肌肉骨骼系统疾病)。或者,“手伸肌腱断裂”的相关医学词可以是医学术语描述的医学对象的医学属性“病位”。进一步的,可以在医学属性对应的多个属性值中,确定目标属性值,形成多元组数据。例如,“病位”对应的目标属性取值为“手伸肌腱的结构”。相应的,预测得到的多元组数据可以是(手伸肌腱断裂,病位,手伸肌腱的结构)。

步骤S120:将所述多个多元组数据划分为多个医学知识组;其中,所述医学知识组中的多元组数据用于表示针对所述医学术语的医学知识;不同医学知识组表示的医学知识不同。

在一些情况下,直接使用针对同一个医学术语的多个多元组数据来表征医学术语包括的医学信息是不准确的。例如,(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)和(新生儿肠穿孔合并宫腔内梗阻,发生,胎儿期)这两个多元组数据都可以表征“新生儿肠穿孔合并宫腔内梗阻”这个医学术语的医学属性。然而,新生儿肠穿孔合并宫腔内梗阻的相关形态为穿孔的情况下,只可能出现在新生儿时期,而不太可能出现在胎儿期。因此,通过以上两个三元组来共同表征“新生儿肠穿孔合并宫腔内梗阻”这一个医学概念并不准确。

因此,可以将所述多个多元组数据划分为多个医学知识组。所述医学知识组可以用于表达医学术语所具有的一个医学知识。在一些实施方式中,每个医学知识组可以用于表征医学术语针对的医学对象的一个医学状态。

所述医学知识组可以包括多元组数据。医学知识组可以用于表征表达医学术语所具有的一个医学知识。所述医学知识可以理解为所述医学对象的所能表达的一种医学涵义。将多个多元组数据中的至少部分多元组数据聚合后,可以作为一种整体共同表达一个医学知识。

具体的,例如,针对以下多元组数据:(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)、(新生儿肠穿孔合并宫腔内梗阻,相关形态,内梗阻)、(新生儿肠穿孔合并宫腔内梗阻,发生,新生儿)、(新生儿肠穿孔合并宫腔内梗阻,发生,胎儿期)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠结构)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠腔结构)、(新生儿肠穿孔合并宫腔内梗阻,由于,肠梗阻),可以将所述多元组数据划分为三个医学知识组。

划分出第一个医学知识组可以是:(新生儿肠穿孔合并宫腔内梗阻,相关形态,穿孔)、(新生儿肠穿孔合并宫腔内梗阻,发生,新生儿)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠腔结构)。划分出第二个医学知识组可以是:(新生儿肠穿孔合并宫腔内梗阻,相关形态,内梗阻)、(新生儿肠穿孔合并宫腔内梗阻,发生,新生儿)、(新生儿肠穿孔合并宫腔内梗阻,病位,肠腔结构)。划分出第三个医学知识组可以是:(新生儿肠穿孔合并宫腔内梗阻,由于,肠梗阻)。其中,每个医学知识组可以表示“新生儿肠穿孔合并宫腔内梗阻”这个医学术语的不同的医学知识。

将所述多个多元组数据划分为多个医学知识组的方法,可以是先对所述多元组数据的进行排列组合,得到多个基准医学知识组。接着根据基准医学知识组中的多元组数据属于预设医学知识组集合中的同一个医学知识组的次数,来确定基准医学知识组中多元组数据可以形成一个医学知识组的成组概率。进一步地,通过成组概率可以在基准医学知识组中进行筛选,并将筛选得到的至少一个基准医学知识组作为医学知识组。另外,在筛选过程中可以约束不同医学知识组包括的多元组数据不同。在一些实施方式中,将所述多个多元组数据划分为多个医学知识组的方法也可以是将排列组合得到基准医学知识组所包括的多元组数据输入成组概率预测模型。所述成组概率预测模型可以根据已经成组的医学知识组训练得到。所述成组概率预测模型可以输出基准医学知识组可以形成医学知识组的概率。根据所述成组概率预测模型,可以将所述多个多元组数据划分为多个医学知识组。

步骤S130:根据所述多个医学知识组,生成所述医学术语的网络本体语言表达式;其中,所述医学术语的网络本体语言表达式用于依照所述多个医学知识组表示所述多个多元组数据的关联关系。

在一些情况下,网络本体语言可以用于描述一个对象或者概念。同一个医学术语的多个医学知识之间可以具有多种关系。例如,隶属关系或者并列关系。因此,通过网络本体语言可以较好地对医学知识组进行表征。同样的,网络本体语言表达式也可以较好的表征多元组数据的关联关系。

所述网络本体语言表达式可以表示OWL表达式。OWL 是由 W3C 开发的一种本体描述语言。所述网络本体语言表达式可以用于表征医学术语所包括的医学信息。具体的,所述医学知识组的网络本体语言表达式的图形化可视图像可以参阅图3。其中,图3展示了多元组数据所包括医学术语和相应的医学词之间关系。具体的,所述医学词可以包括表示医学属性的属性医学词、表示医学医学属性的属性取值的取值医学词和表示医学类别的类别医学词。其中,网络本体语言表达式的图形化可视图像中,不同图形可以对应有不同的关联关系。具体的,例如,请参阅图3,标号301的图形可以表示包括多元组数据的医学知识组能够等价表示医学术语。标号302的图形可以表示从属于该图形的多元组数据需要和其他的多元组数据组合后表征一个医学信息。标号为303的箭头图形用于表示类别多元组数据。表示为304的图形用于表示一个包括多个多元组数据的医学知识组。标号为305的箭头图形用于表示属性多元组数据。请参阅图6,图6中标号为601的图形可以表示包括多元组数据的医学知识组与医学术语之间不能等价表示。

根据所述多个医学知识组,生成所述医学术语的网络本体语言表达式的方法,可以使用OWL组件,构建所述多个医学知识组的网络本体语言表达式。在一些实施方式中,可以通过设置脚本,自动根据新增医学术语的医学知识组,生成所述医学知识组的网络本体语言表达式。

在一些实施方式中,所述预设医学词典包括多个医学类别,医学类别包括多个医学属性;不同医学类别包括的医学属性不同;将医学术语在预设医学词典中匹配,预测得出多个多元组数据的步骤,可以包括:根据所述医学术语的内容与所述多个医学类别进行匹配,得到所述医学术语对应的目标医学类别;生成包括所述医学术语和所述目标医学类别的类别多元组数据;其中,所述类别多元组数据用于表示所述医学术语与所述目标医学类别的隶属关系。

在一些情况下,所述预设医学词典可以包括多个医学类别。所述医学类别可以对应有医学属性。因此,可以将医学术语在预设医学词典中匹配,得到与所述医学术语相关的表示医学类别的医学词,生成类别多元组数据。

所述医学类别可以是预设医学词典中用于表示医学类别的词汇。具体的,例如,“手伸肌腱断裂”这个医学术语可以表示一个疾病。相应的,“手伸肌腱断裂”这个医学术语的医学类别可以是“疾病”。或者,“胰腺肿瘤局部切除术”这个医学术语可以所表示一种手术操作。相应的,“手伸肌腱断裂”这个医学术语的医学类别可以是“操作”。

所述医学类别可以对应有医学属性。所述医学属性可以用于表示医学术语所针对的医学对象的性质。例如,医学术语可以用于描述疾病。医学属性可以表示所述医学可能具有的性质。具体的,例如,“手伸肌腱断裂”这个医学术语可以属于的医学类别可以是疾病。疾病对应的医学属性可以包括:病位、相关形态等。相应的,“手伸肌腱断裂”这个疾病可以具有病位、相关形态的医学属性。

根据所述医学术语的内容与所述多个医学类别进行匹配,得到所述医学术语对应的目标医学类别的方法,可以是先使用自然语言处理技术对医学术语进行分词,接着根据词向量构建所述医学术语对应的语义向量。进一步地,计算医学术语的语义向量和医学类别的词向量之间的相似度,并将相似度最高的医学类别作为所述医学术语对应的目标医学类别。当然,根据所述医学术语的内容与所述多个医学类别进行匹配,得到所述医学术语对应的目标医学类别的方法,也可以计算医学术语分词后得到的词语在多个已经确定医学类别的医学术语中出现的概率,将多个已经确定医学类别的医学术语中,概率值最大的医学术语所对应的医学类别,作为该医学术语的医学类别。

所述类别多元组数据用于表示所述医学术语与所述目标医学类别的隶属关系。具体的,所述类别多元组数据可以根据所述医学术语、所述隶属关系和所述目标医学类别组成。

所述生成包括所述医学术语和所述目标医学类别的类别多元组数据的方法,可以将所述医学术语和所述目标类别进行组合。具体的,例如,“手伸肌腱断裂”这个医学术语的目标医学类别为“疾病”。相应的,“手伸肌腱断裂”这个医学术语对应的类别多元组数据可以是(手伸肌腱断裂,is a,疾病)。其中,“is a”用于表示手伸肌腱断裂和疾病之间的关系为属于关系,即手伸肌腱断裂属于疾病。

在一些实施方式中,医学类别包括多个医学属性;不同医学类别包括的医学属性不同;将医学术语在预设医学词典中匹配,预测得出多个多元组数据可以包括:在所述目标医学类别的医学属性中,预测与所述医学术语相关的目标医学属性,以及目标医学属性的属性值;将所述医学术语与预测得到的目标医学属性和属性值,构建属性多元组数据。

在一些情况下,至少部分的医学类别可以包括多个医学属性。根据所述医学术语的内容可以在目标医学类别包括的多个医学属性中,预测出目标医学属性以及目标医学属性的属性值。进一步地,根据目标医学属性和目标医学属性的属性值,可以构建属性多元组数据。

所述在所述目标医学类别的医学属性中,预测与所述医学术语相关的目标医学属性,以及目标医学属性的属性值的方法,可以根据医学术语的语义向量,与目标医学类别的医学属性的词向量之间进行相似度计算,将相似度大于指定阈值的医学属性,作为所述医学术语对应的目标医学属性。进一步地,将目标医学属性的属性值的词向量与医学术语的语义向量计算相似度,并根据相似度的取值确定目标医学属性的属性值。从而通过目标医学属性和属性值可以构建多元组数据。

当然,在所述目标医学类别的医学属性中,预测与所述医学术语相关的目标医学属性,以及目标医学属性的属性值的方法,也可以是在已经构建完成对应的多元组数据的医学术语集中,确定与需要构建多元组数据的医学术语之间相似度最高,且属于目标医学类别的医学术语所具有医学属性和属性值,作为所述医学术语的目标医学属性和所述目标医学属性对应的属性值。

所述将所述医学术语与预测得到的目标医学属性和属性值,构建属性多元组数据的方法,可以将所述医学术语、目标医学属性和属性值进行组合,得到多元组数据。具体的,例如,“手伸肌腱断裂”这个医学术语的医学属性可以包括“病位”和“相关形态”。医学属性“病位”的属性值可以是“手伸肌腱的结构(组织)”。医学属性“相关形态”的属性值可以是“破裂(异常结构和形态)”。从而可以构建出以下两个多元组数据:(手伸肌腱断裂,病位,手伸肌腱的结构(组织))、(手伸肌腱断裂,相关形态,破裂(异常结构和形态))。在一些实施方式中,所述医学术语可以具有多个目标医学属性。那么针对每个目标医学属性和相应的属性值,都可以构建一个多元组数据。同样的,所述目标医学属性可以包括多个与需要构建多元组数据的医学术语相关的属性值,那么针对每个属性值,都可以构建一个多元组数据。

在一些实施方式中,所述预设医学词典包括的多个医学词形成树形层级结构;将医学术语在预设医学词典中匹配,预测得出多个多元组数据的步骤,可以包括:基于所述医学术语,在所述树形层级的多个医学词中,确定与所述医学术语匹配的,且处于叶子结点的目标医学词;将所述目标医学词所处的叶子节点至根节点形成的路径中的至少部分医学词,认定为所述医学术语相关的医学词。使用所述医学术语和相关的医学词组成多元组数据。

在一些情况下,不同医学类别可以对应有不同的医学属性。一个医学类别可以包括多级医学子类别。医学子类别对应的医学属性可以与所述医学子类别属于的医学类别的医学属性相同。因此,在预设医学词典中确定与医学术语相关的医学词的过程中,可以将医学术语所属于的医学类别下的医学子类别,以及与医学术语相匹配医学属性和属性值,认定为所述医学术语相关的医学词。

所述预设医学词典包括的多个医学词可以形成树形层级结构。具体的,例如,表示医学类别和表示从属于所述医学类别的医学子类别的医学词,可以形成一个类别树。不同医学类别可以对应有不同的类别树。其中,类别树的叶子节点可以表示最小医学子类别。医学术语可以被划分到一个类别树的叶子节点所对应的医学子类别。将所述医学术语和处于叶子节点的医学子类别进行匹配,可以确定所述医学术语所属于的最小医学子类别。医学术语的最小子类别所处的叶子节点至根节点形成的路径中的医学类别或者医学子类别,可以认定为所述医学术语所属于的医学类别。相应的,针对医学术语所属于的每一个医学子类别,也可以生成相对应的类别多元组数据。

另外,每一个医学类别对应的类别树,可以有相关联的属性树。在一些实施方式中,每一个医学类别的医学属性和属性值可以作为所述医学类别的类别树的子树。即,将表示医学属性和医学属性取值的医学词分别挂在相应的医学类别的类别树的中表示最小医学子类别的节点下。具体的,表示最小医学子类别的节点可以具有表示医学属性的节点。医学属性节点下具有表示医学属性取值的节点。相应的,基于所述医学术语,在所述树形层级的多个医学词中,确定与所述医学术语匹配的,且处于叶子结点的目标医学词的方法,可以将医学术语与每一个表示医学属性取值的医学词进行匹配,确定至少一个目标医学属性取值。接着可以将目标医学属性取值与其所在树的根节点所形成的路径中所涉及的医学词,认定为所述医学术语相关的医学词。进一步地根据所述医学词表示的医学类别或者描述的医学属性,分别构建类别多元组数据和属性多元组属数据。

在一些实施方式中,所述医学词包括表示医学类别的类别医学词、表示医学属性的属性医学词和表示医学属性取值的取值医学词;使用所述医学术语和相关的医学词组成多元组数据的步骤,包括:将所述医学术语和类别医学词组成类别多元组数据;其中,所述类别多元组数据用于表示所述医学术语与所述目标医学类别的隶属关系;将所述医学术语、医学属性词和所述医学属性词的取值属性词组成属性多元组数据。

在一些情况下,针对表示医学类别的医学词可以生成类别多元组数据。针对表示医学属性和表示医学属性取值的医学词,可以生成属性多元组属性,以用于表征医学术语的不同维度的医学信息。其中,表示医学类别的医学词可以称为类别医学词。表示医学属性的医学词可以称为属性医学词。表示医学取值的医学词可以称为取值医学词。

在一些实施方式中,将所述多个多元组数据划分为多个医学知识组的步骤,包括:根据所述多个多元组数据的属性医学词,在所述多个多元组数据中划分出多个属性组;结合所述属性组和所述取值医学词,生成表征医学知识的医学知识组;其中,不同医学知识组包括的多元组数据不同。

在一些情况下,将所述多个多元组数据划分为多个医学知识组,可以先将多元组数据包括的属性医学词进行分组,得到属性组。接着,将属性组中的属性医学词和其对应的取值医学词进行组合,以生成医学知识组。

根据所述多个多元组数据的属性医学词,在所述多个多元组数据中划分出多个属性组的方法,可以是先将所述多个多元组数据中至少部分多元组数据的属性医学词进行组合,得到多个基准属性组;其中,不同基准属性组包括的属性医学词不同。接着,依照同一个基准属性组中不同属性医学词之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组。具体的,根据基准属性组中的属性医学词属于根据已经构建完成的医学知识组形成的医学知识组集合中的同一个医学知识组的次数,可以确定基准属性组的属性相关程度。

所述结合所述属性组和所述取值医学词,生成表征医学知识的医学知识组的方法,可以是基于属性组中的属性医学词所对应的取值医学词,为所述属性组的属性分配不同组合的取值医学词,得到基准取值组。其中,所述基准取值组可以包括所述属性组中的每个医学属性所对应的取值医学词。进一步地,根据基准取值组中的取值医学词属于医学知识组集合中的同一个医学知识组的次数,生成基准取值组的取值成组概率。根据基准取值组的取值成组概率,可以在基准取值组中确定目标取值组。最后根据所述目标取值组包括的取值医学词和所述取值医学词对应的属性医学词,生成所述医学知识组。

当然,根据所述多个多元组数据的属性医学词,在所述多个多元组数据中划分出多个属性组,进一步地结合所述属性组和所述取值医学词,生成表征医学知识的医学知识组的方法,也可以将所述多个多元组数据的医学属性词进行排列组合,得到基准医学知识组。进一步地,结合每个基准医学知识组中多元组数据的属性医学词和取值医学词,使用成组判定模型判定相应的基准医学知识组能否形成一个医学知识组。将通过所述成组判定模型预测出能够成组的基准医学知识组作为一个医学知识组。

在一些实施方式中,根据所述多个多元组数据的属性医学词,在所述多个多元组数据中划分出多个属性组的步骤,包括:将所述多个多元组数据中至少部分多元组数据的属性医学词进行组合,得到多个基准属性组;其中,不同基准属性组包括的属性医学词不同;依照同一个基准属性组中不同属性医学词之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组;其中,所述属性相关程度用于表征多元组数据的属性医学词能形成医学知识组的概率。

在一些情况下,可以预先划分出多基准属性组,接着判定每个基准属性组能否构成一个属性组。

将所述多个多元组数据中至少部分多元组数据的属性医学词进行组合,得到多个基准属性组的方法,可以对所述多元组数据包括的属性医学词进行排列组合,以形成所述基准属性组。例如,多元组数据包括的属性医学词为K1、K2、K3。相应的,对K1、K2、K3进行组合得到的基准属性组可以包括[K1]、[K2]、[K3]、[K1、K2]、[K1、K3]、[K2、K3]、[K1、K2、K3]。当然,可以根据上述多种组合中的部分组合分别生成基准属性组。

所述属性相关程度可以用于表征多元组数据的属性医学词能形成医学知识组的概率。所述属性相关程度可以基于基准属性组中的属性医学词属于预设医学知识组集合中的同一个医学知识组的次数确定。在一些实施方式中,所述属性相关程度还可以通过在多个属性医学词共现在一个语料库的条件下,所述多个属性成组的条件概率表示。

依照同一个基准属性组中不同属性医学词之间的属性相关程度,对所述多个基准属性组进行筛选,筛选得到的基准属性组作为所述属性组的方法,可以将属性相关程度大于指定阈值且满足约束条件的基准属性组认定为属性组。当然,也可以选择属性相关程度最大,且能够覆盖所述多个多元组数据的基准属性组,认定为属性组。

在一些实施方式中,结合所述属性组和所述取值医学词,生成表征医学知识的医学知识组的步骤,包括:将所述属性组中属性医学词对应的多个取值医学词进行组合,得到多个基准取值组;其中,所述基准取值组包括所述属性组中的每个属性医学词所对应的取值医学词,且不同取值医学词对应的属性医学词不同;依照同一个基准取值组中不同取值医学词之间的取值相关程度,在所述基准取值组中选择目标取值组;其中,所述取值相关程度用于表征多元组数据的取值医学词能形成医学知识组的概率;根据所述目标取值组包括的属性取值和所述取值医学词对应的属性医学词,创建所述医学知识组。

在一些情况下,所述属性组可能包括多个属性医学词,且所述多个属性医学词中至少部分属性医学词可以对应多个取值医学词。那么可以进一步地根据所述属性组中属性医学词对应的取值医学词,确定医学知识组。

将所述属性组中属性医学词对应的多个取值医学词进行组合,得到多个基准取值组的方法,可以是对取值医学词进行排列组合,并选择符合约束条件的组合作为取值组。具体的,例如,属性组可以包括属性医学词可以是K1、K2、K3。属性医学词K1对应的取值医学词为V1和V2。属性医学词K2对应的取值医学词为V3和V4。属性医学词K3对应的取值医学词为V5和V6。根据V1、V2、V3、V4、V5和V6可以生成所述多个基准取值组。例如,将所述属性组中属性医学词对应的多个取值医学词进行组合,得到多个基准取值组可以包括[V1,V3,V5]、[V1,V3,V6]、[V1,V4,V5]、[V1,V4,V6]、[V2,V3,V5]、[V2,V3,V6]、[V2,V4,V5]、[V2,V4,V6]。当然,基准取值组也可以所有取值医学词的组合方式中的一部分。

所述取值相关程度可以用于表征多元组数据的取值医学词能形成医学知识组的概率。所述取值相关程度可以基于取值医学词属于预设医学知识组集合中的同一个医学知识组的次数确定。在一些实施方式中,所述取值相关程度可以通过在多个取值医学词共现在一个语料库的条件下,所述多个取值医学词成组的条件概率表示。

依照同一个基准取值组中不同取值医学词之间的取值相关程度,在所述基准取值组中选择目标取值组的方法,可以将取值相关程度大于指定阈值且满足约束条件的基准取值组认定为目标取值组。当然,也可以是选择取值相关成组最高的指定数量个基准取值组作为目标取值组。

在一些实施方式中,所述关联关系包括所述医学术语与所述多元组数据所表征的医学知识之间的集合关系;所述集合关系可以包括等价关系和包含关系;所述网络本体语言表达式的生成方法还可以包括:推断所述医学知识组与所述医学术语之间的知识相关程度;其中,所述知识相关程度用于表征所述医学知识组表示的医学知识,和所述医学术语表达的医学知识之间的相似性;根据所述知识相关程度,预测所述医学术语与所述多元组数据之间的集合关系。

在一些情况下,服务器生成的医学知识组与医学专家通过人工构建的医学知识组之间可能不一致。具体的,例如,针对同一个医学术语,服务器生成的医学知识组可能包括多个属性多元组数据。其中,每个属性多元组数据可以对应一个医学属性。相应的,医学专家针对该医学术语也可以构建多个属性多元组数据。然而,医学专家和服务器生成的属性多元组数据所对应的属性可以不同。例如,医学专家构建的属性多元组数据对应的属性可以包括服务器生成的属性多元组数据对应的属性。或者,医学专家构建的属性多元组数据对应的属性可以和服务器生成的属性多元组数据对应的属性相同。当然,医学专家构建的属性多元组数据对应的属性可以属于服务器生成的属性多元组数据对应的属性的子集。在一些实施方式中,医学专家构建的属性多元组数据对应的属性和服务器生成的属性多元组数据对应的属性之间也可以互斥或者具有子集等多种关联关系。因此,服务器在生成多元组数据后,可以预测所述医学术语和所述多元组数据支之间的集合关系,依照所述医学术语、所述医学知识组合所述集合关系生成的网络本体语言,可以较好地表征医学知识组与多元组数据之间的关联关系。同时,为审核人员提供所述医学术语与所述多元组数据所表征的医学知识之间的集合关系,也可以更好地提示审核人员是否需要对医学知识组进行修改,在一定程度上提高了审核人员对服务器生成的医学知识组的审核效率。

所述集合关系可以表示集合之间的基本关系。具体的,所述关联关系可以包括包含关系、互斥关系、对立关系和等价关系等。

推断所述医学知识组与所述医学术语之间的知识相关程度的方法,可以根据预先训练完成的知识相关程度的推断模型进行推断。其中,知识相关程度的推断模型的输入可以将医学术语编码后得到向量、医学属性编码后得到的向量拼接后生成的编码向量。知识相关程度的推断模型的输出,可以是知识相关程度。所述知识相关程度可以用于表征所述医学知识组表示的医学知识,和所述医学术语表达的医学知识之间的相似性。具体的,例如,所述知识相关程度可以是一个0至1的数值。当知识相关程度取值为1时,表明所述医学知识组表示的医学知识,和所述医学术语表达的医学知识之间等价。当知识相关程度取值为1时,表明所述医学知识组表示的医学知识,和所述医学术语表达的医学知识之间不具有交集。

根据所述知识相关程度,预测所述医学术语与所述多元组数据之间的集合关系的方法,可以是根据所述知识相关程度的取值范围和预设的对应关系,确定集合关系。具体的,例如,知识相关程度可以是-1至1的数值。当知识相关程度大于0.5的情况下,可以表明所述医学术语与所述多元组数据之间的集合关系为等价关系。当知识相关程度小于0.5且大于0的情况下,可以表明所述医学术语所表达的医学知识包含所述多元组数据表示的医学知识。所述集合关系为包含关系。当知识相关程度小于0且大于-0.5的情况下,可以表明所述医学术语所表达的医学知识包含于所述多元组数据表示的医学知识。所述集合关系为包含于关系。当知识相关程度小于-0.5的情况下,可以表明所述医学术语所表达的医学知识与所述多元组数据表达的医学关系不等价。所述集合关系为不等价关系。当然,在一些实施方式中,所述结合关系由等价关系和不等价关系组成,相应的,知识相关程度的推断模型可以是二分类模型。知识相关程度可以二分类模型的输出。根据所述知识相关程度,预测所述医学术语与所述多元组数据之间的集合关系的方法,可以是根据知识相关程度的推断模型的不同类别对应的集合关系,确定医学术语与所述多元组数据之间的集合关系。

在一些实施方式中,所述网络本体语言表达式的生成方法还可以包括:向客户端发送所述多个医学知识组的界面数据,以使所述客户端展示包括所述多个医学知识组的展示界面;其中,所述展示界面包括所述多个多元组数据,以及用于表示所述多个多元组数据所属于的医学知识组的组别标识;在接收到客户端反馈的所述医学知识组的校准操作的情况下,对所述医学知识组中的多元组数据进行调整,得到目标医学知识组;相应的,根据所述多个医学知识组,生成所述医学术语的网络本体语言表达式的步骤,包括:根据所述目标医学知识组,生成所述医学术语的网络本体语言表达式。

在一些情况下,预测得到的医学知识组,相比通过医学专家进行人工构建得到的医学知识组的准确率相对会低。为了确保医学知识组的准确性,可以将包括医学知识组的界面数据发送界面数据。客户端可以根据界面数据提供医学知识组的展示界面,审核人员可以对所述医学知识组的展示界面中的医学知识组进行校准,在一定程度上可以提高生成的医学知识组的准确率。

所述界面数据可以用于形成客户端的展示界面。具体的,所述界面数据可以包括多个医学知识组。当然,所述界面数据也可以包括所述多个医学知识组表示的第一医学知识,和基于所述医学术语的内容认定的第二医学知识之间的关联关系。

请参阅图2,所述展示界面可以包括多个多元组数据。其中,每个多元组数据可以具有表示所述多元组数据所属于的医学知识组的组别标识201。在一些实施方式中,所述展示界面还可以包括用于指示所述医学知识组的类型的类型标识202。其中,所述多元组数据的类型可以用于表示所述多元组数据描述的医学信息的类型。具体的,例如,所述多元组数据可以包括表示医学类别的多元组数据。相应的,类型标识中可以使用“层级”进行标注。所述多元组数据也可以包括表示医学属性相关的医学信息的多元组数据。相应的,类型标识中可以使用“域”进行标注。

在一些实施方式中,所述展示界面中,多元组数据可以对应有校准控件。请参阅图2,校准控件可以包括多元组数据的添加控件203和多元组数据的删除控件204。客户端在接收到所述医学知识组的校准操作的情况下,可以对所述医学知识组中的多元组数据进行调整。具体的,例如,在添加控件203被触发的情况下,在展示界面中可以展示一个空值的三元组占位控件,在接收到审核人员提供的添加数据后,可以在相应的占位控件出显示被添加的三元组数据。进一步地,客户端可以将审核人员的添加数据发送给服务器。相应的,在接收到客户端反馈的所述医学知识组的校准操作的情况下,对所述医学知识组中的多元组数据进行调整,得到目标医学知识组的方法,可以是服务器根据客户端提供的添加数据增添指定的医学知识组。当然,在删除控件204被触发后,客户端也可以接收到对指定的医学知识组的删除指令。相应的,在接收到客户端反馈的所述医学知识组的校准操作的情况下,对所述医学知识组中的多元组数据进行调整,得到目标医学知识组的方法,可以是服务器在接收到客户端反馈的删除指令后,删除相应的医学知识组,并将未被删除的医学知识组作为目标医学知识组。

请参阅图7,本说明书的一个实施方式还提供一种网络本体语言表达式的生成装置。所述网络本体语言表达式的生成装置可以包括:预测模块、划分模块和生成模块。

预测模块,用于将医学术语在预设医学词典中匹配,预测得出多个多元组数据;其中,所述预设医学词典包括多个层级化的医学词;多元组数据包括所述医学术语和至少一个与所述医学术语相关的医学词。

划分模块,用于将所述多个多元组数据划分为多个医学知识组;其中,所述医学知识组中的多元组数据用于表示针对所述医学术语的医学知识;不同医学知识组表示的医学知识不同。

生成模块,用于根据所述多个医学知识组,生成所述医学术语的网络本体语言表达式。

在本实施方式中,所述知识组的生成装置所实现的功能和效果,可以与前述实施方式对照解释,不再赘述。

本说明书实施方式还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得,该计算机执行上述任一实施方式中的网络本体语言表达式的生成方法。

请参阅图8,在一些实施方式中可以提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一实施方式中的网络本体语言表达式的生成方法。

本说明书实施方式还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述任一实施方式中的网络本体语言表达式的生成方法。

可以理解,本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式,而非限制本发明的范围。

可以理解,在本说明书中的各种实施方式中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本说明书实施方式的实施过程构成任何限定。

可以理解,本说明书中描述的各种实施方式,既可以单独实施,也可以组合实施,本说明书实施方式对此并不限定。

除非另有说明,本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

可以理解,本说明书实施方式的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

可以理解,本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到,结合本文中所公开的实施方式描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。

在本说明书所提供的几个实施方式中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本说明书的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本说明书的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 多语言配置文件的生成和展示方法及装置、设备和介质
  • 基于神经网络的歌词生成方法、装置、设备和存储介质
  • 网络自生成的方法、装置、设备及存储介质
  • 网络安全知识图谱的生成方法、装置、设备及存储介质
  • 基于表达式的大数据处理方法、装置、电子设备、存储介质
  • 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质
  • 一种结合正则表达式和神经网络的自然语言任务处理方法和装置
技术分类

06120115599542