掌桥专利:专业的专利平台
掌桥专利
首页

知识图谱构建方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 18:37:28


知识图谱构建方法、装置、存储介质及电子设备

技术领域

本公开涉及医疗数据处理技术领域,具体地,涉及一种知识图谱构建方法、装置、存储介质及电子设备。

背景技术

肝细胞癌是成人最常见的恶性肿瘤之一,死亡率很高,是肝硬化患者最常见的死亡原因。尽管预防、诊断和治疗技术不断进步,但发病率和死亡率仍呈上升趋势。因此,肝细胞癌已成为生命科学研究的热门话题,并且越来越多地使用开放领域的医学知识进行肝细胞癌的诊断或治疗。由于开放领域的医学知识多且杂,医疗保健专业人员必须遍历多个数据门户以检索相关知识,才能将其用于诊断肝细胞癌。而搜索这样的多源异构数据对医疗保健专业人员的研究来说是相当不便的。

发明内容

本公开的目的是提供一种知识图谱构建方法、装置、存储介质及电子设备,通过构建肝细胞癌病理知识图谱来解决相关技术中不易于搜索多源异构数据的技术问题。

本公开第一方面提供了一种知识图谱构建方法,所述方法包括:

从不同数据源获取肝细胞癌文本数据,并根据所述肝细胞癌文本数据确定三元组数据集,所述三元组数据集中的每个三元组包括实体对和实体关系,所述实体关系用于表征所述实体对中两个实体之间的关系;

针对所述三元组数据集中的每个所述实体,根据预设选取规则在预设语料库中确定对应的目标实体,并用所述目标实体替换所述三元组数据集中对应的所述实体,得到目标三元组数据集;

根据所述目标三元组数据集构建肝细胞癌病理知识图谱。

可选地,当所述预设选取规则为选取与所述实体的语义最相似的语料作为所述目标实体时,所述针对所述三元组数据集中的每个所述实体,根据预设选取规则在预设语料库中确定对应的目标实体包括:

针对所述三元组数据集中的每个所述实体,执行以下操作:

确定所述实体与所述预设语料库中每个语料的相似度;

根据所述相似度和预设的相似度阈值确定候选语料,或按照相似度的大小顺序对所述语料进行排序,得到语料序列,并根据所述语料序列和预设的选取顺位确定所述候选语料;

确定所述候选语料与所述实体的语义相似性,并根据所述语义相似性,确定所述目标实体。

可选地,所述确定所述实体与所述预设语料库中每个语料的相似度包括:

基于统计语言模型确定所述实体的稀疏向量和所述语料的稀疏向量;

基于语言表征模型确定所述实体的稠密向量和所述语料的稠密向量;

根据所述实体的稀疏向量和所述语料的稀疏向量确定第一相似度,根据所述实体的稠密向量和所述语料的稠密向量确定第二相似度;

将所述第一相似度和所述第二相似度相加,得到所述相似度。

可选地,所述语言表征模型的训练过程包括:

通过预训练的所述语言表征模型确定样本实体的稠密向量和样本候选语料的稠密向量,以及通过所述统计语言模型确定所述样本实体的稀疏向量和所述样本候选语料的稀疏向量;

根据所述样本实体的稠密向量、所述样本实体的稀疏向量、所述样本候选语料的稠密向量以及所述样本候选语料的稀疏向量,确定所述样本实体与每个所述样本候选语料的相似度;

根据所述相似度的大小确定样本相似度序列,以及根据所述样本相似度序列确定样本标签序列;其中,所述样本标签序列中每个样本标签用于指示所述样本相似度序列中每个样本相似度的标准类别,所述标准类别包括同义词和/或上位词;

根据所述样本相似度序列和所述样本标签序列确定损失函数值,并根据所述损失函数值更新预训练的所述语言表征模型的参数。

可选地,当所述预设语料库为统一医学语言库时,所述针对所述三元组数据集中的每个所述实体,根据预设选取规则在预设语料库中确定对应的目标实体包括:

针对所述三元组数据集中的每个所述实体,执行以下操作:

确定所述实体与所述统一医学语言库中每个同义词的相似度;

根据所述相似度和预设的相似度阈值确定候选同义词,或按照相似度的大小顺序对所述同义词进行排序,得到同义词序列,并根据所述同义词序列和预设的选取顺位确定所述候选同义词;

确定所述候选同义词与所述实体的语义相似性,并根据所述语义相似性,确定目标同义词;

确定所述目标同义词在所述统一医学语言库中所属的概念名称,将所述概念名称确定为所述目标实体。

可选地,当所述肝细胞癌文本数据为非结构化文本数据时,所述根据所述肝细胞癌文本数据确定三元组数据集包括:

通过实体识别模型对所述肝细胞癌文本数据进行实体识别,得到所述实体;

基于预设配对规则对所述实体进行配对,得到所述实体对;

通过关系识别模型对所述实体对进行关系识别,得到所述实体关系;

根据所述实体对和对应的所述实体关系确定所述三元组数据集。

可选地,所述方法还包括:

将所述肝细胞癌病理知识图谱以资源描述框架的形式进行存储;和/或,将所述肝细胞癌病理知识图谱以图数据库的形式进行存储。

本公开第二方面提供了一种知识图谱构建装置,所述装置包括:

获取模块,用于从不同数据源获取肝细胞癌文本数据,并根据所述肝细胞癌文本数据确定三元组数据集,所述三元组数据集中的每个三元组包括实体对和实体关系,所述实体关系用于表征所述实体对中两个实体之间的关系;

处理模块,用于针对所述三元组数据集中的每个所述实体,根据预设选取规则在预设语料库中确定对应的目标实体,并用所述目标实体替换所述三元组数据集中对应的所述实体,得到目标三元组数据集;

构建模块,用于根据所述目标三元组数据集构建肝细胞癌病理知识图谱。

本公开第三方面提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任意一项所述方法的步骤。

本公开第四方面提供了一种电子设备,包括:

存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面任意一项所述方法的步骤。

通过上述技术方案,一方面可以将不同数据源中关于肝细胞癌的医学知识连接在一起,以便于查询肝细胞癌的病理知识。另一方面,可以通过预设选取规则将具有多种表达方式的实体映射为预设语料库中的目标实体,可以对提取数据中的实体进行标准的归一化映射,减少不同数据源之间的大规模信息冗余问题,进而保证肝细胞癌病理知识图谱中的数据准确性,提升基于该知识图谱进行信息查询的准确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1是根据本公开一示例性实施例示出的一种知识图谱构建方法的流程图;

图2是根据本公开一示例性实施例示出的一种标签序列获取示意图;

图3是根据本公开一示例性实施例示出的一种候选同义词获取示意图;

图4是根据本公开一示例性实施例示出的一种知识图谱构建装置的结构框图;

图5是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

首先,对本公开的应用场景进行说明。肝细胞癌是成人最常见的恶性肿瘤之一,死亡率很高,是肝硬化患者最常见的死亡原因。尽管预防、诊断和治疗技术不断进步,但发病率和死亡率仍呈上升趋势。因此,肝细胞癌已成为生命科学研究的热门话题,并且越来越多地使用开放领域的医学知识进行肝细胞癌的诊断或治疗。由于开放领域的医学知识多且杂,医疗保健专业人员必须遍历多个数据门户以检索相关知识,才能将其用于诊断肝细胞癌。而搜索这样的多源异构数据对医疗保健专业人员来说是相当不便的。随着知识图谱概念的引入,越来越多的领域开始用知识图谱来表示互联网/数据库中的非结构化、半结构化和结构化信息,但相关技术中还没有关于肝细胞癌病理的开放知识图谱。

有鉴于此,本公开实施例提供了一种知识图谱构建方法、装置、存储介质及电子设备,通过构建肝细胞癌病理知识图谱来解决相关技术中不易于搜索多源异构数据的技术问题。

以下结合附图对本公开的具体实施方式进行详细说明。

一种知识图谱构建方法,如图1所示,方法可以包括以下步骤:

S1:从不同数据源获取肝细胞癌文本数据,并根据肝细胞癌文本数据确定三元组数据集,三元组数据集中的每个三元组包括实体对和实体关系,实体关系用于表征实体对中两个实体之间的关系。

其中,知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通俗的讲,就是把所有不同种类信息连接在一起而得到的一个关系网络。在构建知识图谱之前,需要相关领域的技术人员根据运用场景,人工设计出知识图谱的模式,并确定用于构建知识图谱的实体和用于指示两个实体之间关联的实体关系。由于本公开实施例构建的知识图谱为肝细胞癌病理知识图谱,因此在从肝细胞癌文本数据中提取实体时,提取的实体应当是与肝细胞癌相关的实体,例如,疾病类实体、人体形态结构类实体、检测项目类实体或/和组织学分级类实体等;实体关系可以包括上位词、下位词、疾病发生部位、疾病检查手段或/和属性等。

应当理解的是,不同数据源是指能够获取到肝细胞癌文本数据的医学领域数据库或检索平台,例如临床决策系统UpToDate、生物医药文献数据库MEDLINE、PubMed检索平台、美国国家生物技术信息中心NCBI(National Center for Biotechnology Information)以及临床研究数据库ClinicalTrials.gov等。例如,在获取肝细胞癌文本数据时,可以使用PubMed平台检索并下载与肝细胞癌病理相关的文献。PubMed是一个在线存储库,其中包含来自MEDLINE和生命科学期刊超过2400万引用次的文献。MEDLINE是由美国国家医学图书馆创建的国际综合生物信息书目数据库,是生物医学领域最常用的国外文献书目摘要数据库。可以使用UpToDate下载关于肝细胞癌的医学指南。UpToDate是一个基于询证医学原则的临床决策支持系统,是医生在诊疗过程中获取医学知识的主要资源,并根据询证医学的原则为医生提供不断更新的信息。也可以使用ClinicalTrials.gov获取关于肝细胞癌的临床试验。ClinicalTrials.gov是美国国家医学图书馆提供的资源,是一个全球性的临床研究数据库,包括来自50个国家和208个城市的299634项研究。还可以使用NCBI获取与肝细胞癌相关的生物医学知识。NCBI公开了各种生物数据库,例如,核酸序列数据库GenBank和生物项目数据库BioProject,还提供了用于检索和分析数据的工具,通过该工具可以从NCBI中提取相应的肝细胞癌文本数据。

在获取到肝细胞癌文本数据后,为了能够根据获取到的肝细胞癌文本数据构建肝细胞癌病理知识图谱,还需要从获取的肝细胞癌文本数据中提取对应的三元组。由于获取到的肝细胞癌文本数据来源于不同的数据库,而不同数据库的数据结构可能并不一致,例如,NCBI为结构化数据,PubMed检索平台、NCBI和UpToDate构为非结构化数据。因此,针对不同数据结构的肝细胞癌文本数据,需要采取不同的方式进行三元组的提取。

示意性的,当肝细胞癌文本数据为结构化数据时,可以先使用开源数据库所提供的检索工具从肝细胞癌文本数据中提取出对应的实体,然后再根据实体之间的关系,构建三元组数据集。例如,用SemMedDB数据库进行实体的提取。SemMedDB数据库是一个关系型数据库,提供了检索功能,在进行实体的提取时,可以使用肝细胞癌作为关键字进行检索以得到检索数据,在得到检索数据后,根据肝细胞癌和检索数据构建三元组数据集。例如,检索出的数据如表1所示:

表1以肝细胞癌作为关键字行检索得到的检索数据

则根据肝细胞癌和上述检索数据组织的三元组可以为:

三元组1:(肝细胞癌,癌胚抗原,肿瘤标志物检验);

三元组2:(肝细胞癌,甲胎蛋白,肿瘤标志物检验);

三元组3:(肝细胞癌,腹部MRI,诊断检查);

三元组4:(肝细胞癌,镜检,病理检查);

三元组5:(镜检,高分化,组织学分级);

三元组6:(镜检,MO,微血管侵犯)。

当肝细胞癌文本数据为非结构化数据时,可以使用信息提取系统对肝细胞癌文本数据进行实体和实体关系的提取,从而得到相应的三元组。例如,以SemRep信息提取系统对肝细胞癌文本数据中的实体和实体关系进行提取,以得到对应的三元组。

应当理解的是,SemRep信息提取系统是基于统一医学语言系统UMLS(UnifiedMedical Language System)设计的程序,虽然可以直接提取文本中的三元组,但无法识别不在UMLS中的实体。因此,为了能够从其余具有非结构化数据的数据库中提取三元组,还可以通过神经网络模型来对肝细胞癌文本数据中的实体和实体关系进行提取,进而根据提取的实体和实体关系构建三元组数据集。即,根据本公开的一个实施例,当肝细胞癌文本数据为非结构化文本数据时,根据肝细胞癌文本数据确定三元组数据集可以包括:

通过实体识别模型对肝细胞癌文本数据进行实体识别,得到实体;基于预设配对规则对实体进行配对,得到实体对;通过关系识别模型对实体对进行关系识别,得到实体关系;根据实体对和对应的实体关系确定三元组数据集。

应当理解的是,实体识别模型可以基于现有的神经网络模型结构来实现。例如可以采用长短期记忆网络LSTM(Long Short-Term Memory)+条件随机场算法CRF(conditional random field algorithm)来对肝细胞癌文本数据中的实体进行识别,以得到实体。具体地,预先以样本肝细胞癌文本数据作为输入、样本肝细胞癌文本数据中包含的所有实体作为输出训练LSTM+CRF模型,然后通过训练完毕的LSTM+CRF模型从肝细胞癌文本数据中识别出实体。

同理,关系识别模型也可以基于现有的神经网络模型结构来实现,例如可以采用双向长短期记忆模型来对实体对之间的关系进行识别,以得到实体关系。具体地,预先以样本实体对作为输入、样本实体关系作为输出训练双向长短期记忆模型,然后通过训练完毕的双向长短期记忆模型从实体对中识别出实体关系。

应当理解的是,此处仅为适应性说明,在具体实施时,也可以选择其它的神经网络模型作为实体识别模型和关系识别模型,本公开实施例对此不作任何限制。

另外,应当理解的是,预设配对规则可以根据实际应用的具体情况进行合理设置,本公开实施例对此不作任何限制。在可能的实施方式中,预设配对规则可以是根据实体识别模型识别出来的实体进行两两配对,以得到实体对。在其余可能的实施方式中,预设配对规则也可以是根据实体识别模型识别出来的实体进行随机组合,以得到实体对。

S2:针对三元组数据集中的每个实体,根据预设选取规则在预设语料库中确定对应的目标实体,并用目标实体替换三元组数据集中对应的实体,得到目标三元组数据集。

根据前述步骤S1可知,三元组数据集中的实体来源于不同的数据库,而不同数据库对实体的表达方式可能存在差异。即,同一实体在不同数据库中可能存在不同的表达方式。例如,“肝细胞癌疾病”在某些数据库中的表达方式为“HCC”,在另一些数据库中的表达方式为“肝细胞癌”。因此,从不同数据源中提取出的三元组数据集中容易出现同一实体对应于多种表达方式的问题,或者同一表达方式对应于多种实体的问题。有鉴于此,为了保证肝细胞癌病理知识图谱中的数据准确性,还需要对三元组数据集中的实体进行归一化映射操作。即,通过预设选取规则将具有多种表达方式的实体映射为同一种表达方式,或者将具有多种实体的表达方式映射为同一种实体。

其中,预设选取规则可以根据实际应用的具体情况进行合理设置,本公开实施例对此不作任何限制。在可能的实施方式中,预设选取规则可以设置为:选择出现次数最多的表达方式作为最终的表达方式。即,针对每一个实体,选择出现次数最多的实体作为目标实体。例如,“HCC”和“肝细胞癌”都表示“肝细胞癌疾病”,三元组数据集中出现“HCC”的次数为264次,出现“肝细胞癌”的次数为538次,则选择“肝细胞癌”来表示“肝细胞癌疾病”。

在其它可能实施的方式中,可以先预先构建一个语料库,语料库中包括预先选取的多种语料,且一种语料有且仅对应于一种实体。然后再根据三元组数据集中每个实体的语义从语料库中筛选出与之语义相似度最高的语料作为目标实体。即,根据本公开的一个实施例,当预设选取规则为选取与实体的语义最相似的语料作为目标实体时,针对三元组数据集中的每个实体,根据预设选取规则在预设语料库中确定对应的目标实体包括:

针对三元组数据集中的每个实体,执行以下操作:

确定实体与预设语料库中每个语料的相似度;根据相似度和预设的相似度阈值确定候选语料,或按照相似度的大小顺序对语料进行排序,得到语料序列,并根据语料序列和预设的选取顺位确定候选语料;确定候选语料与实体的语义相似性,并根据语义相似性,确定目标实体。

应当理解的是,文本相似度越高,对应的文本语义越接近,而文本语义的确定相较于文本相似度的确定更为复杂,所需时间更多。因此,本公开实施例先通过计算实体与每个语料的相似度,并根据相似度大小从语料库中筛选出一部分相似度较高的候选语料,从而再对候选语料进行语义识别,获取目标实体。由于候选语料的数量远远小于语料库中的语料数量,因此可以极大的节省计算文本语义的时间,提高选取效率。

此外,需要说明的是,从候选语料中选取目标实体的方式并不唯一,在可能的实施方式中,还可以人为的从候选语料中选取一个语料作为目标实体,本公开实施例对其不在任何限制。

另外,还需要说明的是,由于构建语料库需要花费大量的时间和精力去查找资料并筛选语料,极大的增加了知识图谱的构建难度和构建时间。因此,在可能的实施方式中,可以采用相关技术中的数据库作为预设语料库。例如以UMLS作为预设语料库来实现上述方案。UMLS是一个元词库,是最大的生物医学词典集合,包含290万个实体和1140万个实体名称与同义词。如图2所示,UMLS中包含多个概念,每个概念对应于图2中的方框或/和方框下方的圆点;每个概念拥有一个标识符ID,对应于图2中的概念统一标识符:xxxxxxx;且每个概念有N个同义词,对应于图2方框中的同义词1、同义词2、同义词3....;N个同义词中有一个同义词作为首选术语来表示这个概念,对应于图2方框中的同义词1。由于UMLS中的一个概念包含多个同义词,因此为避免同一实体的不同表达方式选择同一概念下的不同同义词作为目标实体,在采用UMLS作为预设语料库时,当确定出目标同义词后,还需要确定目标同义词所属的概念,用概念来表示目标实体,也就是用当前概念中的首选术语来表示目标实体。即,根据本公开的一个实施例,当预设语料库为统一医学语言库(即UMLS),预设选取规则为从预设语料库中选取与实体的语义最相似的语料作为目标实体时,针对三元组数据集中的每个实体,根据预设选取规则在预设语料库中确定对应的目标实体包括:

如图3所示,针对三元组数据集中的每个实体,执行以下操作:

确定实体与统一医学语言库中每个同义词的相似度;根据相似度和预设的相似度阈值确定候选同义词,或按照相似度的大小顺序对同义词进行排序,得到同义词序列,并根据同义词序列和预设的选取顺位确定候选同义词;确定候选同义词与实体的语义相似性,并根据语义相似性,确定目标同义词;确定目标同义词在统一医学语言库中所属的概念名称,将概念名称确定为目标实体。

应当理解的是,本实施例构建的知识图谱为肝细胞癌病理知识图谱,因此在确定实体与统一医学语言库中每个同义词的相似度时,为减少数据计算量以及提高知识图谱的构建效率,可以只计算实体与脱氧核糖核酸DNA(deoxyribonucleic acid)、核糖核酸RNA(ribonucleic acid)、基因、蛋白质、细胞、疾病、表型异常以及治疗技术这八大类概念中每个同义词的相似度。

其中,确定实体与预设语料库中每个语料的相似度可以包括:

基于统计语言模型确定实体的稀疏向量和语料的稀疏向量;基于语言表征模型确定实体的稠密向量和语料的稠密向量;根据实体的稀疏向量和语料的稀疏向量确定第一相似度,根据实体的稠密向量和语料的稠密向量确定第二相似度;将第一相似度和第二相似度相加,得到相似度。

应当理解的是,统计语言模型可以基于现有的模型来实现。例如可以采用字符级汉语语言模型n-gram来获取实体的稀疏向量。字符级n-gram模型的基本思想是根据前两个字符的概率(即稀疏向量)来计算第3个字符的概率。为便于理解,以下以一个n取2的例子来进行说明:

如果想要计算当前字符w

应当理解的是,在本公开实施例中,所有字符出现的总次数指的是:实体与预设语料库中每个语料对应的字符出现的总次数。

同理,语言表征模型也可以基于现有的神经网络模型结构来实现,例如可以采用用于生物医学文本挖掘的预训练生物医学语言表示模型BioBERT(a pre-trainedbiomedical language representation model for biomedical text mining)来实现。具体的,预先以样本实体作为输入、样本实体对应的稠密向量作为输出训练BioBERT模型,然后通过训练完毕的BioBERT模型获取实体的稠密向量。

应当理解的是,BioBERT模型为预训练的语言表征模型,是通过大量医学语料进行训练得到的模型。当将其用于本公开实施例时,由于运用场景存在差异,直接使用官方提供的参数进行模型训练,会存在训练好的模型并不能很好的适用于本方案的问题,即,模型精度较低的问题。为解决上述技术问题,本公开实施例首先通过官方提供的参数进行BioBERT模型的预训练,即,训练每个字符的文本向量表示(即稠密向量),然后再通过构建下游任务来对训练后的BioBERT模型的参数进行微调,以提高BioBERT模型的精度。即,根据本公开的一个实施例,语言表征模型的训练过程可以包括:

通过预训练的语言表征模型确定样本实体的稠密向量和样本候选语料的稠密向量,以及通过统计语言模型确定样本实体的稀疏向量和样本候选语料的稀疏向量;根据样本实体的稠密向量、样本实体的稀疏向量、样本候选语料的稠密向量以及样本候选语料的稀疏向量,确定样本实体与每个样本候选语料的相似度;根据相似度的大小确定样本相似度序列,以及根据样本相似度序列确定样本标签序列;其中,样本标签序列中每个样本标签用于指示样本相似度序列中每个样本相似度的标准类别,标准类别包括同义词和/或上位词;根据样本相似度序列和样本标签序列确定损失函数值,并根据损失函数值更新预训练的语言表征模型的参数。

示意性的,在微调过程中,一训练样本包括实体d和20个同义词,且20个同义词来自于UMLS中的4个概念;训练时,首先将实体d和20个同义词输入至预训练的BioBERT模型和统计语言模型中,得到实体d的稠密向量和稀疏向量,以及每个同义词的稠密向量和稀疏向量。其次根据实体d的稠密向量、实体d的稀疏向量、每个同义词的稠密向量和每个同义词的稀疏向量计算实体d与每个同义词的相似度,并根据相似度的大小选择7个相似度最大的同义词作为实体d的候选同义词,记为[d

在可能的实施方式中,可以基于列表交叉熵作为损失函数,并使用极大似然估计法来求取损失函数值。列表交叉熵为:

其中,ListLoss表示损失函数值,M表示训练样本中实体的总数,y

在语言表征模型训练完毕后,便可利用语言表征模型确定实体的稠密向量和语料的稠密向量,进而根据实体的稀疏向量和语料的稀疏向量,确定实体与预设语料库中每个语料的相似度。

示意性的,将一实体记为m,m对应的稀疏向量记为

S3:根据目标三元组数据集构建肝细胞癌病理知识图谱。

综上,通过上述知识图谱构建方法,可以将不同数据源中关于肝细胞癌的医学知识连接在一起,以便于查询肝细胞癌的病理知识。具体的,通过从不同数据源获取肝细胞癌文本数据并进行实体和实体关系的提取,可以使得构建的肝细胞癌病理知识图谱能够涵盖与肝细胞癌相关的大部分病理知识,不仅有助于生物医学研究人员发现与肝细胞癌有关的物质,还可以提升肝细胞癌病理知识查询的准确度和完整性。另一方面,通过预设选取规则将具有多种表达方式的实体映射为预设语料库中的目标实体,可以对提取数据中的实体进行标准的归一化映射,减少不同数据源之间的大规模信息冗余问题,进而保证肝细胞癌病理知识图谱中的数据准确性,提升基于该知识图谱进行信息查询的准确度。

应当理解的是,当肝细胞癌病理知识图谱构建完成后,为了后续能够使用该肝细胞癌病理知识图谱进行信息查询,还需要将构建的肝细胞癌病理知识图谱进行存储。即,根据本公开的一个实施例,方法还可以包括:

将肝细胞癌病理知识图谱以资源描述框架的形式进行存储;和/或,将肝细胞癌病理知识图谱以图数据库的形式进行存储。

示意性的,当以资源描述框架的形式存储肝细胞癌病理知识图谱时,可以通过Sparql协议(Simple Protocol and RDF Query Language)建立数据和查询之间的链接。当以图数据库的形式存储肝细胞癌病理知识图谱时,可以使用图形查询语言Cypher来查询和更新数据。根据本公开的一个实施例,用图形数据库Neo4j来存储肝细胞癌病理知识图谱,通过工具Neo4j-import将肝细胞癌病理知识图谱中对应的三元组导入Neo4j即可。当在Neo4j中打开肝细胞癌病理知识图谱时,会显示一个网络,其中,网络的节点为实体,各节点的连接线为实体间的实体关系。生物医学研究人员可以搜索实体和实体关系来进行探索和推理。

在可能的实施方式中,基于上述方法构建的肝细胞癌病理知识图谱包括5028个实体和13296个三元组。具体包括1328种药物、1849种蛋白质、1403种疾病、160种细胞、140种DNA、54种表型异常、50种基因、35种治疗技术以及9种RNA。通过分析数据可以发现:

(1)从不同数据源获取的肝细胞癌文本数据有162406个,远大于肝细胞癌病理知识图谱中的三元组数量,这表明不同数据源之间的肝细胞癌文本数据存在大规模冗余信息。通过本公开实施例提供的知识图谱构建方法可以帮助研究人员过滤掉冗余信息,提高研究效率。

(2)本实施例构建的肝细胞癌病理知识图谱中的三元组数量远大于实体数量,这意味着一个实体可能与多个不同的实体相关,可以有助于研究人员分析不同实体之间的关系,有助于发现肝细胞癌的分子机制或治疗方法。例如,肝细胞癌与甲型肝炎有关,而甲型肝炎与胰高血糖素有关系,因此可以推断出胰高血糖素可能与肝细胞癌有关,从而帮助生物医学研究人员发现与肝细胞癌有关的物质。

基于同一构思,本公开实施例还提供了一种知识图谱构建装置,如图4所示,知识图谱构建装置400包括:

获取模块401,用于从不同数据源获取肝细胞癌文本数据,并根据肝细胞癌文本数据确定三元组数据集,三元组数据集中的每个三元组包括实体对和实体关系,实体关系用于表征实体对中两个实体之间的关系;

处理模块402,用于针对三元组数据集中的每个实体,根据预设选取规则在预设语料库中确定对应的目标实体,并用目标实体替换三元组数据集中对应的实体,得到目标三元组数据集;

构建模块403,用于根据目标三元组数据集构建肝细胞癌病理知识图谱。

可选地,当预设选取规则为选取与实体的语义最相似的语料作为目标实体时,针对三元组数据集中的每个实体,处理模块402还可以用于:

确定实体与预设语料库中每个语料的相似度;根据相似度和预设的相似度阈值确定候选语料,或按照相似度的大小顺序对语料进行排序,得到语料序列,并根据语料序列和预设的选取顺位确定候选语料;确定候选语料与实体的语义相似性,并根据语义相似性,确定目标实体。

可选地,处理模块402还可以用于:

基于统计语言模型确定实体的稀疏向量和语料的稀疏向量;基于语言表征模型确定实体的稠密向量和语料的稠密向量;根据实体的稀疏向量和语料的稀疏向量确定第一相似度,根据实体的稠密向量和语料的稠密向量确定第二相似度;将第一相似度和第二相似度相加,得到相似度。

可选地,知识图谱构建装置400还可以包括训练模块,训练模块用于:

通过预训练的语言表征模型确定样本实体的稠密向量和样本候选语料的稠密向量,以及通过统计语言模型确定样本实体的稀疏向量和样本候选语料的稀疏向量;

根据样本实体的稠密向量、样本实体的稀疏向量、样本候选语料的稠密向量以及样本候选语料的稀疏向量,确定样本实体与每个样本候选语料的相似度;

根据相似度的大小确定样本相似度序列,以及根据样本相似度序列确定样本标签序列;其中,样本标签序列中每个样本标签用于指示样本相似度序列中每个样本相似度的标准类别,标准类别包括同义词和/或上位词;

根据样本相似度序列和样本标签序列确定损失函数值,并根据损失函数值更新预训练的语言表征模型的参数。

可选地,当预设语料库为统一医学语言库时,针对三元组数据集中的每个实体,处理模块402还用于:

确定实体与统一医学语言库中每个同义词的相似度;根据相似度和预设的相似度阈值确定候选同义词,或按照相似度的大小顺序对同义词进行排序,得到同义词序列,并根据同义词序列和预设的选取顺位确定候选同义词;确定候选同义词与实体的语义相似性,并根据语义相似性,确定目标同义词;确定目标同义词在统一医学语言库中所属的概念名称,将念名称确定为目标实体。

可选地,当肝细胞癌文本数据为非结构化文本数据时,处理模块402还用于:

通过实体识别模型对肝细胞癌文本数据进行实体识别,得到实体;基于预设配对规则对实体进行配对,得到实体对;通过关系识别模型对实体对进行关系识别,得到实体关系;根据实体对和对应的实体关系确定三元组数据集。

可选地,知识图谱构建装置400还包括存储模块,存储模块可以用于:

将肝细胞癌病理知识图谱以资源描述框架的形式进行存储;和/或,将肝细胞癌病理知识图谱以图数据库的形式进行存储。

综上,通过上述知识图谱构建装置400,可以将不同数据源中关于肝细胞癌的医学知识连接在一起,以便于查询肝细胞癌的病理知识。具体的,通过从不同数据源获取肝细胞癌文本数据并进行实体和实体关系的提取,可以使得构建的肝细胞癌病理知识图谱能够涵盖与肝细胞癌相关的大部分病理知识,不仅有助于生物医学研究人员发现与肝细胞癌有关的物质,还可以提升肝细胞癌病理知识查询的准确度和完整性。另一方面,通过预设选取规则将具有多种表达方式的实体映射为预设语料库中的目标实体,可以对提取数据中的实体进行标准的归一化映射,减少不同数据源之间的大规模信息冗余问题,进而保证肝细胞癌病理知识图谱中的数据准确性,提升基于该知识图谱进行信息查询的准确度。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。

其中,处理器501用于控制该电子设备500的整体操作,以完成上述的知识图谱构建方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。

在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的知识图谱构建方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的知识图谱构建方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的知识图谱构建方法。

在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的知识图谱构建方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

技术分类

06120115629691