掌桥专利:专业的专利平台
掌桥专利
首页

结合知识图谱的中医典籍语义分析方法及系统

文献发布时间:2024-04-18 19:58:30


结合知识图谱的中医典籍语义分析方法及系统

技术领域

本公开涉及语义分析技术领域,具体涉及结合知识图谱的中医典籍语义分析方法及系统。

背景技术

中医典籍中蕴含着大量宝贵的重大疾病防治康养知识。但由于语义复杂,对疾病防治康养知识的挖掘、整理非常困难。且由于缺乏知识转化、应用的手段,疾病防治康养知识应用于临床、指导临床实践的作用也非常有限。目前,现有的分析中医典籍语义的方法大多为人工进行分析,导致语义分析的效率低下。综上所述,现有技术中存在由于中医典籍语义分析精确度和效率较低,导致中医典籍的疾病防治知识的整理和应用效率较低的技术问题。

发明内容

本公开提供了结合知识图谱的中医典籍语义分析方法及系统,用以解决现有技术中存在由于中医典籍语义分析精确度和效率较低,导致中医典籍的疾病防治知识的较低的整理和应用的效率较低的技术问题。

根据本公开的第一方面,提供了结合知识图谱的中医典籍语义分析方法,包括:采集获取待进行语义分析的目标中医典籍数据,对所述目标中医典籍数据进行文字提取,得到原始中医典籍文字;基于异形字映射关联数据库构建第一知识图谱,对所述原始中医典籍文字进行异形自识别并替换,获得第一修正中医典籍文字;基于数据挖掘技术采集获取异形字校正后的第一古汉语样本集合和进行现代汉语转换后的现代汉语样本集合;根据所述现代汉语样本集合对所述第一古汉语样本集合进行词语关联关系识别,获得第二知识图谱;通过所述第二知识图谱对所述第一修正中医典籍文字进行现代汉语转换,得到第一转换文字;基于所述第一转换文字进行典籍类型识别得到目标典籍类型,以所述第一转换文字和目标典籍类型组成所述目标中医典籍数据的语义分析结果。

根据本公开的第二方面,提供了结合知识图谱的中医典籍语义分析系统,包括:原始中医典籍文字获得模块,所述原始中医典籍文字获得模块用于采集获取待进行语义分析的目标中医典籍数据,对所述目标中医典籍数据进行文字提取,得到原始中医典籍文字;第一修正中医典籍文字获得模块,所述第一修正中医典籍文字获得模块用于基于异形字映射关联数据库构建第一知识图谱,对所述原始中医典籍文字进行异形自识别并替换,获得第一修正中医典籍文字;现代汉语样本集合获得模块,所述现代汉语样本集合获得模块用于基于数据挖掘技术采集获取异形字校正后的第一古汉语样本集合和进行现代汉语转换后的现代汉语样本集合;第二知识图谱获得模块,所述第二知识图谱获得模块用于根据所述现代汉语样本集合对所述第一古汉语样本集合进行词语关联关系识别,获得第二知识图谱;第一转换文字获得模块,所述第一转换文字获得模块用于通过所述第二知识图谱对所述第一修正中医典籍文字进行现代汉语转换,得到第一转换文字;语义分析结果获得模块,所述语义分析结果获得模块用于基于所述第一转换文字进行典籍类型识别得到目标典籍类型,以所述第一转换文字和目标典籍类型组成所述目标中医典籍数据的语义分析结果。

本公开中提供的一个或多个技术方案,至少具有如下技术效果或优点:根据本公开采用的通过采集获取待进行语义分析的目标中医典籍数据,对所述目标中医典籍数据进行文字提取,得到原始中医典籍文字;基于异形字映射关联数据库构建第一知识图谱,对所述原始中医典籍文字进行异形自识别并替换,获得第一修正中医典籍文字;基于数据挖掘技术采集获取异形字校正后的第一古汉语样本集合和进行现代汉语转换后的现代汉语样本集合;根据所述现代汉语样本集合对所述第一古汉语样本集合进行词语关联关系识别,获得第二知识图谱;通过所述第二知识图谱对所述第一修正中医典籍文字进行现代汉语转换,得到第一转换文字;基于所述第一转换文字进行典籍类型识别得到目标典籍类型,以所述第一转换文字和目标典籍类型组成所述目标中医典籍数据的语义分析结果,解决了现有技术中存在由于中医典籍语义分析精确度和效率较低,导致中医典籍的疾病防治知识的较低的整理和应用的效率较低的技术问题,实现提高语义分析精确度和效率的目标,达到提高中医典籍的疾病防治知识的整理和应用效率的技术效果。

应当理解,本部分所描述的内容并非旨在标示本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本公开实施例提供的结合知识图谱的中医典籍语义分析方法的流程示意图。

图2为本公开实施例结合知识图谱的中医典籍语义分析方法中对所述目标中医典籍数据进行文字提取的流程示意图。

图3为本公开实施例提供的结合知识图谱的中医典籍语义分析系统的结构示意图。

附图标记说明:原始中医典籍文字获得模块11,第一修正中医典籍文字获得模块12,现代汉语样本集合获得模块13,第二知识图谱获得模块14,第一转换文字获得模块15,语义分析结果获得模块16。

具体实施方式

以下结合附图对本公开的示范性实施例作出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

实施例一

本公开实施例提供的结合知识图谱的中医典籍语义分析方法,兹参照图1作说明,所述方法包括:

本公开实施例提供的方法中包括:

采集获取待进行语义分析的目标中医典籍数据,对所述目标中医典籍数据进行文字提取,得到原始中医典籍文字;

具体地,目标中医典籍数据为中医典籍中提取的待进行语义分析的中医典籍数据。举例而言,中医典籍数据为任一典籍的治疗方法或药物功效数据。进一步地,对目标中医典籍数据进行文字提取,当文字提取失败时,对提取失败文字进行生僻字转化,得到原始中医典籍文字。

基于异形字映射关联数据库构建第一知识图谱,对所述原始中医典籍文字进行异形自识别并替换,获得第一修正中医典籍文字;

具体地,异形字为通假字和错别字。获得带有异形字的样本集合,并获取对异形字校正后的对应样本集合。对异形字和校正字进行关联识别,获得异形字映射关联数据库。将异形字映射关联数据库作为第一知识图谱。对原始中医典籍文字进行异形自识别,通过在第一知识图谱中匹配获得异形字,对异形字进行校正字的替换,获得第一修正中医典籍文字。

基于数据挖掘技术采集获取异形字校正后的第一古汉语样本集合和进行现代汉语转换后的现代汉语样本集合;

具体地,异形字为通假字和错别字。基于数据挖掘技术采集获得具有异形字的古汉语样本集合。对异形字中错别字进行校正后,获取异形字校正后的第一古汉语样本集合。对异形字中通假字进行现代汉语转换后,获得现代汉语样本集合。

根据所述现代汉语样本集合对所述第一古汉语样本集合进行词语关联关系识别,获得第二知识图谱;

具体地,对第一古汉语样本集合进行古汉语分割,获得分割词序列集合,用于分析古汉语的倒装语句。将分割词序列集合在现代汉语样本集合中进行匹配,获得符合现代汉语语序的序列集合。将符合现代汉语语序的序列集合与分割词序列集合进行替换,即进行词语关联关系识别,获得第二知识图谱。

通过所述第二知识图谱对所述第一修正中医典籍文字进行现代汉语转换,得到第一转换文字;

具体地,通过第二知识图谱对第一修正中医典籍文字的倒装词、句进行符合现代汉语语序的语序转换,得到第一转换文字。其中,第一转换文字符合现代汉语语序。

基于所述第一转换文字进行典籍类型识别得到目标典籍类型,以所述第一转换文字和目标典籍类型组成所述目标中医典籍数据的语义分析结果。

具体地,通过中医典籍分类样本数据集,对第一转换文字进行典籍类型识别,即获取第一转换文字中疾病类型及其药物配方、诊疗手段,作为目标典籍类型。进一步地,将目标典籍类型在第一转换文字中进行匹配,获得目标中医典籍数据。其中,目标中医典籍数据为某一种疾病的药物配方、诊疗手段。将多组目标中医典籍数据进行组合,组成目标中医典籍数据的语义分析结果。

其中,通过本实施例可以解决现有技术中存在由于中医典籍语义分析精确度和效率较低,导致中医典籍的疾病防治知识的较低的整理和应用的效率较低的技术问题,实现提高语义分析精确度和效率的目标,达到提高中医典籍的疾病防治知识的整理和应用效率的技术效果。

本公开实施例提供的方法中还包括:

基于所述目标中医典籍数据的数据类型,设置结构化文字识别通道和非结构化文字识别通道;

通过所述结构化文字识别通道和非结构化文字识别通道对所述目标中医典籍数据进行文字提取,获得第一文字提取结果,所述第一文字提取结果具有提取成功标识或提取失败标识;

当所述第一文字提取结果具有提取失败标识时,启动人机交互模块,通过所述人机交互模块对所述目标中医典籍数据进行生僻字信息的补充;

根据所述生僻字信息对所述结构化文字识别通道和非结构化文字识别通道进行反馈优化;

利用反馈优化后的结构化文字识别通道和非结构化文字识别通道对所述目标中医典籍数据重新进行文字提取,获得所述原始中医典籍文字。

如图2所示,具体地,基于目标中医典籍数据的数据类型,设置结构化文字识别通道和非结构化文字识别通道。其中,数据类型包括文字数据和图像数据。例如,非结构化文字识别通道为图像识别通道。

进一步地,分别通过结构化文字识别通道和非结构化文字识别通道对目标中医典籍数据进行文字提取,分别获得第一文字提取结果,第一文字提取结果具有提取成功标识或提取失败标识。其中,第一文字提取结果包括文字数据的文字提取结果和图像数据的文字提取结果。进一步地,提取成功标识表示文字提取结果中文字数据与现代汉语中文字数据相同。提取失败标识表示文字提取结果中文字数据与现代汉语中文字数据不同,例如,文字数据为生僻字、繁体字。

进一步地,当第一文字提取结果具有提取失败标识时,表示文字数据为生僻字,则启动人机交互模块,通过人机交互模块对目标中医典籍数据进行生僻字信息的补充,即对第一文字提取结果的生僻字进行现代汉语的转化。

进一步地,将生僻字信息的补充添加至结构化文字识别通道和非结构化文字识别通道,用于提高识别成功率,进行反馈优化。

进一步地,利用反馈优化后的结构化文字识别通道和非结构化文字识别通道,分别对目标中医典籍数据重新进行文字提取,获得原始中医典籍文字,直至获取第一文字提取结果的提取成功标识。

其中,识别生僻字信息,对结构化文字识别通道和非结构化文字识别通道进行反馈优化,提高通道的识别效率。

本公开实施例提供的方法中还包括:

通过所述人机交互模块对所述生僻字信息进行异形字分析和语义分析,获得异形字分析结果和语义分析结果;

利用所述异形字分析结果和所述语义分析结果对所述第一知识图谱、第二知识图谱进行反馈优化。

具体地,通过人机交互模块对生僻字信息进行异形字分析和语义分析,获得异形字分析结果和语义分析结果。其中,异形字分析为对通假字、错别字进行分析识别。

进一步地,利用异形字分析结果和语义分析结果对第一知识图谱、第二知识图谱进行反馈优化,将异形字分析结果和语义分析结果添加至第一知识图谱、第二知识图谱,用于进行识别。

其中,进行异形字分析和语义分析,对第一知识图谱和第二知识图谱进行反馈优化,可以提高第一知识图谱和第二知识图谱的识别效率。

本公开实施例提供的方法中还包括:

基于数据挖掘技术采集获取带有异形字的第二古汉语样本集合、异形字校正后的第三古汉语样本集合;

基于所述第二古汉语样本集合提取异形字段集合,所述异形字段集合具有异形字标识;

根据所述异形字段集合的异形字标识在所述第三古汉语样本集合提取对应的校正字,建立所述校正字与所述异形字段集合的映射关系,构建所述异形字映射关联数据库。

具体地,基于数据挖掘技术采集获取带有异形字的第二古汉语样本集合、异形字校正后的第三古汉语样本集合。其中,异形字为通假字、错别字。第二古汉语样本集合为随机获得的带有异形字的古汉语样本集合。第三古汉语样本集合为将第二古汉语样本集合进行异形字校正获得。举例而言,应用的数据挖掘技术为统计数据、聚类、可视化、决策树等方法。

进一步地,对第二古汉语样本集合进行异形字识别,提取多个异形字段,获得异形字段集合,异形字段集合具有异形字标识。其中,提取每个异形字前后两个字,避免当仅通过识别一个字进行异形字识别时,容易出错的问题。

进一步地,根据异形字段集合的异形字标识在第三古汉语样本集合提取对应的校正字,建立校正字与异形字段集合的映射关系,将多个映射关系进行组合,构建异形字映射关联数据库。其中,提取对应的校正字的方法为在第三古汉语样本集合进行异形字标识的相同位置匹配,获得校正字。

其中,基于异形字映射关联数据库构建第一知识图谱,可以提高典籍的识别效率。

本公开实施例提供的方法中还包括:

基于所述异形字映射关联数据库构建所述第一知识图谱;

将所述原始中医典籍文字在所述第一知识图谱中进行遍历匹配识别,获取匹配异形字段和匹配异形字;

基于所述映射关系,获取与所述匹配异形字段对应的匹配校正字,用所述匹配校正字替换所述匹配异形字,生成所述第一修正中医典籍文字。

具体地,基于异形字映射关联数据库构建第一知识图谱。匹配第一知识图谱之后,通过异形字获取校正字,通过校正字获取异形字。

进一步地,将原始中医典籍文字依次在第一知识图谱中访问进行匹配识别,获取匹配异形字段和匹配异形字。其中,匹配异形字段为至少包括一个异形字的两字及以上词段。

进一步地,在映射关系中,获取匹配异形字段以及与匹配异形字段对应的匹配校正字,用匹配校正字替换匹配异形字,生成第一修正中医典籍文字。

其中,通过第一知识图谱的映射关系,进行替换可以提高中医典籍语义分析的效率。

本公开实施例提供的方法中还包括:

对所述第一古汉语样本集合进行古汉语分割,获得分割词序列集合;

基于所述现代汉语样本集合对所述分割词序列集合中的第一分割词序列进行词语位置关联分析,获得位置关联数据库;

根据所述现代汉语样本集合对所述第一古汉语样本集合进行语义关系识别,获得语义关联数据库;

以所述位置关联数据库和所述语义关联数据库组成所述第二知识图谱。

具体地,对第一古汉语样本集合进行古汉语分割,获得分割词序列集合,用于分析古汉语的倒装语句。其中,分割词序列集合包括字段和词段。

进一步地,在分割词序列集合中随机获取一个分割词序列,作为第一分割词序列。在现代汉语样本集合中对第一分割词序列进行词语位置关联分析,获得位置关联数据库。其中,第一分割词序列中一个词和另一个词具有倒装关系。倒装关系包括主谓倒装、宾语前置等,需要根据位置关联先进行位置转换,获得符合现代汉语语序的语句、词句。举例而言,古汉语中“何陋之有”为“有何陋”的倒装。

进一步地,根据现代汉语样本集合对第一古汉语样本集合进行语义关系识别,即词句的替换,第一古汉语样本集合中的A在现代汉语样本集合中为B,获得语义关联数据库。

进一步地,将位置关联数据库和语义关联数据库进行添加,组成第二知识图谱。其中,获得第二知识图谱,可以提高获得中医典籍在现代汉语中的替换效率。

本公开实施例提供的方法中还包括:

获取中医典籍分类样本数据集;

根据所述中医典籍分类样本数据集,以药物配方、诊疗手段作为一级分类属性,获取一级分类单元;

以疾病类型作为二级分类属性根据所述中医典籍分类样本数据集构建二级分类单元;

以所述一级分类单元,所述二级分类单元对所述第一转换文字进行典籍类型识别得到所述目标典籍类型。

具体地,基于历史中医典籍分类记录,获取中医典籍分类样本数据集。进一步地,在中医典籍分类样本数据集中,以药物配方、诊疗手段作为一级分类属性,获取一级分类单元。举例而言,药物配方为作用于某一种病情的药品制剂。诊疗手段为作用于某一种病情的药物疗法或物理疗法。

进一步地,以疾病类型作为二级分类属性根据中医典籍分类样本数据集构建二级分类单元。举例而言,疾病类型包括神经系统疾病、内分泌疾病、鼻咽喉疾病、呼吸系统疾病等。

进一步地,根据二级分类单元,在一级分类单元进行匹配,获得疾病类型对应的药物配方、诊疗手段,即对第一转换文字进行典籍类型识别得到目标典籍类型。

其中,通过进行分类获得目标典籍类型可以辅助用户快速确定目标中医典籍数据的应用场景,辅助用户更好理解。

实施例二

基于与前述实施例中结合知识图谱的中医典籍语义分析方法同样的发明构思,兹参照图3作说明,本公开还提供了结合知识图谱的中医典籍语义分析系统,所述系统包括:

原始中医典籍文字获得模块11,所述原始中医典籍文字获得模块11用于采集获取待进行语义分析的目标中医典籍数据,对所述目标中医典籍数据进行文字提取,得到原始中医典籍文字;

第一修正中医典籍文字获得模块12,所述第一修正中医典籍文字获得模块12用于基于异形字映射关联数据库构建第一知识图谱,对所述原始中医典籍文字进行异形自识别并替换,获得第一修正中医典籍文字;

现代汉语样本集合获得模块13,所述现代汉语样本集合获得模块13用于基于数据挖掘技术采集获取异形字校正后的第一古汉语样本集合和进行现代汉语转换后的现代汉语样本集合;

第二知识图谱获得模块14,所述第二知识图谱获得模块14用于根据所述现代汉语样本集合对所述第一古汉语样本集合进行词语关联关系识别,获得第二知识图谱;

第一转换文字获得模块15,所述第一转换文字获得模块15用于通过所述第二知识图谱对所述第一修正中医典籍文字进行现代汉语转换,得到第一转换文字;

语义分析结果获得模块16,所述语义分析结果获得模块16用于基于所述第一转换文字进行典籍类型识别得到目标典籍类型,以所述第一转换文字和目标典籍类型组成所述目标中医典籍数据的语义分析结果。

进一步地,所述系统还包括:

结构化文字识别通道获得模块,所述结构化文字识别通道获得模块用于基于所述目标中医典籍数据的数据类型,设置结构化文字识别通道和非结构化文字识别通道;

提取成功标识获得模块,所述提取成功标识获得模块用于通过所述结构化文字识别通道和非结构化文字识别通道对所述目标中医典籍数据进行文字提取,获得第一文字提取结果,所述第一文字提取结果具有提取成功标识或提取失败标识;

生僻字信息补充模块,所述生僻字信息补充模块用于当所述第一文字提取结果具有提取失败标识时,启动人机交互模块,通过所述人机交互模块对所述目标中医典籍数据进行生僻字信息的补充;

反馈优化模块,所述反馈优化模块用于根据所述生僻字信息对所述结构化文字识别通道和非结构化文字识别通道进行反馈优化;

文字提取模块,所述文字提取模块用于利用反馈优化后的结构化文字识别通道和非结构化文字识别通道对所述目标中医典籍数据重新进行文字提取,获得所述原始中医典籍文字。

进一步地,所述系统还包括:

异形字分析结果获得模块,所述异形字分析结果获得模块用于通过所述人机交互模块对所述生僻字信息进行异形字分析和语义分析,获得异形字分析结果和语义分析结果;

第一知识图谱反馈优化模块,所述第一知识图谱反馈优化模块用于利用所述异形字分析结果和所述语义分析结果对所述第一知识图谱、第二知识图谱进行反馈优化。

进一步地,所述系统还包括:

第二古汉语样本集合获得模块,所述第二古汉语样本集合获得模块用于基于数据挖掘技术采集获取带有异形字的第二古汉语样本集合、异形字校正后的第三古汉语样本集合;

异形字标识获得模块,所述异形字标识获得模块用于基于所述第二古汉语样本集合提取异形字段集合,所述异形字段集合具有异形字标识;

异形字映射关联数据库获得模块,所述异形字映射关联数据库获得模块用于根据所述异形字段集合的异形字标识在所述第三古汉语样本集合提取对应的校正字,建立所述校正字与所述异形字段集合的映射关系,构建所述异形字映射关联数据库。

进一步地,所述系统还包括:

第一知识图谱获得模块,所述第一知识图谱获得模块用于基于所述异形字映射关联数据库构建所述第一知识图谱;

匹配异形字段获得模块,所述匹配异形字段获得模块用于将所述原始中医典籍文字在所述第一知识图谱中进行遍历匹配识别,获取匹配异形字段和匹配异形字;

第一修正中医典籍文字获得模块,所述第一修正中医典籍文字获得模块用于基于所述映射关系,获取与所述匹配异形字段对应的匹配校正字,用所述匹配校正字替换所述匹配异形字,生成所述第一修正中医典籍文字。

进一步地,所述系统还包括:

分割词序列集合获得模块,所述分割词序列集合获得模块用于对所述第一古汉语样本集合进行古汉语分割,获得分割词序列集合;

位置关联数据库获得模块,所述位置关联数据库获得模块用于基于所述现代汉语样本集合对所述分割词序列集合中的第一分割词序列进行词语位置关联分析,获得位置关联数据库;

语义关联数据库获得模块,所述语义关联数据库获得模块用于根据所述现代汉语样本集合对所述第一古汉语样本集合进行语义关系识别,获得语义关联数据库;

第二知识图谱获得模块,所述第二知识图谱获得模块用于以所述位置关联数据库和所述语义关联数据库组成所述第二知识图谱。

进一步地,所述系统还包括:

中医典籍分类样本数据集获得模块,所述中医典籍分类样本数据集获得模块用于获取中医典籍分类样本数据集;

一级分类单元获得模块,所述一级分类单元获得模块用于根据所述中医典籍分类样本数据集,以药物配方、诊疗手段作为一级分类属性,获取一级分类单元;

二级分类单元获得模块,所述二级分类单元获得模块用于以疾病类型作为二级分类属性根据所述中医典籍分类样本数据集构建二级分类单元;

目标典籍类型获得模块,所述目标典籍类型获得模块用于以所述一级分类单元,所述二级分类单元对所述第一转换文字进行典籍类型识别得到所述目标典籍类型。

前述实施例一中的结合知识图谱的中医典籍语义分析方法具体实例同样适用于本实施例的结合知识图谱的中医典籍语义分析系统,通过前述对结合知识图谱的中医典籍语义分析方法的详细描述,本领域技术人员可以清楚地知道本实施例中结合知识图谱的中医典籍语义分析系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合和替代。任何在本公开的精神和原则之内所做的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
  • 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
技术分类

06120116506005