掌桥专利:专业的专利平台
掌桥专利
首页

知识图谱构建系统

文献发布时间:2023-06-19 10:21:15


知识图谱构建系统

技术领域

本发明涉及数据库领域,具体是一种知识图谱构建系统。

背景技术

知识图谱是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识图谱之建立需要倚靠大量的专业文献,不同专业领域的文献可能具有不同的记载结构,难以采用通用的算法来对此些不同专业领域的文献来抽取结构信息。

发明内容

鉴于上述问题,本发明提出一种知识图谱构建系统,介以解决先前技术存在之问题。

在一实施例,知识图谱构建系统包括:概念标注模块、概念文本聚合模块、及实体概念关联模块。概念标注模块对于一文本分词成多个词语,并对所述多个词语给予一属性标签。概念文本聚合模块将至少一部分的相同所述属性标签的所述多个词语聚合成一文本块。实体概念关联模块,分别将多个不同的所述属性标签的所述文本块关联至一实体,以形成具有多个经过关联的所述实体的知识图谱。

依据一些实施例,所述概念标注模块是采用双向门控循环单元模型。

依据一些实施例,所述概念文本聚合模块是采用基于规则的模型。

依据一些实施例,所述实体概念关联模块是采用基于规则的模型。

依据一些实施例,所述基于规则的模型是正则表达式。

依据一些实施例,知识图谱构建系统更包括一人机校验模块,显示至少一个经过关联的所述实体以及相关的多个所述文本块,并依据一操作指令以改变特定的所述文本块的所述属性标签或改为关联至其他所述实体。

依据一些实施例,知识图谱构建系统更包括一概念标注更新模块,依据所述操作指令更新所述概念标注模块的规则。

依据一些实施例,知识图谱构建系统更包括一文本聚合更新模块,依据所述操作指令更新所述概念文本聚合模块的规则。

依据一些实施例,知识图谱构建系统更包括一关联更新模块,依据所述操作指令更新所述实体概念关联模块的规则。

综上,本发明提供一种知识图谱构建系统,能够对非结构化的文本转换为结构化的数据库结构。

附图说明

图1是本发明一实施例的知识图谱构建系统的方块示意图。

图2是本发明一实施例的人机介面示意图。

具体实施方式

为了使本发明的目的、特征及效果更容易理解,以下提供用于详细说明本发明的实施例及附图。

请参阅图1,图1是本发明一实施例的知识图谱构建系统的方块示意图。知识图谱构建系统系可由具有计算能力的电子装置实现,如桌上型电脑、手机、平板电脑、伺服器等,其具备处理器、内存、以及非暂态计算机可读取媒体(如硬盘)等。

知识图谱构建系统主要包括概念标注模块101、概念文本聚合模块102、以及实体概念关联模块103。概念标注模块101用于对一文本100进行分词,以拆分成多个词语,并对此些词语分别给予一个属性标签。属性标签(即概念)以医学领域为例,可例如为症状、诊断方法、治疗手段等。文本描述的内容通常有概念集中的情形,例如药剂说明书中列举的药品成分。概念文本聚合模块102用于将至少一部分相同的属性标签的词语聚合成一个文本块。例如将标注为药品的多个词语聚合成一个为药品概念的文本块。如此,可聚合成多种不同概念的文本块。此些不同概念将归属于同一个实体,例如普通感冒的实体将涉及症状、药方、病因等概念。实体概念关联模块103则用于分别将多个不同的属性标签的文本块关联至一个实体。如此,可形成多个经过关联的实体,而可依据文本构建出知识图谱108。

在此以一段文本来说明,该文本原文是〝二、燥伤本脏,头微痛,恶寒,咳嗽稀痰,鼻塞,嗌塞,脉弦,无汗,杏苏散主之。本脏者,肺胃也。经有嗌塞而咳之明文,故上焦之病自此始。燥伤皮毛,故头微痛恶寒也,微痛者,不似伤寒之痛甚也。阳明之脉,上行头角,故头亦痛也。咳嗽稀痰者,肺恶寒,古人谓燥为小寒也;肺为燥气所搏,不能通调水道,故寒饮停而咳也。鼻塞者,鼻为肺窍。嗌寒者,嗌为肺系也。脉弦者,寒兼饮也。无汗者,凉搏皮毛也。按杏苏散,减小青龙一等。此条当与下焦篇所补之痰饮数条参看。再杏苏散乃时人统治四时伤风咳嗽通用之方,本论前于风温门中已驳之矣;若伤燥凉之咳,治以苦温,佐以甘辛,正为合拍。若受重寒夹饮之咳,则有青龙;若伤春风,与燥已化火无痰之证,则仍从桑菊饮、桑杏汤例。杏苏散方苏叶半夏茯苓前胡苦桔梗枳壳甘草生姜大枣(去核)桔皮杏仁〔加减法〕无汗,脉弦甚或紧,加羌活,微透汗。汗后咳不止,去苏叶、羌活,加苏梗。兼泄泻腹满者,加苍术、浓朴。头痛兼眉棱骨痛者,加白芷。热甚加黄芩,泄泻腹满者不用。〔方论〕此苦温甘辛法也。外感燥凉,故以苏叶、前胡辛温之轻者达表;无汗脉紧,故加羌活辛温之重者,微发其汗。甘、桔从上开,枳、杏、前、芩从下降,则嗌塞鼻塞宣通而咳可止。桔、半、茯苓,逐饮而补肺胃之阳。以白芷易原方之白术者,白术中焦脾药也,白芷肺胃本经之药也,且能温肌肉而达皮毛。姜、枣为调和营卫之用。若表凉退而里邪未除,咳不止者,则去走表之苏叶,加降里之苏梗。泄泻腹满,金气太实之里证也,故去黄芩之苦寒,加术、朴之苦辛温也。〞

在此,概念标注模块101是采用双向门控循环单元-条件随机场模型,但本发明实施例不以此为限,也可以是使用其他能够完成自然语言处理之序列标注任务的计算机模型,例如:词频逆文档频率-条件随机场模型、基于注意力机制(Attention-based)的Transformer模型等。

在一些实施例中,双向门控循环单元-条件随机场模型是包括多个层。所述层中,第一层是字符表示层,能将待标注序列文本表示为字向量。字向量可经由预训练待识别文本所在领域的大规模语料而得到,模型可采用谷歌公司的word2vec模型。第二层是字符双向门控循环单元层,包括一个前向循环单元和一个后向循环单元,以第一层提供的字向量作为输入。第三层是字符隐藏状态连接层,对应序列文本的每个字符,拼接第二层的输出,分别生成一个向量。第四层是词语表示层,能将待标注序列文本表示为词向量。词向量可经由预训练待识别文本所在领域的大规模语料而得到,模型可采用谷歌公司的word2vec模型。第五层是字符隐藏状态连接层,拼接第四层的输出。第六层是词语双向门控循环单元层,包括一个前向循环单元和一个后向循环单元,接收第五层的输入。第七层是词语隐藏状态连接层,对应序列文本的每个词语,拼接第六层的输出,分别生成一个向量。第八层是词典标注层,对于序列文本中存在于辞典中的词语进行标注。第九层是词语隐藏状态连接层,对于第七层和第八层的输出拼接为一个向量。第十层是条件随机场层,输入第九层的向量到softmax函数,输出所有属性标签的得分,基于各自得分构建发射概率矩阵和转移概率矩阵,以计算条件随机场模型的损失函数。

经过概念标注模块101对上列文本进行分词,可获得如下具有属性标签的词语(属性标签标示于词语之后)。在此,θ表示为无意义的概念,α表示症状概念,β表示药方(方剂)概念,γ表示病因概念,δ表示药材概念,ε表示加减味概念,ζ表示主治概念。

经标注属性标签的词语为〝二α燥伤α本脏α,头α微α痛α,恶寒α,咳嗽α稀痰α,鼻塞α,嗌α塞α,脉弦α,无汗α,杏苏散β主之β。本脏γ者γ,肺胃γ也γ。经有θ嗌θ塞θ而θ咳θ之θ明文θ,故θ上焦θ之病θ自此θ始θ。燥伤θ皮毛θ,故头θ微θ痛θ恶寒θ也θ,微θ痛θ者θ,不θ似θ伤寒θ之痛θ甚θ也θ。阳明θ之脉θ,上θ行θ头角θ,故头θ亦θ痛θ也θ。咳嗽γ稀痰γ者θ,肺θ恶寒θ,古人θ谓燥θ为θ小寒θ也θ;肺θ为θ燥气θ所搏θ,不能θ通θ调水θ道θ,故θ寒饮θ停θ而θ咳θ也θ。鼻塞θ者θ,鼻θ为θ肺窍θ。嗌θ寒θ者θ,嗌θ为θ肺θ系θ也θ。脉弦θ者θ,寒θ兼θ饮θ也θ。无汗θ者θ,凉搏θ皮毛θ也θ。按θ杏苏散θ,减小θ青龙θ一θ等θ。此θ条当θ与θ下焦θ篇θ所θ补之θ痰饮θ数θ条参θ看θ。再θ杏苏散θ乃θ时θ人θ统治θ四θ时θ伤风θ咳嗽θ通θ用之θ方θ,本论θ前θ于θ风温θ门θ中θ已θ驳θ之θ矣θ;若ζ伤燥ζ凉ζ之ζ咳ζ,治ζ以ζ苦θ温θ,佐θ以θ甘辛θ,正θ为θ合拍θ。若θ受θ重θ寒θ夹θ饮θ之θ咳θ,则θ有青龙θ;若α伤α春风α,与α燥α已α化火α无α痰α之证α,则α仍α从α桑菊饮θ、桑杏汤θ例θ。杏苏散β方β苏叶ε半夏ε茯苓ε前胡ε苦ε桔梗δ枳壳δ甘草δ生姜δ大枣δ(去核)δ桔皮δ杏仁ε〔加减法〕ε无汗ε,脉弦δ甚δ或δ紧δ,加δ羌活δ,微δ透汗δ。汗后ε咳α不α止α,去ε苏叶ε、羌活ε,加ε苏梗ε。兼α泄泻α腹满α者α,加ε苍术ε、浓朴ε。头痛α兼α眉棱骨痛α者α,加ε白芷ε。热α甚α加ε黄芩ε,泄泻ε腹满α者α不α用α。〔方θ论θ〕此θ苦θ温甘辛法θ也θ。外感ζ燥凉ζ,故ζ以ζ苏叶ζ、前胡ζ辛ζ温之ζ轻ζ者ζ达表ζ;无汗α脉紧θ,故θ加θ羌活θ辛θ温之θ重θ者θ,微θ发其汗θ。甘ζ、桔ζ从ζ上θ开θ,枳θ、杏θ、前θ、芩θ从θ下降θ,则θ嗌θ塞θ鼻塞θ宣θ通θ而θ咳θ可θ止θ。桔ζ、半ζ、茯苓ζ,逐饮ζ而ζ补肺ζ胃之阳ζ。以ζ白芷ζ易原ζ方ζ之ζ白术ζ者ζ,白术ζ中焦ζ脾药ζ也ζ,白芷ζ肺胃ζ本经ζ之药ζ也ζ,且ζ能温ζ肌肉ζ而ζ达ζ皮毛ζ。姜ζ、枣ζ为ζ调和ζ营卫ζ之ζ用ζ。若ζ表凉ζ退ζ而ζ里ζ邪ζ未ζ除ζ,咳ζ不ζ止ζ者ζ,则ζ去ζ走表ζ之ζ苏叶ζ,加ζ降里ζ之ζ苏梗ζ。泄泻ζ腹满ζ,金ζ气ζ太ζ实之ζ里证ζ也ζ,故去ζ黄芩ζ之ζ苦寒ζ,加ζ术ζ、朴之ζ苦ζ辛温ζ也ζ。〞

考虑前述的属性标签可能出现错误标示的情形,例如〝本脏者,肺胃也〞之后有一段文字被标注为无意义概念,并未被标示为病因概念。概念文本聚合模块102可以利用上下文关系,采用规则进行修正,并且对于多个属于相同属性标签的词语合并成一个文字块。在此,概念文本聚合模块102是采用基于规则的模型,具体指通过事先指定的合法规则,例如运用正则表达式匹配满足合法规则的标签序列,将其聚合为一段文本,给予统一的标签。除采用基于正则表达式的规则模型外,如果标签类别较多,合法规则较为复杂,仍可以采用任何能够完成序列标注任务的机器学习模型。例如:双向门控循环单元-条件随机场模型、词频逆文档频率-条件随机场模型、基于注意力机制的Transformer模型等。此处采用基于规则的判断模型,主要因为待识别序列通过概念标注模块101转换之后,模式较为简单,能够通过少数规则进行处理。在一实施例中,基于正则表达式的规则模型包括规则库模块和识别模块。规则库模块存储人工指定的合法规则及其聚合后标签,合法规则以正则表达式表达,规则存在优先级。识别模块为正则表达式,通过概念标注模块101标注的标签序列,按照规则库中的优先级依次匹配,对匹配上规则的标签的对应文本给予聚合后标签,并在原始标签序列中标记为已匹配,后续规则不会匹配已匹配的内容。表1显示上列文本经合并后的文字块。

表1:

实体概念关联模块103则将上列聚合过的文本块进行关联,例如此文本是关于杏苏散方剂的若干属性(如方剂组成、加减味、适应症、病因),透过实体概念关联模块103可将此些与杏苏散有关的属性文本块关联起来,并且有些属性标注错误的部份(如〝热甚加黄芩,泄泻腹满者不用〞是加减味概念,不是症状概念),也采用规则进行修正。在此,实体概念关联模块103是采用基于规则的模型,具体指通过事先指定的合法规则,例如运用正则表达式匹配满足合法规则的标签序列,生成一个实体并将各标签序列关联到该实体,成为该实体的属性。除采用基于正则表达式的规则模型外,如果标签类别较多,合法规则较为复杂,仍可以采用任何能够完成序列标注任务的机器学习模型。例如:双向门控循环单元-条件随机场模型、词频逆文档频率-条件随机场模型、基于注意力机制的Transformer模型等。此处采用基于规则的判断模型,主要因为待识别序列通过概念文本聚合模块102转换之后,模式较为简单,能够通过少数规则进行处理。在一实施例中,基于正则表达式的规则模型包括规则库模块和识别模块。规则库模块存储人工指定的合法规则及其聚合后标签,合法规则以正则表达式表达哪些概念的组合可以构成一个实体,规则存在优先级。识别模块为正则表达式,通过概念文本聚合模块102标注的标签序列,按照规则库中的优先级依次匹配,以匹配上的规则的对应概念生成一个实体,并将各概念关联到实体,成为实体的属性。识别到的组合在原始标签序列中标记为已匹配,后续规则不会匹配已匹配的内容。所产生的实体概念关系如表2所示。

表2:

在一些实施例中,如图1所示,知识图谱构建系统更包括人机校验模块104,显示至少一个经过关联的实体以及相关的多个文本块。人机校验模块104可依据使用者给予的操作指令来改变特定的所述文本块的属性标签或改为关联至其他实体。如图2所示,人机介面呈现三个栏,左边栏提供实体检索功能,可供使用者检索想查看的实体;中间栏呈现实体与属性标签的关系,可供使用者直接修改不正确的标注;右边栏呈现对应原文的文字块,可供使用者将文字块通过拖曳的方式移至中间栏中想要指定的属性标签。

在一些实施例中,如图1所示,知识图谱构建系统更包括概念标注更新模块105,可依据前述使用者的操作更新概念标注模块101的规则。

在一些实施例中,如图1所示,知识图谱构建系统更包括文本聚合更新模块106,可依据前述使用者的操作更新概念文本聚合模块102的规则。

在一些实施例中,如图1所示,知识图谱构建系统更包括关联更新模块107,可依据前述使用者的操作更新实体概念关联模块103的规则。

上述的模块可经由处理器执行代码后实现。

综上,本发明提供一种知识图谱构建系统,能够对非结构化的文本转换为结构化的数据库结构。

虽然本发明的技术内容已经以较佳实施例揭露如上,然其并非用以限定本发明,任何熟习此技艺者,在不脱离本发明的精神所作些许的更动与润饰,皆应涵盖于本发明的范畴内,因此本发明的专利保护范围当以前列的权利范围所界定者为准。

相关技术
  • 一种知识图谱的构建方法、装置、知识图谱系统及设备
  • 一种产业知识图谱的构建系统及构建方法
技术分类

06120112518813