掌桥专利:专业的专利平台
掌桥专利
首页

基于NLP和知识图谱的机器学习训练架构设计方法

文献发布时间:2023-06-19 11:19:16


基于NLP和知识图谱的机器学习训练架构设计方法

技术领域

本发明涉及信息技术领域,尤其涉及一种基于NLP和知识图谱的机器学习训练架构设计方法。

背景技术

知识图谱又称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用以描述知识资源及其载体,挖掘、分析、构建和显示知识及它们之间的相互关系。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

目前机器学习平台一般构建在通用的文件或者数据库输入格式基础上,进行数据预处理和构建各类算法,训练模型和验证模型。机器学习平台进行建模之前一般需要将待建模的实体进行向量化,向量化的方法一般是需要人工提取或者通过特征学习的方式将实体的描述维度向量化,但这种方案一种明显的不足就是无法有效将实体关系通过实体向量化利用起来,造成数据利用的深度不够。

综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。

发明内容

针对上述的缺陷,本发明的目的在于提供一种基于NLP和知识图谱的机器学习训练架构设计方法,其构建统一机器学习的数据应用和模型训练体系,能够提升机器学习对目标行业数据应用的深度和广度,降低机器学习中从数据特征提取的难度,提升从数据提取特征的广度,提高模型通用性和鲁棒性。

为了实现上述目的,本发明提供一种基于NLP和知识图谱的机器学习训练架构设计方法,包括如下步骤:

步骤一

构建用于承载数据的基础知识图谱data-KG;

data-KG包括三部分,第一部分是用于承载实体和实体关系的图数据库G,第二部分是用于存储时序数据的关系数据库M,第三部分是用于存储非关系数据的no-sql数据库N。

步骤二

构建用于承载基础知识图谱data-KG的统一机器学习模型体系C-ML。

C-ML包括四部分:第一部分是从data-KG中抽取数据进行预处理;第二部分是基于抽取数据组成训练集T、测试集S、验证集V;第三部分是基于训练集T、测试集S和验证集V训练相关ML模型;第四部分是输出config文件和相应输出模型。

根据本发明的基于NLP和知识图谱的机器学习训练架构设计方法,所述图数据库G是data-KG的主存储数据库,所述图数据库G的存储内容包括所述data-KG里面的实体、实体属性和实体关系。

根据本发明的基于NLP和知识图谱的机器学习训练架构设计方法,所述图数据库G中数据存储的方式包括如下步骤:

首先为事物定义所对应的结点集,并分别定义所述结点集所具有的属性;

然后辨识出所述结点集之间的关系并创建所述关系的相应抽象,同时,不适合存储在所述图数据库G中的非结构化数据还是存储在相应的关系数据库M和非关系数据库N中。

根据本发明的基于NLP和知识图谱的机器学习训练架构设计方法,所述非结构化数据包括时序数据、文本和图像。

根据本发明的基于NLP和知识图谱的机器学习训练架构设计方法,所述关系数据库M和非关系数据库N分别通过实体相关数据的索引与所述图数据库G库发生关系,从而组合成有机的整体。

根据本发明的基于NLP和知识图谱的机器学习训练架构设计方法,从data-KG中抽取数据进行预处理包括如下步骤:

首先通过所述图数据库G确定实体和实体属性,然后通过所述图数据库G在所述关系数据库M和非关系数据库N中进行相应索引,从所述关系数据库M和非关系数据库N中抽取数据,与所述图数据库G中的实体和实体属性一起构建实体向量化数据,同时通过概率图模型算法的应用,建立所述实体的关系数据,将所述关系数据映射到抽取的所述数据中。

根据本发明的基于NLP和知识图谱的机器学习训练架构设计方法,所述机器学习模型体系C-ML的第四部分中,所述输出模型以所述config文件的输出要求,输出相应的模型结果。

本发明的目的在于提供一种基于NLP和知识图谱的机器学习训练架构设计方法,通过设计一种通过知识图谱对机器学习训练数据和模型输出进行重新组织的架构方法,该方法通过构建一个承载数据的基础知识图谱data-KG和统一机器学习模型体系C-ML,通过data-KG和C-ML的应用,构建统一机器学习的数据应用和模型训练体系,能够提升机器学习对目标行业数据应用的深度和广度,降低机器学习中从数据特征提取的难度,提升从数据提取特征的广度,提高模型通用性和鲁棒性。

附图说明

图1是本发明图数据库G中数据存储的方式;

图2是本发明data-KG的结构图;

图3是本发明C-ML的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供了一种基于NLP和知识图谱的机器学习训练架构设计方法,包括如下步骤:

步骤一

构建用于承载数据的基础知识图谱data-KG。

data-KG的结构包括三部分,第一部分是用于承载实体和实体关系的图数据库G,第二部分是用于存储时序数据的关系数据库M,第三部分是用于存储非关系数据的no-sql数据库N。data-KG的结构见图2。

图数据库G是data-KG的主存储数据库,主要存储data-KG里面相关的实体、实体属性和实体关系等数据。图形数据库定义数据展现时,图数据库G以一种更为自然的方式来对这些需要展现的事物进行抽象。图数据库G中数据存储的方式包括如下步骤:

首先为这些事物定义其所对应的结点集即实体,并定义该实体所具有的各个属性。

然后辨识出实体之间的关系并创建这些关系的相应抽象,同时并不适合存储在图数据库中的时序数据和文本、图像等非结构化数据还是存储在相应的关系数据库M和非关系数据库N中。M和N分别通过实体相关数据的索引与图数据库发生关系,从而组合成有机的整体。

采用知识图谱data-KG作为构建机器学习平台的数据基础层,提升了数据预处理和形成数据训练集合的效率,具备较强的可扩展能力和开发敏捷性,同时与机器学习具备先天的结合优势。图数据库G中数据存储的方式见图1。

步骤二

构建用于承载基础知识图谱data-KG的统一机器学习模型体系C-ML。

C-ML的流程具体包括四部分:

第一部分是从data-KG中抽取数据进行预处理;首先通过图数据库G确定实体和实体属性,再通过G在关系数据库M和非关系数据库N中进行相应索引,从M和N中抽取相应的数据,与G中的实体和实体属性一起构建实体向量化数据,同时通过概率图模型算法的应用,建立实体的关系数据映射到所抽取的数据维度中。

第二部分是基于抽取数据组成训练集T、测试集S、验证集V。

第三部分是基于训练集T、测试集S和验证集V训练相关ML模型。

第四部分是输出config文件和相应输出模型,输出模型以config的输出要求输出相应的模型结果。C-ML的流程见图3。

采用C-ML处理流程,保证data-KG数据的输入和模型输出的一致性,在同样基于data-FG的不同平台间迁移时,能保证模型的可用性;同时可获得data-KG中的实体深度关系等数据。

在需要描述大量关系时,传统的关系型数据库所能承担的是较多实体但是实体间关系略显简单的情况。而对于实体间关系复杂的情况,常常需要在关系之中记录数据,而且大部分对数据的操作都是与关系有关的情况。本发明基于NLP和知识图谱的机器学习训练架构设计方法,采用知识图谱作为机器学习平台训练架构的数据基础,基于知识图谱对数据进行强大的再组织和扩展,可以将实体向量化数据和实体深度关系有机结合起来,提升机器学习训练数据来源的广度和深度,在数据层将机器学习训练架构设计得更加通用化和模块化;同时能够提升运行性能和系统开发效率,减少维护成本。

本发明基于NLP和知识图谱的机器学习训练架构设计方法包括如下优势:

1、数据预处理和形成数据训练集合的效率提升。与关系型数据库和NoSQL存储处理关联数据相比,图数据库能够提升数据预处理和形成数据训练集合的性能。随着数据集的不断增大,关系型数据库处理密集join(join-intensive)查询的性能也会随之变差,而图数据库不会存在变差的情况,由于查询只与图的一部分相关,因此,在数据集增大时,图数据库的性能趋向于保持不变;每个查询的执行时间只和满足查询条件的那部分遍历的图的大小成正比,而不是整个图的大小。

2、可扩展能力强。图数据库G本身可扩展,可以增加不同种类的联系、新节点和新子图,而不会破坏已有的查询或应用程序的功能。这些特点对于开发生产力和项目风险都有积极意义。同时由于图模型的灵活性,不必在项目最初完整的设计数据库模型,图的可扩展性可以减少数据迁移,从而降低维护的开销和风险。

3、具备开发敏捷性。图数据库G开发方式非常符合现有技术中的敏捷软件开发和测试驱动软件开发实践,使以图数据库为后端的应用程序可以跟上不断变化的业务环境。

4、具备与机器学习结合的先天优势。图数据库G可以方便采用贝叶斯网络与马尔可夫网络中,解决概率查询问题的精确推理算法与近似推理算法,其中具体包括精确推理中的VE算法、递归约束算法和团树算法,以及近似推理中的变分近似推理和抽样近似推理算法。

综上所述,本发明通过设计一种通过知识图谱对机器学习训练数据和模型输出进行重新组织的架构方法,该方法通过构建一个承载数据的基础知识图谱data-KG和统一机器学习模型体系C-ML,通过data-KG和C-ML的应用,构建统一机器学习的数据应用和模型训练体系,能够提升机器学习对目标行业数据应用的深度和广度,降低机器学习中从数据特征提取的难度,提升从数据提取特征的广度,提高模型通用性和鲁棒性。

当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

相关技术
  • 基于NLP和知识图谱的机器学习训练架构设计方法
  • 一种基于R语言的机器学习建模平台架构设计方法
技术分类

06120112880754