掌桥专利:专业的专利平台
掌桥专利
首页

一种元出版环境下领域元知识引擎的构建方法

文献发布时间:2024-04-18 19:54:45


一种元出版环境下领域元知识引擎的构建方法

技术领域

本发明涉及开放学术出版技术领域,具体而言,涉及一种元出版环境下领域元知识引擎的构建方法。

背景技术

开放科学的发展正在推动学术交流机制的演变,这是因为开放科学主张通过研究方法、研究工具、研究过程、研究结果等科研全过程的开放来提高研究的透明度和可重复性、加强科研创新合作、加快科研成果的传播与转化。随着学术成果类型从文字扩展到数据、图像、多媒体以及多源融合信息,成果发布方式逐渐由以传统期刊论文为主向包含软件、科学数据、研究方法等多元化方式扩充与转变,学术出版体系也正在发生着巨变,以更加开放的姿态来支持新兴出版需求。开放学术出版过程更加包容、元知识流动更快、辐射更远、程序可以更透明更利于监督,其概念不宜以传统出版形式框定,因此提出了面向开放科学的元出版(Meta Publishing)理念,“元”(Meta)含有分解、基础、超越之义,元出版是融合预印本出版、数据出版和结构化信息出版为一体、面向开放科学理念的学术出版模式,旨在提供一个科学工作者完全融入的泛在沉浸式开放元知识交流社区。

元知识(Meta Knowledge)是指元素化、结构化的信息,包括研究问题、研究方法、研究结果、分析结论、实验工具、实验材料等内容,实现以元知识为核心的元出版,具有多个好处:

一是提高研究成果发布的速度。科研人员所提交的内容不限于一篇完整、成熟的论文,而是把所研究的问题、研究方法与思路、实验过程、实验结果以及研究结论以简明扼要的方式予以提交,极大地简化了写作与评审流程,有助于读者深入了解科研成果。

二是提升元知识再生产的效率。通过大数据技术和信息化手段,建立结构化的内容表示,激发元知识的再生产,推动元知识的快速发布和汇聚,最终目的是希望能够对后续的科学研究提供更有效的参考,在一个基于元知识的规范化、标准化平台进行阅读和科学集成将更为便利,更有利于科学的发展。

三是增强学术交流社区发展的融合度。为广义科技工作者提供研发全流程嵌入式情报服务,构建泛在式元知识传播和交流的学术社区,有助于跟进科技发展动态、交流科技前沿问题、发现合作机会,提高科技工作者元知识交流与合作效率。

但元知识与领域有较强的关联关系,领域不同,所关注的元知识类型也有所不同。领域元知识引擎是一种智能化的元知识管理元知识库,涉及领域元知识类型和属性设计、元知识本体构建、元知识抽取和存储等环节模块,因此领域元知识引擎是支撑元出版理念的技术基础,通过由范畴、概念和实例组成的传统三层本体模型无法呈现领域元知识的特殊性,当前缺乏领域元知识引擎的有效构建方法。

发明内容

本发明旨在提供一种元出版环境下领域元知识引擎的构建方法,以解决各个领域所关注的元知识类型和属性不同的问题。

本发明提供的一种元出版环境下领域元知识引擎的构建方法,包括如下步骤:

步骤1,对领域进行元知识需求分析;

步骤2,基于元知识需求设计个性化的JSON模板引擎;所述JSON模板引擎用于存储自定义的元知识属性;

步骤3,构建四层本体模型;

步骤4,基于JSON模板引擎和四层本体模型实现领域元知识引擎。

进一步的,步骤2中,所述元知识属性由公共属性和自有属性组成;其中:

公共属性包括元知识存储类型、元知识名称、元知识排序、元知识说明和元知识内容,其中,元知识存储类型有五种,包括多行纯文本、单行纯文本、数字、表格和上传文件;

自有属性包括自定义属性名称、自定义属性说明、自定义属性填写规则、自定义属性显示状态、自定义属性类型和自定义属性内容;其中,自定义属性填写规则由字段填写后的验证机制、验证失败提醒和是否必填组成。

进一步的,步骤3中,所述四层本体模型包括领域范畴层、元知识概念层、元知识属性层和元知识实例层;具体地:

领域范畴层由具体的领域组成,包含一级领域和二级领域;

元知识概念层由领域包含的元知识类型组成;所述元知识类型包括研究问题、研究方法、研究结果、研究数据、分析结论、实验工具以及实验材料;

元知识属性层由元知识属性组成;所述元知识属性详细说明每种元知识的具体技术特征;

元知识实例层由元知识实例组成;所述元知识实例包含科研人员填写的元知识和从元知识中自动抽取出的三元组。

进一步的,步骤3中,所述四层本体模型还包括元知识类型视图、元知识属性视图和元知识结构视图;具体地:

元知识类型视图是对四层本体模型中领域范畴层和元知识概念层的具体描述;

所述元知识属性视图是对四层本体模型中元知识概念层和元知识属性层的具体描述;

所述元知识结构视图是对四层本体模型中元知识属性层和元知识实例层的具体描述。

进一步的,所述四层本体模型由类和关系组成;其中,四层本体模型的类包含领域集合、元知识概念集合、元知识属性集合和元知识实例集合;四层本体模型的关系通过三元组表示,包括领域集合、元知识概念集合、元知识属性集合和元知识实例集合之间通过各类关系构成的三元组。

进一步的,步骤4包括如下子步骤:

步骤4.1,基于JSON模板引擎生成元知识模板,并在元知识模板中填写元知识,填写的元知识以JSON格式数据存储到第一数据库中;

步骤4.2,基于四层本体模型,利用本体编辑和元知识获取软件进行本体建模,对数据库中存储的JSON格式数据抽取出所有三元组;

步骤4.3,将经过步骤4.1~4.2得到的三元组数据集存储到第二数据库中,基于开源分布式全文检索引擎构建分布式多维索引,实现领域元知识引擎。

进一步的,步骤4.2包括如下子步骤:

步骤4.2.1,分别基于元知识类型视图、元知识属性视图和元知识结构视图,对JSON格式数据中的关系进行抽取,形成三元组数据集;

步骤4.2.2,对元知识属性为多行纯文本的JSON格式数据进行三元组抽取,其中,针对领域数据进行人工标注,利用三元组自动抽取工具训练标注模型,从而从领域数据中抽取出三元组,补充三元组的关系到三元组数据集中;

步骤4.2.3,基于开源词向量工具对所有三元组宾语进行相似度计算,查找出相似性阈值大于设置阈值的三元组宾语,补充该三元组宾语的关系到三元组数据集中。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

本发明针对各个领域所关注的元知识类型和属性不同的问题,通过分析领域元知识需求,设计个性化的JSON模板,从领域范畴层、元知识概念层、元知识属性层和元知识实例层等构建四层本体模型并进行实现,最终构建领域元知识引擎,使得领域元知识更具有简单易用、个性化和普适性的特点。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中元出版环境下领域元知识引擎的构建方法的总体流程图。

图2为本发明实施例中四层本体模型一个示例的结构示意图。

图3为本发明实施例中四层本体模型一个示例的元知识类型视图。

图4为本发明实施例中四层本体模型一个示例的元知识属性视图。

图5为本发明实施例中四层本体模型一个示例的元知识结构视图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

如图1所示,本实施例提出一种元出版环境下领域元知识引擎的构建方法,包括如下步骤:

步骤1,对领域进行元知识需求分析;

通过对领域进行元知识需求分析,将领域的研究内容分解为研究问题、研究方法、研究结果、研究数据、分析结论、实验工具以及实验材料等元知识,进一步确定元知识所包含的具体属性。

以属于化学和生物学的交叉学科之一的天然产物领域为例进行元知识需求分析:科研人员的研究成果分解为研究对象、实验材料、研究方法以及研究结果等元知识;其中:

研究对象进一步地说明研究对象(样品或产品、动植物等)的数量及来源等;

实验材料进一步地说明实验材料(包括科研仪器、化学试剂或药品等)的技术说明、主要化学物理性质、制造商名称及地址等;

研究方法进一步地说明每个研究方法对应的详细信息,包括(1)实验环境(如电压和温度等);(2)实验材料;(3)实验程序;(4)具体方法;(5)统计分析方法等;

研究结果进一步地说明通过每种研究方法得出的研究结果。

步骤2,基于元知识需求设计个性化的JSON模板引擎;所述JSON模板引擎用于存储自定义的元知识属性;

JSON是一种灵活的数据组织形式,是重要的数据存储和传输标准之一,由此,本发明中基于元知识需求设计个性化的JSON模板引擎,应用于用户自定义的元知识属性。所述元知识属性由公共属性和自有属性组成;其中:

公共属性包括type(元知识存储类型)、fieldName(元知识名称)、index(元知识排序)、note(元知识说明)和value(元知识内容),其中,type主要有textarea(多行纯文本)、string(单行纯文本)、int(数字)、table(表格)和file(上传文件)五种。

自有属性包括name(自定义属性名称)、note(自定义属性说明)、rules(自定义属性填写规则)、status(自定义属性显示状态)、type(自定义属性类型)和value(自定义属性内容);其中,rules由trigger(字段填写后的验证机制)、message(验证失败提醒)和required(是否必填)组成。

以定义天然产物领域中研究对象的元知识属性为例,该元知识属性采用表格(table)的形式存储,自定义的属性还有对象名称、数量、周龄、来源、准备方法和附件上传等,其中,对象名称、周龄和来源是string类型,数量是int类型,准备方法是textarea类型,附件上传是file类型。则JSON模板引擎定义如下:

[{"filedName":"研究对象","name":"","note":"","tableRule":{"items":[{"name":"对象名称","note":"","rules":[{"trigger":"blur","message":"该字段不能为空","required":true}],"status":"1","type":"string","value":""},{"name":"数量","note":"","rules":[{"trigger":"blur","message":"该字段不能为空","required":true}],"status":"1","type":"int","value":""},{"name":"来源","note":"","rules":[{"trigger":"blur","message":"该字段不能为空","required":false}],"status":"1","type":"String","value":""},{"name":"准备方法","note":"","rules":[{"trigger":"blur","message":"该字段不能为空","required":false}],"status":"1","type":"textarea","value":""},{"name":"周龄","note":"","rules":[{"trigger":"blur","message":"该字段不能为空","required":false}],"status":"1","type":"string","value":""},{"name":"附件上传","status":"1","type":"file","value":""}]},"type":"table","value":""}]。

步骤3,构建四层本体模型;

如图2所示,所述四层本体模型包括领域范畴层、元知识概念层、元知识属性层和元知识实例层;具体地:

领域范畴层由具体的领域组成,包含一级领域和二级领域;

元知识概念层由领域包含的元知识类型组成,元知识类型随领域变化,领域不同,元知识类型有所区别;元知识类型包括研究问题、研究方法、研究结果、研究数据、分析结论、实验工具以及实验材料等;

元知识属性层由元知识属性组成,所述元知识属性详细说明每种元知识的具体技术特征;

元知识实例层由元知识实例组成,所述元知识实例包含科研人员填写的元知识和从元知识中自动抽取出的三元组。

四层本体模型主要由类(class)和关系(relation)组成;其中,四层本体模型的类(class)包含领域集合(Domains)、元知识概念集合(Concepts)、元知识属性集合(Attributes)和元知识实例集合(Instances);四层本体模型的关系通过三元组(Triple)表示,三元组集合有八种类型,如下所示:

Triple

Triple

Triple

Triple

Triple

Triple

Triple

Triple

其中,D表示领域,D

所述四层本体模型还包括元知识类型视图、元知识属性视图和元知识结构视图;具体地:

所述元知识类型视图是对四层本体模型中领域范畴层和元知识概念层的具体描述。每个领域的元知识类型都是基于元知识需求进行设计,如图3所示的四层本体模型一个示例的元知识类型视图中,D

所述元知识属性视图是对四层本体模型中元知识概念层和元知识属性层的具体描述。元知识概念对应数量不等的元知识属性,如图4所示的四层本体模型一个示例的元知识属性视图中,C

所述元知识结构视图是对四层本体模型中元知识属性层和元知识实例层的具体描述。每个元知识属性需要填充具体的元知识实例,如图5所示的四层本体模型一个示例的元知识结构视图中,A

步骤4,基于JSON模板引擎和四层本体模型实现领域元知识引擎。具体包括如下子步骤:

步骤4.1,基于JSON模板引擎生成元知识模板,并在元知识模板中填写元知识,填写的元知识以JSON格式数据存储到第一数据库(如MongoDB数据库)中。

以研究对象元知识为例,存储两条包含对象名称、周龄、来源、数量、准备方法和附件上传的JSON格式数据示例:

{"tableValue":[{"id":"1","对象名称_String":"SPF级健康雄性Balb/c小鼠","周龄_String":"6-8周","数量_Int":"36","来源_String":"湖南斯莱克景达实验动物有限公司","准备方法_textarea":"所有小鼠均在标准条件下自由采食标准饲料和水","附件上传_file":"小鼠1.jpg"},{"id":"2","名称_String":"SPF级健康雄性Balb/c小鼠","周龄_String":"1-5周","数量_Int":"36","来源_String":"湖南斯莱克景达实验动物有限公司","准备方法_textarea":"所有小鼠均在标准条件下自由采食标准饲料和水","附件上传_file":"小鼠2.jpg"}]}

步骤4.2,基于四层本体模型,利用本体编辑和元知识获取软件(如Protégé)进行本体建模,对数据库中存储的JSON格式数据抽取出所有三元组。具体包含三个环节:

第一个环节:分别基于元知识类型视图、元知识属性视图和元知识结构视图,对JSON格式数据中的关系(如has_domain、has_concept、has_attribute、has_instance、same_as等关系)进行抽取,形成三元组数据集。

第二个环节:对元知识属性为textarea(多行纯文本)的JSON格式数据进行三元组抽取,其中,针对领域数据进行人工标注,利用三元组自动抽取工具(如DeepDive)训练标注模型,从而从领域数据中抽取出三元组,补充predicates关系到三元组数据集中。

第三个环节:基于开源词向量工具(如Word2vec)对所有三元组宾语进行相似度计算,查找出相似性阈值大于设置阈值(例如0.9)的三元组宾语,补充relate_to关系到三元组数据集中。

以天然产物领域为例,在元知识类型视图中,化学、生物学与天然产物构成has_domain关系,天然产物与研究对象、实验材料、研究方法、研究结果构成has_concept关系;在元知识属性视图中,研究对象与对象名称、数量、周龄、来源、准备方法、附件上传等构成has_attribute关系,实验材料与材料名称、制造商、制造商地址、技术说明等构成has_attribute关系,研究方法与方法名称、实验程序、实验环境条件、研究对象选择、实验材料选择等构成has_attribute关系,研究结果与结果名称、详细介绍、附件上传等构成has_attribute关系;在元知识结构视图中,对象名称和小鼠、来源和湖南斯莱克景达实验动物有限公司等构成has_instance关系,小鼠和饲料等构成predicates关系。

步骤4.3,将经过步骤4.1~4.2得到的三元组数据集存储到第二数据库(如Neo4j图形数据库)中,基于开源分布式全文检索引擎(如ElasticSearch)构建分布式多维索引,实现领域元知识引擎。

具体来说,利用开源分布式全文检索引擎(如ElasticSearch)的分面机制,支持对领域元知识进行导航式浏览,通过对包含共现、语义和语法等多种关联关系的微观元知识单元进行分层展示,丰富检索结果集的呈现方式,以改善检索体验;利用Neo4j图形数据库进行复杂网络分析与大数据挖掘,支持对海量数据进行存储与查询,通过Neo4j内置图算法实现相似度计算、最优路径和协同推荐等大数据挖掘应用。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 一种植物观赏方法、装置、电子设备和存储介质
  • 一种题目搜索、批改方法、装置、电子设备和存储介质
  • 一种虚拟形象视频播放方法、装置、电子设备及存储介质
  • 目标跟踪方法、目标跟踪装置、存储介质与电子设备
  • 目标跟踪方法、目标跟踪装置、电子设备及存储介质
技术分类

06120116379549