掌桥专利:专业的专利平台
掌桥专利
首页

多源军事装备知识关联组织方法

文献发布时间:2023-06-19 09:49:27


多源军事装备知识关联组织方法

技术领域

本发明属于车道线识别技术领域,尤其涉及一种多源军事装备知识关联组织方法。

背景技术

互联网中也蕴含有大量的军事装备信息,包括装备的实例信息,如装备的类型、装备的性能等,这些信息对于军事研究人员来说,是极为重要的知识来源。但是面对海量的军事装备数据,相关人员很难依据军事装备数据进行进一步的研究,究其原因,主要是目前的多源军事装备知识缺少关联和组织,面对海量的互联网装备信息,单纯依靠人工进行采集,工作量及其庞大,基本不可能实现,不同来源的非结构化的网页数据中,装备信息的组织方式不一,装备之间的相互关联的信息不紧密。

发明内容

基于此,针对上述技术问题,提供一种多源军事装备知识关联组织方法。

为解决上述技术问题,本发明采用如下技术方案:

一种多源军事装备知识关联组织方法,包括:

S101、根据预先建立的军事装备领域知识的基本框架,构建军事装备知识模型,所述基本框架包括装备定义、装备功能定义以及装备之间的关系;

S102、通过网络爬虫从多个装备知识来源网站获取多源军事装备知识,并按照所述军事装备知识模型对所述多源军事装备知识进行存储;

S103、对所述多源军事装备知识进行融合。

本发明关联组织方法将知识工程引入到军事装备领域,结合网络爬虫技术和知识融合机制,从海量互联网中抽取军事装备的相关知识,效率高,并实现多个数据源的装备知识的快速融合。

附图说明

下面结合附图和具体实施方式本发明进行详细说明:

图1为本发明的流程图;

图2为本发明的装备概念层次结构图;

图3为本发明的装备详情页的示意图;

图4为本发明的本体映射示意图;

图5为本发明的实例融合示意图。

具体实施方式

如图1所示,一种多源军事装备知识关联组织方法,包括:

S101、根据预先建立的军事装备领域知识的基本框架,构建军事装备知识模型,基本框架包括装备定义、装备功能定义以及装备之间的关系。

本发明使用本体技术,本体技术对信息异构和结构化方面可以发挥到重要的作用,是对领域知识的进行概念化的详细说明,通过提取领域中公认的概念以及概念之间的关系,构建领域知识的基本框架,为信息的共享和交流提供统一的认知,使得信息领域各部门之间无歧义的流通,从而可有效解决领域信息的异构和不可共享。

本发明通过构建军事装备本体作为所述军事装备领域知识的基本框架,并通过知识建模工具Protege构建军事装备知识模型。

军事装备本体是对装备及其体系的概念化的描述,装备本体不仅要对装备本身概念进行的抽象,还需要对装备的功能、性能以及装备之间的关联关系进行分析和构建。装备体系领域中的知识既包括军事装备的基础知识、性能知识、也包括装备之间的相互关系。军事装备知识模型构建首先对上述相关要素的概念、属性以及它们之间的相互关系进行的梳理和定义。

(1)装备实体定义

在军事装备领域,装备本体建模不仅要对装备实体、装备性能实体进行定义,还需要分别对他们的属性进行定义和描述。从而为后面数据的融合和共享提供统一的格式支撑。下面对装备本体及其属性分别定义:

装备实体本体定义:用于描述装备实体的基础属性以及对象属性,表示为Weapon,基础属性构建为WeaID、WeaName、WeaType以及SerTime,代表装备实体的编号、装备名称、装备类型以及服役时间,基础属性的domains定义为Weapon,对应的值域ranges分别为Integer、String、String以及dateTime,对象属性构建为hasPerform,代表装备实体的性能和功能,对象属性的domains为Weapon,对应的值域ranges为Perform,描述示例参见表1。

表1

上述装备本体的定义适用于所有类型的装备,在实际操作中我们还需要根据具体的分类,定义装备的子概念。

装备实体本体子概念定义:用于描述装备实体子概念的特有属性,子概念集成对应装备实体本体的基础属性以及对象属性。例如飞行器实体定义为Aircraft,属于Weapon的子概念,除了继承以上装备实体的属性外,本身还具有特有属性,如气动布局、发动机数量以及飞行速度,对应的定义域为Aircraft,值域为String、Integer、Float。

装备性能实体本体定义:用于描述装备实体所具备的基本性能属性、自身特有的性能属性以及各属性的计量单位,表示为Perform,基本性能属性构建为FireRange、Accuracy以及Velocity,代表装备实体的作用范围、作用精度以及运行速度,基本性能属性的domains定义为Perform,对应的值域值域ranges分别为Integer、Float以及Float,计量单位分别为m、%以及km/h,描述示例参见表2。

表2

以装甲车为例,其自身特有的性能属性TankPerform具有战斗权重属性、最大行程属性,其定义域Domains为TankPerform,值域分别为Float、Float,计量单位分别为kg、km。

装备实体的关系定义:装备概念之间的层次关系。在综合考虑军事装备领域知识和数据源的基础上,通过对装备分类层次进行剖析,确定了军事装备的核心概念,得到具有树形的装备概念层次结构图,总共分为8大类、100小类,参见图2。

通过以上对装备实体及概念的定义和描述,为装备知识的存储和共享提供了统一的数据模式,装备之间的关系参见表3,通过关系的梳理,获得实体之间具有较强的体系关系,可为后续装备知识的分析和推理提供了较好的基础数据支撑。

表3

Protégé可以提供本体概念类、关系、属性和实例的构建,并且屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建,同时可以将建模产生的数据以RDF/XML的格式进行输出,方便后续知识的存储和搜索。

S102、通过网络爬虫从多个装备知识来源网站获取多源军事装备知识,并按照军事装备知识模型对多源军事装备知识进行存储。具体过程如下:

1、确定各装备知识来源网站的种子URL、页面重要链接字段以及装备信息标签。

网络爬虫的关键就是确定种子URL、页面重要链接字段以及装备信息标签,其中种子URL作为装备知识采集的起始页,页面重要链接字段是获取装备链接和装备之间关系的主要来源,装备信息标签是网页信息中的装备数据区域。例如,在环球网军事中,种子URL为http://weapon.huanqiu.com/weaponlist,该页面中的装备分类、分页、装备列表是页面重要链接字段,网页信息中的“”是装备信息标签。

2、将种子URL放入URL列表。

3、遍历URL列表,解析URL列表中每一个URL对应的网页信息中的重点链接关键字段,获得相应的URL,并将获得的URL与URL列表中的URL进行比对,若为新URL,则将该新URL存入所述URL列表。

4、判断URL列表是否遍历完毕,若是,则执行下个步骤,若否,则返回上一步骤。

5、遍历URL列表,过滤非装备详情URL,解析装备详情URL对应的网页信息,获取装备详情页面中装备信息标签对应的字段名称和字段值,并根据军事装备知识模型,抽取相应的字段值存入数据库。

其中,遍历URL列表时,按照PageRank值由大到小进行遍历。

在本实施例中,上述算法使用python作为实现语言,Beautiful Soup作为页面解析模块,实现了装备网站数据的访问和数据获取。在算法实现过程中为了提高采集的效率,程序采用多线程multiprocessing中的Pool类实现,经验证,采集的效率较单线程提高约3倍。

通过对装备相关网站的分析,我们选择环球网军事、中华武器库、百度百科作为装备知识来源网站,这三个网站为可信度较高的半结构化的百科类的装备信息网站,装备信息比较完善,可以为军事装备工作者和相关人员提供质量较高的装备信息。我们以环球网军事网为例,介绍装备信息的采集实现。环球网军事网以“兵器库”作为装备获取的主要入口,故种子URL为http://weapon.huanqiu.com/weaponlist。

兵器库有8大分类、100小类,装备分类中的装备信息分页存储,所以装备大分类、小分类和分页就是页面重要链接字段。

通过上述算法最终获得的URL列表即为有效的URL列表,该URL列表包括装备详情页URL和装备分类、分页URL,其中装备详情页为装备信息的主要来源,参见图3。

如图3所示,每一个装备详情页面对应一个分类本体的具体的实例,包括装备的词条名、装备基础信息和装备详情介绍,这些信息可通过python结合Beautiful Soup进行定位和获取。同时,在解析网页时,还可以获得装备信息标签:运20,运输机,y20,Y-20,西安飞机公司,中航工业,y-20,运-20。

S103、对多源军事装备知识进行融合。

由于从各装备知识来源网站获得的装备数据实例的侧重点和专家命名习惯的不同,造成了采集到的装备数据存在以下的情况:①不同数据源同一装备命名方式不同;②相同数据源相同分类装备实例数据具有不同的属性字段。进行知识融合时,如果根据实例属性生成本体,从而会存在大量的本体,依旧不利于知识的共享和维护;如果建立一个统一的本体,由于不同用户的需求不一,难以形成一致认可。为了解决以上的问题,我们需要制定一定的融合策略,来实现装备知识的融合。

知识融合的核心问题在于映射的生成,主要通过概念或属性的相似性来实现本体概念和实例的融合。目前已经有较多有关本体概念的融合方法和实例融合方法的研究,本发明采用本体融合和实例融合相结合的方法进行多源军事装备知识的融合,既可保证共性知识的一致性,也能满足不同数据源的装备知识的差异性。

1、本体融合:

在本体融合方面,针对不同的装备数据来源,我们采用基于全局本体-局部本体的融合策略。

A、将装备本体作为全局本体。

B、为各多源军事装备知识构建局部本体:通过全局本体描述多源军事装备知识之间一致认可的知识,并在全局本体的基础上为各多源军事装备知识的属性进行扩充;或者按照全局本体的构建方式构建各多源军事装备知识的局部本体。

C、通过分类名称建立全局本体与局部本体之间的直接映射关系,通过全局本体进行推理建立局部本体与局部本体之间的间接映射关系,参见图4。

2、实体融合:通过学习算法从多源军事装备知识中抽取局部本体。

融合学习算法实现的关键是从多源军事装备知识中提取属性特征,从而对无效特征进行剔除和过滤,以及以及通过属性特征匹配形成多源军事装备知识中相同实例的映射。无论是特征的提取或者是特征匹配,本质上都是比较两个字符串的匹配度。相似度为区间[0,1]之间的某个值。本发明采用字符串相似度算法来度量包含共同子串部分的比例。

在字符串相似度算法中,任意两个字符串s和t间的相似度为:

其中,x为s和t的最大共同子串。

1、属性特征提取适用于局部本体的计算,通过字符串相似度算法从多源军事装备知识中提取属性特征具体过程如下:

A、对每一个分类实例的属性x

B、限定实例计数的最小值f(k

2、属性特征匹配的具体过程如下:

A、通过如下公式计算实例中a

其中,S(a

B、将计算得到的相似度D(a

本发明将本体技术和相似度匹配算法相结合,通过本体映射、结合全局本体-局部本体相结合的方式,展示装备知识的映射。最后,我们以图的方式展现是实例融合的最终成果,以RDF/XML的格式进行数据存储。

图5为来自环球网军事和中华武器库两个网站的“歼-20战斗机”装备的Weapon本体数据融合后的展现效果示例。从图5中可以看到,全局飞行器本体为Aircraft,局部飞行器本体为HAircraft和ZAircraft,最终通过实例进行特征提取、特征匹配融合,获得“歼-20战斗机”为全局本体对应的装备实例数据统一存储,而“歼-20战斗机-H”中包含特有的发动机信息,作为特有属性,而“歼-20战斗机-H”和“歼-20战斗机-Z”通过相似度计算可得到两实例是SameAs的关系。

图5中,SubClassof代表上下位之间的继承关系,hasIndividual代表具体的实例对象。

通过图5可得到如下结论,本发明方法在实现装备知识获取的基础上,构建了多源装备知识的映射关系,既能保证了知识的完整性,又能保证了系统的独特性,并且避免了相同特征的重复存储,起到了节约资源的目的。

但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

相关技术
  • 多源军事装备知识关联组织方法
  • 一种基于片段相似度的知识关联与动态组织方法和系统
技术分类

06120112310876