掌桥专利:专业的专利平台
掌桥专利
首页

基于置信度计算的面向高铁列车运维服务知识融合的方法

文献发布时间:2023-06-19 12:19:35


基于置信度计算的面向高铁列车运维服务知识融合的方法

技术领域

本发明涉及高铁列车运维技术领域,尤其涉及一种基于置信度计算的面向高铁列车运维服务知识融合的方法。

背景技术

高铁列车运维数据包括车载监测数据、地面检测系统数据、列车检修数据等等,由于这些数据由不同厂家开发,不同时间上线使用,检测方法及所依据的标准也不尽相同,因此难免出现对同一个高铁列车实体对象给出的名称、检测数据的精度和颗粒度(即检测值)等不同,此外不同系统的稳定性和可靠性也不一样,有了准确的数据才能保证列车运行安全,当基于上述数据抽取的运维知识出现冲突时,如何取舍是目前需要亟待解决的问题。

近年来,随着知识图谱技术的兴起,将知识图谱应用于工业装备运维服务领域已成为研究热点。知识图谱不是关注传统文档字符串数据,而是将数据抽取为实体和关系来表达知识。在知识图谱构建过程中,对于同一个知识,由于数据来源不同,抽取的实体、关系构成的三元组会出现表述不一致,如何处理不一致和有歧义的知识就成了一个问题,因此需要知识融合技术解决这些不一致和有歧义的知识。

在现有的相关技术方案中,当多个数据提供者的数据不一致,要进行数据选择时,通常完全依赖人工筛选,没有考虑数据提供者的“权威性”,即可信性问题。因此,入库知识的正确与可信受人为因素影响很大,很有可能得到错误的结果。在近期的相关研究中,一些资料提到衡量“权威性”的方法,但这些方法还有待完善,对于高铁列车运维服务领域,这些方法显得难以获得满意结果。现有技术中也没有对数据提供者的“权威性”的认定方法,当多个数据提供者提供的知识出现不一致时,没有定量计算的方法来确定取舍,使得入库的知识不能保证其正确性,影响使用效果。

因此,需要对不同来源数据的可信度进行定量的计算,以实现知识的融合。

发明内容

本发明提供了一种基于置信度计算的面向高铁列车运维服务知识融合的方法,以解决现有技术问题中存在的缺陷。

为了实现上述目的,本发明采取了如下技术方案。

本实施例提供了一种基于置信度计算的面向高铁列车运维服务知识融合的方法,包括:

根据高铁列车运维服务提供者的基本信息和置信度属性信息建立数据提供者信息库,并根据置信度属性信息建立置信度属性分值计算表;

根据各置信度属性对于应用的权重从所述数据提供者信息库中选取数据提供者的置信度属性作为子属性,根据选取的各置信度子属性对应的分值和所述置信度属性分值计算表确定各置信度子属性的得分值;

根据各置信度子属性对于应用的权重和所述各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度;

根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合。

优选地,方法还包括对高铁列车运维服务提供者进行数据标注,以作为高铁列车运维服务数据提供者的唯一标识。

优选地,高铁列车运维服务提供者的基本信息包括:编号、名称、生产厂家、使用单位和机构名称;所述置信度属性信息包括:对于设备、装置和系统平台的置信度属性测量误差、故障率、误报率、平均故障恢复时间,对于第三方机构的系统评级、资深度和数据认可率。

优选地,置信度属性分值计算表如下表1所示:

表1

优选地,各置信度子属性对应的分值分别根据如下内容计算:测量误差比为实际误差值与允许的最大误差值的比值;故障率比为实际故障率与最大允许故障率的比值;误报率比为实际误报率与最大允许误报率的比值;平均故障恢复时间比为实际的平均故障恢复时间与最大允许平均故障恢复时间的比值;系统评级主要针对提供数据的第三方系统,由主管单位等级评定,有1-10级,最高级别是1级;资深程度主要针对提供数据的第三方系统所在单位,根据系统所在单位的认证资质决定,为1-10级,最高级别是10级,数据认可率根据下式(1)计算:

RL=DP×DK (1)

DP为数据提供者的数据提供率;DK为数据提供者的数据采用比,其中,数据提供率计算方法为:对于数据提供者i,其提供的数据总量与行业认定的该类数据提供者可验证其稳定性和可靠性所需提供的最少数据量的比值,如下式(2)所示:

DPi=DPQ

其中:若DP

数据采用比的计算方法为:对于数据提供者i,其提供的数据被采用的数量与数据提供者i提供的数据总量的比值,如下式(3)所示:

DKi=DKQ

优选地,根据各置信度子属性对于应用的权重和所述各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度,包括:根据下式(4)计算高铁列车运维服务提供者的得分:

其中,v

优选地,方法还包括对各置信度子属性对应的分值进行实时更新。

优选地,根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合,包括:

对于从多个高铁列车运维服务数据提供者的数据中提取的三元组,当他们的头实体和关系相同,但尾实体或参数值不同,对所述三元组进行融合。

优选地,对所述三元组进行融合的具体步骤如下:

1)根据高铁列车运维服务提供者的置信度,比较各个高铁列车运维服务提供者的置信度数值高低,并从高到低排序;

2)当基于多个高铁列车运维服务数据提供者的数据得到三元组的尾实体或参数值不相同,则选取基于置信度最高的高铁列车运维服务提供者的数据抽取的三元组进行融合;当基于多个数据提供者的数据得到三元组的尾实体或参数值存在部分相同,则需进行融合计算,方法如下:

设有N个需要融合三元组,其中具有相同尾实体或参数值的m组,每组的数量为n

由上述本发明的面向高铁列车运维服务知识融合的方法提供的技术方案可以看出,本发明提出一种符合运维领域特点的、标准的数据提供者置信度计算方法,对不同来源数据的可信度进行定量的计算,为实现知识的融合提供可能性,提高高铁列车运维服务领域知识入库的准确性,进而实现选择准确的知识构建知识图谱。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本实施例的一种基于置信度计算的面向高铁列车运维服务知识融合的方法流程图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

实施例一

图1为本实施例的一种基于置信度计算的面向高铁列车运维服务知识融合的方法流程图,参照图1,该方法包括如下步骤:

S1根据高铁列车运维服务提供者的基本信息和置信度属性信息建立数据提供者信息库,并根据置信度属性信息建立置信度属性分值计算表。

本方法包括对高铁列车运维服务提供者进行数据标注,以作为高铁列车运维服务数据提供者的唯一标识。

对已经得到的高铁列车运维服务领域三元组以人工标注的方式打上数据提供者的标签(即数据提供者唯一标识),示意性地,标签由两位大写字母、三位型号(类型)码、4位序号码组成。数据提供者可能包括车载系统、地对车系统、检修系统、其他相关信息系统等,具体如下表1所示。

表1

建立和维护高铁列车运维服务领域数据提供者信息库,主要包括:基本信息,置信度属性信息。高铁列车运维服务提供者的基本信息包括:编号、名称、生产厂家、使用单位和机构名称;所述置信度属性信息包括:对于设备、装置和系统平台的置信度属性测量误差、故障率、误报率、平均故障恢复时间,对于第三方机构的系统评级、资深度和数据认可率,如下表2所示,数据提供者包括车载系统、地对车系统、检修系统,以及相关第三方系统。列出的属性是目前各系统中重要的指标,若有其它侧重指标,可继续扩充。

表2

置信度属性分值计算表如下表3所示,通过计算测量误差比、故障率比、误差率比、平均故障恢复时间比、系统评级、资深程度、数据认可率,可以确定分值,最高分数为100分,最低为10分。

表3

各置信度子属性对应的分值分别根据如下内容计算:测量误差比为实际误差值与允许的最大误差值的比值;故障率比为实际故障率与最大允许故障率的比值;误报率比为实际误报率与最大允许误报率的比值;平均故障恢复时间比为实际的平均故障恢复时间与最大允许平均故障恢复时间的比值;系统评级主要针对提供数据的第三方系统,由主管单位等级评定,有1-10级,最高级别是1级;资深程度主要针对提供数据的第三方系统所在单位,根据系统所在单位的认证资质决定,为1-10级,最高级别是10级,数据认可率根据下式(1)计算:

RL=DP×DK (1)

DP为数据提供者的数据提供率;DK为数据提供者的数据采用比,其中,数据提供率计算方法为:对于数据提供者i,其提供的数据总量与行业认定的该类数据提供者可验证其稳定性和可靠性所需提供的最少数据量的比值,如下式(2)所示:

DPi=DPQ

其中:若DP

数据采用比的计算方法为:对于数据提供者i,其提供的数据被采用的数量与数据提供者i提供的数据总量的比值,如下式(3)所示:

DKi=DKQ

本方法需要对各置信度子属性对应的分值进行实时更新,以保证信息表各项信息及打分的合理性。

S2根据各置信度属性对于应用的权重从数据提供者信息库中选取数据提供者的置信度属性作为子属性,根据选取的各置信度子属性对应的分值和所述置信度属性分值计算表确定各置信度子属性的得分值。

1)数据提供者不同的置信度属性对于不同的应用,其重要性不同,根据属性的重要性从数据提供者的置信度属性(表2中)进行选择,按行业规范、标准规定的属性选择,形成子属性集S,如下表4所示,并根据各属性对应用的影响程度(重要性)不同赋予不同的权重w,示意性地,如下表5所示。

表4

表5

S3根据各置信度子属性对于应用的权重和所述各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度。

依据表上4选择的数据提供者的置信度属性,根据各置信度子属性对应的分值计算方法计算各属性值,并从上表3中计算相应的打分值(v),即对应子属性集s1、s2、…sm分别得到对应的分值v1、v2、…vm。从上表5中获取各属性的权重,根据下式(4)计算高铁列车运维服务提供者的得分即为高铁列车运维服务提供者的置信度:

其中,v

S4根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合。

包括:

对于从多个高铁列车运维服务数据提供者的数据中提取的三元组,当他们的头实体和关系相同,但尾实体或参数值不同,对三元组进行融合。

对所述三元组进行融合的具体步骤如下:

1)根据高铁列车运维服务提供者的置信度,比较各个高铁列车运维服务提供者的置信度数值高低,并从高到低排序;

2)当基于多个高铁列车运维服务数据提供者的数据得到三元组的尾实体或参数值不相同,则选取基于置信度最高的高铁列车运维服务提供者的数据抽取的三元组进行融合;当基于多个数据提供者的数据得到三元组的尾实体或参数值存在部分相同,则需进行融合计算,方法如下:

设有N个需要融合三元组,其中具有相同尾实体或参数值的m组,每组的数量为n

以下为采用本实施例方法进行融合的具体算例:

算例1:

从车载系统、地对车系统、第三方数据提供者获取了对于某一时刻轴承Z1的温度值,且这三个温度值(t)不一致。系统中同一水平的温度范围是5℃,示意性地,0-5℃属于同一水平。

知识图谱的知识表示方式有<实体,属性,属性值>的方式。因此这三个三元组可以表示为车载系统提供的E1,地对车系统提供的E2,第三方数据提供者提供的E3(由温度范围要求可知,E2、E3提供的温度值属于同一水平(35-40℃))。

设基于数据提供者置信度属性集表,属性集为RL(数据认可率)、LV(系统评级),并且对应赋予权重分别为0.7和0.3。

根据E1,E2,E3的标签查询数据提供者信息库找到数据提供者分别为CZ1,DC1,YW1。计算得到的CZ1的两个子属性值分别为100,90;DC1对应的数据提供者的个子属性值分别为80,65;YW1对应的数据提供者的两个子属性值分别为65,70。

分别进行数据提供者置信度计算:

b

b

b

由于DC1与YW1提供的温度值属于同一水平,因此可分为两组,其中组1中有CZ1,组2中有DC1和YW1,计算每组的置信度。

b

b

比较每组置信度,b

融合结束。

算例2:

从车载系统、地对车系统、第三方数据提供者铁获取了对于某一时刻轴承Z1的温度值,且这三个温度值(t)不一致。系统中同一水平的温度范围是5℃,例如0-5℃属于同一水平。

知识图谱的知识表示方式有<实体,属性,属性值>的方式。因此这三个三元组可以表示为车载系统提供的E1,地对车系统提供的E2,第三方数据提供者提供的E3(由温度范围要求可知,三个温度值不在同一水平)。

i.设基于数据提供者置信度属性集表,属性集为RL(数据认可率)、LV(系统评级),并且对应赋予权重分别为0.7和0.3。

ii.根据E1,E2,E3的标签查询数据提供者信息表找到数据提供者分别为CZ1,DC1,YW1。CZ1的两个子属性值分别为100,90;DC1对应的数据提供者的个子属性值分别为80,65;YW1对应的数据提供者的两个子属性值分别为65,70。

iii.数据提供者置信度计算。

b

b

b

由于DC1、YW1、CZ1提供的温度值不属于同一水平,因此直接选择分数最高的CZ1系统提供的E1三元组对应的温度值100℃。

iv.融合结束。

本领域技术人员应能理解上述算例的应用类型仅为举例,其他现有的或今后可能出现的应用类型如可适用于本发明实施例,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 基于置信度计算的面向高铁列车运维服务知识融合的方法
  • 基于大数据可信计算的信息运维服务知识共享方法
技术分类

06120113254617