掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及数据处理技术领域,尤其涉及一种数据标注方法、装置、设备及介质。

背景技术

数据采集与监视控制(Supervisory Control And Data Acquisition,SCADA)系统,是一种SCADA系统是以计算机为基础的生产过程控制与调度自动化系统,可以对现场的运行设备进行监视和控制,具有广泛的应用领域,例如可以应用于风电、石油、燃气、铁路等领域。

在风力发电技术领域,SCADA系统所采集的故障数据是对风力发电机进行故障诊断和故障预警的基础。由于SCADA系统所采集的SCADA数据既包括正常数据也包括故障数据,因此需要对SCADA数据进行标注,提取出故障发生时的数据特征,才可以基于SCADA故障数据对风机进行故障诊断。也就是,只有被标注的SCADA数据才具备故障诊断和故障预警的数据挖掘条件。

目前风力发电行业内的SCADA数据依赖人工标注完成,需要具备一定专业知识的业务人员,参考风电故障信息对SCADA数据进行人工标注,需要消耗大量的时间和人力,导致数据标注的效率较低。并且业务人员的知识有限,在数据标注时也可能存在误判,导致数据标注的准确性较低。

发明内容

有鉴于此,本申请实施例提供了一种数据标注方法、装置、设备及介质,以便提高数据标注的效率和准确性。

第一方面,本申请实施例提供了一种数据标注方法,所述方法包括:

获取故障风力发电机的初标注信息,所述初标注信息中包括所述故障风力发电机的故障信息;

基于所述故障风力发电机的业务数据和正常风力发电机的业务数据,确定评估指标,所述评估指标用于校准所述初标注信息;

基于所述评估指标对所述初标注信息进行校准,获取目标标注信息;

基于所述目标标注信息对SCADA数据进行标注。

在一种可能的实现方式中,所述基于所述故障风力发电机的业务数据和正常风力发电机的业务数据,确定评估指标,包括:

基于所述故障风力发电机的第一业务数据和所述正常风力发电机的第二业务数据,确定参考统计数据;

获取所述故障风力发电机在目标预设时间段内的第三业务数据,基于所述第三业务数据确定预设时间窗口所对应的目标统计数据,所述目标预设时间段为根据所述故障信息确定的;

基于所述参考统计数据和所述目标统计数据确定所述评估指标。

在一种可能的实现方式中,所述基于所述故障风力发电机的第一业务数据和所述正常风力发电机的第二业务数据,确定参考统计数据,包括:

基于所述故障风力发电机在故障发生前的第一预设时间段内的第一业务数据,确定所述第一业务数据所对应的第一均值和第一标准差;

基于所述正常风力发电机在所述故障风力发电机发生故障的时间内的第二业务数据,确定所述第二业务数据所对应的第二均值和第二标准差。

在一种可能的实现方式中,所述基于所述第三业务数据确定预设时间窗口所对应的目标统计数据,包括:

基于所述预设时间窗口划分所述目标预设时间段,获得多个所述预设时间窗口;

针对多个所述预设时间窗口中的任一预设时间窗口,基于所述第三业务数据确定所述预设时间窗口所对应的第四业务数据;

确定所述第四业务数据所对应的第三均值和第三标准差。

在一种可能的实现方式中,所述基于所述参考统计数据和所述目标统计数据确定评估指标,包括:

针对任一预设时间窗口所对应的第三均值和第三标准差,确定所述第一均值与所述第三均值的第一差值,以及所述第一标准差与所述第三标准差的第二差值,并基于所述第一差值和所述第二差值确定第一指标;

确定所述第二均值与所述第三均值的第三差值,以及所述第二标准差与所述第三标准差的第四差值,并基于所述第三差值和所述第四差值确定第二指标;

基于所述第一指标和所述第二指标确定所述评估指标。

在一种可能的实现方式中,所述基于所述评估指标对所述初标注信息进行校准,包括:

获取多个所述评估指标;

针对多个所述评估指标中的任一评估指标,当所述评估指标大于预设指标时,获取所述评估指标所对应的预设时间窗口;

基于所述评估指标所对应的预设时间窗口对所述初标注信息中的故障信息进行校准。

在一种可能的实现方式中,所述基于所述第一差值和所述第二差值确定第一指标,包括:

对所述第一差值的绝对值和所述第二差值的绝对值进行加权求和,确定所述第一指标。

在一种可能的实现方式中,所述基于所述第一指标和所述第二指标确定所述评估指标,包括:

确定所述第一指标和所述第二指标中数值较大的为所述评估指标。

在一种可能的实现方式中,所述基于所述目标标注信息对SCADA数据进行标注,包括:

基于所述目标标注信息生成故障标注检索表;

基于所述故障标注检索表标注所述SCADA数据中的故障数据。

在一种可能的实现方式中,所述获取故障风力发电机的初标注信息,包括:

对所述故障风力发电机的故障案例进行实体抽取,获取故障信息,所述故障信息包括故障时间信息、风场信息、风机信息以及部件故障信息中的至少一种;

将所述故障信息与SCADA数据进行关联,获取所述初标注信息。

在一种可能的实现方式中,当所述故障信息包括部件故障信息时,所述对所述故障风力发电机的故障案例进行实体抽取,获取所述部件故障信息,包括:

对所述故障风力发电机的故障案例进行实体抽取,获取部件实体和故障实体,所述部件实体表示所述故障风力发电机的故障点,所述故障实体表示对所述故障点的故障描述;

基于所述部件实体和所述故障实体进行拼接,获取所述部件故障信息。

在一种可能的实现方式中,当所述故障信息包括故障时间信息、风场信息、风机信息以及部件故障信息时,所述将所述故障信息与SCADA数据进行关联,包括:

获取风场信息表、风机信息表以及风电故障树;

基于所述风场信息表将所述风场信息与所述SCADA数据进行关联,所述风场信息包括风场名,所述风场信息表包括风场名和风场编号,所述SCADA数据包括风场编号;

基于所述风机信息表将所述风机信息与所述SCADA数据进行关联,所述风机信息包括风机名,所述风机信息表包括风机名和风机编号,所述SCADA数据包括风机编号;

基于所述风电故障树将所述部件故障信息与所述SCADA数据进行关联,所述部件故障信息包括部件实体和故障实体,所述风电故障树包括部件实体、故障实体以及业务字段,所述SCADA数据包括业务字段;

将所述故障时间信息与所述SCADA数据进行关联,所述SCADA数据包括时间信息。

在一种可能的实现方式中,所述基于风电故障树将所述部件故障信息与所述SCADA数据进行关联,包括:

基于所述部件实体和所述故障实体,确定所述风电故障树中的目标业务字段,所述风电故障树包括所述部件实体、所述故障实体与所述目标业务字段的对应关系;

基于所述目标业务字段将所述部件故障信息与所述SCADA数据进行关联,所述SCADA数据包括所述目标业务字段。

第二方面,本申请实施例提供了一种数据标注装置,所述装置包括:

获取模块,用于获取故障风力发电机的初标注信息,所述初标注信息中包括所述故障风力发电机的故障信息;

确定模块,用于基于所述故障风力发电机的业务数据和/或正常风力发电机的业务数据,确定评估指标,所述评估指标用于对所述初标注信息进行校准;

校准模块,用于基于所述评估指标对所述初标注信息进行校准,获取目标标注信息;

标注模块,用于基于所述目标标注信息对SCADA数据进行标注。

第三方面,本申请实施例提供了一种数据标注设备,所述设备包括:存储器以及处理器;

所述存储器用于存储相关的程序代码;

所述处理器用于调用所述程序代码,执行上述第一方面任意一种实现方式所述的数据标注方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面任意一种实现方式所述的数据标注方法。

由此可见,本申请实施例具有如下有益效果:

在本申请实施例的上述实现方式中,为了对SCADA数据进行标注,需要获取故障风力发电机的初标注信息,其中,该初标注信息中包括故障风力发电机的故障信息。然后基于故障风力发电机的业务数据和/或正常风力发电机的业务数据,确定评估指标,该评估指标可以用于对初标注信息进行校准。基于评估指标对初标注信息进行校准,从而获取校准后的目标标注信息。在确定目标标注信息后,可以基于目标标注信息对SCADA数据进行标注。通过本申请所提供的数据标注方法,可以通过风力发电机的业务数据确定用于校准的评估指标,获得更准确的目标标注信息,实现对SCADA数据的标注,无需进行人工标注,既可以提高数据标注的效率还可以提高数据标注的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见,下面描述中的附图仅仅是本申请中提供的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据标注方法的流程图;

图2为本申请实施例提供的一种故障信息与SCADA数据进行关联的示意图;

图3a为本申请实施例提供的一种数据标注的示意图;

图3b为本申请实施例提供的另一种数据标注的示意图;

图4为本申请实施例提供的另一种数据标注方法的流程图;

图5为本申请实施例提供的一种数据标注装置的示意图;

图6为本申请实施例提供的一种数据标注设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,所描述的实施例仅为本申请示例性的实施方式,并非全部实现方式。本领域技术人员可以结合本申请的实施例,在不进行创造性劳动的情况下,获得其他的实施例,而这些实施例也在本申请的保护范围之内。

为便于理解本申请所提供的技术方案,下面首先对本申请所涉及的技术背景进行介绍。

在风力发电技术领域,SCADA系统所采集的风电故障数据,是对风力发电机进行故障诊断和故障预警的基础。由于SCADA系统所采集的原始SCADA数据既包括正常数据也包括故障数据,因此需要对SCADA数据进行标注,提取出风力发电机发生故障时的数据特征,才可以基于SCADA故障数据对风力发电机进行故障诊断。也就是,只有被标注的SCADA数据才具备故障诊断和故障预警的数据挖掘条件。

目前风力发电行业内的SCADA数据依赖人工标注,需要具备一定专业知识的业务人员,对照风力发电机发生故障的服务工单,参考风电故障信息对SCADA数据进行人工标注,需要消耗大量的时间和人力,导致数据标注的效率较低。并且业务人员的知识有限,在数据标注时也可能存在误判,导致数据标注的准确性较低。

基于此,本申请实施例提供了一种数据标注方法,以便提高数据标注的效率和准确性。具体实现时,首先获取故障风力发电机的初标注信息,其中,该初标注信息中包括故障风力发电机的相关故障信息。然后基于故障风力发电机的业务数据和/或正常风力发电机的业务数据,确定评估指标,该评估指标可以用于对初标注信息进行校准。基于评估指标对初标注信息进行校准后,获取目标标注信息,并基于目标标注信息对SCADA数据进行标注,从而获得标注后的SCADA数据。通过本申请所提供的数据标注方法,可以通过风力发电机的业务数据确定用于校准的评估指标,获得更准确的目标标注信息,实现对SCADA数据的标注,并且无需进行人工标注,既可以提高数据标注的效率还可以提高数据标注的准确性。

下面将结合附图对本申请所提供的数据标注方法进行具体介绍。

参见图1,图1为本申请实施例提供的一种数据标注方法的流程图。

可以理解的是,该方法可以应用于处理设备上,该处理设备为能够进行数据分析处理的设备,例如可以是风力发电机的主控制器,还可以是场级控制器,还可以为其他能够进行分析处理的设备,如终端设备或服务器。

当应用于主控制器或场级控制器时,主控制器或场级控制器可以获取风力发电机的相关数据和数据采集与监视控制(Supervisory Control And Data Acquisition,SCADA)系统所采集的SCADA数据,并对所获取的数据进行处理,实现对SCADA数据的标注,以便基于标注后的SCADA数据对风力发电机进行故障检测和故障预警。

当应用于终端设备或服务器时,可以通过终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合执行。其中,终端设备可以为台式计算机、笔记本、手持终端等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以为独立服务器,也可以为集群服务器。

该方法可以包括以下步骤:

S101:获取故障风力发电机的初标注信息,该初标注信息中包括故障风力发电机的故障信息。

当风力发电机发生故障时,需要获取故障信息对SCADA数据进行标注。其中,本实施例中可以先获取故障风力发电机的初标注信息,后续对初标注信息进行校准后,再利用校准后的标注信息对SCADA数据进行标注。

在一种可能的实现方式中,可以通过以下方式获取故障风力发电机的初标注信息,当风力发电机发生故障时,可以由处理设备获取该故障风力发电机的故障案例,也就是,关于风力发电机故障时的文本数据,然后对故障案例进行实体抽取,从而获取相关的故障信息。其中,该故障信息可以包括故障时间信息、风场信息、风机信息以及部件故障信息等。然后将故障信息与SCADA数据进行关联,获取初标注信息,该初标注信息中包括风力发电机的故障信息。其中,SCADA数据可以由处理设备从SCADA系统中获取。

具体地,可以利用命名实体识别算法对故障案例进行实体抽取,获取故障时间信息、风场信息、风机信息以及部件故障信息等。其中,该命名实体识别算法可以预先存储在处理设备中。当获取部件故障信息时,处理设备可以基于命名实体识别算法首先对故障案例进行实体抽取,获取部件实体和故障实体。其中,部件实体表示故障风力发电机的故障点,例如,风扇、叶片等,故障实体表示对故障点的故障描述,例如,故障实体可以为温度异常。然后将获取的部件实体和故障实体进行拼接,获取部件故障信息。例如,部件故障信息可以为风扇运行的温度异常。

当获取故障时间信息、风场信息、风机信息以及部件故障信息等故障信息后,可以将故障信息与SCADA数据进行关联,基于关联后的数据获取初标注信息。具体实现时,可以分为以下几个步骤:

A:获取风场信息表、风机信息表以及风电故障树。

其中,风场信息表、风机信息表以及风电故障树为预先确定的。例如,可以由风场管理人员自主维护并存储在处理设备中。其中,风场信息表包括风场名和风场编号,风机信息表包括风机名和风机编号,风电故障树包括部件实体、故障实体以及业务字段,SCADA数据包括风场编号、风机编号、业务字段以及时间信息等,业务字段可以用于获取相应的业务数据。如图2所示的示意图,为一种将故障信息与SCADA数据进行关联的示意图,包括风机信息表201、风场信息表202、风电故障树203以及SCADA数据204等,风机信息表201中包括风机名、风机编号以及风机所属风场编号等,风场信息表202中包括风场名和风场编号等,风电故障树203中包括部件、故障类型以及业务字段等,SCADA数据204中包括时间信息、风场编号、风机编号、各种业务字段等。需要说明的是,图2所示的关联示意图仅为一种示例,并非仅限于该实现方式。

B:基于风场信息表将风场信息与SCADA数据进行关联。

其中,风场信息包括风场名。由于风场信息表包括风场名和风场编号,所以处理设备可以基于风场信息表确定风场信息的风场名所对应的风场编号,然后映射到SCADA数据中的风场编号。

C:基于风机信息表将风机信息与SCADA数据进行关联。

其中,风机信息包括风机名。由于风机信息表中包括风机名和风机编号,所以处理设备可以基于风机信息表确定风机信息的风机名所对应的风机编号,然后映射到SCADA数据中的风机编号。

D:基于风电故障树将部件故障信息与SCADA数据进行关联。

其中,部件故障信息中包括部件实体和故障实体。在一种可能的实现方式中,由于风电故障树包括部件实体、故障实体以及业务字段,还可以预先在风电故障树中存储部件实体、故障实体与业务字段的对应关系,这样可以基于风电故障树中的对应关系,确定部件实体和故障实体所对应的目标业务字段,然后将目标业务字段与SCADA数据的业务字段相匹配,从而实现部件故障信息与SCADA数据的关联。

E:将故障时间信息与SCADA数据的时间信息相匹配,实现故障时间信息与SCADA数据的关联。

基于上述故障信息与SCADA数据进行关联后,即可从关联后的数据中获取初标注信息。需要说明的是,本申请实施例并不限定将各个故障信息与SCADA数据进行关联的步骤的顺序,即并不限定步骤B、C、D、E的先后顺序,但是步骤A必须在步骤B、C、D之前执行。

S102:基于故障风力发电机的业务数据和正常风力发电机的业务数据,确定评估指标;该评估指标用于对初标注信息进行校准。

在获取初标注信息后,由于故障案例中所记录的时间信息一般只能确定为某一天,导致所确定的故障时间不够精确。基于此,本实施例可以基于故障风力发电机的业务数据和正常风力发电机的业务数据,确定对初标注信息进行校准的评估指标。其中,该正常风力发电机可以为与故障风力发电机处于同一风场的风力发电机。可选地,可以由处理设备的处理器获取业务数据后,对业务数据进行处理,从而确定评估指标。

具体实现时,可以基于故障风力发电机的第一业务数据和正常风力发电机的第二业务数据,确定参考统计数据。其中,该参考统计数据可作为校准的参考统计量。然后获取故障风力发电机在目标预设时间段内的第三业务数据,并基于第三业务数据确定预设时间窗口所对应的目标统计数据。其中,该目标预设时间段可以根据故障信息确定。例如,可以以故障风力发电机发生故障的时间为基准,确定故障时间的前后一段时间为目标预设时间段。在获取参考统计数据和目标统计数据之后,即可基于参考统计数据和目标统计数据确定评估指标。其中,风力发电机的业务数据可以通过SCADA数据中的业务字段获得。在上述实施例中根据风电故障树确定SCADA数据中部件故障信息对应的业务字段,因此可以基于该业务字段获取风力发电机在不同时间的业务数据。

可选地,可以通过以下方式确定参考统计数据,可以获取故障风力发电机在故障发生前的第一预设时间段内的业务数据作为第一业务数据。然后确定第一业务数据所对应的第一均值和第一标准差,作为参考统计数据。也就是,以故障风力发电机发生故障前的业务数据作为参考,与发生故障时的业务数据(第三业务数据)形成对照,以便校准故障发生的时间。获取正常风力发电机在故障风力发电机发生故障的时间内的第二业务数据,并确定第二业务数据所对应的第二均值和第二标准差,作为参考统计数据。即还可以以正常风力发电机在故障风力发电机发生故障时的业务数据作为参考,与故障风力发电机发生故障时的业务数据形成对照,以便更准确地校准故障风力发电机发生故障的时间。通过将故障风力发电机发生故障前后的数据做纵向对比,将故障风力发电机和正常风力发电机在故障时间段的业务数据做横向对比,可以更准确地确定评估指标,校准故障时间信息。

其中,第一预设时间段的具体取值可以结合实际应用场景进行确定,本实施例对此不做限定。下面结合一种场景具体介绍获取参考统计数据的原理。在该应用场景中,可以设置第一预设时间段为5天,风力发电机的业务数据为温度值,也就是,获取故障风力发电机在故障发生前5天的业务数据为第一业务数据。以每天所采集的业务数据包括3个温度值为例,那么第一业务数据即包括15个温度值,然后可以确定该15个温度值的平均温度值为第一均值,该15个温度值的标准差为第一标准差。同样地,确定第二业务数据的第二均值和第二标准差的原理可参见上述实施例,在此不再赘述。

当获取故障风力发电机在目标预设时间段内的第三业务数据后,可以确定预设时间窗口所对应的目标统计数据,然后基于参考统计数据和目标统计数据确定评估指标。具体实现时,可以通过以下方法确定目标统计数据,首先基于该预设时间窗口划分目标预设时间段,从而可以获得多个预设时间窗口。其中,该预设时间窗口可以结合实际需求进行确定。由于已经获取目标预设时间段内的第三业务数据,所以在基于预设时间窗口划分目标预设时间段后,可以确定每个预设时间窗口所对应的第四业务数据。然后确定第四业务数据所对应的第三均值和第三标准差,作为目标统计数据。

当获取作为参考统计数据的第一均值、第一标准差、第二均值、第二标准差,以及作为目标统计数据的第三均值、第三标准差之后,可以确定评估指标。具体地,针对任一预设时间窗口所对应的第三均值和第三标准差,确定第一均值与第三均值的第一差值,以及第一标准差与第三标准差的第二差值,并基于第一差值和第二差值确定第一指标。确定第二均值与第三均值的第三差值,以及第二标准差与第三标准差的第四差值,并基于第三差值和第四差值确定第二指标。然后基于第一指标和第二指标确定评估指标。例如,可以将第一指标和第二指标中数值较大的作为评估指标。

在一种可能的实现方式中,基于第一差值和第二差值确定第一指标时,可以对第一差值的绝对值和第二差值的绝对值进行加权求和,确定第一指标。例如,可以设置第一均值表示为mt,第一标准差表示为st,第二均值表示为mf,第二标准差表示为sf,第三均值表示为mi,第三标准差表示为si,则评估指标e的计算公式可以确定为e=max(a*|mt-mi|+b*|st-si|,a*|mf-mi|+b*|sf-si|),其中,第一指标为a*|mt-mi|+b*|st-si|,第二指标为a*|mf-mi|+b*|sf-si|,a和b均表示加权系数,取值范围可以为[0,1]。当业务数据的平均特性比较明显时,可以设置加权系数a的数值较大。例如,当业务数据为温度值时,可以调大加权系数a。当业务数据的波动特性比较明显时,可以设置加权系统b的数值较大。例如,当业务数据为振动指标时。然后选择第一指标和第二指标中较大值为评估指标e。

S103:基于评估指标对初标注信息进行校准,获取目标标注信息。

根据上述实施例可知,基于预设时间窗口划分目标预设时间段后,可以获取多个预设时间窗口,并且基于每个预设时间窗口可以确定一个评估指标,从而获取多个评估指标。当基于评估指标对初标注信息进行校准时,一种可能的实现方式为,针对多个评估指标中的任一评估指标,当该评估指标大于预设指标时,表明该评估指标所对应的预设时间窗口为故障发生的时间,则可以获取该评估指标所对应的预设时间窗口,然后基于该预设时间窗口对初标注信息中的故障信息进行校准,从而获取校准后的目标标注信息。也就是,获取大于预设指标的一个或多个评估指标,然后基于该一个或多个评估指标对应的预设时间窗口对初标注信息中的故障时间信息进行校准。其中,预设指标的具体数值可以结合实际需求进行确定,本实施例对此不做限定。

可选地,当评估指标小于或等于预设指标时,为了更精准地确定故障时间,还可以将该评估指标所对应的业务数据推送给工作人员,例如,通过显示模块将业务数据显示推送给工作人员,由工作人员再次对业务数据进行核对,以提高故障校准的准确性。或者,也可以适应性地调整评价指标的加权参数,以调整评价指标的数值,从而提高获取故障时间的准确性,以提高对SCADA数据标注的准确性。下面结合一种具体应用场景介绍对初标注信息进行校准的原理。

在该应用场景中,基于故障信息与SCADA数据进行关联后,获取的初标注信息如表1所示。根据表1所示的业务字段,可以获取发生故障的业务数据,即风扇工作时的温度。

表1初标注信息

获取故障风力发电机的变桨逆变器风扇在发生故障(3/7日)前5天的温度值作为第一业务数据,并可以确定第一业务数据所对应的第一均值mt=14,第一标准差st=0.8。获取同风场的正常风力发电机的变桨逆变器风扇在3/7日的温度值,作为第二业务数据,并可以确定第二业务数据所对应的第二均值mf=14.3,第二标准差sf=0.82。在该应用场景中,可以确定目标预设时间段为3/6日21:00-3/8日21:25,获取在目标预设时间段内故障风力发电机的变桨逆变器风扇的温度值为第三业务数据。然后以10分钟为一个预设时间窗口,划分目标预设时间段。在每个10分钟的预设时间窗口内,每隔5分钟采集一个温度值,从而可以获取在一个预设时间窗口的三个温度值,然后确定该单个温度值的第三均值mi和第三标准差si,从而计算每个预设时间窗口所对应的评估指标e,e=max(a*|mt-mi|+b*|st-si|,a*|mf-mi|+b*|sf-si|)。所采集的业务数据以及确定的评估指标如表2所示。由于所采集的业务数据过多,所以仅在表2中展示部分业务数据以及所对应的评估指标。

在该应用场景中可以设置预设指标为2,也就是当评估指标大于2时,则可以确该评估指标所对应的预设时间窗口为故障时间。当评估指标小于或等于2时,则可以确定该评估指标所对应的预设时间窗口为正常时间。其中,表2中未展示的评估指标均大于2。则根据表2可知,2019-03-06 21:30:00-2019-03-08 21:10:00时间段内,每个预设时间窗口所对应的评估指标均大于预设指标,所以可以确定故障时间为2019-03-06 21:30:00-2019-03-08 21:10:00,对初标注信息中的故障时间信息进行校准,获取更准确地目标标注信息。其中,目标标注信息中的故障时间信息为校准后的故障时间信息。后续利用目标标注信息对SCADA数据进行标注时,可以提高数据标注的准确性。

表2业务数据以及评估指标

S104:基于目标标注信息对SCADA数据进行标注。

基于评估指标对故障时间信息进行校准后,即可获得校准后的目标标注信息,然后处理设备可以基于目标标注信息对SCADA数据进行标注。具体地,可以基于目标标注信息生成故障标注检索表,然后利用故障标注检索表标注SCADA数据中的故障数据。其中,该故障标注检索表中包括风场信息、风机信息、部件故障信息以及故障时间信息等。基于上述实施例所提供的应用场景,介绍基于故障标注检索表标注SCADA故障数据的原理。

基于表1所述的初标注信息,以及表2校准后的故障时间信息,可以生成表3所示的故障标注检索表,包括故障类型、风场编号、风机编号,故障开始时间和结束时间,以及发生故障对应的业务字段。基于故障标注检索表中的各个故障信息,对SCADA数据进行标注,确定故障数据,即故障标注检索表中的每一条记录均对应一段SCADA数据中的故障数据,从而可以确定SCADA数据中的正常数据和故障数据,以便后续利用标注过的SCADA数据对风力发电机进行故障诊断和故障预警。

表3故障标注检索表

下面将结合一种应用场景,介绍对数据标注的结果。

在该应用场景中,风力发电机的故障案例描述为:

(1)现场信息:第一风电场;

(2)现场天气:满足工作条件;

(3)故障描述:2019年3月7日运行人员登机检查发现机组20#一个变桨柜的散热风扇不能正常运行,排查发现温控开关有问题,更换后机组恢复正常。

基于该故障案例所提取的故障信息为:

(1)风场信息:第一风电场;

(2)风机信息:20#;

(3)故障时间:2019-3-7;

(4)部件故障信息:变桨逆变器风扇异常工作。

基于初标注信息对SCADA数据进行标注后,获得的标注数据如图3a所示。其中,实线部分表示3个变桨逆变器正常工作的温度,虚线部分表示3个变桨逆变器正常工作的温度。对初标注信息进行校准后,获得目标标注信息,基于校准后的目标标注信息对SCADA数据进行标注后,获得的标注数据如图3b所示。根据标注数据的结果可以发现,所确定的故障时间更加准确,由此标注的SCADA故障数据更加准确。

通过本申请实施例提供的数据标注方法,可以通过风力发电机的业务数据确定用于校准的评估指标,获得更准确的目标标注信息,实现对SCADA数据的标注,整个标注过程可以由风场的处理设备实现,无需进行人工标注,既可以提高数据标注的效率还可以提高数据标注的准确性。

基于上述方法实施,本申请实施例还提供一种数据标注方法。参见图4,该方法可以通过以下方式实现,当获取风场编号、风机编号、故障时间、业务字段等故障信息,与SCADA数据关联后获取初标注信息。然后获取该风机故障发生前n天的业务数据,作为第一业务数据,并确定第一均值mt和第一标准差st。获取该风机故障发生时同风场正常风机的第二业务数据,并确定第二均值mf和第二标准差sf。获取该风机故障发生时间段的第三业务数据,滑动预设时间窗口,确定每个预设时间窗口所对应的第四业务数据,并确定第四业务数据对应的第三均值mi和第三标准差si。基于上述指标确定评估指标e,当评估指标e大于预设指标时,可以基于预设时间窗口对故障时间进行校准;当e小于预设指标时,可以通过显示模块将业务数据推送给工作人员,用于人工核对。或者也可以调整评估指标的值,用以更准确地确定故障时间。当获取校准后的故障时间后,即可对SCADA数据进行标注。

本实施例提供的数据标注方法所具有的有益效果参见上述实施例,在此不再赘述。

基于上述方法实施例,本申请实施例还提供一种数据标注装置。参见图5,图5为本申请实施例提供的一种数据标注装置的示意图。

该装置500包括:获取模块501、确定模块502、校准模块503以及标注模块504;

获取模块501,用于获取故障风力发电机的初标注信息,所述初标注信息中包括所述故障风力发电机的故障信息;

确定模块502,用于基于所述故障风力发电机的业务数据和/或正常风力发电机的业务数据,确定评估指标,所述评估指标用于对所述初标注信息进行校准;

校准模块503,用于基于所述评估指标对所述初标注信息进行校准,获取目标标注信息;

标注模块504,用于基于所述目标标注信息对SCADA数据进行标注。

在一种可能的实现方式中,确定模块502,具体用于基于所述故障风力发电机的第一业务数据和所述正常风力发电机的第二业务数据,确定参考统计数据;获取所述故障风力发电机在目标预设时间段内的第三业务数据,基于所述第三业务数据确定预设时间窗口所对应的目标统计数据,所述目标预设时间段为根据所述故障信息确定的;基于所述参考统计数据和所述目标统计数据确定所述评估指标。

在一种可能的实现方式中,确定模块502,具体用于基于所述故障风力发电机在故障发生前的第一预设时间段内的第一业务数据,确定所述第一业务数据所对应的第一均值和第一标准差;基于所述正常风力发电机在所述故障风力发电机发生故障的时间内的第二业务数据,确定所述第二业务数据所对应的第二均值和第二标准差。

在一种可能的实现方式中,确定模块502,具体用于基于所述预设时间窗口划分所述目标预设时间段,获得多个所述预设时间窗口;针对多个所述预设时间窗口中的任一预设时间窗口,基于所述第三业务数据确定所述预设时间窗口所对应的第四业务数据;确定所述第四业务数据所对应的第三均值和第三标准差。

在一种可能的实现方式中,确定模块502,具体用于针对任一预设时间窗口所对应的第三均值和第三标准差,确定所述第一均值与所述第三均值的第一差值,以及所述第一标准差与所述第三标准差的第二差值,并基于所述第一差值和所述第二差值确定第一指标;确定所述第二均值与所述第三均值的第三差值,以及所述第二标准差与所述第三标准差的第四差值,并基于所述第三差值和所述第四差值确定第二指标;基于所述第一指标和所述第二指标确定所述评估指标。

在一种可能的实现方式中,校准模块503,具体用于获取多个所述评估指标;针对多个所述评估指标中的任一评估指标,当所述评估指标大于预设指标时,获取所述评估指标所对应的预设时间窗口;基于所述评估指标所对应的预设时间窗口对所述初标注信息中的故障信息进行校准。

在一种可能的实现方式中,确定模块502,具体用于对所述第一差值的绝对值和所述第二差值的绝对值进行加权求和,确定所述第一指标。

在一种可能的实现方式中,确定模块502,具体用于确定所述第一指标和所述第二指标中数值较大的为所述评估指标。

在一种可能的实现方式中,标注模块504,具体用于基于所述目标标注信息生成故障标注检索表;基于所述故障标注检索表标注所述SCADA数据中的故障数据。

在一种可能的实现方式中,获取模块501,具体用于对所述故障风力发电机的故障案例进行实体抽取,获取故障信息,所述故障信息包括故障时间信息、风场信息、风机信息以及部件故障信息中的至少一种;将所述故障信息与SCADA数据进行关联,获取所述初标注信息。

在一种可能的实现方式中,当所述故障信息包括部件故障信息时,获取模块501,具体用于对所述故障风力发电机的故障案例进行实体抽取,获取部件实体和故障实体,所述部件实体表示所述故障风力发电机的故障点,所述故障实体表示对所述故障点的故障描述;基于所述部件实体和所述故障实体进行拼接,获取所述部件故障信息。

在一种可能的实现方式中,当所述故障信息包括故障时间信息、风场信息、风机信息以及部件故障信息时,获取模块501,具体用于获取风场信息表、风机信息表以及风电故障树,所述风场信息表包括风场名和风场编号,所述风机信息表包括风机名和风机编号,所述风电故障树包括部件实体、故障实体以及业务字段,所述风场信息表、所述风机信息表以及所述风电故障树为预先确定的;基于所述风场信息表将所述风场信息与所述SCADA数据进行关联,所述风场信息包括风场名,所述SCADA数据包括风场编号;基于所述风机信息表将所述风机信息与所述SCADA数据进行关联,所述风机信息包括风机名,所述SCADA数据包括风机编号;基于所述风电故障树将所述部件故障信息与所述SCADA数据进行关联,所述部件故障信息包括部件实体和故障实体,所述SCADA数据包括业务字段;将所述故障时间信息与所述SCADA数据进行关联,所述SCADA数据包括时间信息。

在一种可能的实现方式中,获取模块501,具体用于基于所述部件实体和所述故障实体,确定所述风电故障树中的目标业务字段,所述风电故障树包括所述部件实体、所述故障实体与所述目标业务字段的对应关系;基于所述目标业务字段将所述部件故障信息与所述SCADA数据进行关联,所述SCADA数据包括所述目标业务字段。

本申请实施例提供的数据标注装置所具有的有益效果可参见上述方式实施例,在此不再赘述。

基于上述方法实施例和装置实施例,本申请实施例还提供一种数据标注设备。参见图6,图6为本申请实施例提供的一种数据标注设备的示意图。

该设备600包括:存储器601以及处理器602;

所述存储器601用于存储相关的程序代码;

所述处理器602用于调用所述程序代码,执行上述方法实施例所述的数据标注方法。

此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方法实施例所述的数据标注方法。

需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。尤其,对于系统或装置实施例而言,由于其基本类似于方法实施例,所以描述得比较简单,相关部分参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的,作为单元或模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上,可以根据实际需要选择其中的部分或者全部单元或模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120116526423