掌桥专利:专业的专利平台
掌桥专利
首页

一种基于语义挖掘的接触网文本数据缺陷识别方法及设备

文献发布时间:2023-06-19 19:30:30


一种基于语义挖掘的接触网文本数据缺陷识别方法及设备

技术领域

本发明涉及铁路接触网缺陷识别技术领域,涉及一种基于语义挖掘的接触网文本数据缺陷识别方法及设备。

背景技术

高速铁路接触网是高速列车能量传输的关键,其运行状况与铁路运输的安全性和可靠性密切相关。由于复杂的故障机制和多变的运行工况,接触网运行风险极高。为了及时发现潜在的缺陷并进行消缺,各种监测技术和维护活动被广泛应用于接触网运行和维护;例如:申请号为2020102694120公开的基于人工智能技术对铁路的接触网图像进行缺陷识别监测的方法。

进一步,基于相应的监测结果,接触网运维部门积累了大量接触网缺陷记录,这些缺陷记录蕴含了丰富的接触网缺陷问题、消缺方法、原因等缺陷关键特征。但是现有的缺陷记录通常由人工进行统计整合,通过统计整合确定缺陷文本描述,并依据规范文件进行人工分类,相应的文本统计整合工作存在准确度不高、文本信息利用率低、效率低下、成本较高等缺陷,因此,如何能够高效挖掘缺陷记录中包含的信息并进行准确分类、以提高缺陷记录的分析价值成为急需解决的问题。

发明内容

本发明的目的在于克服现有接触网缺陷记录由人工进行记录、统计、整合分类,存在准确度不高、文本信息利用率低、效率低下的问题,提供一种基于语义挖掘的接触网文本数据缺陷识别方法及设备,本方法针对接触网文本数据,设计相应的语义挖掘模型与缺陷分类模型,基于语义挖掘模型高效、准确地挖掘缺陷记录中包含的缺陷知识,同时配合缺陷分类模型自动识别缺陷的严重程度,从而为发现有价值的缺陷知识和缺陷严重程度识别提供强大可靠的信息基础,促进铁路接触网相关缺陷处理和维护监测技术的调整。

为了实现上述发明目的,本发明提供了以下技术方案:

一种基于语义挖掘的接触网文本数据缺陷识别方法,包括:

获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;

将预处理后的接触网文本数据输入至预先建立的文本挖掘-缺陷分类模型,利用所述预先建立的文本挖掘-缺陷分类模型生成接触网文本数据的缺陷类别;

其中,所述预先建立的文本挖掘-缺陷分类模型为:BERT-DTCN联合模型;其中。BERT子模型用于对预处理后的接触网文本数据进行语义挖掘,DTCN子模型用于对BERT子模型输出的语义挖掘文本进行缺陷分类。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述BERT子模型具有12层双向Transformer。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述DTCN子模型包括:嵌入层、等长卷积层、卷积堆叠层和全连接层。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述等长卷积层,包括:4层二维卷积核以及最大池化层;

所述二维卷积核之间采用Pre-activation残差连接。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述二维卷积核的核参数为3×1,stride为1,channel数为140。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述最大池化层的stride为2。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述卷积堆叠层,包括:1/2池化层,所述1/2池化层用于减少卷积计算量。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,通过以下方法预先建立所述文本挖掘-缺陷分类模型,包括:

建立初始BERT-DTCN联合模型;

从高速铁路供电段获取大量原始接触网缺陷文本数据,对所述原始接触网缺陷文本数据进行预处理,并基于规范文件对原始接触网缺陷文本数据进行缺陷文本标注与缺陷类别标注,得到训练样本数据集;

利用所述训练样本数据集对所述初始BERT-DTCN联合模型进行训练,以使所述初始BERT-DTCN联合模型满足条件收敛,得到所述文本挖掘-缺陷分类模型。

根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述对所述原始接触网文本数据进行预处理,包括:

删除所述原始接触网文本数据中的重复、错误及不完整数据,并将所述原始接触网文本数据进行词组向量表示。

本发明的另一方面,提供一种电子设备,包括处理器、网络接口和存储器,所述处理器、所述网络接口和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述基于语义挖掘的接触网文本数据缺陷识别方法。

与现有技术相比,本发明的有益效果:

本发明实施例所提供的方法,通过获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;利用预先建立的文本挖掘-缺陷分类模型对预处理后的接触网文本数据进行语义挖掘与缺陷分类,其中,所述预先建立的文本挖掘-缺陷分类模型为:BERT-DTCN联合模型;本方法针对接触网文本数据的文本特点,设计相应的语义挖掘-缺陷分类联合模型,基于BERT语义挖掘子模型高效、准确地挖掘缺陷记录中包含的缺陷知识,同时配合DTCN缺陷分类子模型确定缺陷严重程度识别,从而为发现有价值的缺陷知识和缺陷严重程度识别提供强大可靠的信息基础,促进缺陷处理和相关维护活动的调整。

附图说明

图1为本发明在一种实施例中的基于语义挖掘的接触网文本数据缺陷识别方法流程图;

图2为本发明在一种实施例中的BERT模型示意图;

图3为本发明在一种实施例中的BERT模型输入表示示意图;

图4为本发明在一种实施例中的Transformer编码器基本结构示意图;

图5为本发明在一种实施例中的注意力机制原理框图;

图6为本发明在一种实施例中的DTCN网络结构示意图;

图7为本发明在一种实施例中的原始缺陷文本示意图;

图8a为本发明在一种实施例中的BERT文本编码示意图;

图8b为本发明在一种实施例中的BERT Mask编码示意图;

图9为本发明在一种实施例中的经过Bert模型预训练学习后输出的词嵌入向量示意图;

图10为本发明在一种实施例中的Bert-DTCN模型输出的分类结果示意图;

图11为本发明在一种实施例中的电子设备结构框图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

图1示出了本发明示例性实施例的一种基于语义挖掘的接触网文本数据缺陷识别方法,包括:

获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;

将预处理后的接触网文本数据输入至预先建立的文本挖掘-缺陷分类模型,利用所述预先建立的文本挖掘-缺陷分类模型生成接触网文本数据的缺陷类别;

其中,所述预先建立的文本挖掘-缺陷分类模型为:BERT-DTCN联合模型;其中,BERT-DTCN联合模型包括:BERT子模型与DTCN子模型;BERT子模型用于对预处理后的接触网文本数据进行语义挖掘,DTCN子模型用于对BERT子模型输出的语义挖掘文本进行缺陷分类。

可以理解的是,文本表示是文本挖掘中一个重要的研究内容,其主要将文本中的单词或序列转换为机器可以识别和处理的表示。该技术可以分为离散表示和分布式表示。常见的离散表示模型有one-hotvector,bag ofwords,N-gran等,但是这些离散表示模型丢弃了单词之间的语义关系。近年来,词嵌入法发展迅速,该方法能够学习低维度连续的向量表示。常见的分布表示模型Skip-Gram,CBOW,Glove,ELMO,GPT等,这些方法忽略了单词间的距离,丢弃了上下文的信息,无法解决文本的多义性和复杂语法特征等难题,并且铁路接触网文本具有高复杂度、存在重复的特定描述词汇等特点;因此,本实施例中利用BERT获取具有丰富语义特征的词嵌入;BERT(Bidirectional Encoder Representations fromTransformers)是一种高性能语言表示模型;其通过预测屏蔽子词(先将句子中的部分子词屏蔽,再令模型去预测被屏蔽的子词)进行训练的这种方式在语句级的语义分析中取得了极好的效果。

文本分类是利用适当的分类器,包括基于规则的方法、机器学习或深度学习模型等,来挖掘关键特征并预测文本类别。一般来说,文本分类方法可以分为三个阶段。首先,基于规则的方法构造一组连接单词模式和类标签的.规则,然而整个过程消耗时间和人力,需要丰富的领域知识,为特定的领域任务创建一个巨大规则知识库是不可行的。其次,传统的机器学习方法包括朴素贝叶斯,决策树,SVM等,这些方法依赖于从预先标记的数据集学习分类特征。虽然基于机器学习的分类方法优于基于规则的分类方法,但它们需要从文本数据中提取分类特征。特征提取方法如潜在狄利克雷分(LDA),term frequency-inversedocument frequency(TF-IDF),X^2统计、互信息等,然而这些技术并没有考虑到单词在文本序列中的相互位置,相关结果具有误导性,特别是如果具有高度相似性的缺陷或故障文本。最后,随着深度神经网络的出现,深度学习技术由于其优异的性能而逐渐被应用于文本分类任务中,如CNN,recurrent neural network(RNN),recurrent convolutional neuralnetwork(RCNN),attention mechanism-basedbidirectional LSTM(Att-Bi-LSTM)等。但深度学习文本分类方法也依赖于对文本的语义特征提取,因此本发明实施例在利用BERT获取具有丰富语义特征的词嵌入表示基础上,提出了一种基于深层网络的文本分类模型-DTCN(deep text categorization network),该模型具有良好的分类效果。

本实施例中,针对接触网文本数据,设计特定的语义挖掘模型与缺陷分类联合模型,基于语义挖掘模型高效、准确地挖掘缺陷记录中包含的缺陷知识,同时配合缺陷分类模型确定缺陷严重程度识别,从而为发现有价值的缺陷知识和缺陷严重程度识别提供强大可靠的信息基础,促进缺陷处理和相关维护活动的调整。

实施例2

在一种可能的实现方式中,通过以下方法建立本发明实施例所提供的BERT-DTCN联合模型,包括:

步骤1:接触网缺陷文本数据获取及预处理

步骤1.1:从高速铁路供电段获取大量原始的接触网缺陷文本数据;

步骤1.2:对获取的原始接触网缺陷文本数据进行统计分析,包括数量、缺陷描述、缺陷等级等;

步骤1.3:对接触网缺陷描述展开深入分析,研究缺陷文本特点;

步骤1.4:对原始接触网缺陷文本数据进行预处理,包括删除重复、错误及不完整数据等;

步骤2:构建初始BERT-DTCN联合模型;

将预处理后的缺陷文本进行特殊符号[CLS]和[SEP]标注,并基于《高铁接触网运行维护导则》对缺陷文本进行缺陷类别标注;

步骤3:将处理后缺陷文本输入到BERT-DTCN联合模型中;首先由具有12层双向Transformer的BERT模型,进行训练学习;学习得到具有上下文语境信息的缺陷文本词嵌入表示,同时利用DTCN对缺陷文本的分类标签进行学习;在满足条件(达到最大迭代次数)收敛后,得到训练好的BERT-DTCN联合模型。其中,DTCN包括嵌入层、等长卷积层、卷积堆叠层和全连接层;嵌入层作用是利用一个卷积层将接触网缺陷文本词嵌入表示转换为一个低维向量;等长卷积是由4个卷积层和残差连接组成,通过等长卷积(即特征图大小固定)丰富语义表示,能够获取更长范围的语义信息,利用残差连接防止梯度密弥散问题;conv block层由1/2池化层和上述的等长卷积组成,利用1/2池化层减少计算量;通过全连接层将convblock的特征表示映射到样本标记空间,输出分类结果。

本实施例中,与离散表示方法得到的计数向量表示不同,采用预先训练好的BERT语义子模型来学习上下文词嵌入向量;在BERT语义子模型的基础上,配合高精度DTCN分类模型进行分类,该算法(BERT-DTCN)在二元分类问题(1级缺陷或2级缺陷)方面,具有更高的准确度和精度,减少了人工分类的工作量,提高了分类的准确性和效率;与其他深度学习方法相比,该算法(BERT-DTCN)可以捕获长范围的语义特征,并利用深层语义信息来区分缺陷等级。

在一种可能的实现方式中,上述基于语义挖掘的接触网文本数据缺陷识别方法,上述步骤1,具体包括:

从成都、兰州、衡水铁路局获取到2016年至2018年接触网缺陷记录,共计近45000条。

在对接触网缺陷文本进行详细分析后,发现与传统的中文文本相比,接触网缺陷文本具有以下特征:多样性、关联性、不确定性、多义性。

对接触网缺陷数据进行清洗后,整理出11106条接触网缺陷记录,并将缺陷文本数据集按比例划分为0.7(训练集)、0.15(验证集)和0.15(测试集)。

在一种可能的实现方式中,上述基于语义挖掘的接触网文本数据缺陷识别方法,上述BERT-DTCN联合模型中的BERT子模型结构图2所示,包括输入层、BERT编码层和输出层。

BERT输入层是对接触网缺陷文本进行处理,并添加特殊符号,构建BERT模型输入层,再输入到BERT编码层。BERT编码层的输入向量(如图3所示)是由初始的缺陷文本序列经过变换得到,其包含3个嵌入特征的单位和(词嵌入、句嵌入和位置嵌入),编码长度为512。

BERT编码层包含12个transformer,768个隐含层和12头注意力机制,最大缺陷文本长度为32,长截短补(补“0”)。Transformer编码的机构如图4所示,其将单个序列的词嵌入表示作为编码器的输入标记,并添加位置编码。注意力机制使Transformer在编码时捕获单词的上下文信息,计算每个单词和所有单词的加权值。然后得到每个词的特征向量,其中包含整个句子的信息。随后,将多头机构得到的多个特征向量拼接在一起,由全连接层降维。最后,通过前馈网络、两个残差连接层和一个归一化层输出具有上下文丰富语义信息的词嵌入向量。

注意力机制对输入向量进行线性变换,得到线性值,然后计算注意权值,如图5所示。注意力值的计算包括三个步骤:

1)利用transformer的输入向量创建Q,K,V向量,并将Q和K的每个元素相乘:

f(Q,K

2)将相乘的分数除以比例系数,并归一化处理:

3)与对应的V向量相乘得到最后结果:

BERT输出的结果为对应缺陷文本向量化表示,其大小为32×768。

(3)接触网缺陷文本分类

本发明构建了深度分类网络,即DTCN。DTCN是将获得的词嵌入向量化表示作为输入,将对应的接触网缺陷文本进行分类,进而识别出接触网缺陷的严重程度。DTCN网络结构如图6所示,其表明DTCN主要有三个特征,

嵌入层:使用嵌入层(二维卷积:核参数为3×768,stride为1,channel数为140),将30×768×1的词嵌入表示特征图转换为32×1×140的特征图,以便后续语义特征提取和挖掘。

特征数固定的下采样:由于特征数的增加并不能有效提高分类精度,只能增加计算时间,因此DTCN采用等长卷积(4层二维卷积:核参数为3×1,stride为1,channel数为140)来丰富语义信息表达。在等长卷积之后,并利用stride=2的max-pooling来减少计算时间和提升卷积核的覆盖范围,更有利于长范围的语义信息提取。

Pre-activation的残差连接:z+f(z),f代表跳过的Pre-activation卷积层。Pre-activation代表在赋权重之前完成激活,即Wσ(x)+b。该方法能有效防止梯度弥散问题,便于DTCN训练。具体的,通过BERT生成词嵌入缺陷文本向量后,利用DTCN进行分类,DTCN分类的依据是通过BERT挖掘得到的“缺陷文本的文字描述”来确定缺陷类别,其中,分类标准是基于《高铁接触网运行维护导则》来建立的;利用《高铁接触网运行维护导则》对缺陷描述贴上类别标签,在进行缺陷类别进行分类前,我们建立由“缺陷文本描述+缺陷类别”构成的标签样本,以便进行BERT-DTCN的训练和测试。

在本发明进一步的实施例中,以图7所示的原始数据为例,相应的BERT编码(包含文本编码和mask编码)如图8所示,将向量化编码输入至训练好的BERT-DTCN联合模型中,得到如图9所示的BERT模型词嵌入向量,与如图10所示的分类结果。

在本发明进一步的实施例中,将本发明实施例所提供的BERT-DTCN模型与现有模型进行对比实验,以证明本发明所提供的BERT-DTCN模型的性能优越性,其中,本次试验是由Pytorch编程完成,电脑配置为1080Ti显卡,Intel Xeon E5 v3,32G内存。

采用准确率为主要评价指标,查准率、查全率和F值作为次要评价指标。

基准方法采用CNN、RNN、RCNN、FastText、Att-Bi-LSTM、Transformer等深度学习方法进行对比。

对比结果如表1所示:

从上述对比试验结果可知,BERT-DTCN模型在接触网缺陷等级分类中,各项评价指标都取得最好效果,验证了本发明实施例所提供的BERT-DTCN模型有效性。综上,本发明实施例采用网络深化策略的BERT-DTCN能够捕获全局信息,实现较优的性能。

实施例3

在本发明的另一方面,如图11所示,还提供一种电子设备,包括处理器、网络接口和存储器,所述处理器、所述网络接口和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述基于语义挖掘的接触网文本数据缺陷识别方法。

在本发明的实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。

本发明的另一方面,还提供一种计算机存储介质,所述计算机存储介质中存储有程序指令,所述程序指令被至少一个处理器执行时,用于实现上述一种基于语义挖掘的接触网文本数据缺陷识别方法。

在一中可能的实现方式中,上述存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。

其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

应该理解到,本发明所揭露的系统,可通过其它的方式实现。例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,模块之间的通信连接可以是通过一些接口,服务器或单元的间接耦合或通信连接,可以是电性或其它的形式。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术分类

06120115938115