一种车辆故障码的比对方法、装置、设备及存储介质

文献发布时间：2024-04-18 20:00:50

技术领域

本申请涉及计算机技术领域，尤其涉及一种车辆故障码的比对方法、装置、设备及存储介质。

背景技术

车辆故障码是一种基于车辆的故障本身的设备和状态的描述。例如，“蓄电池电源电压过低”。由于车辆故障码描述为自然语言描述，针对同一条故障码，编写人员需要确认故障描述库中是否已有类似的故障码，需要编写人员针对故障码的描述进行比对。

由于故障码很多，人工比对费时费力，因此通过文本相似度评价模型，来对不同的车辆故障码的描述进行评价。例如，针对以下三个故障码“蓄电池电源电压过低”、“电池电压低”、“蓄电池电源电压过高”，通过传统的文本相似度模型评价三者的相似度都很高，甚至会得出“蓄电池电源电压过低”与“蓄电池电源电压过高”的相似度更高的结果。

但是，“蓄电池电源电压过低”与“蓄电池电源电压过高”是完全不同的故障码描述。可见传统的文本相似度评价模型失效，准确度较差。

发明内容

本申请提供一种车辆故障码的比对方法、装置、设备及存储介质，能够提高车辆故障码比对的准确度。

为达到上述目的，本申请采用如下技术方案：

第一方面，一种车辆故障码的比对方法，包括：

获取对车辆的第一故障码描述的第一文本，以及对第二故障码描述的第二文本；

将所述第一文本转换为第一句向量，将所述第二文本转换为第二句向量，以及从所述第一文本中提取第一设备关键词和第一状态关键词，以及从所述第二文本中提取第二设备关键词和第二状态关键词；

基于所述第一句向量和所述第二句向量，计算第一子相似度；以及基于所述第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度；

基于所述第一子相似度和所述第二子相似度，确定所述第一文本与第二文本的语义相似度；

根据所述语义相似度与相似度阈值，得到针对所述第一文本和所述第二文本的比对结果。

在一些可能的实现方式中，所述基于所述第一句向量和所述第二句向量，计算第一子相似度，包括：

其中，

在一些可能的实现方式中，所述基于所述第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度，包括：

其中，

在一些可能的实现方式中，所述基于所述第一子相似度和所述第二子相似度，确定所述第一文本与第二文本的语义相似度，包括：

其中，

在一些可能的实现方式中，所述方法还包括：

在所述比对结果表征所述第一文本与所述第二文本的语义相同的情况下，生成第一提示信息，所述第一提示信息用于提示用户从所述第一文本和所述第二文本中选出目标文本，以作为描述所述第一故障码和所述第二故障码的文本。

在一些可能的实现方式中，所述方法还包括：

在所述比对结果表征所述第一文本与所述第二文本的语义相同的情况下，获取所述第一文本与所述第二文本的字符长度；

确定字符长度最小的文本为目标文本，将所述目标文本作为描述所述第一故障码和所述第二故障码的文本。

在一些可能的实现方式中，所述方法还包括：

获取针对所述目标文本的易理解程度的评分结果；

如果所述评分结果表征所述目标文本的分数低于预设分数阈值，则生成第二提示信息，所述第二提示信息用于提示用户对所述目标文本进行更换。

第二方面，本申请提供了一种车辆故障码的比对装置，包括：

获取模块，用于获取对车辆的第一故障码描述的第一文本，以及对第二故障码描述的第二文本；

转换模块，用于将所述第一文本转换为第一句向量，将所述第二文本转换为第二句向量；

提取模块，用于从所述第一文本中提取第一设备关键词和第一状态关键词，以及从所述第二文本中提取第二设备关键词和第二状态关键词；

计算模块，用于基于所述第一句向量和所述第二句向量，计算第一子相似度；以及基于所述第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度；基于所述第一子相似度和所述第二子相似度，确定所述第一文本与第二文本的语义相似度；

比对模块，用于根据所述语义相似度与相似度阈值，得到针对所述第一文本和所述第二文本的比对结果。

在一些可能的实现方式中，所述计算模块，具体用于通过以下公式计算第一子相似度：

其中，

在一些可能的实现方式中，所述计算模块，具体用于通过以下公式计算第二子相似度：

其中，

在一些可能的实现方式中，所述计算模块，具体用于通过以下公式计算语义相似度：

其中，

在一些可能的实现方式中，所述装置还包括：提示模块；

所述提示模块，用于在所述比对结果表征所述第一文本与所述第二文本的语义相同的情况下，生成第一提示信息，所述第一提示信息用于提示用户从所述第一文本和所述第二文本中选出目标文本，以作为描述所述第一故障码和所述第二故障码的文本。

在一些可能的实现方式中，所述装置还包括：确定模块；

所述获取模块，还用于在所述比对结果表征所述第一文本与所述第二文本的语义相同的情况下，获取所述第一文本与所述第二文本的字符长度；

所述确定模块，用于确定字符长度最小的文本为目标文本，将所述目标文本作为描述所述第一故障码和所述第二故障码的文本。

在一些可能的实现方式中，所述装置还包括：提示模块；

所述获取模块，还用于获取针对所述目标文本的易理解程度的评分结果；

所述提示模块，用于如果所述评分结果表征所述目标文本的分数低于预设分数阈值，则生成第二提示信息，所述第二提示信息用于提示用户对所述目标文本进行更换。

第三方面，本申请提供了一种计算设备，包括存储器和处理器；

其中，在所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令；当所述指令被所述处理器执行时，使得所述计算设备执行如第一方面中任一项所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行如第一方面中任一项所述的方法。

由上述技术方案可知，本申请至少具有如下有益效果：

本申请提供了一种车辆故障码的对比方法，该方法包括获取对车辆的第一故障码描述的第一文本以及对第二故障码描述的第二文本，将第一文本转换为第一句向量，将第二文本转换为第二句向量，以及从第一文本中提取第一设备关键词和第一状态关键词，以及从第二文本中提取第二设备关键词和第二状态关键词。接着，基于第一句向量和第二句向量计算第一子相似度，来评价第一文本和第二文本的字词相似程度。由于故障码由设备和状态组成，例如“蓄电池电压过高”中的“蓄电池”为设备、“电压过高”为状态。基于所述第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度，来评价第一文本和第二文本的表达相似程度。然后再基于第一子相似度和第二子相似度确定第一文本和第二文本的语义相似度，再基于语义相似度和相似度阈值，得到针对第一文本和第二文本的比对结果。在比对车辆故障码的场景下，该方法提高了比对结果的准确度。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此，本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而，还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解，无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中，还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

附图说明

图1为本申请实施例提供的一种车辆故障码的比对方法流程图；

图2为本申请实施例提供的一种模型结构的示意图；

图3为本申请实施例提供的一种车辆故障码的比对装置示意图；

图4为本申请实施例提供的一种计算设备的示意图。

具体实施方式

本申请说明书和附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

预训练语言模型（Pretrained Language Model，PLM）是根据上文内容预测下一个可能跟随的单词。传统的词向量方法中只使用预训练好的静态文本表示，初始化下游任务模型的第一层，而下游任务模型的其余网络结构仍然需要从头开始训练。这是一种以效率优先而牺牲表达力的浅层方法，无法捕捉到更有用的深层信息。预训练语言模型是预训练一个多层网络结构，用以初始化下游任务模型的多层网络结构，可以同时学到浅层信息和深层信息。预训练语言模型是一种动态的文本表示方法，会根据当前上下文对文本表征进行动态调整，经过调整后的文本表征更能表达词语在该上下文中的具体含义，能有效处理一词多义的问题。常见的预训练语言模型如BERT，基于Transformer的双向预训练语言模型，通过掩码语言模型任务这个特别的预训练方式达到了真双向语言模型的效果。能够同时利用上文和下文，所以信息利用更加充分。

文本匹配任务是自然语言处理（Natural Language Processing，NLP）的基础任务之一，给定一个源文本和一些候选的文本，从候选文本中找出与源文本最匹配的文本。

在车辆故障码的应用场景中，由于车辆故障码较多，例如“蓄电池电源电压过低”、“电池电压低”、“蓄电池电源电压过高”，通过传统的文本相似度模型评价三者的相似度均较高，甚至会得出“蓄电池电源电压过低”与“蓄电池电源电压过高”的相似度更高的结果。

但是，“蓄电池电源电压过低”与“蓄电池电源电压过高”是完全不同的故障码描述。可见传统的文本相似度评价模型失效，准确度较差。

有鉴于此，本申请实施例提供了一种车辆故障码的比对方法，该方法可以由电子设备执行，例如可以是计算机，手机等设备，或者是车辆诊断设备等。该方法包括：

获取对车辆的第一故障码描述的第一文本，以及对第二故障码描述的第二文本；将第一文本转换为第一句向量，将第二文本转换为第二句向量，以及从第一文本中提取第一设备关键词和第一状态关键词，以及从第二文本中提取第二设备关键词和第二状态关键词；然后基于第一句向量和第二句向量，计算第一子相似度，以及基于第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度；再基于第一子相似度和第二子相似度，确定第一文本与第二文本的语义相似度，最后根据语义相似度与相似度阈值，得到第一文本和第二文本的比对结果。

该方法评价第一文本和第二文本的表达相似度以及第一文本和第二文本的字词相似度，再基于表达相似度和字词相似度确定语义相似度，与单纯的比对字符相比，在比对车辆故障码的场景下，该方法能够提高比对结果的准确度。

为了使得本申请的技术方案更加清楚、易于理解，下面结合附图对本申请提供的车辆故障码的比对方法进行介绍。如图1所示，该图为本申请实施例提供的一种车辆故障码的比对方法流程图，该方法包括：

S101、获取对车辆的第一故障码描述的第一文本，以及对第二故障码描述的第二文本。

第一故障码可以是指对车辆的故障的一种描述，第一文本则是描述该故障的文本，例如，第一文本可以是“蓄电池电源电压过低”。类似的第二故障码也是指对车辆的故障的一种描述，第二文本可以是“蓄电池电压过高”。

在一些示例中，可以从故障码数据库中获取上述待比对的第一文本和第二文本。本申请实施例不具体限定获取第一文本和第二文本的方式，本领域技术人员可以基于实际需要选择获取第一文本和第二文本的方式。

S102、将第一文本转换为第一句向量，将第二文本转换为第二句向量，以及从第一文本中提取第一设备关键词和第一状态关键词，以及从第二文本中提取第二设备关键词和第二状态关键词。

第一句向量为第一文本所对应的向量，第二句向量为第二文本所对应的向量。以transformer结构的典型模型BERT为例，如图2所示，该图为本申请实施例提供的一种模型结构的示意图。图中“pooling_A”和“pooling_B”为池化层，“CONV_A”和“CONV_B”为卷积层。

针对第一文本

第一设备关键词是指第一文本中所包含的设备的描述的词语，例如上述第一文本的第一设备关键词可以是“蓄电池”。类似的，第二设备关键词是指第二文本中所包含的设备的描述的词语，例如上述第二文本的第二设备关键词可以是“蓄电池”。

在一些实施例中，先通过分词工具实现关键词的切分，例如，针对文本“蓄电池电源电压过低”，通过分词工具可被切分为[‘蓄电池’，‘电源’，‘电压’，‘过低’]。将切分结果记为

通过第一文本的切分结果

然后通过卷积神经网络过滤文本内容。例如，分别构建卷积核为1、2、3的三个1D卷积神经网络，两组分别对应设备、状态的过滤。针对其中一组，卷积层分别记为

其中，

由此，我们可以获取两个词向量，分别对应的是设备、状态。我们选取概率最大位置的向量作为此步骤的输出，记为

在另一些实施例中，也可以预先对设备关键词和状态关键词进行定义，从而，在提取设备关键词和状态关键词过程中，可以先从文本中对预先定义的设备关键词和状态关键词进行匹配，从而提高关键词的提取效率。

S103、基于第一句向量和第二句向量，计算第一子相似度，以及基于第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度。

在得到第一句向量和第二句向量后，可以通过如下公式计算第一子相似度：

其中，

可以看到，由于该方案通过使用池化句信息的提取方式，因此整个文档的相似度必然依靠文本中出现的主要词汇，没有关注到关键信息，容易造成误判。如果单纯的通过第一子相似度进行语义判断，会产生较大的误差。

在得到第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词后，可以通过以下公式计算第二子相似度：

其中，

S104、基于第一子相似度和第二子相似度，确定第一文本与第二文本的语义相似度。

在计算得到第一子相似度和第二子相似度后，可以通过以下公式计算第一文本和第二文本的语义相似度：

其中，

S105、根据语义相似度与相似度阈值，得到针对第一文本和第二文本的比对结果。

在一些示例中，相似度阈值可以是0.8，也可以是其他数值。在计算得到语义相似度大于或等于相似度阈值的情况下，确定第一文本和第二文本的比对结果为语义相同；在计算得到语义相似度小于相似度阈值的情况下，确定第一文本和第二文本的比对结果为语义不同。

在一些实施例中，在比对结果表征第一文本与第二文本的语义相同的情况下，生成第一提示信息，第一提示信息用于提示用户从第一文本和第二文本中选出目标文本，以作为描述第一故障码和第二故障码的文本。也就是说，第一文本和第二文本的语义相同，选择其中的一个来描述故障即可。进而可以删除冗余的文本，从而减少内存占用，提高存储能力。

在一些实施例中，在比对结果表征第一文本与第二文本的语义相同的情况下，获取第一文本与第二文本的字符长度。然后从第一文本和第二文本中选择字符长度最小的文本作为目标文本，将该目标文本作为描述第一故障码和第二故障码的文本。由于目标文本的字符长度较短，在出现该故障码后，用户能够快速得知当前故障内容。

在一些实施例中，还可以获取针对目标文本的易理解程度的评分结果，如果该评分结果表征目标文本的分数低于预设分数阈值，则生成第二提示信息，该第二提示信息用于提示用户对目标文本进行更换。在目标文本的分数低于预设分数阈值的情况下，代表该目标文本不容易理解，从而需要对该目标文本进行更换。

基于上述内容，本申请实施例提供了一种车辆故障码的比对方法，该方法包括获取对车辆的第一故障码描述的第一文本以及对第二故障码描述的第二文本，将第一文本转换为第一句向量，将第二文本转换为第二句向量，以及从第一文本中提取第一设备关键词和第一状态关键词，以及从第二文本中提取第二设备关键词和第二状态关键词。接着，基于第一句向量和第二句向量计算第一子相似度，来评价第一文本和第二文本的字词相似程度。由于故障码由设备和状态组成，例如“蓄电池电压过高”中的“蓄电池”为设备、“电压过高”为状态。基于所述第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度，来评价第一文本和第二文本的表达相似程度。然后再基于第一子相似度和第二子相似确定第一文本和第二文本的语义相似度，再基于语义相似度和相似度阈值，得到针对第一文本和第二文本的比对结果。在比对车辆故障码的场景下，该方法提高了比对结果的准确度。

上文结合图1至图2对本申请实施例提供的车辆故障码的比对方法进行了详细介绍，下面将结合附图对本申请实施例提供的装置、设备进行介绍。

如图3所示，该图为本申请实施例提供的一种车辆故障码的比对装置示意图，该装置包括：

获取模块301，用于获取对车辆的第一故障码描述的第一文本，以及对第二故障码描述的第二文本；

转换模块302，用于将所述第一文本转换为第一句向量，将所述第二文本转换为第二句向量；

提取模块303，用于从所述第一文本中提取第一设备关键词和第一状态关键词，以及从所述第二文本中提取第二设备关键词和第二状态关键词；

计算模块304，用于基于所述第一句向量和所述第二句向量，计算第一子相似度；以及基于所述第一设备关键词、第一状态关键词、第二设备关键词、第二状态关键词，计算第二子相似度；基于所述第一子相似度和所述第二子相似度，确定所述第一文本与第二文本的语义相似度；

比对模块305，用于根据所述语义相似度与相似度阈值，得到针对所述第一文本和所述第二文本的比对结果。

在一些可能的实现方式中，所述计算模块304，具体用于通过以下公式计算第一子相似度：

其中，

在一些可能的实现方式中，所述计算模块304，具体用于通过以下公式计算第二子相似度：

其中，

在一些可能的实现方式中，所述计算模块304，具体用于通过以下公式计算语义相似度：

其中，

在一些可能的实现方式中，所述装置还包括：提示模块；

在一些可能的实现方式中，所述装置还包括：确定模块；

所述获取模块301，还用于在所述比对结果表征所述第一文本与所述第二文本的语义相同的情况下，获取所述第一文本与所述第二文本的字符长度；

所述确定模块，用于确定字符长度最小的文本为目标文本，将所述目标文本作为描述所述第一故障码和所述第二故障码的文本。

在一些可能的实现方式中，所述装置还包括：提示模块；

所述获取模块301，还用于获取针对所述目标文本的易理解程度的评分结果；

根据本申请实施例的车辆故障码的比对装置可对应于执行本申请实施例中描述的方法，并且车辆故障码的比对装置的各个模块/单元的上述其它操作和/或功能分别为了实现图1所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算设备。该计算设备用于实现如图3所示实施例中车辆故障码的比对装置的功能。如图4所示，该图为本申请实施例提供的一种计算设备400的示意图，如图4所示，该计算设备400包括总线401、处理器402、通信接口403和存储器404。处理器402、存储器404和通信接口403之间通过总线401通信。

总线401可以是外设部件互连标准（peripheral component interconnect，PCI）总线或扩展工业标准结构（extended industry standard architecture，EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器402可以为中央处理器(central processing unit，CPU)、图形处理器（graphics processing unit，GPU）、微处理器（micro processor，MP）或者数字信号处理器（digital signal processor，DSP）等处理器中的任意一种或多种。

通信接口403用于和外部通信。例如，通信接口403可以用于和外部设备通信，从而获取第一文本和第二文本。

存储器404可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器404还可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘驱动器（hard diskdrive， HDD）或固态驱动器（solid state drive，SSD）。

存储器404中存储有可执行代码，处理器402执行该可执行代码以执行前述车辆故障码的比对方法。

具体地，在实现图3所示实施例的情况下，且图3实施例中所描述的车辆故障码的比对装置的各模块或单元为通过软件实现的情况下，执行图3中的各模块/单元功能所需的软件或程序代码可以部分或全部存储在存储器404中。处理器402执行存储器404中存储的各单元对应的程序代码，执行前述车辆故障码的比对方法。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质（例如软盘、硬盘、磁带）、光介质（例如DVD）、或者半导体介质（例如固态硬盘）等。该计算机可读存储介质包括指令，所述指令指示计算设备执行上述应用于车辆故障码的比对装置的车辆故障码的比对方法。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。

所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述车辆故障码的比对方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述车辆故障码的比对方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中汽信息科技(天津)有限公司;

上一篇：一种机房自动巡检清扫装置及机房自动巡检清扫系统
下一篇：基于随钻参数与波速信息融合的围岩级别判识方法及系统