导航：首页> 乐器；声学>一种纠正语音识别中多音字的方法、装置、电子设备和存储介质

一种纠正语音识别中多音字的方法、装置、电子设备和存储介质

文献发布时间：2024-04-18 19:53:33

技术领域

本发明涉及语音识别领域，提供一种纠正语音识别中多音字的方法、装置、电子设备和存储介质。

背景技术

随着技术的发展，自动语音识别技术(ASR)已经广泛应用到了车机中，使得驾驶员和乘客通过语音即可实现车机的相关功能，而无需在车机面板上进行操作，提高了便利性和行车安全性。

目前，在车机ASR识别中文内容时，由于中文有很多多音字，不同的多音字用法不同，词性也往往不同，在不同场景里，需要识别出不同的字，然而现有的车机ASR在语音识别时无法分辨。

发明内容

本发明实施例提供一种纠正语音识别中多音字的方法、装置、电子设备和存储介质，以对语音识别中的错误多音字进行纠正，解决车机语音识别中无法准确识别多音字的问题。

为了解决上述问题，第一方面，本发明实施例公开了一种纠正语音识别中多音字的方法，包括：

获取自动语音识别得到的第一文本；

若所述第一文本中含有错误多音字和辅助关键词，则根据所述第一文本中的辅助关键词判断所述第一文本中的错误多音字是否需要替换，若是，则用与所述错误多音字对应的正确多音字替换所述第一文本中的错误多音字，得到第二文本。

可选的，每个所述辅助关键词都设置了对应的类，当所述第一文本中的错误多音字属于所述第一文本中的辅助关键词对应的类时，确定所述第一文本中的错误多音字需要替换。

可选的，所述方法还包括：

根据所述第一文本中的辅助关键词对应的类，确定所述第一文本中的错误多音字对应的正确多音字。

可选的，所述错误多音字、所述辅助关键词以及所述错误多音字对应的正确多音字都是预先定制的，保存在配置库中并且可以更新。

可选的，所述方法还包括配置式，所述配置式为：以等号和大于号为分隔符，等号前面是所述第一文本中的一个错误多音字，所述等号和所述大于号中间是所述辅助判断词，所述大于号后面是所述等号前面的错误多音字对应的正确多音字。

可选的，所述方法还包括：

将所述第二文本发送给车机系统，以供所述车机系统执行与所述第二文本对应的任务以及显示所述第二文本。

第二方面，本发明实施例还包括一种纠正语音识别中多音字的装置，包括：

数据获取模块，用于获取自动语音识别得到的第一文本；

数据处理模块，用于对所述第一文本进行处理，包括：若所述第一文本中含有错误多音字和辅助关键词，则根据所述第一文本中的辅助关键词判断所述第一文本中的错误多音字是否需要替换，若是，则用与所述错误多音字对应的正确多音字替换所述第一文本中的错误多音字，得到第二文本。

可选的，所述错误多音字、所述辅助关键词以及所述错误多音字对应的正确多音字都是预先定制的，保存在配置库中并且可以更新。

第三方面，本发明实施例还公开了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上所述的纠正语音识别中多音字的方法。

第四方面，本发明还公开了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的纠正语音识别中多音字的测方法。

本发明实施例包括以下优点：

本发明实施例通过获取自动语音识别得到的第一文本，并根据所述第一文本中的辅助关键词判断所述第一文本中的错误多音字是否需要替换，若是，则用与所述错误多音字对应的正确多音字替换所述第一文本中的错误多音字，得到第二文本，即纠正错误多音字之后的文本，实现了车机自动语音识别中对错误多音字的纠正，极大地提高了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一个实施方式提供的纠正语音识别中多音字的方法流程图一；

图2是本发明的一个实施方式提供的纠正语音识别中多音字的方法流程图二；

图3是本发明的另一个实施方式提供的纠正语音识别中多音字的装置示意图；

图4是本发明的再一个实施方式提供的纠正语音识别中多音字的系统示意图；

图5是本发明的再一个实施方式提供的电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的一个实施方式涉及一种纠正语音识别中多音字的方法，应用在车机中，其流程如图1所示，包括：

步骤110，获取自动语音识别得到的第一文本。

在本实施方式中，第一文本是经过车机自动语音识别得到的初始文本，其中可能包含有错误多音字。示例地，当用户说出“我想听杨宗纬的歌”时，经过车机自动语音识别可能识别为“我想听杨宗伟的歌”，此时该文本为第一文本。第一文本仅作为初始文本，不会立即生效，也不会在车机的显示装置上进行显示，而是等待下一步处理。

步骤120，若第一文本中含有错误多音字和辅助关键词，则根据第一文本中的辅助关键词判断第一文本中的错误多音字是否需要替换，若是，则用与错误多音字对应的正确多音字替换第一文本中的错误多音字，得到第二文本。

在本实施方式中，当获取第一文本后，立即对第一文本进行处理。首先判断第一文本中是否含有错误多音字和辅助关键词，示例地，第一文本为“我想听杨宗伟的歌”，此时可以检测到“我要听”和“歌”两个辅助关键词，以及错误多音字“杨宗伟”中的“伟”。然后根据检测到的辅助关键词判断第一文本中的错误多音字是否需要替换，示例地，通过“我要听”和“歌”两个辅助关键词可以确定第一文本中的“伟”字不符合当前场景，应当替换为“纬”。最后，根据对错误多音字的判断结果，将第一文本中的“伟”替换为“纬”，得到第二文本，即纠正多音字之后的文本，其内容为“我想听杨宗纬的歌”。此时，第二文本作为处理后的文本，可以用于执行相应的功能，并在车机显示装置中进行显示。

本发明实施方式通过获取车机自动语音识别得到的第一文本，并根据第一文本中的辅助关键词进行判断，若第一文本中的错误多音字需要替换，则用与错误多音字对应的正确多音字替换第一文本中的错误多音字，得到第二文本，即纠正错误多音字之后的文本，实现了车机自动语音识别中对错误多音字的纠正，极大地提高了用户体验。

进一步地，如图2所示，步骤120还可以包括：

步骤121，当第一文本中的错误多音字属于第一文本中的辅助关键词对应的类时，确定所述第一文本中的错误多音字需要替换。

在本实施方式中，可以预先为辅助关键词设定一个对应的类，用于判断语音识别出来的文本的应用场景，从而判断文本中的多音字是否需要替换以及需要替换的结果。示例地，第一文本为“我要听杨宗伟的歌”，此时，检测到辅助关键词“我要听”和“的歌”，因为这两个关键词都与歌曲有关，因此，可以在预先定义关键词时，将这两个关键词设定为歌曲类，使得在检测到这两个关键词时，判断当前场景为歌曲。而由于“杨宗伟”属于预先定义的错误多音字，并且属于歌曲类，此时可以确定第一文本中的“杨宗伟”是不符合当前应用场景的，需要被替换。

在本实施方式中，通过设置辅助关键词和错误多音字对应的类，可以在检测到辅助关键词和错误多音字时，根据其对应的类判断出应用场景，进而判断错误多音字是否需要替换，以及在错误多音字需要替换时确定出其对应的正确多音字。并且，通过设置辅助关键词和错误多音字对应的类，使得相同应用场景的不同辅助关键词或错误多音字对应到同一个类中，在判断时可以根据这个类进行判断而不是根据每个辅助关键词或错误多音字本身单独判断，简化了判断逻辑，提高了预定义辅助关键词、错误多音字以及正确多音字的效率，还可以方便后期的修改。

步骤122，根据所述第一文本中的辅助关键词对应的类，确定所述第一文本中的错误多音字对应的正确多音字。

在本实施方式中，错误多音字和正确多音字与辅助关键词对应的类有关。示例地，第一文本为“我要听杨宗伟的歌”，识别出辅助关键词为“我要听”和“的歌”，其对应的类为歌曲类，而第一文本中的错误多音字“杨宗伟”属于歌曲类，因此，从歌曲的场景出发，用户想表达的真实含义为“杨宗纬”而不是“杨宗伟”，从而将第一文本中的“杨宗伟”替换为“杨宗纬”，得到第二文本，即“我要听杨宗纬的歌”。在本实施方式中，通过根据辅助关键词对应的类进行判断而不是辅助关键词本身单独判断，可以简化判断逻辑并提高开发效率。

可选的，在本发明实施例中，错误多音字、辅助关键词以及错误多音字对应的正确多音字都是预先定制的，保存在配置库中并且可以更新。

具体地，本发明实施例可以预先定制错误多音字、辅助关键词以及错误多音字对应的正确多音字，用于判断车机自动语音识别得到的第一文本中是否有需要替换的错误多音字，以及在需要替换时将错误多音字进行替换。另外，错误多音字、辅助关键词以及错误多音字对应的正确多音字都保存在配置库中。在实际应用中，配置库可以存储在车机和服务器，并且可以通过车机联网对配置库进行更新，或者通过连接U盘更新，本发明实施例对此不做具体限定。另外，本发明实施例也可以通过对车机系统的操作，实现对错误多音字、辅助关键词以及错误多音字对应的正确多音字进行添加、删除或修改，还可以设置辅助关键词和错误多音字的类别，在所述类别中更改辅助关键词、错误多音字以及正确多音字，具体应用方法参见本申请对步骤121和步骤122的说明，此处不做详细赘述。

在本实施方式中，将错误多音字、辅助关键词以及错误多音字对应的正确多音字保存在配置库中，配置库可以更新，保证了数据的时效性，并且方便更改。

可选的，在本发明实施例中，还包括配置式，所述配置式为：以等号和大于号为分隔符，等号前面是所述第一文本中的一个错误多音字，所述等号和所述大于号中间是所述辅助判断词，所述大于号后面是所述等号前面的错误多音字对应的正确多音字。

示例地，经过车机自动语音识别后，得到的第一文本为“我想听周身的歌”，此时检测到错误多音字“周身”以及辅助关键词“我想听”和“的歌”，则配置式为：周身＝我想听|的歌>周深。在具体执行程序时，可以在这个配置式的基础上运行。根据“＝”和“>”之间的辅助关键词“我想听”和“的歌”判断出“周身”应更改为“周深”。在对错误多音字进行纠正后，最后上屏的内容为“我想听周深的歌”。通过本实施方式提供的配置式，可以将本申请的方法具体应用在计算机程序中，并且本配置式简单明了，在简化开发逻辑的同时方便后期测试。

本发明的另一个实施方式涉及一种纠正语音识别中多音字的装置，应用在车机中，如图3所示，包括：

数据获取模块201，用于获取自动语音识别得到的第一文本；

数据处理模块202，用于对第一文本进行处理，包括：若第一文本中含有错误多音字和辅助关键词，则根据第一文本中的辅助关键词判断第一文本中的错误多音字是否需要替换，若是，则用与错误多音字对应的正确多音字替换第一文本中的错误多音字，得到第二文本。

可选的，在本实施方式中，每个所述辅助关键词对应于一个或多个类，当所述第一文本中的错误多音字属于所述第一文本中的辅助关键词对应的类时，则确定所述第一文本中的错误多音字需要替换。

可选的，在本实施方式中，数据处理模块202还用于：

根据所述第一文本中的辅助关键词对应的类，确定所述第一文本中的错误多音字对应的正确多音字。

可选的，在本实施方式中，所述错误多音字、所述辅助关键词以及所述错误多音字对应的正确多音字都是预先定制的，保存在配置库中并且可以更新。

可选的，在本实施方式中，还包括配置式，所述配置式为：以等号和大于号为分隔符，等号前面是所述第一文本中的一个错误多音字，所述等号和所述大于号中间是所述辅助判断词，所述大于号后面是所述等号前面的错误多音字对应的正确多音字。

需要说明的是，本实施方式的具体应用方法可以参见本发明对纠正语音识别中多音字的方法的描述，此处不再赘述。

在本实施方式中，数据获取模块获取车机自动语音识别得到的第一文本，数据处理模块根据第一文本中的辅助关键词进行判断，若第一文本中的错误多音字需要替换，则用与错误多音字对应的正确多音字替换第一文本中的错误多音字，得到第二文本，即纠正错误多音字之后的文本，实现了车机自动语音识别中对错误多音字的纠正，极大地提高了用户体验。

本发明的另一个实施方式涉及一种纠正语音识别中多音字的系统，应用在车机中，如图4所示，包括：

语音识别装置301，用于自动对语音进行识别得到第一文本。

数据处理装置302，用于对第一文本进行处理，包括：若第一文本中含有错误多音字和辅助关键词，则根据第一文本中的辅助关键词判断第一文本中的错误多音字是否需要替换，若是，则用与错误多音字对应的正确多音字替换第一文本中的错误多音字，得到第二文本。

显示装置303，用于显示第二文本。

具体地，语音识别得到的第一文本仅用于系统内部处理，不会在显示装置中显示，对第一文本处理后得到的第二文本才在显示装置中显示，使得错误多音字不会上屏，提高了用户体验。

需要说明的是，本实施方式的具体应用方法可以参见本发明对纠正语音识别中多音字的方法的描述，此处不再赘述。

本发明的再一个实施方式涉及一种电子设备，如图5所示，包括：

至少一个处理器401；以及，

与所述至少一个处理器401通信连接的存储器402；其中，

所述存储器402存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器401执行，以使所述至少一个处理器301能够执行本发明的一个实施方式所述的纠正语音识别中多音字的方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据可以有线介质进行传输或者通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明的再一个实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种纠正语音识别中多音字的方法、装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载