基于语义的语音断句方法、系统、终端及存储介质

文献发布时间：2024-04-29 00:47:01

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于语义的语音断句方法、系统、终端及存储介质。

背景技术

断句对于正确解析用户语音的语义非常重要，比如，“抱歉，没有找到可以播放的歌曲”的用户语音，可以明显的看到在不同的汉字之间存在一段间隔时间段，不同的断句方式，可能导致断句后的语义存在差异，因此，针对用户语音断句准确性的问题越来越受人们所重视。

现有的语音断句过程中，一般基于声音信号的声音强度、静默周期或固定时间间隔的方式进行语音断句，导致断句后语音的语义不连贯，降低了用户的使用体验。

发明内容

本发明实施例的目的在于提供一种基于语义的语音断句方法、系统、终端及存储介质，旨在解决现有的语音断句过程中，断句后语义不连贯的问题。

本发明实施例是这样实现的，一种基于语义的语音断句方法，所述方法包括：

获取用户语音，并对所述用户语音进行语音端点检测；

根据所述语音端点检测结果对所述用户语音进行断句，得到断句语音，并依序对各断句语音进行语义完整度检测；

若任一所述断句语音的语义完整度检测未合格，则对所述断句语音进行语音拼接，得到拼接语音，并对所述拼接语音进行语义完整度检测，所述语音拼接用于将未合格的所述断句语音与相邻的断句语音进行拼接；

若所述拼接语音的语义完整度检测未合格，则对所述拼接语音进行语音拼接，并返回执行对所述拼接语音进行语义完整度检测的步骤；

若所述拼接语音的语义完整度检测合格，则根据所述拼接语音对所述用户语音进行语音断句，并根据语音断句结果进行语音交互。

优选的，依序对各断句语音进行语义完整度检测，包括：

依序将各断句语音的语音文本与高频文本库进行匹配；

若任一所述断句语音的语音文本与所述高频文本库中的预设文本相匹配，则判定所述断句语音的语义完整度检测合格；

若任一所述断句语音的语音文本与所述高频文本库中的预设文本均未匹配，则对所述断句语音的语音文本进行正则匹配；

若所述断句语音的语音文本的正则匹配失败，则判定所述断句语音的语义完整度检测未合格。

优选的，对所述拼接语音进行语音拼接之后，还包括：

若所述拼接语音的语音拼接次数大于第一次数阈值，则将所述拼接语音中首位的断句语音进行删除。

优选的，对所述拼接语音进行语音拼接之后，还包括：

若所述拼接语音的语音拼接次数大于第二次数阈值，则删除所述拼接语音对应的未合格的所述断句语音，并返回执行依序对各断句语音进行语义完整度检测的步骤。

优选的，若所述拼接语音的语义完整度检测未合格之后，还包括：

对所述拼接语音进行语音重复检测；

若所述拼接语音的语音重复检测未合格，则根据语音重复检测结果确定重复语音；

对各重复语音分别进行语音相关度检测，并根据所述语音相关度检测结果确定所述重复语音中的异常语音；

在所述拼接语音中删除所述异常语音。

优选的，对所述重复语音分别进行语音相关度检测，并根据所述语音相关度检测结果确定所述重复语音中的异常语音，包括：

在所述拼接语音中，将各重复语音与相邻的断句语音进行组合，得到组合语音；

对各组合语音的语音文本进行分词，得到语音分词，并分别查询各语音分词之间的词汇相关度；

根据所述词汇相关度确定各组合语音的语音相关度，并将最小所述语音相关度对应的所述重复语音确定为所述异常语音。

优选的，若所述拼接语音的语音拼接次数大于第一次数阈值之后，还包括：

对所述拼接语音的语音文本进行实体识别，并根据实体识别结果确定所述拼接语音的实体结构；

若所述拼接语音的实体结构与预设实体结构未匹配，则将所述拼接语音中首位的断句语音进行删除。

本发明实施例的另一目的在于提供一种基于语义的语音断句系统，所述系统包括：

端点检测模块，用于获取用户语音，并对所述用户语音进行语音端点检测；

语义检测模块，用于根据所述语音端点检测结果对所述用户语音进行断句，得到断句语音，并依序对各断句语音进行语义完整度检测；

语音拼接模块，用于若任一所述断句语音的语义完整度检测未合格，则对所述断句语音进行语音拼接，得到拼接语音，并对所述拼接语音进行语义完整度检测，所述语音拼接用于将未合格的所述断句语音与相邻的断句语音进行拼接；

若所述拼接语音的语义完整度检测未合格，则对所述拼接语音进行语音拼接，并返回执行对所述拼接语音进行语义完整度检测的步骤；

语音交互模块，用于若所述拼接语音的语义完整度检测合格，则根据所述拼接语音对所述用户语音进行语音断句，并根据语音断句结果进行语音交互。

本发明实施例的另一目的在于提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

本发明实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例，通过对各断句语音进行语义完整度检测，能有效地判断各断句语音是否是语义完整的语音片段，若任一断句语音的语义完整度检测未合格，通过对断句语音进行语音拼接，得到拼接语音，能有效地将语义不连贯的语音进行拼接，保障了语音断句后语音语义的完整性，通过对拼接语音进行语义完整度检测，以检测拼接语音语义的完整性，本发明实施例，能够保持语音断句后语音语义的连贯性，避免将一个连贯的指令切分成多个语义不完整的片段，提高了语音指令的理解度和连贯性，提高了用户的使用体验。

附图说明

图1是本发明第一实施例提供的基于语义的语音断句方法的流程图；

图2是本发明第二实施例提供的基于语义的语音断句方法的流程图；

图3是本发明第三实施例提供的基于语义的语音断句系统的结构示意图；

图4是本发明第三实施例提供的基于语义的语音断句系统的具体实施步骤示意图；

图5是本发明第四实施例提供的终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的基于语义的语音断句方法的流程图，该基于语义的语音断句方法可以应用于任一车载终端设备或系统，该基于语义的语音断句方法包括步骤：

步骤S10，获取用户语音，并对所述用户语音进行语音端点检测；

其中，通过对用户语音进行语音端点检测，以获取用户语音中的静音语音对应的语音位置。

步骤S20，根据所述语音端点检测结果对所述用户语音进行断句，得到断句语音，并依序对各断句语音进行语义完整度检测；

其中，基于各静音语音对应的语音位置对用户语音进行断句，得到断句语音，通过依序对各断句语音进行语义完整度检测，以检测各断句语音的语义是否完整。

该步骤中，若任一断句语音的语义完整度检测合格，即，当检测到断句语音是语义完整的语音时，则根据断句语音的语音文本确定目标问答或目标交互指令，根据确定到的目标问答或目标交互指令执行语音交互操作。

可选的，该步骤中，依序对各断句语音进行语义完整度检测，包括：

依序将各断句语音的语音文本与高频文本库进行匹配；其中，该高频文本库可以根据需求进行设置；

若任一所述断句语音的语音文本与所述高频文本库中的预设文本相匹配，则判定所述断句语音的语义完整度检测合格；

若任一所述断句语音的语音文本与所述高频文本库中的预设文本均未匹配，则对所述断句语音的语音文本进行正则匹配，其中，通过对断句语音的语音文本进行正则匹配，以确定断句语音是否是车控领域预先设置的特殊句式，以达到基于正则匹配判断用户意图的效果；

若所述断句语音的语音文本的正则匹配失败，则判定所述断句语音的语义完整度检测未合格。

步骤S30，若任一所述断句语音的语义完整度检测未合格，则对所述断句语音进行语音拼接，得到拼接语音，并对所述拼接语音进行语义完整度检测；

其中，语音拼接用于将未合格的断句语音与相邻的断句语音进行拼接，若断句语音的语义完整度检测未合格时，以语义完整度检测未合格的断句语音为起点对用户语音进行语音内容截取，延长收音，并将未合格的断句语音与相邻的断句语音进行拼接，得到拼接语音。

例如，断句语音包括断句语音a1“打开导航打开”，断句语音a2“音乐”，断句语音a1的语义完整度检测未合格，则将断句语音a1与断句语音a2进行拼接，得到拼接语音b1“打开导航打开音乐”。

步骤S40，若所述拼接语音的语义完整度检测未合格，则对所述拼接语音进行语音拼接，并返回执行对所述拼接语音进行语义完整度检测的步骤；

其中，若拼接语音的语义完整度检测未合格，则继续进行语音拼接，并将语音拼接后的拼接语音继续进行语义完整度检测。

可选的，该步骤中，对所述拼接语音进行语音拼接之后，还包括：

若所述拼接语音的语音拼接次数大于第一次数阈值，则将所述拼接语音中首位的断句语音进行删除；

其中，该第一次数阈值根据需求进行设置，若拼接语音的语音拼接次数大于第一次数阈值，则判定拼接语音中首位的断句语音为错误语音，通过将拼接语音中首位的断句语音进行删除，有效地提高了拼接语音的准确性，该步骤中，将断句语音删除后的拼接语音，返回执行对所述拼接语音进行语义完整度检测的步骤。

进一步地，该步骤中，若所述拼接语音的语音拼接次数大于第一次数阈值之后，还包括：

对所述拼接语音的语音文本进行实体识别，并根据实体识别结果确定所述拼接语音的实体结构；其中，基于实体识别结果确定语音文本中各文本词汇的实体类型，将各文本词汇的实体类型进行组合，得到该实体结构；

若所述拼接语音的实体结构与预设实体结构未匹配，则将所述拼接语音中首位的断句语音进行删除；

则将所述拼接语音中首位的断句语音进行删除；其中，该预设实体结构可以根据需求进行设置，若拼接语音的实体结构与预设实体结构未匹配，则判定该拼接语音中首位的断句语音为错误语音，通过将拼接语音中首位的断句语音进行删除，有效地提高了拼接语音的准确性。

更进一步地，对所述拼接语音进行语音拼接之后，还包括：

若所述拼接语音的语音拼接次数大于第二次数阈值，则删除所述拼接语音对应的未合格的所述断句语音，并返回执行依序对各断句语音进行语义完整度检测的步骤；其中，该第二次数阈值可以根据需求进行设置。

步骤S50，若所述拼接语音的语义完整度检测合格，则根据所述拼接语音对所述用户语音进行语音断句，并根据语音断句结果进行语音交互；

其中，若拼接语音的语义完整度检测合格，则判定该拼接语音是语义完成的语音片段，因此，将拼接语音对应的位置进行断句，基于拼接语音执行语音交互，若在用户语音中，拼接语音的位置后还存在断句语音时，继续执行依序对各断句语音进行语义完整度检测的步骤及后续步骤，直至完成对用户语音的语音断句。

本实施例中，通过对各断句语音进行语义完整度检测，能有效地判断各断句语音是否是语义完整的语音片段，若任一断句语音的语义完整度检测未合格，通过对断句语音进行语音拼接，得到拼接语音，能有效地将语义不连贯的语音进行拼接，保障了语音断句后语音语义的完整性，通过对拼接语音进行语义完整度检测，以检测拼接语音语义的完整性，本发明实施例，能够保持语音断句后语音语义的连贯性，避免将一个连贯的指令切分成多个语义不完整的片段，提高了语音指令的理解度和连贯性，提高了用户的使用体验。

实施例二

请参阅图2，是本发明第二实施例提供的基于语义的语音断句方法的流程图，该实施例用于对第一实施例中步骤S40之后的步骤作进一步细化，包括步骤：

步骤S41，对所述拼接语音进行语音重复检测；

其中，语音重复检测用于识别拼接语音对应语音文本中是否存在重复的文本词汇，可选的，该步骤中，对拼接语音对应语音文本进行分词，得到拼接分词，判断拼接分词之间是否存在重复的词汇，若存在重复的词汇，且重复的词汇之间的字符间隔小于预设字符间隔，则判定该拼接语音对应的语音文本中存在重复的文本词汇。

进一步地，该步骤中，若拼接语音的语音重复检测合格，即，拼接语音对应的语音文本中不存在重复的文本词汇时，则继续执行对所述拼接语音进行语音拼接的步骤及后续步骤。

步骤S42，若所述拼接语音的语音重复检测未合格，则根据语音重复检测结果确定重复语音；

其中，根据语音重复检测结果，将重复的文本词汇对应的语音确定为重复语音。

步骤S43，对各重复语音分别进行语音相关度检测，并根据所述语音相关度检测结果确定所述重复语音中的异常语音；

其中，对各重复语音分别进行语音相关度检测，以确定各重复语音中的词汇与相邻的断句语音之间的关联程度，基于各重复语音中的词汇与相邻的断句语音之间的关联程度确定异常语音。

可选的，对所述重复语音分别进行语音相关度检测，并根据所述语音相关度检测结果确定所述重复语音中的异常语音，包括：

在所述拼接语音中，将各重复语音与相邻的断句语音进行组合，得到组合语音；

对各组合语音的语音文本进行分词，得到语音分词，并分别查询各语音分词之间的词汇相关度；

根据所述词汇相关度确定各组合语音的语音相关度，并将最小所述语音相关度对应的所述重复语音确定为所述异常语音；

其中，将各语音分词进行组合，将组合后的语音分词与相关度查询表进行匹配，得到该词汇相关度，该相关度查询表中存储有不同语音分词之间的组合与对应词汇相关度之间的对应关系。

步骤S44，在所述拼接语音中删除所述异常语音；

其中，通过在拼接语音中删除异常语音，有效地提高了拼接语音的准确性。

本实施例中，通过对拼接语音进行语音重复检测，能有效地识别拼接语音对应语音文本中是否存在重复的文本词汇，若拼接语音的语音重复检测未合格，基于语音重复检测结果能有效地确定重复语音，对各重复语音分别进行语音相关度检测，能有效地确定重复语音中的异常语音。

实施例三

请参阅图3，是本发明第三实施例提供的基于语义的语音断句系统100的结构示意图，包括：

端点检测模块10，用于获取用户语音，并对所述用户语音进行语音端点检测。

语义检测模块11，用于根据所述语音端点检测结果对所述用户语音进行断句，得到断句语音，并依序对各断句语音进行语义完整度检测。

可选的，语义检测模块11还用于：依序将各断句语音的语音文本与高频文本库进行匹配；

若任一所述断句语音的语音文本与所述高频文本库中的预设文本相匹配，则判定所述断句语音的语义完整度检测合格；

若任一所述断句语音的语音文本与所述高频文本库中的预设文本均未匹配，则对所述断句语音的语音文本进行正则匹配；

若所述断句语音的语音文本的正则匹配失败，则判定所述断句语音的语义完整度检测未合格。

语音拼接模块12，用于若任一所述断句语音的语义完整度检测未合格，则对所述断句语音进行语音拼接，得到拼接语音，并对所述拼接语音进行语义完整度检测，所述语音拼接用于将未合格的所述断句语音与相邻的断句语音进行拼接。

若所述拼接语音的语义完整度检测未合格，则对所述拼接语音进行语音拼接，并返回执行对所述拼接语音进行语义完整度检测的步骤。

可选的，语音拼接模块12还用于：若所述拼接语音的语音拼接次数大于第一次数阈值，则将所述拼接语音中首位的断句语音进行删除。

进一步地，语音拼接模块12还用于：若所述拼接语音的语音拼接次数大于第二次数阈值，则删除所述拼接语音对应的未合格的所述断句语音，并返回执行依序对各断句语音进行语义完整度检测的步骤。

更进一步地，语音拼接模块12还用于：对所述拼接语音进行语音重复检测；

若所述拼接语音的语音重复检测未合格，则根据语音重复检测结果确定重复语音；

对各重复语音分别进行语音相关度检测，并根据所述语音相关度检测结果确定所述重复语音中的异常语音；

在所述拼接语音中删除所述异常语音。

优选的，语音拼接模块12还用于：在所述拼接语音中，将各重复语音与相邻的断句语音进行组合，得到组合语音；

对各组合语音的语音文本进行分词，得到语音分词，并分别查询各语音分词之间的词汇相关度；

根据所述词汇相关度确定各组合语音的语音相关度，并将最小所述语音相关度对应的所述重复语音确定为所述异常语音。

可选的，语音拼接模块12还用于：对所述拼接语音的语音文本进行实体识别，并根据实体识别结果确定所述拼接语音的实体结构；

若所述拼接语音的实体结构与预设实体结构未匹配，则将所述拼接语音中首位的断句语音进行删除。

语音交互模块13，用于若所述拼接语音的语义完整度检测合格，则根据所述拼接语音对所述用户语音进行语音断句，并根据语音断句结果进行语音交互。

请参阅图4，语音断句系统100的具体实施步骤包括：

1、获取用户语音query1，将query1进行VAD断句，得到断句语音；

2、将断句语音输入语音断句系统100(规则系统)进行规则匹配；

规则系统主要解决两类query，一类是数量较少相对集中的头部query，通过文本精确匹配快速获取用户意图；第二类是车控领域有特殊句式的query，可以根据正则匹配判断用户意图；

3、识别意图进行多意图断句，即语义断句(例如query1：打开导航打开；query2：音乐)，断句内容进行语义完整度判断；

4、完整意图进行对应指令执行，生成内容展示和播报；

5、不完整意图延长收音，和后续query进行拼接(例如，query1分为：打开导航、打开；query2：音乐；将query1的打开和query2的音乐进行拼接)；

6、拼接意图进行规则系统判断，重复步骤1-5操作，进行人机交互。

本实施例，通过对各断句语音进行语义完整度检测，能有效地判断各断句语音是否是语义完整的语音片段，若任一断句语音的语义完整度检测未合格，通过对断句语音进行语音拼接，得到拼接语音，能有效地将语义不连贯的语音进行拼接，保障了语音断句后语音语义的完整性，通过对拼接语音进行语义完整度检测，以检测拼接语音语义的完整性，本发明实施例，能够保持语音断句后语音语义的连贯性，避免将一个连贯的指令切分成多个语义不完整的片段，提高了语音指令的理解度和连贯性，提高了用户的使用体验。

实施例四

图5是本申请第四实施例提供的一种终端设备2的结构框图。如图5所示，该实施例的终端设备2包括：处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22，例如基于语义的语音断句方法的程序。处理器20执行所述计算机程序22时实现上述各个基于语义的语音断句方法各实施例中的步骤。

示例性的，所述计算机程序22可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器21中，并由所述处理器20执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括，但不仅限于，处理器20、存储器21。

所称处理器20可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器21可以是所述终端设备2的内部存储单元，例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备，例如所述终端设备2上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。其中，计算机可读存储介质可以是非易失性的，也可以是易失性的。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：云知声智能科技股份有限公司;