掌桥专利:专业的专利平台
掌桥专利
首页

语音序列的重点子序列识别与显示方法、系统与电子设备

文献发布时间:2023-06-19 16:06:26



技术领域

本发明属于语音识别技术领域,尤其涉及语音序列的重点子序列识别与显示方法、系统与电子设备、实现所述方法的存储介质。

背景技术

随着人工智能的技术的发展,以及智能终端的普及,通过手机等终端模块提供会议语音记录识别、会议录音转换成文字、重点会议存档索引等功能,录音并转文字需求等都得到了极大满足。现如今,语音导航、语音唤醒、语音拨号、语音转文字等等功能已经风靡各种终端,智能语音操控已经从最初用户无聊时的调侃型应用,发展到如今可真正帮助用户解决实际问题的功能性应用。智能语音应用正走向成熟,终端产业正迎来一波以智能语音控制为特色的全新革命。

例如,在审中国发明专利CN202111600180.3提出一种语音信息处理方法可以实现语音转文字,无需向客户发送语音信息或者保护语音信息的个人隐私,保证了实时聊天程序中信息交互的安全性。

然而,发明人发现,虽然现有技术的大部分实时语音翻译引擎已经可实现对连续音频流的实时识别,实时识别和翻译语音输入的内容,转换成文本信息并返回对应文字流,但是,在某些特殊场合,尤其是包含特定词汇、特定格式词汇的场合,例如化学领域、分子领域等场合的语音交流中,语音序列通常会包含大量的专业化学词汇。现有技术逐词逐句的原样语音转文本的转译方式,无法突出这些语音序列中的重点子序列,使得语音交互双方均无法快速、准确的吸收到重点内容,影响语音沟通效率。

发明内容

为解决上述技术问题,本发明提出一种语音序列的重点子序列识别与显示方法、系统与电子设备、实现所述方法的存储介质。

在本发明的第一个方面,提出一种语音序列的重点子序列识别与显示方法,所述方法包括如下步骤:

S100:获取语音序列;

S200:识别所述语音序列中是否存在重点子序列;

如果存在,则在播放所述语音序列的同时将重点子序列以预定格式显示;

如果不存在,则直接播放所述语音序列;

所述重点子序列包括至少一个化学物质和/或化学物质组合的反应关系;

所述将重点子序列以预定格式显示,包括:将所述至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式、化学分子式、化学物质的电子结构式等以图片显示。

作为本发明的方案的实施基础,所述步骤S100获取的语音序列包括多个停顿点;

在所述步骤步骤S100之后,在所述步骤S200之前,所述方法还包括如下步骤:

以所述停顿点为单位,将所述语音序列切分为多个语音子序列。

同时,为确保实时性与准确性,同时节省系统进程资源,确保进程与处理过程的适配性,所述步骤S100还包括:

获取所述语音序列后,确定所述语音序列包含的停顿点的第一数量;

激活第二数量的重点子序列识别进程;

作为具体的实现手段,所述步骤S200包括如下子步骤:

S201:识别获取的语音序列中的当前停顿点;

S202:将所述当前停顿点之前的语音子序列翻译为文本子序列;

S203:判断所述文本子序列中是否包含预定重点子序列;

如果包含,则在播放所述语音子序列的同时将重点子序列以预定格式显示;

如果不包含,则直接播放所述文本子序列,并获取所述语音序列中的下一个停顿点,将下一个停顿点作为当前停顿点,返回步骤S202。

所述步骤S200还包括:

通过所述第二数量的重点子序列识别进程识别所述语音序列中是否存在重点子序列。

作为更具体的方法方案,本发明的第二个方面提供的语音序列的重点子序列识别与显示方法包括如下步骤:

S510:获取当前语音序列;

S520:识别所述当前语音序列包含的停顿点的第一数量,激活第二数量的重点子序列识别进程;

S530:将所述当前语音序列以所述第一数量的停顿点为单位,切分为第三数量的语音子序列;

S540:采用所述第二数量的重点子序列识别进程并行识别每个所述语音子序列是否包含预定重点子序列;

S550:若某两个相邻的语音子序列包含相同的预定重点子序列,则将该两个相邻的语音子序列合并为一个语音子序列;

S560:顺序播放所述语音子序列,并且,若当前播放的语音子序列包含预定重点子序列,则同时将预定重点子序列以预定格式显示;

所述重点子序列包括至少一个化学物质和/或化学物质组合的反应关系。

相对于第一个方面所述的方法,第二个方面所述的方法的进一步的改进在于步骤S540-S560,尤其是步骤S550“若某两个相邻的语音子序列包含相同的预定重点子序列,则将该两个相邻的语音子序列合并为一个语音子序列”,在实际运行中,由于该改进,能够进一步提升重点子序列的处理效率,同时节省进程数量。

具体的,所述第二数量大于所述第三数量;

所述将重点子序列以预定格式显示,包括:将所述至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式以图片显示。

为实现第一个方面或者第二个方面所述的方法,在本发明的第三个方面,提供一种语音序列的重点子序列识别与显示系统,所述系统包括语音接收端、语音识别端、语音显示端、语音播报端;

其中,各个子端模块具体功能实现如下:

所述语音接收端用于接收语音序列;

所述语音识别端用于识别所述语音序列包含的停顿点以及所述语音序列是否包含重点子序列;

所述语音显示端用于以预定格式在显示界面上显示所述重点子序列;

其中,所述语音识别端以所述语音序列包含的停顿点为节点识别所述语音序列是否包含重点子序列;

所述重点子序列包括至少一个化学物质和/或化学物质组合的反应关系;

所述以预定格式在显示界面上显示所述重点子序列,包括:将所述至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式以图片显示。

所述语音播报端用于在语音显示端以预定格式在显示界面上显示所述重点子序列的同时播报所述重点子序列。

更具体的,所述语音识别端包括停顿点识别单元、子序列切分单元、子序列识别单元、子序列合并单元;

所述停顿点识别单元用于识别所述语音序列包含的停顿点;

所述子序列切分单元用于将所述语音序列以所述停顿点为单位,切分多个语音子序列;

所述子序列识别单元用于识别每个所述语音子序列是否包含预定重点子序列;

所述子序列合并单元用于若某两个相邻的语音子序列包含相同的预定重点子序列,则将该两个相邻的语音子序列合并为一个语音子序列。

在本发明的第四个方面,提供一种终端设备,例如可以是数据交互设备,其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序可以是数据交互程序,所述处理器执行所述计算机程序时,实现第一个方面或者第二个方面所述方法的步骤。

在本发明的第五个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现第一个方面或者第二个方面所述方法的步骤。

在本发明的第六个方面,提供一种电子设备,包括:处理器,用于执行第一个方面或者第二个方面所述的一种语音序列的重点子序列识别与显示方法;以及存储器,与处理器耦合用于存储由所述处理器执行的指令。

本发明的技术方案,针对在某些特殊场合,尤其是包含特定词汇、特定格式词汇的场合,例如化学领域、分子领域等场合的语音交流中,语音序列通常会包含大量的专业化学词汇的问题,能够突出这些语音序列中的重点子序列,使得语音交互双方快速、准确的吸收到重点内容,提升语音沟通效率。

在后续的进一步实施例改进中还可以看到,本发明还可以将音频流实时识别为文字,适用于长句语音输入,音视频字幕,会议,演讲字幕同屏等,智能语言处理,还可以对识别中间结果进行智能纠错,实时展示中间文字结果,快速识别重点音频流,并将识别结果以图片文字摘要式快速显示,例如,将化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式、化学分子式、化学物质的电子结构式等以图片显示。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种语音序列的重点子序列识别与显示方法的主体流程图;

图2是实现图1所述多模态语音转译方法的计算机程序指令的流程示意图;

图3是本发明再一个优选实施例的一种语音序列的重点子序列识别与显示方法的主体流程图;

图4是实现图1或图3所述一种语音序列的重点子序列识别与显示方法的语音序列的重点子序列识别与显示系统的单元模块示意图;

图5是图4所述语音序列的重点子序列识别与显示系统的进一步优选实施例示意图;

图6是图4所述语音序列的重点子序列识别与显示系统中语音识别端的内部结构示意图;

图7是本发明技术方案实施后的显示效果示意图;

图8是实现图1或图2或图3所述方法的终端设备的结构示意图。

具体实施方式

下面,结合附图以及具体实施方式,对发明做出进一步的描述。

图1是本发明一个实施例的一种语音序列的重点子序列识别与显示方法的主体流程图。

在图1中,所述方法可以概括为两个主体步骤S100与S200,各个步骤具体概括如下:

S100:获取语音序列;

S200:识别所述语音序列中是否存在重点子序列;

如果存在,则在播放所述语音序列的同时将重点子序列以预定格式显示;

如果不存在,则直接播放所述语音序列;

尤其需要强调的是,本发明针对的是包含特定词汇、特定格式词汇的场合,例如化学领域、分子领域等场合的语音交流中,语音序列通常会包含大量的专业化学词汇,这是本发明的改进动机和主要构思。

因此,所述重点子序列包括至少一个化学物质和/或化学物质组合的反应关系;

所述将重点子序列以预定格式显示,包括:将所述至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式以图片显示。

具体的,将化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式、化学分子式、化学物质的电子结构式等以图片显示。

图2是实现图1所述多模态语音转译方法的计算机程序指令的流程示意图。

图2中,所述步骤S200包括如下子步骤:

S201:识别获取的语音序列中的当前停顿点;

S202:将所述当前停顿点之前的语音子序列翻译为文本子序列;

S203:判断所述文本子序列中是否包含预定重点子序列;

如果包含,则在播放所述语音子序列的同时将重点子序列以预定格式显示,并获取所述语音序列中的下一个停顿点,将下一个停顿点作为当前停顿点,返回步骤S202;

如果不包含,则直接播放所述文本子序列,并获取所述语音序列中的下一个停顿点,将下一个停顿点作为当前停顿点,返回步骤S202。

更具体的,所述步骤S100还包括:

获取所述语音序列后,确定所述语音序列包含的停顿点的第一数量;

激活第二数量的重点子序列识别进程;

所述步骤S100获取的语音序列包括多个停顿点;

在所述步骤步骤S100之后,在所述步骤S200之前,所述方法还包括如下步骤:

以所述停顿点为单位,将所述语音序列切分为多个语音子序列。

所述步骤S200还包括:

通过所述第二数量的重点子序列识别进程识别所述语音序列中是否存在重点子序列。

在图1-图2基础上,进一步参见图3。图3是本发明再一个优选实施例的一种语音序列的重点子序列识别与显示方法的主体流程图。

图3在图1-图2基础上进一步做了改进,方法流程包括步骤S510-S560,各个步骤具体实现如下:

S510:获取当前语音序列;

S520:识别所述当前语音序列包含的停顿点的第一数量,激活第二数量的重点子序列识别进程;

S530:将所述当前语音序列以所述第一数量的停顿点为单位,切分为第三数量的语音子序列;

S540:采用所述第二数量的重点子序列识别进程并行识别每个所述语音子序列是否包含预定重点子序列;

S550:若某两个相邻的语音子序列包含相同的预定重点子序列,则将该两个相邻的语音子序列合并为一个语音子序列;

S560:顺序播放所述语音子序列,并且,若当前播放的语音子序列包含预定重点子序列,则同时将预定重点子序列以预定格式显示;

所述重点子序列包括至少一个化学物质和/或化学物质组合的反应关系。

所述第二数量大于所述第三数量;

所述将重点子序列以预定格式显示,包括:将所述至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式以图片显示。

图3所述的方法的进一步的改进在于步骤S540-S560,尤其是步骤S550“若某两个相邻的语音子序列包含相同的预定重点子序列,则将该两个相邻的语音子序列合并为一个语音子序列”,在实际运行中,由于该改进,能够进一步提升重点子序列的处理效率,同时节省进程数量。

图4是实现图1或图3所述一种语音序列的重点子序列识别与显示方法的语音序列的重点子序列识别与显示系统的单元模块示意图。

在图4中,示出一种语音序列的重点子序列识别与显示系统包括语音接收端、语音识别端、语音显示端。

其中,本实施例中所述语音接收端用于接收语音序列;

所述语音识别端用于识别所述语音序列包含的停顿点以及所述语音序列是否包含重点子序列;

所述语音显示端用于以预定格式在显示界面上显示所述重点子序列;

其中,所述语音识别端以所述语音序列包含的停顿点为节点识别所述语音序列是否包含重点子序列;

所述重点子序列包括至少一个化学物质和/或化学物质组合的反应关系;

所述以预定格式在显示界面上显示所述重点子序列,包括:将所述至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式以图片显示。

具体的,以预定格式在显示界面上显示所述重点子序列,包括:将化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式、化学分子式、化学物质的电子结构式等以图片显示。

在图4基础上,进一步参见图5。所述系统还包括语音播报端;

所述语音播报端用于在语音显示端以预定格式在显示界面上显示所述重点子序列的同时播报所述重点子序列。

图6则示出图4所述语音序列的重点子序列识别与显示系统中语音识别端的内部结构示意图。

其中,所述语音识别端包括停顿点识别单元、子序列切分单元、子序列识别单元、子序列合并单元;

所述停顿点识别单元用于识别所述语音序列包含的停顿点;

所述子序列切分单元用于将所述语音序列以所述停顿点为单位,切分多个语音子序列;

所述子序列识别单元用于识别每个所述语音子序列是否包含预定重点子序列;

所述子序列合并单元用于若某两个相邻的语音子序列包含相同的预定重点子序列,则将该两个相邻的语音子序列合并为一个语音子序列。

图7是本发明技术方案实施后的显示效果示意图。

图7中获取的当前语音序列为:

“氢氧化钠与二氧化碳的反应存在两种情形:第一:少量二氧化碳和氢氧化钠反应,生成碳酸钠和水;第二:过量二氧化碳和氢氧化钠反应,生成碳酸氢钠”;

其中,可以识别出多个语音停顿点,具体表现为相应的标点符号位置,例如“冒号:、分号;句号。”等,语音停顿点的识别和提取属于现有技术,本实施例对此不作展开。

对于第一个语音停顿点之前的语音子序列(氢氧化钠与二氧化碳的反应存在两种情形),识别其中包含预定重点子序列,即“化学物质和/或化学物质组合”(氢氧化钠与二氧化碳);

因此,在播放所述语音序列的同时将重点子序列(氢氧化钠与二氧化碳)以预定格式显示,如图7中所述的氢氧化钠与二氧化碳的电子(分子)结构式。

同样的,继续识别出预定重点子序列,即“化学物质和/或化学物质组合”(少量二氧化碳和氢氧化钠反应,生成碳酸钠和水)”在播放所述语音序列的同时将重点子序列(少量二氧化碳和氢氧化钠反应,生成碳酸钠和水)以预定格式显示,如图7中所述的氢氧化钠与二氧化碳的第一个反应组合式(2NaOH+CO

同样的,继续识别出预定重点子序列,即“化学物质和/或化学物质组合”(过量二氧化碳和氢氧化钠反应,生成碳酸氢钠)”在播放所述语音序列的同时将重点子序列(过量二氧化碳和氢氧化钠反应,生成碳酸氢钠)以预定格式显示,如图7中所述的氢氧化钠与二氧化碳的第二个反应组合式(NaOH+CO

可见,本发明的技术方案实质上是将识别出原始语音序列存在重点子序列时,生成包含重点子序列的摘要图片后显示。

因此,本发明的技术方案还可以实现如下:

S2011:识别获取的语音序列中的当前停顿点;

S2021:将所述当前停顿点之前的语音子序列翻译为文本子序列;

S2031:判断所述文本子序列中是否包含预定重点子序列;

如果包含,则基于所述预定重点子序列生成所述语音子序列对应的图片摘要,在播放所述语音子序列的同时将所述语音子序列对应的图片摘要以预定格式显示。

如果不包含,则直接播放所述文本子序列,并获取所述语音序列中的下一个停顿点,将下一个停顿点作为当前停顿点,返回步骤S2021。

可以看到,本发明针对在某些特殊场合,尤其是包含特定词汇、特定格式词汇的场合,例如化学领域、分子领域等场合的语音交流中,语音序列通常会包含大量的专业化学词汇的问题,能够突出这些语音序列中的重点子序列,使得语音交互双方快速、准确的吸收到重点内容,提升语音沟通效率。

本发明还可以将音频流实时识别为文字,适用于长句语音输入,音视频字幕,会议,演讲字幕同屏等,智能语言处理,还可以对识别中间结果进行智能纠错,实时展示中间文字结果,快速识别重点音频流,并将识别结果以图片文字摘要式快速显示,例如,将化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式、化学分子式、化学物质的电子结构式等以图片显示。

需要指出的是,图1-图3所述步骤或者所述方法、流程,均可以通过计算机程序指令自动化的实现。因此,参见图8,提供一种终端设备,该终端设备可以是数据交互设备,包括总线、处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。

具体的,终端设备可以是电子设备,包括:处理器,用于执行图1或图2或图3所述方法的一种语音序列的重点子序列识别与显示方法;以及存储器,与处理器耦合用于存储由所述处理器执行的指令。

这些计算机程序指令也可装载到计算机或其他可编程数据处理电力二次设备上,使得在计算机或其他可编程电力二次设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程电力二次设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

本发明未特别明确的部分模块结构,以现有技术记载的内容为准。本发明在前述背景技术部分提及的现有技术可作为本发明的一部分,用于理解部分技术特征或者参数的含义。本发明的保护范围以权利要求实际记载的内容为准。

技术分类

06120114700125