掌桥专利:专业的专利平台
掌桥专利
首页

基于声纹的通话管理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 09:32:16


基于声纹的通话管理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域,更具体地,涉及一种基于声纹的通话管理方法、装置、电子设备及存储介质。

背景技术

在工作过程中,经常需要使用会议室举行会议进行工作总结或问题探讨,如果参加会议的人员出差在外地则无法在同一个会议室进行现场会议,此时需要通过远程电话接入或网络接入的方式参与到会议中。但是,由于电话或网络接入时存在信号不稳定或其他情况,往往会导致会议过程中的语音信号异常,若仅存在一个远程参会方,此时能够轻易的对异常语音信号进行处理,若存在多个远程参会方,例如两个及两个以上的远程参会方,此时对异常语音信号的处理过程较为繁琐。

发明内容

鉴于上述问题,本发明提出了一种基于声纹的通话管理方法、装置、电子设备以及存储介质,以改善上述问题。

第一方面,本申请实施例提供了一种基于声纹的通话管理方法,该方法包括:获取接入会议的语音信号,语音信号包括至少两个来自不同与会终端的子语音信号;检测语音信号的语音状态;若语音信号的语音状态为异常状态,基于语音信号的语音特征,确定导致异常状态的异常子语音信号;向异常子语音信号对应的目标与会终端发送提示信息。

第二方面,本申请实施例提供了一种基于声纹的通话管理装置,该装置包括:第一获取模块,用于获取接入会议的语音信号,语音信号包括至少两个来自不同与会终端的子语音信号;第一检测模块,用于检测语音信号的语音状态;第一确定模块,用于若语音信号的语音状态为异常状态,基于语音信号的语音特征,确定导致异常状态的异常子语音信号;第一发送模块,用于向异常子语音信号对应的目标与会终端发送提示信息。

第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行上述的方法。

本申请提供的一种基于声纹的通话管理方法、装置、电子设备以及存储介质,通过获取接入会议的语音信号,检测该语音信号的语音状态,若语音信号的语音状态为异常状态,则基于语音信号的语音特征,确定导致异常状态的异常子语音信号,向异常子语音信号对应的目标与会终端发送提示信息。由于语音特征能够准确反映子语音信号间的差异,因此,基于语音特征能够提高确定导致异常状态的异常子语音信号的准确性,同时,由于使用语音特征不需要手动逐个选择远程参会方进行试音,因此,提高了确定异常子语音信号的速度,保证了会议正常进行,此外,由于确定异常子语音信号以及向异常子语音信号对应的目标与会终端发送提示信息均不需要人为参与,因此,简化了会议室现场人员的操作流程。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了另一种适用于本申请实施例的应用环境示意图

图3示出了根据本申请一个实施例的基于声纹的通话管理方法流程图。

图4示出了根据本申请另一个实施例的基于声纹的通话管理方法流程图。

图5示出了根据本申请另一个实施例的基于声纹的通话管理方法流程图。

图6示出了根据本申请一个实施例的基于声纹的通话管理装置的框图。

图7是本申请实施例的用于执行根据本申请实施例的基于声纹的通话管理方法的电子设备的框图。

图8是本申请实施例的用于保存或者携带实现根据本申请实施例的基于声纹的通话管理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

在远程会议过程中,由于电话或网络接入时存在信号不稳定或其他情况,往往会导致会议过程中的语音信号异常,若仅存在一个远程参会方,能够轻易分辨出是该参会方导致的语音信号异常,并通知其进行处理,但是若存在多个远程参会方,由于是多方发言的状态,通常无法快速知晓是哪个参会方的语音信号存在异常,也就不能迅速通知其进行处理,导致会议过程中的语音信号长期处于异常状态,降低了参会人员的会议体验。

相关技术中,面对存在多个远程参会方时,通常使用手动排除的方法,即通过将各个远程参会方逐个进行试音的方法找出整个会议过程中语音信号异常的参会方。但是发明人发现,手动选择各个远程参会方并逐个进行试音的方法存在操作繁琐的问题,并且,当远程会议规模较大时,例如百人、千人会议,使用逐个排除的方法排除时间长,操作繁琐,影响会议正常进行。

为了改善上述问题,发明人提出了本申请提供的基于声纹的通话管理方法、装置、电子设备及存储介质,先获取接入会议的语音信号,接着检测该语音信号的语音状态,若语音信号的语音状态为异常状态,则基于语音信号的语音特征,确定导致异常状态的异常子语音信号,再向异常子语音信号对应的目标与会终端发送提示信息。由于语音特征能够准确反映子语音信号间的差异,因此,基于语音特征能够准确确定导致异常状态的异常子语音信号,同时,由于使用语音特征不需要手动逐个选择远程参会方进行试音,因此,提高了确定异常子语音信号的速度,保证了会议正常进行,此外,由于确定异常子语音信号以及向异常子语音信号对应的目标与会终端发送提示信息均不需要人为参与,因此,简化了会议室现场人员的操作流程。

下面针对本发明实施提供的基于声纹的通话管理方法的应用环境进行介绍:

请参阅图1,本发明实施提供的基于声纹的通话管理方法可以应用于会议系统中,会议系统包括会场终端,即会议现场安装的与会终端101,也可以称为主席终端,以及至少两个远程参加会议的与会终端102,其中,每个与会终端均可以与会场终端连接,从而建立远程语音会议。在此环境下,会场终端可以执行本申请实施例的基于声纹的通话管理方法。

需要说明的是,图1是一种示例性的应用环境,本申请实施例所提供的方法还可以运行于其他的应用环境中。

可选地,请参阅图2,会议系统中也可以仅包括会场终端201以及一个与会终端202,此时也可以建立会议,在此环境下,会场终端依然可以执行本申请实施例的基于声纹的通话管理方法。此时,只存在一个子语音信号,可以确定该子语音信号来自唯一的与会终端。

另外,需要说明的是,会场终端以及与会终端是一个相对的概念,实际上,任一个与会终端均可以作为会场终端,当某个终端作为会场终端时,会议系统中的其他终端便相应作为与会终端。因此,在任一个终端上均可以执行本申请实施例的基于声纹的通话管理方法。其中,会场终端可以根据实际会议场景进行确定。

作为一种示例,甲、乙、丙三地开展会议,当乙和丙两地的人员需要向甲地的人员汇报工作时,甲地的终端可以作为会场终端,乙和丙两地的终端可以作为与会终端。

作为另一种示例,甲、乙、丙三地开展会议,当甲和丙两地的人员需要向乙地的人员汇报工作时,乙地的终端可以作为会场终端,甲和丙两地的终端可以作为与会终端。

请参阅图3,本申请一实施例提供的一种基于声纹的通话管理方法,该方法可以包括:

步骤S110,获取接入会议的语音信号,语音信号包括至少两个来自不同与会终端的子语音信号。

可以理解的是,各个远程与会终端可以加入会议系统,与会场终端一同建立起远程语音会议,其中,远程与会终端发送的语音信号可以认为是子语音信号,通常情况下,多个子语音信号在会议中是同步输出的,也即会场终端播放语音时,多个子语音信号对应的语音是同时播放的,因此,在会议中,接入会议的语音信号包括至少两个来自不同远程与会终端的子语音信号。作为一种方式,远程与会终端加入会议系统的方式可以包括但不限于电话接入或者网络接入。

因此,为了后续能够有效对会议进行管理,本实施例中会场终端可以首先获取接入会议的语音信号。

需要说明的是,在一些实施方式中,会议中也可以只存在一个会场终端以及一个远程与会终端,此时,接入会议的语音信号可以包括来自一个远程与会终端的子语音信号,在这种情况下,若语音信号的状态为异常状态,会场终端能够唯一确定导致异常状态的与会终端为接入会议的这一个远程与会终端。

需要说明的是,在上述几种方式中,均认为会场终端的子语音信号不会导致接入会议的语音信号出现异常状态的情况,因此,在上述几种方式中均未考虑会场终端导致的语音信号异常,然而,在实际中,会场终端也可能存在信号不稳定的情况,从而会场终端的子语音信号也会导致接入会议的语音信号出现异常状态的情况,因此,在另一些实施方式中,接入会议的语音信号除了包括来自不同远程与会终端的子语音信号之外,还可以包括来自于会场终端的子语音信号。在此环境下,作为一种实施方式,会场终端可以执行本申请实施例的基于声纹的通话管理方法,作为另一种实施方式,会议系统中还可以包括除去会场终端以及与会终端之外的第三方终端,由第三方终端执行本申请实施例的基于声纹的通话管理方法。

需要说明的是,本申请实施例中,若无特殊说明,均基于图1所示的应用环境,且由会场终端执行本申请实施例的基于声纹的通话管理方法进行解释说明。

步骤S120,检测语音信号的语音状态。

在获取到接入会议的语音信号之后,可以检测语音信号的语音状态。其中,语音状态可以包括正常状态和异常状态。

作为一种方式,可以首先将语音信号进行参数检测,获取语音信号对应的语音参数,然后基于语音参数与标准语音参数,检测语音信号的语音状态。可选地,将语音信号进行参数检测时,可以检测的参数类型包括声学回声、背景噪声、声音断续度、啸叫度和电流声等参数,检测时可以选择检测其中一种或几种参数。

通常情况下,标准语音参数会存在一个参数范围或者一个上下限阈值,因此,在检测语音信号的语音状态时可以将语音信号对应的语音参数与标准语音参数的参数范围或者上下限阈值进行比较,若语音信号对应的语音参数超出标准语音的参数范围,或者超过标准语音参数的参数上下限阈值,便可以检测出语音信号的语音状态为异常状态,相反地,若语音信号对应的语音参数未超出标准语音的参数范围,或者未超过标准语音参数的参数上下限阈值,便可以检测出语音信号的语音状态为正常状态。

需要说明的是,标准语音参数的参数范围或者上下限阈值可以根据各个参会方的实际环境条件进行确定。例如,一个可能的会议场景是,各个参会方分别在各自的办公室开会,由于办公室环境较为安静,因此,若语音参数包括背景噪声的话,此时可以将背景噪声这个标准参数设置为一个较小值,例如上限阈值设置为60分贝。另一个可能的场景是,各个参会方分别在各自的施工现场开会,此时不可避免的会存在较大的环境噪音,因此,若语音参数包括背景噪声的话,此时可以将背景噪声这个标准参数设置为一个较大值,例如上限阈值设置为70分贝。而对于声学回声、声音断续度、啸叫度和电流声等标准参数的参数范围或者上下限阈值的设置方式类似于背景噪声,也可以根据各个参会方的实际环境条件进行确定。

通过上述设置标准语音参数的范围或者上下限阈值的方式,可以适应不同的会议环境,避免对语音信号的语音状态产生误判。

步骤S130,若语音信号的语音状态为异常状态,基于语音信号的语音特征,确定导致异常状态的异常子语音信号。

通过上述分析可以知道,语音信号的语音状态可以包括正常状态和异常状态。若语音状态为正常状态,可以认为语音信号不会影响会议的正常进行,此时可以不做任何处理,而保持持续获取接入会议的语音信号。若语音状态为异常状态,可以认为语音信号会影响会议的正常进行,此时则需要进行处理。

再通过上述分析可以知道,接入会议的语音信号可以来自一个远程与会终端的子语音信号,也可以来自至少两个远程与会终端的子语音信号。因此,在一些实施方式中,若接入会议的语音信号来自一个远程与会终端的子语音信号,此时可以直接确定导致异常状态的异常子语音信号来自这唯一的与会终端。

在另一些实施方式中,若接入会议的语音信号来自至少两个远程与会终端的子语音信号,则可以首先从语音信号中提取语音特征,然后基于语音特征确定导致异常状态的异常子语音信号。由于语音特征能够准确反映子语音信号间的差异,因此,基于语音特征能够提高确定导致异常状态的异常子语音信号的准确性。

步骤S140,向异常子语音信号对应的目标与会终端发送提示信息。

可以理解的是,若语音状态为异常状态,可以认为语音信号会影响会议的正常进行,此时则需要进行处理。作为一种实施方式,会场终端可以自动向异常子语音信号对应的目标与会终端发送提示信息。如此,目标与会终端接收到提示信息之后,便能够根据提示信息进行调整,从而改善子语音信号,最终使得接入会议的语音信号的语音状态处于正常状态,保证会议的正常进行。

在一些实施方式中,在基于语音参数与标准语音参数,检测语音信号的语音状态的时候,由于是针对各个参数类型分别进行检测的,例如针对声学回声,是将语音信号对应的声学回声与标准声学回声进行比较,从而判断语音信号的状态,因此,在确定语音信号的语音状态为异常状态时,可以同时确定具体是哪个类型的语音参数导致的异常状态,如果是声学回声导致的异常状态,那么声学回声这个参数类型就可以认为是异常参数类型。在知道了导致异常状态的语音参数的异常参数类型之后,便可以针对性地向目标与会终端发送与异常参数类型对应的提示信息。如此,目标与会终端在接收到与异常参数类型对应的提示信息之后,能够迅速做出对应的调整,提高调整速度。

作为一种方式,提示信息可以包括异常原因信息以及调整建议信息。其中,异常原因信息可以用于提醒目标与会终端自身导致语音信号异常的原因是什么,帮助其快速了解导致语音信号异常的原因;调整建议信息可以用于提醒目标与会终端如何进行调整,帮助其快速做出针对性的调整。

示例性地,当异常参数类型为声学回声时,对应的异常原因信息以及调整建议信息分别为“您存在声学回声”,“请使用听筒进行通话”。当异常参数类型为背景噪声时,对应的异常原因信息以及调整建议信息分别为“您存在背景噪声,过于嘈杂”,“请切换到安静的环境进行通话”。当异常参数类型为电流声时,对应的异常原因信息以及调整建议信息分别为“您存在电流声”,“请远离干扰源进行通话”。

本申请提供的一种基于声纹的通话管理方法、装置、电子设备以及存储介质,通过获取接入会议的语音信号,检测该语音信号的语音状态,若语音信号的语音状态为异常状态,则基于语音信号的语音特征,确定导致异常状态的异常子语音信号,向异常子语音信号对应的目标与会终端发送提示信息。由于语音特征能够准确反映子语音信号间的差异,因此,基于语音特征能够准确确定导致异常状态的异常子语音信号,同时,由于使用语音特征不需要手动逐个选择远程参会方进行试音,因此,提高了确定异常子语音信号的速度,保证了会议正常进行,此外,由于确定异常子语音信号以及向异常子语音信号对应的目标与会终端发送提示信息均不需要人为参与,因此,简化了会议室现场人员的操作流程。

请参阅图4,本申请另一实施例提供的一种基于声纹的通话管理方法,该方法可以包括:

步骤S210,获取接入会议的语音信号,语音信号包括至少两个来自不同与会终端的子语音信号。

步骤S220,检测语音信号的语音状态。

步骤S230,若语音信号的语音状态为异常状态,获得各个与会终端对应的原始声纹信息。

本实施例中,为了后续能够准确确定导致异常状态的异常子语音信号,可以基于各个待接入终端与测试子语音信号包括的原始声纹信息的关联关系,获得各个与会终端对应的原始声纹信息。

在一些实施方式中,预先建立并保存有与会终端与原始声纹信息的关联关系。作为一种方式,与会终端与原始声纹信息的关联关系可以是与会终端初次接入会议的时候建立并保存的。具体地,会场终端可以响应于待接入终端发起的初次接入请求,向待接入终端发送测试提示,获取待接入终端发送的测试子语音信号,测试子语音信号是待接入终端根据测试提示生成的,检测测试子语音信号的语音状态,若测试子语音信号的语音状态为正常状态,建立待接入终端与测试子语音信号包括的原始声纹信息的关联关系。

可以理解的是,对于任一个参会方的终端,其在接入会议之前,为待接入终端,在接入会议之后,成为与会终端。下面详细介绍待接入终端接入会议的过程。

待接入终端想要接入会议,需要先向会场终端发送初次接入请求,会场终端在接收到待接入终端发起的初次接入请求之后,可以向待接入终端发送测试提示,测试提示用于提示待接入终端进行语音信号测试,待接入终端接收到测试提示之后,可以根据测试提示进行测试,从而生成测试子语音信号,并发送到会场终端,会场终端接收到测试子语音信号之后可以检测测试子语音信号的语音状态,其中,检测测试子语音信号的语音状态的方法可以依据前述实施方式中的检测语音信号的语音状态方法。若测试子语音信号的语音状态为正常状态,则可以从测试子语音信号中提取出对应的声纹信息,作为原始声纹信息,然后便可以建立待接入终端与测试子语音信号包括的原始声纹信息的关联关系。由于测试子语音信号的语音状态为正常状态,可以将测试子语音信号对应的待接入终端接入会议,从而成为与会终端,因此,待接入终端与测试子语音信号包括的原始声纹信息的关联关系,也可以称为与会终端与测试子语音信号包括的原始声纹信息的关联关系。

在一些实施方式中,测试提示可以包含特定的数字或者词语,这就需要待接入终端的用户说出相同的数字或者词语,以便生成测试子语音信号,应当理解的是,此时的测试子语音信号是包括特定的数字或者词语的语音信号。当然,在另一些实施方式中,测试提示也可以不包括特定的数字或者词语,可以由待接入终端的用户自由说话。

需要说明的是,每一场会议均具有会议号,例如可以是会议ID,待接入终端在接入会议之前,需要输入会议号,才能进入某一场会议。如果某个会议号对应的会议中,已经存在待接入终端的标识,则表示待接入终端不是第一次接入会议,又或者,如果某个会议号对应的会议中,已经存在待接入终端以及原始声纹信息的关联关系,同样表示待接入终端不是第一次接入会议。

步骤S240,基于语音信号的第一时频谱以及各个原始声纹信息,对语音信号进行分离,得到各个原始声纹信息对应的子语音信号。

在一些方式中,语音特征可以是时频谱,时频谱用于反映不同时间内信号频率与能量的关系,可以对语音信号进行提取得到。此处,语音信号的语音特征则称为第一时频谱,本实施例中,基于语音信号的第一时频谱以及各个原始声纹信息,可以实现对语音信号的分离,从而得到各个原始声纹信息对应的子语音信号。

在一些方式中,上述步骤S240,基于语音信号的第一时频谱以及各个原始声纹信息,对语音信号进行分离,得到各个原始声纹信息对应的子语音信号,具体可以包括:获取各个原始声纹信息对应的嵌入码,基于第一时频谱、各个原始声纹信息对应的嵌入码以及变化规则,得到各个原始声纹信息对应的掩码,基于第一时频谱以及各个原始声纹信息对应的掩码,得到各个原始声纹信息对应的第二时频谱,基于第二时频谱,从语音信号中分离得到各个原始声纹信息对应的子语音信号。

本实施例中,通过声纹识别编码器可以对各个原始声纹信息进行编码,从而获取到各个原始声纹信息对应的嵌入码。而变化规则包括了第一时频谱、嵌入码以及掩码之间的对应关系,因此,在获得第一时频谱、各个原始声纹信息对应的嵌入码以及变化规则之后,便可以基于第一时频谱、各个原始声纹信息对应的嵌入码以及变化规则,得到各个原始声纹信息对应的掩码。最后再将第一时频谱与各个原始声纹信息对应的掩码相乘,得到各个原始声纹信息对应的第二时频谱,第二时频谱能够表征各个子语音信号的特征,因此,基于第二时频谱能够从语音信号中分离得到各个原始声纹信息对应的子语音信号。

需要说明的是,作为一种方式,在本实施中,基于第一时频谱、各个原始声纹信息对应的嵌入码以及变化规则,得到各个原始声纹信息对应的掩码,可以由训练得到的深度神经网络模型来执行。在这种方式中,变化规则所包括的第一时频谱、嵌入码以及掩码之间的对应关系可以为在深度神经网络模型中得到。

步骤S250,基于各个子语音信号对应的语音状态,确定导致异常状态的异常子语音信号。

本实施例中,在得到各个原始声纹信息对应的子语音信号之后,可以依据前述实施方式中的检测语音信号的语音状态方法,分别检测各个子语音信号对应的语音状态,从而确定哪个子语音信号对应的语音状态存在异常,进而确定导致异常状态的异常子语音信号。示例性地,若来自与会终端甲的子语音信号对应的语音状态存在异常,则可以确定导致异常状态的异常子语音信号来自与会终端甲。

步骤S260,向异常子语音信号对应的目标与会终端发送提示信息。

在确定导致异常状态的异常子语音信号之后,便可以向异常子语音信号对应的与会终端发送提示信息。

本实施例中,首先通过基于语音信号的第一时频谱以及各个原始声纹信息,对语音信号进行分离,得到各个原始声纹信息对应的子语音信号,再基于各个子语音信号对应的语音状态,确定导致异常状态的异常子语音信号。能够准确确定导致异常状态的异常子语音信号,并且可以提高确定异常子语音信号的速度,保证会议正常进行,同时不需要人为确定导致异常状态的异常子语音信号,简化了会议室现场人员的操作流程。

请参阅图5,本申请另一实施例提供的一种基于声纹的通话管理方法,该方法可以包括:

步骤S310,获取接入会议的语音信号,语音信号包括至少两个来自不同与会终端的子语音信号。

步骤S320,检测语音信号的语音状态。

步骤S330,若语音信号的语音状态为异常状态,基于语音信号的语音特征,确定导致异常状态的异常子语音信号。

步骤S340,向异常子语音信号对应的目标与会终端发送提示信息。

步骤S350,禁止目标与会终端接入会议。

在一些实施方式中,考虑到异常状态可能比较严重,此时会严重影响其他与会终端的用户继续进行会议,因此,在向异常子语音信号对应的目标与会终端发送提示信息之后,还可以直接禁止目标与会终端接入会议。其中,禁止目标与会终端接入会议可以是直接断开与目标与会终端的连接,也可以不断开与会终端的连接,仅仅只阻断其对应的子语音信号接入会议中。

在一些实施方式中,在禁止目标与会终端接入会议之后,会场终端还可以向会议中的其他与会终端发出提示信息,以告知其他与会终端的用户,目标与会终端由于子语音信号异常而退出会议,同时会场终端自身也会收到提示信息,提示会议现场的用户,目标与会终端由于子语音信号异常而退出会议。

在一些实施方式中,考虑到向目标与会终端发送的提示信息用于提示目标与会终端的用户进行调整,而向其他与会终端发出提示信息或者参会终端自身收到的提示信息用于告知目标与会终端由于子语音信号异常而退出会议,因此,向目标与会终端发送的提示信息相较于向其他与会终端发出提示信息或者参会终端自身收到的提示信息更加明显。例如向目标与会终端发送的提示信息可以为较高音量的语音等具有较强提醒作用的方式,以使得目标与会终端的用户快速知悉其终端设备存在问题并进行调整,而向其他与会终端发出的提示信息或者参会终端自身收到的提示信息则可以为文字等具有较弱提醒作用的方式,以免影响会场中其他与会终端或者会场终端的用户的正常会议。

步骤S360,在接收到目标与会终端发送的重新接入请求时,获取目标与会终端发送的目标子语音信号。

可以理解的是,目标子语音信号是指目标与会终端发送重新接入请求之后发送的语音信号,用于验证目标与会终端调整之后是否还存在异常。

在向异常子语音信号对应的目标与会终端发送提示信息并禁止目标与会终端接入会议之后,目标与会终端的用户会进行对应的调整,在调整完成之后,用户可能需要再次接入会议中,此时目标与会终端需要向会场终端发送重新接入请求,并向会场终端发送目标子语音信号,因此,会场终端在接收到重新接入请求之后,可以获取目标与会终端发送的目标子语音信号。

步骤S370,检测目标子语音信号的语音状态。

可以理解的是,会场终端在获取目标与会终端发送的目标子语音信号之后,便可以依据前述实施方式中的检测语音信号的语音状态方法,检测目标子语音信号的语音状态。

步骤S380,若目标子语音信号的语音状态为正常状态,允许目标与会终端接入会议。

可以理解的是,目标子语音信号的语音状态也可以包括正常状态和异常状态,若目标子语音信号的语音状态为正常状态,可以认为目标与会终端已经进行调整,例如可以是已经切换到安静的环境进行通话,或者可以是已经使用听筒进行通话,或者还可以是已经远离干扰源进行通话等,此时目标子语音信号不会影响会议的正常进行,可以允许目标与会终端接入会议。其中,对于允许目标与会终端接入会议的方式,如果之前禁止目标与会终端接入会议是直接断开与目标与会终端的连接,对应的,此时则是将目标与会终端与会场终端建立连接;如果之前禁止目标与会终端接入会议是只阻断其对应的子语音信号接入会议中,对应的,此时则是不再阻断目标与会终端对应的子语音信号接入会议中。

在本实施例中,在目标与会终端重新接入会议时,即会场终端接收到目标与会终端发送的重新接入请求时,可以获取目标与会终端发送的目标子语音信号,并对其进行语音状态的检测,在目标子语音信号检测为正常状态的情况下,允许目标与会终端接入会议,相当于对目标与会终端的接入进行了一次审核,进而保证接入会议的目标与会终端不会再导致接入会议的语音信号异常,从而保证了会议的正常进行。

请参阅图6,其示出了本发明一个实施例提供的基于声纹的通话管理装置,该基于声纹的通话管理装置400包括:第一获取模块410、第一检测模块420、第一确定模块430以及第一发送模块440。其中:

第一获取模块410,用于获取接入会议的语音信号,语音信号包括至少两个来自不同与会终端的子语音信号;

第一检测模块420,用于检测语音信号的语音状态;

第一确定模块430,用于若语音信号的语音状态为异常状态,基于语音信号的语音特征,确定导致异常状态的异常子语音信号;

第一发送模块440,用于向异常子语音信号对应的目标与会终端发送提示信息。

可选地,语音信号的语音特征为第一时频谱,第一确定模块430,包括:

第一获得子模块,用于获得各个与会终端对应的原始声纹信息;

第二获得子模块,用于基于语音信号的第一时频谱以及各个原始声纹信息,对语音信号进行分离,得到各个原始声纹信息对应的子语音信号;

确定子模块,用于基于各个子语音信号对应的语音状态,确定导致异常状态的异常子语音信号。

可选地,第二获得子模块,包括:

第一获取单元,用于获取各个原始声纹信息对应的嵌入码;

第一获得单元,用于基于第一时频谱、各个原始声纹信息对应的嵌入码以及变化规则,得到各个原始声纹信息对应的掩码;

第二获得单元,用于基于第一时频谱以及各个原始声纹信息对应的掩码,得到各个原始声纹信息对应的第二时频谱;

第三获得单元,用于基于第二时频谱,从语音信号中分离得到各个原始声纹信息对应的子语音信号。

可选地,该基于声纹的通话管理装置400还包括:

第二发送模块,用于响应于待接入终端发起的初次接入请求,向待接入终端发送测试提示;

第二获取模块,用于获取待接入终端发送的测试子语音信号,测试子语音信号是待接入终端根据测试提示生成的;

第二检测模块,用于检测测试子语音信号的语音状态;

关联关系建立模块,用于若测试子语音信号的语音状态为正常状态,建立待接入终端与测试子语音信号包括的原始声纹信息的关联关系;

第一获得子模块,包括:

第四获得单元,用于基于各个待接入终端与测试子语音信号包括的原始声纹信息的关联关系,获得各个与会终端对应的原始声纹信息。

可选地,该第一检测模块420,包括:

获取子模块,用于获取语音信号对应的语音参数;

检测子模块,用于基于语音参数与标准语音参数,检测语音信号的语音状态。

可选地,该基于声纹的通话管理装置400还包括:

确定模块,用于若语音信号的语音状态为异常状态,确定导致异常状态的语音参数的异常参数类型;

第一发送模块,包括:

发送子模块,用于向目标与会终端发送与异常参数类型对应的提示信息,提示信息包括异常原因信息以及调整建议信息。

可选地,异常参数类型包括以下至少一者:声学回声、背景噪声、声音断续度、啸叫度和电流声。

可选地,该基于声纹的通话管理装置400还包括:

禁止模块,用于禁止目标与会终端接入会议。

可选地,该基于声纹的通话管理装置400还包括:

第三获取模块,用于在接收到目标与会终端发送的重新接入请求时,获取目标与会终端发送的目标子语音信号;

第三检测模块,用于检测目标子语音信号的语音状态;

许可模块,用于若目标子语音信号的语音状态为正常状态,允许目标与会终端接入会议。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置、模块、子模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

请参阅图7,基于上述的基于声纹的通话管理方法,本申请实施例还提供的另一种包括可以执行前述基于声纹的通话管理方法的处理器504的电子设备500,电子设备500还包括存储器504、网络模块506。其中,该存储器504中存储有可以执行前述实施例中内容的程序,而处理器502可以执行该存储器504中存储的程序。

其中,处理器502可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器502利用各种接口和线路连接整个电子设备500内的各个部分,通过运行或执行存储在存储器504内的指令、程序、代码集或指令集,以及调用存储在存储器504内的数据,执行电子设备500的各种功能和处理数据。可选地,处理器502可以采用数字信号处理(DigitalSignal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器502可集成中央处理器(Central Processing Unit,CPU)、图像处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器502中,单独通过一块通信芯片进行实现。

存储器504可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器504可用于存储指令、程序、代码、代码集或指令集。存储器504可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

网络模块506用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如和音频播放设备进行通讯。网络模块506可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块506可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如,网络模块506可以与基站进行信息交互。

请参考图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质600中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

综上,本申请提供的一种基于声纹的通话管理方法、装置、电子设备以及存储介质,通过获取接入会议的语音信号,检测该语音信号的语音状态,若语音信号的语音状态为异常状态,则基于语音信号的语音特征,确定导致异常状态的异常子语音信号,向异常子语音信号对应的目标与会终端发送提示信息。由于语音特征能够准确反映子语音信号间的差异,因此,基于语音特征能够准确确定导致异常状态的异常子语音信号,同时,由于使用语音特征不需要手动逐个选择远程参会方进行试音,因此,提高了确定异常子语音信号的速度,保证了会议正常进行,此外,由于确定异常子语音信号以及向异常子语音信号对应的目标与会终端发送提示信息均不需要人为参与,因此,简化了会议室现场人员的操作流程。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 基于声纹的通话管理方法、装置、电子设备及存储介质
  • 基于浏览器的视频通话方法、装置、电子设备及存储介质
技术分类

06120112202416