语音通话方法、通信终端和计算机可读介质

文献发布时间：2023-06-19 11:35:49

技术领域

本公开涉及通信技术领域，特别涉及一种语音通话方法、通信终端和计算机可读介质。

背景技术

现阶段，各类通信终端的语音通话业务多基于电路交换(Circuit Switched，简称CS)域，其语音通话质量取决于单位时间内的采样率、传输速率以及声谱宽度。目前应用于电路交换域的语音编码方式有AMR-NB(其声谱宽度是100Hz～4KHz,最高传输速率为12.2Kbps)、AMR-WB(其声谱宽度是100Hz～8KHz,最高传输速率为23.65Kbps)和EVS-SWB(其声谱宽度是100Hz～20KHz,最高传输速率为128Kbps)，而只是单声道无损音频的传输比特率也需达到192Kbps以上。基于此，针对语音业务，电路交换域最高128Kbps的速率仅能满足正常通话，保证说话者的语音清晰，并实现相对保真，但无法实现无损音频的传输要求，同时不能保证语音之外的环境音、背景音和其他特殊声音能在通话对端还原。

发明内容

本公开旨在至少解决现有技术中存在的技术问题之一，提出了一种语音通话方法、通信终端和计算机可读介质。

为实现上述目的，第一方面，本公开实施例提供了一种语音通话方法，包括：

通过第一核心网获取第一终端的语音内容信息；

通过第二核心网获取所述第一终端的语音特征信息；

根据所述语音内容信息和所述语音特征信息还原出原始音频。

第二方面，本公开实施例提供了另一种语音通话方法，包括：

获取原始音频；

从所述原始音频中提取出语音内容信息；

通过第一核心网将所述语音内容信息发送至第二终端；

控制第二核心网将语音特征信息发送至所述第二终端。

第三方面，本公开实施例提供了一种通信终端，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例中任一所述的语音通话方法。

第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中任一所述的语音通话方法中的步骤。

本公开具有以下有益效果：

本公开实施例提供了一种语音通话方法、通信终端和计算机可读介质，可实现通过不同网络分别传输语音内容信息和语音特征信息提高各网络语音业务资源的利用率，并实现语音通话的高质量进行。

附图说明

图1为本公开实施例提供的一种语音通话方法的流程图；

图2为本公开实施例提供的另一种语音通话方法的流程图；

图3为本公开实施例提供的又一种语音通话方法的流程图；

图4为本公开实施例步骤S7的一种具体实施方式流程图；

图5为本公开实施例提供的再一种语音通话方法的流程图；

图6为本公开实施例提供的再一种语音通话方法的信令图；

图7为本公开实施例提供的再一种语音通话方法的信令图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的语音通话方法、通信终端和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

将理解的是，虽然本文可以使用术语第一、第二等来描述各种元件，但这些元件不应当受限于这些术语。这些术语仅用于区分一个元件和另一元件。因此，在不背离本公开的指教的情况下，下文讨论的第一元件、第一组件或第一模块可称为第二元件、第二组件或第二模块。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

本公开所提供的语音通话方法可用于通过不同网络向通话对端分别传输语音内容信息和语音特征信息，提高各网络语音业务资源的利用率，并实现语音通话的高质量进行。

图1为本公开实施例提供的一种语音通话方法的流程图。如图1所示，该方法包括：

步骤S1、通过第一核心网获取第一终端的语音内容信息。

在步骤S1中，在通话建立后，获取第一终端的语音内容信息，该语音内容信息包括原始音频，即通话对端采集到的音频，经语音识别提取后，不含语音特征信息的可读语音内容。

在一些实施例中，第一核心网包括：2G核心网、3G核心网或4G核心网。当第一核心网为2G核心网或3G核心网时，步骤S1，通过第一核心网获取第一终端的语音内容信息，具体包括：

通过第一核心网的电路交换域来获取语音内容信息。

具体地，通过2G或3G网络中的电路交换域接收第一终端所发送的语音内容信息。该电路交换域负责2G或3G网络中的语音业务，用户的语音业务通过独占信道资源的方式进行，稳定性和安全性较高。

相应地，当第一核心网为4G核心网时，步骤S1，通过第一核心网获取第一终端的语音内容信息，具体包括：

通过第一核心网的IP多媒体系统(IP Multimedia Subsystem，简称IMS)来获取语音内容信息。

在一些实施例中，基于4G核心网，可使用电路域回落(CS Fallback，简称CSFB)或利用IP多媒体系统的方式进行语音通话，使用电路域回落方式时，实质上即是通过2G或3G网络中的电路交换域接收第一终端所发送的语音内容信息。

步骤S2、通过第二核心网获取第一终端的语音特征信息。

在一些实施例中，语音特征信息包括：频谱特性信息。一般而言，该频谱特性信息表征说话者的音色，对应原始音频的音色信息。

在一些实施例中，第二核心网包括：5G核心网。步骤S2，通过第二核心网获取第一终端的语音特征信息的步骤，具体包括：

通过第二核心网的分组交换(Packet Switched，简称PS)域来获取语音特征信息。

具体地，通过5G核心网接收第一终端所发送的语音特征信息。一般而言，4G核心网和5G核心网不含电路交换域，其分组交换域基于多用户共用信道资源的方式，传输速率和资源利用率较高，但不能保证全部数据信息安全到达通信对端。

在本公开实施例中，由于通过分组交换网络所发送的信息为非语音内容信息，因此即便分组交换网络中存在部分信息存在丢失(例如，5G信号不太好的区域)，也不影响电路交换网络中所发送信息的还原和传输；而由于语音内容信完全通过电路交换网络进行传输，则非常安全和稳定，因而不会造成通话过程中的关键信息的丢失。

步骤S3、根据语音内容信息和语音特征信息还原出原始音频。

在一些实施例中，基于相应语音合成算法，对语音内容信息和语音特征信息进行合成，以还原原始音频。

图2为本公开实施例提供的另一种语音通话方法的流程图。如图2所示，该方法为基于图1所示方法的一种具体化可选实施方案。具体地，该方法不仅包括步骤S1～步骤S2，还包括步骤S301和步骤S302，步骤S302为步骤S3的一种具体实施方式。下面仅对步骤S301和步骤S302进行详细描述。

步骤S301、通过第二核心网获取第一终端的环境音频信息。

其中，该环境音频信息为原始音频经语音识别提取后的环境音、背景音、无损音乐或其他特殊声音。

相应地，步骤S3，根据语音内容信息和语音特征信息还原出原始音频的步骤，具体包括：

步骤S302、根据语音内容信息、语音特征信息和环境音频信息还原出原始音频。

图3为本公开实施例提供的又一种语音通话方法的流程图。如图3所示，该方法包括：

步骤S4、获取原始音频。

在一些实施例中，语音通话建立后，通过音频采集设备获取来自本端说话者的原始音频。

步骤S5、从原始音频中提取出语音内容信息。

其中，基于语音识别和相应分析技术，从原始音频中提取出语音内容信息。

步骤S6、通过第一核心网将语音内容信息发送至第二终端。

在一些实施例中，第一核心网包括：2G核心网、3G核心网或4G核心网。当第一核心网为2G核心网或3G核心网时，步骤S6，通过第一核心网将语音内容信息发送至第二终端的步骤，具体包括：

通过第一核心网的电路交换域来发送语音内容信息。

相应地，当第一核心网为4G核心网时，步骤S6，通过第一核心网将语音内容信息发送至第二终端的步骤，具体包括：

通过第一核心网的IP多媒体系统来发送语音内容信息。

步骤S7、控制第二核心网将语音特征信息发送至第二终端。

在一些实施例中，步骤S7，控制第二核心网将所述语音特征信息发送至所述第二终端的步骤，具体包括：

向第二核心网发送控制指令，以指示第二核心网从预先存储的数据库中获取对应的语音特征信息，并发送至第二终端。

图4为本公开实施例步骤S7的一种具体实施方式流程图。其中，第二核心网包括：5G核心网。如图4所示，在步骤S7中，控制第二核心网将所述语音特征信息发送至所述第二终端的步骤之前，还包括：

步骤S701a、从原始音频中提取出语音特征信息。

其中，基于语音识别和相应分析技术，从原始音频中提取出语音特征信息。

相应地，在步骤S7中，控制第二核心网将所述语音特征信息发送至所述第二终端的步骤，具体包括：

步骤S702a、通过第二核心网将语音特征信息发送至第二终端。

其中，通过第二核心网将语音特征信息发送至第二终端，即通过第二核心网将从原始音频中实时提取出的语音特征信息发送至第二终端。

本公开实施例提供了一种语音通话方法，该方法可用于在进行语音通话时，通过电路交换网络向通话对端发送语音内容信息，保证语音完整地发送至通话对端，保证安全性和稳定性，通过分组交换网络向通话对端发送语音特征信息，有效利用语音业务网络资源，提升传输速率，由此，即便有部分通过分组交换网络发送的信息丢失，也不影响整体通话质量。

图5为本公开实施例提供的再一种语音通话方法的流程图。如图5所示，该方法为基于图3所示方法的一种具体化可选实施方案。具体地，该方法不仅包括步骤S4～步骤S7，还包括步骤S8～步骤S10。下面仅对步骤S8～步骤S10进行详细描述。

步骤S8、从原始音频中提取出环境音频信息。

其中，环境音频信息为基于语音识别和相应分析技术，从原始音频中提取出说话者语音相关的信息后，剩余的环境音、背景音或其他特殊声音。

步骤S9、通过第二核心网将环境音频信息发送至第二终端。

步骤S10、向第一核心网和第二核心网发送同步指示，以指示第一核心网和第二核心网根据同步指示分别对语音内容信息和环境音频信息进行切片并编号。

在步骤S10中，第一核心网对应电路交换域或IP多媒体系统，第二核心网对应分组交换域，向第一核心网和第一核心网发送同步指示，以指示第一核心网和第一核心网根据同步指示分别对语音内容信息和环境音频信息进行切片并编号。由此，第二终端收到经切片编号后的语音内容信息和环境音频信息，可根据相应编号进行同步合成。同时，即便部分环境音频信息丢失，也可根据切片信息和相应编号进行修复。

本公开实施例提供了一种语音通话方法，该方法可用于将环境音频信息通过分组交换网络发送至通话对端，保证传输速率的同时，实现无损音频的传输，提升语音通话质量，其中通过同步指示保证各数据信息的同步传递，并且，基于同步性，即便部分分组交换网络发送的信息丢失，也可通过相应算法进行修复。

图6为本公开实施例提供的再一种语音通话方法的信令图。如图6所示，包括：

BZ01、第一终端获取第一原始音频(图中未示出)。

BZ02、第一终端从第一原始音频中提取出第一语音内容信息、语音特征信息和第一环境音频信息(图中未示出)。

其中，从第一原始音频中所提取出信息包含有第一环境音频信息的情况，仅为本公开实施例中的一种可选实施方案。

BZ101、第一终端将第一语音内容信息发送至电路交换域(基于2G或3G网络中的电路交换域)。

BZ102、第一终端将语音特征信息和第一环境音频信息发送至分组交换域(基于5G核心网)。

BZ2、第一终端向电路交换域和分组交换域发送同步指示。

BZ201、电路交换域根据同步指示对第一语音内容信息进行切片并编号。

BZ2021、分组交换域根据同步指示对第一环境音频信息进行切片并编号。

BZ2022、分组交换域将语音特征信息存储至数据库中。

BZ301、电路交换域向第二终端发送切片编号后的第一语音内容信息。

BZ302、分组交换域向第二终端发送语音特征信息和切片编号后的第一环境音频信息。

BZ4、第二终端基于相应编号，根据第一语音内容信息、语音特征信息和第一环境音频信息还原出第一原始音频。

图7为本公开实施例提供的再一种语音通话方法的信令图。如图7所示，包括：

BZ501、第一终端获取第二原始音频(图中未示出)。

BZ502、第一终端从第二原始音频中提取出第二语音内容信息(图中未示出)。

BZ601、第一终端将第二语音内容信息发送至电路交换域。

BZ602、第一终端向分组交换域发送控制指令。

BZ701、电路交换域向第二终端发送第二语音内容信息。

BZ7021、分组交换域根据控制指令从预先存储的数据库中获取第一终端对应的语音特征信息。

BZ7022、分组交换域向第二终端发送语音特征信息。

BZ8、第二终端根据第二语音内容信息和语音特征信息还原出第二原始音频。

本公开实施例还提供了一种通信终端，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当该一个或多个程序被该一个或多个处理器执行，使得该一个或多个处理器实现如上述实施例中的任一语音通话方法。

本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中的任一语音通话方法中的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：颜蓓;任鹏;
专利申请人：中兴通讯股份有限公司;

上一篇：基于智能在线实时交互的设备故障定位方法、系统及电子装置
下一篇：散热装置及其控制方法、介质、设备、车辆