音频的处理方法及装置、设备、存储介质

文献发布时间：2024-04-18 20:01:55

技术领域

本申请实施例涉及计算机技术领域，涉及但不限于一种音频的处理方法及装置、设备、存储介质。

背景技术

随着计算机技术的发展，终端设备的使用越来越广泛。目前，终端设备中应用程序(application，APP)的音频场景越来越丰富，有些场景为了吸引用户的注意力，会突然发出特异的声音，但有时也会对用户带来惊吓。示例性地，用户在观看直播的时候，很难预料下一秒会听到主播说出什么内容，有可能突然说一些不文明的话语，或者不正当的言论等。

在目前相关技术中，对于终端设备输出的音频，也有一些语音识别的方法、对音频中部分词语进行过滤替换的方法，但是目前相关技术中的音频过滤方法不够智能化，也不能识别一些用户不想过滤的音频场景，不能很好的满足用户需求。

因此，如何准确识别用户想要过滤的音频场景并实现过滤，是一个亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供的音频的处理方法及装置、设备、存储介质，可以准确识别用户想要过滤的音频场景并实现过滤，以避免用户被终端设备的音频噪声攻击。本申请实施例提供的音频的处理方法及装置、设备、存储介质是这样实现的：

本申请实施例提供的音频的处理方法，包括：获取第一音频数据；判断所述第一音频数据是否满足预设过滤条件，所述预设过滤条件是根据所述第一音频数据所属的用户的用户状态和/或所述第一音频数据的接收方的身份信息确定的；在所述第一音频数据满足预设过滤条件的情况下，对所述第一音频数据中的目标词汇进行替换，得到第二音频数据；输出所述第二音频数据。

本申请实施例提供的音频的处理装置，包括：获取模块，用于获取第一音频数据；判断模块，用于判断所述第一音频数据是否满足预设过滤条件，所述预设过滤条件是根据所述第一音频数据所属的用户的用户状态和/或所述第一音频数据的接收方的身份信息确定的；替换模块，用于在所述第一音频数据满足预设过滤条件的情况下，对所述第一音频数据中的目标词汇进行替换，得到第二音频数据；输出模块，用于输出所述第二音频数据。

本申请实施例提供的计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例所述的音频的处理方法。

本申请实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的所述的音频的处理方法。

本申请实施例所提供的音频的处理方法、装置、计算机设备和计算机可读存储介质中，终端设备在判断第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据，该方法可以准确识别用户想要过滤的音频场景并实现过滤，以避免用户被终端设备的音频噪声攻击，解决背景技术中所提出的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请一个实施例提供的终端设备的系统架构的示意图；

图2为本申请一个实施例提供的音频的处理方法的实现流程示意图；

图3为本申请另一个实施例提供的音频的处理方法的实现流程示意图；

图4为本申请又一个实施例提供的音频的处理方法的实现流程示意图；

图5为本申请又一个实施例提供的音频的处理方法的实现流程示意图；

图6为本申请一个实施例提供的音频的处理方法的整体示例性实现流程示意图；

图7为本申请一个实施例提供的音频的处理装置的结构性示意图；

图8为本申请一个实施例提供的计算机设备的结构性示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一第二第三”用以区别类似或不同的对象，不代表针对对象的特定排序，可以理解地，“第一第二第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

随着计算机技术的发展，终端设备的使用越来越广泛。目前，终端设备中APP的音频场景越来越丰富，有些场景为了吸引用户的注意力，会突然发出特异的声音，但有时也会给用户带来惊吓。

示例性地，用户在观看直播的时候，很难预料下一秒会听到主播说出什么内容，有可能突然说一些不文明的话语，或者不正当的言论等；再如，有些人热衷于观看恐怖片，恐怖片不仅会有吓人的片段，还会有吓人的声音，在播放到最吓人的片段或吓人的声音时，可能还会出现缺乏勇气观看的情况，但是直接关闭上述视频，显然是不符合观看者的意图的；又如，一些音频数据的接收方可能是一些年纪大的长辈，有些年轻人的词汇对他们来说可能不太合适，因此，如何对这些音频中的不合适的语言进行过滤，成为一个发展方向。

在目前相关技术中，对于终端设备输出的音频，也有一些语音识别的方法、文字转语音的方法、以及对音频中部分词语进行过滤替换的方法，但是目前相关技术中的音频过滤方法不够智能化，也不能识别一些用户不想过滤的音频场景，不能很好的满足用户需求。

因此，如何准确识别用户想要过滤的音频场景并实现过滤，是一个亟待解决的问题。

有鉴于此，本申请实施例提供一种音频的处理方法，该方法应用于终端设备，该方法具体包括：终端设备首先获取第一音频数据，然后判断第一音频数据是否满足预设过滤条件，该预设过滤条件是根据第一音频数据所属的用户的用户状态和/或第一音频数据的接收方的身份信息确定的；在第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到第二音频数据，最后输出第二音频数据。本申请的音频的处理方法中，终端设备在判断第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据，该方法可以准确识别用户想要过滤的音频场景并实现过滤，以避免用户被终端设备的音频噪声攻击。

应理解，本申请实施例涉及的终端设备可以是手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备、虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、智慧屏、人工智能(artificial intelligence，AI)音响、耳机、工业控制(industrial control)中的终端、无人驾驶(self driving)中的终端、远程手术(remote medical surgery)中的终端、智能电网(smart grid)中的终端、运输安全(transportation safety)中的终端、智慧城市(smart city)中的终端、智慧家庭(smart home)中的终端、个人数字助理(personaldigital assistant，PDA)等，本申请实施例对此并不限定。

示例性地，图1为本申请一个实施例提供的终端设备的系统架构示意图。如图1所示，终端设备包括处理器110、存储器120、收发器130、显示单元140、输入单元150、传感器160、音频电路170以及电源模块180等部件。

处理器110是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器110可包括一个或多个处理单元；可选的，处理器110可集成应用处理器，应用处理器主要处理操作装置、用户界面和应用程序等，当然，还可以包括其他处理器，在此不一一列举。

存储器120可用于存储软件程序以及模块，处理器110通过运行存储在存储器120的软件程序以及模块，从而执行终端设备的各种功能应用以及数据处理。存储器120主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

收发器130可以提供应用在终端设备上的包括无线局域网(wireless local areanetworks，WLAN)(例如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。收发器130可以是集成至少一个通信处理模块的一个或多个器件，例如，将天线与基带处理器集成收发器130，或者，将天线和调制解调处理器集成收发器130等，在此不作限制。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元140可以采用液晶显示器(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置等，在此不作限制。

输入单元150可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，输入单元150可收集用户在其上或附近的操作，并根据预先设定的程式驱动相应的连接装置。此外，输入单元150中可以包括触控面板，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板，输入单元150还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于功能键(比如音量控制按键、开关按键等)、轨迹球、操作杆等中的一种或多种。

终端设备还可包括至少一种传感器160，比如陀螺仪传感器、运动传感器以及其他传感器。运动传感器可以包括加速度传感器，用于检测各个方向上加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态的应用，例如横竖屏切换、相关游戏、磁力计姿态校准等；至于终端设备还可配置的压力计、气压计、湿度计、温度计、红外线传感器、指纹传感器等其他传感器，在此不再赘述。

音频电路170可以包括扬声器和传声器，可提供用户与终端设备之间的音频接口。音频电路170可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路170接收后转换为音频数据，再将音频数据输出处理器110处理后，经视频电路以发送给比如另一终端设备，或者将音频数据输出至存储器120以便进一步处理。

终端设备还包括给各个部件供电的电源模块180，可选的，电源模块180可以通过电源管理装置与处理器110逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。

尽管未示出，终端设备还可以包括摄像头。可选地，摄像头在终端设备上的位置可以为前置的，也可以为后置的，本申请实施例对此不作限定。

可以理解的是，本申请实施例示意的结构并不构成对终端设备的具体限定。在本申请另一些实施例中，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

为了使本申请的目的、技术方案更加清楚直观，下面将结合附图及实施例，对本申请实施例提供的音频的处理方法及装置、设备、存储介质进行详细说明。应理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

请参考图2，为本申请一个实施例提供的音频的处理方法的实现流程示意图。该方法可以应用于如图1所示的终端设备，如图2所示，该方法可以包括以下步骤201至步骤204：

步骤201，获取第一音频数据。

在一些实施例中，第一音频数据的格式是终端设备所能识别的格式，换句话说，第一音频数据是通过对输入的原始音频数据进行解析得到的。其中，原始的音频数据可以是各种格式，例如MP3、高级音频编码(advanced audio coding，AAC)、第三代合作伙伴项目计划(3rd generation partnership project，3GPP)、MPEG-4等，具体本申请对此不做限定。

示例性地，以多媒体框架为安卓多媒体框架(mediaframwork)为例，第一音频数据可以是通过将原始音频数据，例如终端设备中的APP或播放器输入的音频媒体流，传入mediaframwork中进行编码解码等解析得到的。

在一些实施例中，终端设备获取第一音频数据的方式可以是直接从终端设备自身的APP或播放器中获取到的，还可以是接收其他电子设备发送来的，本申请对此不做限定。

步骤202，判断第一音频数据是否满足预设过滤条件，该预设过滤条件是根据第一音频数据所属的用户的用户状态和/或第一音频数据的接收方的身份信息确定的。

在一些实施例中，第一音频数据所属的用户的用户状态用于指示用户的情绪状态、身体状态等，例如用户处于愤怒的状态、恶意攻击的状态、或者心情大好，开玩笑的状态等。第一音频数据的接收方的身份信息用于指示音频数据的接收方的工作职位、角色、与音频数据所属的用户的关系等，本申请对此不做限定。

应理解，预设过滤条件是在终端设备中提前设置好的，终端设备根据第一音频数据所属的用户的用户状态和/或第一音频数据的接收方的身份信息判断该第一音频数据是否满足预设过滤条件。

步骤203，在第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到第二音频数据。

可选地，目标词汇主要指的是与第一音频数据对应的音频场景不匹配的词汇、或者语义不文明的词汇等等，具体本申请对此不做限定。

在一些实施例中，终端设备在判断第一音频数据满足预设过滤条件的情况下，识别第一频数据中的目标词汇，并进行词汇的替换，进而得到第二音频数据。

步骤204，输出第二音频数据。

可选地，终端设备输出第二音频数据的方式可以是通过终端设备的音频播放器直接输出，也可以是通过与终端设备建立连接的其他可播放设备输出，例如音箱等，或者使用多媒体框架对该第二音频数据进行解析后再输出，本申请对此不做限定。

该实施例中，终端设备在判断第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据，该方法可以准确识别用户想要过滤的音频场景并实现过滤，以避免用户被终端设备的音频噪声攻击。

基于上述实施例，图3为本申请另一个实施例提供的音频的处理方法的实现流程示意图，在图3所示的实施例中，以用户状态包括第一音频所属的用户的情绪状态，预设过滤条件包括预设情绪状态为例，如图3所示，该方法可以包括以下步骤301至步骤306：

步骤301，获取第一音频数据。

该步骤和图2所示的实施例中的步骤201相似，在此不再赘述。

步骤302，识别第一音频数据所属的用户的情绪状态。

应理解，第一音频数据所属的用户的情绪状态主要指的是用户在说第一音频数据时的心情，例如是快乐、愤怒、悲哀、恐惧等。

在一些实施例中，终端设备识别第一音频数据所属的用户的情绪状态主要是通过识别该第一音频数据所属的用户的语调、语速、以及声音的大小等来判断的。

步骤303，判断第一音频数据所属的用户的情绪状态是否为预设情绪状态。

在一些实施例中，预设情绪状态通常指的是用户一些不好的状态，例如愤怒状态、带有恶意攻击性质的状态等。

可选地，终端设备中提前存储有该预设情绪状态，然后将上个步骤302识别到的第一音频数据所属的用户的情绪状态与该预设情绪状态进行匹配，判断第一音频数据所属的用户的情绪状态是否为预设情绪状态。

步骤304，在第一音频数据所属的用户的情绪状态为预设情绪状态的情况下，判断第一音频数据满足预设过滤条件。

在一些实施例中，预设过滤条件包括预设情绪状态，在第一音频数据所属的用户的情绪状态为预设情绪状态的情况下，例如第一音频数据所属的用户的情绪状态处于恶意攻击性质的状态时，则判断第一音频数据满足该预设过滤条件。

在另一些实施例中，在第一音频数据所属的用户的情绪状态不是预设情绪状态的情况下，例如用户处于愉快的状态时，则判断第一音频数据不满足预设过滤条件，无需对第一音频数据进行过滤，可以直接输出。

步骤305，在第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到第二音频数据。

可选地，目标词汇主要指的是与第一音频数据对应的音频场景不匹配的词汇、或者语义不文明的词汇等等，具体本申请对此不做限定。

步骤306，输出第二音频数据。

在一些实施例中，终端设备输出第二音频数据的方式可以是通过终端设备的音频播放器直接输出，也可以是通过与终端设备建立连接的其他可播放设备输出，例如音箱等，或者使用多媒体框架对该第二音频数据进行解析后再输出，本申请对此不做限定。

该实施例中，终端设备首先获取第一音频数据，然后识别第一音频数据所属的用户的情绪状态，进而判断第一音频数据所属的用户的情绪状态是否为预设情绪状态，在第一音频数据所属的用户的情绪状态为预设情绪状态的情况下，判断第一音频数据满足预设过滤条件，并对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据，该方法通过第一音频数据所属的用户的情绪状态，判断第一音频数据是否满足预设过滤条件，进而在满足预设过滤条件的情况下进行过滤，可以避免用户被终端设备的音频噪声攻击。

在另一种可能的实施方式中，以第一音频数据的接收方的身份信息包括第一音频数据所属的用户与接收方之间的亲密关系，预设过滤条件包括预设亲密关系为例，则终端设备在获取第一音频数据后，去识别第一音频数据所属的用户与接收方之间的亲密关系，进而判断第一音频数据所属的用户与接收方之间的亲密关系是否为预设亲密关系，在第一音频数据所属的用户与接收方之间的亲密关系不是预设亲密关系的情况下，判断第一音频数据满足预设过滤条件，进而对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据。

其中，第一音频数据所属的用户与接收方之间的亲密关系是通过第一音频数据所属的用户与接收方之间的交互频率信息确定的。示例性地，若终端设备获取到第一音频数据所属的用户与接收方之间沟通比较频繁，则判断第一音频数据所属的用户与接收方属于亲密关系。

在一些实施例中，终端设备还可以通过识别第一音频数据所属的用户的音色，确定第一音频所属的用户的身份，进而判断第一音频数据所属的用户与接收方之间的关系。

可选地，预设亲密关系包括爱人关系、父母与子女的关系、闺蜜关系等，本申请对此不做限定。

在一些实施例中，终端设备在判断在第一音频数据所属的用户与接收方之间的亲密关系不是预设亲密关系的情况下，例如是上级和领导的关系，则判断第一音频数据满足预设过滤条件。

在又一种可能的实施方式中，以第一音频数据的接收方的身份信息包括接收方的年龄，预设过滤条件包括预设年龄阈值为例，则终端设备在获取第一音频数据后，去获取接收方的年龄；然后判断接收方的年龄是否大于或等于预设年龄阈值；在接收方的年龄大于或等于预设年龄阈值的情况下，判断第一音频数据满足预设过滤条件。

在一些实施例中，获取接收方的年龄的方式可以是根据终端设备中预设的人员的年龄匹配得到的，也可以是通过终端设备输入的，还可以是其他方式，本申请对此不做限定。

示例性地，假设预设年龄阈值为50岁，则当接收方的年龄大于或等于50岁时，则判断第一音频数据满足预设过滤条件。

进一步地，在第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据。

基于上述实施例，图4为本申请又一个实施例提供的音频的处理方法的实现流程示意图，如图4所示，该方法可以包括以下步骤401至步骤408：

步骤401，获取第一音频数据。

该步骤和图2所示的实施例中的步骤201相似，在此不再赘述。

步骤402，判断第一音频数据是否满足预设过滤条件，预设过滤条件是根据第一音频数据所属的用户的用户状态和/或第一音频数据的接收方的身份信息确定的。

步骤403，在第一音频数据满足预设过滤条件的情况下，将第一音频数据转化为第一文本，该第一文本中包括至少一个词汇。

在一些实施例中，终端设备在第一音频数据满足预设过滤条件的情况下，通过语音识别技术(automatic speech recognition，ASR)将第一音频数据转化为第一文本。其中，ASR的作用主要是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。

可选地，终端设备中包括人工智能(artificial intelligence，AI)模块，AI模块可以基于ASR将第一音频数据转化为第一文本。

步骤404，确定至少一个词汇中，与预设词汇表中相同的词汇为目标词汇。

可选地，预设词汇表中包括一些与各个音频场景不匹配的词汇，或者一些语义不文明，带有攻击性质的词汇等；例如，“傻瓜”、“瓜娃子”等。

在一些实施例中，终端设备将第一文本所包括的至少一个词汇与预设词汇表进行匹配，得到目标词汇，也即，目标词汇为当前音频场景下不合适需要替换的词汇。

步骤405，从预设语义表中确定与目标词汇对应的替换词汇。

应理解，预设语义表中存储有多个词汇和与每个词汇对应的替换词汇，替换词汇的语言相对优美一些，例如，“傻瓜”对应“乖乖”；“瓜娃子”对应“小可爱”等。

可选地，终端设备将目标词汇与预设语义表的词汇进行匹配，得到与目标词汇对应的替换词汇。

步骤406，将第一文本中的目标词汇替换为替换词汇，得到第二文本。

在一些实施例中，终端设备将第一文本中的目标词汇全部替换为上述步骤405中确定的与目标词汇对应的替换词汇，进而得到相应的第二文本。

步骤407，将第二文本转化为音频数据，得到第二音频数据。

可选地，终端设备可以通过文字转语音(text to speech，TTS)技术将文字转换成音频格式，即将第二文本转化为音频数据，得到第二音频数据。

步骤408，输出第二音频数据。

该实施例中，终端设备首先获取第一音频数据，然后判断第一音频数据是否满足预设过滤条件，在第一音频数据满足预设过滤条件的情况下，将第一音频数据转化为第一文本，然后对第一文本中的目标词汇进行替换，得到第二文本，在将第二文本转换为第二音频数据并输出，该方法中主要是基于ASR和TTS技术将第一音频数据进行文本转换，以及音频转换处理，以实现目标词汇的过滤，最后得到第二音频数据，可以避免用户被终端设备的音频噪声攻击。

需要说明的是，该实施例中主要是以终端设备首先判断第一音频数据是否满足预设过滤条件，在第一音频数据满足预设过滤条件的情况下，进一步确定目标词汇以及对应的替换词汇，最终实现过滤为例进行说明的，当然，终端设备也可以首先根据第一音频数据确定第一音频数据中是否存在目标词汇，在第一音频数据中存在目标词汇的情况下，进一步判断第一音频数据是否满足预设过滤条件，最终在第一音频数据满足预设过滤条件的情况下实现过滤，对此判断的先后顺序，本申请对此不做限定。

基于上述实施例，图5为本申请又一个实施例提供的音频的处理方法的实现流程示意图，在图5所示的实施例中，以终端设备中还设置有过滤开关单元为例，如图5所示，该方法可以包括以下步骤501至步骤506：

步骤501，获取第一音频数据。

该步骤和图2所示的实施例中的步骤201相似，在此不再赘述。

步骤502，判断过滤开关单元是否处于开启状态。

应理解，过滤开关单元可以是终端设备的设置里的一个功能按钮，用户可以进行开启或关闭，也可以是终端设备上的一个机械旋钮、物理开关等，用户也可以手动进行开启或关闭，具体形态本申请对此不做限定。

步骤503，在过滤开关单元处于开启状态的情况下，判断第一音频数据是否满足预设过滤条件，该预设过滤条件是根据第一音频数据所属的用户的用户状态和/或第一音频数据的接收方的身份信息确定的。

在一些实施例中，在过滤开关单元处于开启状态的情况下，终端设备根据第一音频数据所属的用户的用户状态和/或第一音频数据的接收方的身份信息判断该第一音频数据是否满足预设过滤条件。

在一种可能的实施方式中，在过滤开关单元处于关闭状态的情况下，则终端设备不对该第一音频数据进行过滤，直接输出第一音频数据。

步骤504，在第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到第二音频数据。

可选地，目标词汇主要指的是与第一音频数据对应的音频场景不匹配的词汇、或者语义不文明的词汇等等，具体本申请对此不做限定。

步骤505，将第二音频数据输入至多媒体框架中进行解析。

可选地，以多媒体框架为mediaframwork为例，终端设备在得到第二音频数据后，将第二音频数据输入mediaframwork中进行编码解码等解析。

步骤506，将解析后的第二音频数据发送至终端设备的音频驱动，以通过音频驱动对应的音频播放器件输出第二音频数据。

应理解，音频驱动对应的音频播放器件可以是终端设备自身的音频播放器，也可以是与终端设备建立连接的其他可播放设备，例如音箱等，还可以是其他的器件，本申请对此不做限定。

该实施例中，终端设备中设置有过滤开关单元，终端设备首先获取第一音频数据，然后判断过滤开关单元是否处于开启状态，在过滤开关单元处于开启状态的情况下，判断第一音频数据是否满足预设过滤条件，在第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到第二音频数据，进而将将第二音频数据输入至多媒体框架中进行解析，最后发送至终端设备的音频驱动，以通过音频驱动对应的音频播放器件输出第二音频数据。该方法中，终端设备主要是在过滤开关单元处于开启状态的情况下，判断第一音频数据是否满足预设过滤条件，进而在第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据，该方法可以准确识别用户想要过滤的音频场景并实现过滤，以避免用户被终端设备的音频噪声攻击。

综合上述实施例，图6为本申请一个实施例提供的音频的处理方法的整体示例性实现流程示意图，如图6所示，该方法可以包括以下步骤601至步骤611：

步骤601，APP/播放器输入音频媒体流。

步骤602，通过安卓多媒体框架对该音频媒体流进行解析，得到第一音频数据。

步骤603，判断过滤开关单元是否处于开启状态；若处于开启状态，则执行步骤604，否则执行步骤610。

步骤604，判断第一音频数据是否满足预设过滤条件；若满足预设过滤条件，则执行步骤605，否则执行步骤610。

步骤605，判断第一音频数据中是否包括目标词汇；若第一音频数据中存在目标词汇，则执行步骤606，否则执行步骤610。

步骤606，通过AI模块将第一音频数据转换为第一文本。

步骤607，基于预设语义表，将第一文本中对应的目标词汇进行替换，得到第二文本。

步骤608，将第二文本转化为音频数据，得到第二音频数据。

步骤609，将第二音频数据输入至安卓多媒体框架中进行解析。

步骤610，将解析后的第二音频数据发送至终端设备的音频驱动。

步骤611，通过音频驱动对应的音频播放器件输出第二音频数据。

以上步骤中的具体实现过程可以参考上述图2至图5所述的实施例中的实现方式，在此不再赘述。

综上所述，本申请实施例中的音频的处理方法中，终端设备在判断第一音频数据满足预设过滤条件的情况下，对第一音频数据中的目标词汇进行替换，得到并输出第二音频数据，该方法可以准确识别用户想要过滤的音频场景并实现过滤，例如在用户不想被某些声音内容惊吓或影响到的情况下，对音频进行过滤，将污言秽语转化成优美的语言，保证用户心情的愉悦，以及化解人之间的冲突矛盾等，同时也可以避免用户被终端设备的音频噪声攻击。

应该理解的是，虽然上述各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于前述的实施例，本申请实施例提供一种音频的处理装置，该装置包括所包括的各模块、以及各模块所包括的各单元，可以通过处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图7为本申请一个实施例提供的音频的处理装置的结构示意图，如图7所示，所述装置700包括获取模块701、判断模块702、替换模块703和输出模块704，其中：

获取模块701，用于获取第一音频数据；判断模块702，用于判断所述第一音频数据是否满足预设过滤条件，所述预设过滤条件是根据所述第一音频数据所属的用户的用户状态和/或所述第一音频数据的接收方的身份信息确定的；替换模块703，用于在所述第一音频数据满足预设过滤条件的情况下，对所述第一音频数据中的目标词汇进行替换，得到第二音频数据；输出模块704，用于输出所述第二音频数据。

在一些实施例中，所述用户状态包括所述第一音频所属的用户的情绪状态，所述预设过滤条件包括预设情绪状态，所述判断模块702具体用于：识别所述第一音频数据所属的用户的情绪状态；判断所述第一音频数据所属的用户的情绪状态是否为所述预设情绪状态；在所述第一音频数据所属的用户的情绪状态为所述预设情绪状态的情况下，判断所述第一音频数据满足所述预设过滤条件。

在一些实施例中，所述身份信息包括所述第一音频数据所属的用户与所述接收方之间的亲密关系，所述预设过滤条件包括预设亲密关系，所述判断模块702具体用于：识别所述第一音频数据所属的用户与所述接收方之间的亲密关系；判断所述第一音频数据所属的用户与所述接收方之间的亲密关系是否为所述预设亲密关系；在所述第一音频数据所属的用户与所述接收方之间的亲密关系不是所述预设亲密关系的情况下，判断所述第一音频数据满足所述预设过滤条件。

在一些实施例中，所述第一音频数据所属的用户与所述接收方之间的亲密关系是通过所述第一音频数据所属的用户与所述接收方之间的交互频率信息确定的。

在一些实施例中，所述身份信息包括所述接收方的年龄，所述预设过滤条件包括预设年龄阈值，所述判断模块702具体用于：获取所述接收方的年龄；判断所述接收方的年龄是否大于或等于所述预设年龄阈值；在所述接收方的年龄大于或等于所述预设年龄阈值的情况下，判断所述第一音频数据满足所述预设过滤条件。

在一些实施例中，所述替换模块703具体用于：将所述第一音频数据转化为第一文本，所述第一文本中包括至少一个词汇；确定所述至少一个词汇中，与预设词汇表中相同的词汇为所述目标词汇；从预设语义表中确定与所述目标词汇对应的替换词汇；将所述第一文本中的所述目标词汇替换为所述替换词汇，得到第二文本；将所述第二文本转化为音频数据，得到所述第二音频数据。

在一些实施例中，所述第一音频数据是通过多媒体框架对输入的原始音频数据进行解析得到的。

在一些实施例中，所述输出模块704具体用于：将所述第二音频数据输入至多媒体框架中进行解析；将解析后的第二音频数据发送至终端设备的音频驱动，以通过所述音频驱动对应的音频播放器件输出所述第二音频数据。

在一些实施例中，终端设备中还设置有过滤开关单元，所述判断模块702还用于：判断所述过滤开关单元是否处于开启状态；在所述过滤开关单元处于开启状态的情况下，判断所述第一音频数据是否满足所述预设过滤条件。

在一些实施例中，所述输出模块704，还用于在所述过滤开关单元处于关闭状态的情况下，输出所述第一音频数据。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中图7所示的音频的处理装置对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例提供一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例提供的方法中的步骤。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的资源池化装置可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成上述装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如对象A和/或对象B，可以表示：单独存在对象A，同时存在对象A和对象B，单独存在对象B这三种情况。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的，作为模块显示的部件可以是、或也可以不是物理模块；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能模块可以全部集成在一个处理单元中，也可以是各模块分别单独作为一个单元，也可以两个或两个以上模块集成在一个单元中；上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：OPPO广东移动通信有限公司;

上一篇：音频合成方法、训练方法、装置、设备及存储介质
下一篇：汽车安全气囊展开参数优化方法、设备及介质