导航：首页> 乐器；声学>显示设备、语音处理方法及装置

显示设备、语音处理方法及装置

文献发布时间：2024-04-18 20:01:55

技术领域

本申请实施例涉及显示技术领域。更具体地讲，涉及一种显示设备、语音处理方法及装置。

背景技术

随着多媒体显示技术的不断发展，通过将具备语音通话功能以及远程视频功能的显示大屏应用在远程会议中，使得不同地区的人员可以通过会议中展示的大屏进行实时沟通和讨论，扩展了远程会议的场景。

现有技术中，在远程会议的过程中，显示大屏会录入发言人的语音，并传输至远程会议终端。为了避免因发言人的位置距离显示大屏的麦克风太远而影响录入的语音的效果，显示大屏会对录入的语音进行提高增益以及去除混响处理，以提高远程会议过程中实时传输的语音质量。

然而，当因发言人的位置距离显示大屏的麦克风比较近时，对录入的声音进行去除混响处理后会导致在远程会议终端播放的声音出现干涩无力的问题，影响会议的通话效果。

发明内容

本申请示例性的实施方式提供一种显示设备、语音处理方法及装置，通过对目标场景的图像进行处理确定语音的来波方向以及对应的距离信息，根据距离信息对采集的语音的音频进行增益处理以及去混响处理，提升了通话质量。

第一方面，本申请实施例提供一种显示设备，包括：

图像获取装置，用于采集目标场景的待识别图像；

语音获取装置，用于采集目标人物的待处理语音；

控制器，被配置为：

获得待识别图像，对所述待识别图进行处理获得映射表，其中所述映射表中包含至少一组距离参数以及对应的角度参数；

获得待处理语音，对所述待处理语音进行波束成形算法处理，确定所述待处理语音对应的来波角度，若在所述映射表中存在所述来波角度对应的目标角度参数，则获得所述目标角度参数对应的目标距离；

确定所述目标距离对应的目标混响参数，并确定所述目标距离对应的目标增益参数，根据所述目标混响参数以及所述目标增益参数确定所述待处理语音对应的目标语音，并将所述目标语音发送至目标终端。

在一种可能的设计中，所述控制器被配置为，在执行所述确定所述目标距离对应的目标混响参数时，具体用于：

若所述目标距离小于预设最小距离，则确定所述目标混响参数为1；

若所述目标距离大于或者等于预设最小距离，则根据以下公式确定所述目标距离对应的目标混响参数：

τ＝1+0.01log(10*d)

其中，τ为目标混响参数，d为目标距离。

在一种可能的设计中，所述控制器被配置为，在执行所述确定所述目标距离对应的目标增益参数时，具体用于：

根据以下公式确定所述目标距离对应的目标增益参数：

其中，θ为目标增益参数，d为目标距离。

在一种可能的设计中，所述控制器被配置为，在执行所述根据所述目标混响参数以及所述目标增益参数确定所述待处理语音对应的目标语音时，具体用于：

根据所述目标混响参数以及目标增益参数的乘积确定目标系数；

根据所述目标系数以及所述待处理语音获得目标语音。

在一种可能的设计中，所述控制器被配置为，在执行所述对所述待识别图进行处理获得映射表时，具体用于：

对所述待识别图像进行人脸识别处理以及面部测距处理，获得至少一个人脸图像以及每个人脸图像对应的距离参数以及位置参数；

根据每个人脸图像对应的位置参数确定每个人脸图像对应角度参数；

根据所有人脸图像对应的距离参数以及角度参数生成映射表。

在一种可能的设计中，所述控制器被配置为，在执行所述根据每个人脸图像对应的位置参数确定每个人脸图像对应角度参数之后，还用于：

按照预设角度间隔参数获得至少一个角度区间，其中每个角度区间包含最小角度参数以及最大角度参数；

确定每个人脸图像对应的角度参数所匹配的角度区间，将属于相同角度区间的所有人脸图像对应的距离参数的均值作为角度区间对应的均值距离，并根据所有的角度区间以及对应的均值距离生成映射表。

在一种可能的设计中，所述控制器被配置为，在执行所述若在所述映射表中存在所述来波角度对应的目标角度参数，则获得所述目标角度参数对应的目标距离时，还用于：

若在所述映射表中确定存在所述目标角度参数符合的目标角度区间，则将所述目标角度区间对应的均值距离确定为所述目标角度参数对应的目标距离，其中所述目标角度参数大于或者等于所述目标角度区间对应的最小角度参数，且所述目标角度参数小于或者等于所述目标角度区间对应的最大角度参数。

在一种可能的设计中所述语音获取装置为包含了至少两个麦克风的麦克风阵列。

第二方面，本申请实施例提供一种语音处理方法，包括：

获得待识别图像，对所述待识别图进行处理获得映射表，其中所述映射表中包含至少一组距离参数以及对应的角度参数；

第三方面，本申请实施例提供一种语音处理装置，包括：

获得模块，用于获得待识别图像，对所述待识别图进行处理获得映射表，其中所述映射表中包含至少一组距离参数以及对应的角度参数；

处理模块，用于获得待处理语音，对所述待处理语音进行波束成形算法处理，确定所述待处理语音对应的来波角度，若在所述映射表中存在所述来波角度对应的目标角度参数，则获得所述目标角度参数对应的目标距离；

确定模块，用于确定所述目标距离对应的目标混响参数，并确定所述目标距离对应的目标增益参数，根据所述目标混响参数以及所述目标增益参数确定所述待处理语音对应的目标语音，并将所述目标语音发送至目标终端。

本申请实施例提供的显示设备、语音处理方法及装置，通过获得摄像头拍摄的所有参与远程会议的人员的位置，确定所有位置的参与会议人员与麦克风之间的距离以及相对于摄像头的角度，当检测到有人员发言时，根据发言人的位置确定距离，并根据距离对发言人的语音进行智能增益以及去混响处理，提高远程会议的通话质量。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的显示设备与控制装置之间操作场景的示意图；

图2示例性示出了根据示例性实施例中控制设备的配置框图；

图3为本发明实施例提供的控制设备的硬件配置框图；

图4为本发明实施例提供的显示设备中软件配置示意图；

图5为本发明实施例提供的显示设备中应用程序的图标控件界面显示示意图；

图6为本发明实施例提供的显示设备的结构示意图；

图7为本发明实施例提供的语音处理方法的流程示意图一；

图8为本发明实施例提供的人脸图像对应的位置示意图；

图9为本发明实施例提供的语音处理方法的流程示意图二；

图10为本发明实施例提供的语音处理方法的流程示意图三；

图11为本发明实施例提供的语音处理装置的结构示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语″模块″，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为本发明实施例提供的显示设备与控制装置之间操作场景的示意图，如图1所示，用户可通过移动终端300和控制设备200操作显示设备100。控制设备200可以是遥控器，遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信，无线或其他有线方式来控制显示设备100。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备100。在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备100。

图2示例性示出了根据示例性实施例中控制设备的配置框图。如图2所示，控制设备100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制设备100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3为本发明实施例提供的控制设备的硬件配置框图。如图3所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，″用户界面″，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

图4为本发明实施例提供的显示设备中软件配置示意图，如图4所示，将系统分为四层，从上至下分别为应用程序(Applications)层(简称″应用层″)，应用程序框架(Application Framework)层(简称″框架层″)，安卓运行时(Android runtime)和系统库层(简称″系统运行库层″)，以及内核层。内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

图5为本发明实施例提供的显示设备中应用程序的图标控件界面显示示意图，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。直播电视应用程序，可以通过不同的信号源提供直播电视。视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。应用程序中心，可以提供储存各种应用程序。

在远程会议的过程中，显示大屏会录入发言人的语音，并传输至远程会议终端。为了避免因发言人的位置距离显示大屏的麦克风太远而影响录入的语音的效果，显示大屏会对录入的语音进行提高增益以及去除混响处理，以提高远程会议过程中实时传输的语音质量。然而，当因发言人的位置距离显示大屏的麦克风比较近时，对录入的声音进行去除混响处理后会导致在远程会议终端播放的声音出现干涩无力的问题，影响会议的通话效果。

对现有方法中远程会议场景中通话语音质量较差的问题，本申请提供了一种显示设备、语音处理方法及装置，通过确定与每个分区为相邻位置关系的目标子分区，获得每个分区对应的所有目标子分区的亮度参数，根据每个分区对应的所有目标子分区的亮度参数确定分区的背光补偿参数，根据每个分区的待调整背光值以及对应的背光补偿参数确定分区对应的目标背光值，并根据每个分区对应的目标背光值以及图像信号获得调整后的图像信号，动态的调整了显示图像的亮度，改进了现有技术在进行背光补偿后，显示动态图像存在光晕太大的问题，提升了整个显示图像的对比度，提高了图像的显示效果。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似得概念或过程可能在某些实施例不再赘述。

图6为本发明实施例提供的显示设备的结构示意图，如图6所示，本发明实施例提供的显示设备包含控制器601、显示器602、图像获取装置603以及语音获取装置604。示例性的，图像获取装置603为安装在显示设备上的摄像头。语音获取装置604为麦克风，具体的，为了提高显示设备在语音通话过程中拾取语音效果，语音获取装置为包含了至少两个麦克风的麦克风阵列。示例性的，语音获取装置604为包含了6个麦克风的麦克风阵列。

在本发明实施例中，控制器601通过图像获取装置603采集目标场景的待识别图像。示例性的，目标场景为当前显示设备的应用场景。具体的，当目标场景为远程会议场景时，待识别图像为显示设备面对的所有参与远程会议的人员。控制器601通过语音获取装置604采集目标人物的待处理语音。具体的，目标任务为会议中发言的人员。

在本发明实施例中，控制器601通过获得摄像头拍摄的所有参与远程会议的人员的位置，确定所有位置的参与会议人员与麦克风之间的距离以及相对于摄像头的角度，当检测到有人员发言时，根据发言人的位置确定距离，并根据距离对发言人的语音进行智能增益以及去混响处理，提高远程会议的通话质量。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相使得概念或过程可能在某些实施例不再赘述。

图7为本发明实施例提供的语音处理方法的流程示意图一，本实施例的执行主体可以为图6所示实施例中的控制器。如图7所示，该方法包括：

S701：获得待识别图像，对待识别图进行处理获得映射表，其中映射表中包含至少一组距离参数以及对应的角度参数。

在本发明实施例中，显示设备开启之后，生成获取图像的指令，根据获取图像的指令控制图像获取装置拍摄显示设备对应的场景图。示例性的，图像获取装置为安装在显示设备正上方的摄像头。当显示设备应用于远程会议中，摄像头拍摄的目标场景包含了所有面向显示设备的参与会议的人员，即摄像头拍摄的待识别图像中包含了至少一个参与会议人员的面部图像特征。

在本发明实施例中，在显示设备的控制器中预置了人脸图像识别算法以及面部测距算法。在获得了包含至少一个参与会议人员的面部图像特征的待识别图像之后，示例性的，对待识别图像进行人脸识别处理以及面部测距处理，获得至少一个人脸图像以及每个人脸图像对应的距离参数以及位置参数。

具体的，通过采用人脸图像识别算法，识别出待识别图像中包含的所有人脸图像以及每个人脸图像的位置，其中，每个人脸图像的位置即识别出的人脸图像在待识别图像中的位置数据，即距离待识别图像中心的偏移位置参数。在摄像头拍摄待识别图像的过程中，通过采用面部测距算法根据摄像头本身的焦距、摄像头识别到的人眼像素宽度以及人两个眼睛的距离可以确定人眼与摄像头之间的距离。示例性的，摄像头在拍摄当前会议场所对应的待识别图像的过程中，会根据识别到的人脸图像位置进行多次调整焦距的过程，以测量所有参与会议人员与显示设备之间的距离。

在本发明实施例中，在获得了所有人脸图像以及每个人脸图像对应的距离参数以及位置参数之后，可根据每个人脸图像对应的位置参数确定每个人脸图像对应角度参数，再根据所有人脸图像对应的距离参数以及角度参数生成映射表。

图8为本发明实施例提供的人脸图像对应的位置示意图。具体的，人脸图像对应的位置如图8所示。示例性的，在对待识别图像进行处理，获得所有识别到的人脸图像位于待识别图像中的位置信息之后，确定每个人脸图像的角度参数。其中计算角度参数的具体方法为，将待识别图像的下方中心作为圆点的位置，确定人脸图像位置与圆点之间的直线的斜率，根据该斜率确定该人脸图像的角度参数。在计算出所有人脸图像的角度参数之后，根据所有人脸图像对应的距离参数以及角度参数生成映射表。

示例性的，在待识别图像中识别出6个参与会议人员的头像，分别标识为1号至6号人员，则根据1号至6号人员对应的距离参数以及角度参数获得的映射表如表1所示：

表1

S702：获得待处理语音，对待处理语音进行波束成形算法处理，确定待处理语音对应的来波角度，若在映射表中存在来波角度对应的目标角度参数，则获得目标角度参数对应的目标距离。

在本发明实施例中，在显示设备提供远程会议的过程中，当显示设备的语音获取装置检测到语音时，录入会议人员说的语音音频作为待处理语音。示例性的，对待处理语音进行消除回声处理，对消除回声后的待处理语音采用波束成形算法进行分析。

在本发明实施例中，在显示设备中预置了波束成形算法即自适应波束赋形算法，该算法可以识别录入的语音的方位。在本发明实施例中，通过对待处理语音进行波束成形算法处理，可获得当前会议中发言人相对于显示设备的方位，根据方位信息获得了当前会议发言人员的来波角度。

在本发明实施例中，若在映射表中存在来波角度对应的目标角度参数，则获得目标角度参数对应的目标距离。示例性的，若在S702中获得的映射表中能够找到与来波角度一致的角度参数，则确定与来波角度一致角度参数对应的人员为当前发言的人员。将与来波角度一致的角度参数作为目标角度参数，将目标角度参数对应的距离参数作为目标距离。

在本发明实施例中，若无法在映射表中存在来波角度对应的目标角度参数，即当前采集的语音可能不是发言人发出的语音，将目标距离设置为零。示例性的，当目标距离为零时，直接对待识别语音进行消音处理。

S703：确定目标距离对应的目标混响参数，并确定目标距离对应的目标增益参数，根据目标混响参数以及目标增益参数确定待处理语音对应的目标语音，并将目标语音发送至目标终端。

在本发明实施例中，在确定了当前发言人与显示设备之间的目标距离之后，可根据目标距离对应的混响参数以及增益参数对音频进行调整。

示例性的，可以根据目标距离确定对应的目标混响参数。具体的，当目标距离小于预设最小距离时，确定目标混响参数为1。示例性的，预设最小距离为3米，即与显示设备之间的距离小于3米的所有发言人的语音，对应的混响系数为1。当目标距离大于或者等于预设最小距离时，根据公式(1)确定目标距离对应的目标混响参数：

τ＝1+0.01log(10*d)(1)

其中，τ为目标混响参数，d为目标距离。

示例性的，可根据目标距离确定对应的目标增益参数，具体的，根据公式(2)确定目标距离对应的目标增益参数：

其中，θ为目标增益参数，d为目标距离。

在本发明实施例中，在确定所述目标距离对应的目标混响参数以及确定所述目标距离对应的目标增益参数之后，示例性的，根据目标混响参数以及目标增益参数的乘积确定目标系数，即根据目标混响参数T与目标增益参数θ的乘积确定目标系数。

在本发明实施例中，在对待处理语音进行回声消除处理之后，根据计算获得的目标系数对回声消除处理后的待处理语音进行去混响处理以及语音增益处理，获得了处理后的目标语音，并将目标语音发送至远程会议对应的目标终端，提高了目标语音在远程会议的另一端的播放效果。

本实施例提供的语音处理方法，通过获得摄像头拍摄的所有参与远程会议的人员的位置，确定所有位置的参与会议人员与麦克风之间的距离以及相对于摄像头的角度，当检测到有人员发言时，根据发言人的位置确定距离，并根据距离对发言人的语音进行智能增益以及去混响处理，提高远程会议的通话质量。

图9为本发明实施例提供的语音处理方法的流程示意图二。在本发明实施例中，在图7提供的实施例的基础上，S701中获得待识别图像并对所述待识别图进行处理获得映射表的另一种实现方法进行了详细说明。如图9所示，该方法包括：

S901：对待识别图像进行人脸识别处理以及面部测距处理，获得至少一个人脸图像以及每个人脸图像对应的距离参数以及位置参数。

S902：根据每个人脸图像对应的位置参数确定每个人脸图像对应角度参数。

在本发明实施例中，S901至S902实现的方法和效果与图7实施例中S701实现的方法和效果一致，在此不再赘述。

S903：按照预设角度间隔参数获得至少一个角度区间，其中每个角度区间包含最小角度参数以及最大角度参数。

在本发明实施例中，预置了多个角度区间。示例性的，如角度区间表格表2所示，表2中包含显示设备的控制器中预设的至少一个角度区间。其中，预设角度间隔参数为30度。

表2

S904：确定每个人脸图像对应的角度参数所匹配的角度区间，将属于相同角度区间的所有人脸图像对应的距离参数的均值作为角度区间对应的均值距离，并根据所有的角度区间以及对应的均值距离生成映射表。

示例性的，若1号人员、2号人员以及3号人员对应的角度参数分别为10度、15度以及20度，则1号人员、2号人员以及3号人员对应的10度、15度以及20度匹配的角度区间为第一角度区间，若1号人员、2号人员以及3号人员对应的距离参数分别为1米、2米以及3米，则将1号人员、2号人员以及3号人员对应的距离参数的均值2米作为第一角度区间对应的均值距离。

在获得了所有人脸图像以及每个人脸图像对应的距离参数以及位置参数之后，根据角度区间表格中每个角度区间包含最小角度参数以及最大角度参数，获得每个角度区间对应的均值距离，并根据所有的角度区间以及对应的均值距离生成新的映射表，如表3所示：

表3

本实施例提供的语音处理方法，通过按照预设角度间隔参数获得至少一个角度区间，并确定每个人脸图像对应的角度参数所匹配的角度区间，将属于相同角度区间的所有人脸图像对应的距离参数的均值作为角度区间对应的均值距离，并根据所有的角度区间以及对应的均值距离生成映射表，则可以在获得了待识别语音对应的来波方向后可以直接根据映射表确定对应的目标距离，降低了确定目标距离的数据处理流程，提高了语音处理的效率。

图10为本发明实施例提供的语音处理方法的流程示意图三。在本发明实施例中，在图9提供的实施例的基础上，S905中根据所有的角度区间以及对应的均值距离生成映射表之后，提供的另一种语音处理的方法进行了详细说明。如图10所示，该方法包括：

S1001：获得待识别图像，根据待识别图像生成映射表，其中映射表中包含至少一组距离参数以及对应的角度参数。

S1001：获得待处理语音，对待处理语音进行波束成形算法处理，确定待处理语音对应的来波角度。

在本发明实施例中，S1001至S1002实现的方法和效果与图7实施例中S701至S702实现的方法和效果一致，在此不再赘述。

S1003：若在映射表中确定存在目标角度参数符合的目标角度区间，则将目标角度区间对应的均值距离确定为目标角度参数对应的目标距离，其中目标角度参数大于或者等于目标角度区间对应的最小角度参数，且目标角度参数小于或者等于目标角度区间对应的最大角度参数。

在本发明实施中，由于S1001中确定的待处理语音对应的来波角度可能会存在一定的偏差。采用表1作为映射表确定目标距离的方法的过程中可能会出现无法在表1的映射表中查询到来波角度对应的目标角度参数，即可能会存在无法根据表1获得目标角度参数对应的目标距离。因此，可以通过表3作为映射表，即在映射表中确定存在目标角度参数符合的目标角度区间时，将目标角度区间对应的均值距离确定为目标角度参数对应的目标距离。具体的，目标角度参数大于或者等于目标角度区间对应的最小角度参数，且目标角度参数小于或者等于目标角度区间对应的最大角度参数。

示例性的，当4号人员对应的角度参数为75度时，可确定4号人员对应的角度参数匹配的表3中的角度区间为第三角度区间，则将第三角度区间的均值距离3米确定为4号人员对应的目标距离。

S1004：确定目标距离对应的目标混响参数，并确定目标距离对应的目标增益参数，根据目标混响参数以及目标增益参数确定待处理语音对应的目标语音，并将目标语音发送至目标终端。

在本发明实施例中，S1004实现的方法和效果与图7实施例中S703实现的方法和效果一致，在此不再赘述。

本实施例提供的语音处理方法，通过根据包含了多个角度区间的映射表确定来波方向对应的目标距离，避免由于来波方向的误差造成无法获得来波方向对应的目标距离的情况，改进了根据目标角度参数确定目标距离的方法，提高了语音处理的准确性。

图11为本发明实施例提供的语音处理装置的结构示意图。如图11所示，该语音处理装置包括：获得模块1101、处理模块1102及确定模块1103。

获得模块1101，用于获得待识别图像，对所述待识别图进行处理获得映射表，其中所述映射表中包含至少一组距离参数以及对应的角度参数。

处理模块1102，用于获得待处理语音，对所述待处理语音进行波束成形算法处理，确定所述待处理语音对应的来波角度，若在所述映射表中存在所述来波角度对应的目标角度参数，则获得所述目标角度参数对应的目标距离。

确定模块1103，用于确定所述目标距离对应的目标混响参数，并确定所述目标距离对应的目标增益参数，根据所述目标混响参数以及所述目标增益参数确定所述待处理语音对应的目标语音，并将所述目标语音发送至目标终端。

在一种可能的设计中，确定模块1103具体用于若所述目标距离小于预设最小距离，则确定所述目标混响参数为1；若所述目标距离大于或者等于预设最小距离，则根据以下公式确定所述目标距离对应的目标混响参数：

τ＝1+0.01log(10*d)

其中，τ为目标混响参数，d为目标距离。

在一种可能的设计中，确定模块1103具体用于根据以下公式确定所述目标距离对应的目标增益参数：

其中，θ为目标增益参数，d为目标距离。

在一种可能的设计中，确定模块1103具体用于根据所述目标混响参数以及目标增益参数的乘积确定目标系数；根据所述目标系数以及所述待处理语音获得目标语音。

在一种可能的设计中，获得模块1101具体用于对所述待识别图像进行人脸识别处理以及面部测距处理，获得至少一个人脸图像以及每个人脸图像对应的距离参数以及位置参数；根据每个人脸图像对应的位置参数确定每个人脸图像对应角度参数；根据所有人脸图像对应的距离参数以及角度参数生成映射表。

在一种可能的设计中，获得模块1101具体用于按照预设角度间隔参数获得至少一个角度区间，其中每个角度区间包含最小角度参数以及最大角度参数；确定每个人脸图像对应的角度参数所匹配的角度区间，将属于相同角度区间的所有人脸图像对应的距离参数的均值作为角度区间对应的均值距离，并根据所有的角度区间以及对应的均值距离生成映射表。

在一种可能的设计中，处理模块1102具体用于若在所述映射表中确定存在所述目标角度参数符合的目标角度区间，则将所述目标角度区间对应的均值距离确定为所述目标角度参数对应的目标距离，其中所述目标角度参数大于或者等于所述目标角度区间对应的最小角度参数，且所述目标角度参数小于或者等于所述目标角度区间对应的最大角度参数。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

完整全部详细技术资料下载