掌桥专利:专业的专利平台
掌桥专利
首页

通讯优化方法、装置、设备及介质

文献发布时间:2023-06-19 10:32:14


通讯优化方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种通讯优化方法、装置、设备及介质。

背景技术

随着音视频技术的不断发展,音视频被广泛应用在各个领域、各个业务中,例如:银行推出与音视频相关的产品供业务员使用。在此过程中,如果一方情绪不好,很可能导致通话过程不愉快,影响双方的沟通情绪。

针对上述问题,常用的方法是针对服务人员建立约束,避免与客户发生正面冲突,对心理素质有较高要求,对客服人员的友好性较低。

当然,在其他解决方案中,如采用神经网络算法判断客户情绪,再将判断结果反馈给服务人员参考。由于训练样本单一、训练参数有限,情绪判断的准确率及检测效率都受到一定限制。

发明内容

鉴于以上内容,有必要提供一种通讯优化方法、装置、设备及介质,能够同时结合姿态检测结果及表情识别结果进行情绪类型的判断,有效提升了情绪判断的准确性,同时,在检测到有任意通讯用户的情绪异常时,对视频进行优化处理,以避免由于某个通讯用户的情绪变化影响整个通讯过程,利用美化且趣味性的视频效果缓和每个通讯用户的情绪,提升了沟通质量。

一种通讯优化方法,所述通讯优化方法包括:

响应于通讯优化指令,根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频;

采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果;

对所述目标视频进行特征截取,得到待检测图片;

将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果;

根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型;

当检测到有通讯用户的情绪类型为目标情绪类型时,对所述目标视频进行优化处理,得到优化视频;

输出所述优化视频。

根据本发明优选实施例,所述采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果包括:

对所述目标视频进行拆分,得到每个通讯用户对应的视频段;

采用改进的姿态检测算法检测每个通讯用户对应的视频段中每个通讯用户的姿态数据;

将每个通讯用户的姿态数据输入至分类器中进行分类,输出每个通讯用户的姿态分类结果;

将每个通讯用户的姿态分类结果确定为每个通讯用户的姿态检测结果。

根据本发明优选实施例,所述采用改进的姿态检测算法检测每个通讯用户对应的视频段中每个通讯用户的姿态数据包括:

将每个通讯用户对应的视频段输入至MobileNet的backbone中,输出第一特征数据;

将所述第一特征数据输入至initial stage及refine stage,输出特征图;

将所述特征图输入至1*1卷积层,输出关键点热图以及部分亲和字段作为每个通讯用户的姿态数据;

其中,backbone、initial stage及refine stage采用1*1卷积层、第一3*3卷积层以及第二3*3卷积层构成级联卷积,且所述第二3*3卷积层是卷积核膨胀为2的空洞卷积。

根据本发明优选实施例,在将所述待检测图片输入至预先训练的表情识别模型中前,所述方法还包括:

获取带有人脸动作单元标记的人脸图片及带有分类标记的人脸图片作为训练样本;

提取预先训练的人脸分类模型的第一参数,及预先训练的表情检测模型的第二参数;

利用反向传播算法,结合所述第一参数及所述第二参数,采用神经网络算法训练所述训练样本,得到所述表情识别模型。

根据本发明优选实施例,所述利用反向传播算法,结合所述第一参数及所述第二参数,采用神经网络算法训练所述训练样本,得到所述表情识别模型包括:

将所述训练样本输入至所述神经网络进行训练,得到初始模型;

计算所述初始模型输出结果的精度值;

获取所述初始模型输出结果的精度阈值;

利用反向传播算法调节所述第一参数及所述第二参数,直至所述精度值达到所述精度阈值,停止训练,得到所述表情识别模型。

根据本发明优选实施例,所述根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型包括:

获取所述姿态检测结果的第一权重,及获取所述情绪类型的第二权重;

利用所述第一权重及所述第二权重对每个通讯用户的姿态检测结果及每个通讯用户的情绪类型进行加权累加,得到每个通讯用户的每种情绪的累加和;

获取所述累加和最高的情绪作为每个通讯用户的情绪类型。

根据本发明优选实施例,所述对所述目标视频进行优化处理,得到优化视频包括:

从所述目标视频中提取语音数据;

对所述语音数据进行降噪处理,得到第一语音;

识别所述第一语音中的目标声波,并从所述第一语音中删除所述目标声波,得到第二语音;

对所述第二语音进行淡入淡出处理,得到优化语音;

为所述目标视频中的每个通讯用户建立虚拟形象;

获取预先配置的提示信息;

将所述提示信息、所述虚拟形象及所述优化语音整合至所述目标视频,得到所述优化视频。

一种通讯优化装置,所述通讯优化装置包括:

采集单元,用于响应于通讯优化指令,根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频;

检测单元,用于采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果;

截取单元,用于对所述目标视频进行特征截取,得到待检测图片;

识别单元,用于将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果;

确定单元,用于根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型;

优化单元,用于当检测到有通讯用户的情绪类型为目标情绪类型时,对所述目标视频进行优化处理,得到优化视频;

输出单元,用于输出所述优化视频。

一种电子设备,所述电子设备包括:

存储器,存储至少一个指令;及

处理器,执行所述存储器中存储的指令以实现所述通讯优化方法。

一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述通讯优化方法。

由以上技术方案可以看出,本发明能够响应于通讯优化指令,根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频,采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果,对所述目标视频进行特征截取,得到待检测图片,将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果,根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型,避免在单一维度上判断带来的不确定性,本实施方式同时结合了姿态检测结果及表情识别结果进行情绪类型的判断,有效提升了情绪判断的准确性,当检测到有通讯用户的情绪类型为目标情绪类型时,对所述目标视频进行优化处理,得到优化视频,并输出所述优化视频,进而能够在检测到有任意通讯用户的情绪异常时,对视频进行优化处理,以避免由于某个通讯用户的情绪变化影响整个通讯过程,利用美化且趣味性的视频效果缓和每个通讯用户的情绪,提升了沟通质量。

附图说明

图1是本发明通讯优化方法的较佳实施例的流程图。

图2是本发明通讯优化装置的较佳实施例的功能模块图。

图3是本发明实现通讯优化方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

如图1所示,是本发明通讯优化方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

所述通讯优化方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。

S10,响应于通讯优化指令,根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频。

在本发明的至少一个实施例中,所述通讯优化指令可以由当前进行通话的服务人员(如:客服)触发,也可以在检测到有音视频启动时自动触发,本发明不限制。

在本实施例中,所述通讯用户可以为多个,本发明不限制。

在本发明的至少一个实施例中,所述根据所述通讯优化指令确定目标采集设备包括:

解析所述通讯优化指令的方法体,得到所述通讯优化指令所携带的信息;

获取预设标签;

根据所述预设标签构建正则表达式;

利用所述正则表达式在所述通讯优化指令所携带的信息中进行遍历,并将遍历到的数据确定为设备标识;

根据所述设备标识确定终端设备,并将所述终端设备的采集设备确定为所述目标采集设备。

例如:当银行客服与客户进行视频交互时,双方各持有一个设备进行会议,通过解析所述通讯优化指令,将双方用于视频通讯的设备确定为所述终端设备,并将所述终端设备的采集设备确定为所述目标采集设备。

其中,所述通讯优化指令实质上是一条代码,在所述通讯优化指令中,根据代码的编写原则,{}之间的内容被称之为所述方法体。

所述预设标签可以进行自定义配置,所述预设标签与设备标识具有一一对应的关系,例如:所述预设标签可以是ID,进一步以所述预设标签建立正则表达式ID(),并以ID()进行遍历。

通过上实施方式,能够基于正则表达式及预设标签快速确定设备标识,并进一步利用所述设备标识确定目标采集设备。

S11,采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果。

在本实施例中,所述采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果包括:

对所述目标视频进行拆分,得到每个通讯用户对应的视频段;

采用改进的姿态检测算法检测每个通讯用户对应的视频段中每个通讯用户的姿态数据;

将每个通讯用户的姿态数据输入至分类器中进行分类,输出每个通讯用户的姿态分类结果;

将每个通讯用户的姿态分类结果确定为每个通讯用户的姿态检测结果。

例如:当用户A的分类结果为处于不断摇头状态时,确定所述用户A的姿态检测结果为“不满行为”。

其中,所述分类器可以为任意分类器,在此不赘述。

进一步地,所述采用改进的姿态检测算法检测每个通讯用户对应的视频段中每个通讯用户的姿态数据包括:

将每个通讯用户对应的视频段输入至MobileNet的backbone中,输出第一特征数据;

将所述第一特征数据输入至initial stage及refine stage,输出特征图;

将所述特征图输入至1*1卷积层,输出关键点热图以及部分亲和字段作为每个通讯用户的姿态数据;

其中,backbone、initial stage及refine stage采用1*1卷积层、第一3*3卷积层以及第二3*3卷积层构成级联卷积,且所述第二3*3卷积层是卷积核膨胀为2的空洞卷积。

目前,通常采用VGG结构的backbone进行特征提取,以用于姿态检测,且网络中包含多个7*7卷积及initial stage、refine stage,检测速度较慢,而对于摔倒检测,需要很高的实时性才能保证在监控目标摔倒时进行及时响应,以便对监控的目标执行有效的安全防护措施。显然,目前的姿态检测还无法满足对速度的需求。

而在本实施方式中,采用MobileNet的backbone代替原有的VGG结构,以构建改进的姿态检测算法,实现对移动目标的姿态检测,同时将原有的多个initial stage缩减至一个initial stage,降低了运算量,以满足当前的检测任务对于检测速度的高需求,进一步使用带有空洞卷积的级联卷积代替原有的7*7卷积,空洞卷积的引入有效提升了感受野,使检测更加准确,因此,本实施方式在达到同等甚至更高的准确率的基础上进一步提高了检测效率,以实现检测的实时性。

S12,对所述目标视频进行特征截取,得到待检测图片。

由于每个目标视频中除了面部信息外,还可能包括其他非面部信息,这些非面部信息将对特征识别造成干扰,因此,首先要对视频进行特征截取。

在本发明的至少一个实施例中,所述对所述目标视频进行特征截取,得到待检测图片包括:

获取所述目标视频所包含的所有帧图片;

将所述所有帧图片中的每张帧图片输入至YOLOv3网络中进行识别,得到每张帧图片的面部区域;

以每张帧图片的面部区域截取对应的每张帧图片,得到所述待检测图片。

通过上述实施方式,由于YOLOv3网络本身具备较高的稳定精度,因此,以YOLOv3网络进行面部特征的截取,能够有效剔除视频中的冗余信息,以提高后续表情识别的准确性及效率。

S13,将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果。

在本发明的至少一个实施例中,在将所述待检测图片输入至预先训练的表情识别模型中前,所述方法还包括:

获取带有人脸动作单元标记的人脸图片及带有分类标记的人脸图片作为训练样本;

提取预先训练的人脸分类模型的第一参数,及预先训练的表情检测模型的第二参数;

利用反向传播算法,结合所述第一参数及所述第二参数,采用神经网络算法训练所述训练样本,得到所述表情识别模型。

其中,所述人脸动作单元是脸部肌肉的细微运动,也就是指人脸部的基本肌肉动作单元。例如:人脸动作单元可以包括内眉上扬、嘴角上扬、鼻子蹙皱等。

本实施例可以对每个人脸动作单元进行标记。

在本实施例中,所述分类标记为根据用户的不同对人脸图片进行分类,并对属于不同用户的人脸图片分别进行标记。

具体地,本发明对标记方式不限制。

在本实施例中,所述人脸分类模型及所述表情检测模型的网络组成可以是类似的,这样,网络参数就可以互相加载,以便通过互相的迁移训练提高互相的精确度。

具体地,所述利用反向传播算法,结合所述第一参数及所述第二参数,采用神经网络算法训练所述训练样本,得到所述表情识别模型包括:

将所述训练样本输入至所述神经网络进行训练,得到初始模型;

计算所述初始模型输出结果的精度值;

获取所述初始模型输出结果的精度阈值;

利用反向传播算法调节所述第一参数及所述第二参数,直至所述精度值达到所述精度阈值,停止训练,得到所述表情识别模型。

具体地,所述精度阈值可以进行自定义配置,以便根据实际需求训练出满足精度要求的模型。

通过上述实施方式,能够通过所有参数的不断调整,实现对所述表情识别模型的训练,以获取到满足精度需求的模型,训练效果更佳。

S14,根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型。

具体地,所述根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型包括:

获取所述姿态检测结果的第一权重,及获取所述情绪类型的第二权重;

利用所述第一权重及所述第二权重对每个通讯用户的姿态检测结果及每个通讯用户的情绪类型进行加权累加,得到每个通讯用户的每种情绪的累加和;

获取所述累加和最高的情绪作为每个通讯用户的情绪类型。

在上述实施方式中,为了避免在单一维度上判断带来的不确定性,本实施方式同时结合了姿态检测结果及表情识别结果进行情绪类型的判断,有效提升了情绪判断的准确性。

S15,当检测到有通讯用户的情绪类型为目标情绪类型时,对所述目标视频进行优化处理,得到优化视频。

在本实施例中,所述目标情绪类型可以包括,但不限于愤怒情绪、低落情绪等异常情绪类型。

在本发明的至少一个实施例中,所述对所述目标视频进行优化处理,得到优化视频包括:

从所述目标视频中提取语音数据;

对所述语音数据进行降噪处理,得到第一语音;

识别所述第一语音中的目标声波,并从所述第一语音中删除所述目标声波,得到第二语音;

对所述第二语音进行淡入淡出处理,得到优化语音;

为所述目标视频中的每个通讯用户建立虚拟形象;

获取预先配置的提示信息;

将所述提示信息、所述虚拟形象及所述优化语音整合至所述目标视频,得到所述优化视频。

其中,所述目标声波可以包括具有攻击性的声波等,本发明在此不限制。

其中,所述虚拟形象可以包括卡通形象等,在此不赘述。

其中,所述提示信息用于提示每个通讯用户要保持愉悦的心情进行通话,例如:所述提示信息可以为:“请愉快通话,好的心情是进行有效沟通的前提”。

通过上述实施方式,能够在检测到有任意通讯用户的情绪异常时,对所有通讯用户的声音进行柔和处理,并为每个通讯用户建立虚拟形象进行通讯,以避免由于某个通讯用户的情绪变化影响整个通讯过程,利用美化且趣味性的视频效果缓和每个通讯用户的情绪,进而提升了沟通质量。

S16,输出所述优化视频。

例如:在每个通讯用户的终端设备上同时显示所述优化视频。

通过上述实施方式,能够避免通讯过程中受到不良情绪的影响,使通讯用户间的交流更加顺畅,并进一步降低了客诉率,带来更好的交互体验。

需要说明的是,为了进一步保证数据的安全性,可以将所述表情识别模型部署于区块链,以避免数据被恶意篡改。

由以上技术方案可以看出,本发明能够响应于通讯优化指令,根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频,采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果,对所述目标视频进行特征截取,得到待检测图片,将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果,根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型,避免在单一维度上判断带来的不确定性,本实施方式同时结合了姿态检测结果及表情识别结果进行情绪类型的判断,有效提升了情绪判断的准确性,当检测到有通讯用户的情绪类型为目标情绪类型时,对所述目标视频进行优化处理,得到优化视频,并输出所述优化视频,进而能够在检测到有任意通讯用户的情绪异常时,对视频进行优化处理,以避免由于某个通讯用户的情绪变化影响整个通讯过程,利用美化且趣味性的视频效果缓和每个通讯用户的情绪,提升了沟通质量。

如图2所示,是本发明通讯优化装置的较佳实施例的功能模块图。所述通讯优化装置11包括采集单元110、检测单元111、截取单元112、识别单元113、确定单元114、优化单元115、输出单元116。本发明所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。

响应于通讯优化指令,采集单元110根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频。

在本发明的至少一个实施例中,所述通讯优化指令可以由当前进行通话的服务人员(如:客服)触发,也可以在检测到有音视频启动时自动触发,本发明不限制。

在本实施例中,所述通讯用户可以为多个,本发明不限制。

在本发明的至少一个实施例中,所述采集单元110根据所述通讯优化指令确定目标采集设备包括:

解析所述通讯优化指令的方法体,得到所述通讯优化指令所携带的信息;

获取预设标签;

根据所述预设标签构建正则表达式;

利用所述正则表达式在所述通讯优化指令所携带的信息中进行遍历,并将遍历到的数据确定为设备标识;

根据所述设备标识确定终端设备,并将所述终端设备的采集设备确定为所述目标采集设备。

例如:当银行客服与客户进行视频交互时,双方各持有一个设备进行会议,通过解析所述通讯优化指令,将双方用于视频通讯的设备确定为所述终端设备,并将所述终端设备的采集设备确定为所述目标采集设备。

其中,所述通讯优化指令实质上是一条代码,在所述通讯优化指令中,根据代码的编写原则,{}之间的内容被称之为所述方法体。

所述预设标签可以进行自定义配置,所述预设标签与设备标识具有一一对应的关系,例如:所述预设标签可以是ID,进一步以所述预设标签建立正则表达式ID(),并以ID()进行遍历。

通过上实施方式,能够基于正则表达式及预设标签快速确定设备标识,并进一步利用所述设备标识确定目标采集设备。

检测单元111采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果。

在本实施例中,所述检测单元111采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果包括:

对所述目标视频进行拆分,得到每个通讯用户对应的视频段;

采用改进的姿态检测算法检测每个通讯用户对应的视频段中每个通讯用户的姿态数据;

将每个通讯用户的姿态数据输入至分类器中进行分类,输出每个通讯用户的姿态分类结果;

将每个通讯用户的姿态分类结果确定为每个通讯用户的姿态检测结果。

例如:当用户A的分类结果为处于不断摇头状态时,确定所述用户A的姿态检测结果为“不满行为”。

其中,所述分类器可以为任意分类器,在此不赘述。

进一步地,所述检测单元111采用改进的姿态检测算法检测每个通讯用户对应的视频段中每个通讯用户的姿态数据包括:

将每个通讯用户对应的视频段输入至MobileNet的backbone中,输出第一特征数据;

将所述第一特征数据输入至initial stage及refine stage,输出特征图;

将所述特征图输入至1*1卷积层,输出关键点热图以及部分亲和字段作为每个通讯用户的姿态数据;

其中,backbone、initial stage及refine stage采用1*1卷积层、第一3*3卷积层以及第二3*3卷积层构成级联卷积,且所述第二3*3卷积层是卷积核膨胀为2的空洞卷积。

目前,通常采用VGG结构的backbone进行特征提取,以用于姿态检测,且网络中包含多个7*7卷积及initial stage、refine stage,检测速度较慢,而对于摔倒检测,需要很高的实时性才能保证在监控目标摔倒时进行及时响应,以便对监控的目标执行有效的安全防护措施。显然,目前的姿态检测还无法满足对速度的需求。

而在本实施方式中,采用MobileNet的backbone代替原有的VGG结构,以构建改进的姿态检测算法,实现对移动目标的姿态检测,同时将原有的多个initial stage缩减至一个initial stage,降低了运算量,以满足当前的检测任务对于检测速度的高需求,进一步使用带有空洞卷积的级联卷积代替原有的7*7卷积,空洞卷积的引入有效提升了感受野,使检测更加准确,因此,本实施方式在达到同等甚至更高的准确率的基础上进一步提高了检测效率,以实现检测的实时性。

截取单元112对所述目标视频进行特征截取,得到待检测图片。

由于每个目标视频中除了面部信息外,还可能包括其他非面部信息,这些非面部信息将对特征识别造成干扰,因此,首先要对视频进行特征截取。

在本发明的至少一个实施例中,所述截取单元112对所述目标视频进行特征截取,得到待检测图片包括:

获取所述目标视频所包含的所有帧图片;

将所述所有帧图片中的每张帧图片输入至YOLOv3网络中进行识别,得到每张帧图片的面部区域;

以每张帧图片的面部区域截取对应的每张帧图片,得到所述待检测图片。

通过上述实施方式,由于YOLOv3网络本身具备较高的稳定精度,因此,以YOLOv3网络进行面部特征的截取,能够有效剔除视频中的冗余信息,以提高后续表情识别的准确性及效率。

识别单元113将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果。

在本发明的至少一个实施例中,在将所述待检测图片输入至预先训练的表情识别模型中前,获取带有人脸动作单元标记的人脸图片及带有分类标记的人脸图片作为训练样本;

提取预先训练的人脸分类模型的第一参数,及预先训练的表情检测模型的第二参数;

利用反向传播算法,结合所述第一参数及所述第二参数,采用神经网络算法训练所述训练样本,得到所述表情识别模型。

其中,所述人脸动作单元是脸部肌肉的细微运动,也就是指人脸部的基本肌肉动作单元。例如:人脸动作单元可以包括内眉上扬、嘴角上扬、鼻子蹙皱等。

本实施例可以对每个人脸动作单元进行标记。

在本实施例中,所述分类标记为根据用户的不同对人脸图片进行分类,并对属于不同用户的人脸图片分别进行标记。

具体地,本发明对标记方式不限制。

在本实施例中,所述人脸分类模型及所述表情检测模型的网络组成可以是类似的,这样,网络参数就可以互相加载,以便通过互相的迁移训练提高互相的精确度。

具体地,所述利用反向传播算法,结合所述第一参数及所述第二参数,采用神经网络算法训练所述训练样本,得到所述表情识别模型包括:

将所述训练样本输入至所述神经网络进行训练,得到初始模型;

计算所述初始模型输出结果的精度值;

获取所述初始模型输出结果的精度阈值;

利用反向传播算法调节所述第一参数及所述第二参数,直至所述精度值达到所述精度阈值,停止训练,得到所述表情识别模型。

具体地,所述精度阈值可以进行自定义配置,以便根据实际需求训练出满足精度要求的模型。

通过上述实施方式,能够通过所有参数的不断调整,实现对所述表情识别模型的训练,以获取到满足精度需求的模型,训练效果更佳。

确定单元114根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型。

具体地,所述确定单元114根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型包括:

获取所述姿态检测结果的第一权重,及获取所述情绪类型的第二权重;

利用所述第一权重及所述第二权重对每个通讯用户的姿态检测结果及每个通讯用户的情绪类型进行加权累加,得到每个通讯用户的每种情绪的累加和;

获取所述累加和最高的情绪作为每个通讯用户的情绪类型。

在上述实施方式中,为了避免在单一维度上判断带来的不确定性,本实施方式同时结合了姿态检测结果及表情识别结果进行情绪类型的判断,有效提升了情绪判断的准确性。

当检测到有通讯用户的情绪类型为目标情绪类型时,优化单元115对所述目标视频进行优化处理,得到优化视频。

在本实施例中,所述目标情绪类型可以包括,但不限于愤怒情绪、低落情绪等异常情绪类型。

在本发明的至少一个实施例中,所述优化单元115对所述目标视频进行优化处理,得到优化视频包括:

从所述目标视频中提取语音数据;

对所述语音数据进行降噪处理,得到第一语音;

识别所述第一语音中的目标声波,并从所述第一语音中删除所述目标声波,得到第二语音;

对所述第二语音进行淡入淡出处理,得到优化语音;

为所述目标视频中的每个通讯用户建立虚拟形象;

获取预先配置的提示信息;

将所述提示信息、所述虚拟形象及所述优化语音整合至所述目标视频,得到所述优化视频。

其中,所述目标声波可以包括具有攻击性的声波等,本发明在此不限制。

其中,所述虚拟形象可以包括卡通形象等,在此不赘述。

其中,所述提示信息用于提示每个通讯用户要保持愉悦的心情进行通话,例如:所述提示信息可以为:“请愉快通话,好的心情是进行有效沟通的前提”。

通过上述实施方式,能够在检测到有任意通讯用户的情绪异常时,对所有通讯用户的声音进行柔和处理,并为每个通讯用户建立虚拟形象进行通讯,以避免由于某个通讯用户的情绪变化影响整个通讯过程,利用美化且趣味性的视频效果缓和每个通讯用户的情绪,进而提升了沟通质量。

输出单元116输出所述优化视频。

例如:在每个通讯用户的终端设备上同时显示所述优化视频。

通过上述实施方式,能够避免通讯过程中受到不良情绪的影响,使通讯用户间的交流更加顺畅,并进一步降低了客诉率,带来更好的交互体验。

需要说明的是,为了进一步保证数据的安全性,可以将所述表情识别模型部署于区块链,以避免数据被恶意篡改。

由以上技术方案可以看出,本发明能够响应于通讯优化指令,根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频,采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果,对所述目标视频进行特征截取,得到待检测图片,将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果,根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型,避免在单一维度上判断带来的不确定性,本实施方式同时结合了姿态检测结果及表情识别结果进行情绪类型的判断,有效提升了情绪判断的准确性,当检测到有通讯用户的情绪类型为目标情绪类型时,对所述目标视频进行优化处理,得到优化视频,并输出所述优化视频,进而能够在检测到有任意通讯用户的情绪异常时,对视频进行优化处理,以避免由于某个通讯用户的情绪变化影响整个通讯过程,利用美化且趣味性的视频效果缓和每个通讯用户的情绪,提升了沟通质量。

如图3所示,是本发明实现通讯优化方法的较佳实施例的电子设备的结构示意图。

所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如通讯优化程序。

本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,所述电子设备1既可以是总线型结构,也可以是星形结构,所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如所述电子设备1还可以包括输入输出设备、网络接入设备等。

需要说明的是,所述电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如通讯优化程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行通讯优化程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个通讯优化方法实施例中的步骤,例如图1所示的步骤。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成采集单元110、检测单元111、截取单元112、识别单元113、确定单元114、优化单元115、输出单元116。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述通讯优化方法的部分。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。

其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器等。

进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。

尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器13逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

图3仅示出了具有组件12-13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

结合图1,所述电子设备1中的所述存储器12存储多个指令以实现一种通讯优化方法,所述处理器13可执行所述多个指令从而实现:

响应于通讯优化指令,根据所述通讯优化指令确定目标采集设备,并启动所述目标采集设备采集通讯用户的目标视频;

采用姿态检测算法,基于所述目标视频对所述通讯用户中的每个通讯用户进行姿态检测,得到每个通讯用户的姿态检测结果;

对所述目标视频进行特征截取,得到待检测图片;

将所述待检测图片输入至预先训练的表情识别模型中,得到每个通讯用户的表情识别结果;

根据每个通讯用户的姿态检测结果及每个通讯用户的表情识别结果确定每个通讯用户的情绪类型;

当检测到有通讯用户的情绪类型为目标情绪类型时,对所述目标视频进行优化处理,得到优化视频;

输出所述优化视频。

具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统实施例中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 一种智能水表串口通讯优化方法、装置、设备和介质
  • 通讯优化方法、装置、设备及介质
技术分类

06120112586350