掌桥专利:专业的专利平台
掌桥专利
首页

基于虚拟数字人技术的人机交互方法、装置和计算机设备

文献发布时间:2023-06-19 18:49:33


基于虚拟数字人技术的人机交互方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域,具体而言,本申请涉及一种基于虚拟数字人技术的人机交互方法、装置和计算机设备。

背景技术

传统的客户服务系统(如金融、医疗等领域的线上、线下客服机器人)主要包含自动语音应答、智能话务分配、流程编辑、录音管理、短信自动收发与管理、电子邮件的收发管理、人工坐席的应答、来电号码的显示与客户资料的自动弹出、客户资料的电脑查询与录入等功能。现有的客户服务系统主要存在如下问题:客服机器人声音僵硬、程序感强,且有时答非所问,从而导致客户体验较差,客户服务效果不显著,客户满意度不理想。

发明内容

本申请的主要目的为提供一种基于虚拟数字人技术的人机交互方法、装置和计算机设备,旨在解决现有的客服机器人服务质量较差、客户满意度较低的技术问题。

为了实现上述发明目的,本申请提供一种基于虚拟数字人技术的人机交互方法,用于智能客服平台,所述智能客服平台的应答显示界面包括虚拟数字人,所述智能客服平台与客户端相连,所述方法包括:

实时检测是否接收到所述客户端发送的交互请求;

若接收到所述客户端发送的交互请求,则对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述智能客服平台;

根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述智能客服平台,所述应答信息与所述请求信息一一对应;

控制所述虚拟数字人根据所述应答信息做出相应的互动操作。

在一个实施例中,所述交互请求包括视频、音频、文本中的至少一种,所述对所述交互请求进行处理,获得与所述交互请求对应的请求信息的步骤,包括:

若所述交互请求为文本,则提取所述文本的关键字,根据所述关键字获得所述请求信息;

若所述交互请求为音频,则将所述音频转换为第一文本,提取所述第一文本的关键字,根据所述第一文本的关键字获得所述请求信息;

若交互请求为视频,则提取所述视频中的音频信息,将所述音频信息转换为第二文本,提取所述第二文本的关键字,根据所述第二文本的关键字获得所述请求信息。

在一个实施例中,当所述交互请求为视频时,所述对所述交互请求进行处理,获得与所述交互请求对应的请求信息的步骤,还包括:

提取所述视频中的人脸表情信息和/或肢体动作信息,基于所述人脸表情信息和/或肢体动作信息获得所述请求信息。

在一个实施例中,所述虚拟数字人的互动操作包括语音输出、文本输出、人脸表情输出、肢体动作输出中的至少一种。

在一个实施例中,所述智能客服平台还包括基于机器学习的人机互动模型,在所述实时检测是否接收到所述客户端发送的交互请求的步骤之前,所述方法还包括:

基于现有的客服案例对所述人机互动模型进行训练,使所述人机互动模型满足预设要求。

在一个实施例中,所述智能客服平台还包括:

Nginx服务器群,用于实现所述客户端与所述智能客服平台间的负载均衡。

在一个实施例中,所述智能客服平台还包括:

Redis集群,用于实现对所述基于虚拟数字人技术的人机交互方法的相关数据的缓存。

本申请还提供一种基于虚拟数字人技术的人机交互装置,所述人机交互装置与客户端相连,所述装置包括:

显示模块,用于显示虚拟数字人;

检测模块,用于实时检测是否接收到所述客户端发送的交互请求;

请求信息获取模块,用于当接收到所述客户端发送的交互请求时,对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述人机交互装置;

应答信息获取模块,用于根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述人机交互装置,所述应答信息与所述请求信息一一对应;

控制模块,用于控制所述虚拟数字人根据所述应答信息做出相应的互动操作。

本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的基于虚拟数字人技术的人机交互方法的步骤。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例提供的基于虚拟数字人技术的人机交互方法的步骤。

本申请所提供的一种基于虚拟数字人技术的人机交互方法、装置和计算机设备,用于智能客服平台,所述智能客服平台的应答显示界面包括虚拟数字人,所述智能客服平台与客户端相连,上述的人机交互方法、装置和计算机设备包括:实时检测是否接收到所述客户端发送的交互请求;若接收到所述客户端发送的交互请求,则对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述智能客服平台;根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述智能客服平台,所述应答信息与所述请求信息一一对应;控制所述虚拟数字人根据所述应答信息做出相应的互动操作。由于虚拟数字人高度拟人化、亲和力强,且对客户的需求反应快、应答精准,因此,提高了服务质量,从而提高客户的满意度。

附图说明

图1为本申请一实施例的基于虚拟数字人技术的人机交互方法的流程示意图;

图2为本申请一实施例的基于虚拟数字人技术的人机交互方法中步骤S20的流程示意图;

图3为本申请另一实施例的基于虚拟数字人技术的人机交互方法中步骤S20的流程示意图;

图4为本申请另一实施例的基于虚拟数字人技术的人机交互方法的流程示意图;

图5为本申请一实施例的智能客服平台的结构示意图;

图6为本申请一实施例的基于虚拟数字人技术的人机交互装置的结构示意图;

图7为本申请一实施例的计算机设备的结构示意图。

具体实施方式

虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物,也称为虚拟形象、虚拟人、数字人等。虚拟数字人的三大特征是虚拟化、NLP\CV\语音等多种技术共同成熟、高度拟人化,其具体特征可拆分为“虚拟”、“数字”及“人”三个部分,“人”是其中的核心的因素。虚拟数字人代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等,其高度拟人化为客户带来的亲切感、关怀感与沉浸感是多数客户的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个场景中取代真人,完成语音交互方式升级的重要标准。而在金融、医疗等领域,也存在着大量的人机交互场景(如客服机器人对客户提供的的问询服务、自助业务办理服务等),将虚拟数字人技术应用于这些人机交互场景中,可以提高服务质量,从而提高客户满意度。

请参照图1,本申请实施例提供一种基于虚拟数字人技术的人机交互方法,用于智能客服平台,所述智能客服平台的应答显示界面包括虚拟数字人,所述智能客服平台与客户端相连,该方法包括步骤S10-S40,对于该方法的各个步骤的详细阐述如下。

在其中一个实施例中,基于虚拟数字人技术的人机交互方法包括:

S10、实时检测是否接收到所述客户端发送的交互请求;

S20、若接收到所述客户端发送的交互请求,则对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述智能客服平台;

S30、根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述智能客服平台,所述应答信息与所述请求信息一一对应;

S40、控制所述虚拟数字人根据所述应答信息做出相应的互动操作。

如上述步骤S10-S20所述,通过实时检测是否接收到客户端发送的交互请求,从而提高响应速度;当接收到客户端发送的交互请求时,则对该交互请求进行处理,从而获得与交互请求对应的请求信息,其中,请求信息预存储于智能客服平台。

具体的,上述客户端指的是客户基于此向智能客服平台发送与虚拟数字人进行人机交互的交互请求的终端,例如手机、电脑等,交互请求信息的发送及应答信息的接收可通过安装于上述终端的特定APP实现。交互请求指的是客户通过客户端发出的与虚拟数字人进行交互的指令,例如,在金融、医疗等领域,客户在咨询或服务类场景下向虚拟数字人发出的咨询、设置更改等业务需求语音命令,在一些实施例中,客户的交互请求包括视频、音频、文本中的至少一种,另外,当客户端为可通过触摸操作输入的设备,交互请求也可以包括客户的触摸指令。请求信息则是预存储于智能客服平台的,可与上述的交互请求一一对应的机器语音信息,其具体的物理含义可以是一些文本格式的关键字组合,例如“修改密码”、“业务介绍”、“退出”等客户的业务需求或操作命令。而为了方便智能客服平台对客户交互请求的识别和管理,在一些实施例中,将从客户端获取到的原始的客户交互请求转换为统一的格式(如文本形式),并基于转换得到的信息与预存的请求信息进行匹配,从而获得与客户的交互请求对应的请求信息。

如上述步骤S30-S40所述,当获取到客户的交互请求对应的请求信息后,则根据该请求信息获取应答信息,其中,应答信息也是预先存储于智能客服平台的,且应答信息与上述的请求信息一一对应。应答信息是指虚拟数字人对客户的交互请求所作出的对应的应答操作指令,示例性的,当客户的交互请求所对应的请求信息为“修改密码”时,则其对应的应答信息则为控制虚拟数字人在显示界面中弹出密码修改弹窗的操作指令。获取到应答信息后,则控制虚拟数字人根据应答信息做出相应的互动操作。在一些实施例中,虚拟数字人的互动操作包括语音输出、文本输出、人脸表情输出、肢体动作输出中的至少一种,通过丰富多样的互动操作,可提高虚拟数字人的拟人化效果,从而为客户带来更深切、逼真的体验感。

在一些实施例中,客户的交互请求包括视频、音频、文本中的至少一种,请参照图2,所述对所述交互请求进行处理,获得与所述交互请求对应的请求信息的步骤,包括:

S201、若所述交互请求为文本,则提取所述文本的关键字,根据所述关键字获得所述请求信息;

S202、若所述交互请求为音频,则将所述音频转换为第一文本,提取所述第一文本的关键字,根据所述第一文本的关键字获得所述请求信息;

S203、若交互请求为视频,则提取所述视频中的音频信息,将所述音频信息转换为第二文本,提取所述第二文本的关键字,根据所述第二文本的关键字获得所述请求信息。

如上述步骤S201-S203所述,为了方便智能客服平台对客户交互请求的识别和管理,在本实施例中,将从客户端获取到的原始的客户交互请求转换为统一的格式,即文本形式,相应的,预存储于智能客服平台的请求信息也为文本形式的格式。当交互请求为文本时,即客户通过文字输入的方式在客户端发出交互请求,则提取输入文本的关键字,并将提取得到的关键字与预存的请求信息进行匹配,从而相应的请求信息;而当交互请求为音频时,即客户通过语音的方式在客户端发出交互请求,则将音频转换为第一文本,以及将第一文本中的关键字进行提取,并将提取得到第一文本中的关键字与预存的请求信息进行匹配,从而获得与原始的交互请求对应的请求信息;而当交互请求为视频时,即客户通过视频的方式在客户端发出交互请求,则提取视频中的音频信息,然后将音频信息转换为第二文本,以及将第二文本中的关键字进行提取,并将提取得到的第二文本中的关键字与预存的请求信息进行匹配,从而获得与原始的交互请求对应的请求信息。

在一些实施例中,请参照图3,当所述交互请求为视频时,所述对所述交互请求进行处理,获得与所述交互请求对应的请求信息的步骤,还包括:

S204、提取所述视频中的人脸表情信息和/或肢体动作信息,基于所述人脸表情信息和/或肢体动作信息获得所述请求信息。

如上述步骤S204所述,当客户的交互请求为视频时,则提取视频中的人脸表情信息和/或肢体动作信息,根据提取得到的人脸表情信息和/或肢体动作信息可以预测客户的当前情绪,例如,当预测到客户当前的情绪为“愤怒”时,则控制虚拟数字人输出安抚的语音、表情、肢体动作等,从而提升客户的体验感。

在一些实施例中,智能客服平台还包括基于机器学习的人机互动模型,请参照图4,在所述实时检测是否接收到所述客户端发送的交互请求的步骤之前,所述方法还包括:

S00、基于现有的客服案例对所述人机互动模型进行训练,使所述人机互动模型满足预设要求。

如上述步骤S00所述,为了使得智能客服平台的虚拟数字人更好地针对客户的需求或问题提供更为灵活的反馈解决方案,从而提升客户的满意度,在智能客服平台中引入基于机器学习的人机交互模型,利用现有的客服案例对人机交互模型中的深度卷积神经网络进行训练,以使其满足预设要求,例如,当客户在客户端输入了带有错别字的文本,人机交互模型可以自动对带错别字的输入文本进行错误纠正,从而使其能被正确识别,并最终输出准确的应答反馈。在一些实施例中,还可以根据不断进行的客户服务案例对人机交互模型进行持续优化,使其输出结果越来越理想。

在一些实施例中,上述的智能客服平台还包括Nginx服务器群,Nginx服务器群用于实现客户端与智能客服平台间的负载均衡。具体的,由于一个智能客服平台可以对应多个不同的客户端,因此,同一时间段(如1ms内)可能接收到多个网络请求,为了提高网络相应的速度,可对网络执行负载均衡策略。Nginx(engine x)是一种高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务,其具有高并发连接、易集成、内存消耗低、成本低廉、配置简单等优点,因此,在本实施例中,选取Nginx服务器群作为负载均衡的工具。

在一些实施例中,上述的智能客服平台还包括Redis集群,Redis集群用于实现对上述任一实施例提供的基于虚拟数字人技术的人机交互方法的相关数据的缓存。具体的,为了保证智能客服平台高性能、高并发的运行状态,引入了Redis集群用作数据缓存,Redis具有读写速度超快、数据类型丰富、支持数据持久化等特点,因此,在本实施例中,选取Redis集群作为缓存使用。

本申请所提供的一种基于虚拟数字人技术的人机交互方法,用于智能客服平台,所述智能客服平台的应答显示界面包括虚拟数字人,所述智能客服平台与客户端相连,上述的人机交互方法、装置和计算机设备包括:实时检测是否接收到所述客户端发送的交互请求;若接收到所述客户端发送的交互请求,则对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述智能客服平台;根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述智能客服平台,所述应答信息与所述请求信息一一对应;控制所述虚拟数字人根据所述应答信息做出相应的互动操作。由于虚拟数字人高度拟人化、亲和力强,且对客户的需求反应快、应答精准,因此,提高了服务质量,从而提高客户的满意度。

请参照图5,图5示出了一种智能客服平台的应用场景。在本实施例中,智能客服平台100包括负载Nginx服务器群10、业务服务集群20、Kibana可视化平台30、搜索引擎集群40、Redis集群50、文件服务器60和数据存储模块70,其中,业务服务集群20包括客户服务平台和虚拟数字人AI平台。

示例性的,以金融、医疗等领域中,客户请求修改密码的业务场景为例,对智能客服平台100的工作过程进行说明:

客户打开安装于客户端的客服APP,虚拟数字人形象出现在显示界面上,并对客户进行简单的问候;客户输入交互请求(如语音)“我忘记密码,需要重置密码”;客户服务平台收到交互请求后,获得修改密码相关流程的操作指令,并输入到虚拟数字人AI平台,生成虚拟数字人回应(模拟真人)的视频语音流,其中,视频语音流包括虚拟数字人的表情、手势、视语音等,并实时呈现于客服APP的显示界面上,例如播报语音“请输入您的身份证号码”;客户在客服APP的交互界面上输入身份证号码;客户服务平台校验客户的身份证号码,校验通过后,生成话术“请输入您要设置的新密码”交由虚拟数字人AI平台生成视频语音流控制虚拟数字人与客户交互;客户完成新密码输入并提交确认;客户服务平台完成新密码的设置后,生成结束话术,如“XXXX是您的私人客户服务专家,有事请找XXXX”并由虚拟数字人AI平台驱动平台小平向客户播报。

请参照图6,本申请实施例中还提供一种基于虚拟数字人技术的人机交互装置,所述人机交互装置与客户端相连,所述装置包括:

显示模块601,用于显示虚拟数字人;

检测模块602,用于实时检测是否接收到所述客户端发送的交互请求;

请求信息获取模块603,用于当接收到所述客户端发送的交互请求时,对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述人机交互装置;

应答信息获取模块604,用于根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述人机交互装置,所述应答信息与所述请求信息一一对应;

控制模块605,用于控制所述虚拟数字人根据所述应答信息做出相应的互动操作。

在本实施例中,通过检测模块602实时检测是否接收到客户端发送的交互请求,从而提高响应速度;当接收到客户端发送的交互请求时,则通过请求信息获取模块603对该交互请求进行处理,从而获得与交互请求对应的请求信息,其中,请求信息预存储于智能客服平台。

具体的,上述客户端指的是客户基于此向人机交互装置发送与虚拟数字人进行人机交互的交互请求的终端,例如手机、电脑等,交互请求信息的发送及应答信息的接收可通过安装于上述终端的特定APP实现。交互请求指的是客户通过客户端发出的与虚拟数字人进行交互的指令,例如在金融、医疗等领域中,客户在咨询或服务类场景下向虚拟数字人发出的咨询、设置更改等业务需求语音命令,在一些实施例中,客户的交互请求包括视频、音频、文本中的至少一种,另外,当客户端为可通过触摸操作输入的设备,交互请求也可以包括客户的触摸指令。请求信息则是预存储于智能客服平台的,可与上述的交互请求一一对应的机器语音信息,其具体的物理含义可以是一些文本格式的关键字组合,例如“修改密码”、“业务介绍”、“退出”等客户的业务需求或操作命令。而为了方便人机交互装置对客户交互请求的识别和管理,在一些实施例中,将从客户端获取到的原始的客户交互请求转换为统一的格式(如文本形式),并基于转换得到的信息与预存的请求信息进行匹配,从而获得与客户的交互请求对应的请求信息。

当获取到客户的交互请求对应的请求信息后,则通过应答信息获取模块604根据该请求信息获取应答信息,其中,应答信息也是预先存储于智能客服平台的,且应答信息与上述的请求信息一一对应。应答信息是指虚拟数字人对客户的交互请求所作出的对应的应答操作指令,示例性的,当客户的交互请求所对应的请求信息为“修改密码”时,则其对应的应答信息则为控制虚拟数字人在显示界面中弹出密码修改弹窗的操作指令。获取到应答信息后,则通过控制模块605控制虚拟数字人根据应答信息做出相应的互动操作。在一些实施例中,虚拟数字人的互动操作包括语音输出、文本输出、人脸表情输出、肢体动作输出中的至少一种,通过丰富多样的互动操作,可提高虚拟数字人的拟人化效果,从而为客户带来更深切、逼真的体验感。

在一些实施例中,请求信息获取模块603包括第一获取单元、第二获取单元和第三获取单元。其中,第一获取单元用于当交互请求为文本时,提取所述文本的关键字,根据所述关键字获得所述请求信息;第二获取单元用于当交互请求为音频时,将将所述音频转换为第一文本,提取所述第一文本的关键字,根据所述第一文本的关键字获得所述请求信息;第三获取单元用于当交互请求为视频时,则提取所述视频中的音频信息,将所述音频信息转换为第二文本,提取所述第二文本的关键字,根据所述第二文本的关键字获得所述请求信息。

在本实施例中,为了方便人机交互装置对客户交互请求的识别和管理,将从客户端获取到的原始的客户交互请求转换为统一的格式,即文本形式,相应的,预存储于人机交互装置的请求信息也为文本形式的格式。当交互请求为文本时,即客户通过文字输入的方式在客户端发出交互请求,则通过第一获取单元提取输入文本的关键字,并将提取得到的关键字与预存的请求信息进行匹配,从而相应的请求信息;而当交互请求为音频时,即客户通过语音的方式在客户端发出交互请求,则通过第二获取单元将音频转换为第一文本,以及将第一文本中的关键字进行提取,并将提取得到第一文本中的关键字与预存的请求信息进行匹配,从而获得与原始的交互请求对应的请求信息;而当交互请求为视频时,即客户通过视频的方式在客户端发出交互请求,则通过第三获取单元提取视频中的音频信息,然后将音频信息转换为第二文本,以及将第二文本中的关键字进行提取,并将提取得到的第二文本中的关键字与预存的请求信息进行匹配,从而获得与原始的交互请求对应的请求信息。

在一些实施例中,请求信息获取模块603还包括第四获取单元,第四获取单元用于提取所述视频中的人脸表情信息和/或肢体动作信息,基于所述人脸表情信息和/或肢体动作信息获得所述请求信息。

在本实施例中,当客户的交互请求为视频时,则通过第四获取单元提取视频中的人脸表情信息和/或肢体动作信息,根据提取得到的人脸表情信息和/或肢体动作信息可以预测客户的当前情绪,例如,当预测到客户当前的情绪为“愤怒”时,则控制虚拟数字人输出安抚的语音、表情、肢体动作等,从而提升客户的体验感。

在一些实施例中,基于虚拟数字人技术的人机交互装置还包括人机交互模型606和训练模块607,训练模块607用于基于现有的客服案例对人机互动模型606进行训练,使人机互动模型606满足预设要求。

在本实施例中,为了使得人机交互装置的虚拟数字人更好地针对客户的需求或问题提供更为灵活的反馈解决方案,从而提升客户的满意度,在人机交互装置中引入基于机器学习的人机交互模型,通过训练模块607利用现有的客服案例对人机交互模型606中的深度卷积神经网络进行训练,以使其满足预设要求,例如,当客户在客户端输入了带有错别字的文本,人机交互模型606可以自动对带错别字的输入文本进行错误纠正,从而使其能被正确识别,并最终输出准确的应答反馈。在一些实施例中,还可以根据不断进行的客户服务案例对人机交互模型606进行持续优化,使其输出结果越来越理想。

在一些实施例中,基于虚拟数字人技术的人机交互装置还包括负载均衡模块608,负载均衡模块608包括Nginx服务器群,用于实现客户端与智能客服平台间的负载均衡。具体的,由于一个人机交互装置可以对应多个不同的客户端,因此,同一时间段(如1ms内)可能接收到多个网络请求,为了提高网络相应的速度,可对网络执行负载均衡策略。Nginx(engine x)是一种高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务,其具有高并发连接、易集成、内存消耗低、成本低廉、配置简单等优点,因此,在本实施例中,选取Nginx服务器群作为负载均衡模块608。

在一些实施例中,基于虚拟数字人技术的人机交互装置还包括缓存模块609,缓存模块609包括Redis集群,用于实现对上述任一实施例提供的基于虚拟数字人技术的人机交互方法的相关数据的缓存。具体的,为了保证智能客服平台高性能、高并发的运行状态,引入了Redis集群用作数据缓存,Redis具有读写速度超快、数据类型丰富、支持数据持久化等特点,因此,在本实施例中,选取Redis集群作为缓存模块609。

可以理解地,本申请中提出的基于虚拟数字人技术的人机交互装置的各组成部分可以实现上述任一实施例提供的基于虚拟数字人技术的人机交互方法的任一项的功能,具体结构不再赘述。

请参照图7,本申请实施例中还提供一种计算机设备,其内部结构可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种基于虚拟数字人技术的人机交互方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于虚拟数字人技术的人机交互方法,该方法包括如下步骤:

实时检测是否接收到所述客户端发送的交互请求;

若接收到所述客户端发送的交互请求,则对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述智能客服平台;

根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述智能客服平台,所述应答信息与所述请求信息一一对应;

控制所述虚拟数字人根据所述应答信息做出相应的互动操作。

在本实施例中,通过实时检测是否接收到客户端发送的交互请求,从而提高响应速度;当接收到客户端发送的交互请求时,则对该交互请求进行处理,从而获得与交互请求对应的请求信息,其中,请求信息预存储于智能客服平台。

具体的,上述客户端指的是客户基于此向智能客服平台发送与虚拟数字人进行人机交互的交互请求的终端,例如手机、电脑等,交互请求信息的发送及应答信息的接收可通过安装于上述终端的特定APP实现。交互请求指的是客户通过客户端发出的与虚拟数字人进行交互的指令,例如,在金融、医疗等领域中,客户在咨询或服务类场景下向虚拟数字人发出的咨询、设置更改等业务需求语音命令,在一些实施例中,客户的交互请求包括视频、音频、文本中的至少一种,另外,当客户端为可通过触摸操作输入的设备,交互请求也可以包括客户的触摸指令。请求信息则是预存储于智能客服平台的,可与上述的交互请求一一对应的机器语音信息,其具体的物理含义可以是一些文本格式的关键字组合,例如“修改密码”、“业务介绍”、“退出”等客户的业务需求或操作命令。而为了方便智能客服平台对客户交互请求的识别和管理,在一些实施例中,将从客户端获取到的原始的客户交互请求转换为统一的格式(如文本形式),并基于转换得到的信息与预存的请求信息进行匹配,从而获得与客户的交互请求对应的请求信息。

在本实施例中,当获取到客户的交互请求对应的请求信息后,则根据该请求信息获取应答信息,其中,应答信息也是预先存储于智能客服平台的,且应答信息与上述的请求信息一一对应。应答信息是指虚拟数字人对客户的交互请求所作出的对应的应答操作指令,示例性的,当客户的交互请求所对应的请求信息为“修改密码”时,则其对应的应答信息则为控制虚拟数字人在显示界面中弹出密码修改弹窗的操作指令。获取到应答信息后,则控制虚拟数字人根据应答信息做出相应的互动操作。在一些实施例中,虚拟数字人的互动操作包括语音输出、文本输出、人脸表情输出、肢体动作输出中的至少一种,通过丰富多样的互动操作,可提高虚拟数字人的拟人化效果,从而为客户带来更深切、逼真的体验感。

在一些实施例中,上述的交互请求包括视频、音频、文本中的至少一种,上述对所述交互请求进行处理,获得与所述交互请求对应的请求信息的步骤,包括:

若所述交互请求为文本,则提取所述文本的关键字,根据所述关键字获得所述请求信息;

若所述交互请求为音频,则将所述音频转换为第一文本,提取所述第一文本的关键字,根据所述第一文本的关键字获得所述请求信息;

若交互请求为视频,则提取所述视频中的音频信息,将所述音频信息转换为第二文本,提取所述第二文本的关键字,根据所述第二文本的关键字获得所述请求信息。

在本实施例中,为了方便智能客服平台对客户交互请求的识别和管理,将从客户端获取到的原始的客户交互请求转换为统一的格式,即文本形式,相应的,预存储于智能客服平台的请求信息也为文本形式的格式。当交互请求为文本时,即客户通过文字输入的方式在客户端发出交互请求,则提取输入文本的关键字,并将提取得到的关键字与预存的请求信息进行匹配,从而相应的请求信息;而当交互请求为音频时,即客户通过语音的方式在客户端发出交互请求,则将音频转换为第一文本,以及将第一文本中的关键字进行提取,并将提取得到第一文本中的关键字与预存的请求信息进行匹配,从而获得与原始的交互请求对应的请求信息;而当交互请求为视频时,即客户通过视频的方式在客户端发出交互请求,则提取视频中的音频信息,然后将音频信息转换为第二文本,以及将第二文本中的关键字进行提取,并将提取得到的第二文本中的关键字与预存的请求信息进行匹配,从而获得与原始的交互请求对应的请求信息。

在一些实施例中,当上述的交互请求为视频时,上述对所述交互请求进行处理,获得与所述交互请求对应的请求信息的步骤,还包括:

提取所述视频中的人脸表情信息和/或肢体动作信息,基于所述人脸表情信息和/或肢体动作信息获得所述请求信息。

在本实施例中,当客户的交互请求为视频时,则提取视频中的人脸表情信息和/或肢体动作信息,根据提取得到的人脸表情信息和/或肢体动作信息可以预测客户的当前情绪,例如,当预测到客户当前的情绪为“愤怒”时,则控制虚拟数字人输出安抚的语音、表情、肢体动作等,从而提升客户的体验感。

在一些实施例中,上述的智能客服平台还包括基于机器学习的人机互动模型,在所述实时检测是否接收到所述客户端发送的交互请求的步骤之前,所述方法还包括:

基于现有的客服案例对所述人机互动模型进行训练,使所述人机互动模型满足预设要求。

在本实施例中,为了使得智能客服平台的虚拟数字人更好地针对客户的需求或问题提供更为灵活的反馈解决方案,从而提升客户的满意度,在智能客服平台中引入基于机器学习的人机交互模型,利用现有的客服案例对人机交互模型中的深度卷积神经网络进行训练,以使其满足预设要求,例如,当客户在客户端输入了带有错别字的文本,人机交互模型可以自动对带错别字的输入文本进行错误纠正,从而使其能被正确识别,并最终输出准确的应答反馈。在一些实施例中,还可以根据不断进行的客户服务案例对人机交互模型进行持续优化,使其输出结果越来越理想。

在一些实施例中,上述的智能客服平台还包括Nginx服务器群,Nginx服务器群用于实现客户端与智能客服平台间的负载均衡。具体的,由于一个智能客服平台可以对应多个不同的客户端,因此,同一时间段(如1ms内)可能接收到多个网络请求,为了提高网络相应的速度,可对网络执行负载均衡策略。Nginx(engine x)是一种高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务,其具有高并发连接、易集成、内存消耗低、成本低廉、配置简单等优点,因此,在本实施例中,选取Nginx服务器群作为负载均衡的工具。

在一些实施例中,上述的智能客服平台还包括Redis集群,Redis集群用于实现对上述任一实施例提供的基于虚拟数字人技术的人机交互方法的相关数据的缓存。具体的,为了保证智能客服平台高性能、高并发的运行状态,引入了Redis集群用作数据缓存,Redis具有读写速度超快、数据类型丰富、支持数据持久化等特点,因此,在本实施例中,选取Redis集群作为缓存使用。

本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质可以是非易失性的,也可以是易失性的,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例提供的基于虚拟数字人技术的人机交互方法。

本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、扩增型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本申请所提供的一种基于虚拟数字人技术的人机交互方法、装置和计算机设备,用于智能客服平台,所述智能客服平台的应答显示界面包括虚拟数字人,所述智能客服平台与客户端相连,上述的人机交互方法、装置和计算机设备包括:实时检测是否接收到所述客户端发送的交互请求;若接收到所述客户端发送的交互请求,则对所述交互请求进行处理,获得与所述交互请求对应的请求信息,其中,所述请求信息预存储于所述智能客服平台;根据所述请求信息获取应答信息,其中,所述应答信息预存储于所述智能客服平台,所述应答信息与所述请求信息一一对应;控制所述虚拟数字人根据所述应答信息做出相应的互动操作。由于虚拟数字人高度拟人化、亲和力强,且对客户的需求反应快、应答精准,因此,提高了服务质量,从而提高客户的满意度。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 基于决策树的人机交互方法、装置、计算机设备及介质
  • 虚拟交换设备数据转发方法、装置和计算机设备
  • 基于多GPU的数字岩心相渗曲线的计算方法、装置及计算机设备
  • 用于机器人的基于遗忘机制的人机交互方法及装置
  • 用于机器人的基于情感的人机交互方法及装置
  • 一种基于虚拟现实技术的数字人穴位训练装置及使用方法
  • 基于数字人的人机交互方法、装置、电子设备及存储介质
技术分类

06120115707066