掌桥专利:专业的专利平台
掌桥专利
首页

基于AI算法实现多模态控制数字人交互方法及装置

文献发布时间:2023-06-19 11:26:00


基于AI算法实现多模态控制数字人交互方法及装置

技术领域

本申请涉及人工智能领域,尤其涉及一种基于AI算法实现多模态控制数字人交互方法及装置。

背景技术

数字人,是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真的计算机可视化形态,通过3D图形人物建模、声音克隆技术和动作驱动,结合人工智能技术塑造的数字人已经在多个行业中广泛应用。

然而,目前市面上主流数字人产品均只支持较单一的业务场景,无法根据用户的实时意图与数字人的形象耦合进行交流,且主要用于接待场景的问题咨询,无法完成业务办理。

发明内容

本申请要解决的技术问题,在于提供一种基于AI算法实现多模态控制数字人交互方法及装置,以解决现有数字人产品无法根据用户的实时意图与数字人的形象耦合进行交流的技术问题。

为实现上述目的,本申请采用下述技术方案:

第一方面,本申请提供一种基于AI算法实现多模态控制数字人交互方法,用于用户向终端上的数字人发起语音交互过程中,所述方法包括;

获取用户的语音流,其中,所述语音流为所述用户用于咨询业务的输出语音流;

将所述语音流通过AI算法识别获得所述语音流对应的用户意图;

将所述用户意图信息结构化后发送至业务决策引擎中,所述业务决策引擎基于AI

算法与关键字生成话术逻辑匹配获得所述用户意图对应的话术信息,其中,所述话术信息对应有唯一序列号数据;

所述终端根据所述唯一序列号数据获取所述话术信息;

所述话术信息与所述数字人的数字形象耦合在所述视频输出。

第二方面,本申请提供一种基于AI算法实现多模态控制数字人交互装置,用于用户向终端上的数字人发起语音交互过程中,所述装置包括;

第一获取单元,用于获取用户的语音流,其中,所述语音流为所述用户用于咨询业务的输出语音流;

AI单元,用于将所述语音流通过AI算法识别获得所述语音流对应的用户意图;

第一发送单元,用于将所述用户意图信息结构化后发送至业务决策引擎中,所述业

务决策引擎基于AI算法与关键字生成话术逻辑匹配获得所述用户意图对应的话术信息,其中,所述话术信息对应有唯一序列号数据;

第二获取单元,所述终端根据所述唯一序列号数据获取所述话术信息;

第一耦合单元,用于所述话术信息与所述数字人的数字形象耦合在所述终端输出。

第三方面,本申请提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由所述处理器执行以实现如上述第一方面所述的基于AI算法实现多模态控制数字人交互方法。

第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第一方面所述的基于AI算法实现多模态控制数字人交互方法。

本申请的有益效果是:本申请提供一种基于AI算法实现多模态控制数字人交互方法及装置,接收用户的实时语音流并将回复的话术信息与数字人形象耦合后输出,语音交互更加便捷、灵活。

附图说明

图1为本申请一个实施例提供的一种基于AI算法实现多模态控制数字人交互方法的流程示意图;

图2为本申请一个实施例提供的一种获得用户意图对应的话术信息的方法的流程示意图;

图3为本申请一个实施例提供的一种用户在所述终端办理业务时的方法的流程示意图;

图4为本申请一个实施例提供的一种基于AI算法实现多模态控制数字人交互装置;

图5为本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

下面通过具体实施例,并结合附图,对本申请的技术方案作进一步的具体描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供一种基于AI算法实现多模态控制数字人交互方法及装置,以解决现有数字人产品无法根据用户的实时意图与数字人的形象耦合进行交流的技术问题。

以下结合附图,详细说明本申请中各实施例提供的技术方案。

请参阅附图1,其示出了本申请一个实施例提供的一种基于AI算法实现多模态控制数字人交互方法的流程示意图,用于用户向终端上的数字人发起语音交互过程中,所述方法包括;

S101,获取用户的语音流;

其中,所述语音流为所述用户用于咨询业务的输出语音流,所述终端获取用户的实时语音流。

S102,将所述语音流通过AI算法识别获得所述语音流对应的用户意图;

S103,将所述用户意图信息结构化后发送至业务决策引擎中,所述业务决策引擎基于AI算法与关键字生成话术逻辑匹配获得所述用户意图对应的话术信息;

其中,所述话术信息对应有唯一序列号数据。

针对步骤S103,在通过AI算法获得用户意图的过程中会获得一些语音流中的关键字,基于关键字与用户意图通过AI匹配计算相似度确定对应的话术信息,可以理解,话术信息可以包括一整套话术或者一整套话术中的部分内容以用于与用户进行交流。

S104,所述终端根据所述唯一序列号数据获取所述话术信息;

S105,所述话术信息与所述数字人的数字形象耦合在所述终端输出。

针对步骤S102,将所述语音流通过AI算法识别获得所述语音流对应的用户意图之前,将所述语音流断句获得至少一条有效语音流。

在一个实施例中,将所述语音流通过AI算法识别获得所述语音流对应的用户意图包括:

将所述语音流通过ASR识别后获得文字流;

将所述文字流发送至NLP服务分析获得所述语音流对应的用户意图。

针对步骤S103,所述业务决策引擎包括根节点、问答节点和信息节点。

请参阅附图2,其示出了本申请一个实施例提供的一种获得用户意图对应的话术信息的方法的流程示意图,包括:

S201,计算所述用户意图与所述根节点之间的相似度获得第一根节点;

其中,所述第一根节点为所述用户意图与所述根节点之间相似度最高的根节点;

S202,基于所述第一根节点获取对应的第一问答节点;

S203,基于所述第一问答节点输出第一信息节点。

其中,所述第一信息节点至少包括所述用户意图对应的话术信息。

当用户向终端上的数字人发起语音交互过程以办理业务时,请参阅附图3,其示出了本申请一个实施例提供的一种用户在所述终端办理业务时的方法的流程示意图,包括:

S301,用户在所述终端的第一输入界面上完成数据采集;

其中,所述数据至少包括所述用户的手机号码,可以理解,所述第一输入界面用于用户输入数据。

S302,所述终端通过短信发送表单至所述用户的手机;

S303,所述终端的第二输入界面上显示短信验证码的输入界面用于所述表单的验证。

可以理解,所述第二输入界面用于输入用户的短信验证码,当所述表单验证成功时,所述用户办理业务成功。

在一个实施例中,本申请实施例中所述的终端可以是智慧屏、智能手机、笔记本电脑等电子设备中的任意一种。

请参阅附图4,其示出了本申请一个实施例提供的一种基于AI算法实现多模态控制数字人交互装置,用于用户向终端上的数字人发起语音交互过程中,所述装置包括;

第一获取单元401,用于获取用户的语音流,其中,所述语音流为所述用户用于咨询业务的输出语音流;

AI单元402,用于将所述语音流通过AI算法识别获得所述语音流对应的用户意图;

第一发送单元403,用于将所述用户意图信息结构化后发送至业务决策引擎中,所述业务决策引擎基于AI算法与关键字生成话术逻辑匹配获得所述用户意图对应的话术信息,其中,所述话术信息对应有唯一序列号数据;

第二获取单元404,所述终端根据所述唯一序列号数据获取所述话术信息;

第一耦合单元405,用于所述话术信息与所述数字人的数字形象耦合在所述终端输出。

请参阅附图5,其示出了本申请一个实施例提供的一种电子设备的结构示意图,可以包括:至少一个网络接口502、存储器503和至少一个处理器501。电子设备中的各个组件通过总线系统504耦合在一起。可以理解,总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,但是为了清楚说明起见,在附图5中将各种总线都标为总线系统504。

在一些实施方式中,存储器503存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5031和应用程序5032。

其中,操作系统5031,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种寄出业务以及处理基于硬件的任务。应用程序5032,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序中。

在上述实施例中,电子设备还包括:存储在存储器503上的至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集可由处理器501执行实现本申请实施例中所述任一基于AI算法实现多模态控制数字人交互方法的步骤。

在一个实施例中,本申请还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行时实现本申请实施例中所述任一基于AI算法实现多模态控制数字人交互方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的至少一条指令、至少一段程序、代码集或指令集可存储于一非易失性计算机可读取存储介质中,所述的至少一条指令、至少一段程序、代码集或指令集在执行时,可实现本申请实施例中所述任一地图绘制方法的步骤。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,这些均属于本申请的保护范围之内。

相关技术
  • 基于AI算法实现多模态控制数字人交互方法及装置
  • 基于车载数字人的交互方法及装置、存储介质
技术分类

06120112923647