掌桥专利:专业的专利平台
掌桥专利
首页

一种人工智能交互方法、系统、计算机设备及存储介质

文献发布时间:2023-06-19 11:26:00


一种人工智能交互方法、系统、计算机设备及存储介质

技术领域

本发明涉及人工智能领域,尤其涉及一种人工智能交互方法、系统、计算机设备及存储介质。

背景技术

随着计算机技术的发展,人工智能从实验室阶段已走入千家万户,例如小米的小爱同学、阿里巴巴的天猫精灵等,这些人工智能有效的提高了生活的便捷性。

但是,目前的人工智能仍然存在局限性,例如现有技术的人工智能多是通过关键词识别的方式识别用户意图,这种识别方式使得人工智能在识别用户意图的过程中智能程度较低,在一些命令式的工作场景应用尚可,但是,在人与人工智能的对话领域,此交互方式在对话过程中非常容易出现答非所问的问题,大大降低了人工智能的体验性,因此,我们提出了一种人工智能交互方法、系统、计算机设备及存储介质。

发明内容

本发明要解决的技术问题是针对上述缺陷,提供一种人工智能交互方法、系统、计算机设备及存储介质,以解决现有技术中人工智能系统智能程度低的问题。

为实现上述目的,应用于智能终端,本发明提供如下技术方案:

获取唤醒动作,其中,所述唤醒动作包括唤醒手势、唤醒词和唤醒指令;

通过唤醒动作确定唤醒人员,并获取该唤醒人员的生物信息,其中,所述生物信息至少包括唤醒人员的面容信息、动作信息和音频信息;

根据获取到的生物信息匹配唤醒人员的专属应答策略并输出,所述专属应答策略为按照唤醒人员生物信息预设多组不同的应答动作。

进一步的,所述获取唤醒动作的具体保证包括以下至少之一:

获取视频并与预设的视频片段对比,在获取的视频与视频片段匹配度达到预设值时,由待机状态切换为工作状态;

获取音频并与预设的音频片段对比,在获取的音频与音频片段匹配度达到预设值时,由待机状态切换为工作状态;

获取上游控制端的唤醒指令由待机状态切换为工作状态。

再进一步的,所述通过唤醒动作确定唤醒人员的具体步骤包括以下至少之一:

以视频采集装置所获取的含有唤醒手势的视频片段内做出唤醒手势的人并将其确定为唤醒人员,通过视频采集装置和音频采集装置采集该唤醒人员的生物信息;

以音频采集装置所获取的含有唤醒词的音频片段内说出该唤醒词的人作为唤醒人员,同时视频采集装置和音频采集装置配合捕捉说出该唤醒词的人的人并将其确定为唤醒人员,通过视频采集装置和音频采集装置采集该唤醒人员的生物信息;

通过视频采集装置获取操作控制端的人并将其确定为唤醒人员,通过视频采集装置和音频采集装置采集该唤醒人员的生物信息。

作为本发明一种优选的方案,所述确定唤醒人员的步骤包括:

通过音频采集装置获取包含唤醒词的音源的位置,并通过视频采集装置获取该音源所在位置的人作为唤醒人员。

进一步的,所述匹配唤醒人员的专属应答策略的步骤包括:

以获取的生物信息作为检索信息检索内置的应答数据库,调取存储于应答数据库内的专属应答策略。

再进一步的,所述匹配专属应答策略的步骤还包括:

根据获取的生物信息分析唤醒人员的情绪;

获取唤醒人员所发出的交互信息,并基于所述交互信息检索此时对应唤醒人员的专属应答策略;

在所述专属应答策略中调取与所述唤醒人员的情绪相对应的应答动作;

将所述应答动作输出。

进一步的,所述方法还包括;

未匹配到唤醒人员的专属应答策略时,调取通用应答数据库内存储的应答策略并输出。

一种人工智能交互系统,包括:

获取模块,所述获取模块用于包含获取唤醒动作、唤醒人员的生物信息和唤醒人员所发出的交互信息;

信息处理模块,所述信息处理模块用于分析包含唤醒动作的信息、唤醒人员的生物信息和唤醒人员所发出的交互信息;

存储模块,所述存储模块用于存储应答策略;

应答模块,所述应答模块通过调取存储模块捏的应答策略完成应答动作。

一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述方法的步骤。

种存储介质,其上存储有计算机程序(指令),其特征在于,所述计算机程序(指令)被处理器执行时实现如上述方法的步骤。

综上所述,本发明与现有技术相比具有以下有益效果:

1、本发明提供的实施例通过对不同的唤醒人员匹配不同的应答策略,同时以唤醒人员的心情或所处情景的不同做出不同的应答动作,使得人工智能在做出应答动作时以实现个性化、智能化的提升。

2、本发明能够提高用户对于人工智能设备的体验性,方便智能设备的使用。

3、本发明的交互方式具有多样化,不仅适合正常人士的使用,还适合残障人士的使用。

附图说明

图1为本发明的流程示意图。

图2为本发明人工智能的结构示意图。

图3为本发明中语义数据库和应答数据库的结构示意图。

图4为本发明中专属应答数据库的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1给出的本发明的人工智能交互方法,应用于智能终端,包括以下步骤:

S100、获取唤醒动作,其中,所述唤醒动作包括唤醒手势、唤醒词和唤醒指令;

S200、通过唤醒动作确定唤醒人员,并获取该唤醒人员的生物信息,其中,所述生物信息至少包括唤醒人员的面容信息、动作信息和音频信息;

S300、根据获取到的生物信息匹配唤醒人员的专属应答策略并输出,所述专属应答策略为按照唤醒人员生物信息预设多组不同的应答动作;

如图2所示,作为本发明的一种优选的方式,所述人工智能包括视频分析模块100和音频分析模块200,所述视频分析模块100连接智能终端上的图像采集装置用以获取视频,所述音频分析模块200连接智能终端上的音频采集装置用以获取音频;

所述唤醒手势为预设在智能终端内的特定的视频片段,所述获取唤醒动作的方法是通过视频采集装置获取视频并与预设的视频片段对比,在获取的视频与视频片段匹配度达到预设值时,由待机状态切换为工作状态;

在一些示例中,所述唤醒手势可以为握拳、张开手掌、在空间上绘制的特定轨迹,所述人工智能通过识别特定的唤醒动作由待机状态切换成工作状态,然后通过识别做出所述唤醒动作的人并确定其为唤醒人员;

当有人以唤醒手势唤醒人工智能时,所述人工智能通过智能终端上的图像采集装置获取视频,并将所获取的视频与存储于智能终端内的视频片段进行逐帧对比,当存储于智能终端内的视频片段与所获取的视频内的部分画面的重合度达到阈值时,所述人工智能判定有人唤醒;

例如,当人工智能经存储于智能终端内的视频片段与所获取的视频对比后,存储于智能终端内的视频片段与所获取的视频内的部分画面的重合度达到90%时,人工智能由待机状态改为工作状态;

人工智能在被唤醒的同时,视频分析模块100通过分析所获取的含有唤醒手势的视频片段,并提取做出唤醒手势的人将其确定为唤醒人员,然后人工智能锁定该唤醒人员,并控制视频分析模块100和音频分析模块200分别通过视频采集装置和音频采集装置采集该唤醒人员的面容信息、动作信息和音频信息;

所述唤醒词为预设在人工智能内特定的语音片段,所述获取唤醒动作的方法是通过获取的所述特定的语音片段所具备的音调和音色锁定唤醒人员;

例如,所述唤醒词可以为小智同学,当有人说出小智同学时,所述人工智能被唤醒;

需要注意的时,所述唤醒词为非常用词语的语音片段,从而防止人工智能被误唤醒;

所述人工智能内的音频分析模块200通过连接的音频采集装置实时采集外界音频并将其与内置的音频片段进行逐帧对比,在获取的音频与音频片段匹配度达到预设值时,所述人工智能由待机状态切换为工作状态;

例如,所述音频片段为小智同学,所述音频采集装置将外界采集到的音频发送到音频分析模块200内,所述音频分析模块200将其转化为波动的形式与包含小智同学的音频片段所具有的波形对比,当两者的重合度达到90%时,所述人工智能被唤醒;

所述人工智能在被唤醒的同时,音频分析模块200分析包含唤醒词的音频的音源位置同时记录发出该唤醒词的人的音色信息,所述视频分析模块100通过控制视频采集模块的采集方向对准音源位置,视频采集装置捕捉说出该唤醒词的人的视频,在唤醒人员再次发声时,音频采分析模块200通过音频采集装置所采集的音频所具有的音色信息与记录的音色信息对比,同时视频分析模块100通过分析视频采集模块所采集的视频内嘴部活动的人并将其确定为唤醒人员,视频分析模块100和音频分析模块200分别通过视频采集装置和音频采集装置采集该唤醒人员的面容信息、动作信息和音频信息;

在一些示例中,所述音频采集装置包括至少两组采集模块,所述音频分析模块200通过分析各采集模块所采集的音频的音量大小,以采集的音频的音量对应的半径值画圆,圆的交点所在区域即为音源位置;

所述唤醒指令为预设在人工智能上层的控制端发出的命令,所述人工智程序能通过锁定操作控制端的人锁定唤醒人员,

例如,在客户端类的交互环境中,客户端的控制端向人工智能发出唤醒指令,唤醒人员通过该操控该客户端的交互工具,例如键盘、鼠标和触摸屏等向控制端发出交互信息,控制端将所接收到的交互信息发送给人工智能,在人工智能接受到唤醒指令时,视频分析模块100通过控制视频采集装置获取操作该交互工具的人,并将其确定为唤醒人员,视频分析模块100和音频分析模块200分别通过视频采集装置和音频采集装置采集该唤醒人员的面容信息、动作信息和音频信息;

所述人工智能通过图像采集装置、音频采集装置获取唤醒人员的生物信息,所述生物信息包括但不限于面容信息、音调和音色信息,所述人工智能以获取的生物信息作为检索信息检索内置的应答数据库,调取存储于应答数据库内的专属应答策略;

如图2和图3所示,所述人工智能内还设置有应答数据库500,所述应答数据库500存储于智能终端内,所述应答数据库500包括专属应答数据库510和通用应答数据库520;

如图3所示,所述专属应答策略存储于专属于特定唤醒人员的专属应答数据库510内,所述专属应答数据库510以唤醒人员的生物信息作为检索信息,所述专属应答数据库510存储在内置于人工智能的应答数据库500内,所述在人工智能获取唤醒人员的生物信息后通过该生物信息检索应答数据库500并匹配专属应答数据库510;

所述专属应答策略根据唤醒人员在不同情境下发出的交互信息给予不同的应答;

如图2所示,作为本发明的一种优选的方式,所述人工智能还情绪分析模块300,所述情绪分析模块300用于分析唤醒人员的情绪,所述专属应答数据库510内按照唤醒人员的情绪信息预设多组不同的专属应答策略,唤醒人员在不同的情绪下对于相同的交互信息,所述人工智能给予不同的应答;

如图4所示,所述专属应答数据库510内的应答策略按照情绪分为消极情绪、平静情绪和积极情绪等分类,同时消极情绪的分类下又可以分为愤怒情绪和失落情绪等分组;所述情绪分析模块300通过分析唤醒人员的面容信息及音调信息分析唤醒人员的情绪,并按照所分析的情绪位于该情绪分组下的应答策略;

在一些示例中,情绪分析模块300内预设有唤醒人员在平静情绪下的面容信息和音调信息,当情绪分析模块300捕捉到唤醒人员的眉间距相对于平静情绪下的眉间距时,情绪分析模块300判断唤醒人员的情绪处于消极情绪,当唤醒人员的音调较高时,在判断唤醒人员的情绪处于消极情绪的情况下可以进一步的判断环人员处于愤怒情绪;所述专属应答数据库510内按照情绪的不同设置有不同的分类;

当情绪分析模块300捕捉到唤醒人员的眉高度相对于平静情绪下的眉间距时,情绪分析模块300判断唤醒人员的情绪处于积极情绪;

所述专属应答策略的设置能够使得所述人工智能在不同的唤醒人员唤醒时选择不同的应答策略,同时,能够使得所述人工智能在同一个唤醒人员处于不同情境下具有不同的应答策略,从而提高人工智能的智能程度;

进一步的,所述人工智能未匹配到唤醒人员的专属应答策略时,人工智能从通用应答数据库520获取应答策略进行交互。

作为本发明的另一个优选的实施方式,本发明的交互方式可以通过手势交互、语音交互和文字交互的方式进行,从而提高人工智能交互的便捷性;

所述人工智能内设置有语义分析模块400和语义数据库600,所述语义分析模块400从视频分析模块100中获取的视频信息、音频分析模块200中获取的语音信息及从唤醒人员输入的文字信息中分析唤醒人员的语义,并通过所获取的语义从应答数据库500中检索应答动作;

在一些示例中,所述语义数据库600包括手语数据库610、语音数据库620和文字数据库630,所述手语数据库610内存储有手语基本动作和对应的语义,所述语音数据库620内存储有不同的音频片段所对应的语义,所述文字数据库630内存储有不同的文字信息所对应的语义,所述人工智能通过对比手语数据库610、语音数据库620和文字数据库630存储的手语、音频片段及文字信息获取唤醒人员的语义;

在手势交互的情景下,所述人工智能通过获取唤醒人员的手语动作分析唤醒人员所传达的交互信息,人工智能获取唤醒人员的手语视频片段并将其分解成手语基本动作通过和语数据库内存储的手语基本动作匹配,得出唤醒人员所要表达的语义,根据唤醒人员所要表达的语义所述人工智能做出应答动作;

需要注意的是,在问答式的交互情景下,人工智能通过对手语基本动作的组合以视频输出的方式做出应答;

在语音交互情景下,人工智能通过获取唤醒人员的语音片段并分析语音片段内的关键词,通过在语音数据库620内对关键词的检索获取语义,在通过获取的语义在应答数据库500内匹配应答策略,人工智能获取应答策略后通过视频、动作或语音的方式做出应答;

需要注意的是,在问答式的交互情景下,人工智能通过应答数据库500内获取的应答策略,通过在语音数据库620内匹配应答语音,再通过音频播放装置做出语音应答;

在文字交互的情景下,唤醒人员输入语句,人工智能通过对语句提取关键词并在文字数据库630内匹配语义,人工智能根据匹配的语义从应答数据库500获取应答策略;

所述人工智能还包括应答输出模块700,所述应答输出模块700用于输出应答动作,所述应答输出模块700连接智能终端的视频输出装置、音频输出装置和机械臂。

综上所述,本发明提供的实施例通过对不同的唤醒人员匹配不同的应答策略,同时以唤醒人员的心情或所处情景的不同做出不同的应答动作,使得人工智能在做出应答动作时以实现个性化、智能化的提升。

一种人工智能交互系统,包括:

获取模块,所述获取模块用于包含获取唤醒动作、唤醒人员的生物信息和唤醒人员所发出的交互信息;

所述获取模块包括视频采集装置、音频采集装置、触摸屏、鼠标和键盘等能够输入信息的装置;

信息处理模块,所述信息处理模块用于分析包含唤醒动作的信息、唤醒人员的生物信息和唤醒人员所发出的交互信息;

所述信息处理模块在人工智能处于待机状态时通过获取模块获取的视频和音频与预设的视频片段和音频片段对比,并分析该视频和音频是否包含唤醒动作;

所述信息处理模块在人工智能唤醒时分析获取模块所获取的视频和音频并提取视频和音频中唤醒人员的生物信息和交互信息并以此匹配应答策略;

存储模块,所述存储模块用于存储应答策略;

在一些示例中,所述存储模块为存储器;

应答模块,所述应答模块通过调取存储模块内的应答策略完成应答动作。

一种计算机设备,所述计算机设备包括处理器、存储模块、输入单元、输出单元及存储在所述处理器内并可在处理器内运行的计算机程序,所述计算机程序运行时能够实现上述人工智能交互方法的步骤,所述输入单元包括但不限于视频采集模块、音频采集模块、触摸屏、键盘和鼠标,所述输出模块包括但不限于视频输出模块、音频输出模块及执行端,所述执行端包括但不限于智能家居、交通工具;

所称处理器可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个用户终端的各个部分。

一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时可实现上述人工智能交互方法的步骤。

所称处理器可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个用户终端的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 一种人工智能交互方法、系统、计算机设备及存储介质
  • 基于人工智能的交互方法、装置、计算机设备及存储介质
技术分类

06120112923650