掌桥专利:专业的专利平台
掌桥专利
首页

一种心理状态检测方法、装置、可读存储介质及终端设备

文献发布时间:2024-04-18 19:58:21


一种心理状态检测方法、装置、可读存储介质及终端设备

技术领域

本申请属于人工智能技术领域,尤其涉及一种心理状态检测方法、装置、计算机可读存储介质及终端设备。

背景技术

在现有技术中,主要通过调查问卷的形式进行心理状态检测,但通过调查问卷并不能准确确定被测者的心理状态,因为仅通过调查问卷这种单一的文本信息可获取的内容较少且不够准确,这便导致心理状态检测结果的准确率较低。

发明内容

有鉴于此,本申请实施例提供了一种心理状态检测方法、装置、计算机可读存储介质及终端设备,以解决现有的心理状态检测准确率较低的问题。

本申请实施例的第一方面提供了一种心理状态检测方法,可以包括:

获取用户在对话过程中的多模态信息;

使用预设的心理状态检测模型对所述多模态信息进行处理,得到所述用户的心理状态检测结果;

其中,所述心理状态检测模型为经过预设的训练样本集训练得到的深度学习模型,所述训练样本集中包括预设数目的训练样本,每个训练样本包括多模态信息样本和对应的预期检测结果。

在第一方面的一种具体实现方式中,所述获取用户在对话过程中的多模态信息,包括:

使用预设的对话模型生成与所述用户的对话文本;

对所述对话文本进行语音转换,得到与所述用户的对话语音;

根据所述对话语音进行说话头合成和身体姿态合成,得到多模态数字人视频;

通过所述多模态数字人视频与所述用户进行对话,并获取所述用户在对话过程中的多模态信息。

在第一方面的一种具体实现方式中,所述对话模型的训练过程包括:

获取预训练的通用语言处理模型和预设的心理咨询对话数据集;

使用所述心理咨询对话数据集对所述通用语言处理模型进行训练,得到所述对话模型。

在第一方面的一种具体实现方式中,所述心理状态检测模型的训练过程包括:

获取所述训练样本集;

以所述训练样本集中每个训练样本的多模态信息样本为输入,以所述训练样本集中每个训练样本的预期检测结果为预期输出,对初始的深度学习模型进行训练,得到所述心理状态检测模型。

在第一方面的一种具体实现方式中,在使用预设的心理状态检测模型对所述多模态信息进行处理,得到所述用户的心理状态检测结果之后,还包括:

生成与所述心理状态检测结果对应的多模态反馈素材,并向所述用户展示所述多模态反馈素材。

在第一方面的一种具体实现方式中,所述生成与所述心理状态检测结果对应的多模态反馈素材,包括:

使用预设的素材生成模型对所述心理状态检测结果进行处理,得到与所述心理状态检测结果对应的音乐反馈素材;其中,所述素材生成模型为经过预设的素材训练样本集训练得到的概率生成模型,所述素材训练样本集中包括预设数目的训练样本,每个训练样本包括心理状态检测结果样本和对应的预期音乐反馈素材;

根据所述音乐反馈素材进行数字人舞蹈动作合成,得到所述多模态反馈素材。

在第一方面的一种具体实现方式中,所述多模态信息包括以下至少两个:视觉信息、语音信息、文本信息以及生理信号信息。

本申请实施例的第二方面提供了一种心理状态检测装置,可以包括:

信息获取模块,用于获取用户在对话过程中的多模态信息;

信息处理模块,用于使用预设的心理状态检测模型对所述多模态信息进行处理,得到所述用户的心理状态检测结果;

其中,所述心理状态检测模型为经过预设的训练样本集训练得到的深度学习模型,所述训练样本集中包括预设数目的训练样本,每个训练样本包括多模态信息样本和对应的预期检测结果。

在第二方面的一种具体实现方式中,所述获取模块包括:

生成子模块,用于使用预设的对话模型生成与所述用户的对话文本;

转换子模块,用于对所述对话文本进行语音转换,得到与所述用户的对话语音;

合成子模块,用于根据所述对话语音进行说话头合成和身体姿态合成,得到多模态数字人视频;

对话子模块,用于通过所述多模态数字人视频与所述用户进行对话,并获取所述用户在对话过程中的多模态信息。

在第二方面的一种具体实现方式中,所述心理状态检测装置还包括:

获取模块,用于获取预训练的通用语言处理模型和预设的心理咨询对话数据集;

训练模块,用于使用所述心理咨询对话数据集对所述通用语言处理模型进行训练,得到所述对话模型。

在第二方面的一种具体实现方式中,所述处理模块包括:

样本集获取子模块,用于获取所述训练样本集;

模型训练子模块,用于以所述训练样本集中每个训练样本的多模态信息样本为输入,以所述训练样本集中每个训练样本的预期检测结果为预期输出,对初始的深度学习模型进行训练,得到所述心理状态检测模型。

在第二方面的一种具体实现方式中,所述心理状态检测装置还包括:

素材生成模块,用于生成与所述心理状态检测结果对应的多模态反馈素材,并向所述用户展示所述多模态反馈素材。

在第二方面的一种具体实现方式中,素材生成模块包括:

音乐素材生成子模块,用于使用预设的素材生成模型对所述心理状态检测结果进行处理,得到与所述心理状态检测结果对应的音乐反馈素材;其中,所述素材生成模型为经过预设的素材训练样本集训练得到的概率生成模型,所述素材训练样本集中包括预设数目的训练样本,每个训练样本包括心理状态检测结果样本和对应的预期音乐反馈素材;

合成子模块,用于根据所述音乐反馈素材进行数字人舞蹈动作合成,得到所述多模态反馈素材。

在第二方面的一种具体实现方式中,所述多模态信息包括以下至少两个:视觉信息、语音信息、文本信息以及生理信号信息。

本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种心理状态检测方法的步骤。

本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种心理状态检测方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述任一种心理状态检测方法的步骤。

本申请实施例与现有技术相比存在的有益效果是:本申请实施例获取用户在对话过程中的多模态信息;使用预设的心理状态检测模型对所述多模态信息进行处理,得到所述用户的心理状态检测结果;其中,所述心理状态检测模型为经过预设的训练样本集训练得到的深度学习模型,所述训练样本集中包括预设数目的训练样本,每个训练样本包括多模态信息样本和对应的预期检测结果。通过本申请,能够在与用户进行对话时获取用户的多模态信息,并使用心理状态检测模型处理多模态信息,得到用户的心理状态检测结果,提高心理状态检测结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种心理状态检测方法的一个实施例流程图;

图2为获取用户在对话过程中的多模态信息的示意流程图;

图3为生成与心理状态检测结果对应的多模态反馈素材的示意流程图;

图4为心理状态检测的完整流程图;

图5为本申请实施例中一种心理状态检测装置的一个实施例结构图;

图6为本申请实施例中一种终端设备的示意框图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在现有技术中,属于文本信息的调查问卷是目前最常用的心理状态检测方法,但由于各种情况,调查问卷并不能很好地体现被测者的心理状态,从而导致通过调查问卷得到的心理状态检测结果的准确率较低,除此之外,被测者的心理状态无法仅靠文本信息进行准确表达,因为人的心理状态除了可以通过文本信息进行表达之外,还可以通过视觉信息、语音信息和生理信号信息等进行表达。

在本申请实施例中,提供了一种心理状态检测系统,用户可以通过该系统注册账号并登录,在登录系统后,便可在该系统上进行心理状态检测,在心理状态检测过程中,系统可以生成多模态数字人视频与用户进行对话,并提取对话过程中用户的多模态信息,再使用预设的心理状态检测模型处理多模态信息,得到用户的心理状态检测结果,根据用户的心理状态检测结果生成对应的多模态反馈素材并向用户进行展示,同时用户也可在系统上查询以前的心理状态检测结果以及对应的多模态反馈素材。

本申请实施例还提供了一种通过多模态信息进行心理状态检测的方法,其可以应用于手机、平板电脑、桌上型计算机、笔记本、掌上电脑等任意一种终端设备。

请参阅图1,本申请实施例中一种心理状态检测方法的一个实施例可以包括:

步骤S101、获取用户在对话过程中的多模态信息。

其中,多模态信息包括以下至少两个:视觉信息、语音信息、文本信息以及生理信号信息。

在获取用户在对话过程中的多模态信息之前,可以通过摄像头或者麦克风等传感器确定用户是否需要进行心理状态检测,具体地,当通过摄像头发现用户进入预设的距离内,并且用户通过按键、语音或者手势等方式发出对话请求后,则认为用户需要进行心理状态检测并开始执行步骤S101及其后续步骤;若未发现用户进入预设的距离内,或者用户进入预设的距离内,但未发出对话请求,则认为用户不需要进行心理状态检测,并持续通过传感器确定用户是否需要进行心理状态检测。

在本申请实施例的一种具体实现方式中,步骤S101具体可以包括如图2所示的过程:

步骤S1011、使用预设的对话模型生成与用户的对话文本。

在本申请实施例的一种具体实现方式中,对话模型的训练过程为首先获取预训练的通用语言处理模型和预设的心理咨询对话数据集,再使用心理咨询对话数据集对通用语言处理模型进行训练,即可得到训练完成的对话模型。具体地,可以使用现有技术中的任意一种预训练的通用语言处理模型,包括但不限于生成式预训练转换器(GenerativePretrained Transformer,GPT)模型等,本申请实施例对此不作具体限定。但现有技术中的通用语言处理模型并不是专门用于心理状态检测领域的语言处理模型,因此使用其所生成的对话文本无法直接用于心理状态检测,此时便可以使用心理咨询对话数据集对通用语言处理模型进行知识蒸馏,使得通用语言处理模型能够生成用于心理状态检测的对话文本,完成知识蒸馏的通用语言处理模型即为本申请实施例中的对话模型。

步骤S1012、对对话文本进行语音转换,得到与用户的对话语音。

在本申请实施例的一种具体实现方式中,可以使用现有技术中的任意一种语音转换模型进行语音转换,例如大规模多语言语音(Massively Multilingual Speech,MMS)模型等,本申请实施例对此不作具体限定。

步骤S1013、根据对话语音进行说话头合成和身体姿态合成,得到多模态数字人视频。

在本申请实施例中,可以使用现有技术中的任意一种模型进行说话头合成,包括但不限于人脸隐式学习(Face with Implicit Attribute Learning,FACIAL)模型、语音操作角色动画(Voice Operated Character Animation,VOCA)模型以及周期性隐式生成对抗网络(Periodic Implicit Generative Adversarial Networks,Pi-GAN)等。在进行身体姿态合成时可以选择现有技术中的任意一种模型,包括但不限于基于相位函数的神经网络(Phase-Functioned Neural Networks,PFNN)、局部运动相位法(Local Motion Phase,LMP)以及动作生成扩散模型(Motion Diffusion Model,MDM)等。

根据需求选择合适的说话头合成模型和身体姿态合成模型后,分别将对话语音和对话文本输入说话头合成模型和身体姿态合成模型,即可得到文本同步的合成说话头和合成身体姿态,再将合成的说话头和合成的身体姿态进行融合,得到多模态数字人视频。

步骤S1014、通过多模态数字人视频与用户进行对话,并获取用户在对话过程中的多模态信息。

在通过多模态数字人视频与用户进行对话时,可以分别通过视觉传感器、听觉传感器或者生理信号传感器采集用户在对话过程中产生的视觉信息、语音信息或者生理信号信息,并基于自动语音识别技术(Automatic Speech Recognition,ASR)将语音信息转换为文本信息。

为了提高用户对多模态数字人的信任程度,在与用户进行对话时还可以将此次对话的内容保存在与该用户对应的对话历史数据中,当用户再次提及相关话题时可以在对话历史数据中查找相关内容并与用户进行对话,有利于对话过程的顺利进行和对话内容的真实性,进一步提高了心理状态检测的准确率。

步骤S102、使用预设的心理状态检测模型对多模态信息进行处理,得到用户的心理状态检测结果。

在本申请实施例的一种具体实现方式中,心理状态检测模型为经过预设的训练样本集训练得到的深度学习模型,具体使用何种类型的深度学习模型可以根据实际情况进行选择,例如注意力机制长短期记忆网络(Attention-Long Short Term Memory,Attention-LSTM)、径向基函数网络(Radial Basis Function,RBF)、卷积神经网络(ConvolutionalNeural Networks,CNN)、去卷积网络(Deconvolutional Networks,DN)、生成对抗网络(Generative Adversarial Networks,GAN)、循环神经网络(Recurrent Neural Networks,RNN)、深度残差网络(Deep Residual Networks,DRN)以及深度卷积逆向图网络(DeepConvolutional Inverse Graphics Networks,DCIGN)等,本申请实施例对此不作具体限定。

在本申请实施例中,用于训练心理状态检测模型的训练样本集中包括预设数目的训练样本,每个训练样本包括多模态信息样本和对应的预期检测结果,以训练样本集中每个训练样本的多模态信息样本为输入,以训练样本集中每个训练样本的预期检测结果为预期输出,对初始的深度学习模型进行训练,当满足预设的训练条件时,即可得到心理状态检测模型。

在训练的过程中,可以针对训练样本集中的每个训练样本,使用深度学习模型对该训练样本中的多模态信息样本进行处理,得到实际输出的检测结果,然后根据该训练样本中的预期输出的预期检测结果和实际输出的检测结果计算训练损失值。训练损失值的具体计算方式可以根据实际情况进行设置,例如,可以计算预期输出的预期检测结果和实际输出的检测结果之间的平方误差,并将该平方误差确定为训练损失值。

在计算得到训练损失值之后,则可以根据训练损失值对深度学习模型的模型参数进行调整。在本申请实施例中,假设在初始状态下,深度学习模型的模型参数为W1,将训练损失值反向传播修改深度学习模型的模型参数W1,得到修改后的模型参数W2。修改参数之后再继续执行下一次的训练过程,在该次训练过程中,重新计算得到训练损失值,将该训练损失值反向传播修改深度学习模型的模型参数W2,得到修改后的模型参数W3,……,以此类推,不断重复以上过程,每次训练过程均可对模型参数进行修改,直至满足预设的训练条件,其中,训练条件可以是训练次数达到预设的次数阈值,次数阈值可以根据实际情况进行设置,例如,可以将其设置为数千、数万、数十万甚至更大的数值;训练条件也可以是深度学习模型收敛;由于可能出现训练次数还未达到次数阈值,但深度学习模型已经收敛,可能导致重复不必要的工作;或者深度学习模型始终无法收敛,可能导致无限循环,无法结束训练的过程,基于上述两种情况,训练条件还可以是训练次数达到次数阈值或深度学习模型收敛。当满足训练条件时,即可得到已训练的心理状态检测模型。

在得到已训练的心理状态检测模型之后,除了可以使用心理状态检测模型处理多模态信息,直接得到用户的心理状态检测结果之外,还可以在使用心理状态检测模型处理多模态信息之后,将得到的结合前的心理状态检测结果(记为第一检测结果)结合用户的历史心理状态检测结果得到用户的心理状态检测结果。用户的历史心理状态检测结果为在用户进行本次心理状态检测之前的各次心理状态检测结果,将第一检测结果和历史心理状态检测结果进行加权平均,得到用户的心理状态检测结果,其中,检测时间距离本次心理状态检测越远的历史心理状态检测结果的权数越低,检测时间距离本次心理状态检测越近的历史心理状态检测结果的权数越高。心理状态检测结果由好到差可以分为一级心理状态、二级心理状态、三级心理状态、四级心理状态和五级心理状态,其中一级心理状态表示心理状态为最佳,五级心理状态表示心理状态为最差,在得到用户的心理状态检测结果后,便可执行步骤S301及其后续步骤。需要注意的是,上述内容仅为本申请实施例中的一个示例,心理状态检测结果的分级及其确定方式可以根据实际情况进行设置,本申请实施例对此不作具体限定。

若对话环节尚未结束便提前得到用户的心理状态检测结果,则可能影响心理状态检测的准确率,因此为确保对话环节已经结束,可以根据对话结束语句集合或者用户在一段时间内的心理状态变化过程判断与用户的对话环节是否结束,其中,对话结束语句集合中存储有若干代表对话结束的语句(记为结束语句)。具体地,当根据对话结束语句集合判断对话环节是否结束时,可以将用户的当前对话语句与对话结束语句集合中的结束语句进行比较,若用户的当前对话语句与某个结束语句的含义相同或相似,则认为对话环节已经结束,并将此时用户的心理状态作为心理状态检测结果,同时执行步骤S301及其后续步骤,若用户的当前对话语句与各个结束语句的含义都不相同或不相似,则继续进行对话环节直至用户的当前对话语句与结束语句的含义相同或相似。

当根据用户在一段时间内的心理状态变化过程判断对话环节是否结束时,可以通过用户的心理状态是否稳定判断对话环节是否结束,当用户的心理状态连续三次为同一级心理状态时认为用户的心理状态稳定,若用户的心理状态稳定,则认为对话环节已经结束,若用户的心理状态不稳定,则认为对话环节没有结束。例如用户的心理状态依次为二级心理状态、三级心理状态、三级心理状态、二级心理状态、一级心理状态、一级心理状态,由于此时用户的心理状态不稳定,因此认为对话环节尚未结束,继续与用户进行对话;若用户的心理状态依次为三级心理状态、一级心理状态、一级心理状态、二级心理状态、二级心理状态、二级心理状态,此时便可认为用户的心理状态检测结果为二级心理状态,结束对话环节,并执行步骤S301及其后续步骤。

在得到用户的心理状态检测结果之后,本申请实施例还可以生成与心理状态检测结果对应的多模态反馈素材,并向用户展示多模态反馈素材,其中生成与心理状态检测结果对应的多模态反馈素材具体可以包括如图3所示的过程:

步骤S301、使用预设的素材生成模型对心理状态检测结果进行处理,得到与心理状态检测结果对应的音乐反馈素材。

在本申请实施例的一种具体实现方式中,素材生成模型为经过预设的素材训练样本集训练得到的概率生成模型。

素材训练样本集中包括预设数目的训练样本,每个训练样本包括心理状态检测结果样本和对应的预期音乐反馈素材。以素材训练样本集中每个训练样本的心理状态检测结果样本为输入,以素材训练样本集中每个训练样本的预期音乐反馈素材为预期输出,对初始的概率生成模型进行训练,当满足预设的训练条件时,即可得到素材生成模型。具体的训练过程可以参照现有技术进行训练,在此不再进行赘述。

在得到训练完成的素材生成模型之后,即可使用素材生成模型生成与用户的心理状态检测结果对应的音乐反馈素材。相比于传统的基于规则及数据库检索的方法,本申请实施例中通过数据驱动建立的以心理状态检测结果为条件的概率生成模型能够更好地拟合连续的复杂概率函数,从而能够更好的应对实际场景中各种复杂多变的情形。

步骤S302、根据音乐反馈素材进行数字人舞蹈动作合成,得到多模态反馈素材。

在本申请实施例的一种具体实现方式中,可以使用量化自编码器(VectorQuantized Variational Auto-Encoder,VQ-VAE)将舞蹈动作分解为身体姿态编码(PoseCode),并且将一个标准舞姿下的身体姿态编码作为一个姿态编码序列,为了使身体姿态编码涵盖尽量多的舞蹈动作,还可以先将舞蹈动作分为上下身后再使用VQ-VAE将舞蹈动作分解为身体姿态编码,然后将各个上下身的身体姿态编码组合为一个姿态编码序列,同时通过GPT对姿态编码序列进行评估,去除不符合标准舞姿要求的姿态编码序列。使用姿态编码序列和对应的音乐对神经网络如长短期记忆网络(Long Short Term Memory,LSTM),或者门控循环单元网络(Gate Recurrent Unit,GRU)等进行训练,得到编舞模型,将音乐反馈素材输入编舞模型得到生成的姿态编码序列,再将姿态编码序列通过三维图形学、生成对抗网络(Generative Adversarial Network,GAN)或者扩散模型(Diffusion Model,DM)等映射到二维图像空间,即可得到生成的多模态反馈素材。需要注意的是,上述内容仅为本申请实施例中的一个示例,具体使用何种方式进行数字人舞蹈动作合成可以根据实际情况进行选择,本申请实施例对此不作具体限定。

图4所示为本申请实施例中的心理状态检测的完整流程图,首先通过传感器获取用户的对话请求,若未通过传感器获取到用户的对话请求,则重复执行此步骤直至获取到用户的对话请求;若获取到用户的对话请求,则先使用对话模型生成与用户的对话文本,再将对话文本转换为与用户的对话语音,并基于对话语音生成多模态数字人视频,最后通过多模态数字人视频与用户进行对话,并获取对话过程中用户的多模态信息,之后使用心理状态检测模型处理多模态信息,得到心理状态检测结果,根据心理状态检测结果生成对应的多模态反馈素材并向用户进行展示后,此次心理状态检测即结束。各个步骤的详细内容均可参照前述实施例的相关描述,在此不再赘述。

综上所述,本申请实施例获取用户在对话过程中的多模态信息;使用预设的心理状态检测模型对所述多模态信息进行处理,得到所述用户的心理状态检测结果;其中,所述心理状态检测模型为经过预设的训练样本集训练得到的深度学习模型,所述训练样本集中包括预设数目的训练样本,每个训练样本包括多模态信息样本和对应的预期检测结果。通过本申请,能够在与用户进行对话时获取用户的多模态信息,并使用心理状态检测模型处理多模态信息,得到用户的心理状态检测结果,提高心理状态检测结果的准确性。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的一种心理状态检测方法,图5示出了本申请实施例提供的一种心理状态检测装置的一个实施例结构图。

本实施例中,一种心理状态检测装置可以包括:

信息获取模块501,用于获取用户在对话过程中的多模态信息;

信息处理模块502,用于使用预设的心理状态检测模型对所述多模态信息进行处理,得到所述用户的心理状态检测结果;

其中,所述心理状态检测模型为经过预设的训练样本集训练得到的深度学习模型,所述训练样本集中包括预设数目的训练样本,每个训练样本包括多模态信息样本和对应的预期检测结果。

在本申请实施例的一种具体实现方式中,所述获取模块包括:

生成子模块,用于使用预设的对话模型生成与所述用户的对话文本;

转换子模块,用于对所述对话文本进行语音转换,得到与所述用户的对话语音;

合成子模块,用于根据所述对话语音进行说话头合成和身体姿态合成,得到多模态数字人视频;

对话子模块,用于通过所述多模态数字人视频与所述用户进行对话,并获取所述用户在对话过程中的多模态信息。

在本申请实施例的一种具体实现方式中,所述心理状态检测装置还包括:

获取模块,用于获取预训练的通用语言处理模型和预设的心理咨询对话数据集;

训练模块,用于使用所述心理咨询对话数据集对所述通用语言处理模型进行训练,得到所述对话模型。

在本申请实施例的一种具体实现方式中,所述处理模块包括:

样本集获取子模块,用于获取所述训练样本集;

模型训练子模块,用于以所述训练样本集中每个训练样本的多模态信息样本为输入,以所述训练样本集中每个训练样本的预期检测结果为预期输出,对初始的深度学习模型进行训练,得到所述心理状态检测模型。

在本申请实施例的一种具体实现方式中,所述心理状态检测装置还包括:

素材生成模块,用于生成与所述心理状态检测结果对应的多模态反馈素材,并向所述用户展示所述多模态反馈素材。

在本申请实施例的一种具体实现方式中,素材生成模块包括:

音乐素材生成子模块,用于使用预设的素材生成模型对所述心理状态检测结果进行处理,得到与所述心理状态检测结果对应的音乐反馈素材;其中,所述素材生成模型为经过预设的素材训练样本集训练得到的概率生成模型,所述素材训练样本集中包括预设数目的训练样本,每个训练样本包括心理状态检测结果样本和对应的预期音乐反馈素材;

合成子模块,用于根据所述音乐反馈素材进行数字人舞蹈动作合成,得到所述多模态反馈素材。

在本申请实施例的一种具体实现方式中,所述多模态信息包括以下至少两个:视觉信息、语音信息、文本信息以及生理信号信息。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

图6示出了本申请实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本申请实施例相关的部分。

如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个心理状态检测方法实施例中的步骤,例如图1所示的步骤S101至步骤S102。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至模块502的功能。

示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。

所述终端设备6可以是手机、平板电脑、桌上型计算机、笔记本、掌上电脑及机器人等计算设备。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备6还可以包括输入输出设备、网络接入设备、总线等。

所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备6所需的其它程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 一种APP的自动生成方法、装置、终端设备及可读存储介质
  • 一种建筑构件管理方法、装置、终端设备及可读存储介质
  • 一种图像分类方法、装置、终端设备及可读存储介质
  • 一种安全监控方法、装置、可读存储介质及终端设备
  • 一种数据评价方法、装置、终端设备及可读存储介质
  • 屏幕显示状态检测方法、装置、终端设备及可读存储介质
  • 身体健康状态检测方法、装置、可读存储介质及终端设备
技术分类

06120116484353