掌桥专利:专业的专利平台
掌桥专利
首页

电子仿生人系统和电子仿生人行为的确定方法

文献发布时间:2024-04-18 20:00:50


电子仿生人系统和电子仿生人行为的确定方法

技术领域

本发明涉及人工智能技术领域,尤其涉及一种电子仿生人系统和电子仿生人行为的确定方法。

背景技术

随着电子仿生人技术的发展,通过电子仿生人可以提供各种服务和娱乐,满足人们情感、精神等方面的需求。

相关技术中,电子仿生人的认知能力仍较差,无法准确流畅地与用户进行交互并提供服务,导致用户的体验感知较差。因此如何有效地提升仿生人的智能水平,从而使得电子仿生人的行为与人类的行为更加的拟合是本领域技术人员亟需解决的问题。

发明内容

针对现有技术中的问题,本发明实施例提供一种电子仿生人系统。

具体地,本发明实施例提供了以下技术方案:

第一方面,本发明实施例提供了一种电子仿生人系统,包括:

第一模块和第二模块;第一模块与所述第二模块连接;其中,

所述第一模块用于向用户展示仿生人的人物形象;

所述第二模块用于基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息;

基于所述情感标签、仿生人的人格信息以及仿生人的短期记忆信息生成目标提示词;基于所述目标提示词,确定所述仿生人的行为。

进一步地,所述第二模块,包括:

感觉单元;所述感觉单元用于接收用户的音频信息和文本信息;基于所述用户的音频信息和文本信息,确定用户对应的音频情感标签、文本情感标签和仿生人的人格信息;

知觉单元;所述知觉单元用于基于用户的输入信息形成认知对象,并将用户的输入信息和所述认知对象存储为短期记忆信息;

角色代理单元;所述角色代理单元用于根据所述音频情感标签、文本情感标签、仿生人的人格信息以及短期记忆信息生成目标提示词;基于所述目标提示词,确定所述仿生人的行为。

进一步地,所述第二模块,还包括:

阶段分析单元;所述阶段分析单元用于基于所述短期记忆信息和预设流程,确定电子仿生人在预设流程中所属的阶段信息;

反省单元;所述反省单元用于基于短期记忆信息和预设的提示词,对仿生人的历史行为进行评价,输出目标指令;所述目标指令用于指导仿生人的行为。

进一步地,所述角色代理单元,包括:

字符提示词子单元;所述字符提示词子单元用于基于所述短期记忆信息、仿生人的人格信息、电子仿生人在预设流程中所属的阶段信息和目标指令,生成目标提示词;

模型子单元;所述模型子单元用于基于所述目标提示词,获得输出信息,所述输出信息包括思维参数和行为参数;

输出子单元;所述输出子单元用于将所述思维参数经过情感分类处理获得情感标签并映射到第一模块中展示的仿生人的人物表情上;将所述行为参数转换为所述仿生人的具体行为。

进一步地,所述字符提示词子单元,包括:

人格组件;所述人格组件用于存储仿生人的人格信息;

记忆组件;所述记忆组件用于存储短期记忆信息和长期记忆信息;

格式组件;所述格式组件用于设置所述模型子单元的输出格式;

工具组件;所述工具组件用于封装仿生人的目标功能;所述目标功能包括以下至少一项:说话功能、动作功能、表情功能、主动记忆功能和思维功能。

进一步地,所述第一模块和第二模块基于双向通信Websocket协议进行通信。

进一步地,所述仿生人的人格信息,包括:动态人格信息和固态属性人格信息。

第二方面,本发明实施例还提供了一种电子仿生人行为的确定方法,包括:

基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息;

基于所述情感标签、仿生人的人格信息以及仿生人的短期记忆信息生成目标提示词;

基于所述目标提示词,确定所述仿生人的行为。

第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所述电子仿生人行为的确定方法。

第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第二方面所述电子仿生人行为的确定方法。

第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第二方面所述电子仿生人行为的确定方法。

本发明实施例提供的电子仿生人系统和电子仿生人行为的确定方法,仿生人在与用户交互的过程中,不仅考虑到用户当前输入的信息,还考虑到用户当前对应的情感标签、仿生人自身的人格信息以及仿生人的短期记忆等三个方面的因素,从而使得仿生人的最终的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的电子仿生人系统的结构示意图;

图2是本发明实施例提供的电子仿生人行为的确定方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例的方法可以应用于人工智能场景中,使得仿生人与用户的交互行为具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

相关技术中,电子仿生人的认知能力仍较差,无法准确流畅地与用户进行交互并提供服务,导致用户的体验感知较差。因此如何有效地提升仿生人的智能水平,从而使得电子仿生人的行为与人类的行为更加的拟合是本领域技术人员亟需解决的问题。

本发明实施例的电子仿生人系统,仿生人在与用户交互的过程中,不仅考虑到用户当前输入的信息,还考虑到用户当前对应的情感标签、仿生人自身的人格信息以及仿生人的短期记忆等三个方面的因素,从而使得仿生人的最终的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

下面结合图1-图2以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本发明实施例提供的电子仿生人系统一实施例的流程示意图。如图1所示,本实施例提供的方法,包括:

第一模块和第二模块;第一模块与第二模块连接;其中,

第一模块用于向用户展示仿生人的人物形象;

第二模块用于基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息;

基于情感标签、仿生人的人格信息以及仿生人的短期记忆信息生成目标提示词;基于目标提示词,确定仿生人的行为。

具体地,目前现有的电子仿生人的认知能力仍较差,无法准确流畅地与用户进行交互并提供服务,导致用户的体验感知较差。因此如何有效地提升仿生人的智能水平,从而使得电子仿生人的行为与人类的行为更加的拟合是本领域技术人员亟需解决的问题。

为了解决上述问题,本申请实施例中的电子仿生人系统包括相互连接的第一模块和第二模块;其中,第一模块用于向用户展示仿生人的人物形象;可选地,第一模块可以基于Unity和Live2D进行2D人物形象的显示,也可以基于3D人物建模和Unreal引擎进行3D人物的显示,并用于接收用户的输入信息以及与用户的交互和响应。

可选地,第二模块用于基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息;可选地,用户的输入可以为文本信息,也可以为音频信息;其中,第二模块可以基于文本信息中的内容去推断和确定用户对应的情感标签,如愤怒、喜悦或平静等情感标签;第二模块还可以基于音频信息中的信息内容以及用户的语音、语调、语速以及语气词等多维度的音频特征,更加准确地推断和确定用户所对应地情感标签,进而也就可以基于确定出的用户的情感标签,准确地选择和确定更加合适、更加拟人的与用户交互时的表达形式、行为动作和表达内容。进一步地,第二模块还可以预设仿生人地人格信息,或者基于用户地输入信息,选择和确定仿生人所对应的人格信息;可选地,仿生人的人格信息,不仅包括固态属性人格信息,还包括动态人格信息;其中,固态属性部分包括电子仿生人的基础属性,例如:男女、年龄等;动态人格则更为复杂,包括性格等,如活泼、热情、平静、喜悦、愤怒等;可选地,动态人格可以基于用户输入的信息内容对应调整,从而使得仿生人更加适应和匹配与用户的交互环境,拥有更加强大的功能性、拟人性、认知能力和互动性。进一步地,第二模块还可以将用户已输入的信息作为短期记忆信息,从而使得仿生人在与用户交互沟通过程中,可以基于丰富、全面的历史信息,更加准确地理解用户的意图和情绪,从而在与用户交互的过程中也就可以具备更加强大的功能性、拟人性、认知能力和互动性。

可选地,在第二模块基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息之后,就可以将用户的情感标签、仿生人的人格信息以及仿生人的短期记忆信息作为目标提示词,输入至大语言模型中,从而准确地确定出仿生人对应的行为,并通过第一模块向用户进行展示。也就是仿生人在与用户交互的过程中,不仅考虑到用户当前输入的信息,还考虑到用户当前对应的情感标签、仿生人自身的人格信息以及仿生人的短期记忆等多个方面的因素,从而使得仿生人的最终的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

上述实施例的电子仿生人系统,仿生人在与用户交互的过程中,不仅考虑到用户当前输入的信息,还考虑到用户当前对应的情感标签、仿生人自身的人格信息以及仿生人的短期记忆等三个方面的因素,从而使得仿生人的最终的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

在一实施例中,第二模块,包括:

感觉单元;感觉单元用于接收用户的音频信息和文本信息;基于用户的音频信息和文本信息,确定用户对应的音频情感标签、文本情感标签和仿生人的人格信息;

知觉单元;知觉单元用于基于用户的输入信息形成认知对象,并将用户的输入信息和认知对象存储为短期记忆信息;

角色代理单元;角色代理单元用于根据音频情感标签、文本情感标签、仿生人的人格信息以及短期记忆信息生成目标提示词;基于目标提示词,确定仿生人的行为。

具体地,本申请实施例中第二模块作为仿生机器人的后端,包括感觉单元Feeling、知觉单元Perception和角色代理单元CharacterAgent;其中,感觉单元用于接收用户的音频信息和文本信息,并基于用户的音频信息和文本信息,确定用户对应的音频情感标签、文本情感标签和仿生人的人格信息;也就是感觉单元用于对获得的用户的新输入进行快速处理,获得直觉性质的相关信息;可选地,感觉单元不仅可以基于用户的文本信息确定用户的情感标签,还可以基于用户的音频信息中的文本信息和语音特征确定用户的情感标签,也就是基于多个维度确定用户的情感标签,从而也就使得最终确定出的用户情感标签更加的准确,进而也就使得仿生人与用户的交互和响应更加的准确、智能和拟人,用户的体验感知也就更好。进一步地,感觉单元不仅可以基于用户输入的文本和音频信息准确地感知用户的情绪,还可以基于用户的输入,准确地确定仿生人交互时的人格信息,也就实现了从多个维度去提升仿生人与用户交互时的表现以及仿生人的智能性和拟人性。

可选地,知觉单元用于基于用户的输入信息形成认知对象,并将用户的输入信息和认知对象存储为短期记忆信息;也就是知觉单元在获得文本信息时,如果认为输入的信息和仿生人已理解的对象、概念之间有关联,会把输入的信息和对象进行关联,并把输入的信息、输入的信息与仿生人已理解的对象的关联关系存到短期记忆中。当仿生人与用户交互时,根据短期记忆中的信息,就会得到更多的背景信息和相关信息,从而使得仿生人与用户的交互更加的拟人和更加智能。可选地,当系统获得任何新的输入时,应该按照先放入感觉单元处理,然后放入知觉单元运行处理。

例如,感觉单元可以解析用户的音频数据和文本数据,基于文本数据匹配更新动态人格和事件记忆并获得用户的情感标签;对于音频数据进行分析,也可以获得用户的情感标签,进而将用户的情感标签参数参与映射LLM模型参数。特别的,对于对话的音频数据,也可以对音频进行解析获得文本格式对话内容。知觉单元可以用来进一步加工获得的各种信息,从中提取出具备结构的有效信息,传递给后续流程方便处理。具体实现方式如下:使用Python库pydantic、Kor使用LLM的能力对信息进行处理获得pydantic形式的结构化数据,传递给短期记忆ShortMemory供后续系统进一步处理。

角色代理单元用于将音频情感标签、文本情感标签、仿生人的人格信息以及短期记忆信息作为目标提示词;进而将目标提示词输入至大语言模型中,如将目标提示词输入至LLM模型中,就可以准确的输出和确定出仿生人对于用户输入所对应的行为,并通过第一模块向用户进行展示,从而使得仿生人的最终的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

上述实施例的电子仿生人系统,第二模块中的感觉单元、知觉单元和角色代理单元,不仅可以基于用户的文本信息确定用户的情感标签,还以基于用户的音频信息中包含的文本信息和语音特征(如语速、语调等信息)确当用户的情感标签,也就是基于多个维度确定用户的情感标签,从而也就使得最终确定出的用户情感标签更加的准确;进一步地,感觉单元还可以基于用户的输入,准确地确定仿生人交互时的人格信息,也就是从多个维度去提升仿生人交互时的表现,提升仿生人的智能性和拟人性,从而也就使得仿生人的交互和响应更加的准确、智能和拟人,用户的体验感知也就更好。另一方面,知觉单元在获得文本信息时,如果认为输入的信息和仿生人已理解的对象、概念之间有关联,会把输入的信息和对象进行关联,并把输入的信息、输入的信息与仿生人已理解的对象的关联关系存到短期记忆中。当仿生人与用户交互时,根据短期记忆中的信息,就会得到更多的背景信息和相关信息,从而使得仿生人与用户的交互更加的拟人和智能。最后,角色代理单元将音频情感标签、文本情感标签、仿生人的人格信息以及短期记忆信息作为目标提示词;进而基于目标提示词就可以准确的输出和确定出仿生人对于用户输入所对应的行为,并通过第一模块向用户进行展示,从而使得仿生人于用户的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

在一实施例中,第二模块,还包括:

阶段分析单元;阶段分析单元用于基于短期记忆信息和预设流程,确定电子仿生人在预设流程中所属的阶段信息;

反省单元;反省单元用于基于短期记忆信息和预设的提示词,对仿生人的历史行为进行评价,输出目标指令;目标指令用于指导仿生人的行为。

具体地,本申请实施例中的第二模块不仅包括感觉单元、知觉单元、角色代理单元,还包括阶段分析单元和反省单元,从而使得仿生人与用户交互过程中更加的拟人和智能。其中,阶段分析单元用于基于短期记忆信息和预设流程,确定电子仿生人在预设流程中所属的阶段信息。也就是为了有效的调整仿生人的行为,阶段分析单元会周期性的根据记忆信息和预设流程去判断当前处于哪个阶段,然后去确定该阶段需要做什么,例如,阶段分析单元每隔一定时间获取对话的历史记录即短期记忆信息,然后输出对当前事件行为的指导;也就是通过理解过去发生什么,判断当下处于哪个阶段,通过分析当前事件进程程度,从而也就可以调整仿生人行为趋向以符合预期。

可选地,反省单元用于对已产生行为进行反思从而生成行为指示,调整仿生人行为趋向;也就是反省单元基于记忆信息,对仿生人历史的行为和当前的行为进行评价,来指导自己的行为,控制和调节仿生人接下来的行为。例如,反省单元每隔一定时间间隔,获取对话的历史记录即短期记忆信息,然后输出对自身行为的指导。比如,反省单元获取的短期记忆为今天10点起床,打了一上午游戏;提示词设定为有效率的仿生人;接下来反省单元输出的指令信息如“接下来要更有效率”会放到提示词中,指导仿生人的行为。

上述实施例的系统,仿生人系统中的第二模块中的阶段分析单元周期性的根据记忆信息和预设流程去判断当前处于哪个阶段,也就是通过理解过去发生什么,判断当下处于哪个阶段,通过分析当前事件进程程度,然后去确定该阶段需要做什么,从而也就可以调整仿生人行为趋向以符合预期;而且第二模块中的反省单元基于记忆信息,对仿生人历史的行为和当前的行为进行评价,来指导自己的行为,控制和调节仿生人接下来的行为,从而也就使得仿生人更加的拟人和智能化。

在一实施例中,角色代理单元,包括:

字符提示词子单元;字符提示词子单元用于基于短期记忆信息、仿生人的人格信息、电子仿生人在预设流程中所属的阶段信息和目标指令,生成目标提示词;

模型子单元;模型子单元用于基于目标提示词,获得输出信息,输出信息包括思维参数和行为参数;

输出子单元;输出子单元用于将思维参数经过情感分类处理获得情感标签并映射到第一模块中展示的仿生人的人物表情上;将行为参数转换为仿生人的具体行为。

具体地,本申请实施例中的角色代理单元包括字符提示词子单元CharacterPrompt、模型子单元和输出子单元Output;其中,字符提示词子单元用于基于短期记忆信息、仿生人的人格信息、电子仿生人在预设流程中所属的阶段信息和目标指令,生成目标提示词;也就是字符提示词子单元是角色代理单元最核心的部分,是电子仿生人行为的源头,参与众多流程,在电子仿生人运行时高频动态更新。可选地,模型子单元用于基于目标提示词,获得输出信息,输出信息包括思维参数和行为参数;其中,模型子单元可以为LLM模型,LLM应采用性能较高的模型型号,这样才可以完成各项功能,可以选择市面上的大模型接口,也可以选择开源模型LLama2开源系列、百川智能开源系列。可选地,输出子单元用于将思维参数Though经过情感分类处理获得情感标签并映射到第一模块中展示的仿生人的人物表情上;将行为参数转换为仿生人的具体行为;例如,在获得思维参数后使用TextClassification模型对思维参数进行情感分类,获得情感属性Emotion后,将Emotion数值映射在LLM的模型参数上(举个例子,当生气情绪数值高时则提升LLM的Temperature参数,让模型输出更具备随机性模拟人生气的表现;可选地,可以不设置固定的映射方法,按需配置即可)另外将Emotion映射到前端人物模型参数,达到随心情产生表情的效果。

可选地,本申请实施例中角色代理单元的输出分为思维参数Thought、行为参数Action、行为参数输入Action Input,也就使得LLM的思考过程更加贴近人类的部分,从而也就更加的拟人和智能。可选地,思维参数Though参与动态工具的生成和LLM参数调整,行为参数Action与行为参数输入ActionInput则参与工具调用。可选地,当LLM模型完成输出后提取其中的思维参数Thought部分内容,使用TextEmbedding模型在工具向量库ToolsVector中查询获得相关度最高的数组工具,将工具信息放入字符提示词子单元CharacterPrompt达成动态工具的效果;行为参数Action与行为参数输入ActionInput负责调用工具Tool,Action内的信息是工具的名称;ActionInput内的信息是工具的输入参数。

可选地,本申请实施例中角色代理单元也可以包括IdearPumper和ActionTaker;其中,IdearPumper根据目标提示词生成思维参数Thought,ActionTake根据目标提示词生成行为参数Action,也就是将产生Thought的部分和产生Action的部分进行分离。可选地,仿生机器人将获得的新信息经过websocket送到系统中处理,具体为经过感觉器知觉器而后由IdearPumper生成Thought,而后经过ActionTaker生成Action;其中,对于IdearPumper部分,可以设置复数个不同类型的IdeaPumper,订阅不同的信息来源;复数个IdeaPumper使用异步方法可以同时运行,而后ActionTaker生成Action。(或者判断自己不需要采取行动)。在上述系统中,生成的Thought更贴近实际。例如,对于订阅语音信息来源的IdeaPumper,可以撰写“你刚刚听到了新的信息:NewInput(新获得的信息)”。对于订阅屏幕画面来源的IdeaPumper,可以撰写“你刚刚看到了:NewInput”。也就是让LLM分别承担了智能活动中的两个阶段,后续就可以对不同智能阶段的LLM模型进行相应的进一步微调,更加拟人化,定制化。

上述实施例的方法,角色代理单元的输出为思维参数Thought、行为参数Action、行为参数输入Action Input,也就使得LLM的思考过程更加贴近人类的部分,从而也就更加的拟人和智能。进一步地,角色代理单元中的输出子单元通过将思维参数经过情感分类处理获得情感标签并映射到第一模块中展示的仿生人的人物表情上,实现仿生人随心情产生表情的效果,从而也就使得仿生人更加的拟人和智能,提升了用户的体验感知。

在一实施例中,字符提示词子单元,包括:

人格组件;人格组件用于存储仿生人的人格信息;

记忆组件;记忆组件用于存储短期记忆信息和长期记忆信息;

格式组件;格式组件用于设置模型子单元的输出格式;

工具组件;工具组件用于封装仿生人的目标功能;目标功能包括以下至少一项:说话功能、动作功能、表情功能、主动记忆功能和思维功能。

具体地,本申请实施例中的字符提示词子单元包括人格组件Personality、记忆组件Memory、格式组件格式组件Format和工具组件Tools;其中,人格组件用于存储仿生人的人格信息;可选地,人格信息包括动态人格信息和固态属性人格信息;可选地,可以为仿生人设定提示词,然后将所有人物设定信息做成Vector向量数据库,之后在获得新的信息输入后,先使用TextEmbeddingModel向量化输入,然后在数据库中查询相似度最高的几组信息,将查询结果放入字符提示词子单元CharacterPrompt,以此来达成动态人格的效果。

记忆组件用于存储短期记忆信息和长期记忆信息;其中,长期记忆又包括事件记忆和知识库;可选地,长期记忆均使用Vector向量数据库实现。短期记忆用于记录当前聊天的内容,在实现时有多种不同的实现方法;可选地,可以直接应用Langchain中的ConversationSummaryBufferMemory模块,滚动总结上下文信息形成短期记忆。长期记忆中知识库和事件记忆的实现原理一致,均使用向量库存储所有记忆的信息,并在对应时刻查询提取。两者的主要区别是存储内容不同,知识库用于存储客观的知识信息,事件记忆用于存储电子仿生人对于自身经历事件的记忆。另外两者的调取方式也有不同,知识库通过将知识库查询封装成Tool来完成知识索引,事件记忆则在有新的输入产生时自动检索相关记忆插入提示词。

格式组件用于设置LLM模型子单元的输出格式;这部分是约束LLM输出格式的部分,也是使LLM的思考过程更加贴近人类的部分,让LLM的输出分为Thought、Action、ActionInput三个阶段。其中Though参与动态工具的生成和LLM参数调整,Action与ActionInput则参与工具调用。可选地,当模型完成输出后提取其中的Thought部分内容,使用TextEmbedding模型在工具向量库ToolsVector中查询获得相关度最高的数组工具,将工具信息放入CharacterPrompt达成动态工具的效果。对于情绪调节则是在获得Thought后使用TextClassification模型对Thought进行情感分类,获得情感属性Emotion后,将Emotion数值映射在LLM的模型参数上(举个例子,当生气情绪数值高时则提升LLM的Temperature参数,让模型输出更具备随机性模拟人生气的表现。此处并没有固定的映射方法,按需配置即可)另外将Emotion映射到前端人物模型参数,达到随仿生人心情产生表情的效果。Action与ActionInput负责调用工具Tool,Action内的信息是工具的名称ActionInput内的信息是工具的输入参数。

工具组件用于封装仿生人的目标功能;目标功能包括以下至少一项:说话功能、动作功能、表情功能、主动记忆功能和思维功能。也就是工具组件包括了电子仿生人可以调用的所有工具(函数/API),包括两部分:内置工具和动态工具。内置工具是电子仿生人全周期可以使用的工具,代表了电子仿生人的基础功能,具体包括以下内容:说话功能、将指定信息写入长期记忆功能WriteMemory、查询关于指定信息的长期记忆功能Query、表情功能Expression用于做指定的表情、动作功能Motion用于做指定的动作、思维功能System2用于高级思维。

其中,说话功能是将指定文本转换成语音,赋予电子仿生人说话的能力。可选地,可以使用Text-to-Speech模型将指定的文本转换成语音。另外可以使用获得的音频数据完成人物口型同步和人物随音频产生动作。可选地,口型同步可以使用开源的AniLipSync-Live2D包将音频数据解析为音素,映射到人物模型的口部动作。可选地,人物随音频产生动作,是将获得的音频数据解析,获得音频的AudioMid、AudioBass、AudioHigh、AudioVolume、AudioFrequency属性,然后映射到人物模型的参数上(例如,将AudioVolume映射到人物头部移动参数,可以实现类似于人物随着音量摇摆的效果。)

将指定信息写入长期记忆功能,用于将指定信息写入长期记忆;可选地,可以使用TextEmbedding模型向量化输入信息然后插入长期记忆的向量数据库中。

查询关于指定信息的长期记忆功能Query,用于查询关于指定信息的相关记忆;可选地,可以使用TextEmbedding模型向量化输入信息然后在长期记忆库中查询获得相关的记忆。

表情功能Expression用于赋予仿生人主动做出表情的能力;可选地,可以通过获得LLM输入的指定表情的描述,然后使用TextEmbedding模型对表情描述在所有可用表情中进行相似性查询,获得最相似的一个表情然后将执行表情的命令发送到前端,前端人物模型做出指定的表情。

动作功能Motion用于赋予仿生人主动做出动作的能力;可选地,可以通过获得LLM输入的指定动作的描述,然后使用TextEmbedding模型对动作描述在所有可用表情中进行相似性查询,获得最相似的一个动作然后将执行动作的命令发送到前端,前端人物模型做出指定的动作。

思维功能System2用于赋予电子仿生人更高级的思维能力;可选地,可以使用CoT、ToT等实现方案;具体实现方式如下:获得来自LLM的对于即将需要进行高级思维的对象的描述,然后将描述传入System2经过具体的思维方式进行处理,最终获得高级思维结果,然后返回。

可选地,动态工具则会根据Thought动态更新,非仿生人全周期常备的所有工具都应该归入动态工具,例如:Search联网查询指定信息、Math对接数学工具进行运算等。

通过调用上述工具,极大的提升了仿生人的能力的拓展性,从而也就使得仿生人更加的拟人和智能。

可选地,字符提示词子单元还可以包括:偏见组件、时间感知组件和硬指令组件;其中,偏见组件用于对于指定信息产生偏见,从而加强仿生人的个性;可选地,实现方式为将记忆信息和人格信息输入BiasChain生成指定的偏见信息。时间感知组件用于在每次更新提示词时将当前时间插入提示词中,使得电子仿生人可以获知当前时间。硬指令组件用于在提示词中以硬编码的方式写入额外的指令信息,影响电子仿生人的行为。

上述实施例的方法,字符提示词子单元,利用人格组件、记忆组件、格式组件和工具组件可以基于短期记忆信息、仿生人的人格信息、电子仿生人在预设流程中所属的阶段信息和目标指令,准确的输出和确定出仿生人对于用户输入所对应的行为,并通过第一模块向用户进行展示,从而使得仿生人于用户的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

在一实施例中,第一模块和第二模块基于双向通信Websocket协议进行通信。

具体地,本申请实施例中的第一模块和第二模块基于双向通信Websocket协议进行通信。也就是基于WebSocket协议建立第一模块与第二模块的连接,对于第二模块传递到第一模块的指令信息,第一模块执行相应指令;对于第一模块传递到第二模块的信息,第二模块将其经过感觉单元和知觉单元处理后添加到短期记忆中。另外值得提及的是,第一模块可以模拟出一个虚拟的环境,让环境与仿生人进行交互,将交互信息送到仿生人的第二模块处理系统中。进一步地,本申请实施例中基于Websoket实现第一模块和第二模块的双向通信,使得仿生人的实时性表现会更强,对于仿生人后续功能拓展也更加便捷,从而也就使得仿生人具备更加强大的功能性、互动性和可拓展性。

上述实施例的方法,基于Websoket实现第一模块和第二模块的双向通信,使得仿生人的实时性表现会更强,对于仿生人后续功能拓展也更加便捷,从而也就使得仿生人具备更加强大的功能性、互动性和可拓展性。

在一实施例中,仿生人的人格信息,包括:动态人格信息和固态属性人格信息。

具体地,本申请实施例中基于用户的输入信息,不仅设置仿生人的固态属性人格信息,还设置仿生人的动态人格信息,从而也就使得仿生人的人格信息更加的饱满和丰富,进而也就使得仿生人在与用户的交互过程中更加的拟人和智能化,提升了用户的感知。

上述仿生人系统,与现有技术相比,赋予了电子仿生人强大的功能性,使得仿生人具备很拟人的功能与行为,也使得使电子仿生人具备复杂表现与功能,解决了现有技术中电子仿生人不具备可拓展的复杂功能、只能进行简单的文本互动,电子仿生人无法接收环境中的信息并做出反应,电子仿生人的记忆系统比较薄弱、常常出现无法回忆起有效信息的情况,以及电子仿生人的认知能力较差、经常出现无意义回复的问题,使得电子仿生人具备更加强大的功能性、拟人性、认知能力、可拓展性、互动性、并具备环境感知互动能力,提升了仿生人的拟人性和智能性,进而也就提升了用户的体验感知。

下面对本发明提供的电子仿生人行为的确定方法进行描述,下文描述的电子仿生人行为的确定方法与上文描述的电子仿生人系统可相互对应参照。

图2是本发明提供的电子仿生人行为的确定方法的流程示意图。本实施例提供的电子仿生人行为的确定方法,包括:

步骤201、基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息;

步骤202、基于情感标签、仿生人的人格信息以及仿生人的短期记忆信息生成目标提示词;

步骤203、基于目标提示词,确定仿生人的行为。

具体地,在获取用户的输入信息之后,确定用户对应的情感标签以及仿生人的人格信息;可选地,用户的输入可以为文本信息,也可以为音频信息;可选地,可以基于文本信息中的内容去推断和确定用户对应的情感标签,如愤怒、喜悦或平静等情感标签;还可以基于音频信息中的信息内容以及用户的语言、语调、语速以及语气词等多维度的语音特征,更加准确地推断和确定用户所对应地情感标签,进而也就可以基于确定出的用户的情感标签,准确地选择和确定更加合适、拟人的与用户交互时的表达形式、行为动作和表达内容。进一步地,还可以预设仿生人地人格信息,或者基于用户地输入信息,选择和确定仿生人所对应的人格信息,从而使得仿生人更加适应和匹配与用户的交互环境,具备更加强大的功能性、拟人性、认知能力和互动性。可选地,仿生人的人格信息,不仅包括固态属性人格信息,还包括动态人格信息;其中,固态属性部分包括电子仿生人的基础属性,例如:男女、年龄等;动态人格则更为复杂,包括性格等,如活泼、热情、平静、喜悦、愤怒等,可以基于用户输入的信息内容对应调整。可选地,可以首先预设一份人物设定,详细描述仿生人人物设定,然后将人设信息生成向量数据库,在获得用户输入信息之后通过textembedding模型获得最与输入信息相关的人物设定,插入提示词中从而使仿生人做出符合人设的行为。进一步地,还可以将用户已输入的信息作为短期记忆信息,从而使得仿生人在与用户交流沟通过程中,可以基于丰富、全面的历史信息,更加准确地理解用户地意图和情绪,从而在与用户交互的过程中也就可以具备更加强大的功能性、拟人性、认知能力和互动性。

可选地,在基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息之后,就可以将用户的情感标签、仿生人的人格信息以及仿生人的短期记忆信息作为目标提示词,输入至大语言模型中,从而准确地确定出仿生人对于用户输入所对应的行为。也就是仿生人在与用户交互的过程中,不仅考虑到用户当前输入的信息,还考虑到用户当前对应的情感标签、仿生人自身的人格信息以及仿生人的短期记忆等三个方面的因素,从而使得仿生人的最终的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

上述实施例的方法,在确定电子仿生人行为的过程中,不仅考虑到用户当前输入的信息,还考虑到用户当前对应的情感标签、仿生人自身的人格信息以及仿生人的短期记忆等三个方面的因素,从而使得仿生人与用户的交互行为也就具备更加强大的功能性、拟人性、认知能力和互动性,在提升仿生人认知能力的基础上,准确、流畅、智能地与用户进行交互并提供服务,提升用户的体验感知。

本发明实施例的方法,其用于仿生人系统,其实现原理和技术效果类似,此次不再赘述。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的电子仿生人行为的确定方法,该方法包括:基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息;基于情感标签、仿生人的人格信息以及仿生人的短期记忆信息生成目标提示词;基于目标提示词,确定仿生人的行为。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的电子仿生人行为的确定方法,该方法包括:基于用户的输入信息,确定用户对应的情感标签以及仿生人的人格信息;基于情感标签、仿生人的人格信息以及仿生人的短期记忆信息生成目标提示词;基于目标提示词,确定仿生人的行为。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120116541596