掌桥专利:专业的专利平台
掌桥专利
首页

游戏对话生成以及游戏对话模型的训练方法、装置

文献发布时间:2024-04-18 19:58:30


游戏对话生成以及游戏对话模型的训练方法、装置

技术领域

本发明涉及数据处理技术领域,尤其涉及一种游戏对话生成以及游戏对话模型的训练方法、装置。

背景技术

大语言模型(Large Language Model,LLM)出现了之后,提供了全新的、便捷的交互方式,即统一便捷的自然语言接口。LLM在文本生成、头脑风暴等各种复杂任务都取得了良好的效果,并在这些复杂任务中展现了强大的思维涌现能力,但其在对话游戏的部分任务效果一般。对话游戏任务包括石头剪刀布、猜数字、掷色子、接龙等重要任务。目前,主要是通过对大模型进行提示学习(构建prompt),使得大模型可以完成很多任务,比如文本生成和理解、多轮对话等等。

但是,目前传统的prompt的推理能力不足,导致针对石头剪刀布、猜数字等任务,用户和大模型对话,模型的复杂推理的能力不足,导致回答准确性不够。

发明内容

本发明提供一种游戏对话生成以及游戏对话模型的训练方法、装置,用以解决现有技术中模型的复杂推理的能力不足,导致回答准确性不够的缺陷。

本发明提供一种游戏对话生成方法,包括:

获取目标游戏的历史对话;

基于目标游戏的游戏对话模型,生成所述历史对话的对话回复,所述目标游戏的游戏对话模型是基于所述目标游戏的思维链数据训练得到的,所述思维链数据是在所述目标游戏的原始对话中填充与所述目标游戏的游戏规则对应的推理数据得到的。

根据本发明提供的一种游戏对话生成方法,所述思维链数据的获取步骤包括:

从所述原始对话中抽取所述目标游戏中各步骤的步骤对话,并在所述步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话;

基于所述目标游戏中各步骤的步骤推理对话,生成所述目标游戏的思维链数据。

根据本发明提供的一种游戏对话生成方法,所述从所述原始对话中抽取所述目标游戏中各步骤的步骤对话,并在所述步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话,包括:

从所述目标游戏中各步骤的步骤对话中,筛选出处于所述目标游戏中间段的步骤游戏过程对话,作为中间步骤对话;

在所述中间步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话。

根据本发明提供的一种游戏对话生成方法,所述基于所述目标游戏中各步骤推理对话,生成所述目标游戏的思维链数据,包括:

基于所述目标游戏中各步骤的执行顺序,组合所述目标游戏的思维链流程;

随机选取各步骤推理对话填入所述思维链流程中的对应步骤处,生成所述目标游戏的思维链数据。

根据本发明提供的一种游戏对话生成方法,所述基于所述目标游戏中各步骤的执行顺序,组合所述目标游戏的思维链流程,包括:

对所述目标游戏中处于中间段的步骤进行循环,得到循环中间流程;

组合所述目标游戏中处于开头和结尾段的步骤,以及所述循环中间流程,得到所述目标游戏的思维链流程。

根据本发明提供的一种游戏对话生成方法,所述游戏对话模型的训练步骤,包括:

基于所述思维链数据,以及所述原始对话,训练所述目标游戏的游戏对话模型。

本发明还提供一种游戏对话生成装置,包括:

获取单元,获取目标游戏的历史对话;

生成单元,基于目标游戏的游戏对话模型,生成所述历史对话的对话回复,所述目标游戏的游戏对话模型是基于所述目标游戏的思维链数据训练得到的,所述思维链数据是在所述目标游戏的原始对话中填充与所述目标游戏的游戏规则对应的推理数据得到的。

本发明还提供一种游戏对话模型的训练装置,包括:

数据采集单元,获取目标游戏的原始对话;

数据构造单元,在所述原始对话中填充与所述目标游戏的游戏规则对应的推理数据,得到所述目标游戏的思维链数据;

训练单元,基于所述思维链数据,训练所述目标游戏的游戏对话模型。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述游戏对话生成方法,或,游戏对话模型的训练方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述游戏对话生成方法,或,游戏对话模型的训练方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述游戏对话生成方法,或,游戏对话模型的训练方法。

本发明提供的游戏对话生成以及游戏对话模型的训练方法、装置,基于在原始对话中填充与目标游戏的游戏规则对应的推理数据,得到目标游戏的思维链数据,并基于思维链数据进行训练得到的游戏对话模型,进行游戏对话,生成对话回复,提升了对话回复的逻辑思维和准确性,进而大大提升了用户基于游戏对话模型进行游戏对话的使用体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的游戏对话生成方法的流程示意图;

图2是本发明提供的游戏对话模型的训练方法的流程示意图之一;

图3是本发明提供的生成思维链数据的流程示意图;

图4是本发明提供的游戏对话模型的训练方法的流程示意图之二;

图5是本发明提供的游戏对话生成装置的结构示意图;

图6是本发明提供的游戏对话模型的训练装置的结构示意图;

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

人机交互的本质是人和数据的关系,传统的人机交互方式的特点是处理不同类型的数据要用不同的应用软件,交互方式是复杂和繁琐的。大语言模型出现了之后,提供了全新的、便捷的交互方式,即统一便捷的自然语言接口。大模型,在大规模无监督数据上训练之后,再经过有监督微调(Supervised Fine-Tuning,SFT)和对齐之后就可以完成很多任务,比如文本生成和理解、多轮对话等等。指令微调(Instruction Tuning)可以被视为SFT的一种特殊形式,其是一种通过在由(指令,输出)对组成的数据集上进一步训练LLM的过程,以增强LLM的能力和可控性。构建高质量的SFT的数据,让模型理解和遵循人类指令。LLM在文本生成、头脑风暴等各种复杂任务都取得了良好的效果,并在这些复杂任务中展现了强大的思维涌现能力,但其在对话游戏的部分任务效果一般。

随着语言模型规模的不断增大,Fine-tune的成本变得越来越高,对于这样大规模的参数,仅依靠传统Fine-Tune已经很难对模型起到有效的迁移,且如此大规模的参数量使得梯度的反向传播的代价也急剧增加。因此,提示学习应运而起,提示学习通过改造下游任务、增加专家知识等形式,使得目标任务的输入输出更加贴合原始语言模型训练时的数据。大模型的in-context few shot能力是极强的,但是,传统的prompt方式在数学计算、常识推理、逻辑推理等做的不好,导致模型的对话数据准确性不强。

针对上述问题,本发明提供了一种游戏对话生成方法,以实现推理能力强,进而模型对话数据准确的游戏对话生成。图1是本发明提供的游戏对话生成方法的流程示意图,如图1所示,该方法包括:

步骤110,获取目标游戏的历史对话;

此处,目标游戏是一种允许用户通过对话的形式来完成游戏的游戏。这种游戏方式与传统的电子游戏或实体游戏有所不同,它不需要玩家进行复杂的操作或拥有特殊的设备。相反,只需要玩家使用语言来参与游戏。例如,我们可以考虑一下猜拳游戏。在这个游戏中,玩家可以通过对话的方式来决定谁先出拳,或者谁赢了比赛。他们可以说“石头”、“剪刀”或“布”,然后根据规则来判断结果。此种方式使得目标游戏更加互动和有趣。另外,历史对话可以是用户输入的对话数据,也可以是游戏生成模型主动输出的对话数据,比如可以是“我们一起来玩猜拳吧,我出剪刀”。

步骤120,基于目标游戏的游戏对话模型,生成所述历史对话的对话回复,所述目标游戏的游戏对话模型是基于所述目标游戏的思维链数据训练得到的,所述思维链数据是在所述目标游戏的原始对话中填充与所述目标游戏的游戏规则对应的推理数据得到的。

具体地,将目标游戏的历史对话输入至目标游戏对应的游戏对话模型,通过游戏对话模型输出历史对话的对话回复,以此对话形式循环下去,直至结束目标游戏的游戏对话。可以理解的是,此处的对话回复可以是游戏对话模型输出的关于目标游戏的各步骤。另外,此处的游戏对话模型是基于如上述任一实施例所述的游戏对话模型的训练方法得到的。

需说明的是,在目标游戏的游戏对话模的训练阶段,可以通过思维链数据对经过预训练得到的模型进行有监督微调,将思维链数据作为初始模型的输入,将思维链数据中的推理数据作为标签,进行监督学习,通过模型的实际输出与标签之间的差距调整初始模型的参数,得到具备逻辑推理能力的游戏对话模型。需说明的是,基于思维链数据训练得到的游戏对话模型可以学习针对目标游戏的思维逻辑,实现输出逻辑思维能力强且准确的对话数据。

此处,目标游戏规则对应的推理数据指的是基于游戏规则对原始对话进行逻辑推理得到的数据。比如,原始对话可以是“用户:我们一起来玩剪刀石头布吧,我出石头;游戏对话模型:我出剪刀,你赢啦”,则根据猜拳此目标游戏的游戏规则可以得到“石头可以战胜剪刀”,由此可以对原始对话进行逻辑推理,得到“石头可以战胜剪刀”这一推理数据。需说明的是,若不在原始对话中填充目标游戏的游戏规则对应的推理数据,游戏对话模型可能基于用户的对话得到不符合目标游戏的游戏规则的对话数据。比如,当用户的对话数据为“我出石头”,则游戏对话模型的对话数据为“我出布,石头可以砸穿布,恭喜你赢啦”。显然,按照常识石头可以砸穿布,但是此处的游戏对话模型的推理逻辑不符合目标游戏的游戏规则,由此得到的对话数据的准确性较低,可能出现“答非所问”的情况。另外,针对逻辑复杂的目标游戏,基于原始数据训练得到的游戏对话模型的逻辑推理能力更为不足,则更不能保证输出的对话数据的准确性。由此,在原始对话中填充与目标游戏的游戏规则对应的推理数据,可以使得得到的目标游戏的思维链数据具备更强且符合游戏规则的逻辑推理能力。

本发明实施例提供的方法,基于在原始对话中填充与目标游戏的游戏规则对应的推理数据,得到目标游戏的思维链数据,并基于思维链数据进行训练得到的游戏对话模型,进行游戏对话,生成对话回复,提升了对话回复的逻辑思维和准确性,进而大大提升了用户基于游戏对话模型进行游戏对话的使用体验。

基于上述任一实施例,所述思维链数据的获取步骤包括:

从所述原始对话中抽取所述目标游戏中各步骤的步骤对话,并在所述步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话;

基于所述目标游戏中各步骤的步骤推理对话,生成所述目标游戏的思维链数据。

具体地,可以从收集到的原始对话中,将目标游戏中各步骤的步骤对话进行抽取,分别得到各步骤的步骤对话集合,即将原始对话同属于同一游戏步骤的步骤对话抽取出来。例如,开始步骤的步骤对话集合可以是{“我们来玩石头剪刀布吧”、…、“一起玩石头剪刀布吧”}。需说明的是,此处的步骤对话可以是用户输入的对话,也可以是游戏对话模型输出的对话。

进一步地,在步骤对话中填充与目标游戏的游戏规则对应的推理数据,可以是直接在步骤对话开头或者结尾拼接该步骤对话的推理数据,得到步骤推理对话。可以理解的是,此处的步骤推理对话相较于步骤对话更具有解释性和符合目标游戏的游戏规则的逻辑性。值得说明的是,从原始对话中抽取得到各步骤的步骤对话,并在步骤对话中填充与目标游戏的游戏规则对应的推理数据,保证了填充的推理数据的准确性以及逻辑性。

最后,可以将目标游戏中各步骤的步骤推理对话进行组合,比如,可以按照目标游戏的各步骤的执行顺序进行组合步骤推理对话,还可以结合目标游戏的实际执行场景进行组合步骤推理对话,得到目标游戏的思维链数据。

本发明实施例提供的方法,基于从原始对话中抽取目标游戏中各步骤的步骤对话,并在步骤对话中填充与目标游戏的游戏规则对应的推理数据,得到步骤推理对话,并基于步骤推理对话生成目标游戏的思维链数据,保证了思维链数据中的推理数据位置的准确性,增强了思维链数据的逻辑。

基于上述任一实施例,所述从所述原始对话中抽取所述目标游戏中各步骤的步骤对话,并在所述步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话,包括:

从所述目标游戏中各步骤的步骤对话中,筛选出处于所述目标游戏中间段的步骤游戏过程对话,作为中间步骤对话;

在所述中间步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话。

具体地,可以从目标游戏中各步骤的步骤对话中,筛选出处于目标游戏中间段的步骤游戏过程对话,作为中间步骤对话。需说明的是,一般目标游戏中间段的步骤游戏过程对话才涉及到与目标游戏的游戏规则相关的对话数据,存在进行逻辑推理的必要。由此,中间步骤对话相较于其他步骤对话,其中包含的逻辑关系更强。

进一步地,可以将中间段的步骤游戏过程对话进行筛选出来作为中间步骤对话,作为填充推理数据的对象。需说明的是,可以在每个包含游戏结果的中间步骤对话中,填充与目标游戏的游戏规则对应的推理数据,得到步骤推理对话。此处的步骤推理对话可以包含游戏结果,以及得到此游戏结果的逻辑。

可以理解的是,由于原始数据的数据量比较大,则从原始数据中抽取得到各步骤的步骤对话的数据量也较大。并且,一般目标游戏的各步骤中,开头的步骤和结尾的步骤一般不涉及逻辑推理,大多数为开场白和结束词。由此,相较于对所有的步骤对话进行填充推理数据,对中间步骤对话进行填充推理数据,不仅提升了的得到步骤推理对话的效率以及准确性,使得步骤推理对话的逻辑性更强。

基于上述任一实施例,所述基于所述目标游戏中各步骤的步骤推理对话,生成所述目标游戏的思维链数据,包括:

基于所述目标游戏中各步骤的执行顺序,组合所述目标游戏的思维链流程;

随机选取各步骤推理对话填入所述思维链流程中的对应步骤处,生成所述目标游戏的思维链数据。

此处,目标游戏中各步骤的执行顺序可以反映目标游戏的执行逻辑。由此,可以将执行顺序中的开始步骤、中间段的步骤、结束步骤进行组合,得到目标游戏的思维链流程。比如,可以保持执行顺序中的开始步骤和结尾步骤,将执行顺序中的中间段的步骤进行循环,得到目标游戏的思维链流程。此处的思维链流程可以是认作为游戏对话模型与用户进行游戏对话时的全部流程,可以是可以自动执行的自动化脚本。例如,思维链流程可以包括开始流程、多轮次的中间流程、结束流程。可以理解的是,基于目标游戏中各步骤的执行顺序,组合得到目标游戏的思维链流程,使得得到的思维链数据的流程更加规范,逻辑性更强。

另外,可以从各步骤的步骤推理对话中,随机选取一个步骤推理对话填入思维链流程中的对应步骤处,生成目标游戏的思维链数据。需说明的是,各步骤的步骤推理对话中包含多种对话数据,比如可以包含适应不同交互场景的对话数据。以开始步骤举例,步骤推理对话中可以包括游戏对话模型先开始游戏的对话数据,以及用户先开始游戏的对话数据。同样的,结束步骤也可以以不同话术的对话数据进行结束,比如,可以是“好的,如果您想再玩一局,随时告诉我即可。祝您愉快”,或者是“不玩了,下次再玩”。既,可以是以游戏对话模型输出的对话数据进行结束游戏,也可以是通过用户输出的对话数据进行结束游戏。可以理解的是,随机选取各步骤推理对话填入思维链流程中的对应步骤处,生成思维链数据,提升了思维链数据的多样性和全面性,覆盖了思维链数据贴近用户与游戏对话模型的交互场景。同时,可以基于思维链流程批量生成思维链数据,提升生成思维链数据的效率。

本发明实施例提供的方法,基于目标游戏中各步骤的执行顺序,组合目标游戏的思维链流程,并随机选取各步骤推理对话填入思维链流程中的对应步骤处,生成目标游戏的思维链数据,保证了思维链数据的流程逻辑性。同时,也提升了生成思维链数据的效率,进一步提升思维链数据的多样性和全面性,进而使得基于思维链数据进行训练得到的游戏对话模型的逻辑推理能力更强,输出的对话数据更加准确。

基于上述任一实施例,所述基于所述目标游戏中各步骤的执行顺序,组合所述目标游戏的思维链流程,包括:

对所述目标游戏中处于中间段的步骤进行循环,得到循环中间流程;

组合所述目标游戏中处于开头和结尾段的步骤,以及所述循环中间流程,得到所述目标游戏的思维链流程。

具体地,在游戏对话中可能存在多轮次的游戏对话,也就是说,在游戏对话中可能存在多轮次的执行目标游戏中的步骤。例如,游戏对话中可能为用户与游戏对话模型进行三轮的猜拳对话。由此,可以对目标游戏中处于中间段的步骤进行循环,得到循环中间流程,此处得到的循环中间流程可以包含不同轮次的游戏流程。可以理解的是,目标游戏中处于中间段的步骤最大可能包含多轮次的游戏对话。

进一步地,可以组合目标游戏中处于开头和结尾段的步骤,以及循环中间流程,得到目标游戏的思维链流程,使得思维链流程更加完成。示例性地,思维链流程可以是“游戏开始:input=random(s

基于本发明实施例提供的方法,对目标游戏中处于中间段的步骤进行循环,得到循环中间流程,并组合目标游戏中处于开头和结尾段的步骤,以及所述循环中间流程,得到目标游戏的思维链流程,保证了思维链数据的流程逻辑性。

基于上述任一实施例,所述游戏对话模型的训练步骤包括:

基于所述思维链数据,以及所述原始对话,训练所述目标游戏的游戏对话模型。

具体地,首先,获取初始模型,可以将原始对话作为初始模型的训练数据,通过Decoder-Only架构对获取的初始模型进行预训练,可以基于13B和65B的预训练模型进行验证。进一步地,可以通过思维链数据对经过预训练得到的模型进行有监督微调,将思维链数据作为初始模型的输入,将思维链数据中的推理数据作为标签,进行监督学习,通过模型的实际输出与标签之间的差距调整初始模型的参数,得到具备逻辑推理能力的游戏对话模型。需说明的是,在训练过程中可以将学习率设置0.00005,学习率衰减为0.1,以保证模型能够更充分的学习到思维链数据中的逻辑推理能力。最后,可以基于高质量的思维链数据对游戏对话模型进行模型推理。

本发明实施例提供的方法,基于思维链数据,以及原始对话,训练所述目标游戏的游戏对话模型,通过大量的原始对话数据进行模型的粗调,再通过思维链数据进行指令微调,得到最终的游戏对话模型,提升了游戏对话模型的训练效果和效率。

基于上述任一实施例,图2是本发明提供的游戏对话模型的训练方法的流程示意图之一,如图2所示,该方法包括:

步骤210,收集并整理目标游戏的原始对话;

步骤220,对原始对话进行数据清洗;

步骤230,基于原始对话生成目标游戏的思维链数据;

具体地,图3是本发明提供的生成思维链数据的流程示意图,如图3所示,该方法包括:步骤310,基于目标游戏中各步骤的执行顺序,得到目标游戏的思维链流程;步骤320,基于目标游戏的思维链流程,批量生成目标游戏的思维链数据。示例性地,原始对话可以是“input:我们来玩石头剪刀游戏,我出剪刀好的,我出布,你赢了,继续吗?我出石头。好的,我出布,很遗憾,你输了,我们继续玩一局吧?好的,我出布我出石头,恭喜,你赢了,再继续玩吗?不继续了。target:好的,没问题。如果您想再玩一次,随时提出来,祝您有愉快的一天”。基于原始对话生成的思维链数据可以是“input:我们来玩石头剪刀游戏,我出剪刀好的,我出布,剪刀可以战胜布,你赢了,继续吗?我出石头。好的,我出布,布克石头,很遗憾,你输了,我们继续玩一局吧?好的,我出布我出石头,布可以包住石头,恭喜,你赢了,再继续玩吗?不继续了,明天再玩。target:好的,明天继续。祝您有愉快的一天。”

步骤240,基于所述思维链数据,训练所述目标游戏的游戏对话模型。

基于上述任一实施例,图4是本发明提供的游戏对话模型的训练方法的流程示意图之二,如图4所示,该方法包括:

步骤410,获取目标游戏的原始对话;

具体地,可以通过收集目标游戏的对话游戏数据,以及将目标游戏的游戏对话模型在之前训练过程中的存量数据,作为当前目标游戏的游戏对话模型的原始对话,以通过原始对话构建有逻辑推理思维的游戏对话数据。值的说明的是,将目标游戏的逻辑推理思维的游戏对话数据作为训练数据,进行游戏对话模型的训练,使得游戏对话模型可以学习训练数据中的逻辑推理能力,得到推理能力强,回答准确的游戏对话模型。

需说明的是,此处得到的原始对话是仅包括目标游戏各游戏步骤、以及游戏结果的对话,是不包括根据游戏过程得到游戏结果这一推理过程的对话。另外,基于上述方法得到的原始数据是存在一定冗余的样本数据,可以优先对原始对话数据进行模糊去重。示例性地,可以首先通过文本相似性度量方法,如编辑距离、余弦相似度等进行去重,接着,使用聚类算法进行去重。最后,对原始对话进行人工抽样检查,保证原始对话的逻辑正确。进一步地,可以对去重后的原始对话进行进一步的数据清洗,将脏数据、存在格式问题以及内容不合格的低质量数据进行过滤。示例性地,可以通过预设的过滤规则,消除低质量数据,比如可以基于语言的过滤规则、基于度量的过滤规则、基于关键词的过滤规则等其他维度上的过滤规则。另外,还可以通过生成截断函数过滤原始数据中存在句子语义不完整的数据;也可以通过数据清洗脚本过滤原始数据中存在标点符号在开头、非法字符等脏数据的数据。可以理解的是,对原始数据进行数据清洗,提高了原始对话的数据质量,从而提升基于原始对话得到的训练数据的准确性,进而提升游戏对话模型的训练效果。

步骤420,在所述原始对话中填充与所述目标游戏的游戏规则对应的推理数据,得到所述目标游戏的思维链数据;

此处,目标游戏规则对应的推理数据指的是基于游戏规则对原始对话进行逻辑推理得到的数据。比如,原始对话可以是“用户:我们一起来玩剪刀石头布吧,我出石头;游戏对话模型:我出剪刀,你赢啦”,则根据猜拳此目标游戏的游戏规则可以得到“石头可以战胜剪刀”,由此可以对原始对话进行逻辑推理,得到“石头可以战胜剪刀”这一推理数据。需说明的是,若不在原始对话中填充目标游戏的游戏规则对应的推理数据,游戏对话模型可能基于用户的对话得到不符合目标游戏的游戏规则的对话数据。比如,当用户的对话数据为“我出石头”,则游戏对话模型的对话数据为“我出布,石头可以砸穿布,恭喜你赢啦”。显然,按照常识石头可以砸穿布,但是此处的游戏对话模型的推理逻辑不符合目标游戏的游戏规则,由此得到的对话数据的准确性较低,可能出现“答非所问”的情况。另外,针对逻辑复杂的目标游戏,基于原始数据训练得到的游戏对话模型的逻辑推理能力更为不足,则更不能保证输出的对话数据的准确性。由此,在原始对话中填充与目标游戏的游戏规则对应的推理数据,可以使得得到的目标游戏的思维链数据具备更强且符合游戏规则的逻辑推理能力。

另外,基于推理数据得到目标游戏的思维链数据,此处的思维链数据指的是包含逐步提示的链式提示文本,可以通过思维链数据中的中间推理步骤,引出逻辑推理能力强的提示。示例性地,可以在原始对话中确定目标游戏的游戏步骤,在各游戏步骤的对话数据中填充与目标游戏的游戏规则对应的推理数据,得到填充后的对话数据,进而得到目标游戏的思维链数据。

步骤430,基于所述思维链数据,训练所述目标游戏的游戏对话模型。

具体地,可以通过思维链数据对经过预训练得到的模型进行有监督微调,将思维链数据作为初始模型的输入,将思维链数据中的推理数据作为标签,进行监督学习,通过模型的实际输出与标签之间的差距调整初始模型的参数,得到具备逻辑推理能力的游戏对话模型。需说明的是,基于思维链数据训练得到的游戏对话模型可以学习针对目标游戏的思维逻辑,实现输出逻辑思维能力强且准确的对话数据。

本发明实施例提供的方法,基于在原始对话中填充与目标游戏的游戏规则对应的推理数据,得到目标游戏的思维链数据,并基于思维链数据,训练目标游戏的游戏对话模型,提升了游戏对话模型的逻辑推理能力,且游戏对话模型的逻辑思维符合目标游戏的游戏规则,进而提升了基于游戏对话模型生成对话数据的准确性。

基于上述任一实施例,图5是本发明提供的游戏对话生成装置的结构示意图,如图5所示,该装置包括:

获取单元510,获取目标游戏的历史对话;

生成单元520,基于目标游戏的游戏对话模型,生成所述历史对话的对话回复,所述目标游戏的游戏对话模型是基于所述目标游戏的思维链数据训练得到的,所述思维链数据是在所述目标游戏的原始对话中填充与所述目标游戏的游戏规则对应的推理数据得到的。

本发明实施例提供的装置,基于在原始对话中填充与目标游戏的游戏规则对应的推理数据,得到目标游戏的思维链数据,并基于思维链数据进行训练得到的游戏对话模型,进行游戏对话,生成对话回复,提升了对话回复的逻辑思维和准确性,进而大大提升了用户基于游戏对话模型进行游戏对话的使用体验。

基于上述任一实施例,生成单元具体用于:

从所述原始对话中抽取所述目标游戏中各步骤的步骤对话,并在所述步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话;

基于所述目标游戏中各步骤的步骤推理对话,生成所述目标游戏的思维链数据。

基于上述任一实施例,生成单元还具体用于:

从所述目标游戏中各步骤的步骤对话中,筛选出处于所述目标游戏中间段的步骤游戏过程对话,作为中间步骤对话;

在所述中间步骤对话中填充与所述目标游戏的游戏规则对应的推理数据,得到步骤推理对话。

基于上述任一实施例,生成单元还具体用于:

基于所述目标游戏中各步骤的执行顺序,组合所述目标游戏的思维链流程;

随机选取各步骤推理对话填入所述思维链流程中的对应步骤处,生成所述目标游戏的思维链数据。

基于上述任一实施例,生成单元还具体用于:

对所述目标游戏中处于中间段的步骤进行循环,得到循环中间流程;

组合所述目标游戏中处于开头和结尾段的步骤,以及所述循环中间流程,得到所述目标游戏的思维链流程。

基于上述任一实施例,生成单元还包括训练单元,训练单元具体用于:

基于所述思维链数据,以及所述原始对话,训练所述目标游戏的游戏对话模型。

基于上述任一实施例,图6是本发明提供的游戏对话模型的训练装置的结构示意图,如图6所示,该装置包括:

数据采集单元610,获取目标游戏的原始对话;

数据构造单元620,在所述原始对话中填充与所述目标游戏的游戏规则对应的推理数据,得到所述目标游戏的思维链数据;

训练单元630,基于所述思维链数据,训练所述目标游戏的游戏对话模型。

本发明实施例提供的装置,基于在原始对话中填充与目标游戏的游戏规则对应的推理数据,得到目标游戏的思维链数据,并基于思维链数据,训练目标游戏的游戏对话模型,提升了游戏对话模型的逻辑推理能力,且游戏对话模型的逻辑思维符合目标游戏的游戏规则,进而提升了基于游戏对话模型生成对话数据的准确性。

图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行游戏对话模型的训练方法,该方法包括:获取目标游戏的原始对话;在所述原始对话中填充与所述目标游戏的游戏规则对应的推理数据,得到所述目标游戏的思维链数据;基于所述思维链数据,训练所述目标游戏的游戏对话模型。

还可以执行游戏对话生成方法,该方法包括:获取目标游戏的历史对话;基于目标游戏的游戏对话模型,生成所述历史对话的对话回复,所述目标游戏的游戏对话模型是基于如上述任一实施例所述的游戏对话模型的训练方法得到的。

此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的游戏对话模型的训练方法,该方法包括:获取目标游戏的原始对话;在所述原始对话中填充与所述目标游戏的游戏规则对应的推理数据,得到所述目标游戏的思维链数据;基于所述思维链数据,训练所述目标游戏的游戏对话模型。

计算机还能够执行游戏对话生成方法,该方法包括:获取目标游戏的历史对话;基于目标游戏的游戏对话模型,生成所述历史对话的对话回复,所述目标游戏的游戏对话模型是基于如上述任一实施例所述的游戏对话模型的训练方法得到的。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的游戏对话模型的训练方法,该方法包括:获取目标游戏的原始对话;在所述原始对话中填充与所述目标游戏的游戏规则对应的推理数据,得到所述目标游戏的思维链数据;基于所述思维链数据,训练所述目标游戏的游戏对话模型。

还可以执行游戏对话生成方法,该方法包括:获取目标游戏的历史对话;基于目标游戏的游戏对话模型,生成所述历史对话的对话回复,所述目标游戏的游戏对话模型是基于如上述任一实施例所述的游戏对话模型的训练方法得到的。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 对话模型训练方法及装置、对话生成方法及装置
  • 情感对话生成方法、装置及情感对话模型训练方法、装置
技术分类

06120116503215