对话决策及对话决策模型训练方法、装置以及终端

文献发布时间：2023-06-19 18:34:06

技术领域

本说明书实施例涉及人工智能技术领域，尤其涉及一种对话决策及对话决策模型训练方法、装置以及终端。

背景技术

近年来互联网的快速发展，促使各类对话服务可以直接通过线上办理，而各类对话服务进行时存在大量的交互过程，例如咨询、查询、营销等需要与用户进行对话的交互过程，为了提高对话交互效率，目前各对话服务中都已经广泛使用智能对话机器人来与用户进行对话。而为了对话机器人能够基于用户的对话信息准确满足用户需求，需要对对话机器人部署预设规则的对话策略，以使得对话机器人对话机器人能够与用户进行顺利对话交互。

发明内容

本说明书实施例提供一种对话决策及对话决策模型训练方法、装置以及终端，可以解决相关技术中人工预置成本较高、连续对话服务的耦合性高的技术问题。

第一方面，本说明书实施例提供一种对话决策方法，该方法包括：

获取对话用户在对话中对应的用户状态表征，确定所述用户状态表征对应的目标标准对话流程，所述目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；

确定所述目标标准对话流程中各子对话服务对应的各目标原子对话服务；

根据各目标原子对话服务生成目标对话文案，基于所述目标对话文案答复所述对话用户。

第二方面，本说明书实施例提供一种对话决策模型训练方法，该方法包括：

获取预设真实对话场景中的对话数据，基于所述对话数据获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果，以及计算各样本标准对话结果对应的标准奖赏值；

将各样本用户状态表征输入对话决策模型，以使得所述对话决策模型基于对话约束得到各样本用户状态表征对应的至少一个样本输出对话结果，以及计算各样本输出对话结果对应的输出奖赏值，所述对话约束包括对话流程约束和原子对话服务约束；

基于各标准奖赏值和各输出奖赏值，训练所述对话决策模型，直至所述对话决策模型收敛；

所述对话决策模型应用于上述任一实施例的所述对话决策方法。

第三方面，本说明书实施例提供一种对话决策装置，该装置包括：

对话流程决策模块，用于获取对话用户在对话中对应的用户状态表征，确定所述用户状态表征对应的目标标准对话流程，所述目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；

对话服务决策模块，用于确定所述目标标准对话流程中各子对话服务对应的各目标原子对话服务；

对话答复模块，用于根据各目标原子对话服务生成目标对话文案，基于所述目标对话文案答复所述对话用户。

第四方面，本说明书实施例提供一种对话决策模型训练装置，该装置包括：

数据收集模块，用于获取预设真实对话场景中的对话数据，基于所述对话数据获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果，以及计算各样本标准对话结果对应的标准奖赏值；

模型输出模块，用于将各样本用户状态表征输入对话决策模型，以使得所述对话决策模型基于对话约束得到各样本用户状态表征对应的至少一个样本输出对话结果，以及计算各样本输出对话结果对应的输出奖赏值，所述对话约束包括对话流程约束和原子对话服务约束；

模型训练模块，用于基于各标准奖赏值和各输出奖赏值，训练所述对话决策模型，直至所述对话决策模型收敛；

所述对话决策模型应用于上述任一实施例的所述对话决策方法。

第五方面，本说明书实施例提供一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或所述处理器执行上述的方法的步骤。

第六方面，本说明书实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法的步骤。

第七方面，本说明书实施例提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序适于由处理器加载并执行上述的方法的步骤。

本说明书一些实施例提供的技术方案带来的有益效果至少包括：

本说明书实施例提供一种对话决策方法，获取对话用户在对话中对应的用户状态表征，确定用户状态表征对应的目标标准对话流程，目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；确定目标标准对话流程中各子对话服务对应的各目标原子对话服务；根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户。由于最终用于对话答复的原子对话服务是基于已经确定出的标准对话流程的基础上确定的，而标准对话流程中的各子对话服务是相互独立且形成一系列步骤的，这就降低了各原子服务之间的耦合性，并且根据用户状态表征进行适应性的对话决策时，不需要预设对话规则，降低了对话决策所需要的人工成本。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种对话决策方法的示例性系统架构图；

图2为本说明书实施例提供的一种对话决策方法的流程示意图；

图3为本说明书实施例提供的一种对话决策方法的流程示意图；

图4为本说明书实施例提供的一种对话决策方法的流程框架图；

图5为本说明书实施例提供的一种对话决策模型训练方法的流程示意图；

图6为本说明书实施例提供的一种对话决策模型训练方法的流程框架图；

图7为本说明书实施例提供的一种对话决策装置的结构框图；

图8为本说明书实施例提供的一种对话决策模型训练装置的结构框图；

图9为本说明书实施例提供的一种终端的结构示意图。

具体实施方式

为使得本说明书实施例的特征和优点能够更加的明显和易懂，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而非全部实施例。基于本说明书中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书实施例保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书实施例相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本说明书实施例的一些方面相一致的装置和方法的例子。

在通过网络对用户提供交互服务时，为了提升服务效率，减少人工参与好节约人力资源，各服务中已经广泛运用智能对话机器人来进行对话以及答复。在不同的语境中，通常会对对话机器人设计不同的对话机制，其中，对话机制不仅需要满足常规对话任务的对话逻辑，还需要根据具体语境满足关于特定语境主题的逻辑约束，例如，在网络购买服务中，对话机制需要能够答复用户关于商品信息、购买信息等的对话；在理财咨询服务中，对话机制需要能够答复用户关于理财咨询、期货信息等的对话。对话机制的完善是保证用户交互体验的重要因素，因此对话机制策略是目前人工智能对话领域研究最广泛的问题之一。

目前各对话机器人的对话机制设计中，常规任务类型的对话逻辑已经相对完善，主要是各服务场景中具有一定专业性的对话逻辑决策需要进行针对性的逻辑训练。在设计对话决策机制时，最基础的方法是基于规则实现，按照专家预置规则剧本，设计各种可能出现的状态以及各状态对应的对话服务，应用于实际场景中时可以基于当前用户输入、用户意图等数据信息，根据预置的规则剧本得到当前状态下的时间步应该采取的对话服务，但预置规则剧本时需要经过人工处理提炼大量的先验知识，消耗大量的人工成本，以及基于既定先验知识进行决策判断会使得决策逻辑的移植性和扩展性差，无法适用于广泛的应用场景。

为了减少对人工预置规则的依赖，可以通过强化学习来训练自动化对话决策，通过在交互环境中获取实际交互情况下的对话信息，来学习状态对应的服务，并且将与特定的奖赏机制，使得对话决策能够趋向于奖赏值最大也即最优服务的方向训练收敛，从而能够基于用户输入来直接决策出对话服务。但对话通常是持续的，其中会包含多轮次的对话交互，对话决策通常直接确定本次对话中可能需要进行的多个对话服务，而由于这些对话服务是直接在所有的对话服务库中确认的，那么可能就会存在多个对话服务为同一类型，也即多个对话服务之间的耦合度可能较高，导致在不同轮次的对话中频繁出现相同的对话服务，无法与用户进行有效交互。

因此本说明书实施例提供一种对话决策方法，通过用户状态表征，确定对应的目标标准对话流程；再确定目标标准对话流程中各子对话服务对应的各目标原子对话服务；进而根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户，以解决上述人工预置成本较高、连续对话服务的耦合性高的技术问题。

请参阅图1，图1为本说明书实施例提供的一种对话决策方法的示例性系统架构图。

如图1所示，系统架构可以包括终端101、网络102和服务器103。网络102用于在终端101和服务器103之间提供通信链路的介质。网络102可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity，Wi-Fi)通信链路或微波通信链路等。

终端101可以通过网络102与服务器103交互，以接收来自服务器103的消息或向服务器103发送消息，或者终端101可以通过网络102与服务器103交互，进而接收其他用户向服务器103发送的消息或者数据。终端101可以是硬件，也可以是软件。当终端101为硬件时，可以是各种电子设备，包括但不限于智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端101为软件时，可以是安装在上述所列举的电子设备中，其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

在本说明书实施例中，终端101可以获取对话用户在对话中对应的用户状态表征，确定用户状态表征对应的目标标准对话流程，目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；进一步地，终端101可以确定目标标准对话流程中各子对话服务对应的各目标原子对话服务；最后，终端101可以根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户。

服务器103可以是提供各种服务的服务器。需要说明的是，服务器103可以是硬件，也可以是软件。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

或者，该系统架构还可以不包括服务器103，换言之，服务器103可以为本说明书实施例中可选的设备，即本说明书实施例提供的方法可以应用于仅包括终端101的系统结构中，本说明书实施例对此不做限定。

应理解，图1中的终端、网络以及服务器的数目仅是示意性的，根据实现需要，可以是任意数量的终端、网络以及服务器。

请参阅图2，图2为本说明书实施例提供的一种对话决策方法的流程示意图。本说明书实施例的执行主体可以是执行对话决策的终端，也可以是执行对话决策方法的终端中的处理器，还可以是执行对话决策方法的终端中的对话决策对话服务。为方便描述，下面以执行主体是终端中的处理器为例，介绍对话决策方法的具体执行过程。

如图2所示，对话决策方法至少可以包括：

S202、获取对话用户在对话中对应的用户状态表征，确定用户状态表征对应的目标标准对话流程，目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务。

可选地，由于在目前的对话决策中，若通过人工预置规则中预设的固定对话服务来与用户进行对话交互，会导致人工成本较大，当对话逻辑逐渐变得复杂时，固定对话决策的移植性和扩展性差，也就无法适用于大量真实复杂的交互场景中。而目前基于强化学习进行自动化判断决策的对话策略一般为单层策略结构，这样的结构将用于生成对话文案的对话服务打平至同一动作空间中，会导致在多轮对话中各对话服务对话服务的类型重合可能性大，使得各对话服务之间的耦合度较高，导致在对话中与用户进行无效交互。

可选地，对话用户在发起对话时，通常都带有一定对话需求，为了决策出满足对话用户需求的对话服务，在进行对话决策时需要首先得到对话用户的对话需求，再基于需求决策出能够生成有效交互内容的对话服务。而对话用户在对话中对应的用户状态表征通常包含用户信息、本次对话内容、对话目的等信息，那么用户状态表征可以直接体现对话需求，因此实施对话决策时，可以首先获取对话用户在对话中对应的用户状态表征，再基于用户状态表征进行分析来决策对话服务。这样用户状态表征能够更全面的表现用户需求和对话信息，便于在不预置固定规则时，也能准确决策出用户需要的对话，减少人工成本，并且适用于用户的复杂需求以及大量复杂应用场景，更容易维护和扩展。

可选地，考虑到在连续对话过程中，通常会根据用户输入首先确定出此次对话对应的对话主题，根据对话主题确定出一系列可能需要连续输出的对话服务，使得通过对话达成预期结果。在各对话环节中，所采取的对话服务应该是与对话主题有关联的，并在相互之间存在有逻辑联系，那么为了保证各对话服务之间的逻辑性，可以首先基于用户状态表征确定出当前对话对应的目标标准对话流程，标准对话流程也即标准作业程序(StandardOperating Procedure，SOP)，指将某一事件的标准操作步骤流程，在本说明书实施例中代表了本次对话中需要的对话服务的流程步骤，基于标准对话流程可以直接确定对话的发展方向，并对后续确定出的对话服务进行逻辑规划，减少对话服务之间的耦合性。

进一步地，目标标准对话流程中包括至少一个子对话服务，子对话服务为目标标准对话流程中具体的步骤类型。例如，当对话决策用于理财投资顾问的对话机器人中时，标准对话流程为向用户提供的理财投资顾问服务中的标准作业程序，其中包含了一系列的理财子对话服务，如“事实承接→情绪安抚→行情解读→建议”，各理财子对话服务之间具有先后逻辑承接关系，保证了对话过程中的答复逻辑，避免对话服务之间出现耦合。

可选地，在与用户进行具体的对话交互时，子对话服务仅是对话流程中的步骤，而各步骤还需要采取对应的对话动作，例如输出文案、调用数据等，那么对话动作需要基于具体的原子对话服务来确定最终的对话内容。原子服务是每个子服务中可单独解耦出来、与用户具体需求相关的服务模块，例如，在理财投资顾问服务中，当存在子对话服务为“事实承接”时，其下还对应有“总持仓收益”、“单品收益”、“行业涨幅”等原子对话服务。因此在各子对话服务中包括至少一个原子对话服务，原子对话服务为最终的对话文案结果的动作依据。这样分层次的决策出对话服务，可以基于流程步骤确定出耦合性小的原子对话服务，使得最终对话服务满足用户需求并且符合对话逻辑，提升用户对话体验。

S204、确定目标标准对话流程中各子对话服务对应的各目标原子对话服务。

可选地，通过上述实施例可以知道，目标标准对话流程中包括至少一个子对话服务的流程步骤，各子对话服务中包括至少一个原子对话服务。其中由于目标标准对话流程中的各子对话服务之间具有逻辑关系且耦合小，因此原子对话服务的耦合性也会较小，那么可以在高层决策出目标标准对话流程之后，再基于目标标准对话流程中的各子对话服务，确定各子对话服务对应的各目标原子对话服务，此时各目标原子对话服务之间也会存在逻辑关系，且属于不同的子对话服务时，降低各目标原子对话服务之间的耦合性，使得最终基于目标原子对话服务做出的对话动作在多轮对话中具有逻辑性，并且能全面满足用户需求，降低人工维护成本的同时，提升其迭代可拓展性。

S206、根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户。

可选地，原子对话服务作为解耦后最具体的对话服务，确定出原子对话服务之后，可以根据目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户，原子对话服务之间的逻辑性能够适当地多轮对话文案之间也具有逻辑性，能够维持多轮与对话用户之间的有效对话交互，以满足用户需求，为用户提供舒适的服务体验。

在本说明书实施例中，提供一种对话决策方法，获取对话用户在对话中对应的用户状态表征，确定用户状态表征对应的目标标准对话流程，目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；确定目标标准对话流程中各子对话服务对应的各目标原子对话服务；根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户。由于最终用于对话答复的原子对话服务是基于已经确定出的标准对话流程的基础上确定的，而标准对话流程中的各子对话服务是相互独立且形成一系列步骤的，这就降低了各原子服务之间的耦合性，并且根据用户状态表征进行适应性的对话决策时，不需要预设对话规则，降低了对话决策所需要的人工成本。

请参阅图3，图3为本说明书实施例提供的一种对话决策方法的流程示意图。

如图3所示，对话决策方法至少可以包括：

S302、获取对话用户在对话中的对话信息，对话信息至少包括对话内容、对话目标、用户标识中的其中一种。

可选地，为了准确决策出对话用户需求对应的目标标准对话流程以及目标原子对话服务，需要准确分析用户当前的对话意图、对话需求等用户状态表征。因此当用户开启对话时，可以获取对话用户在对话中的对话信息来得到用户状态表征，在对话信息中，对话内容有助于确定用户需要的对话服务范围或者类型等，提取对话中的词组和语句可以定位用户的对话目标，用户标识有助于提取用户的历史行为数据等信息。

基于此，对话信息中至少包括对话内容、对话目标、用户标识中的其中一种。为方便描述，请参阅图4，图4为本说明书实施例提供的一种对话决策方法的流程框架图。如图4所示，首先需要进行对话决策时，获取对话用户在对话中的对话上下文内容、用户咨询词条、用户ID作为对话信息的输入，便于得到准确的用户状态表征，以使得后续能够准确满足对话用户的需求。

S304、基于对话信息确定对话用户的用户状态表征，用户状态表征至少包括用户意图、槽位槽值、对话记忆、用户因子中的其中一种。

可选地，获取对话信息之后，可以进一步根据对话信息确定对话用户的用户状态表征。其中，用户状态表征中可以包含多个能够代表用户需求的特征，例如，分析对话信息时，可以从对话上下文内容以及用户咨询词条中确定对话记忆，以及确定出本次对话中用户的用户意图为“基金跌了怎么办”，进而确定本次对话的主题和类型槽位槽值“板块(槽位)＝新能源(槽值)”；还可以根据对话上下文和用户ID，结合用户的历史偏好数据，确定用户画像，表征用户的对话偏好、关注偏好等，得到对话用户的用户因子“理财认知＝低；决策深度＝深”。因此，用户状态表征中至少包括用户意图、槽位槽值、对话记忆、用户因子中的其中一种，以便于基于更具体的用户状态表征，进行准确的对话决策。

可选地，分析对话信息时，可以通过具体的任务模块来完成不同的分析任务，经过多种工具从对话信息中获取各类型的数据组成用户状态表征。例如，请参阅图4，在图4中，在获取对话上下文内容、用户咨询词条、用户ID作为对话信息的输入之后，可以将通过自然语言理解(Natural Language Understanding，NLU)模块，也即通过任意支持机器理解文本内容的方法模型或任务来处理对话信息，并且进一步还可以使用对话状态追踪(DialogueState Tracking，DST)模块，来监控隐藏在对话历史中的用户目标，并将它们表示为由一系列三元组(领域domain，槽位slot，槽值value)组成的对话状态，最终得到由用户意图、槽位槽值、对话记忆、用户因子组成的用户状态表征。

S306、根据用户状态表征以及对话流程约束，确定用户状态表征对应的标准对话流程候选集，标准对话流程候选集包括至少一个满足对话流程约束的标准对话流程。

可选地，在多轮对话中，多个对话动作之间需要满足对话逻辑约束，特别是对于一些具有专业性要求的对话场景，例如理财投资顾问场景中，多轮对话中的各对话服务不仅需要满足常规对话的逻辑约束，还需要满足理财专业的逻辑约束。因此通常对于对话决策中，会基于强化学习的训练原理，对不符合约束规范的对话动作和对话服务进行惩罚，对话决策会基于惩罚收到负反馈，以使得对话决策学习出符合约束规范的策略。

然而，对于强化学习来说，惩罚的负反馈是指给予负值的奖赏值，而约束规范是基于负反馈成立的，属于隐式的约束，在学习过程中，决策出一些合法但并非最优的对话动作时也会触发负反馈，因此负反馈无法使得对话决策准确学习约束规则，基于负反馈的隐式约束对对话决策的约束性较弱，对话决策在上线使用时仍然可能采取到不合法的动作以致造成事故损失。这样直接导致对话决策不稳定，容易造成错误和损失。

可选地，为了对违反约束规则的对话动作和对话服务进行准确规避，可以将其显式的规范合法动作空间，预设合法的对话约束，通过具体的约束规则来使得对话决策出合法范围内的对话动作和对话服务，这可以使得策略上线使用时可靠性更稳定。

具体地，在对话决策过程中，首先决策目标标准对话流程时，需要保证目标标准对话流程是符合约束的。那么对话约束中需要包含对话流程约束，通过对话流程约束在所有标准对话流程的范围中进行筛选，而进行筛选时，各不同的用户状态表征对应的对话需求可能对约束规则中不同的约束条件有不同偏重。那么需要基于用户状态表征来确定筛选范围，并通过对话流程约束来确定用户状态表征对应的标准对话流程候选集，标准对话流程候选集包括至少一个满足对话流程约束的标准对话流程。以使得决策目标标准对话流程时可以决策出既符合对话用户的对话需求并且还符合对话流程约束的目标标准对话流程。

进一步地，为方便描述上述决策逻辑，请继续参阅图4，在图4中，需要将已经得到的用户状态表征输入对话约束中的对话流程约束中，决策出用户状态表征对应的标准对话流程候选集，其中，标准对话流程候选集中可以包括例如“行情解读→行情建议”、“行情解读”、“事实承接→情绪安抚→行情解读→建议”、“事实承接→收益归因→建议”等标准对话流程，各流程步骤为各标准对话流程中的子对话服务。这样缩小决策目标标准对话流程的范围，且保证目标标准对话流程一定是满足对话流程约束的合法动作流程。

S308、在标准对话流程候选集中确定目标标准对话流程。

可选地，确定出标准对话流程候选集之后，就可以进一步基于标准对话流程候选集以及用户状态表征，在标准对话流程候选集中决策出合法且最贴合用户需求的目标标准对话流程，使得对话决策方法在满足对话流程约束规范的前提下，决策出层次化、结构化且具有合法逻辑的目标标准对话流程。

具体过程请参阅图4，在图4中，决策出标准对话流程候选集之后，进一步基于标准对话流程候选集以及用户状态表征，通过对话流程决策模块中，直接在标准对话流程候选集的范围中决策出贴合用户状态表征的优选的目标标准对话流程，例如，最终决策出标准对话流程“事实承接→情绪安抚→行情解读→建议”作为目标标准对话流程。

S3010、根据用户状态表征以及原子对话服务约束，确定目标标准对话流程中各子对话服务对应的原子对话服务候选集，原子对话服务候选集包括至少一个满足原子对话服务约束的原子对话服务。

可选地，通过上述实施例的介绍可以知道，通过多层对话决策，对决策任务进行解耦之后，每一步的对话决策都需要满足对应的合法约束规范，而在决策出目标标准对话流程之后，继续基于目标标准对话流程决策各子对话服务对应的目标原子服务时，各目标原子服务在贴合用户状态表征的同时也需要满足对应的原子对话服务约束。

可选地，由于各子对话服务中包括至少一个原子对话服务，需要在决策目标原子服务之前首先确定出可使用的合法原子对话服务，因此首先需要根据用户状态表征以及原子对话服务约束，确定目标标准对话流程中各子对话服务对应的原子对话服务候选集，其中原子对话服务候选集包括至少一个满足原子对话服务约束的原子对话服务。

具体过程请参阅图4，在图4中，基于用户状态表征以及原子对话服务约束，确定出目标标准对话流程“事实承接→情绪安抚→行情解读→建议”中，各子对话服务的合法原子对话服务组成原子对话服务候选集，例如，子对话服务“事实承接”的合法原子对话服务候选集为{“总持仓收益”，“单品收益”，“行业涨跌幅”}，子对话服务“情绪安抚”的合法原子对话服务候选集为{“投教安抚”，“共情安抚”}，其余子对话服务的合法原子对话服务候选集的确定方法相同，示例请见图4中的具体描述，此处不再赘述。

S3012、在原子对话服务候选集中确定各子对话服务对应的各目标原子对话服务。

可选地，得到原子对话服务候选集之后，就可以进一步基于原子对话服务候选集以及用户状态表征，在原子对话服务候选集中决策出合法且最贴合用户需求的各子对话服务对应的各目标原子对话服务，使得对话决策方法在满足原子对话服务约束规范的前提下，决策出符合用户需求的对话逻辑且具有合法专业逻辑的目标原子对话服务。

具体过程请参阅图4，在图4中，通过原子对话服务决策模块，基于原子对话服务候选集，得到各子对话服务的目标原子对话服务，例如确定子对话服务“事实承接”的目标原子对话服务应采用“行业涨跌幅”，其余子对话服务中的目标原子对话服务决策过程相同，示例请见图4中的具体描述，此处不再赘述。

S3014、基于用户状态表征组装各目标原子对话服务的参数接口。

可选地，确定出在对话过程中可能使用的各目标原子对话服务之后，在具体对话过程中，还需要根据各目标原子对话服务生成目标对话文案，通过目标对话文案来答复对话用户，以模拟人工对话来和对话用户进行有效交互，满足对话用户的对话需求。

可选地，各目标原子对话服务代表了用户可能需要的信息、数据等，那么生成目标对话文案时，需要基于用户状态表征中的特征值对各目标原子对话服务的入参进行组装，以使得通过各目标原子对话服务调用的对应参数和数据能够放入多轮对话的目标对话文案的正确位置。具体过程请参阅图4，首先需要先通过原子对话服务入参组装器调用基于各目标原子对话服务的参数接口组装至正确位置，也即基于用户状态表征组装各目标原子对话服务的参数接口，保证对话的正确性和流畅性。

S3016、基于各参数接口调用各目标原子对话服务的目标参数，并根据各目标参数生成各原子对话服务对应的各目标对话文案。

可选地，入参组装完成后，可以基于参数接口调用各目标原子对话服务的目标参数，并根据各目标参数生成各原子对话服务对应的各目标对话文案，以在生成目标对话文案时获取对应的数据信息，将对话用户需要的数据、信息等都添加至目标对话文案中，答复给对话用户。具体过程请继续参阅图4，在图4中，可以通过自然语言生成(NaturalLanguage Generation，NLG)模块，从知识库或逻辑形式等等机器表述系统去生成自然语言，也即在本说明书实施例中，调用各目标原子对话服务的各目标参数，获取对应数据信息来生成各原子对话服务对应的各目标对话文案，并输出给对话用户，以达到本次对话的预期目标。

S3018、基于目标对话文案生成答复内容，以及向对话用户展示答复内容，答复内容包括但不限于与目标对话文案对应的文字、语音、图像、表格、链接。

可选地，考虑到对话用户的需求的多样性，除了通过常规的文字能够答复对话用户，可能通过图表、相关链接等方式更能直观的满足对话用户，提升对话用户的对话交互体验，那么可以基于目标对话文案生成答复内容，以及向对话用户展示答复内容，并且在答复内容中体现出多种数据信息类型，其中包括但不限于与目标对话文案对应的文字、语音、图像、表格、链接，以使得对话用户获得直观的信息数据，并可以直接进入目标页面，简洁化用户的操作，为用户提供舒适的交互体验。

在本说明书实施例中，提供一种对话决策方法，对决策目标标准对话流程、目标原子对话服务之前，首先通过显式设置的对话流程约束基于用户状态表征筛选出贴合对话用户需求且合法的标准对话流程候选集，以保证目标标准对话流程的合法性；并且通过原子对话服务约束基于用户状态表征筛选出贴合对话用户需求且合法的各子对话服务对应的原子对话服务候选集，以保证目标原子对话服务的合法性；再对各目标原子对话服务的入参进行组装，生成目标对话文案。通过显式、专业的对话约束规范能对对话决策进行有效约束，使得对话决策方法在准确满足对话约束规范的前提下，决策出层次化、结构化且具有合法逻辑的目标标准对话流程和目标原子对话服务，以模拟人工对话来和对话用户进行有效交互，满足对话用户的对话需求。

请参阅图5，图5为本说明书实施例提供的一种对话决策模型训练方法的流程示意图。

如图5所示，对话决策方法模型训练至少可以包括：

S502、获取预设真实对话场景中的对话数据，解析对话数据得到对话数据对应的对话数据日志，对话数据日志中至少包括一种类型的数据日志。

可选地，通过上述实施例的介绍可以知道，用于进行对话决策的对话决策模型通常需要通过学习训练阶段，才能够获得预期决策性能，保证在具体使用者能够达到预期目标。目前存在多种对话决策模型的训练方式，其中一种可行的训练是基于监督学习方式实现的，也即收集人机交互的样本对话数据，对样本对话数据进行人工标注每个时间步下的优选动作，并通过监督学习的方式训练对话策略，以使得对话决策模型学习优选动作的决策特征。但该方法需要的人工标注成本较大，并且对样本数据集分布是否覆盖了所有的对话空间也有较高的要求。

可选地，为了减少人工标注成本，可以通过强化学习方法来训练对话决策模型。强化学习训练使得对话决策模型趋向于在多轮交互中奖赏收益最大化的方向收敛，相较于基于预制规则和基于监督学习的训练方式，减少了人工成本。然而，普通的强化学习训练为在线强化学习，依赖智能体在部署对话决策模型后与交互环境进行交互来不断试错，对于实际应用场景中，直接使用线上环境作为训练环境会损害训练初期用户的使用体验，并且可能引发错误，造成巨大损失。而如果构建虚拟环境用于策略训练，如何构建逼真的虚拟环境也是一大挑战，因此训练成本较大。

可选地，为了减少对话决策模型的训练成本，可以对对话决策模型进行离线强化学习，基于真实交互环境中的交互对话数据，在离线环境中通过学习数据来获取决策的知识经验，离线强化学习框架中，不需要监督学习中的人工标注。同时，离线强化学习方法可以直接基于离线数据学习，不需要构建虚拟环境用于交互式训练，降低了策略训练实施上的难度，减少训练的人工成本和环境搭建成本。

具体地，需要获取预设真实对话场景中的对话数据，其中预设真实场景可以是真实应用场景中的交互环境中，对话数据可以是先冷启动部署一套人类专家规则上线与用户交互，以获取用于训练的真实对话数据。为方便描述，具体过程请参阅图6，图6为本说明书实施例提供的一种对话决策模型训练方法的流程框架图。如图6所示，在在线推理部分，通过专家规则对话策略在真实对话场景中与对话用户进行交互，获取到对话数据。

进一步地，由于对话决策模型通过强化学习来学习对话决策策略时，需要通过样本用户状态表征和样本用户状态表征对应的样本标准对话结果，以及样本用户状态表征和样本标准对话结果之间的决策奖赏值，来训练决策模型直至收敛。那么还需要对对话数据进行解析，得到对话数据对应的对话数据日志，对话数据日志中至少包括一种类型的数据日志，对话数据日志中就可以包含各类数据日志用来表征对话数据中的决策特征，基于对话数据日志也就可以获取样本用户状态表征以及对应的样本标准对话结果作为样本数据，用于对话决策模型训练。需要注意的是，对话结果是对话决策模型决策出对话中的目标原子对话服务之后，基于目标原子对话服务具体做出的对话动作。

具体过程请参阅图6，在图6中，可以通过日志收集器来解析对话数据得到对话数据日志，其中某一轮对话数据对应的对话数据日志中至少可以包括本次对话对应的对话目标、目标标准对话流程和目标原子对话服务、用户停留时长、曝光与点击情况等类型的数据日志，并在得到对话数据日志之后，可以将对话数据日志统一存储至数据仓库中以备离线训练使用。

S504、根据对话数据日志获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果。

可选地，数据仓库中收集到足够用于训练的对话数据日志之后，还需要基于对话数据日志来分析至少一个对话对应的样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果，以使得对话决策模型基于样本用户状态表征以及样本标准对话结果来学习决策时的计算特征。具体地，请参阅图6，在离线训练中，可以通过经验收集器(ReplayBuffer)从数据仓库中读取相应日志构造至少一个样本用户状态表征以及其对应的样本标准对话结果。从真实场景中获取的交互数据中，得到用于训练对话决策模型的样本数据，可以确保离线训练时也能获得准确、正确的对话决策性能。

S506、根据对话数据日志中各类型的数据日志的预设数据权重，计算各样本标准对话结果对应的标准奖赏值。

可选地，由于强化学习的特点，训练时通常基于样本动作结果的奖赏值与输出动作结果的奖赏值进行对比，计算损失函数并基于损失函数控制模型的拟合。那么本说明书实施例中，进行离线强化训练时，还需要对各样本标准对话结果计算对应的标准奖赏值，便于后续对话决策模型计算输出结果与期望结果之间的差距。

进一步地，由于对话决策模型需要在“停留时长”、“点击率”、“对话轮次”等多方面有不同的重视程度，所以如图6所示，经验收集器还可以将数据仓库中对话数据日志内的相应记录，例如用户停留时长、曝光与点击情况等数据，输入多目标奖赏函数模块，基于预设的各类型数据的重要度加权得到各样本标准对话结果对应的标准奖赏值。需要注意的是，本说明书实施例对各方面类型的数据的权重不做具体限定，可以根据实际场景需求进行设置。

S508、将各样本用户状态表征输入对话决策模型，以使得对话决策模型基于对话约束得到各样本用户状态表征对应的至少一个样本输出对话结果，以及计算各样本输出对话结果对应的输出奖赏值，对话约束包括对话流程约束和原子对话服务约束。

可选地，准备好样本数据之后，还需要得到对话决策模型基于样本用户状态表征所输出的对话结果。为了能够在真实交互环境中通过对话决策模型得到符合用户需求以及满足约束规则的对话服务，在训练过程中就需要预设对话约束，且对话约束需要具体包括对话流程约束和原子对话服务约束，以训练对话决策模型输出合法的对话动作的能力。那么具体的，如图6所示，将各样本用户状态表征输入对话决策模型，使得在对话决策模型中基于对话约束输出的各样本用户状态表征对应的至少一个样本输出对话结果。这样可以有效避免对话决策模型在决策过程中采取非法动作。并且为了训练模型，还需要计算各样本输出对话结果对应的输出奖赏值，便于后续基于输出奖赏值以及标准奖赏值进行训练。

进一步地，对话约束还可以在规范对话决策模型的决策动作控空间的基础上，同时对多目标奖赏函数进行修改，使得对话决策模型计算奖赏函数时对于非法动作进行一定惩罚，显式对话约束能够有效的通过惩罚的负反馈对对话决策模型进行准确约束。

S5010、基于各标准奖赏值和各输出奖赏值，训练对话决策模型，直至对话决策模型收敛。

可选的，获得各标准奖赏值以及各输出奖赏值之后，可以基于标准奖赏值各输出奖赏值来计算损失函数，通过损失函数值训练对话决策模型，直至对话决策模型收敛，进一步将对话决策模型应用于上述任一实施例中的对话决策方法，并将对话决策方法部署至线上环境，通过对话决策模型与用户进行对话交互。

具体地，使用各标准奖赏值以及各输出奖赏值进行训练时，由于样本数据是基于真实环境中的交互得到的，且真实交互中一次交互对应一个动作结果，那么样本用户状态表征也对应唯一的样本标准对话结果，以及对应唯一的标准奖赏值。而对话决策模型对同一样本用户状态表征，输出的样本输出对话结果可能是多个，因此同一样本用户状态表征可能对应多个输出奖赏值，对比输出奖赏值和标准奖赏值，需要保证二者对应同样的对话结果的动作才能够互相成为对照，那么其中只有与样本标准对话结果为同一动作结果的样本输出对话结果，其对应的输出奖赏值能够与该样本标准对话结果的标准奖赏值成为一组数据，进行损失函数的计算，在此过程中对话决策模型能够通过拟合真实交互中相同动作的奖赏值，实现对话决策模型训练。

进一步地，如图6所示，对话决策模型训练收敛之后，可以将其中奖赏值最高的对话决策进行上线部署为对话决策方法，并同时将对话约束用于对话决策模型在上线部署后的对话决策方法中，对话决策方法在线上与用户交互一段时间并积累新对话数据日志后，再进行下一轮的离线训练以及对话决策方法更新，以使得在真实交互中能够输出合法且优选的对话结果，提升对话用户的对话使用体验，也便于对对话决策方法的迭代和扩展。

需要注意的是，最终对话决策模型用于上述任一实施例中的对话决策方法之后，是根据奖赏值来输出得分最高的优选对话结果，那么对各样本用户状态表征的优选对话结果，可能与样本标准对话结果不同，而由于训练时未基于优选对话结果进行拟合，此时优选对话结果的效果与预期之间可能会出现外推误差(extrapolation error)。因此可以在训练时，约束同一各样本用户状态表征的优选对话结果与样本标准对话结果之间的距离，控制优选对话结果和样本标准对话结果的差距较小，以此来减小外推误差。本说明书实施例对减小外推误差的操作步骤不作具体限定。

在本说明书实施例中，提供一种对话决策模型训练方法，获取预设真实对话场景中的对话数据，基于对话数据获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果，以及计算各样本标准对话结果对应的标准奖赏值；将各样本用户状态表征输入对话决策模型，以使得对话决策模型基于对话约束得到各样本用户状态表征对应的至少一个样本输出对话结果，以及计算各样本输出对话结果对应的输出奖赏值；基于各标准奖赏值和各输出奖赏值，训练对话决策模型。通过使用真实交互数据对对话决策模型进行离线强化学习训练，减少对样本数据的人工标注成本，并且不需要构建虚拟环境用于交互式训练，降低了策略训练实施上的难度，减少训练的人工成本和环境搭建成本。

请参阅图7，图7为本说明书实施例提供的一种对话决策装置的结构框图。如图7所示，对话决策装置700包括：

对话流程决策模块710，用于获取对话用户在对话中对应的用户状态表征，确定用户状态表征对应的目标标准对话流程，目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；

对话服务决策模块720，用于确定目标标准对话流程中各子对话服务对应的各目标原子对话服务；

对话答复模块730，用于根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户。

可选地，对话流程决策模块710，还用于根据用户状态表征以及对话流程约束，确定用户状态表征对应的标准对话流程候选集，标准对话流程候选集包括至少一个满足对话流程约束的标准对话流程；在标准对话流程候选集中确定目标标准对话流程。

可选地，对话服务决策模块720，还用于根据用户状态表征以及原子对话服务约束，确定目标标准对话流程中各子对话服务对应的原子对话服务候选集，原子对话服务候选集包括至少一个满足原子对话服务约束的原子对话服务；在原子对话服务候选集中确定各子对话服务对应的各目标原子对话服务。

可选地，对话流程决策模块710，还用于获取对话用户在对话中的对话信息，对话信息至少包括对话内容、对话目标、用户标识中的其中一种；基于对话信息确定对话用户的用户状态表征，用户状态表征至少包括用户意图、槽位槽值、对话记忆、用户因子中的其中一种。

可选地，对话答复模块730，还用于基于用户状态表征组装各目标原子对话服务的参数接口；基于各参数接口调用各目标原子对话服务的目标参数，并根据各目标参数生成各原子对话服务对应的各目标对话文案。

可选地，对话答复模块730，还用于基于目标对话文案生成答复内容，以及向对话用户展示答复内容，答复内容包括但不限于与目标对话文案对应的文字、语音、图像、表格、链接。

在本说明书实施例中，提供一种对话决策装置，其中，对话流程决策模块，用于获取对话用户在对话中对应的用户状态表征，确定用户状态表征对应的目标标准对话流程，目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；对话服务决策模块，用于确定目标标准对话流程中各子对话服务对应的各目标原子对话服务；对话答复模块，用于根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户。由于最终用于对话答复的原子对话服务是基于已经确定出的标准对话流程的基础上确定的，而标准对话流程中的各子对话服务是相互独立且形成一系列步骤的，这就降低了各原子服务之间的耦合性，并且根据用户状态表征进行适应性的对话决策时，不需要预设对话规则，降低了对话决策所需要的人工成本。

请参阅图8，图8为本说明书实施例提供的一种对话决策模型训练装置的结构框图。如图8所示，对话决策装置800包括：

数据收集模块810，用于获取预设真实对话场景中的对话数据，基于对话数据获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果，以及计算各样本标准对话结果对应的标准奖赏值；

模型输出模块820，用于将各样本用户状态表征输入对话决策模型，以使得对话决策模型基于对话约束得到各样本用户状态表征对应的至少一个样本输出对话结果，以及计算各样本输出对话结果对应的输出奖赏值，对话约束包括对话流程约束和原子对话服务约束；

模型训练模块830，用于基于各标准奖赏值和各输出奖赏值，训练对话决策模型，直至对话决策模型收敛；

对话决策模型应用于上述任一说明书实施例的对话决策方法。

可选地，数据收集模块810，还用于解析对话数据得到对话数据对应的对话数据日志，对话数据日志中至少包括一种类型的数据日志；根据对话数据日志获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果。

可选地，数据收集模块810，还用于根据对话数据日志中各类型的数据日志的预设数据权重，计算各样本标准对话结果对应的标准奖赏值。

在本说明书实施例中，提供一种对话决策模型训练装置，其中，数据收集模块，用于获取预设真实对话场景中的对话数据，基于对话数据获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果，以及计算各样本标准对话结果对应的标准奖赏值；模型输出模块，用于将各样本用户状态表征输入对话决策模型，以使得对话决策模型基于对话约束得到各样本用户状态表征对应的至少一个样本输出对话结果，以及计算各样本输出对话结果对应的输出奖赏值；模型训练模块，用于基于各标准奖赏值和各输出奖赏值，训练对话决策模型。通过使用真实交互数据对对话决策模型进行离线强化学习训练，减少对样本数据的人工标注成本，并且不需要构建虚拟环境用于交互式训练，降低了策略训练实施上的难度，减少训练的人工成本和环境搭建成本。

本说明书实施例提供一种包含指令的计算机程序产品，当计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述实施例中任一项的方法的步骤。

本说明书实施例还提供了一种计算机存储介质，计算机存储介质可以存储有多条指令，指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。

请参见图9，图9为本说明书实施例提供的一种终端的结构示意图。如图9所示，终端900可以包括：至少一个终端处理器901，至少一个网络接口904，用户接口903，存储器905，至少一个通信总线902。

其中，通信总线902用于实现这些组件之间的连接通信。

其中，用户接口903可以包括显示屏(Display)、摄像头(Camera)，可选用户接口903还可以包括标准的有线接口、无线接口。

其中，网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，终端处理器901可以包括一个或者多个处理核心。终端处理器901利用各种接口和线路连接整个终端900内的各个部分，通过运行或执行存储在存储器905内的指令、程序、代码集或指令集，以及调用存储在存储器905内的数据，执行终端900的各种功能和处理数据。可选的，终端处理器901可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。终端处理器901可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理对话系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到终端处理器901中，单独通过一块芯片进行实现。

其中，存储器905可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器905包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器905可用于存储指令、程序、代码、代码集或指令集。存储器905可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现对话系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器905可选的还可以是至少一个位于远离前述终端处理器901的存储装置。如图9所示，作为一种计算机存储介质的存储器905中可以包括对话系统、网络通信模块、用户接口模块、对话决策程序和/或对话决策模型训练程序。

在图9所示的终端900中，用户接口903主要用于为用户提供输入的接口，获取用户输入的数据；而终端处理器901可以用于调用存储器905中存储的对话决策程序，并具体执行以下对话：

获取对话用户在对话中对应的用户状态表征，确定用户状态表征对应的目标标准对话流程，目标标准对话流程包括至少一个子对话服务，各子对话服务中包括至少一个原子对话服务；

确定目标标准对话流程中各子对话服务对应的各目标原子对话服务；

根据各目标原子对话服务生成目标对话文案，基于目标对话文案答复对话用户。

在一些实施例中，终端处理器901在执行确定用户状态表征对应的目标标准对话流程时，具体执行以下步骤：根据用户状态表征以及对话流程约束，确定用户状态表征对应的标准对话流程候选集，标准对话流程候选集包括至少一个满足对话流程约束的标准对话流程；在标准对话流程候选集中确定目标标准对话流程。

在一些实施例中，终端处理器901在执行确定目标标准对话流程中各子对话服务对应的各目标原子对话服务时，具体执行以下步骤：根据用户状态表征以及原子对话服务约束，确定目标标准对话流程中各子对话服务对应的原子对话服务候选集，原子对话服务候选集包括至少一个满足原子对话服务约束的原子对话服务；在原子对话服务候选集中确定各子对话服务对应的各目标原子对话服务。

在一些实施例中，终端处理器901在执行获取对话用户在对话中对应的用户状态表征时，具体执行以下步骤：获取对话用户在对话中的对话信息，对话信息至少包括对话内容、对话目标、用户标识中的其中一种；基于对话信息确定对话用户的用户状态表征，用户状态表征至少包括用户意图、槽位槽值、对话记忆、用户因子中的其中一种。

在一些实施例中，终端处理器901在执行根据各目标原子对话服务生成目标对话文案时，具体执行以下步骤：基于用户状态表征组装各目标原子对话服务的参数接口；基于各参数接口调用各目标原子对话服务的目标参数，并根据各目标参数生成各原子对话服务对应的各目标对话文案。

在一些实施例中，终端处理器901在执行基于目标对话文案答复对话用户时，具体执行以下步骤：基于目标对话文案生成答复内容，以及向对话用户展示答复内容，答复内容包括但不限于与目标对话文案对应的文字、语音、图像、表格、链接。

在图9所示的终端900中，用户接口903主要用于为用户提供输入的接口，获取用户输入的数据；而终端处理器901可以用于调用存储器905中存储的对话决策模型训练程序，并且还具体执行以下对话：

获取预设真实对话场景中的对话数据，基于对话数据获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果，以及计算各样本标准对话结果对应的标准奖赏值；

将各样本用户状态表征输入对话决策模型，以使得对话决策模型基于对话约束得到各样本用户状态表征对应的至少一个样本输出对话结果，以及计算各样本输出对话结果对应的输出奖赏值，对话约束包括对话流程约束和原子对话服务约束；

基于各标准奖赏值和各输出奖赏值，训练对话决策模型，直至对话决策模型收敛；

对话决策模型应用于上述任一说明书实施例的对话决策方法。

在一些实施例中，终端处理器901在执行基于对话数据获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果时，具体执行以下步骤：解析对话数据得到对话数据对应的对话数据日志，对话数据日志中至少包括一种类型的数据日志；根据对话数据日志获取至少一个样本用户状态表征以及各样本用户状态表征对应的样本标准对话结果。

在一些实施例中，终端处理器901在执行计算各样本标准对话结果对应的标准奖赏值时，具体执行以下步骤：根据对话数据日志中各类型的数据日志的预设数据权重，计算各样本标准对话结果对应的标准奖赏值。

在本说明书所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、对话服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriberLine，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、对话服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的对话服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatileDisc，DVD))、或者半导体介质(例如，固态硬盘(SolidStateDisk，SSD))等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的对话组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的对话顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的对话和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本说明书实施例所提供的一种对话决策及对话决策模型训练方法、装置以及终端的描述，对于本领域的技术人员，依据本说明书实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本说明书实施例的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：许婧;贾世坤;杨崇;王永亮;朱海勇;
专利申请人：蚂蚁财富(上海)金融信息服务有限公司;

上一篇：一种油冷电机结构
下一篇：一种基于时变滤波的旋转机械信号时频分析方法