导航：首页> 动物或植物油、脂、脂肪物质或蜡；由此制取的脂肪酸；洗涤剂；蜡烛>一种基于会话确定动作决策的方法及装置

一种基于会话确定动作决策的方法及装置

文献发布时间：2023-06-19 18:37:28

技术领域

本申请涉及人工智能技术领域，特别涉及一种基于会话确定动作决策的方法及装置。

背景技术

在对会话文本进行语义理解时，可以应用人工智能技术。随着计算机网络技术的发展，在越来越多的商务平台上，商务服务提供者与客户采用即时通讯(IM)方式进行会话沟通，因此商务服务提供者越了解客户的需求，才能为客户提供更好的商务服务。在商务服务提供者与客户的对话过程中，商务平台基于动作决策为商务服务提供者提供商务服务动作建议，具体过程为：在商务服务提供者与客户的会话过程中，识别客户的会话文本的语义，并根据识别得到的语义确定动作决策，并向商务服务提供者提供商务服务动作建议。

可以看出，商务服务提供者在提供商务服务时，是否能够满足客户的需求，并为客户提供好的体验度，是由所得到的动作决策的准确性决定的，而动作决策是基于会话确定的。所以基于会话确定动作决策的准确性，对于商务平台提高商务服务的质量至关重要。但是，目前在基于会话确定动作决策时，仅仅是根据所识别的会话文本的语义的这一单一维度确定的，导致了确定准确性不高的问题。

发明内容

有鉴于此，本申请实施例提供一种基于会话确定动作决策的方法及装置，能够提高基于会话确定动作决策的确定准确性。

本申请实施例的一个实施例中，提供一种基于会话确定动作决策的方法，所述方法包括：

在会话过程中获取会话文本，将所述会话文本的特征信息输入到语义识别的神经网络模型中进行语义识别，得到所述会话文本的语义信息；

获取参与会话过程的人员特征信息，将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果；

基于所得到的动作决策结果，执行动作决策。

在上述方法中，所述语义识别的神经网络模型中进行语义识别包括：

对所述会话文本的意图、标签、槽位、情感信息或/和表达方式分别识别，其中，所述槽位为从所述对话文本中获取的关键特征信息；所述表达方式包括问询表达方式、回答表达方式、确认表达方式或建议表达方式；

将得到的所述对话文本的意图、标签、槽位、情感信息或/和表达方式作为所述会话文本的语义信息。

在上述方法中，所述语义识别的神经网络模型采用多个语义识别的具有注意力机制的神经网络训练得到，所述多个语义识别的具有注意力机制的神经网络分别对所述会话文本的意图、标签、槽位、情感信息或/和表达方式进行识别。

在上述方法中，所述获取参与会话过程的人员特征信息包括：

确定会话过程的至少一个参与人员，所述参与人员包括客户和商务平台的商务服务提供者；

针对每一个所述参与人员，获取所述参与人员的会话状态追踪信息、人设特征信息、或/和历史动作决策信息；

在会话过程中，获取从一所述参与人员到另一所述参与人员的会话状态转移图信息。

在上述方法中，将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果包括：

根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，确定会话过程涉及的当前场景是否已经结束；

在确定会话过程涉及的当前场景未结束时，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，确定对应的第一动作决策；

在确定对应的第一动作决策范围内，根据所述人员特征信息及所述会话文本的语义信息，确定对应的第二动作决策；

将所述会话过程涉及的当前场景下的、包括在所述第一动作决策下的所述第二动作决策，作为动作决策结果。

在上述方法中，所述动作决策的神经网络模型由多个训练得到的注意力机制的神经网络组成，其中，

基于训练得到的第一注意力机制的神经网络，根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，进行处理，得到确定会话过程涉及的当前场景是否已经结束的特征；

在根据所述会话过程涉及的当前场景是否已经结束的特征，确定会话涉及的当前场景未结束的情况下，基于训练得到的第二注意力机制的神经网络，在会话涉及的当前场景下，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，进行处理，得到对应的第一动作决策；

在所述第一动作决策的范围内，基于训练得到的第三注意力机制的神经网络，在会话涉及的当前场景下及第一动作决策中，根据所述人员特征信息及所述会话文本的语义信息，进行处理，得到对应的第二动作决策，将第二动作决策作为动作决策结果。

在上述方法中，所述动作决策的神经网络模型由多个训练得到的注意力机制的神经网络，及类别合并网络组成，其中，

基于训练的第一注意力机制的神经网络，根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，进行处理，确定会话过程涉及的当前场景是否已经结束；

在根据所述会话过程涉及的当前场景是否已经结束的特征，确定会话涉及的当前场景未结束的情况下，基于训练的第二注意力机制的神经网络，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，进行处理，确定对应的第一动作决策；

在所述第一动作决策的范围内，基于训练得到的第三注意力机制的神经网络，根据所述人员特征信息及所述会话文本的语义信息，进行处理，确定对应的第二动作决策；

基于所述类别合并网络将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行分类合并后，输出动作决策结果。

在上述方法中，所述类别合并网络将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行分类合并包括：

分别基于所述确定会话过程涉及的当前场景未结束的特征对应的权重值、所述第一动作决策的特征对应的权重值，及所述第二动作决策的特征对应的权重值，将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行分类合并。

本申请实施例的另一实施例中提供一种电子设备，处理器；存储器，存储有程序，所述程序配置为在被所述处理器执行时上述的一种基于会话确定动作决策的方法中的各个步骤。

本申请实施例的再一实施例中提供一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行上述的基于会话确定动作决策的方法。

如上所见，本申请实施例在会话过程中获取会话文本，将所述会话文本的特征信息输入到语义识别的神经网络模型中进行语义识别，得到所述会话文本的语义信息；获取参与会话过程的人员特征信息，将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果；基于所得到的动作决策结果，执行动作决策。这样，在基于会话确定动作决策时，不仅仅是依据会话文本的单维度的语义理解确定，而且依据会话参与人员特征信息确定，从而提高了基于会话确定动作决策的确定准确性。

附图说明

图1为本申请实施例提供的一种基于会话确定动作决策的方法流程图；

图2为本申请实施例提供的基于会话确定动作决策的方法例子的整体流程图；

图3为本申请实施例提供的动作决策的神经网络模型处理所述人员特征信息及所述会话文本的语义信息的过程示意图；

图4为本申请实施例提供的动作决策的神经网络模型进行分层次的动作决策处理的具体例子一架构示意图；

图5为本申请实施例提供的动作决策的神经网络模型进行分层次的动作决策处理的具体例子二架构示意图；

图6为本申请实施例提供的一种基于会话确定动作决策的装置结构示意图；

图7为本申请的另一个实施例所提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

目前，在采用动作决策时，采用语义识别的神经网络模型识别客户的会话文本的语义信息，并根据识别得到的语义信息确定动作决策。在这里，语义识别的神经网络模型是多分类模型，根据分类的语义信息确定对应的动作决策。采用会话文本的语义信息的这一单一维度信息确定动作决策，由于会话文本的语义识别度有限，大约有70％的会话文本无法被分类，导致无法指直接获得对应的动作决策，使得对应有动作决策的会话文本的范围有限。另外，在训练语义识别的神经网络模型时，会采用会话文本样本训练时，该样本的筛选也有难度，并不能完全确定什么是正向会话样本，这是因为，会话文本的语义无法与正确的动作决策相对应。比如，当会话文本的语义理解为转委托经纪人的语义时，其动作决策是转委托经纪人，但是在转委托经纪人时，不一定能够保证客户的委托服务质量；当会话文本的语义理解为非转委托经纪人的语义时，其动作决策是不转委托经纪人，这有可能降低客户的委托服务质量。更进一步地，在确定动作决策时，采用语义识别的神经网络模型的处理粒度是会话文本的特征信息，仅仅是单一维度信息的处理，而语义识别的神经网络模型的处理能力不仅仅限于这一单维度信息，造成了语义识别的神经网络模型与会话文本的特征信息之间的差异性。

综上，目前识别客户的会话文本的语义信息，并根据识别得到的语义信息确定动作决策，会导致确定准确性不高的问题。

本申请实施例为了解决上述问题，在会话过程中获取会话文本，将所述会话文本的特征信息输入到语义识别的神经网络模型中进行语义识别，得到所述会话文本的语义信息；获取参与会话过程的人员特征信息，将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果；基于所得到的动作决策结果，执行动作决策。

这样，在基于会话确定动作决策时，不仅仅是依据会话文本的单维度的语义理解确定，而且依据会话参与人员特征信息确定，从而提高了基于会话确定动作决策的确定准确性。

进一步地，在动作决策的神经网络模型中进行处理，得到动作决策结果时，包括：先对会话过程的场景进行确定，然后再在当前的会话过程的场景下，确定大动作决策；最后在大动作决策中，确定小动作决策，也就是最终得到的动作决策结果。这样，通过会话过程的场景限定及在该场景下的多层次的动作决策过程，使得最终得到的动作决策结果准确。

具体地说，在IM场景下，比如商务平台为房屋交易服务平台，会话过程的参与人员为经纪人和客户。在这种情况下，经纪人和客户的会话过程是由多个场景连接起来的，比如在一个场景下会话内容是房屋的相关信息，包括房屋的自身信息、周边信息及价格信息等等，在下一个场景下会话内容是客户的相关信息，比如是否有购房资格、或者客户对当前房屋的满意度、客户是否需要推荐下一房屋、以及客户是否需要带看房屋等等。在每个场景下，会话内容会涉及到更细的内容，比如在获取房屋的周边信息时，会具体对房屋周边的学校或医院等内容进行关注，在获取客户是否具有购房资格时，则会有客户的社会保险信息及工作年限信息的咨询等。因此，在基于会话确定动作决策时，就需要对会话的场景、会话涉及的大动作决策及会话涉及的小动作决策进行分层次的确定，而不是直接确定动作决策结果。也就是先确定会话的场景，再确定在会话的当前场景下的大动作决策，及在大动作决策下确定小动作决策，作为最终的动作决策结果。

这样，本申请实施例就可以使得基于会话确定的动作决策更加精准，更大限度的为基于商务平台上的商务服务提供者在为客户提供商务服务时提供了帮助，使得基于商务平台上的上文服务提供者更加确定为客户提供何种商务服务、怎样主导会话过程，以及怎样提高商务服务的满意度，从而使得客户的满意度增高，增加客户的用户体验度。

图1为本申请实施例提供的一种基于会话确定动作决策的方法流程图，其具体步骤包括：

步骤101、在会话过程中获取会话文本，将所述会话文本的特征信息输入到语义识别的神经网络模型中进行语义识别，得到所述会话文本的语义信息；

步骤102、获取参与会话过程的人员特征信息，将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果；

步骤103、基于所得到的动作决策结果，执行动作决策。

在本申请实施例中，在对会话文本进行语义识别时，不是仅仅对会话文本的本身内容的一个维度上进行识别，而是进行多个维度上进行识别。具体地说，所述语义识别的神经网络模型中进行语义识别包括：

对所述会话文本的意图、标签、槽位、情感信息或/和表达方式分别识别，其中，所述槽位为从所述对话文本中获取的关键特征信息；所述表达方式包括问询表达方式、回答表达方式、确认表达方式或建议表达方式；将得到的所述对话文本的意图、标签、槽位、情感信息或/和表达方式作为所述会话文本的语义信息。

应理解，在本公开中，会话文本、以及人员特征信息等均是在预先获得会话参与人员的授权的情况下获得的。

可以看出，在对所述会话文本进行语义识别时，是对所述会话文本的意图、标签、槽位、情感信息或/和表达方式的这五个维度进行识别后，将这五个维度的信息作为所述会话文本的语义信息，从而使得识别得到的语义信息更加准确。在这里，所述会话文本的标签标记了所述会话文本的场景。

为了实现对所述会话文本的识别，本申请实施例采用了语义识别的神经网络模型。所述语义识别的神经网络模型采用多个语义识别的具有注意力机制的神经网络训练得到，所述多个语义识别的具有注意力机制的神经网络分别对所述会话文本的意图、标签、槽位、情感信息或/和表达方式进行识别。

在本申请实施例中，当进行动作决策的确定时，不仅根据所述会话文本的语义信息，还根据了参与会话过程的人员的人员特征信息。所述参与会话过程的人员特征信息具体包括：

确定会话过程的至少一个参与人员，所述参与人员包括客户和商务平台的商务服务提供者；针对每一个所述参与人员，获取所述参与人员的会话状态追踪信息(dst)、人设特征信息、或/和历史动作决策信息；在会话过程中，获取从一所述参与人员到另一所述参与人员的会话状态转移图信息。

在这里，如果商务平台为房屋交易服务平台，所述参与会话过程的人员为客户和经纪人。所述参与人员的dst主要是客户的需求聚合信息，所述参与人员的历史动作决策信息主要是经纪人的动作决策聚合信息。

在本申请实施例中，确定动作决策的过程是由动作决策的神经网络模型进行分层次处理得到的，具体包括：

根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，确定会话过程涉及的当前场景是否已经结束；在确定会话过程涉及的当前场景未结束时，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，确定对应的第一动作决策；在确定对应的第一动作决策范围内，根据所述人员特征信息及所述会话文本的语义信息，确定对应的第二动作决策；将所述会话过程涉及的当前场景中的、包括在所述第一动作决策下的所述第二动作决策，作为动作决策结果。

在这里，确定会话过程涉及的当前场景是否已经结束实际上是确定会话过程中的当前问题是否已经被解决了，如果未被解决，则需要确定经纪人后续进行的第一动作决策，及在第一动作决策范围的第二动作决策了。

也就是说，所述动作决策的神经网络模型先对当前场景是否结束进行识别，然后在确定当前场景未结束时，再确定为当前场景提供的第一动作决策，即大动作决策，最后再在第一动作决策的范围内，确定当前场景中的第一动作决策范围内的第二动作决策，即大动作决策所包括的小动作决策，从而得到精准的动作决策结果。

上述过程实际上就是动作决策的神经网络模型在决策时，分层次处理。在分层次处理时，可以分别基于多个训练得到的注意力机制的神经网络，采用管道(pipeline)处理模式进行分层次处理。每层都是由训练得到的注意力机制的神经网络组成，每层都是依次执行处理。具体包括：所述动作决策的神经网络模型由多个训练得到的注意力机制的神经网络组成，其中，首先，基于第一注意力机制的神经网络执行，根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，进行处理，得到确定会话过程涉及的当前场景是否结束的特征；其次，当确定会话过程涉及的当前场景未结束时，基于第二注意力机制的神经网络，在会话涉及的当前场景下，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，进行处理，得到对应的第一动作决策；最后，在第一动作决策的范围内，基于第三注意力机制的神经网络，在会话涉及的当前场景下及第一动作决策中，根据所述人员特征信息及所述会话文本的语义信息，进行处理，得到对应的第二动作决策，将第二动作决策作为动作决策结果。

在这里，第一注意力机制的神经网络、第二注意力机制的神经网络及第三注意力机制的神经网络都是分类神经网络。

虽然动作决策的神经网络模型采用pipeline处理模式进行决策时，可以实现分层次的决策过程，但是，其决策的准确性由于各个注意力机制的神经网络的输出误差累加，而导致下降。因此，为了解决这个问题，采用了下述方案。

所述动作决策的神经网络模型由多个训练得到的注意力机制的神经网络，及类别合并网络组成，其中，首先，基于第一注意力机制的神经网络执行，根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，进行处理，得到确定会话过程涉及的当前场景是否已经结束的特征；其次，当确定会话过程涉及的当前场景未结束时，基于第二注意力机制的神经网络执行，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，进行处理，得到对应的第一动作决策；再次，在第一动作决策的范围内，基于第三注意力机制的神经网络，根据所述人员特征信息及所述会话文本的语义信息，进行处理，得到对应的第二动作决策；最后，将上述三个神经网络输出的特征进行合并，得到最终的动作决策结果，即基于所述类别合并网络将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行分类合并后，输出动作决策结果。

在这里，第一注意力机制的神经网络、第二注意力机制的神经网络及第三注意力机制的神经网络都是分类神经网络，这三个神经网络中分别采用损失函数(loss)对输入的特征在对应的神经网络内部诸如卷积或注意力机制等的神经计算后进行分类处理，得到损失函数值，将得到的损失函数值作为输出的特征。将这三个神经网络输出的特征进行合并，得出的就是动作决策结果。

具体地说，所述类别合并网络将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行分类合并包括：

分别基于所述确定会话过程涉及的当前场景未结束的特征对应的权重值、所述第一动作决策的特征对应的权重值，及所述第二动作决策的特征对应的权重值，将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行合并。

其中，由于这个三个注意力机制的神经网络的输出特征是相互依赖的且互相影响的，所以分别对应的权重值设置也比较重要，体现了最终得出的动作决策结果的影响度。这个三个注意力机制的神经网络分别设置的权重值根据经验设置，比如第一注意力机制的神经网络在输出的损失数值表示会话过程涉及的当前场景未结束时，其对应的权重值设置为占用权重指标的0.5，从而得出的动作决策结果为空，表示由于会话过程涉及的当场场景未结束，所以未得出动作决策结果。也就是说，这个三个注意力机制的神经网络输出的损失数值是通过所设置的对应权重来体现。

以下举一个具体例子对本申请实施例进行详细说明。

在该例子中，假设商务平台为房屋交易服务平台，基于会话确定的动作决策为房屋交易中的某个细节交易或房屋带看的具体带看决策。

图2为本申请实施例提供的基于会话确定动作决策的方法例子的整体流程图，其具体步骤包括：

步骤201、在会话过程中，是否获取到会话参与的客户的会话文本，如果是，则执行步骤202；如果否，则结束本流程；

在本步骤中，获取到会话参与的客户的会话文本实际上就是接收到客户发送的信息；

步骤202、获取参与会话过程的人员特征信息，包括了客户特征信息及经纪人特征信息；

步骤203、将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果；

步骤204、将所得到的动作决策结果输出，以执行对应的动作决策。

在图2中，本申请实施例实现动作决策的确定方案，主要采用了步骤203处理，如图3所示，图3为本申请实施例提供的动作决策的神经网络模型处理所述人员特征信息及所述会话文本的语义信息的过程示意图。

上述过程的步骤如下：

第一个步骤，语义识别的神经网络模型对所述对话文本进行语义理解；

在本步骤中，是基于所述对话文本的句子维度进行语义理解，并且其不仅仅是对本身内容的理解，包括了对所述会话文本的意图、标签、槽位、情感信息或/和表达方式分别识别。

在这里，在对所述对话文本进行语义理解时，增加了对标签的语义理解，实际上就是所述对话文本的当前场景的识别。

第二个步骤，获取得到参与会话的经纪人及客户的人员特征信息；

在本步骤中，参与会话的人员包括了经纪人及客户，在IM中的会话过程中，将参与人员的人员特征信息来刻画参与的不同人员。包括：dst、人设特征信息、或/和历史动作决策信息，以及从一所述参与人员到另一所述参与人员的会话状态转移图信息。

具体地说，dst主要是客户的需求聚合信息，历史动作决策信息主要是经纪人的动作决策聚合信息等等。

在这里，在获取参与会话的人员特征信息时，加入了人设特征信息及状态转移图信息，更加可以准确的提供人员特征信息。

第三个步骤，将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果，该过程是分层次进行的：首先决定会话涉及的当前场景是否已经结束，在会话涉及的当前场景未结束时，然后确定大动作决策(第一动作决策)，在确定大动作决策的范围内，最后确定小动作决策(第二动作决策)，得到最具体的动作决策。

在本步骤中，所述分层次得到动作决策结果的具体过程包括：根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，确定会话过程涉及的当前场景是否结束；在会话涉及的当前场景未结束时，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，确定对应的第一动作决策；在第一动作决策的范围内，根据所述人员特征信息及所述会话文本的语义信息，确定对应的第二动作决策；将所述会话过程涉及的当前场景下的、包括在所述第一动作决策下的所述第二动作决策，作为动作决策结果。

当动作决策的神经网络模型进行分层次的动作决策过程中，可以理解为采用pipeline处理模式进行处理。图4为本申请实施例提供的动作决策的神经网络模型进行分层次的动作决策处理的具体例子一架构示意图。如图4所示，在图4中的左边方框为第一注意力机制的神经网络，该网络采用了注意力机制(attention)实现，其输入为所述参与人员的会话状态追踪信息和人设特征信息、会话文本的语义信息及会话文本，经过了该网络的卷积及注意力机计算后，输出得到会话过程涉及的当前场景是否结束的特征。在图4中的中间方框为第二注意力机制的神经网络，该网络采用了attention实现，当确定当前场景未结束，要进行决策时，则该网络的输入特征包括：参与人员的历史动作决策信息、会话状态转移图信息、会话文本的语义信息及会话文本，将参与人员的历史动作决策信息、会话文本的语义信息及会话文本进行卷积及注意力机制的计算后，得出的结果结合会话状态转移图信息进行分类计算，得到第一动作决策结果；在图4中的右边表示了采用第三注意力机制的神经网络进行分类，也就是在得到第一动作决策结果后，输入包括了人员特征信息及会话文本的语义信息的子类别集，进行子类别的判断，得出第二动作决策，也就是最终的决策结果。在这里，第三注意力机制的神经网络主要用于子分类，得到第二动作决策。

从图4可以看出，该动作决策的神经网络模型由多个训练得到的注意力机制的神经网络组成，其中，首先，基于第一注意力机制的神经网络执行，根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，进行处理，得到确定会话过程涉及的当前场景是否结束的特征；其次，当确定会话过程涉及的当前场景未结束时，基于第二注意力机制的神经网络，在会话过程涉及的当前场景下，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，进行处理，得到对应的第一动作决策；最后，在第一动作决策的范围内，基于第三注意力机制的神经网络，在会话过程涉及的当前场景下及第一动作决策中，根据所述人员特征信息及所述会话文本的语义信息，进行子分类处理，得到对应的第二动作决策，作为最终的动作决策结果。这样，将三个注意力机制的神经网络输出结果以分层次的形式，采用pipeline处理模式的处理后，输出得到最终的动作决策结果。

采用pipeline处理模式的这种技术思想对多个注意力机制的神经网络进行处理，会导致处理的输出误差不断累加。因此，为了解决这个问题，采用了多任务学习的处理模式，如图5所示，图5为本申请实施例提供的动作决策的神经网络模型进行分层次的动作决策处理的具体例子二架构示意图。如图5所示，图5的底层方框中表示输入的信息，包括了所述参与人员的会话状态追踪信息和人设特征信息、会话文本的语义信息、所述参与人员的历史动作决策信息、所述会话状态转移图信息以及所述人员特征信息等等。在后续使用时，分别从输入的信息提取所需信息即可。在图5的三列方框中，分别表示基于第一注意力机制的神经网络、第二注意力机制的神经网络及第三注意力机制的神经网络计算得到输出结果。具体地说，针对图5的最左侧一列的三个方框，从底层到上层，底二层方框表示从输入的信息中提取出所述参与人员的会话状态追踪信息和人设特征信息，底三层方框表示根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，进行卷积及注意力机制的计算，得到底四层方框中表示的会话过程涉及的当前场景是否结束的特征。当确定当前场景未结束时，针对图5中的中间一列的三个方框，从底层到上层，底二层方框表示从输入的信息中提取所述参与人员的历史动作决策信息及所述会话状态转移图信息，底三层方框表示根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，进行卷积及注意力机制的计算，底四层方框表示计算得出了第一决策动作。在第一决策动作的范围内，针对图5中的右边一列的三个方框，从底层到上层，底二层方框表示从输入的信息中的会话文本的语义信息，底三层方框表示根据所述人员特征信息及所述会话文本的语义信息，进行分类计算，得到第二决策动作。最后，将三个网络得到的结果进行合并，如图5所示，为三个网络得到的结果分别设置权重值w1、w2及w3，将三个网络输出结果与权重值相乘后，基于损失函数(loss)进行损失函数值的分类计算，得到最终的决策结果。

从图5可以看出，所述动作决策的神经网络模型由多个训练得到的注意力机制的神经网络，及类别合并网络组成。其中，基于第一注意力机制的神经网络执行，根据所述参与人员的会话状态追踪信息和人设特征信息，以及根据所述会话文本的语义信息，进行处理，得到确定会话过程涉及的当前场景是否已经结束的特征；其次，当确定会话过程涉及的当前场景未结束时，基于第二注意力机制的神经网络执行，根据所述参与人员的历史动作决策信息及所述会话状态转移图信息，以及根据所述会话文本的语义信息，进行处理，得到对应的第一动作决策；再次，在第一动作决策的范围内，基于第三注意力机制的神经网络，根据所述人员特征信息及所述会话文本的语义信息，进行处理，得到对应的第二动作决策；最后，最后，将上述三个神经网络输出的特征进行合并，得到最终的动作决策结果，即基于所述类别合并网络将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行分类合并后，输出动作决策结果。在这里，所示类别合并网络的处理过程具体包括：分别基于所述确定会话过程涉及的当前场景未结束的特征对应的权重值、所述第一动作决策的特征对应的权重值，及所述第二动作决策的特征对应的权重值，将所述确定会话过程涉及的当前场景未结束的特征、所述第一动作决策的特征及所述第二动作决策的特征进行合并。

也就是说，最终得到的结果是三个注意力机制的神经网络输出特征的合并损失数值。在这里，将这三个注意力机制输出的特征与最终得到动作决策结果的相关性，采用三个注意力机制的神经网络权重来进行体现。比如，比如第一注意力机制的神经网络在输出的特征表示会话过程涉及的当前场景未结束时，其对应的权重值设置为占用权重指标的0.5，从而最终得出的动作决策结果为空，表示由于会话过程涉及的当场场景未结束，所以未得出动作决策结果。

在本申请的另一个实施例中，还提供一种基于会话确定动作决策的装置，如图6所示，图6为本申请实施例提供的一种基于会话确定动作决策的装置结构示意图，包括：会话文本的语义识别单元、获取单元、动作决策单元及执行单元，其中，

会话文本的语义识别单元，用于在会话过程中获取会话文本，将所述会话文本的特征信息输入到语义识别的神经网络模型中进行语义识别，得到所述会话文本的语义信息；

获取单元，用于获取参与会话过程的人员特征信息；动作决策单元，用于将所述人员特征信息及所述会话文本的语义信息输入到动作决策的神经网络模型中进行处理，得到动作决策结果；

执行单元，用于基于所得到的动作决策结果，执行动作决策。

在本申请的另一个实施例中，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时引发所述处理器执行前述实施例中的一种基于会话确定动作决策的方法。

图7为本申请的另一个实施例所提供的一种电子设备的示意图。如图7所示，本申请另一实施例还提供一种电子设备，其可以包括处理器701，其中，处理器701用于执行上述一种识别会话中的对话句子的方法的步骤。从图5中还可以看出，上述实施例提供的电子设备还包括非瞬时计算机可读存储介质702，该非瞬时计算机可读存储介质702上存储有计算机程序，该计算机程序被处理器701运行时执行上述一种基于会话确定动作决策的方法的步骤。

具体地，该非瞬时计算机可读存储介质702能够为通用的存储介质，如移动磁盘、硬盘、FLASH、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、或便携式紧凑磁盘只读存储器(CD-ROM)等，该非瞬时计算机可读存储介质702上的计算机程序被处理器501运行时，能够引发处理器701执行上述的一种基于会话确定动作决策的方法的各个步骤。

实际应用中，所述的非瞬时计算机可读存储介质702可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，能够执行上述的一种基于会话确定动作决策的方法中的各个步骤。

本申请的再一实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现上述的一种基于会话确定动作决策的方法中的各个步骤。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本申请的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张玲玲;谢芳;黄萍萍;
专利申请人：贝壳找房(北京)科技有限公司;

上一篇：基于AHP-Fuzzy算法和神经网络的教学质量评价方法与系统
下一篇：一种清洗液的制备方法