要素比对方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 13:45:04

技术领域

本发明涉及自然语言理解技术领域，尤其涉及一种要素比对方法、装置、电子设备和存储介质。

背景技术

客服营销场景下，坐席通常与客户进行电话交流，在此过程中，坐席需要和客户确认购买产品相关的交易信息，并且将交易信息录入系统。如果坐席录入的交易信息与客户最终确认的不一致，会导致交易信息错误，造成不良后果。因此在此过程中，如果发生错误，需要适时提醒坐席。

目前用于发现坐席错误的方式即要素对比，具体可以通过预先设定的关键词匹配规则，从坐席和客户各自的语音转写文本中匹配出关键词作为要素，并将规则匹配所得的要素与坐席录入的交易信息中的要素进行比对，实现一致性检查。

但是由于语言表述方式具备多样性，关键词不可枚举，关键词匹配规则泛化性差，实际应用中经常漏检、错检。并且，关键词匹配规则无法基于上下文场景进行建模，针对实际应用中多轮交互的复杂情况，难以获取理想的要素提取结果。

发明内容

本发明提供一种要素比对方法、装置、电子设备和存储介质，用以解决现有技术中要素比对引用关键词匹配规则进行要素提取，泛化性差，且无法适应多轮交互的复杂情况的问题。

本发明提供一种要素比对方法，包括：

确定音频交互产生的各方的音频；

对所述各方的音频进行语音转写，得到交互转写文本；

基于所述交互转写文本的语义，对所述交互转写文本进行要素抽取，得到所述音频交互的交互要素；

基于所述交互要素进行要素比对。

根据本发明提供的一种要素比对方法，所述基于所述交互转写文本的语义，对所述交互转写文本进行要素抽取，得到所述音频交互的交互要素，包括：

对所述交互转写文本进行滑窗处理，得到包括至少一个滑窗文本的文本序列；

基于各滑窗文本的语义，分别对各滑窗文本进行要素抽取，得到各滑窗文本的文本要素；

对所述各滑窗文本的文本要素进行整合，得到所述音频交互的交互要素。

根据本发明提供的一种要素比对方法，所述对所述各滑窗文本的文本要素进行整合，得到所述音频交互的交互要素，包括：

基于所述文本序列中当前的滑窗文本的文本要素，更新上一交互要素，得到当前交互要素，并将所述文本序列中当前的滑窗文本的下一滑窗文本作为所述当前的滑窗文本，直至所述当前的滑窗文本为所述文本序列中最末的滑窗文本；

将最终的当前交互要素作为所述音频交互的交互要素。

根据本发明提供的一种要素比对方法，所述基于所述文本序列中当前的滑窗文本的文本要素，更新上一交互要素，得到当前交互要素，包括：

确定所述当前的滑窗文本的文本要素中的第一要素值和/或第二要素值，所述上一交互要素中包含所述第一要素值对应要素名称的要素值，所述上一交互要素中缺少所述第二要素值对应要素名称的要素值；

基于所述第一要素值，替换所述上一交互要素中与所述第一要素值的要素名称一致的要素值，和/或，将所述第二要素值补入所述上一交互要素，得到所述当前交互要素。

根据本发明提供的一种要素比对方法，所述基于各滑窗文本的语义，分别对各滑窗文本进行要素抽取，得到各滑窗文本的文本要素，包括：

基于上一时段的文本序列和当前时段的文本序列，确定所述当前时段的文本序列增量；

基于所述文本序列增量中各滑窗文本的语义，分别对所述文本序列增量中各滑窗文本进行要素抽取，得到所述文本序列增量中各滑窗文本的文本要素。

根据本发明提供的一种要素比对方法，所述对所述各方的音频进行语音转写，得到交互转写文本，包括：

对所述各方在当前时段的实时音频进行语音转写，得到当前时段的转写文本；

将所述当前时段的转写文本，拼接在上一时段的交互转写文本之后，得到所述当前时段的交互转写文本。

根据本发明提供的一种要素比对方法，所述对所述各方当前时段的实时音频进行语音转写，得到当前时段的转写文本，包括：

分别对所述各方当前时段的实时音频进行语音转写，得到所述各方的角色转写文本；

基于所述各方的角色转写文本在对应实时音频中的时间区间，按照时序对所述各方的角色转写文本进行拼接，得到所述当前时段的转写文本。

根据本发明提供的一种要素比对方法，所述基于所述交互要素进行要素比对，之后还包括：

将要素比对产生的异常结果发送至所述各方中的至少一方，以提示所述至少一方进行要素确认。

本发明还提供一种要素比对装置，包括：

音频确定单元，用于确定音频交互产生的各方的音频；

语音转写单元，用于对所述各方的音频进行语音转写，得到交互转写文本；

要素抽取单元，用于基于所述交互转写文本的语义，对所述交互转写文本进行要素抽取，得到所述音频交互的交互要素；

要素比对单元，用于基于所述交互要素进行要素比对。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述要素比对方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述要素比对方法的步骤。

本发明提供的要素比对方法、装置、电子设备和存储介质，对各方的音频语音转写得到交互转写文本，并基于交互转写文本的语义进行要素抽取，具有良好的泛化能力，能够满足各种场景下的要素抽取需求，且充分应用了音频交互的上下文，能够保证复杂场景下要素抽取的可靠性和准确性。由此进行要素比对，有助于及时发现音频交互中存在的错误，并进行快速阻断提醒，从而提升音频交互质量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中的要素比对方法的流程示意图；

图2是本发明提供的要素比对方法的流程示意图之一；

图3是本发明提供的要素比对方法中步骤230的流程示意图；

图4是本发明提供的要素比对方法中步骤232的流程示意图；

图5是本发明提供的要素比对方法中步骤220的流程示意图；

图6是本发明提供的要素比对方法中步骤221的流程示意图；

图7是本发明提供的要素比对方法的流程示意图之二；

图8是本发明提供的要素抽取模型的结构示意图；

图9是本发明提供的要素抽取方法的流程示意图；

图10是本发明提供的要素比对装置的结构示意图；

图11是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

客服营销场景下，坐席通常与客户进行电话交流，在此过程中，坐席需要和客户确认购买产品相关的交易信息，例如购买金额、年限和利率等，并且将交易信息录入系统。如果坐席录入的交易信息与客户最终确认的不一致，会导致交易信息错误，造成不良后果。因此如何在坐席犯错的时候及时发现问题并进行快速阻断提醒，对于提升坐席营销质量，减少客户投诉尤为重要。

例如，图1是现有技术中的要素比对方法的流程示意图，如图1所示，在坐席和客户的音频交互过程中，可以分别对坐席语音和客户语音进行在线语音转写，得到坐席和客户各自的语音转写文本，即坐席文本和客户文本。

此后，可以基于预先设定好的关键词匹配规则，分别对坐席文本和客户文本进行关键词匹配，并将匹配所得的关键词作为从文本中抽取所得的要素。

在从文本中抽取得到要素之后，可以将文本抽取所得的要素，与要素数据库或者三方系统中坐席录入的要素进行比对，完成要素比对后，会实时将结果反馈给坐席，尤其针对比对错误的要素，会反馈坐席进行确认。

但是由于语言表述方式具备多样性，关键词不可枚举，关键词匹配规则泛化性差，实际应用中经常漏检、错检。并且，针对实际应用中多轮交互的复杂情况，例如坐席询问“请问你是要购买金额5万的产品吗”，若客户回答“是”，则“5万”是需要抽取的“购买金额”要素，若客户回答“不是”，则“5万”不是需要抽取的“购买金额”要素，由于关键词匹配规则无法基于上下文场景进行建模，难以获取理想的要素提取结果。

针对上述问题，本发明实施例提供一种要素比对方法，可应用于音频客服、视频客服等需要各方通过音频或者视频进行交互并且记录交互过程中涉及的要素的场景。图2是本发明提供的要素比对方法的流程示意图之一，如图2所示，该方法包括：

步骤210，确定音频交互产生的各方的音频。

具体地，音频交互可以是双方或者三方甚至更多方的交互，例如可以是双方交互的音频或者视频客服场景，此处音频交互的双方可以是坐席和客户，也可以是多方参与的音频或者视频会议场景等，本发明实施例不对此作具体限定。

音频交互过程中，参与音频交互的过程中各方均会产生音频，例如音频客服场景下，坐席端的拾音设备会实时采集坐席的交互语音，客户端的拾音设备会实时采集客户的交互语音。

步骤220，对各方的音频进行语音转写，得到交互转写文本。

具体地，在得到音频交互的各方产生的音频之后，需要对各方产生的音频进行实时语音转写，从而得到包含音频交互整体信息的交互转写文本。此处的交互转写文本，包括音频交互中各方交互的转写文本，例如在音频客服场景下，交互转写文本包含了交互过程中坐席和客户沟通的所有语音的转写文本。

此处，在进行语音转写时，可以是分别对各方的音频进行语音转写，从而得到各方的转写文本，再结合各方的转写文本所对应的时间轴，对各方的转写文本进行拼接，从而得到反映音频交互中各方信息的交互转写文本。进一步地，分别对各方的音频进行语音转写时，可以针对各方的角色特色，应用符合该角色的语音转写模型进行语音转写，从而得到更符合各方角色的表达方式的转写文本，在此基础上进行拼接，能够保证交互转写文本的可靠性和准确性。

另外，在进行语音转写时，还可以是先基于语音端点检测技术对对方的音频进行语音检测，在基于检测得到的活动语音的时间轴，对各方的音频中的活动语音进行整合，在对整合后的活动语音进行语音转写，从而得到交互转写文本。进一步地，在针对整合后的活动语音进行语音转写时，语音转写模型可以获取到音频交互的整体情况，了解语音的上下文，从而更好地进行语音转写，提高交互转写文本的可靠性和准确性。

步骤230，基于交互转写文本的语义，对交互转写文本进行要素抽取，得到音频交互的交互要素。

具体地，考虑到常规进行要素抽取的方式，即基于关键词匹配规则的要素抽取方式，容易漏检、错检，且无法基于上下文场景建模，本发明实施例中在进行要素抽取时，是基于交互转写文本的语义，对交互转写文本进行要素抽取，从而得到更加可靠、准确的交互要素。

此处，应用交互转写文本进行要素抽取，相较于现有技术中在基于关键词匹配规则进行要素抽取时，仅针对单个分句甚至单一分词而言，交互转写文本能够反映当前进行中的音频交互全局的信息，避免在复杂场景下，由于错失上下文的信息，影响要素抽取的准确性和可靠性的问题。

而基于交互转写文本的语义进行要素抽取，相较于现有技术中在基于关键词匹配规则进行要素抽取，无需预先例举关键词以构建关键词匹配规则，因此不存在泛化性差的问题，能够更好地应用到各种各样的场景中。且此处交互转写文本能够反映音频交互的完整信息，对交互转写文本进行语义提取所得的交互转写文本的语义，同样涵盖了音频交互中的上下文，因此能够从复杂场景中抽取得到更加准确可靠的交互要素。

进一步地，基于交互转写文本的语义进行要素抽取，可以通过预先训练好的要素抽取模型实现，此处的要素抽取模型本身可以具备语义提取的能力，先对输入的交互转写文本进行语义提取，再基于提取所得的语义进行要素抽取，要素抽取模型本身也可以不具备语义提取的能力，需要先通过具备语义提取能力的语言模型对交互转写文本进行语义提取，再将提取所得的语义输入到要素抽取模型中，使得要素抽取模型可以基于语义进行要素抽取，本发明实施例对此不作具体限定。例如，基于语义的要素抽取，可以通过实体识别模型实现，具体可以将预先设定好的各种交互要素作为实体，将交互转写文本作为需要进行实体识别的模型，通过实体识别模型对交互转写文本中包含的交互要素实体进行识别，从而得到交互要素。

步骤240，基于交互要素进行要素比对。

具体地，在得到音频交互过程中的交互要素时，可以将交互要素与预先设置的要素数据库中标准要素进行比对，或者将交互要素与音频交互中某一方或者多方录入系统中的要素进行比对。例如将交互要素与预先设置的要素数据库中标准要素进行比对，如果比对发现交互要素与标准要素不一致，则可能是音频交互中某一方或者多方讲述了错误的要素，可以将对比结果返回到音频交互中某一方或者多方，以供各方进行确认和纠错。又例如，将交互要素与音频交互中某一方或者多方录入系统中的要素进行比对，如果比对发现交互要素与录入的要素不一致，则可能是发生了录入错误，可以将对比结果返回到要素的录入方，以便于录入方进行确认和纠错。

本发明实施例提供的方法，对各方的音频语音转写得到交互转写文本，并基于交互转写文本的语义进行要素抽取，具有良好的泛化能力，能够满足各种场景下的要素抽取需求，且充分应用了音频交互的上下文，能够保证复杂场景下要素抽取的可靠性和准确性。由此进行要素比对，有助于及时发现音频交互中存在的错误，并进行快速阻断提醒，从而提升音频交互质量。

基于上述实施例，步骤210中确定音频交互产生的各方的音频可以是实时音频，即实时录制所得的音频。此处的实时音频涵盖了从音频交互开始至当前时刻的音频，且随着时间的推移，实时音频不断更新。

相应地，步骤220中，对各方的音频进行语音转写，得到交互转写文本，此处由于音频为实时音频，对各方的实时音频进行语音转写所得的交互转写文本，其中包含了音频交互过程中所有语音的转写文本，同样会随着时间的推移不断更新变长。

步骤230和240中，同样可以对实时更新的交互转写文本进行要素抽取，进而实现实时要素比对，及时发现音频交互中可能存在的问题，进行快速阻断提醒，从而提升音频交互质量。

考虑到基于交互转写文本的语义进行要素抽取时，通常会受到单次要素抽取的文本长度的限制，为了能够保证要素抽取的效果，基于上述实施例，图3是本发明提供的要素比对方法中步骤230的流程示意图，如图3所示，步骤230包括：

步骤231，对交互转写文本进行滑窗处理，得到包括至少一个滑窗文本的文本序列。

此处的交互转写文本，可以理解为当前时刻确定的交互转写文本，其中包含了从音频交互开始至当前时刻的所有语音的转写文本，随着时间推移，当前时刻不断向后变化，交互转写文本也会不断更新变长，因此在音频交互持续一段时间之后，交互转写文本自身的长度很有可能超过单次要素抽取的文本长度限制。

具体地，考虑到单次要素抽取的文本长度限制，需要在执行要素抽取之前，对交互转写文本进行滑窗处理，通过滑窗处理，将交互转写文本划分成为若干个长度在文本长度限制值以内的滑窗文本，各滑窗文本在文本序列中存在排序，滑窗文本的排序即滑窗处理过程中滑窗经过的先后顺序。

滑窗处理通常涉及到两个参数，一个是滑窗长度，另一个是滑窗步长，本发明实施例中为了保证经过滑窗处理后的滑窗文本的长度满足单次要素抽取的文本长度限制，滑窗长度需小于等于单次要素抽取的文本长度限制，例如单次要素抽取的文本长度最高不可超过512，则滑窗长度可以设置为500，也可以设置为512或者450等。另外，为了避免滑窗所得的滑窗文本之间完全孤立，影响要素抽取效果，滑窗步长应小于滑窗长度，从而保证两个相邻的滑窗文本之间存在相互重叠的文本，使得对滑窗文本批量进行要素抽取时，依然能够通过滑窗文本之间重叠的部分，参考到上下文的信息，从而提高要素抽取的可靠性和准确性。例如，滑窗长度设置为500时，滑窗步长可以设置为50或者100等，假设交互转写文本全长600，滑窗长度为500，滑窗步长为50，则可以通过滑窗处理得到包含3个滑窗文本的文本序列，文本序列中的第一个滑窗文本为交互转写文本中第0-499个字，第二个滑窗文本为交互转写文本中第50-549个字，第三个滑窗文本为交互转写文本中第100-599个字。

步骤232，基于各滑窗文本的语义，分别对各滑窗文本进行要素抽取，得到各滑窗文本的文本要素。

具体地，在完成滑窗处理之后，即可对各滑窗文本批量进行要素抽取，此处所指的批量要素抽取，可以理解为分别为单个滑窗文本独立进行要素抽取，各滑窗文本的要素抽取可以是同步执行的，也可以是分批顺序执行的，本发明实施例对此不作具体限定。

针对于单个滑窗文本进行要素抽取，可以通过预先训练好的要素抽取模型实现，此处的要素抽取模型本身可以具备语义提取的能力，先对输入的滑窗文本进行语义提取，再基于提取所得的语义进行要素抽取，要素抽取模型本身也可以不具备语义提取的能力，需要先通过具备语义提取能力的语言模型对滑窗文本进行语义提取，再将提取所得的语义输入到要素抽取模型中，使得要素抽取模型可以基于语义进行要素抽取，本发明实施例对此不作具体限定。需要说明的是，各滑窗文本进行要素抽取所用的要素模型可以是同一要素抽取模型。

步骤233，对各滑窗文本的文本要素进行整合，得到音频交互的交互要素。

具体地，在得到各滑窗文本的文本要素后，可以对各滑窗文本中包含的文本要素进行整合，例如可以将各滑窗文本中包含的文本要素均放置在一个集合中，然后对该集合中重复的文本要素进行去冗，或者也可以按照各滑窗文本在文本序列中的排序，从前往后依次对各滑窗文本的文本要素进行整合，如果当前滑窗文本的文本要素并未出现在此前的滑窗文本的文本要素中，则将该文本要素作为交互要素，如果当前滑窗文本的文本要素曾出现在此前的滑窗文本的文本要素中且与此前的文本要素一致，则可以直接忽略，如果当前滑窗文本的文本要素曾出现在此前的滑窗文本的文本要素中且与此前的文本要素的要素值不同，则可以用新的文本要素替换掉已有的交互要素中的同类要素，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过对交互转写文本进行滑窗处理，并对滑窗所得的各滑窗文本进行要素抽取，避免要素抽取时文本过长被直接截断影响要素抽取效果，滑窗文本之间的重叠部分保证了要素抽取时能够参考到上下文的信息，从而提高了要素抽取的可靠性和准确性。

基于上述任一实施例，步骤233包括：

基于文本序列中当前的滑窗文本的文本要素，更新上一交互要素，得到当前交互要素，并将文本序列中当前的滑窗文本的下一滑窗文本作为当前的滑窗文本，直至当前的滑窗文本为文本序列中最末的滑窗文本；

将最终的当前交互要素作为音频交互的交互要素。

具体地，考虑到滑窗处理所得的文本序列中，相邻滑窗文本之间存在重叠的部分，因此对应到各滑窗文本的文本要素中，同样可能存在对同一段文本进行要素抽取的重复部分，而重复进行要素抽取的部分体现在不同滑窗文本中得到的文本要素可能是不同的。

考虑到不同滑窗文本中针对相同部分抽取所得的文本要素可能存在不同，本发明实施例中基于各滑窗文本在文本序列中的排序，对各滑窗文本的文本要素进行整合，具体是应用排序靠后的滑窗文本的文本要素，更新基于排序靠前的滑窗文本的文本要素确定的交互要素。此处，之所以默认排序越靠后的滑窗文本，其文本要素的可信度越高，是因为在音频交互的过程中，越往后，音频交互的各方获取到的信息越全面，表意越清晰，意图越明确，对应到滑窗文本中反映的语义越准确，例如交互转写文本为“坐席：我们有金额1万的产品，请问您需要吗？客户：还有其他的吗？坐席：还有金额5万的产品，您看选哪种呢？客户：那我要1万的吧。”中，前后出现的购买金额要素有“1万”、“5万”、“1万”，最后一个滑窗文本所得的文本要素“1万”为客户最终确定的购买金额要素。由此可见，针对于相同类型的文本要素，越往后的滑窗文本抽取得到的文本要素可靠性越高。

基于此，本发明实施例针对文本序列中存在多个滑窗文本的情况，按照各滑窗文本在文本序列中的排序，从前到后逐个基于滑窗文本的文本要素，对已有的交互要素进行更新，从而得到新的交互要素。当基于文本序列中的最后一个滑窗文本的文本要素完成交互要素的更新之后，即可将最终更新完成的交互要素作为音频交互所得的交互要素。

基于上述任一实施例，步骤233中，所述基于文本序列中当前的滑窗文本的文本要素，更新上一交互要素，得到当前交互要素，包括：

确定当前的滑窗文本的文本要素中的第一要素值和/或第二要素值，上一交互要素中包含第一要素值对应要素名称的要素值，上一交互要素中缺少第二要素值对应要素名称的要素值；

基于第一要素值，替换上一交互要素中与第一要素值的要素名称一致的要素值，和/或，将第二要素值补入上一交互要素，得到当前交互要素。

具体地，无论文本要素，或是交互要素，均可体现为“要素名称-要素值”的形式，此处要素值是从文本中抽取得到的实际取值，例如“1万”、“5万”均为要素值，要素名称则是要素值实际表征的要素的名称，例如要素值“1万”、“5万”对应的要素名称均为“购买金额”。

在针对当前的滑窗文本的文本要素更新上一交互要素时，首先需要确定当前的滑窗文本的文本要素中，哪些要素值的要素名称是上一交互要素中已经包含的，哪些要素值的要素名称是上一交互要素中没有包含的。针对上一交互要素和当前的滑窗文本的文本要素中均包含的要素名称，可以将其在当前的滑窗文本的文本要素中的要素值记为第一要素值，针对上一交互要素中并未包含但是在当前的滑窗文本的文本要素中有包含的要素名称，可以将其在当前的滑窗文本的文本要素中的要素值记为第二要素值。考虑到实际情况，当前的滑窗文本的文本要素中可能仅包含第一要素值，也可能仅包含第二要素值，还可以同时包含第一要素值和第二要素值。

针对当前的滑窗文本的文本要素中包含第一要素值的情况，可以直接将上一交互要素中与第一要素值的要素名称一致的要素值，替换为第一要素值，例如上一交互要素中“购买金额”要素对应的要素值为“3万”，第一要素值为“5W”，可以用“5W”替换“3W”，替换后得到的当前交互要素中，“购买金额”要素对应的要素值为“5万”。

针对当前的滑窗文本的文本要素中包含第二要素值的情况，可以直接将第二要素值补入上一交互要素中，例如上一交互要素中不存在“产品年限”要素，可以直接将“产品年限”的第二要素值“2年”补入上一交互要素。

针对当前的滑窗文本的文本要素中同时包含第一要素值和第二要素值的情况，可以应用第一要素值替换上一交互要素中与第一要素值的要素名称一致的要素值，并且将第二要素值补入上一交互要素，由此得到当前交互要素。

此后，判断文本序列中当前的滑窗文本之后是否还存在下一滑窗文本，如果存在，则将下一滑窗文本作为当前的滑窗文本，将当前交互要素作为上一交互要素，重新执行上述步骤，直至当前的滑窗文本为最末的滑窗文本。

基于上述任一实施例，图4是本发明提供的要素比对方法中步骤232的流程示意图，如图4所示，步骤232包括：

步骤2321，基于上一时段的文本序列和当前时段的文本序列，确定当前时段的文本序列增量；

步骤2322，基于文本序列增量中各滑窗文本的语义，分别对文本序列增量中各滑窗文本进行要素抽取，得到文本序列增量中各滑窗文本的文本要素。

具体地，在音频交互过程中，各方的音频均在不断更新，交互转写文本的长度也在随着音频交互的推进不断增加，例如在音频客服场景下，交互转写文本包含了交互过程中坐席和客户沟通的所有语音的转写文本，第一时段坐席在讲话，此时的交互转写文本为A1，第二时段客户在讲话，此处的交互转写文本为A1,B1，第三时段坐席在讲话，此时的交互转写文本为A1,B1,A2，第四时段客户在讲话，此时的交互转写文本为A1,B1,A2,B2。

具体在交互过程中，每个时段均需要对该时段的交互转写文本进行要素抽取，此处的时段长度可以是预先设置好的固定长度，也可以是对音频进行语音端点检测得到的语音长度，本发明实施例对此不作具体限定。

考虑到当前时段的交互转写文本实际上是在上一时段的交互转写文本的基础上增加了各方最新的语音转写文本，上一时段的交互转写文本和当前时段的交互转写文本在篇幅上可能存在较大的重叠，虽然可以直接对当前时段的交互转写文本进行要素抽取，但是如此一来会增加很多重复性的工作。

基于此，本发明实施例中在完成当前时段的交互转写文本的滑窗处理，得到当前时段的文本序列之后，可以将当前时段的文本序列和上一时段的文本序列进行比对，从而确定出当前时段的文本序列中较上一时段的文本序列新增的若干个滑窗文本，即当前时段的文本序列增量。

在针对当前时段的交互转写文本进行要素抽取时，可以仅针对当前时段的文本序列增量中包含的各滑窗文本进行要素抽取，从而得到文本序列增量中各滑窗文本的文本要素。在此基础上，当前时段的文本序列中各滑窗文本的文本要素，可以表示为上一时段的文本序列中各滑窗文本的文本要素以及当前时段的文本序列增量中各滑窗文本的文本要素两个部分，据此执行步骤233，对各滑窗文本的文本要素进行整合，即可得到当前时段音频交互的交互要素。

本发明实施例提供的方法，在各时段的文本要素抽取中，仅对文本序列增量进行要素抽取，在保证要素抽取质量的同时，降低了实时要素抽取所需的计算量，避免了重复性的工作。

基于上述任一实施例，图5是本发明提供的要素比对方法中步骤220的流程示意图，如图5所示，步骤220包括：

步骤221，对各方在当前时段的实时音频进行语音转写，得到当前时段的转写文本。

步骤222，将当前时段的转写文本，拼接在上一时段的交互转写文本之后，得到当前时段的交互转写文本。

具体地，考虑到在音频交互过程中，各方的实时音频均在不断更新，而反映在实时语音转写的过程中，交互转写文本的长度也在随着音频交互的推进不断增加。

为了保证后续进行要素抽取所得交互要素的完整性和全面性，每个时段转写所得的交互转写文本均需要包含音频交互从始至当前时段结束的所有交互的信息，因此在分时段的实时音频的语音转写过程中，可以将针对当前时段的实时音频进行语音转写所得的当前时段的转写文本，拼接在上一时段的交互转写文本，从而得到当前时段的交互转写文本。

例如第一时段坐席在讲话，此时的转写文本为A1，交互转写文本为A1，第二时段客户在讲话，此处的转写文本为B1，将B1拼接在第一时段的交互转写文本A1后，得到第二时段的交互转写文本为A1,B1。

基于上述任一实施例，步骤221包括：

分别对各方当前时段的实时音频进行语音转写，得到各方的角色转写文本；

基于各方的角色转写文本在对应实时音频中的时间区间，按照时序对各方的角色转写文本进行拼接，得到当前时段的转写文本。

具体地，在对实时音频进行语音转写时，可以分别对各方当前时段的实时音频进行语音转写，从而得到各方的角色转写文本，此处的角色转写文本反映对应发言方的转写文本。在此之后，可以结合各方的角色转写文本在对应实时音频中的时间轴上占据的时间区间，依据时间区间在时序上的排序，对各方的角色转写文本进行拼接，从而得到反映当前时段音频交互中各方信息的转写文本。

例如，图6是本发明提供的要素比对方法中步骤221的流程示意图，如图6所示，当前时段的坐席音频在进行语音端点检测之后，通过语音转写得到a1至an共n段角色转写文本，客户音频在进行语音端点检测之后，通过语音转写得到b1至bm共m段角色转写文本，在此基础上，结合a1至an在时间轴上具体对应的时间区间，以及b1至bm在时间轴上具体对应的时间区间，即可对a1至an以及b1至bm进行拼接，从而得到当前时段的转写文本，例如a1,b1,a2,b2…。

基于上述任一实施例，步骤240之后，还包括：

将要素比对产生的异常结果发送至各方中的至少一方，以提示至少一方进行要素确认。

此处，经过步骤240的要素比对之后，即可得到要素比对的结果。要素比对的结果可以反映为一致或者不一致，一致是指要素存在于比对双方中，不一致是指要素仅在于比对双方中的一方，要素比对不一致的情况可以作为异常，由此形成要素比对的异常结果，异常结果即要素比对不一致的部分。

在得到异常结果之后，可以将异常结果发送到参与音频交互的各方中的至少一方，例如在音频客服场景下，可以将异常结果发送给坐席，也可以将异常结果同时发送给坐席和客户，请求两方确认，从而快速阻断问题。

在此之后，可以根据参与音频交互的至少一方返回的确认结果，更新调整交互要素，以实现问题的修正。

需要说明的是，异常结果发送这一动作的执行，可以是实时触发的，例如每次检测得到异常结果，都触发异常结果发送，也可以是根据业务流程确定的，可以在特定的环节触发异常结果发送，例如在交互结束后统一发送所有异常结果，或者在坐席帮助用户购买产品时，点击购买按钮触发交互要素比对。基于上述任一实施例，图7是本发明提供的要素比对方法的流程示意图之二，如图7所示，音频客服场景下，要素比对方法可以包括如下步骤：

在坐席和客户的音频交互过程中，可以分别对坐席语音和客户语音进行在线语音转写，得到坐席和客户各自的语音转写文本，即坐席文本和客户文本。由于语音转写是在线实时执行的，一段文本转写完成之后，会马上调用下游任务进行要素抽取。

在一段文本转写结束之后，会将新转写得到的文本与之前转写得到的文本进行拼接，从而得到能够反映从音频交互开始的所有信息的交互转写文本。此处，随着音频交互的推进，交互转写文本会越来越长，直至音频交互终止，交互转写文本不再增长。

针对更新之后的交互转写文本，即可进行要素抽取，具体在进行要素抽取时，可以通过要素抽取模型实现，此处的要素抽取模型可以采用BERT(Bidirectional EncoderRepresentation from Transformers)+CRF(Conditional Random Fields，条件随机场)的模型框架，作为优选，其中的BERT可以采用6层结构。具体的要素抽取模型可以如图8所示，交互转写文本“坐席：请问你是要买金额为5万元的理财产品吗？客户：是的”中的每个字均可以表示为对应的字向量w，由此形成交互转写文本的字向量序列，即w

在此过程中，考虑到要素抽取模型对于输入文本的长度存在限制，例如单次要素抽取的文本长度最高不可超过512，对于文本长度超过单次要素抽取的文本长度限制的情况，需要通过滑窗操作保证输入至要素抽取模型的文本长度满足文本长度限制。图9是本发明提供的要素抽取方法的流程示意图，如图9所示，在将交互转写文本输入到要素抽取模型之前，需要先判断交互转写文本的长度是否大于512，如果大于，则需要对交互转写文本进行滑窗处理，并将划窗所得的各个文本分别输入到要素抽取模型进行要素抽取，否则可以直接将交互转写文本输入到要素抽取模型进行要素抽取。

在完成要素抽取之后，考虑到每个时段的交互转写文本是不断叠加的，因此对每个时段的交互转写文本进行要素抽取得到的文本要素中，相同要素名称下可能存在多个不同的要素值，针对上述情况，需要进行要素排序，即针对同一要素名称下存在多个不同要素值的情况，以最后一次进行要素抽取所得的文本要素中抽取位置最后的要素值为准。例如，对A1进行抽取得到的要素名称包括X1,X2，相应的要素值为X1-1,X2-1，对A1,B1进行抽取得到的要素名称包括X1,X2,X3，相应的要素值为X1-2,X2-2,X3-1，对A1,B1,A2进行抽取得到的要素名称包括X3,X4，相应的要素值为X3-2,X4-1，那么最终抽取要素名称和取值分别X1,X2,X3,X4和X1-2,X2-2,X3-2,X4-1，其中X3,X4以第三次的值为准，X1,X2以第二次的值为准。

将完成要素排序后的文本要素为交互要素，进行要素比对。此处要素比对的触发，可以是根据业务流程来确定的，例如可以是实时比对质检，即坐席每次说完都要进行质检，那么每次完成要素排序，即每次交互要素发生更新，都需要对更新后的交互要素进行比对，又例如可以是在每个流程环节触发之间，例如坐席帮助用户购买产品时，点击购买按钮触发交互要素比对。

完成要素比对后，可以实时将比对结果反馈给坐席，尤其针对比对错误的要素，可以反馈坐席进行确认。

基于上述任一实施例，图10是本发明提供的要素比对装置的结构示意图，如图10所示，要素比对装置包括：

音频确定单元1010，用于确定音频交互产生的各方的音频；

语音转写单元1020，用于对所述各方的音频进行语音转写，得到交互转写文本；

要素抽取单元1030，用于基于所述交互转写文本的语义，对所述交互转写文本进行要素抽取，得到所述音频交互的交互要素；

要素比对单元1040，用于基于所述交互要素进行要素比对。

本发明实施例提供的装置，对各方的音频语音转写得到交互转写文本，并基于交互转写文本的语义进行要素抽取，具有良好的泛化能力，能够满足各种场景下的要素抽取需求，且充分应用了音频交互的上下文，能够保证复杂场景下要素抽取的可靠性和准确性。由此进行要素比对，有助于及时发现音频交互中存在的错误，并进行快速阻断提醒，从而提升音频交互质量。

基于上述任一实施例，所述要素抽取单元1030包括：

滑窗子单元，用于对所述交互转写文本进行滑窗处理，得到包括至少一个滑窗文本的文本序列；

抽取子单元，用于基于各滑窗文本的语义，分别对各滑窗文本进行要素抽取，得到各滑窗文本的文本要素；

整合子单元，用于对所述各滑窗文本的文本要素进行整合，得到所述音频交互的交互要素。

基于上述任一实施例，所述整合子单元用于：

将最终的当前交互要素作为所述音频交互的交互要素。

基于上述任一实施例，所述整合子单元用于：

基于上述任一实施例，所述抽取子单元用于：

基于上一时段的文本序列和当前时段的文本序列，确定所述当前时段的文本序列增量；

基于所述文本序列增量中各滑窗文本的语义，分别对所述文本序列增量中各滑窗文本进行要素抽取，得到所述文本序列增量中各滑窗文本的文本要素。

基于上述任一实施例，所述语音转写单元1020包括：

转写子单元，用于对所述各方在当前时段的实时音频进行语音转写，得到当前时段的转写文本；

拼接子单元，用于将所述当前时段的转写文本，拼接在上一时段的交互转写文本之后，得到所述当前时段的交互转写文本。

基于上述任一实施例，所述转写子单元用于：

分别对所述各方当前时段的实时音频进行语音转写，得到所述各方的角色转写文本；

基于所述各方的角色转写文本在对应实时音频中的时间区间，按照时序对所述各方的角色转写文本进行拼接，得到所述当前时段的转写文本。

基于上述任一实施例，该装置还包括确认单元，用于：

将要素比对产生的异常结果发送至所述各方中的至少一方，以提示所述至少一方进行要素确认。

图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行要素比对方法，该方法包括：确定音频交互产生的各方的音频；对所述各方的音频进行语音转写，得到交互转写文本；基于所述交互转写文本的语义，对所述交互转写文本进行要素抽取，得到所述音频交互的交互要素；基于所述交互要素进行要素比对。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的要素比对方法，该方法包括：确定音频交互产生的各方的音频；对所述各方的音频进行语音转写，得到交互转写文本；基于所述交互转写文本的语义，对所述交互转写文本进行要素抽取，得到所述音频交互的交互要素；基于所述交互要素进行要素比对。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的要素比对方法，该方法包括：确定音频交互产生的各方的音频；对所述各方的音频进行语音转写，得到交互转写文本；基于所述交互转写文本的语义，对所述交互转写文本进行要素抽取，得到所述音频交互的交互要素；基于所述交互要素进行要素比对。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：田鹏;何春江;庄纪军;胡加学;赵乾;
专利申请人：科大讯飞股份有限公司;

上一篇：一种酱油酿造多菌种制曲的工艺方法
下一篇：一种基于多相流密度实时监测恒节流压力调节的装置与方法