语音信息提取方法、装置、设备及存储介质

文献发布时间：2023-06-19 18:37:28

技术领域

本发明涉及人工智能技术领域，特别是涉及一种语音信息提取方法、装置、设备及存储介质。

背景技术

目前，在一些金融保险业务场景中，如车险，需要从通话中的语音信息提取一些关键信息，比如：客户的姓名、手机号码、地址、预约时间、车型、产品信息等，使用这些信息来减少坐席在系统中操作，从而提高操作效率。而语音系统中语音内容识别的精确性，是影响语音信息提取准确率的关键制约因素，但是由于技术限制，生成的文本可能包含错误，继而导致后续的关键信息提取出现偏差，准确率低。

发明内容

本发明提供一种语音信息提取方法、装置、设备及存储介质，能够提高语音信息提取的准确率和纠偏效率，解决语音识别不准确的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种语音信息提取方法，包括：

获取基于人机交互产生的音频数据，利用自动语音识别技术将所述音频数据转化为文本信息；

基于信息提取模型对所述文本信息进行关键信息提取；

根据所提取的关键信息确定业务类型，根据所述业务类型匹配预设的纠偏库，获得目标纠偏库；

调用所述目标纠偏库对所述关键信息进行纠偏处理，得到纠偏后的目标关键信息。

根据本发明的一个实施例，所述根据所述业务类型匹配预设的纠偏库，获得目标纠偏库还包括：

将所述业务类型与预设的纠偏库进行匹配，判断是否存在相匹配的纠偏库；

若是，则将相匹配的预设的纠偏库确定为所述目标纠偏库；

若否，则根据所述业务类型创建新的调用接口以增加新的纠偏库，将所述新的纠偏库确定为所述目标纠偏库。

根据本发明的一个实施例，所述调用所述目标纠偏库对所述关键信息进行纠偏处理，得到纠偏后的目标关键信息还包括：

调用所述目标纠偏库对所述关键信息进行纠偏处理；

根据纠偏处理结果对所述关键信息进行标注处理；

根据标注处理结果获得纠偏后的目标关键信息。

根据本发明的一个实施例，所述根据纠偏处理结果对所述关键信息进行标注处理还包括：

若所述纠偏处理结果为所述关键信息在所述目标纠偏库中匹配到目标关键信息，则对所述关键信息标注第一标签；

若所述纠偏处理结果为所述关键信息在所述目标纠偏库中未匹配到目标关键信息，则将所述关键信息转化为拼音信息，基于所述拼音信息和预设数据库对所述关键信息进行重新纠偏处理，根据重新纠偏结果对所述关键信息进行标注处理。

根据本发明的一个实施例，所述基于信息提取模型对所述文本信息进行关键信息提取之后，还包括：

自动检验所提取的关键信息的格式是否预设格式要求；

若是，则执行根据所提取的关键信息确定业务类型，根据所述业务类型匹配预设的纠偏库，获得目标纠偏库的步骤；

若否，则舍弃所述关键信息。

根据本发明的一个实施例，所述利用自动语音识别技术将所述音频数据转化为文本信息包括：

利用自动语音识别技术对所述音频数据进行声纹识别，获得至少一种声音特征；

获取各所述声音特征在所述音频数据中的语音时长以及声音频谱；

根据所述语音时长以及所述声音频谱从所述音频数据中确定目标语音数据，以对所述目标语音数据进行文本转换，得到所述文本信息。

根据本发明的一个实施例，所述基于信息提取模型对所述文本信息进行关键信息提取包括：

通过词嵌入层对所述文本信息进行向量化处理，获取与所述文本信息对应的向量序列；

通过注意力机制层对所述向量序列进行特征提取，得到包含有上下文信息的特征向量；

通过池化层和卷积层对所述特征向量进行深层特征提取，得到关键信息以及对应的信息类型标签。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种语音信息提取装置，包括：

获取模块，用于获取基于人机交互产生的音频数据，利用自动语音识别技术将所述音频数据转化为文本信息；

提取模块，用于基于信息提取模型对所述文本信息进行关键信息提取；

匹配模块，用于根据所提取的关键信息确定业务类型，根据所述业务类型匹配预设的纠偏库，获得目标纠偏库；

纠偏模块，用于调用所述目标纠偏库对所述关键信息进行纠偏处理，得到纠偏后的目标关键信息。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的语音信息提取方法。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音信息提取方法。

本发明的有益效果是：通过根据所提取的关键信息确定业务类型，根据业务类型匹配预设的纠偏库，获得目标纠偏库，能够减小数据处理量，提高纠偏效率；通过调用目标纠偏库对关键信息进行纠偏处理，得到纠偏后的目标关键信息，能够提高语音信息提取的准确率，解决语音识别不准确的问题。

附图说明

图1是本发明一实施例的语音信息提取方法的流程示意图；

图2是本发明实施例的语音信息提取方法中步骤S103的流程示意图；

图3是本发明实施例的语音信息提取方法中步骤S104的流程示意图；

图4是本发明实施例的语音信息提取装置的结构示意图；

图5是本发明实施例的计算机设备的结构示意图；

图6是本发明实施例的计算机存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明一实施例的语音信息提取方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取基于人机交互产生的音频数据，利用自动语音识别技术将音频数据转化为文本信息。

在步骤S101中，在一种车险业务场景中，在投保、核保等环节可以利用智能机器人与客户进行交流，以获取投保、核保所需的关键信息，例如：客户的姓名、手机号码、地址、预约时间、车型、产品信息等。基于人机交互产生的音频数据至少包括智能机器人以及客户的语音数据，该实施例通过自动语音识别技术(Automatic Speech Recognition，ASR)将音频数据转化为文本信息。

自动语音识别技术的目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Com puter Speech Recognition)。因为在进行人机交互时，客户的语音背景存在噪音，比如会有两个以上的人在讲话，或者有在放背景音乐，或者有在播放影视剧，或者会有在比较嘈杂的环境等，这都会导致会将背景噪音也进行文本转换，导致得到的文本信息不准确，无法对目标客户的语音进行准确的识别。此外，由于受口音、口语习惯等主观或客观因素影响，也会导致语音识别技术存在识别不准确的问题。

在一些实施例中，可以基于去噪的方式对文本进行转换。具体地，利用自动语音识别技术对音频数据进行声纹识别，获得至少一种声音特征；获取各声音特征在音频数据中的语音时长以及声音频谱；根据语音时长以及声音频谱从音频数据中确定目标语音数据，以对目标语音数据进行文本转换，得到文本信息。

该实施例的每种声音特征是指一个说话人的声音特征，比如声纹特征、音色特征等可以区分一个人的语音特征，然后确定各声音特征对应的语音数据在音频数据中的语音时长以及声音频谱，语音时长越长，表示该语音数据对应的人声是目标客户人声的可能性越大。因为只有目标客户会对智能机器人的提问进行对应的回答，但是背景人声持续的时长一般比较短；特殊情况下，也有背景人声持续的时长大于目标客户的人声的情况，比如背景音乐会从头到尾一直持续，在这种情况下，再根据语音时长来判断该声音特征是不是目标客户的声音特征就有一些局限性，所以，还可以获取各声音特征所对应的语音数据的声音频谱。声音频谱是表示一段声音高低的波形图，一般波形大的地方声音大，波形小的地方声音小，因此，一段波形比较大，而且持续了一段时间，通常来说就是目标客户的人声。本实施例中，结合声音频谱和语音时长得到目标语音数据后，再对目标语音数据进行文本转换，通过这种方式得到的目标语音数据是目标客户的可能性比较高，而且还能够在一定程度上去除背景噪声，提高文本转换的准确率。

步骤S102：基于信息提取模型对文本信息进行关键信息提取。

在步骤S102中，信息提取模型的网络结构包括词嵌入层、注意力机制层、池化层和卷积层，其中，词嵌入层用于对文本信息进行向量化处理，获取与文本信息对应的向量序列，具体可以利用BERT词嵌入模块，从字、词、句三个维度对文本信息进行向量化操作，以得到字嵌入向量、词嵌入向量和句嵌入向量形成的向量序列；注意力机制层用于对向量序列进行特征提取，得到包含有上下文信息的特征向量，具体地，利用注意力机制模块对上述向量序列同时从字、词、句三个维度进行特征提取，以得到对应的字特征、词特征和句子特征，然后对字特征、词特征和句子特征进行拼接处理，得到拼接后的特征向量；通过池化层和卷积层对特征向量进行深层特征提取，得到关键信息以及对应的信息类型标签，具体地，通过等长卷积对拼接后特征向量进行上下文信息压缩，得到关键语义信息；基于关键语义信息，通过包含池化层和卷积层的循环网络单元进行深层特征提取，并根据提取的深层特征预测出关键信息以及对应的信息类型标签，例如，关键信息为一串数字，对应的信息类型标签为手机号码，或者关键信息为李明，对应的信息类型标签为姓名。

步骤S103：根据所提取的关键信息确定业务类型，根据业务类型匹配预设的纠偏库，获得目标纠偏库。

在步骤S103中，业务类型可以根据业务场景设定，例如在保险业务场景中，业务类型可以包括保险产品信息、被保车辆信息(如车型、车牌信息)、保单邮寄地址、被保人信息(如姓名、电话号码、身份信息)等。纠偏库为存储有客户历史信息记录的数据库，客户历史信息包括但不限于保险产品信息、被保车辆信息、保单邮寄地址、被保人信息等。假设关键信息的业务类型属于保单邮寄地址，则目标纠偏库为地址数据库。

在一实施例中，纠偏库支持新增、修改，以实现纠偏规则的增加和修改，扩大适用范围和用户体验。请参见图2，步骤S103进一步包括以下步骤：

步骤S201：将业务类型与预设的纠偏库进行匹配，判断是否存在相匹配的纠偏库。

步骤S202：若是，则将相匹配的预设的纠偏库确定为目标纠偏库。

步骤S203：若否，则根据业务类型创建新的调用接口以增加新的纠偏库，将新的纠偏库确定为目标纠偏库。

具体地，若不存在相匹配的预设的纠偏库，则根据业务类型增加纠偏规则，并创建新的纠偏库以及对应的调用接口，将新的纠偏库确定为目标纠偏库，后续步骤直接调用接口以实现关键信息的纠偏，进一步提高关键信息的准确率。

该实施例相对于利用人工智能模型对文本信息进行纠偏，一方面通过纠偏库进行纠偏，在出现新的纠偏规则时，支持新增纠偏库，提高纠偏准确率，不需要重新训练人工智能模型，节约时间成本，另一方面，通过对提取的关键信息进行纠偏而非直接对文本信息进行纠偏，减少了纠偏数据处理量，从而提高了纠偏效率。

步骤S104：调用目标纠偏库对关键信息进行纠偏处理，得到纠偏后的目标关键信息。

在步骤S104中，调用目标纠偏库对关键信息进行纠偏处理实质是查找目标纠偏库中是否存储有与关键信息相同或相关信息，若是，将相同或相关的信息即为目标关键信息，若否，则需进行二次纠偏，将二次纠偏后的结果作为目标关键信息。

进一步地，请参见图3，步骤S104还包括以下步骤：

步骤S301：调用目标纠偏库对关键信息进行纠偏处理。

具体地，查找目标纠偏库中是否存储有与关键信息相同或相关信息。

步骤S302：根据纠偏处理结果对关键信息进行标注处理。

具体地，若纠偏处理结果为关键信息在目标纠偏库中匹配到目标关键信息，则对关键信息标注第一标签。

若纠偏处理结果为关键信息在目标纠偏库中未匹配到目标关键信息，则对将关键信息转化为拼音信息，基于拼音信息和预设数据库对关键信息进行重新纠偏处理，根据重新纠偏结果对关键信息进行标注处理。进一步地，将拼音信息和预设数据库进行匹配，判断预设数据库中是否存在与拼音信息相匹配的关键词，若是，则利用关键词替换关键信息，并对替换后的关键信息标注第二标签，若否，则对关键信息标注第三标签。例如，关键信息为“某市按停路xxx号”，其中“按停路”在目标纠偏库中匹配不到对应的地址，则将“按停路”转化为“an ting lu”，然后在ES数据库进行拼音与关键词匹配，若匹配到“安亭路”，则根据匹配结果纠正关键信息，并对纠偏后的关键信息标注第二标签，若未匹配到“安亭路”，则对原始的关键信息标注第三标签。该实施例通过转化拼音进行二次纠偏，能够解决口音导致语音识别不准确的问题。

本实施例通过纠偏结果对关键信息进行分类标识，方便系统在UI层面根据不同类别的信息，进行差异化统计和涉及，提升用户体验。

步骤S303：根据标注处理结果获得纠偏后的目标关键信息。

该实施例的第一标签为正确可用的信息，直接提供给用户使用；第二标签为待确认备用信息，在用户使用时给出提示参考；第三标签为错误不可用的信息，直接丢弃。

本发明实施例的语音信息提取方法通过根据所提取的关键信息确定业务类型，根据业务类型匹配预设的纠偏库，获得目标纠偏库，能够减小数据处理量，提高纠偏效率；通过调用目标纠偏库对关键信息进行纠偏处理，得到纠偏后的目标关键信息，能够提高语音信息提取的准确率，解决语音识别不准确的问题。

在一种可实现的实施例中，在步骤S102之后，还包括以下步骤：

自动检验所提取的关键信息的格式是否预设格式要求。

若是，则执行步骤S103；若否，则舍弃关键信息。

一些关键信息的有固定格式，例如手机号码的固定格式是有11位数字，姓名的固定格式是姓在前名在后等。

该实施例在对所提取的关键信息做纠偏之前，进行格式筛选，剔除格式不符合要求的关键信息，从而减少纠偏数据处理量，提高纠偏效率，提高关键信息准确率。

本发明的方案可应用金融领域，如保险业务场景，也可应用于人工智能领域，特别涉及智能语音及深度学习等领域。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图4是本发明实施例的语音信息提取装置的结构示意图。如图6所示，该装置40包括获取模块41、提取模块42、匹配模块43和纠偏模块44。

获取模块41用于获取基于人机交互产生的音频数据，利用自动语音识别技术将音频数据转化为文本信息；

提取模块42用于基于信息提取模型对文本信息进行关键信息提取

匹配模块43用于根据所提取的关键信息确定业务类型，根据业务类型匹配预设的纠偏库，获得目标纠偏库；

纠偏模块44用于调用目标纠偏库对关键信息进行纠偏处理，得到纠偏后的目标关键信息。

进一步地，获取模块41执行利用自动语音识别技术将音频数据转化为文本信息的步骤包括：

利用自动语音识别技术对音频数据进行声纹识别，获得至少一种声音特征；

获取各声音特征在音频数据中的语音时长以及声音频谱；

根据语音时长以及声音频谱从音频数据中确定目标语音数据，以对目标语音数据进行文本转换，得到文本信息。

进一步地，提取模块42执行基于信息提取模型对文本信息进行关键信息提取的步骤包括：

通过词嵌入层对文本信息进行向量化处理，获取与文本信息对应的向量序列；

通过注意力机制层对向量序列进行特征提取，得到包含有上下文信息的特征向量；

通过池化层和卷积层对特征向量进行深层特征提取，得到关键信息以及对应的信息类型标签。

进一步地，匹配模块43执行根据所提取的关键信息确定业务类型，根据业务类型匹配预设的纠偏库，获得目标纠偏库的步骤包括:

将业务类型与预设的纠偏库进行匹配，判断是否存在相匹配的纠偏库；

若是，则将相匹配的预设的纠偏库确定为目标纠偏库；

若否，则根据业务类型创建新的调用接口以增加新的纠偏库，将新的纠偏库确定为目标纠偏库。

进一步地，纠偏模块44执行调用目标纠偏库对关键信息进行纠偏处理，得到纠偏后的目标关键信息的步骤包括：

调用目标纠偏库对关键信息进行纠偏处理；

根据纠偏处理结果对关键信息进行标注处理；

根据标注处理结果获得纠偏后的目标关键信息。

更进一步地，根据纠偏处理结果对关键信息进行标注处理还包括：

若纠偏处理结果为关键信息在目标纠偏库中匹配到目标关键信息，则对关键信息标注第一标签；

若纠偏处理结果为关键信息在目标纠偏库中未匹配到目标关键信息，则将关键信息转化为拼音信息，基于拼音信息和预设数据库对关键信息进行重新纠偏处理，根据重新纠偏结果对关键信息进行标注处理。

请参阅图5，图5为本发明实施例的计算机设备的结构示意图。如图5所示，该计算机设备50包括处理器51及和处理器51耦接的存储器52。

存储器52存储有用于实现上述任一实施例所述的语音信息提取方法的程序指令。

处理器51用于执行存储器52存储的程序指令以提取语音信息。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图6，图6为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述计算机存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：姜卫宏;
专利申请人：中国平安财产保险股份有限公司;

上一篇：一种多维度客户分级方法、装置、存储介质及电子设备
下一篇：一种户外手术器具消毒洁净单元