掌桥专利:专业的专利平台
掌桥专利
首页

语音质检方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:25:57


语音质检方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种语音质检方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能的发展,各领域广泛使用打电话的方式对客户进行销售服务,但随着客户量的增大,与客户沟通的语音数据也越来越庞大,例如,银行领域的客户经理每月会产生百万级别的通话。同时,对于具体和客户的沟通内容有着很大的不透明性,具体和客户沟通了什么、怎样沟通都难以完全检测。

现有情况下,往往采用人工抽检的方式对于语音会话数据进行抽检,效率低下,并且由于语音数据的语速、口音、方言及语气等原因,会导致语音检测难度较大且质量不高,同时语音会话数据的使用效率较低,人工抽检时往往仅能关注一方面(例如,客户经理回复是否违规、用户语速等),导致语音质检不全面。

发明内容

本发明提供一种语音质检方法、装置、设备及存储介质,其主要目的在于解决语音质检效率较低且不全面的问题。

为实现上述目的,本发明提供的一种语音质检方法,包括:

获取用户问话语音数据及人工回复语音数据,对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,及对所述人工回复语音数据进行语速检测,得到语速检测结果,汇总所述语速检测结果及所述语音情绪检测结果得到语音检测结果;

对所述用户问话语音数据及所述人工回复语音数据进行文本转化,得到用户问话文本及人工回复文本,利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,并根据所述问话语义识别结果构建用户意图画像;

对所述人工回复文本进行敏感词监控,得到敏感词监控结果;

根据所述语音检测结果、所述用户意图画像及所述敏感词监控结果,得到语音质检结果。

可选地,所述对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,包括:

对所述用户问话语音数据进行语音端点选取,得到问话语音段,对所述问话语音段进行频域转换,得到频域数据;

利用预设的梅尔频域转换公式将所述频域数据转换为梅尔频域数据;

根据预构建的情绪检测模型对所述梅尔频域数据进行检测,得到所述语音情绪检测结果。

可选地,所述根据预构建的情绪检测模型对所述梅尔频域数据进行检测,得到所述语音情绪检测结果之前,还包括:

从预设的情感语料库中获取第一训练集,利用所述第一训练集对预构建的长短期记忆网络进行训练,得到原始模型;

从包含历史情感标注数据的数据库中获取第二训练集,利用所述第二训练集对所述原始模型进行模型微调,得到所述情绪检测模型。

可选地,所述对所述人工回复语音数据进行语速检测,得到语速检测结果,包括:

对所述人工回复语音数据进行语音端点选取,得到回复语音段;

利用预构建的语速检测模型依次对所述回复语音段中的每个语音片段进行语速检测,得到片段回复语速;

利用所述语速检测模型对所述回复语音段的整体进行语速检测,得到全程回复语速;

汇总所述片段回复语速及所述全程回复语速,得到所述语速检测结果。

可选地,所述利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,包括:

利用所述语义识别模型的编码层对所述用户问话文本进行编码,得到问话序列;

利用所述语义识别模型的二分类器对所述问话序列进行实体识别,得到问话实体;

对所述问话实体进行实体识别及实体筛选处理,得到筛选实体;

对所述筛选实体进行实体加强处理,得到加强实体,并将所述加强实体作为所述语义识别结果。

可选地,所述根据所述问话语义识别结果构建用户意图画像,包括:

将所述问话语义识别结果中的加强实体进行标签转化,得到意图标签;

根据所述意图标签进行产品识别,得到产品标签,汇总所述意图标签及所述产品标签得到所述用户意图画像。

可选地,所述对所述人工回复文本进行敏感词监控,得到敏感词监控结果,包括:

对所述人工回复文本进行分词处理,得到回复关键词;

计算所述回复关键词与预构建的敏感词库中敏感词的相似度;

当所述相似度小于等于预设的相似阈值时,则确定敏感词检测通过;

当所述相似度大于所述相似阈值时,则确定敏感词检测不通过,并输出相似度大于所述相似阈值的回复关键词作为所述敏感词监控结果。

为了解决上述问题,本发明还提供一种语音质检装置,所述装置包括:

语音检测模块,用于获取用户问话语音数据及人工回复语音数据,对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,及对所述人工回复语音数据进行语速检测,得到语速检测结果,汇总所述语速检测结果及所述语音情绪检测结果得到语音检测结果;

语义识别模块,用于对所述用户问话语音数据及所述人工回复语音数据进行文本转化,得到用户问话文本及人工回复文本,利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,并根据所述问话语义识别结果构建用户意图画像;

敏感词监控模块,用于对所述人工回复文本进行敏感词监控,得到敏感词监控结果;

语音质检生成模块,用于根据所述语音检测结果、所述用户意图画像及所述敏感词监控结果,得到语音质检结果。

为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

存储器,存储至少一个指令;及

处理器,执行所述存储器中存储的指令以实现上述所述的语音质检方法。

为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的语音质检方法。

本发明通过对人工回复语音数据进行语速检测,得到语速检测结果,对用户问话语音数据进行情绪检测,得到语音情绪检测结果,对于所有的语音会话数据均可进行检测,提高了语音会话数据的实时检测效率。对于文本转化后的用户问话文本及人工回复文本,利用人工回复文本进行敏感词监控,及利用预构建的语义识别模型对所述用户问话文本进行语义识别,可以避免因语速、语气等原因导致的语音数据检测不准确的问题。同时,所述语音质检结果中包含了语音检测结果、用户意图画像及敏感词监控结果,使得语音质检更加全面。因此本发明提出的语音质检方法、装置、电子设备及计算机可读存储介质,可以解决语音质检效率较低且不全面的问题。

附图说明

图1为本发明一实施例提供的语音质检方法的流程示意图;

图2为图1中其中一个步骤的详细实施流程示意图;

图3为图1中另一个步骤的详细实施流程示意图;

图4为图1中另一个步骤的详细实施流程示意图;

图5为本发明一实施例提供的语音质检装置的功能模块图;

图6为本发明一实施例提供的实现所述语音质检方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请实施例提供一种语音质检方法。所述语音质检方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述语音质检方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示,为本发明一实施例提供的语音质检方法的流程示意图。

在本实施例中,所述语音质检方法包括:

S1、获取用户问话语音数据及人工回复语音数据,对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,及对所述人工回复语音数据进行语速检测,得到语速检测结果,汇总所述语速检测结果及所述语音情绪检测结果得到语音检测结果。

本发明实施例中,所述用户问话语音数据及人工回复语音数据可以为各领域用户与客服人员的实时语音会话记录,包括:产品咨询语音会话数据、售后咨询语音会话数据等。例如,银行领域,客户经理会与用户进行语音通话来进行沟通,并根据沟通内容对用户进行产品推荐,其中,用户问话语音数据是指用户基于产品、售后等提出的问题语音数据,人工回复语音数据是指客户经理基于用户提的问题进行相应回复的语音数据。

具体地,参照图2所示,所述对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,包括:

S10、对所述用户问话语音数据进行语音端点选取,得到问话语音段,对所述问话语音段进行频域转换,得到频域数据;

S11、利用预设的梅尔频域转换公式将所述频域数据转换为梅尔频域数据;

S12、根据预构建的情绪检测模型对所述梅尔频域数据进行检测,得到所述语音情绪检测结果。

本发明实施例中,利用下述函数对所述问话语音段进行频域转换,得到频域数据F(ω):

其中,f(t)为所述问话语音段,

本发明一可选实施例中,所述预设的梅尔频域转换公式可以为:

其中,f

本发明另一个实施例中,所述根据预构建的情绪检测模型对所述梅尔频域数据进行检测,得到所述语音情绪检测结果之前,还包括:

从预设的情感语料库中获取第一训练集,利用所述第一训练集对预构建的长短期记忆网络进行训练,得到原始模型;

从包含历史情感标注数据的数据库中获取第二训练集,利用所述第二训练集对所述原始模型进行模型微调,得到所述情绪检测模型。

本发明实施例中,所述第一训练集可以为从CASIA汉语情感语料库获取的部分训练数据,所述第二训练集可以是银行领域中用户和客户经理间的已标注问话语音数据。本发明实施例通过两次训练,可以提高情绪检测的准确性。

具体地,所述对所述人工回复语音数据进行语速检测,得到语速检测结果,包括:

对所述人工回复语音数据进行语音端点选取,得到回复语音段;

利用预构建的语速检测模型依次对所述回复语音段中的每个语音片段进行语速检测,得到片段回复语速;

利用所述语速检测模型对所述回复语音段的整体进行语速检测,得到全程回复语速;

汇总所述片段回复语速及所述全程回复语速,得到所述语速检测结果。

本发明实施例中,可以采用语音端点检测(Voice Activity Detection,VAD)技术对用户问话语音数据及人工回复语音数据进行语音端点选取。在实际应用中,待检测的语音数据往往会包含无效的声音,例如噪声、他人说话声音等,VAD技术可以从带有噪声的语音中准确的定位出语音的开始和结束点,即把静音和噪声作为干扰信号从原始数据中去除。

本发明一可选实施例中,所述预构建的语速检测模型可以为预训练的深度神经网络(Deep Neural Networks,DNN)模型。利用所述DNN模型,可以直接实时输出片段回复语速及全程回复语速,提高了语速检测的速度。

本发明一可选实施例中,通过对用户的问话语音进行情绪检测,对客户经理的回复语音进行语速检测,针对不同的语音数据进行不同的语音检测,提高了语音检测的准确率。

S2、对所述用户问话语音数据及所述人工回复语音数据进行文本转化,得到用户问话文本及人工回复文本,利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,并根据所述问话语义识别结果构建用户意图画像。

具体地,所述对所述用户问话语音数据及所述人工回复语音数据进行文本转化,得到用户问话文本及人工回复文本,包括:

利用预设的语音接口调用语音转换工具,并利用所述语音转换工具依次对所述用户问话语音数据及所述人工回复语音数据中的语音段进行文本转换,得到问话语音段文本及回复语音段文本;

汇总所有的问话语音段文本得到所述用户问话文本,及汇总所有的回复语音段文本得到所述人工回复文本。

本发明一可选实施例中,预设的语音接口中包括语音协议,所述语音接口利用所述语音协议调用语音转换工具来对语音数据进行文本转换。所述语音转换工具可以为第三方工具,例如讯飞语音转换工具。

本发明实施例中,通过将语音数据转化为文本数据,提高了语义识别的准确率。

本发明实施例中,所述预构建的语义识别模型可以为中文全词覆盖(Whole WordMasking)BERT的预训练模型,所述中文全词覆盖BERT的预训练模型中包括编码器及二分类器(SVM)。在传统BERT模型中,使用字粒度进行标识(token)的语言模型作为基础模型,然而在语音问答中,存在大量专有名词,识别准确率较差,所述中文全词覆盖BERT的预训练模型基于词粒度进行标识(token),语义识别准确率更高。

具体地,参照图3所示,所述利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,包括:

S20、利用所述语义识别模型的编码层对所述用户问话文本进行编码,得到问话序列;

S21、利用所述语义识别模型的二分类器对所述问话序列进行实体识别,得到问话实体;

S22、对所述问话实体进行实体识别及实体筛选处理,得到筛选实体;

S23、对所述筛选实体进行实体加强处理,得到加强实体,并将所述加强实体作为所述语义识别结果。

本发明实施例中,可以利用Bi-LSTM模型对所述问话实体进行实体识别,所述Bi-LSTM模型用于对所述问话实体进行实体识别,输出各实体的预测分数。并且使用BIO序列标注模式对所述问话实体进行标注,将实体提及的字标注为B或I,非实体标注为O。同时可以使用CRF模型对标注后的实体进行实体筛选,所述CRF模型通过预设的实体筛选规则对标注后的实体进行筛选,例如,只能通过以“B-“或“I-”标注的实体。

本发明一可选实施例中,可以使用HanLP自然语言处理库对所述筛选实体进行实体加强处理,利用HanLP自然语言处理库中的依存句法解析工具,分析当前筛选实体的前缀,来对当前实体进行实体加强,例如,对于客户提到“我要去师大附小接小孩”,所述筛选实体可以为“小孩”,则加强后的实体为“去师大附小接小孩”。

详细地,所述根据所述问话语义识别结果构建用户意图画像,包括:

将所述问话语义识别结果中的加强实体进行标签转化,得到意图标签;

根据所述意图标签进行产品识别,得到产品标签,汇总所述意图标签及所述产品标签得到所述用户意图画像。

本发明一可选实施例中,例如,对于加强实体“去师大附小接小孩”,可实时转化为“有子女”等意图标签,对于加强实体“了解天天成长基金”,可以实施转化为“基金购买”、“天天成长基金”等意图标签,同时对“天天成长基金”进行产品识别,确定为现有产品,可以将对应的产品介绍链接转化为产品标签,并基于所述产品标签及意图标签构建用户意图画像,提高了对用户意图识别的准确率。

S3、对所述人工回复文本进行敏感词监控,得到敏感词监控结果。

具体地,参照图4所示,所述对所述人工回复文本进行敏感词监控,得到敏感词监控结果,包括:

S30、对所述人工回复文本进行分词处理,得到回复关键词;

S31、计算所述回复关键词与预构建的敏感词库中敏感词的相似度;

当所述相似度小于等于预设的相似阈值时,则执行S32、确定敏感词检测通过;

当所述相似度大于所述相似阈值时,则执行S33、确定敏感词检测不通过,并输出相似度大于所述相似阈值的回复关键词作为所述敏感词监控结果。

本发明实施例中,利用下述相似度计算公式依次计算所述回复关键词与所述敏感词库中关键词的相似度:

其中,j(A,B)为所述相似度,A为所述回复关键词,B为所述敏感词库中的关键词。

本发明一可选实施例中,所述预构建的敏感词库包括“黄色”、“赌博”等关键词。本发明实施例中,可以使用预设的语言处理算法对所述标准文本数据进行分词处理,所述预设的语言处理算法可以为现有的任何分词方法,如哈工大的LTP、中科院计算所NLPIR、清华大学THULAC、斯坦福分词器、结巴分词等等,这里不做详细介绍。

本发明实施例中,例如,回复文本为:“A产品类似赌博的收益”时,对应的回复关键词包括“赌博”,此时可以在敏感词库中检测到,输出此时的回复关键词“赌博”并进行告警。

S4、根据所述语音检测结果、所述用户意图画像及所述敏感词监控结果,得到语音质检结果。

本发明实施例中,通过对任意会话语音数据进行语音质检,可以对用户问话语音数据进行情绪检测及用户意图画像构建,对人工回复语音数据进行语速检测及敏感词监控,使得一通会话语音数据的语音质检结果包括多种质检结果,提高了语音质检的全面性。

本发明一可选实施例中,例如,在银行领域,对于用户和客户经理的实时语音会话数据,可以利用预构建的情绪检测模型对用户问话数据进行情绪检测,利用语速检测模型对客户经理的回复数据进行语速检测,可以实时大量的进行语音质检,提高了语音检测的效率。同时,利用预构建的语义识别模型对语音转化后的问话文本进行语义识别,并构建用户意图画像,对语音转化后的回复文本进行敏感词监控,使得最后得到的语音质检结果不仅包含语音检测结果,还包含用户意图画像及敏感词监控结果,大大提高了语音质检的全面性。

本发明通过对人工回复语音数据进行语速检测,得到语速检测结果,对用户问话语音数据进行情绪检测,得到语音情绪检测结果,对于所有的语音会话数据均可进行检测,提高了语音会话数据的实时检测效率。对于文本转化后的用户问话文本及人工回复文本,利用人工回复文本进行敏感词监控,及利用预构建的语义识别模型对所述用户问话文本进行语义识别,可以避免因语速、语气等原因导致的语音数据检测不准确的问题。同时,所述语音质检结果中包含了语音检测结果、用户意图画像及敏感词监控结果,使得语音质检更加全面。。因此本发明实施例可以解决语音质检效率较低且不全面的问题。

如图5所示,是本发明一实施例提供的语音质检装置的功能模块图。

本发明所述语音质检装置100可以安装于电子设备中。根据实现的功能,所述语音质检装置100可以包括语音检测模块101、语义识别模块102、敏感词监控模块103及语音质检生成模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

所述语音检测模块101,用于获取用户问话语音数据及人工回复语音数据,对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,及对所述人工回复语音数据进行语速检测,得到语速检测结果,汇总所述语速检测结果及所述语音情绪检测结果得到语音检测结果。

本发明实施例中,所述用户问话语音数据及人工回复语音数据可以为各领域用户与客服人员的实时语音会话记录,包括:产品咨询语音会话数据、售后咨询语音会话数据等。例如,银行领域,客户经理会与用户进行语音通话来进行沟通,并根据沟通内容对用户进行产品推荐,其中,用户问话语音数据是指用户基于产品、售后等提出的问题语音数据,人工回复语音数据是指客户经理基于用户提的问题进行相应回复的语音数据。

具体地,语音检测模块101通过下述操作得到得到语音情绪检测结果:

对所述用户问话语音数据进行语音端点选取,得到问话语音段,对所述问话语音段进行频域转换,得到频域数据;

利用预设的梅尔频域转换公式将所述频域数据转换为梅尔频域数据;

根据预构建的情绪检测模型对所述梅尔频域数据进行检测,得到所述语音情绪检测结果。

本发明实施例中,利用下述函数对所述问话语音段进行频域转换,得到频域数据F(ω):

其中,f(t)为所述问话语音段,

本发明一可选实施例中,所述预设的梅尔频域转换公式可以为:

其中,f

本发明另一个实施例中,所述语音检测模块101还包括:

从预设的情感语料库中获取第一训练集,利用所述第一训练集对预构建的长短期记忆网络进行训练,得到原始模型;

从包含历史情感标注数据的数据库中获取第二训练集,利用所述第二训练集对所述原始模型进行模型微调,得到所述情绪检测模型。

本发明实施例中,所述第一训练集可以为从CASIA汉语情感语料库获取的部分训练数据,所述第二训练集可以是银行领域中用户和客户经理间的已标注问话语音数据。本发明实施例通过两次训练,可以提高情绪检测的准确性。

具体地,所述语音检测模块101通过下述操作得到语速检测结果,包括:

对所述人工回复语音数据进行语音端点选取,得到回复语音段;

利用预构建的语速检测模型依次对所述回复语音段中的每个语音片段进行语速检测,得到片段回复语速;

利用所述语速检测模型对所述回复语音段的整体进行语速检测,得到全程回复语速;

汇总所述片段回复语速及所述全程回复语速,得到所述语速检测结果。

本发明实施例中,可以采用语音端点检测(Voice Activity Detection,VAD)技术对用户问话语音数据及人工回复语音数据进行语音端点选取。在实际应用中,待检测的语音数据往往会包含无效的声音,例如噪声、他人说话声音等,VAD技术可以从带有噪声的语音中准确的定位出语音的开始和结束点,即把静音和噪声作为干扰信号从原始数据中去除。

本发明一可选实施例中,所述预构建的语速检测模型可以为预训练的深度神经网络(Deep Neural Networks,DNN)模型。利用所述DNN模型,可以直接实时输出片段回复语速及全程回复语速,提高了语速检测的速度。

本发明一可选实施例中,通过对用户的问话语音进行情绪检测,对客户经理的回复语音进行语速检测,针对不同的语音数据进行不同的语音检测,提高了语音检测的准确率。

所述语义识别模块102,用于对所述用户问话语音数据及所述人工回复语音数据进行文本转化,得到用户问话文本及人工回复文本,利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,并根据所述问话语义识别结果构建用户意图画像。

具体地,所述语义识别模块102通过下述操作得到用户问话文本及人工回复文本:

利用预设的语音接口调用语音转换工具,并利用所述语音转换工具依次对所述用户问话语音数据及所述人工回复语音数据中的语音段进行文本转换,得到问话语音段文本及回复语音段文本;

汇总所有的问话语音段文本得到所述用户问话文本,及汇总所有的回复语音段文本得到所述人工回复文本。

本发明一可选实施例中,预设的语音接口中包括语音协议,所述语音接口利用所述语音协议调用语音转换工具来对语音数据进行文本转换。所述语音转换工具可以为第三方工具,例如讯飞语音转换工具。

本发明实施例中,通过将语音数据转化为文本数据,提高了语义识别的准确率。

本发明实施例中,所述预构建的语义识别模型可以为中文全词覆盖(Whole WordMasking)BERT的预训练模型,所述中文全词覆盖BERT的预训练模型中包括编码器及二分类器(SVM)。在传统BERT模型中,使用字粒度进行标识(token)的语言模型作为基础模型,然而在语音问答中,存在大量专有名词,识别准确率较差,所述中文全词覆盖BERT的预训练模型基于词粒度进行标识(token),语义识别准确率更高。

具体地,所述语义识别模块102通过下述操作得到得到问话语义识别结果:

利用所述语义识别模型的编码层对所述用户问话文本进行编码,得到问话序列;

利用所述语义识别模型的二分类器对所述问话序列进行实体识别,得到问话实体;

对所述问话实体进行实体识别及实体筛选处理,得到筛选实体;

对所述筛选实体进行实体加强处理,得到加强实体,并将所述加强实体作为所述语义识别结果。

本发明实施例中,可以利用Bi-LSTM模型对所述问话实体进行实体识别,所述Bi-LSTM模型用于对所述问话实体进行实体识别,输出各实体的预测分数。并且使用BIO序列标注模式对所述问话实体进行标注,将实体提及的字标注为B或I,非实体标注为O。同时可以使用CRF模型对标注后的实体进行实体筛选,所述CRF模型通过预设的实体筛选规则对标注后的实体进行筛选,例如,只能通过以“B-“或“I-”标注的实体。

本发明一可选实施例中,可以使用HanLP自然语言处理库对所述筛选实体进行实体加强处理,利用HanLP自然语言处理库中的依存句法解析工具,分析当前筛选实体的前缀,来对当前实体进行实体加强,例如,对于客户提到“我要去师大附小接小孩”,所述筛选实体可以为“小孩”,则加强后的实体为“去师大附小接小孩”。

详细地,所述语义识别模块102通过下述操作构建用户意图画像:

将所述问话语义识别结果中的加强实体进行标签转化,得到意图标签;

根据所述意图标签进行产品识别,得到产品标签,汇总所述意图标签及所述产品标签得到所述用户意图画像。

本发明一可选实施例中,例如,对于加强实体“去师大附小接小孩”,可实时转化为“有子女”等意图标签,对于加强实体“了解天天成长基金”,可以实施转化为“基金购买”、“天天成长基金”等意图标签,同时对“天天成长基金”进行产品识别,确定为现有产品,可以将对应的产品介绍链接转化为产品标签,并基于所述产品标签及意图标签构建用户意图画像,提高了对用户意图识别的准确率。

所述敏感词监控模块103,用于对所述人工回复文本进行敏感词监控,得到敏感词监控结果。

本发明实施例中,所述敏感词监控模块103通过下述操作得到敏感词监控结果:

对所述人工回复文本进行分词处理,得到回复关键词;

计算所述回复关键词与预构建的敏感词库中敏感词的相似度;

当所述相似度小于等于预设的相似阈值时,则确定敏感词检测通过;

当所述相似度大于所述相似阈值时,则确定敏感词检测不通过,并输出相似度大于所述相似阈值的回复关键词作为所述敏感词监控结果。

本发明实施例中,利用下述相似度计算公式依次计算所述回复关键词与所述敏感词库中关键词的相似度:

其中,j(A,B)为所述相似度,A为所述回复关键词,B为所述敏感词库中的关键词。

本发明一可选实施例中,所述预构建的敏感词库包括“黄色”、“赌博”等关键词。本发明实施例中,可以使用预设的语言处理算法对所述标准文本数据进行分词处理,所述预设的语言处理算法可以为现有的任何分词方法,如哈工大的LTP、中科院计算所NLPIR、清华大学THULAC、斯坦福分词器、结巴分词等等,这里不做详细介绍。

本发明实施例中,例如,回复文本为:“A产品类似赌博的收益”时,对应的回复关键词包括“赌博”,此时可以在敏感词库中检测到,输出此时的回复关键词“赌博”并进行告警。

所述语音质检生成模块104,用于根据所述语音检测结果、所述用户意图画像及所述敏感词监控结果,得到语音质检结果。

本发明实施例中,通过对任意会话语音数据进行语音质检,可以对用户问话语音数据进行情绪检测及用户意图画像构建,对人工回复语音数据进行语速检测及敏感词监控,使得一通会话语音数据的语音质检结果包括多种质检结果,提高了语音质检的全面性。

本发明一可选实施例中,例如,在银行领域,对于用户和客户经理的实时语音会话数据,可以利用预构建的情绪检测模型对用户问话数据进行情绪检测,利用语速检测模型对客户经理的回复数据进行语速检测,可以实时大量的进行语音质检,提高了语音检测的效率。同时,利用预构建的语义识别模型对语音转化后的问话文本进行语义识别,并构建用户意图画像,对语音转化后的回复文本进行敏感词监控,使得最后得到的语音质检结果不仅包含语音检测结果,还包含用户意图画像及敏感词监控结果,大大提高了语音质检的全面性。

如图6所示,是本发明一实施例提供的语音质检方法的电子设备的结构示意图,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,

存储器113,用于存放计算机程序,如语音质检生成程序;

在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的样本数据闭环生成方法,包括:

获取用户问话语音数据及人工回复语音数据,对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,及对所述人工回复语音数据进行语速检测,得到语速检测结果,汇总所述语速检测结果及所述语音情绪检测结果得到语音检测结果;

对所述用户问话语音数据及所述人工回复语音数据进行文本转化,得到用户问话文本及人工回复文本,利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,并根据所述问话语义识别结果构建用户意图画像;

对所述人工回复文本进行敏感词监控,得到敏感词监控结果;

根据所述语音检测结果、所述用户意图画像及所述敏感词监控结果,得到语音质检结果。

上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口112用于上述电子设备与其他设备之间的通信。

存储器113可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器113还可以是至少一个位于远离前述处理器111的存储装置。

上述的处理器111可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:

获取用户问话语音数据及人工回复语音数据,对所述用户问话语音数据进行情绪检测,得到语音情绪检测结果,及对所述人工回复语音数据进行语速检测,得到语速检测结果,汇总所述语速检测结果及所述语音情绪检测结果得到语音检测结果;

对所述用户问话语音数据及所述人工回复语音数据进行文本转化,得到用户问话文本及人工回复文本,利用预构建的语义识别模型对所述用户问话文本进行语义识别,得到问话语义识别结果,并根据所述问话语义识别结果构建用户意图画像;

对所述人工回复文本进行敏感词监控,得到敏感词监控结果;

根据所述语音检测结果、所述用户意图画像及所述敏感词监控结果,得到语音质检结果。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 一种语音质检方法、装置、质检设备及可读存储介质
  • 基于语音信息的AI语音质检方法、装置、设备和存储介质
技术分类

06120113296636