掌桥专利:专业的专利平台
掌桥专利
首页

VAD断句测试方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 09:58:59


VAD断句测试方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域,特别是涉及一种VAD断句测试方法、装置、计算机设备及存储介质。

背景技术

随着智能音箱、智能机器人、智能药柜等设备的普及,语音识别功能使用的越来越广泛。语音识别过程中,App(Application,应用程序)通过VAD(Voice ActivityDetection,语音活动检测)检测出的静音时长判断用户是否已经说完话,然后通过结果判断是否进行回答。这种情况下如果用户还没说完话,就判断用户说话结束开始回答,会出现语意理解不全、回答不精准。如果用户说完话很久,才判断识别结束开始回答,又会导致产品反映木讷,体验不佳。那么如何在众多VAD实现中,选择一个快速、精准的VAD方案就至关重要。

传统VAD超时断句测试使用实时语音测试或者单元测试方法验证,依赖大量的人工标注,需要用户在终端上进行多次操作,其测试样本量有限、覆盖场景量少、测试数据对比场景单一,其无法全面且准确对VAD方案进行测试。

发明内容

基于此,有必要针对上述技术问题,提供一种能够全面且准确对VAD方案进行测试的VAD断句测试方法、装置、计算机设备和存储介质。

一种VAD断句测试方法,方法包括:

获取不同的音频片段以及各音频片段对应的语音文本;

提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;

将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;

根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;

分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

在一个实施例中,获取不同的音频片段以及各音频片段对应的语音文本包括:

在线采集不同的初始音频片段;

对初始音频片段进行预处理,得到不同的音频片段,预处理包括去除无人声的音频片段、去除噪音的音频片段以及去除语音时长过短的音频片段;

获取各音频片段对应的语音文本。

在一个实施例中,提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段包括:

识别各音频片段中可以触发VAD断句的第一类音频片段以及无法触发VAD断句的第二类音频片段,并分配对应的可触发标识和无法触发标识;

识别第一类音频片段中属于前超时的音频片段以及属于后超时的音频片段,并分配对应的前超时标识和后超时标识;

提取第一类音频片段对应的静音时长、静音前识别出字符数以及静音开始时间;

采用预设函数式,基于可触发标识、无法触发标识、前超时标识、后超时标识以及静音时长、静音前识别出字符数以及静音开始时间,标注音频片段,得到标注后的音频片段。

在一个实施例中,识别各音频片段中可以触发VAD断句的第一类音频片段以及无法触发VAD断句的第二类音频片段包括:

获取各音频片段对应的静音时长以及预设静音时长阈值;

若音频片段对应的静音时长大于预设静音时长阈值,则音频片段为第一类音频片段;

若静音片段对应的静音时长不大于预设静音时长阈值,则音频片段为第二类音频片段。

在一个实施例中,预设维度属性包括前超时和后超时;

根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果包括:

获取不同VAD测试方案对应配置的前超时和后超时;

根据对应配置的前超时和后超时以及标注后的音频片段,对语音文本进行断句,得到预期识别文本结果。

在一个实施例中,分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果包括:

根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句正确率和无需断句正确率;

获取在不同VAD测试方案中应断句音频片段占比;

根据应断句音频片段占比以及应断句正确率和无需断句正确率,得到在不同VAD测试方案中VAD断句准确率。

在一个实施例中,上述VAD断句测试方法还包括:

根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句音频片段的早断句占比、晚断句占比和错误断句占比;

根据早断句占比、晚断句占比和错误断句占比以及VAD断句准确率,得到VAD断句测试结果。

一种VAD断句测试装置,装置包括:

数据获取模块,用于获取不同的音频片段以及各音频片段对应的语音文本;

属性提取模块,用于提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;

集成测试模块,用于将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;

预测测试模块,用于根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;

分析测试模块,用于分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

获取不同的音频片段以及各音频片段对应的语音文本;

提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;

将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;

根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;

分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取不同的音频片段以及各音频片段对应的语音文本;

提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;

将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;

根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;

分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

上述VAD断句测试方法、装置、计算机设备和存储介质,获取不同的音频片段以及各音频片段对应的语音文本,基于预设维度属性标注音频片段,将各音频片段分别集成至不同VAD测试方案中,得到实际识别文本结果,基于已经得到语音文本以及标注后的音频片段,得到预期识别文本结果,通过比较分析,得到VAD断句测试结果。整个过程中,获取不同的音频片段确保数据的全面性,基于预设维度属性对音频片段进行标注,实现标注数据的合理复用,无需复杂的人工标注即可在不同VAD测试方案进行测试、预测与分析,可以实现VAD断句全面且准确测试。

附图说明

图1为一个实施例中VAD断句测试方法的应用场景图;

图2为一个实施例中VAD断句测试方法的流程示意图;

图3为另一个实施例中VAD断句测试方法的流程示意图;

图4为静音片段示意图;

图5为标注后的音频片段示意图;

图6为一个实施例中VAD断句测试装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的VAD断句测试方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102可以从服务器104上抓取到不同的音频片段,终端102通过人工介入标注的方式获取各音频片段对应的语音文本,提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。非必要的,终端102可以将最终的VAD断句测试结果发送至服务器104存储,其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是,本申请VAD断句测试同样可以应用于独立的服务器,服务器通过访问第三方(互联网、其他服务器或终端)方式获取到音频片段,执行上述类似的处理过程,最终得到VAD断句测试结果,具体过程不再赘述。

在一个实施例中,如图2所示,提供了一种VAD断句测试方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:

S100:获取不同的音频片段以及各音频片段对应的语音文本。

不同的音频片段可以通过直接接收外部导入数据的方式得到,或者是通过实时在线采集的方式得到不同的音频片段。具体来说,可以在线无差别的拉取不同的音频片段,例如可以在线拉取某个应用(APP)在实际方案中人机语音交互对应的音频片段。各语音片段对应的语音文本可以理解为将语音数据转换成纯粹的文本数据,即实现语音到文本的“翻译”。这个翻译过程可以是基于语音识别技术来实现还可以是基于人工介入标注的方式得到语音文本,具体可以将音频片段发送至专业标注人员,由专业标注人员在终端上操作标注之后反馈给到终端,得到各音频片段对应的语音文本,进一步的,终端可以先借助TTS(Text To Speech,从文本到语音)功能先识别后辅助人工标注。得到语音文本中不含有标点符号,即不存在断句标识,属于纯粹由文字组成的文本,例如针对某一段音频片段,在ASR(Automatic Speech Recognition,自动语音识别)标注原文之后得到XX协和医院骨科教授张三。

S200:提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段。

预设维度是预先设定用来区分音频片段的维度,该预设维度具体可以包括是否可触发VAD断句,针对可以触发VAD断句的音频片段还包括前/后超时时长、静音时长、静音前识别出字符数以及静音开始时间等维度属性,可以理解预设维度属性可以清楚表征整个音频片段的属性。非必要的,针对可以触发VAD断句的音频片段的预设维度属性可以采用函数式的方式来表征,如采用的预设函数式为W-X-Y/Z,式中W表征前超时B/后超时E,X表征静音时长、Y表征静音前识别出字符数、Z表征静音开始时间。

在S100得到的音频片段中包含有可触发VAD断句的第一类音频片段和无法触发VAD断句的第二类音频片段,音频片段是否可以触发VAD断句具体可以通过比较音频片段对应的静音时长与预设静音时长阈值得出,静音时长大于预设静音时长阈值的音频片段为可以触发VAD断句的第一类音频片段;静音时长不大于预设静音时长阈值的音频片段为无法触发VAD断句的第二类音频片段。非必要的,可以对S100得到的音频片段再次进行筛选和标注,筛选出数量相同的第一类音频片段和第二类音频片段,并分别标注可以触发VAD断句标识以及无法触发VAD断句标识,例如可以分别按照预设静音时长阈值300ms,筛选出1000条可以触发VAD断句的音频片段(第一类音频片段)并标注(例如标注T);筛选出1000条无法触发VAD断句的音频片段(第二类音频片段)并标注(例如标注F)。

S300:将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果。

把音频片段集导入到不同的VAD测试方案(测试方案)中进行测试,具体可以导入到A、B以及C三个VAD断句方案,导入这3个方案中的音频片段是完全相同的,获取同一批音频片段在不同VAD断句方案(不同VAD断句需求)中的语音文本结果A1、B1、C1。

S400:根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果。

在不同VAD测试方案中针对前超时、后超时(B和E)的参数设定是不同的,例如有的场景(方案)中希望前超时长点,有的希望前超时短一点,在具体方案中会设置好应用场景中前超时长和后超时长参数。因此,可以先获取不同VAD测试方案对应配置的前超时长和后超时长参数,将前超时长和后超时长参数导入到标注后的音频片段中,得到语音文本对应的预期断句方案,再结合语音文本即可得到准确的预期识别文本结果。

S500:分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

统计分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。具体来说,可以统计在不同VAD测试方案中应断句准确率、无需断句正确率、在应断句下出现错误断句中的早断句、晚断句以及未断句的情况、以及在无需断句下出现断句的情况。同样针对A、B、C三个VAD测试方案,比较预期识别文本结果A2、B2、C2与实际识别文本结果A1、B1、C1,即分别比较A2与A1、B2与B1以及C2与C1,分析统计比较结果,得到VAD断句测试结果。非必要的,可以采用表格的方式记录下统计结果,具体可以如下表1所示。

表1为某个测试方案中VAD断句测试统计数据表

上述VAD断句测试方法,获取不同的音频片段以及各音频片段对应的语音文本,基于预设维度属性标注音频片段,将各音频片段分别集成至不同VAD测试方案中,得到实际识别文本结果,基于已经得到语音文本以及标注后的音频片段,得到预期识别文本结果,通过比较分析,得到VAD断句测试结果。整个过程中,获取不同的音频片段确保数据的全面性,基于预设维度属性对音频片段进行标注,实现标注数据的合理复用,无需复杂的人工标注即可在不同VAD测试方案进行测试、预测与分析,可以实现VAD断句全面且准确测试。

如图3所示,在一个实施例中,S100包括:

S120:在线采集不同的初始音频片段;

S140:对初始音频片段进行预处理,得到不同的音频片段,预处理包括去除无人声的音频片段、去除噪音的音频片段以及去除语音时长过短的音频片段;

S160:获取各音频片段对应的语音文本。

针对在线采集的初始语音片段,可以进行预处理之后再得到语音片段。在线采集时通过无差别拉取线上音频数据,其中可能存在残缺、噪音的数据,对这些初始的语音片段进行预处理,主要筛选掉其中无人声、杂音过重、语音时长小于一定值(1S)的无效音频,最终得到合格音频片段。对筛选出的音频数据进行文本标注,得到音频数据对应的正确的语音文本,并缓存正确的语音文本,该语音文本是不包含标点符号的。

在一个实施例中,提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段包括:

识别各音频片段中可以触发VAD断句的第一类音频片段以及无法触发VAD断句的第二类音频片段,并分配对应的可触发标识和无法触发标识;识别第一类音频片段中属于前超时的音频片段以及属于后超时的音频片段,并分配对应的前超时标识和后超时标识;提取第一类音频片段对应的静音时长、静音前识别出字符数以及静音开始时间;采用预设函数式,基于可触发标识、无法触发标识、前超时标识、后超时标识以及静音时长、静音前识别出字符数以及静音开始时间,标注音频片段,得到标注后的音频片段。

预设维度属性数据主要用于区分每段音频片段的属性,预设维度属性数据包括音频是否可以触发VAD断句,针对可断句音频片段,其前超时/后超时,静音时长、静音前识别出字符数以及静音开始时间。具体针对是否可以触发VAD断句可以基于预设静音阈值的方式来识别。进一步,对音频片段进行静音时长标注,对于音频片段中大于预设静音时长的音频片段标注为可以触发VAD断句的音频片段,针对音频片段中不大于静音时长的音频片段标注为无法触发VAD断句的音频片段。例如对音频片段中静音时长大于300ms的音频片段标注为可以触发VAD断句的音频片段,具体可以给该音频片段添加可以触发标识,如T;对于音频片段中静音时长不大于300ms的音频片段标注为无法触发VAD断句的音频片段,具体可以给该音频片段添加无法触发标识,例如F。在实际方案中,可以采集得到2000条音频片段构成音频片段集,区分这2000条音频片段中1000条可以触发VAD断句的音频片段以及1000条不会触发VAD断句的音频片段。

进一步的,针对前超时/后超时,静音时长、静音前识别出字符数以及静音开始时间的属性参数,可以采用预设函数式来表征,采用预设函数式标注每个音频片段,其中预设函数式为W-X-Y/Z,式中W表征前超时B/后超时E,X表征静音时长、Y表征静音前识别出字符数、Z表征静音开始时间。例如如图4中的音频片段的静音为中间开始静音W=E(如果静音片段在音频开始阶段W=B)、静音总时长X=0.686、静音前识别字符数y=10、静音开始时间Z=2.278s开始,则E-0.686-10/2.278。这种标注方式可以兼容所有静音设置,实现一次标注多次使用;(如果一个音频中存在多个静音判断,则有多个标注结果即可),最终得到的标注后的音频片段如图5所示。另外,上述前超时是指从开始检测,若先是一段静音片段,那就前超时,如果是有一段音频之后,再出现静音片段那就是后超时。前超时B=BOS,后超时E=EOS;BOS/EOS:计算机将语言当作一个sequence,可以看成是它的初始状态,则通常当作判断终止的标签。

在一个实施例中,预设维度属性包括前超时和后超时;根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果包括:

获取不同VAD测试方案对应配置的前超时和后超时;根据对应配置的前超时和后超时以及标注后的音频片段,对语音文本进行断句,得到预期识别文本结果。

在不同VAD测试方案中针对前超时、后超时(B和E)的参数设定是不同的,例如有的场景(方案)中希望前超时长点,有的希望前超时短一点,在具体方案中会设置好对应的应用前超时和后超时时间参数。前超时参数以及后超时参入整合到标注后的音频片段中即可完成对语音文本的断句,得到预期识别文本结果。非必要的,标注后的音频片段可以通过APP设置的VAD前超时时间、后超时时间,再通过简单的脚本就可以统计出每条标注音频预期的语音识别结果(A2、B2、C2)。

如图3所示,在一个实施例中,S500包括:

S520:根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句正确率和无需断句正确率;

S540:获取在不同VAD测试方案中应断句音频片段占比;

S560:根据应断句音频片段占比以及应断句正确率和无需断句正确率,得到在不同VAD测试方案中VAD断句准确率。

通过比较不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,可以得到应断句正确率和无需断句正确率,例如上述表1所示的实例中,应断句正确率为49.2%、无需断句正确率为90.4%。不同VAD测试方案中应断句音频片段占比在该场景下应当断句的音频片段比例,其可以基于测试方案对应的配置参数得到,可以用λ表示,在得到上述3组数据之后,计算得到不同VAD测试方案中VAD断句准确率。在上述实施例中,具体的计算方式为VAD测试方案中VAD断句准确率Res=49.2%*λ+90.40%*(1-λ),采用相同的方式,在实际A、B、C测试方案中可以得到VAD断句准确率ResA、ResB、ResC,可以从中选择最优的VAD测试方案。

在一个实施例中,上述VAD断句测试方法还包括:

根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句音频片段的早断句占比、晚断句占比和错误断句占比;根据早断句占比、晚断句占比和错误断句占比以及VAD断句准确率,得到VAD断句测试结果。

如上表1所示,根据不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果除了可以得到VAD断句准确率之外,还可以得到在应断句音频片段的早断句占比、晚断句占比和错误断句占比等这些参量的数据,可以综合早断句占比、晚断句占比和错误断句占比以及VAD断句准确率,得到VAD断句测试结果。进一步的,综合具体可以是基于预设权重的方式,采用加权计算得到每个VAD测试方案评分分值,最终选择出分值最高、最优秀的VAD测试方案。

应该理解的是,虽然上述实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图6所示,本申请还提供一种VAD断句测试装置,装置包括:

数据获取模块100,用于获取不同的音频片段以及各音频片段对应的语音文本;

属性提取模块200,用于提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;

集成测试模块300,用于将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;

预测测试模块400,用于根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;

分析测试模块500,用于分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

上述VAD断句测试装置,获取不同的音频片段以及各音频片段对应的语音文本,基于预设维度属性标注音频片段,将各音频片段分别集成至不同VAD测试方案中,得到实际识别文本结果,基于已经得到语音文本以及标注后的音频片段,得到预期识别文本结果,通过比较分析,得到VAD断句测试结果。整个过程中,获取不同的音频片段确保数据的全面性,基于预设维度属性对音频片段进行标注,实现标注数据的合理复用,无需复杂的人工标注即可在不同VAD测试方案进行测试、预测与分析,可以实现VAD断句全面且准确测试。

在一个实施例中,数据获取模块100还用于在线采集不同的初始音频片段;对初始音频片段进行预处理,得到不同的音频片段,预处理包括去除无人声的音频片段、去除噪音的音频片段以及去除语音时长过短的音频片段;获取各音频片段对应的语音文本。

在一个实施例中,属性提取模块200还用于识别各音频片段中可以触发VAD断句的第一类音频片段以及无法触发VAD断句的第二类音频片段,并分配对应的可触发标识和无法触发标识;识别第一类音频片段中属于前超时的音频片段以及属于后超时的音频片段,并分配对应的前超时标识和后超时标识;提取第一类音频片段对应的静音时长、静音前识别出字符数以及静音开始时间;采用预设函数式,基于可触发标识、无法触发标识、前超时标识、后超时标识以及静音时长、静音前识别出字符数以及静音开始时间,标注音频片段,得到标注后的音频片段。

在一个实施例中,属性提取模块200还用于获取各音频片段对应的静音时长以及预设静音时长阈值;若音频片段对应的静音时长大于预设静音时长阈值,则音频片段为第一类音频片段;若静音片段对应的静音时长不大于预设静音时长阈值,则音频片段为第二类音频片段。

在一个实施例中,预设维度属性包括前超时和后超时;预测测试模块400还用于获取不同VAD测试方案对应配置的前超时和后超时;根据对应配置的前超时和后超时以及标注后的音频片段,对语音文本进行断句,得到预期识别文本结果。

在一个实施例中,分析测试模块500还用于根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句正确率和无需断句正确率;获取在不同VAD测试方案中应断句音频片段占比;根据应断句音频片段占比以及应断句正确率和无需断句正确率,得到在不同VAD测试方案中VAD断句准确率。

在一个实施例中,分析测试模块500还用于根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句音频片段的早断句占比、晚断句占比和错误断句占比;根据早断句占比、晚断句占比和错误断句占比以及VAD断句准确率,得到VAD断句测试结果。

关于VAD断句测试装置的具体限定可以参见上文中对于VAD断句测试方法的限定,在此不再赘述。上述VAD断句测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史记录的音频片段等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种VAD断句测试方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取不同的音频片段以及各音频片段对应的语音文本;

提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;

将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;

根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;

分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

在线采集不同的初始音频片段;对初始音频片段进行预处理,得到不同的音频片段,预处理包括去除无人声的音频片段、去除噪音的音频片段以及去除语音时长过短的音频片段;获取各音频片段对应的语音文本。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

识别各音频片段中可以触发VAD断句的第一类音频片段以及无法触发VAD断句的第二类音频片段,并分配对应的可触发标识和无法触发标识;识别第一类音频片段中属于前超时的音频片段以及属于后超时的音频片段,并分配对应的前超时标识和后超时标识;提取第一类音频片段对应的静音时长、静音前识别出字符数以及静音开始时间;采用预设函数式,基于可触发标识、无法触发标识、前超时标识、后超时标识以及静音时长、静音前识别出字符数以及静音开始时间,标注音频片段,得到标注后的音频片段。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取各音频片段对应的静音时长以及预设静音时长阈值;若音频片段对应的静音时长大于预设静音时长阈值,则音频片段为第一类音频片段;若静音片段对应的静音时长不大于预设静音时长阈值,则音频片段为第二类音频片段。

在一个实施例中,预设维度属性包括前超时和后超时;处理器执行计算机程序时还实现以下步骤:

获取不同VAD测试方案对应配置的前超时和后超时;根据对应配置的前超时和后超时以及标注后的音频片段,对语音文本进行断句,得到预期识别文本结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句正确率和无需断句正确率;获取在不同VAD测试方案中应断句音频片段占比;根据应断句音频片段占比以及应断句正确率和无需断句正确率,得到在不同VAD测试方案中VAD断句准确率。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句音频片段的早断句占比、晚断句占比和错误断句占比;根据早断句占比、晚断句占比和错误断句占比以及VAD断句准确率,得到VAD断句测试结果。

在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取不同的音频片段以及各音频片段对应的语音文本;

提取各音频片段对应的预设维度属性,基于预设维度属性标注音频片段,得到标注后的音频片段;

将各音频片段分别集成至不同VAD测试方案中,得到各音频片段在不同VAD测试方案中对应的实际识别文本结果;

根据语音文本以及标注后的音频片段,得到各音频片段对在不同VAD测试方案中的预期识别文本结果;

分析在不同VAD测试方案中、各音频片段对应的实际识别文本结果与预期识别文本结果,得到VAD断句测试结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

在线采集不同的初始音频片段;对初始音频片段进行预处理,得到不同的音频片段,预处理包括去除无人声的音频片段、去除噪音的音频片段以及去除语音时长过短的音频片段;获取各音频片段对应的语音文本。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

识别各音频片段中可以触发VAD断句的第一类音频片段以及无法触发VAD断句的第二类音频片段,并分配对应的可触发标识和无法触发标识;识别第一类音频片段中属于前超时的音频片段以及属于后超时的音频片段,并分配对应的前超时标识和后超时标识;提取第一类音频片段对应的静音时长、静音前识别出字符数以及静音开始时间;采用预设函数式,基于可触发标识、无法触发标识、前超时标识、后超时标识以及静音时长、静音前识别出字符数以及静音开始时间,标注音频片段,得到标注后的音频片段。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取各音频片段对应的静音时长以及预设静音时长阈值;若音频片段对应的静音时长大于预设静音时长阈值,则音频片段为第一类音频片段;若静音片段对应的静音时长不大于预设静音时长阈值,则音频片段为第二类音频片段。

在一个实施例中,预设维度属性包括前超时和后超时;计算机程序被处理器执行时还实现以下步骤:

获取不同VAD测试方案对应配置的前超时和后超时;根据对应配置的前超时和后超时以及标注后的音频片段,对语音文本进行断句,得到预期识别文本结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句正确率和无需断句正确率;获取在不同VAD测试方案中应断句音频片段占比;根据应断句音频片段占比以及应断句正确率和无需断句正确率,得到在不同VAD测试方案中VAD断句准确率。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据在不同VAD测试方案中各音频片段对应的实际识别文本结果与预期识别文本结果,获取在不同VAD测试方案中应断句音频片段的早断句占比、晚断句占比和错误断句占比;根据早断句占比、晚断句占比和错误断句占比以及VAD断句准确率,得到VAD断句测试结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • VAD断句测试方法、装置、计算机设备及存储介质
  • 断句处理方法、装置、电子设备和计算机存储介质
技术分类

06120112376760