一种基于人工智能的语音识别纠错方法及系统

文献发布时间：2024-07-23 01:35:21

技术领域

本发明涉及人工智能技术领域，具体是一种基于人工智能的语音识别纠错方法及系统。

背景技术

人工智能指的是利用计算机科学和机器学习技术模拟、延伸和扩展人类智能的理论、方法、技术和应用系统。人工智能系统可以模仿人类的认知能力，如学习、推理、识别、理解、交流和决策，从而执行各种任务。

当前语音识别技术虽然已经取得了显著的进步，但仍存在一些问题，如识别错误、口音差异等，就需要对语音识别过程进行纠错，语音识别纠错是指通过人工智能技术对语音识别系统输出的文本进行自动编辑和改正，以提高识别准确性和减少错误率；因此，通过人工智能去监测语音识别过程中出现的错误，具有重要的理论和现实意义。

如何利用人工智能技术，对采集的用户语音数据进行信号转换和排序，获得用户信号序列，设置滤除波系数对用户信号序列进行间隔提取，获得用户提取系数并进行间隔提取、数据流转换以及校验变换，获得监测样本矩阵；根据监测样本矩阵对用户系数段进行变换校验，获得校验用户段并进行校验统计和位置修正，获得修正监测段，是我们需要解决的问题，为此，现提供一种基于人工智能的语音识别纠错方法及系统。

发明内容

本发明的目的在于提供一种基于人工智能的语音识别纠错方法及系统。

本发明的目的可以通过以下技术方案实现：

一种基于人工智能的语音识别纠错系统，包括控制中心，所述控制中心连接有语音采集模块、数据处理模块、智能分析模块以及综合监测模块；

所述语音采集模块用于采集用户语音数据和样本语音数据；

所述语音采集模块采集用户语音数据和样本语音数据的过程包括：

设置登录端，通过登录端对用户进行身份注册和身份登录，将完成身份登录的用户标记为采集者；

设置样本采集端和原始采集端，通过样本采集端对采集者的综合信息进行采集，获得用户语音数据；

设置采集指令，将所获得的采集指令发送至用户，通过原始采集端对用户进行样本采集，获得样本语音数据。

获得用户提取系数的过程包括：

对所获得的用户语音数据进行信号转换，获得用户语音信号；

设置统计周期，基于统计周期对所获得的用户语音信号进行排序，获得用户信号序列；

根据所获得的统计周期和用户信号序列设置滤除波系数；

设置调动参数和参数间隔，根据所获得的参数间隔、调动参数以及用户信号序列获得调动个数；

根据所获得的调动个数对所获得的滤除波系数进行调动划分，获得滤波间隔系数；

将所获得的滤波间隔系数与用户信号序列进行间隔提取，获得用户提取系数。

获得用户系数流和样本系数流的过程包括：

对所获得的样本语音数据进行信号转换，获得样本语音信号；

基于统计周期对所获得的样本语音信号进行排序，获得样本信号序列；

将所获得的滤波间隔系数与样本信号序列进行间隔提取，获得样本提取系数；

对所获得的用户提取系数和样本提取系数进行数据流转换，获得用户系数流和样本系数流。

获得监测样本矩阵的过程包括：

对所获得的用户系数流和样本系数流进行流段划分，获得用户系数段和样本系数段；

对所获得的样本系数段进行流段标记，获得特征样本段；

对所获得的特征样本段进行特征组合，获得样本特征矩阵；

对所获得的样本特征矩阵进行校验变换，获得监测样本矩阵。

获得修正监测段的过程包括：

对所获得的监测样本矩阵进行转置变换，获得转置监测矩阵；

将所获得的用户系数段与转置监测矩阵进行相乘，获得校验用户段；

对所获得的校验用户段进行校验统计，获得合格校验段和异常校验段；

根据所获得的异常校验段对用户系数段进行错码比对，获得错码位置；

根据所获得的错码位置对用户系数段进行位置修正，获得修正监测段。

基于上述一种基于人工智能的语音识别纠错系统，本发明还提供了一种基于人工智能的语音识别纠错方法，包括以下步骤：

步骤一：采集用户语音数据和样本语音数据；

步骤二：对用户语音数据进行信号转换和排序，获得用户信号序列，设置滤除波系数并进行调动划分，获得滤波间隔系数，根据滤波间隔系数对用户信号序列进行间隔提取，获得用户提取系数；

步骤三：对样本语音数据进行信号转换和间隔提取，获得样本提取系数，对用户提取系数和样本提取系数进行数据流转换，获得用户系数流和样本系数流，通过对样本系数流进行流段划分，获得样本系数段，对所获得的样本系数段进行流段标记和校验变换，获得监测样本矩阵；

步骤四：根据监测样本矩阵对用户系数段进行变换校验，获得校验用户段，对所获得的校验用户段进行校验统计，获得合格校验段和异常校验段，对异常校验段进行错码比对和位置修正，获得修正监测段。

与现有技术相比，本发明的有益效果是：对采集的用户语音数据进行信号转换和排序，获得用户信号序列，设置滤除波系数对用户信号序列进行间隔提取，获得用户提取系数，对样本语音数据进行信号转换和间隔提取，获得样本提取系数；将采集的用户语音数据和样本语音数据转换成同一数据形式，有利于提高用户语音数据校验的标准性；

对样本提取系数进行数据流转换和校验变换，获得监测样本矩阵；根据监测样本矩阵对用户系数段进行变换校验，获得校验用户段并进行校验统计和位置修正，获得修正监测段；将获得的用户语音数据和样本语音数据转换成便于纠错的矩阵形式，有利于提高语音识别的准确性，便于对用户语音数据进行规范化纠错，提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的原理图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种基于人工智能的语音识别纠错系统，包括控制中心，所述控制中心连接有语音采集模块、数据处理模块、智能分析模块以及综合监测模块；

所述语音采集模块用于采集用户语音数据和样本语音数据，具体过程包括：

设置登录端，通过登录端对用户进行身份注册和身份登录；

通过登录端输入用户的个人信息和登录密码，通过控制中心对个人信息进行审核，对审核通过的个人信息授予登录指令，并根据个人信息生成用户账号；

根据所获得的登录指令，将所获得的用户账号和登录密码上传至登录端进行身份登录，将完成身份登录的用户标记为采集者；

设置样本采集端和原始采集端；

通过样本采集端对采集者的综合信息进行采集，获得用户语音数据；

设置采集指令，将所获得的采集指令发送至用户，通过原始采集端对用户进行样本采集，获得样本语音数据；

需要进一步说明的是，在具体实施过程中，所述采集指令表示通过设置标准的发音材料给用户进行发音，如数字、单词、短语和句子，确保采集的样本语音数据具有代表性；所数样本采集表示用户根据获得的采集指令进行朗读发音，再通过原始采集端对用户的发音数据进行采集，获得样本语音数据。

所述数据处理模块用于对用户语音数据进行信号转换和排序，获得用户信号序列，设置滤除波系数对用户信号序列进行间隔提取，获得用户提取系数，具体过程包括：

对所获得的用户语音数据进行信号转换，获得用户语音信号；

设置统计周期，基于统计周期对所获得的用户语音信号进行排序，获得用户信号序列；

根据所获得的统计周期和用户信号序列设置滤除波系数；

所述滤除波系数的表现形式为函数形式；

设置调动参数，所述调动参数是用于控制滤除波系数在时间维度和频率维度上的伸缩和平移变换的参数；

根据所获得的用户语音信号设置参数间隔，所述参数间隔表示相邻两个调动参数之间的距离；

根据所获得的参数间隔、调动参数以及用户信号序列获得调动个数，将所获得的调动个数标记为DS，其中，

根据所获得的调动个数对所获得的滤除波系数进行调动划分，获得滤波间隔系数；

需要进一步说明的是，在具体实施过程中，所述调动划分表示根据获得的调动个数的数量对滤除波系数进行均等划分，获得等长的滤波间隔系数；

将所获得的滤波间隔系数与用户信号序列进行间隔提取，获得用户提取系数；

需要进一步说明的是，在具体实施过程中，所述间隔提取表示将获得的滤波间隔系数按照调动划分的顺序依次上传至用户信号序列，并将滤波间隔系数与用户信号序列的对应位置进行卷积，获得间隔提取系数，直至所有的滤波间隔系数均与用户信号序列完成卷积，对所获得的间隔提取系数进行卷积，获得用户提取系数。

所述智能分析模块用于对样本语音数据进行间隔提取、数据流转换以及校验变换，获得监测样本矩阵，具体过程包括：

对所获得的样本语音数据进行信号转换，获得样本语音信号；

进一步的，对样本语音数据进行信号转换与对用户语音数据进行信号转换的转换规则相同；

基于统计周期对所获得的样本语音信号进行排序，获得样本信号序列；

将所获得的滤波间隔系数与样本信号序列进行间隔提取，获得样本提取系数；

对所获得的用户提取系数和样本提取系数进行数据流转换，获得用户系数流和样本系数流；

需要进一步说明的是，在具体实施过程中，所述数据流转换是将获得的用户提取系数和样本提取系数转换成若干二进制码元组成的数据流；

对所获得的用户系数流和样本系数流进行流段划分，获得用户系数段和样本系数段；

进一步的，所述流段划分表示将用户系数流内的二进制码元按照7个为一组进行划分，获得用户系数段，若最后一组不满足7个，则向前进行补码，直至满足7个；同样的，对样本系数流内的二进制码元按照7个为一组进行划分，获得样本系数段；

对所获得的样本系数段进行流段标记，获得特征样本段；

进一步的，所述流段标记表示将获得的样本系数段的7个二进制码元按照前4个码元为一组，记作前端码元，将后3个码元为一组，记作特征码元；

将所获得的特征样本段标记为i＝1、i＝2、i＝3、i＝4、i＝5、i＝6、i＝7，其中i＝1、i＝2、i＝3、i＝4记为前端码元，i＝5、i＝6、i＝7记为特征码元；

对所获得的特征样本段进行特征组合，获得样本特征矩阵，并将所获得的样本特征矩阵标记为Z；

需要进一步说明的是，在具体实施过程中，所述特征组合的过程包括：

对获得的特征样本段进行分组，按照三个特征样本段为一组进行组合，获得样本特征矩阵，所获得的样本特征矩阵是3×7的矩阵，即3行7列的矩阵；

将样本特征矩阵中前端码元对应的三行特征样本段标记为前端矩阵，即3×4的矩阵，并将所获得的前端矩阵标记为P；

将样本特征矩阵中特征码元对应的三行特征样本段标记为特征矩阵，即3×3的矩阵，并将所获得的特征矩阵标记为I；

例如，用户特征矩阵为

特别地，对应的样本特征矩阵可以记作T＝[P┆I]，若对特征样本段进行特征组合的最后一组不满足三个特征样本段，则由末尾开始向前划分三个为一组获得样本特征矩阵；

对所获得的样本特征矩阵进行校验变换，获得监测样本矩阵，将所获得的监测样本矩阵标记为Z

需要进一步说明的是，在具体实施过程中，所述校验变换表示对获得的样本特征矩阵内的每一行进行模2加，直至模2加后的样本特征矩阵中的特征矩阵为单位矩阵，则将模2加后的样本特征矩阵标记为监测样本矩阵。

所述综合监测模块用于根据监测样本矩阵对用户系数段进行变换校验，获得校验用户段并进行校验统计和位置修正，获得修正监测段，具体过程包括：

根据所获得的监测样本矩阵对所获得的用户系数段进行变换校验，获得校验用户段；

需要进一步说明的是，在具体实施过程中，所述变换校验的过程包括：

将所获得的用户系数段标记为Y

对所获得的监测样本矩阵进行转置变换，获得转置监测矩阵；

将所获得的用户系数段与转置监测矩阵进行相乘，获得校验用户段，将所获得的校验用户段标记为X，其中，

对所获得的校验用户段进行校验统计，获得合格校验段和异常校验段；

进一步的，所述校验统计表示根据校验用户段的状态，划分合格校验段和异常校验段；

当校验用户段为零矩阵，则校验用户段为合格校验段，表示进行变换校验的用户系数段是正确的，与样本语音数据能够比对成功，即识别的用户的语音数据是正确的，没有错误的；

当校验用户段为非零矩阵，则校验用户段为异常校验段，表示进行变换校验的用户系数段有错误，即识别的用户的语音数据是有错误的；

根据所获得的异常校验段对监测样本矩阵进行安全纠错，获得修正监测段；

需要进一步说明的是，在具体实施过程中，所述安全纠错的过程包括：

根据校验用户段进行校验统计后，获得的合格校验段和异常校验段，则合格校验段为X＝000，异常校验段为X＝001、X＝010、X＝100、X＝011、X＝101、X＝110以及X＝111；

根据所获得的异常校验段对用户系数段进行错码比对，获得错码位置；

所述获得错码位置的过程包括：

当X＝111，表示用户系数段的错码位置为j＝1；

当X＝110，表示用户系数段的错码位置为j＝2；

当X＝101，表示用户系数段的错码位置为j＝3；

当X＝011，表示用户系数段的错码位置为j＝4；

当X＝100，表示用户系数段的错码位置为j＝5；

当X＝010，表示用户系数段的错码位置为j＝6；

当X＝001，表示用户系数段的错码位置为j＝7；

根据所获得的错码位置对用户系数段进行位置修正，获得修正监测段；

所述位置修正表示将错误位置的二进制码元由原来的1修改成0或由原来的0修改成1；

例如，当用户系数段为1010001，若获得的异常校验段为X＝010，即用户系数段的错码位置为j＝6，就对用户系数段的j＝6位置处的二进制码元由0修改为1，获得1010011为修正监测段；

进一步的，对所获得的用户系数段依次进行校验统计，并对获得的异常校验段进行位置修正，确保所获得的用户语音数据均是正确的。

基于上述一种基于人工智能的语音识别纠错系统，本发明还提供了一种基于人工智能的语音识别纠错方法，包括以下步骤：

步骤一：采集用户语音数据和样本语音数据；

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：湖北云超智能科技有限公司;

上一篇：一种基于大规模音频理解模型的异常音检测方法
下一篇：基于声纹分析的索道入侵事件快速分析预警方法及装置