乐器、声学

  • 一种基于语音信号处理的意图识别系统
    一种基于语音信号处理的意图识别系统

    本发明涉及语音识别技术领域,尤其涉及一种基于语音信号处理的意图识别系统,包括,客户端,其用于采集任一用户的语音信号;系统预处理器,其与所述客户端相连接,用于对采集的语音信号进行预处理,所述预处理包括,对采集信号去除噪声并识别其中的人声并强化处理;系统特征处理器,其与所述系统预处理器相连接,用于对强化的人声进行特征提取;系统识别推荐器,其与所述系统特征处理器相连接,对提取的特征进行意图识别和银行产品推荐。本发明通过使用先进的机器学习算法进行意图识别,提高了意图识别的精度。

    2024-07-26
  • 一种多设备语音控制方法及系统
    一种多设备语音控制方法及系统

    本发明属于语音控制领域,具体涉及一种多设备语音控制方法及系统。本发明通过采集用户语音控制相应设备的历史操作记录数据,并根据历史操作记录分析用户控制设备的习惯,当语音识别过程中识别到泛化指令时,则利用对历史操作记录的分析结果,对用户控制意图进行估测,相应控制特定的多个家居设备,从而提高了设备控制准确率,提升了用户体验;并且,本发明在进行历史操作记录分析前,先从主机操作记录中筛选出可语音控制的设备,后续仅使用这些可语音控制的设备的操作记录数据进行相应的计算和控制,能够防止通过语音控制指令信息进行控制时误触发非语音控制设备,同时也能够避免与语音控制指令信息无关设备数据的干扰,提高控制效率。

    2024-07-26
  • 一种心肺音信号的识别方法、装置及智能听诊器
    一种心肺音信号的识别方法、装置及智能听诊器

    本申请提供一种心肺音信号的识别方法、装置及智能听诊器,涉及心肺音检测技术领域,特别是涉及一种心肺音信号的识别方法,包括:获取听诊数据;对听诊数据,进行预处理,得到预处理数据;对预处理数据,进行分析处理,得到心肺音信号;对心肺音信号,进行分离处理,得到心音信号和肺音信号;将心音信号和肺音信号,输入预先训练好的基于Transformer的encoder模型架构的心肺音识别模型,得到识别结果。本申请能够提高心肺音信号识别的准确性。

    2024-07-26
  • 一种声音延迟的测试方法、装置、电子设备及存储介质
    一种声音延迟的测试方法、装置、电子设备及存储介质

    本申请提供了一种声音延迟的测试方法、装置、电子设备及存储介质,测试方法包括:播放终端播放当前测试音频,同时将播放的当前测试音频发送给车载信息娱乐系统进行播放;收音终端对播放终端播放的当前测试音频和车载信息娱乐系统播放的当前测试音频进行录音,得到录音音频,从而确定当前测试音频的延迟结果;遍历测试语音文件,得到车载信息娱乐系统的声音延迟结果。采用本申请提供的技术方案能够通过收音终端对播放终端播放的音频以及车载信息娱乐系统播放的音频同时录音,自动确定出两个音频的延迟,提高了车载信息娱乐系统声音延迟判断的效率,并且对测试语音文件中大量的测试音频进行测试,也提高了车载信息娱乐系统声音延迟判断的准确性。

    2024-07-26
  • 一种意图识别模型的确定方法、装置、设备及介质
    一种意图识别模型的确定方法、装置、设备及介质

    本发明公开了一种意图识别模型的确定方法、装置、设备及介质。其中,所述方法包括:确定至少一个语音数据,根据语音数据确定语音文本数据;语音文本数据包括至少一个中文字符;语音数据的数量小于预设阈值;对语音文本数据进行处理得到语音数据的汉字部件序列集合;对汉字部件序列集合进行处理得到语音数据的部件特征向量;将各部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,以使意图识别模型根据语音输入数据确定意图识别结果。通过执行本方案,可以实现无需通过大数据集训练得到的深度神经网络就可高效、快速地确定意图识别结果,有助于人机对话更加流畅地进行,提升用户的通话体验。

    2024-07-26
  • 分类器训练方法、语音识别方法、设备及存储介质
    分类器训练方法、语音识别方法、设备及存储介质

    本发明涉及语音识别技术领域,公开了一种分类器训练方法、语音识别方法、设备及存储介质,包括:将预先获取的音频样本输入至端到端语音识别系统中,得到音频样本的第一样本识别结果和样本端到端分数;将音频样本输入至混合语音识别系统中,得到音频样本的第二样本识别结果、样本声学分数和样本语言分数;基于样本端到端分数、样本声学分数、样本语言分数、第一样本识别结果、第二样本识别结果和样本标签,对二次曲面方程的系数进行更新,得到目标分类器;基于目标分类器从端到端语音识别系统和混合语音识别系统的语音识别结果中,确定最终的语音识别结果。本发明能够提高端到端语音识别系统和混合语音识别系统融合后的语音识别率。

    2024-07-26
  • 语言评测方法及相关装置、设备和存储介质
    语言评测方法及相关装置、设备和存储介质

    本申请公开了一种语言评测方法及相关装置、设备和存储介质,其中,语言评测方法包括:获取目标对象朗读目标文本的音频信息,作为待测音频;获取目标文本的第一发音序列,以及获取待测音频中顺序排列的各个语音段的第二发音序列;基于第一发音序列与语音段的第二发音序列之间的匹配结果,确定语音段对应于目标文本中的位置信息;基于各个语音段和语音段对应于目标文本中的位置信息,得到待测音频的评测结果。上述方案,能够提升语言评测的准确性。

    2024-07-26
  • 一种通过通话进行智能测评的方法、系统、设备和介质
    一种通过通话进行智能测评的方法、系统、设备和介质

    一种通过通话进行智能测评的方法,涉及测评领域。在该方法中,响应于用户发送测评指令操作,向目标对象发送通话连接请求;当目标对象接受通话连接请求时,通过语音的方式对预设的测评表中的题目进行播放,并通过采集目标对象的语音确定目标对象的答题结果;获取目标对象在答题时的多维度数据,并根据答题结果和多维度数据进行加权求和得到每道题的得分,多维度数据包括答题时间、答题情绪和答题语气波动;以及根据每道题的得分计算得到所有题目的总得分,并根据所述总得分生成解析报告。实施本申请提供的技术方案,达到了可以让目标对象独自完成测评且记录测评过程中的情绪和波动的效果。

    2024-07-26
  • 一种基于大规模音频理解模型的异常音检测方法
    一种基于大规模音频理解模型的异常音检测方法

    本发明公开了一种基于大规模音频理解模型的异常音检测方法,涉及音频领域,利用基于大语言模型的大规模音频理解模型首先收集少部分异常音相关的数据,并对模型在任务上进行微调。本发明可以在只有少量数据的情况下达到性能的泛化,并且可以泛化到没有见到的机器音。

    2024-07-26
  • 一种基于人工智能的语音识别纠错方法及系统
    一种基于人工智能的语音识别纠错方法及系统

    本发明公开了一种基于人工智能的语音识别纠错方法及系统,涉及人工智能技术领域,包括控制中心,所述控制中心连接有语音采集模块、数据处理模块、智能分析模块以及综合监测模块;所述语音采集模块采集用户语音数据和样本语音数据;在数据处理模块对用户语音数据进行信号转换和排序,获得用户信号序列,设置滤除波系数对用户信号序列进行间隔提取,获得用户提取系数;在智能分析模块对样本语音数据进行间隔提取、数据流转换以及校验变换,获得监测样本矩阵;在综合监测模块根据监测样本矩阵对用户系数段进行变换校验,获得校验用户段并进行校验统计和位置修正,获得修正监测段;提高语音识别准确性和工作效率,提升用户体验。

    2024-07-26
  • 心音信号质量评估方法、电子设备及可读存储介质
    心音信号质量评估方法、电子设备及可读存储介质

    本申请公开了一种心音信号质量评估方法、电子设备及可读存储介质,本申请涉及信号处理技术领域,所述心音信号质量评估方法包括:采集心音信号;对所述心音信号进行特征提取得到信号特征,其中,所述信号特征包括局部方差特征、局部峰值特征、信号能量特征、过零率特征中的一种或多种;将所述信号特征输入至预训练的信号质量评估模型中,输出得到信号质量评估结果。本申请实现了对心音信号的信号质量的有效评估。

    2024-07-26
  • 语音识别的方法、装置、终端设备及存储介质
    语音识别的方法、装置、终端设备及存储介质

    本申请实施例涉及金融科技技术领域,具体提供一种语音识别的方法、装置、终端设备以及存储介质。该方法包括:获得第一热词词集并根据声学模型获得声学信息,并根据声学信息获得文本数据对应的第一目标声学信息;根据文本数据从第一热词词集中确定第二热词词集,并根据第一目标声学信息确定第二热词词集对应的热词映射表;获得目标音频并根据声学模型对目标音频进行识别获得第二目标声学信息;根据热词映射表对第二目标声学信息进行识别获得第一目标文本和第三目标声学信息;根据语言模型对第三目标声学信息进行识别获得第二目标文本;融合第一目标文本和第二目标文本获得第三目标文本并作为目标音频的语音识别结果,进而提高语音识别的准确率。

    2024-07-26
  • 一种基于噪声监测数据识别的施工行为检测方法和系统
    一种基于噪声监测数据识别的施工行为检测方法和系统

    本发明公开了一种基于噪声监测数据识别的施工行为检测方法和系统,包括有以下步骤:从噪声自动监测设备获取建筑工地的噪声瞬时数据;对获取的噪声瞬时数据进行计算,获取对应时间序列的分钟级等效声级;基于活动状态分析模型,在多个时间表的1min噪声等效声级中提取特征;对判定为活动状态的对象数据进行记录并输出;还包括有壳体、安装内腔、电池包、控制电路板、控制芯片、通讯芯片、放大电路、滤波电路、插入开口、可拆电路板、噪声监测传感器、下压锁定组件和分离组件。本发明具有以下优点和效果:能够输出相应关键时间范围的噪声监测数据、施工状态信息;将噪声监测传感器单独的分离出来,具有拆卸及安装噪声监测传感器便捷的优点。

    2024-07-26
  • 识别模型的训练方法、装置、计算机设备
    识别模型的训练方法、装置、计算机设备

    本申请涉及一种识别模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。可以应用于车载终端、云服务器或其它设备与具有声纹识别功能的应用程序进行交互的应用场景,包括:对音频样本进行切片,得到第一音频切片和第二音频切片;通过识别模型中的第一分支网络、第二分支网络分别对第一音频切片、第二音频切片进行处理得到第一编码特征、第一高维特征、第二编码特征和第二高维特征;根据第一高维特征和第二高维特征以及音频样本数量确定第一损失值,根据第一编码特征和第二编码特征确定第二损失值;根据第一损失值和第二损失值优化第一分支网络,得到目标识别模型。采用本方法能够有效提高识别模型识别说话人身份的准确性。

    2024-07-26
  • 智能设备语音控制方法、智能设备及可读介质
    智能设备语音控制方法、智能设备及可读介质

    本公开提供一种智能设备语音控制方法,应用于智能设备,包括:检测目标终端,在检测到目标终端的情况下,确定目标终端的运动状态信息;在智能设备处于工作模式,且目标终端的运动状态信息满足停止采集音频数据的条件的情况下,智能设备停止采集音频数据,并从工作模式切换至休眠模式;本公开实施例在用户不需要智能设备的语音识别功能时,能够自适应控制智能设备退出工作模式,进入休眠模式,在休眠模式下,智能设备不采集环境的音频数据、不进行声波识别和语音语义识别等操作,可以解决隐私泄露的问题,保护用户的隐私安全,提高信息安全性。本公开还提供一种智能设备和可读介质。

    2024-07-26
  • 可穿戴设备的交互方法、装置、设备及介质
    可穿戴设备的交互方法、装置、设备及介质

    本申请公开了一种可穿戴设备的交互方法、装置、设备及介质,涉及可穿戴技术领域。其中,方法包括:接收可穿戴设备的佩戴者输入的语音指示信息;响应于语音指示信息,确定目标应用和目标操作;根据目标应用、目标操作及生成式引擎,控制目标应用执行目标操作。该方法实现了将生成式引擎融合至可穿戴设备,使得可穿戴设备可应用生成式引擎。这样丰富了可穿戴设备的功能,提升了可穿戴设备的性能。

    2024-07-26
  • 基于声纹分析的索道入侵事件快速分析预警方法及装置
    基于声纹分析的索道入侵事件快速分析预警方法及装置

    本发明提供了一种基于声纹分析的索道入侵事件快速分析预警方法及装置,涉及声纹分析技术领域,本发明将采集到的各类潜在故障声音样本,合成为训练用的噪声,并将之与深度学习融合,监督训练为一个有效的识别模型。同时本发明使用非监督的方式,进一步引导系统对未知故障进行判断。本发明解决了现有技术在大型野外环境中,索道检测系统存在精确度低、可靠性差、无法准确及时预警的问题。本发明无需采集大量故障数据,即可使用生成型模型根据数据样本动态合成故障数据样本。对于故障数据样本未能覆盖的数据,本发明通过无监督学习的距离判断方法,得到潜在的异常频谱,并根据潜向量距离,得到异常分数,以进一步判断故障的可能性。

    2024-07-26
  • 基于热词图的语音识别方法、装置、设备及存储介质
    基于热词图的语音识别方法、装置、设备及存储介质

    本申请公开了一种基于热词图的语音识别方法、装置、电子设备及计算机可读存储介质,属于语音识别技术领域,包括:将获取的语音文件切分为多个语音片段,并提取语音片段的声学特征;根据声学特征和预设的关系图,获得声学特征的声学识别结果;基于预设的热词图,从声学识别结果包括的所有词语中筛选获得与声学特征对应的至少一个目标词语,并获得与每个目标词语对应的热词概率;根据声学识别结果和修正后的热词概率,计算每个词语的综合得分,并根据综合得分,从所有词语中选取与语音片段对应的输出词语,以及将所有输出词语拼接获得所属语音文件的识别文本。解决了在语音识别过程中,由于环境噪音引起的识别不准确的问题。

    2024-07-26
  • 一种课堂状态确定方法、装置、介质和电子设备
    一种课堂状态确定方法、装置、介质和电子设备

    本申请实施例公开了一种课堂状态确定方法、装置、介质和电子设备。该方法包括:将待识别的目标课堂语音切分为至少两组课堂语音片段,并提取所述课堂语音片段的语音频谱特征;基于所述课堂语音片段的语音频谱特征,确定所述课堂语音片段对应的发声人数、发声时机和语音内容;基于所述课堂语音片段对应的发声人数、发声时机和语音内容,确定所述目标课堂语音对应的课堂状态。执行本申请技术方案可以对出现多人同步发声和多人异步发声的场景进行识别,扩展课堂状态分析可适用的场景,有利于更好的协助教师分析课堂状态方便其及时调整教学方法。

    2024-07-26
  • 长时语音情感状态识别方法、装置、电子设备及存储介质
    长时语音情感状态识别方法、装置、电子设备及存储介质

    本申请公开了一种长时语音情感状态识别方法、装置、电子设备及存储介质,涉及语音识别技术领域,方法包括:获取达到设定时长的语音数据;对语音数据进行预处理;从预处理后的语音数据中提取语音特征;将语音特征输入经过预先训练的语音识别模型,得到语音识别模型对语音特征预测的情感状态。本申请的语音识别模型包括长短记忆网络,可利用长短记忆网络中的记忆单元存储和更新的情感状态,因此能够更好地捕捉长时语音中情感状态的演变和模式,同时整合先前的情感状态,提高对当前情感状态的理解,从而提高情感状态识别的准确性。而且,本申请通过采用长短记忆网络,实现对情感状态的快速识别和预测,满足实时应用的需求。

    2024-07-26
  • 客户意向预测方法、装置、设备和介质
    客户意向预测方法、装置、设备和介质

    本公开提供了一种客户意向预测方法,可以应用于金融科技技术领域。该客户意向预测方法包括:在得到用户充分授权的情况下,获取服务过程中的第一对话语音;识别所述第一对话语音中的有效对话作为第二对话语音;将所述第二对话语音转化为有效对话文本;以及基于所述有效对话文本输出意向结果。本公开还提供了一种客户意向预测装置、设备和介质。

    2024-07-24
  • 基于特征增强注意力机制的语音欺骗检测方法
    基于特征增强注意力机制的语音欺骗检测方法

    本发明公开了一种基于特征增强注意力机制的语音欺骗检测方法,包括训练阶段和测试阶段,在训练阶段获取训练语料并进行预处理,构建语音欺骗检测模型,将训练语料的声学特征输入到检测模型中进行模型训练,检测模型包括特征提取和分类两大部分,在特征提取中提出特征增强注意力机制,包括局部编码模块和全局感知模块,局部编码模块用于聚合局部特征区域,全局感知模块用于捕获特征的全局远程依赖关系,然后将提取到的局部特征和全局特征进行融合得到增强特征,并输入至分类器中进行真伪分类;然后在测试阶段完成对真实语音和合成语音真伪的检测,实现高质量的语音欺骗检测。

    2024-07-24
  • 一种基于声纹样本扩充网络的配电变压器声纹识别优化方法和系统
    一种基于声纹样本扩充网络的配电变压器声纹识别优化方法和系统

    本发明涉及一种基于声纹样本扩充网络的配电变压器声纹识别优化方法和系统,所述方法包括以下步骤:S1、选取实际采集的配电变压器声纹数据并进行预处理后组成训练集和测试集;S2、构建生成器网络和判别器网络进而构建声纹样本扩充网络;S3、将声纹样本扩充网络和识别模型级联并整体端到端地使用训练集进行训练,优化识别模型;S4、将优化后的识别模型使用测试集进行测试,并用于配电变压器声纹类型识别。有益效果是基于注意机制进行样本扩充,能与后续识别方法有效级联提高整体识别精度。

    2024-07-24
  • 基于智能语音交互监管平台信息管理系统
    基于智能语音交互监管平台信息管理系统

    本发明公开了基于智能语音交互监管平台信息管理系统,涉及信息管理技术领域,包括语音交互设备安装、语音输入、语音识别、自然语言处理、数据匹配和查询、预警和异常检测、决策支持、反馈和输出和数据管理和存储,本发明提升整体装置的稳定性,采用承接台、运动座、安装筒等组件,实现对语音交互设备的同步固定和松脱,使得安装过程更为简便快捷,减少了人力和时间成本,其语音交互设备能够与监管系统进行语音交互,通过语音输入、语音识别、自然语言处理等技术实现与用户的交流,提高了用户的使用便利性和体验,节省了用户的时间,用户提供更加便捷、高效的语音交互方式,辅助监管人员进行数据分析和决策支持,具有广泛的应用前景和实用价值。

    2024-07-24
  • 一种基于现有车辆的语音控制方法、装置、设备及车辆
    一种基于现有车辆的语音控制方法、装置、设备及车辆

    本申请公开了基于现有车辆的语音控制方法、装置、设备及车辆,涉及车辆技术领域,基于现有车辆的语音控制方法包括:获取语音数据,确定语音数据的语言类型,如果确定出的语言类型不是目标语言类型,那么将语音数据对应的语言类型转换为目标语言类型,之后基于目标语言类型对车辆进行控制,目标语言类型为现有车辆支持的语言类型,通过上述方式降低了现有车辆对于语音控制系统改进的成本,进一步扩大了现有车辆的适用性。

    2024-07-24
  • 基于音乐基因表达编程的特定作曲风格音乐生成方法
    基于音乐基因表达编程的特定作曲风格音乐生成方法

    本申请涉及一种基于音乐基因表达编程的特定作曲风格音乐生成方法。所述方法包括:将音乐的乐谱映射成由八进制数作为基因组成的基因型并根据音乐基因表达式编程技术进化基因型,得到多个新的基因型;通过增设记忆细胞及门控机制的方式改进LSTM网络构建音乐评估网络,对音乐评估网络进行训练,根据训练好的音乐评估网络对多个新的基因型的音乐特征进行学习,将多个新的基因型进行快速傅里叶变换后得到的频谱,采用相似度矩阵计算频谱与预先构建的训练集中其他音乐的相似度平均值作为适应度值;将适应度最高的新的基因型进行解码输出,得到特定作曲风格的音乐。采用本方法能够自动生成特定作曲风格音乐。

    2024-07-24
  • 一种用于钢琴加工的打孔与仓储装置
    一种用于钢琴加工的打孔与仓储装置

    本发明公开了一种用于钢琴加工的打孔与仓储装置,其特征在于,包括自动打孔装置和提升式仓储机构;自动打孔装置包括工作台、打孔单元和移动装配平台;提升式仓储机构包括主框架、折叠仓储平台和动力提升装置;打孔单元设置于移动装配单元上方;折叠仓储平台包括货架板、折叠连杆和滑轨机构;相邻两货架板之间通过折叠连杆连接,货架板两侧通过滑轨机构与主框架可滑动地连接;钢琴侧板与支腿固定在移动装配平台上经过装配、刷胶后移动至打孔单元下方进行自动打孔;完成打孔后就近转移至提升式仓储机构的货架板上;货架板采用可升降折叠设计能够减小占地面积充分利用空间,同时便于上下货。

    2024-07-24
  • 语音识别方法、装置、设备及介质
    语音识别方法、装置、设备及介质

    本申请实施例提供一种语音识别方法、装置、设备及介质,语音识别方法,包括:获取语音信息和手势图像,识别语音信息,得到语音信息的准文本信息,并识别手势图像中的手势,得到手势图像对应的手势信息;在语音信息的发声对象和手势的操作对象为同一对象时,对手势信息和准文本信息进行融合处理,得到语音信息对应的目标文本信息。本申请实施例的目标文本信息根据语音信息和手势图像两种信息类型获得,能够有效提高语音识别的准确性。

    2024-07-24
  • 一种基于变分自编码器和谱图变换的音乐生成方法
    一种基于变分自编码器和谱图变换的音乐生成方法

    本发明公开了一种基于变分自编码器和谱图变换的音乐生成方法,构建了基于变分自编码器和谱图变换的作曲模型,在编码器和解码器上均使用卷积神经网络,并将此网络命名为MelVAE,该模型将音乐预处理进行梅尔频谱变换,再将频谱特征压缩为低维潜在编码。为了提高谱图重构质量,本发明又提出了一种基于梯度的频谱反演模型。最后从潜在空间中随机采样一组音乐表示编码。通过MelVAE的解码器部分,可以将潜在空间中的采样点映射回音频频谱,使用频谱反演模型将谱图转换为音频信号,极大地提高了频谱到音频的重构质量。

    2024-07-24
  • 一种字幕输出方法、装置及相关设备
    一种字幕输出方法、装置及相关设备

    本公开提供一种字幕输出方法、装置及相关设备,涉及人工智能的技术领域,所述方法包括:获取投屏场景中待识别的原始语音信息;根据多个参考语料对所述原始语音信息进行识别,得到字幕信息,其中,所述多个参考语料包括第一语料、第二语料以及第三语料,所述第一语料来源于所述投屏场景的当前投屏画面,所述第二语料来源于所述投屏场景的历史投屏画面,所述第三语料来源于所述投屏场景对应的业务语料库,所述第一语料的应用优先级高于所述第二语料的应用优先级,所述第二语料的应用优先级高于所述第三语料的应用优先级;显示所述字幕信息。本公开能令输出的字幕的准确性得到显著提升。

    2024-07-24
  • 特定说话人语音识别方法、装置、相关设备及计算机程序产品
    特定说话人语音识别方法、装置、相关设备及计算机程序产品

    本申请公开了一种特定说话人语音识别方法、装置、相关设备及计算机程序产品,采用解耦每个说话人的方式,给语音识别模型一个目标说话人的提示语音及待分离的混合语音,让模型一次只输出混合语音中该目标说话人的说话内容对应的识别文本,模型每次输出仅包含一个目标说话人的说话内容识别文本,可以保证说话人与说话内容识别文本间的对应匹配,且避免传统方案由于分隔符位置预测错误所导致的多个说话人的说话内容预测错误的情况。本申请方案中模型能够以目标说话人的提示语音作为参考,更加准确的从混合语音中分离出目标说话人的说话内容识别文本,提升了目标说话人语音识别结果的准确度。

    2024-07-24
  • 边缘智能语音识别方法及系统装置
    边缘智能语音识别方法及系统装置

    本发明公开了边缘智能语音识别方法及系统装置,涉及语音信号处理技术领域,通过分析当前指定场景下的噪音水平和回声时长,得到指定场景下的环境因素对智能语音识别过程的影响程度,从而边缘智能语音识别系统在屏幕中显示用户说话时需要的音频响度和与麦克风的距离,音频综合分析模块结合了用户的音频质量评估系数和指定场景的环境影响因子,从而得到更全面的音频综合评估系数,在噪音较高的环境中,系统可以建议用户调整说话声音的音量和与麦克风的距离,以提高识别准确性,使得系统可以更准确地评估每个用户在特定场景下的音频质量。

    2024-07-24
  • 语音识别前端设备、系统和方法
    语音识别前端设备、系统和方法

    本发明涉及语音识别和声信号处理技术领域,提供了语音识别前端设备、系统和方法。其中,语音识别前端设备包括蜗管结构和声音传感器,蜗管结构具有螺旋腔体,螺旋腔体的横截面积由外向内逐渐减小,蜗管结构设有至少一个与螺旋腔体连通的声音输出孔,螺旋腔体的位于外侧的腔体入口用于声音输入,声音输出孔处均安装有声音传感器,并且通过声音传感器的安装使声音输出孔对外密闭。应用本发明的技术方案,蜗管结构避免了完全复刻耳蜗的复杂形状和功能,以声音传播的物理规律为依据,通过结构和硬件的联合设计,实现了高效的阻抗变换和信号接收质量的提升,为后续的语音识别或声信号处理提供了更有力的支撑。

    2024-07-24
  • 一种数据收集方法、装置、电子设备和存储介质
    一种数据收集方法、装置、电子设备和存储介质

    本公开涉及一种数据收集方法、装置、电子设备和存储介质,其中,该方法包括:根据初始输入的第一文本数据,生成第一音频数据;响应于第一文本数据对应的至少一次调整操作,得到调整后的第二文本数据;根据所述第二文本数据,生成第二音频数据;在调整操作的结果表明用户对第一音频数据不满意的情况下,利用第一数据和/或第二数据得到用于训练TTS系统的数据集。通过本公开提供的数据收集方法,可以基于对用户交互动作的分析收集TTS系统的优化数据,及时收集到用户侧产生的数据,从而可以对TTS系统进行快速优化;可以从真实应用场景中过滤出数据,使得收集到的数据更贴合应用场景,从而可以快速地提升TTS系统的鲁棒性。

    2024-07-23
  • 尺八内孔加工方法
    尺八内孔加工方法

    本发明公开了尺八内孔加工方法,步骤如下:选出符合尺八制作要求的竹筒作为尺八胚;在尺八胚上加工出内胚孔;在封堵端贴上密封片,在灌胶端灌入胶水;在灌胶端插入膜具棒;待膜胚间隙内胶水干透形成内径层,取下密封片,拔出膜具棒。本发明通过在尺八胚上加工出内径大于尺八胚目标内径的内胚孔,并在内胚孔内插入外径与尺八胚目标内径一致的膜具棒,并在膜具棒与内胚孔孔壁形成的膜胚间隙内填充胶水形成内径层,令内胚孔在与内径层的配合下内径与尺八胚的目标内径一致,该内孔加工方法简单,无需反复打磨调节内径大小,且内孔内径精度高。

    2024-07-23
  • 初始模型的训练方法、装置、语音识别方法及装置
    初始模型的训练方法、装置、语音识别方法及装置

    本公开涉及信息处理技术领域,尤其涉及一种初始模型的训练方法、装置、语音识别方法及装置,所述训练方法包括:利用待训练数据训练初始模型,而后响应于所述初始模型满足训练完成条件,利用所述初始模型得到目标模型。本公开实施例提供的目标模型可实现流式语音识别,且初始模型在训练阶段使用的训练样本包括了训练语音数据、待训练语音数据对应的文本信息以及待训练语音数据对应的至少一类文本特征数据,使得初始模型在流式语音识别中可进行多维度的学习,提高检测模型的识别精度。此外,有监督的训练流程也可降低模型的参数复杂性,有利于目标模型的实际部署。

    2024-07-23
  • 用于声学输出交通工具的功能性系统噪声的方法和装置
    用于声学输出交通工具的功能性系统噪声的方法和装置

    用于声学输出交通工具(1)的功能性系统噪声的方法,包括:‑探测交通工具(1)的行驶速度;‑获取音频数据,该音频数据表征功能性系统噪声的频谱;‑基于交通工具(1)的行驶速度将音频数据如此处理成匹配的音频数据,即使得在频谱之内至少一个频率和/或至少一个频率范围改变;‑基于匹配的音频数据提供音频信号以用于通过用于交通工具(1)的声学输出设备(6)输出到用户(13)处。

    2024-07-23
  • 车载音视频处理系统与方法
    车载音视频处理系统与方法

    本申请实施例涉及车载K歌技术领域,提供一种车载音视频处理系统与方法,该系统包括音视频点歌智能盒、视频接收器、车辆DSP模块以及扬声器,音视频点歌智能盒的视频点歌系统将音视频信号分离得到音频信号和视频信号,再将音频信号传输至车辆DSP模块,将视频信号传输至视频接收器,外置麦克风将检测到的语音信号传输至车辆DSP模块,视频接收器接收视频信号后投屏到车机系统的显示屏以进行播放显示,车辆DSP模块接收音频信号和语音信号,以进行混音处理后得到歌唱信号,扬声器与车辆DSP模块信号连接,用于接收歌唱信号进行发声播放,从而使得车载K歌系统支持视频K歌,提升用户的使用体验。

    2024-07-23
  • 病区医护对讲管理系统及其方法
    病区医护对讲管理系统及其方法

    本申请涉及智能语音管理领域,其具体公开了一种病区医护对讲管理系统及其方法,使用基于深度神经网络模型的人工智能技术来智能地对医护人员之间的语音信号进行特征编码与提取,以此来更为精准的解码语音信号。这样,构建病区医护对讲管理方案,来获取医护人员之间的语音信号,提高了在病区环境的下的通讯质量和用户体验,使医护人员能够更好地进行沟通和协作。

    2024-07-23
  • 一种语音唤醒方法及电子设备
    一种语音唤醒方法及电子设备

    本申请提供一种语音唤醒方法及电子设备,包括:第一芯片,第一芯片包括低功耗存储区,第一芯片用于在低功耗存储区运行第一语音唤醒算法;第二芯片,与第一芯片耦接,第二芯片用于运行第二语音唤醒算法。这样,通过将两种语音唤醒算法分别配置在两个芯片上运行,从而降低对两个芯片的存储空间的要求,使得使用中低端芯片的电子设备,也能够支持同时运行两种唤醒算法。

    2024-07-22
  • 音板和打击乐器
    音板和打击乐器

    音板(10)包括具有长条状的击打面(10a)的长条部件,所述长条部件的自击打面(10a)起等厚度范围的击打面侧区域(R)的重量沿着击打面(10a)的长度方向变化。

    2024-07-22
  • 一种基于击键声音的非侵入式用户识别方法
    一种基于击键声音的非侵入式用户识别方法

    本发明公开一种基于击键声音的非侵入式用户识别方法,应用于用户信息安全领域,针对传统基于键盘信号的用户识别方法存在的侵入式识别问题,且识别效果不理想的问题,本发明的方法考虑使用非侵入式的识别方法,直接使用外置麦克风收集用户的击键声音,结合深度神经网络工具,对击键用户的身份进行识别。本发明通过时频转换和Triplet‑Net相结合的方式对击键音频进行降维处理,之后采用欧式距离分类器对降维以后的特征向量进行处理从而识别击键用户的身份。

    2024-07-22
  • 口头话语的解释的协同排名
    口头话语的解释的协同排名

    实施方式针对基于分别可用于自动化助理和第三方代理的数据来实现口头话语的解释的协同排名。自动化助理能够确定口头话语的第一方解释,并且能够使第三方代理确定口头话语的第三方解释。在一些实施方式中,自动化助理能够从第一方解释和第三方解释中选择口头话语的给定解释,并且能够基于给定解释使给定第三方代理满足口头话语。在附加或可替代实施方式中,独立的第三方代理能够获得第一方解释和第三方解释、选择给定解释,然后将给定解释发送到自动化助理和/或给定第三方代理。

    2024-07-22
  • 一种智能家居语义解析方法及相关设备
    一种智能家居语义解析方法及相关设备

    本发明公开一种智能家居语义解析方法、存储介质和智能家居,包括步骤:获取用户输入的控制指令;根据控制指令设定提示语句,并将提示语句输入语义解析模型以获得控制参数;将控制参数以设备控制需要的接口规范发给设备控制端,以根据用户输入的控制指令控制设备。可以看出,本发明通过设计智能家居领域的提示语句,控制语义解析模型生成的响应和文本,充分利用语义解析模型的能力对用户的控制指令进行解析,对于新的规则仅需对提示语句做适应性的修改,且无需大量的训练数据使语义解析模型理解,能够处理复杂的语句和特定的场景,具有良好的准确率、灵活性、可扩展性和可维护性。

    2024-07-22
  • 车损检测方法、电子设备和存储介质
    车损检测方法、电子设备和存储介质

    本发明公开车损检测方法、电子设备和存储介质,其中,一种车损检测方法,包括:将获取的车辆底盘的震动音频送入预设分类模型,获取所述预设分类模型输出的所述震动音频的分类结果;基于所述分类结果,判断所述震动音频是否是异常音频;若是异常音频,将所述分类结果以及所述震动音频上传至服务器并发出警报。通过使用震动音频分析汽车零件状态,从而可以实现车辆的损坏预测和保养提醒。

    2024-07-21
  • 现场直播传送装置、现场直播传送方法
    现场直播传送装置、现场直播传送方法

    一种现场直播传送装置(10),其将由表演者演奏出的曲子经由通信网络向多个用户的终端装置实时地进行传送,该现场直播传送装置(10)具有:取得部(103),其取得所演奏出的曲子和从正在对传送进行视听的用户获得的针对演奏的反应中的至少任一者;数据加工部(104),其基于由取得部获得的取得数据,生成加工数据,该加工数据表示正在对演奏进行视听的情形;以及传送部(108),其将所生成的加工数据传送至未对传送进行视听的用户的终端装置。

    2024-07-21
  • 音频降噪方法、服务器和计算机可读存储介质
    音频降噪方法、服务器和计算机可读存储介质

    本申请涉及一种音频降噪方法、服务器和计算机可读存储介质。所述方法包括:获取待降噪音频的初始音频特征;其中,待降噪音频为混合有预设比例干声数据和噪声数据的含噪音频,初始音频特征为待降噪音频在经过第一降噪处理后的音频特征;对初始音频特征进行音频重建,得到初始降噪音频,并根据初始音频特征对初始降噪音频的信噪比进行预测,得到预测信噪比;基于预测信噪比对初始音频特征进行第二降噪处理,得到目标音频特征;第二降噪处理用于过滤初始音频特征中关于噪声数据的噪声特征;对目标音频特征和初始音频特征进行音频重建,得到目标降噪音频。采用本方法能够提升对音频降噪的效果,使得最终目标降噪音频的清晰度和纯净度更高。

    2024-07-21
  • 音频合成方法、音频合成系统、计算机设备及存储介质
    音频合成方法、音频合成系统、计算机设备及存储介质

    本申请涉及一种音频合成方法、音频合成系统、计算机设备及计算机可读存储介质。所述方法包括:获取音频缓冲区的当前缓冲数据量;当前缓冲数据量用于指示音频缓冲区中的伴奏音频数据的播放时长;基于当前缓冲数据量与参考缓冲数据量之间的差异,调整音频缓冲区中缓冲的伴奏音频数据的数据量,得到调整后的音频缓冲区;从调整后的音频缓冲区中读取出伴奏音频数据,并播放读取的伴奏音频数据;以及,在用户对播放的伴奏音频数据进行跟唱时,录制用户的干声音频数据;将读取的伴奏音频数据和录制的干声音频数据进行音频合成处理,得到合成音频数据。采用本方法能够保证读取的伴奏音频数据和录制的干声音频数据相对应,提升合成音频的音频质量。

    2024-07-20
  • 估计用于处理所获取的声音数据的优化掩模
    估计用于处理所获取的声音数据的优化掩模

    本说明书涉及处理由多个麦克风(MIC)获取的声音数据,其中:‑基于由多个麦克风获取的信号,确定源自至少一个感兴趣声源的声音的到达方向(S4),‑根据声音的到达方向对声音数据应用空间滤波(S5),‑在时频域中估计一方面的经滤波的声音数据与另一方面的所获取的声音数据之间的表示信号幅度的量的比率(S6),‑根据所估计的比率,产生要在时频域中应用于所获取的声音数据的权重掩模(S7),以便构造表示源自感兴趣源的声音但相对于环境噪声增强的声学信号(S10;S9‑S10)。

    2024-07-20
  • 一种基于毫米波感知振动信号的抗噪声声纹识别方法
    一种基于毫米波感知振动信号的抗噪声声纹识别方法

    本发明公开了一种基于毫米波感知振动信号的抗噪声声纹识别方法,包括:使用毫米波雷达向目标人发射射频信号,并接收调制后的回波信号,将回波信号与发射信号混合后的中频信号作为毫米波雷达的接收信号;通过波束成形算法提高接收信号的信噪比;对接收信号进行预处理:将区域按单元划分,得到存在感知目标的候选单元集,去除判断为静态反射物、随机身体运动的候选单元,获得声带振动的数据;进行特征提取:取喉咙部位单元中采集的平均信号作为声带振动的射频接收信号;采用提取Mel频率倒谱系数的方式获得声带振动的轨迹;对声带振动的轨迹进行基于深度神经网络AlexNet的声纹识别。本发明能提高声纹识别的抗噪性、准确性和鲁棒性。

    2024-07-20
技术分类