乐器、声学

  • 基于常识推理的语音合成模型训练方法、装置及合成方法
    基于常识推理的语音合成模型训练方法、装置及合成方法

    本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。

    2024-04-09
  • 一种执法记录仪背景声音放大方法与系统
    一种执法记录仪背景声音放大方法与系统

    本发明及声音处理领域,具体为一种执法记录仪背景声音放大方法与系统,其中包括:近端频域模块,远端频域模块,声音分离模块,近端声音增益模块,远端声音强化模块和声音复原模块,本申请设置声音分离模块,通过声音分离模块能够将近端模块采集的使用者声音分离,再经过近端增益模块对分理处的使用者声音增益,进而通过声音复原模块得到无周边声音影响的使用者声音,本申请设置远端声音强化模块,将远端中的环境声音分离出来并加以放大,使远端中的周边声音更加清楚,以获得无使用者声音影响的的周边环境声音。

    2024-04-09
  • 输电线路鸟类声音识别模型优化方法、系统、介质及设备
    输电线路鸟类声音识别模型优化方法、系统、介质及设备

    本发明公开了一种输电线路鸟类声音识别模型优化方法、系统、介质及设备,涉及输电线路监控技术领域。该方法步骤包括获取当前场景一段时间内的背景声音;依次利用前端服务器和云端分析服务器对背景声音进行分类检测,得到背景声音的分类检测结果,根据分类检测结果生成初步样本集;利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充,在线生成训练样本集;利用扩充后的样本集微调终端设备侧运行的鸟类声音识别模型。本发明解决了不同场景下模型训练资源不够的问题,并能及时更新高漏报误报率的某场景隐患识别模型,降低误报及漏报。

    2024-04-09
  • 使用帧控制同步来编码或解码多声道音频信号的装置和方法
    使用帧控制同步来编码或解码多声道音频信号的装置和方法

    使用用于将取样值的块的序列转换成频谱值的块的序列的时间‑频谱转换器、用于对频谱值的块应用联合多声道处理以获得块的至少一个结果序列的多声道处理器、用于将频谱值的块的结果序列转换成包括取样值的块的输出序列的时域表示的频谱‑时间转换器以及用于对取样值的块的输出序列进行编码以获得经编码的多声道信号的核心编码器对多声道音频信号进行编码,其中核心编码器以第一帧控制进行操作,并且其中时间‑频谱转换器或频谱‑时间转换器以与第一帧控制同步的第二帧控制进行操作。

    2024-04-09
  • 控制车辆的部件进行操作的方法、电子设备及存储介质
    控制车辆的部件进行操作的方法、电子设备及存储介质

    本申请提供一种控制车辆的部件进行操作的方法、电子设备及存储介质,该方法包括:响应于所述车辆根据音乐场景开启互动模式,基于所述音乐场景下的音乐信息以及车外人员的动作信息中的至少之一生成用于控制所述车辆的部件的控制指令;以及基于所述控制指令,控制所述车辆的部件执行相应操作。

    2024-04-09
  • 针对声纹识别的对抗扰动生成方法、装置、设备和介质
    针对声纹识别的对抗扰动生成方法、装置、设备和介质

    本公开提供了针对声纹识别的对抗扰动生成方法、装置、设备和介质。该对抗扰动生成方法包括:获取训练声纹样本集;初始化对抗样本生成网络;针对训练声纹样本集中的每一个原始声纹样本,确定目标识别对象;将原始声纹样本输入对抗样本生成网络,得到声纹对抗样本;将声纹对抗样本输入声纹识别网络,得到第一识别结果向量;根据原始声纹样本、声纹对抗样本、第一概率与第二概率,确定对抗样本生成网络的样本损失函数,基于样本损失函数训练对抗样本生成网络,生成对抗扰动。本公开实施例能够提升生成对抗扰动的效率,也可以提高对抗扰动的主导性与隐蔽性。本公开实施例可应用于人工智能、通信安全等。

    2024-04-08
  • 一种复杂环境下生猪连续咳嗽声音识别方法
    一种复杂环境下生猪连续咳嗽声音识别方法

    本发明涉及语音信号处理技术领域,特别是涉及一种复杂环境下生猪连续咳嗽声音识别方法,包括:采集猪舍内的连续声音,基于所述连续声音构建语料库;对所述语料库进行多重端点检测,获取单个声音段以及所述单个声音段的开始时间和结束时间;对所述单个声音段进行分类识别,判断所述单个声音段是否为咳嗽,若为咳嗽,则基于所述单个声音段的开始时间和结束时间计算相邻咳嗽之间的时间间隔,根据所述时间间隔判断是否为连续咳嗽。本发明能够实现连咳的识别,并提高复杂环境下生猪咳嗽声的识别精度。

    2024-04-08
  • 一种手感可调的数字键盘的构建方法
    一种手感可调的数字键盘的构建方法

    本发明公开了一种手感可调的数字键盘的构建方法,用电路系统来模仿钢琴手感。具体实现的步骤包括:将多组仅外形不同的单个琴键堆叠组成数字键盘,每个琴键由机械结构、位移传感器、电路系统和执行机构组成。机械结构提供琴键外形,约束琴键的运动方式;位移传感器采集琴键的位移,得到代表键程的信号,送至电路系统;电路系统产生使乐器发声的必要信号,并按照某种力学模型计算触键力度,其中的力学模型参数可根据用户需求调节;执行机构将来自于电路系统的代表触键力度的信号转换成对应大小的力,并将其作用于机械结构。此方法可克服传统键盘乐器因为机械结构难以自行调整而无法让演奏者自行选择手感的缺点。

    2024-04-08
  • 模型训练方法、模型应用方法和相关装置
    模型训练方法、模型应用方法和相关装置

    本申请实施例公开了一种模型训练方法、模型应用方法和相关装置,在进行模型训练时,通过待定语音信息和目标样本语音信息之间的差异,能够体现出初始语音合成模型在基于文本信息和调节参数直接合成语音信息时的准确度,进而通过基于该差异对初始语音合成模型进行参数调节得到的语音合成模型,可以实现直接基于待合成文本信息和调节参数,较为准确的合成待合成文本信息对应的语音信息,使该语音信息既符合调节参数对于发音方式调节的需求,又贴合该待合成文本信息整体的语音发音特点,从而在保障对语音信息准确调节的前提下,提高调节后的语音信息的真实性,进而提高语音合成效果。

    2024-04-08
  • 一种基于语音识别的抽油烟机控制器、方法及存储介质
    一种基于语音识别的抽油烟机控制器、方法及存储介质

    本发明公开了一种基于语音识别的抽油烟机控制器、方法及存储介质,涉及语音控制技术领域,包括:采集模块:用于拾取语音指令信号;处理模块:用于根据预设的映射关系对语音指令信号进行识别,根据识别结果生成执行指令;输出模块:用于将执行指令分解成执行动作发送至对应的执行机构。其中,处理模块包括:数据存储模块:用于存储方言转换模型和数据库;语音预处理模块,用于对语音指令信号进行信号放大、噪声去除和端点识别;语音识别模块,用于对预处理后的语音指令信号进行识别,获得文本信息;文本分析,用于对文本信息进行识别对比生成执行指令。本发明利用方言语音信号进行转换并且将识别的文本数据转成拼音数据的方法减少识别错误的发生。

    2024-04-08
  • 语音识别方法、装置、电子设备及存储介质
    语音识别方法、装置、电子设备及存储介质

    本申请实施例提供一种语音识别方法、装置、电子设备及存储介质,至少应用于人工智能领域和语音识别领域,其中,方法包括:对待识别语音的音频特征向量进行向量编码处理,得到音频编码向量;对音频编码向量进行分类处理,得到待识别语音中的每一语音帧对应于预设词表中的每一预测字符的预测概率分布;基于预测概率分布,对音频编码向量进行剪枝处理,得到剪枝处理后的音频编码向量;基于剪枝处理后的音频编码向量对待识别语音进行语音识别,得到语音识别结果。通过本申请,能够降低语音识别过程中的解码计算量,提高解码效率,从而提高语音识别效率。

    2024-04-08
  • 一种圆柱空腔型双层板式声子晶体及其设计方法
    一种圆柱空腔型双层板式声子晶体及其设计方法

    本发明公开了一种声子晶体单元,包括散射体、下柔性结构、下基体板、上柔性结构和上基体板;所述散射体为实心的圆柱体结构;散射体的下端连接环状的下柔性结构,下柔性结构的底部固定在下基体板上,下基体板置于基座上;所述散射体的上端连接环状的上柔性结构,上柔性结构的顶部与上基体板相连;所述上基体板与电机等振动源相连。本发明还公开了一种声子晶体板。本发明的有益效果为:双层板式声子晶体单元,顶部和底部分别设置基体板,可克服传统凸起型声子晶体安装困难、结构易磨损的缺陷,降低安装维护成本;在散射体的顶部和底部分别设置环状的柔性结构,在上下基体板之间形成“软‑硬‑软”形式的共振单元,拓宽了声子晶体单元带隙范围。

    2024-04-08
  • 一种带有局域共振带隙的周期空腹板
    一种带有局域共振带隙的周期空腹板

    本发明涉及一种带有局域共振带隙的周期空腹板,包括周期单元、LR吸振器,多个相同的周期单元沿着水平方向连接组合成在高频存在宽频带的纵向和弯曲振动带隙的双层周期空腹板,并通过在双层周期空腹板上等间距安装LR吸振器,形成双层LR周期空腹板结构,使该双层LR周期空腹板结构中出现低频振动带隙。本发明通过利用双层周期空腹板结构所具有的布拉格带隙特征,周期空腹板在高频时取得显著减振效果,通过利用LR吸振器的局域共振带隙特征,周期空腹板在低频时取得显著减振效果。

    2024-04-08
  • 获取语音识别训练数据的方法、装置和计算机设备
    获取语音识别训练数据的方法、装置和计算机设备

    本申请涉及一种获取语音识别训练数据的方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括:识别目标视频中各视频帧的字幕,得到目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间;对目标视频进行语音边界检测,根据检测得到的语音边界对目标视频进行切分,得到目标视频的多个音频片段及各音频片段的时间区间;根据字幕内容的时间区间和音频片段的时间区间,确定匹配的目标字幕内容和目标音频片段;对目标音频片段进行语音识别,得到语音识别结果;若语音识别结果与目标字幕内容匹配,则根据目标字幕内容和目标音频片段,得到语音训练样本。该方法提高了语音训练样本提取的准确度和效率。

    2024-04-07
  • 发音评测方法、装置、设备、存储介质及计算机程序产品
    发音评测方法、装置、设备、存储介质及计算机程序产品

    本申请提供了一种发音评测方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,包括:获取包括至少两种语言的待评测的语音数据,语音数据包括连续的至少两个音频帧序列,每个音频帧序列对应一种语言,且每个音频帧序列包括至少两个音频帧;对语音数据进行音频帧编码,得到语音数据中各音频帧的音频帧特征;对语音数据的至少两个音素,分别进行音素编码,得到语音数据的音素特征;对语音数据的音频帧特征及语音数据的音素特征进行特征融合,得到目标特征;基于目标特征,对语音数据进行发音评测,得到对至少两种语言的发音的综合评测结果。通过本申请,能够提高多语言语音数据的发音评测的效率以及准确率。

    2024-04-07
  • 变频吸声装置
    变频吸声装置

    本申请公开了一种变频吸声装置,属于调谐吸声技术领域。变频吸声装置包括:板体,板体开设有穿孔;吸声膜层,吸声膜层与板体连接,吸声膜层的材质为聚氯乙烯凝胶;壳体,壳体设有背腔,穿孔与背腔相连通,吸声膜层与板体连接并盖设背腔;驱动模块,驱动模块与吸声膜层连接,驱动模块用于驱动吸声膜层发生变形。因此,本申请的变频吸声装置,通过穿孔设计、驱动模块电控调节吸声膜层发生刚度变化以及背腔内体积改变以上三种作用耦合,实现不同特征频率的特异性可调吸声目的,进而可以实现变频吸声作用。

    2024-04-07
  • 用于气路消声的声学超材料以及可调谐大宽带消声器
    用于气路消声的声学超材料以及可调谐大宽带消声器

    用于气路消声的声学超材料以及可调谐大宽带消声器,属于消声领域。声学超材料包括多个声学超材料单胞结构,每个单胞结构包括第一隔板、第一插入隔板、第二插入隔板、单胞外壳和第二隔板,第一隔板和第二隔板位于单胞外壳两端,第一隔板设置进气孔,第二隔板设置排气孔,第一和第二插入隔板插入到单胞外壳腔体中,且插入长度小于等于单胞外壳长度一半。本发明还提供可调谐大宽带消声器,包括进气装置、排气装置和设置在进气装置和排气装置间的中间体,中间体包括所述声学超材料。本发明声学超材料和可调谐大宽带消声器能在1000Hz内中低频对噪声进行控制。解决现有可调谐大宽带消声器很难在1000Hz以内中低频对噪声进行控制的技术问题。

    2024-04-07
  • 一种音频处理系统、方法及存储介质
    一种音频处理系统、方法及存储介质

    本发明公开了一种音频处理系统、方法及存储介质,属于数字多媒体技术领域。为解决在对音频进行存储或调取时难以对音频关键内容进行统一识别备注的问题,音频转译模块对人声子音轨进行语音识别,特征捕捉模块对环境子音轨中的环境音进行特征捕捉提取及匹配,从而使得可以通过处理对音频整体的内容和基础属性进行识别分析和匹配,可以对大量的音频文件进行识别处理,从而通过自动识别匹配提高对音频的处理效率,标签处理模块基于信息识别单元生成的信息识别结果生成音频内容关联标签,从而可以根据音频的内容进行基本搜索,从而可以提高对相关音频的检索效率,无需人工对音频进行查看即可对内容进行先行的识别和标注。

    2024-04-07
  • 客诉预警方法、装置、电子设备、存储介质及产品
    客诉预警方法、装置、电子设备、存储介质及产品

    本公开提供一种客诉预警方法、装置、设备、介质及产品,涉及人工智能和语音处理技术领域,可应用于金融科技领域,方法包括:在预设的采集周期内,从至少一个方向采集目标区域的音频信号,得到对应于每个方向的时序音频信号,其中,每个音频信号包括语音信号和噪声信号。计算时序音频信号中语音信号的第一时频遮蔽和噪声信号的第二时频遮蔽,其中,第一时频遮蔽用于表征语音信号的主导时频点的概率,第二时频遮蔽用于表征噪声信号的主导时频点的概率。根据第一时频遮蔽和第二时频遮蔽对至少一个音频信号执行波速形成,得到目标语音信号。对目标语音信号进行语义解析,得到语义内容。根据语义内容对客诉进行预警。

    2024-04-07
  • 热词管理方法、语音识别方法、装置、设备及存储介质
    热词管理方法、语音识别方法、装置、设备及存储介质

    本申请提供了热词管理方法、语音识别方法、装置、设备及存储介质,具体实现方案为:获取语音识别的第一文本以及第二文本,其中,所述第二文本是对所述第一文本进行编辑得到的;利用所述第二文本根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词;利用基于热词库和所述热词候选词在用户历史语音数据中的使用情况,在所述热词候选词中确定目标热词;根据所述目标热词更新所述热词库,得到更新后的热词库;其中,所述热词库用于辅助对待识别语音进行语音识别根据本申请的技术方案,能够有效能够显著提升语音转写文本的准确性。

    2024-04-06
  • 中文语音合成方法、装置、终端及存储介质
    中文语音合成方法、装置、终端及存储介质

    本申请提供一种中文语音合成方法、装置、终端及存储介质。该方法包括:获取中文语句,并对中文语句进行亚字识别,得到亚字序列;其中,亚字序列中的每个亚字包含对应汉字的含义;对亚字序列进行音素转换,得到音素序列和音素位置序列;对亚字序列进行词嵌入处理,得到亚字向量;将音素序列、音素位置序列和亚字向量输入训练好的中文语音合成模型中,得到中文语句对应的梅尔频谱;梅尔频谱用于合成中文语句对应的语音。本申请可以降低中文语音合成模型学习发音规律的难度,提升语音合成的速度和质量。

    2024-04-06
  • 基于多级注意力和特征融合的变压器故障诊断方法及系统
    基于多级注意力和特征融合的变压器故障诊断方法及系统

    本发明公开了一种基于多级注意力和特征融合的变压器故障诊断方法及系统,属于电力变压器声纹感知与故障诊断技术领域,方法包括:实时采集待测电力变压器的声纹信号;对采集的声纹信号数据进行预处理并划分训练集和测试集;根据采集的声纹信号和故障诊断模型,进行变压器故障诊断;其中,所述故障诊断模型是通过建立卷积神经网络提取数据特征,利用低层特征分辨率高包含更多的位置细节信息而噪声多和高层特征具有更高的语义信息而分辨率低对细节的感知力差的特点,对低层特征和高层特征进行融合处理,并基于变压器不同故障类型的声纹信号构成训练集和测试集进行训练、测试得到的。本发明能够确定故障类型及故障位置,提高了故障诊断的准确率。

    2024-04-06
  • 一种基于机器学习技术的聋哑人发声装置及方法
    一种基于机器学习技术的聋哑人发声装置及方法

    本发明公开一种基于机器学习技术的聋哑人发声装置及方法,涉及机器学习技术领域,其实现内容如下:云端存储有单个聋哑人的声音编码数据及与声音编码数据对应的文字信息,以聋哑人的声音编码数据为输入、与声音编码数据对应的文字信息为输出训练深度神经网络模型;聋哑人发声时,根据频率和音强将采集声音编码为供计算机识别的十进制数字,深度神经网络模型接收、解析编码数据,并输出文字信息至显示屏;聋哑人查看并判定显示屏显示的文字信息,判定无误时通过扬声器播报文字信息,判定有误时通过键盘手动校正,随后通过扬声器播报校正后的文字信息。本发明能够解决聋哑人与其他人群沟通困难、手语及其他方式进行表达不方便等问题。

    2024-04-06
  • 一种音频编码方法、装置、电子设备及存储介质
    一种音频编码方法、装置、电子设备及存储介质

    本申请关于一种音频编码方法、装置、电子设备和存储介质,属于音频处理技术领域。该方法包括:对声道序列进行分组,得到多个声道组,每个声道组包括声道序列中连续的若干个声道,相邻的声道组间存在一个或多个相同的声道;对声道序列中各声道的音频信号按帧进行频域转换,得到各声道每帧的频域系数;根据各声道的频域系数,从变换矩阵集中确定声道组对应的频带集中各频带的目标变换矩阵;基于各频带的目标变换矩阵,对声道组内声道的频域系数进行同频带去相关处理,得到声道组的编码信息;基于声道组的编码信息得到编码码流,并将编码码流发给解码器进行解码。由此,本方案可以实现对多个声道的音频信号的压缩传输,降低传输和存储成本。

    2024-04-06
  • 信号的增益值调节方法、装置和声音信号的处理方法
    信号的增益值调节方法、装置和声音信号的处理方法

    本申请涉及一种信号的增益值调节方法、装置和声音信号的处理方法,其中,该信号的增益值调节方法包括:获取目标信号;识别目标信号中是否存在目标事件;若是,于目标事件持续期间内对目标信号的增益值进行调节。其能够实现一种基于目标事件触发的联动机制,在得益于增益控制提高目标事件的量化精度的同时,降低整体使用时间上对于信号幅度的操作次数,进而降低无效功耗以及整体使用时间的平均功耗,进而能够兼顾高精度和低功耗的需求。

    2024-04-05
  • 多路径和非视距室内环境下的chirp信号检测方法
    多路径和非视距室内环境下的chirp信号检测方法

    本发明属于音频定位技术领域,公开了一种多径和非视距的室内环境下的chirp信号检测方法,首先使用带通滤波器过滤音频原始数据,再基于时频分析法获得过滤数据的功率谱密度,对其进行能量监测从中提取包含第一路径的音频数据段;利用信号检测的极值归一化方法根据粗检测提取的音频数据段与发射的音频信号之间的互相关函数的输出计算原始峰值,对原始峰值的极值进行归一化;根据信号的功率谱密度的变化特征与互相关的原始峰值的波形特征动态选择松弛阈值和严格阈值,再基于归一化后的极值使用动态阈值法提取第一路径。本发明能够通过低成本的基础设施在多径和NLOS室内环境中实现鲁棒和高精度的音频测距,以便在大众智能手机上进行实际应用。

    2024-04-05
  • 一种用于辨识低秩声系统的频域自适应滤波方法
    一种用于辨识低秩声系统的频域自适应滤波方法

    本发明公开了一种用于辨识低秩声系统的频域自适应滤波方法,它将最近克罗内克积(NKP)扩展到频域,建立了一种基于NKP的频域递推最小二乘(NKP‑FRLS)算法用于辨识时变声学系统。利用NKP将长度为L的自适应滤波器分解成两组长度分别为L1和L2的子滤波器和由此建立信号模型和递推最小二乘代价函数,先后计算输入信号谱矩阵、子滤波误差向量、功率谱矩阵以及卡尔曼滤波增益矩阵,在此基础上,计算出子滤波器向量进而得到建模滤波器的系数向量由此降低自适应滤波器的计算量,并获得对高斯噪声鲁棒的自适应算法。实验表明,本发明在收敛性能和计算效率方面都优于传统的频域递推最小二乘(FRLS)算法。

    2024-04-05
  • 使用神经网络的文本到语音合成的无监督对齐
    使用神经网络的文本到语音合成的无监督对齐

    本公开涉及使用神经网络的文本到语音合成的无监督对齐。当形成输入文本序列的单个音素的持续时间未知时,从输入文本序列生成合成语音可能很困难。主要地并行过程可以将语音节奏建模为单独的生成分布,以便可以在推理时对音素持续时间进行采样。还可以对诸如音调或能量之类的附加信息进行采样,以便为合成语音生成提供改进的多样性。

    2024-04-05
  • 确定同步转速的方法
    确定同步转速的方法

    本发明涉及一种用于在由电机(2)驱动的工作母机(1)中确定所述电机(2)的同步转速(n0)的方法,所述电机特别是转速受到调节的异步电机(2),其中设置调节设备(3)用于调节所述电机(2)的转速,其中执行以下步骤:‑对于所述电机(2)和/或所述驱动的工作母机(1)启动至少一个机械测量变量的检测(101),以获得特定于所述电机(2)和/或所述驱动的工作母机(1)的旋转声音的检测信息(200),‑对所述检测信息(200)进行信号分析(102),以获得所述检测信息(200)的频谱(210),‑基于所述调节设备(3)的时钟频率(fT)选择(103)所述频谱(210)中的至少一个频率范围(220),‑在所述频率范围(220)中识别(104)至少一个峰值(230),以确定特定于所述同步转速(n0)的至少一个频率(f1、f2),‑基于所确定的至少一个频率(f1、f2)来确定(105)所述同步转速(n0)。

    2024-04-05
  • 一种周期性瞬态干扰事件检测方法
    一种周期性瞬态干扰事件检测方法

    一种周期性瞬态干扰事件检测方法,包括以下步骤:S1.根据麦克风接收的时频域信号估计非瞬态信号功率谱以及条件语音存在概率:S2.估计瞬态噪声功率谱和最优增益频谱;S3.根据瞬态干扰的条件存在概率,判断瞬态干扰是否存在周期性:S31.根据瞬态干扰噪声功率谱的最优增益频谱,计算指定频带内的最优增益函数的平均值,S32.根据最优增益函数平均值判断当前帧是否包含瞬态干扰,S33.判断是否有周期性瞬态干扰事件发生。本发明利用在增强瞬态干扰过程中获取的瞬态干扰的条件存在概率,求取帧瞬态干扰的条件概率,对连续帧求取帧瞬态干扰条件概率的平均值进行周期性瞬态干扰事件判断,提高了判断正确率,并为利用瞬态干扰控制语音设备提供了技术基础。

    2024-04-05
  • 一种基于车内用户信息生成自然语言的方法及装置
    一种基于车内用户信息生成自然语言的方法及装置

    本申请公开了一种基于车内用户信息生成自然语言的方法及装置。所述基于车内用户信息生成自然语言的方法包括:获取车内人员语音信息;获取车内人员基本信息;根据车内人员语音信息获取待播放槽位信息;根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息;根据所述待播放模板信息与所述待播放槽位信息生成待播放自然语言信息。本申请所提供的基于车内用户信息生成自然语言的方法根据车内人员基本信息来获取待播放槽位信息,从而根据不同的车内人员基本信息来生成不同的待播放自然语音信息,从而使得语音交互更为人性化。

    2024-04-04
  • 语音识别方法和模型训练方法
    语音识别方法和模型训练方法

    本申请公开了一种语音识别方法和模型训练方法。其中,该方法包括:获取对第一对象进行语音采集所得到的语音数据,其中,语音数据包含目标语言类型的语音内容;利用语音识别模型对语音数据进行特征提取,得到语音数据的声学特征;基于声学特征的全局信息和局部信息,将声学特征输入至语音识别模型进行语音识别,得到语音内容的目标识别结果,其中,语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的,第一语音样本包含多种预设语言类型的语音样本,且未包含标注信息,第二语音样本包含目标语言类型的语言样本和标注信息。本申请解决了相关技术中语音识别模型的识别准确率较低的技术问题。

    2024-04-04
  • 一种基于ALSA的低延迟静音检测方法、装置和存储介质
    一种基于ALSA的低延迟静音检测方法、装置和存储介质

    本申请公开了一种基于ALSA的低延迟静音检测方法、装置和存储介质,本申请的方法包括将音频数据搬运至音频缓冲区;DMA发生中断,执行DMA中断回调函数;获取hw_ptr指针之后的音频数据并执行静音检测。本申请基于ALSA,将静音检测数据置于音频缓冲区hw_ptr指针之后,当DMA中断发生后,通过hw_ptr指针可以获取本次DMA传输的音频数据,使用该数据进行静音检测可以获取实时的静音检测结果,从而降低静音检测结果的延迟,提高静音检测的准确性。

    2024-04-03
  • 注册次数自适应的声纹识别方法及装置、电子设备、存储介质
    注册次数自适应的声纹识别方法及装置、电子设备、存储介质

    本申请提供一种注册次数自适应的声纹识别方法及装置、电子设备、计算机可读存储介质,方法包括:获取作为通用背景模型的高斯混合模型;获取目标用户的注册音频数据,基于所述注册音频数据构建训练样本;根据最大后验概率估计算法,以所述训练样本更新所述高斯混合模型的模型参数,得到更新后的高斯混合模型;基于显著性差异算法,判断本次注册时更新后的高斯混合模型的模型参数,相比初始获取的通用背景模型的模型参数,是否存在显著差异;根据判断结果,确定是否执行下一轮的注册流程。本申请方案,可以避免注册次数过多或过少而导致的问题。

    2024-04-03
  • 一种融合自注意力和卷积操作的环境噪声识别方法及系统
    一种融合自注意力和卷积操作的环境噪声识别方法及系统

    本发明提供了一种融合自注意力和卷积操作的环境噪声识别方法及系统,所述方法包括:获取待分析环境噪声数据;对所述待分析环境噪声数据进行预处理,得到对应的声音频谱图;将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测,得到对应的声纹识别结果;所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器。本发明通过设计采用自注意力机制和卷积操作融合对声谱图进行特征提取,采用奇异值分解对声谱图特征进行个性特征筛选,以及结合基于注意力的双向门控循环单元网络进一步提取时序特征的全新声纹识别模型,能有效提高环境噪音识别的鲁棒性、精准性和高效性。

    2024-04-03
  • 一种联邦语音智能电梯控制方法
    一种联邦语音智能电梯控制方法

    本发明涉及计算机技术领域,具体公开一种联邦语音智能电梯控制方法,控制方法步骤如下:采集语音信号数据特征和用户个性化特征构建用户识别记录表、形成本地训练数据集;基于用户识别记录表,提取模型训练所需的语音信号数据特征,和前后语音唤醒模块的C帧和语音识别模块的C帧,共计2C+1帧作为模型输入;模型输出为“开门、关门、去N楼、负M楼”等关键词对应的独热码编码向量;基于用户识别记录表进行本地语音识别模型的模型训练后模型参数发送至全局模型,全局模型对模型参数汇总并下发至各本地模型,重复此步至模型收敛。本发明能够兼顾电梯语音控制信号特点和隐私保护需求,并完成语音控制电梯模型训练、语音唤醒、识别、控制功能。

    2024-04-02
  • 基于量子信息分析的语音识别方法、装置、设备及介质
    基于量子信息分析的语音识别方法、装置、设备及介质

    本发明涉及语音语义领域,揭露基于量子信息分析的语音识别方法、装置、设备及介质,所述方法包括:对语音信号进行预处理,得到预处理信号;识别预处理信号中的频谱分布信息,根据频谱分布信息,确定预处理信号的能量谱信号,利用三角滤波器对能量谱信号进行特征提取,得到能量特征信号;根据能量特征信号,优化量子音频识别模型中的量子权值与量子间隔,根据量子权值与量子间隔,生成优化量子音频识别模型;利用优化量子音频识别模型中的量子隐藏层计算能量特征信号的特征数据,利用优化量子音频识别模型中的量子输出层计算特征数据的二分类结果,根据二分类结果,确定语音信号的语音识别结果。本发明可以提高语音识别的识别速度。

    2024-04-02
  • 一种基于HHT的发动机小样本声音异常故障识别方法及系统
    一种基于HHT的发动机小样本声音异常故障识别方法及系统

    本发明提供一种基于HHT的发动机声音异常故障识别方法及系统,方法包括:声音经预处理分割为统一时间长度,使用HHT中EMD分解得到的IMF曲线,经Hilbert变换得出IMF的瞬时频率,计算Hilbert谱及能量谱;通过计算分段频率能量重心偏离度,结合发动机工作状态数据,得出频率变化量、频率抖动率、频率变化速率、状态转换速率等特征参数;将特征参数输入预置VAE网络中进行训练,得出有效网络VAEtn,待检测发动机音频经流程处理后,还原计算MSE,如大于设定故障阈值GY,则分类为异常声音,启动故障检测流程。本发明解决了发动机声音非平稳信号处理时间精度与频率精度兼顾难的问题,利用HHT变换设计差异状态特征参数提取方法,实现了无损测量条件下发动机故障状态的智能识别。

    2024-04-02
  • 一种语音识别方法和装置
    一种语音识别方法和装置

    本发明公开了一种语音识别方法和装置,涉及深度学习技术领域。该方法的具体实施方式包括:接收语音识别请求;其中,语音识别请求包括一个或多个待识别语音;将待识别语音输入预训练的语音识别模型,语音识别模型包括声学模块、语言模块和注意力模块,语音识别模型的目标函数为声学模块、语言模块和注意力模块的概率分布之积;响应于语音识别请求,根据语音识别模型的输出,识别一个或多个待识别语音的语音文字信息。该实施方式能够利用以声学模块、语言模块和注意力模块的综合概率之积作为目标函数的语音识别模型对待识别语音进行识别,大大提高了语音识别模型的语音文字信息的识别准确率,而且应用广泛,可以适用于各种识别场景。

    2024-04-02
  • 一种反向声波降噪方法、系统、制氧机及呼吸机
    一种反向声波降噪方法、系统、制氧机及呼吸机

    本申请涉及一种反向声波降噪方法、系统、制氧机及呼吸机,涉及降噪技术的领域,其包括于呼吸机启动时获取当前声音信息;分析过滤当前声音信息后得到当前噪音信息;判断当前噪音信息是否存在;若存在,则根据当前噪音信息分析出反向声波信息;反向声波装置输出反向声波信息;若不存在,则不进行操作。改善了物理性结构降噪无法实现在不同治疗环境下,对不同分贝的噪音实现针对性的降噪的问题,本申请具有可以针对不同分贝的噪音而产生不同分贝的抵消声波,提高了呼吸机对噪音的处理能力和处理效果的效果。

    2024-04-02
  • 音频处理方法、装置、电子设备和计算机可读存储介质
    音频处理方法、装置、电子设备和计算机可读存储介质

    本发明实施例公开了一种音频处理方法、装置、电子设备和计算机可读存储介质;本发明实施例在获取待处理音频信号后,对待处理音频信号进行分帧,并计算每一帧音频信号的听觉感知能量值,得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值,然后,根据内容听觉感知能量值和背景听觉感知能量值,确定待处理音频信号的信号增益值,然后,基于信号增益值,分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整,得到调整内容音频信号和调整后背景音频信号,将调增后内容音频信号和调整后背景音频信号进行混音,以得到混合音频信号;该方案可以提升音频处理的准确性。

    2024-04-01
  • 语音数据集的筛选处理方法、筛选处理装置和存储介质
    语音数据集的筛选处理方法、筛选处理装置和存储介质

    本申请涉及语音数据集的筛选处理方法、筛选处理装置和存储介质。筛选处理方法包括对各条语音数据,基于时频特征利用关键词检测模型,执行多次的标签预测处理,来确定各次的预测失准次数序列;对多次的预测失准次数序列求平均,来得到平均预测失准次数序列;基于平均预测失准次数序列,来确定预测失准次数阈值;获取平均预测失准次数序列中该条语音数据的平均预测失准次数,与预测失准次数阈值进行比较,如果大于后者则判定为脏语音数据并删除,反之则保留存入清洁语音数据集。如此,通过将平均预测失准次数与预测失准次数阈值进行比较,能够极大地提高筛选出脏语音数据的鲁棒性以及准确性。

    2024-04-01
  • 一种语音识别方法、装置、电子设备及存储介质
    一种语音识别方法、装置、电子设备及存储介质

    本申请提供一种语音识别方法、装置、电子设备及存储介质,所述语音识别方法,包括:对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;对所述第二语音进行语音识别,得到所述第二语音的文本信息。该方法摒弃了现有技术中对分割后的语音分别进行语音识别的处理方法,保证了第一语音的完整性,使得对语音信息的识别过程能够有效的结合不同语音之间的上下文联系,提高了语音识别的识别质量。

    2024-03-31
  • 一种基于语音重建的网络音频高效传输方法
    一种基于语音重建的网络音频高效传输方法

    本发明公开了一种基于语音重建的网络音频高效传输方法,包括以下步骤:步骤一,语音预处理;步骤二,信号处理;步骤三,fbank处理;步骤四,离散余弦变换;步骤五,动态特征抽取;步骤六,语音重建;本发明相较于现有的网络音频传输方法,在发送语音时采用MFCC技术提取语音特征,在接受语音时采用wavenet重建语音,从而获得高压缩比的语音信号,获取实时的传输效率,降低了网络带宽要求,增加无线传输距离,最重要的是在语音发送端对语音进行MFCC特征提取,有效的去除了相位信息,减少了数据传输量,达到了约10倍的压缩效率,语音接收后,使用wavenet对语音进行重组,获取了PESQ不低于3的语音质量,极大地提升了语音传输的效率和质量。

    2024-03-31
  • 一种跨语种的语音合成算法
    一种跨语种的语音合成算法

    本发明公开一种跨语种的语音合成算法,包括采用端到端神经网络系统框架,和vits声学模型,数据准备:1、准备30小时的单语种说话人(例如中日英文,就应该准备90小时的数据);2、将文本信息加上音频,语种和说话人的映射信息;3、将音频处理为22.5KHz;4、将数据按照100:5:1的比例分别训练集,验证集和测试集;模型改进:修改一些模块和损失项来建立多语言TTS模型,模型能够做到通过训练多个不同语种的单语种的训练集,达到单语种说话人有合成多语种能力的效果。另外端到端训练,直接将文本和声音输入,不用单独训练声码器,就可以得到最终的可用模型,最后,合成的声音自然真实,和原始音频极为接近。

    2024-03-31
  • 语音合成方法、装置、电子设备和存储介质
    语音合成方法、装置、电子设备和存储介质

    本发明提供一种语音合成方法、装置、电子设备和存储介质,涉及语音合成技术领域,该方法包括:获取目标文本;调用多层级韵律预测模型对目标文本进行韵律预测,得到目标文本在至少两个层级的韵律特征;根据目标文本和至少两个层级的韵律特征生成目标文本对应的语音;其中,不同层级表征韵律特征的不同时间尺度;多层级韵律预测模型是基于第一文本样本和多层级的韵律特征样本训练得到的。本发明提供的技术方案能够提高语音合成的韵律表现力。

    2024-03-31
  • 一种声音处理方法及相关装置
    一种声音处理方法及相关装置

    本申请公开了一种声音处理方法,用于在虚拟环境中构建三维模型的电子设备。该方法包括:获取三维模型的描述文件;解析描述文件,以得到描述文件中的场景参数和声音参数;根据场景参数,进行渲染以得到三维模型;根据场景参数和声音参数,对三维模型中声源位置发出的源声音进行追踪处理,以得到目标位置的目标声音。基于本方案,能够基于描述文件实现三维模型中的声音处理,提高声音处理的效率。

    2024-03-31
  • 一种基于晶格反射的空腔共振吸声结构性能提升方法
    一种基于晶格反射的空腔共振吸声结构性能提升方法

    一种基于晶格反射的空腔共振吸声结构性能提升方法,基于声子晶体局域共振产生带隙的基本原理,通过增加晶格外框架,改变晶格外框架容积与空腔共振吸声结构体积之比,调节晶格外框架的结构几何参数,产生双共振系统,进而获得在一定工作频率范围下出现双吸声峰值的吸声晶格,达到提升原空腔共振吸声结构吸声性能的目的,结果表明,本发明能使得200‑10000Hz频域范围内平均吸声率至少提高6倍以上。本发明不仅吸声性能提升效果明显,且无需额外设计新的吸声结构,方法简便。

    2024-03-31
  • 用于播放音频的方法、装置、电子设备和存储介质
    用于播放音频的方法、装置、电子设备和存储介质

    本公开涉及一种用于播放音频的方法、装置、电子设备和存储介质,涉及语音合成领域。其中的方法包括:响应于接收到用户发送的针对目标文本的音频请求指令,将目标文本进行划分,得到多个子文本;将多个子文本上传至服务端;响应于接收到来自服务端的至少一个音频数据,确定至少一个音频数据的播放顺序;根据播放顺序,播放至少一个音频数据。应用本公开能够避免用户在收听长章节的音频时等待时间过长。

    2024-03-30
  • 语音存在概率计算方法、系统、语音增强方法以及耳机
    语音存在概率计算方法、系统、语音增强方法以及耳机

    本说明书提供的语音存在概率计算方法、系统、语音增强方法以及耳机,通过对比语音存在概率的熵和语音不存在概率的熵来对迭代过程中的语音存在概率和语音不存在概率进行修正,以获取更快的收敛速度和更好的收敛结果,从而使得语音存在概率和噪声协方差矩阵估计精度更高,进而提高MVDR的语音增强效果。

    2024-03-30
技术分类