乐器、声学

  • 语音控制方法、设备及介质
    语音控制方法、设备及介质

    本发明公开了一种语音控制方法、设备及介质,方法应用于语音控制设备,通过确定干扰环境下语音唤醒词的唤醒置信度与预设置信度阈值的比较结果,确定语音控制的目标语音控制设备从而基于语音唤醒词对相应的目标家电设备进行控制。从而相较于只通过将语音唤醒的信噪比转换为能量值、最大能量值对应的控制设备响应语音唤醒的方式,除了考虑信噪比之外,还考虑语音唤醒词信噪比的唤醒置信度,从而当干扰影响到语音唤醒、识别时,在多语音入口的当前场景下确定相对响应较好的控制设备,从而响应用户的语音唤醒对其对应的家电设备进行控制,进而在干扰环境下准确确定响应语音唤醒的目标语音控制设备。

    2024-04-27
  • 声音合成模型训练方法、装置及计算机设备
    声音合成模型训练方法、装置及计算机设备

    本发明提供了一种声音合成模型训练方法、装置及计算机设备,方法包括:用户通过终端上传录音文本和录音音频文件并选择对应的语言种类,根据是否是第一次执行训练任务来选择是否使用增量检测,使用增量检测排除上一轮检测通过的数据,对剩下在上一轮未通过的数据和本轮新增数据进行检测,当本轮数据所有都通过检测,判断本次检测是否在训练服务器上执行,若不在训练服务器上执行,则需要进行一次全量检测,从而排除在前面使用了增量检测有不合格数据被漏检,从而保证训练数据质量。自动检测训练数据可以减少人工校验,增量全量混合检测可以减少数据数量从而节省时间。

    2024-04-27
  • 一种基于奇异谱声纹的电力设备状态检测方法及装置
    一种基于奇异谱声纹的电力设备状态检测方法及装置

    本发明公开了一种基于奇异谱声纹的电力设备状态检测方法及装置,包括:步骤S1:信号处理阶段,以奇异谱分析的方法提取声信号的主导分量信号并重构,得到重组信号,奇异谱分析包括分解和重构两部分;步骤S2:声纹分析阶段,对上述奇异谱分析方法所得的重组信号进行声纹分析,提取其Gamma频率倒谱系数的特征矩阵;步骤S3:状态识别阶段,对上述Gamma频率倒谱系数进行降维计算,依据得到1×Lgm的特征向量T,以正常状态下的Gamma特征矩阵为标准,进行状态识别诊断。本发明可以直接应用于运行时的检测与诊断,自动化程度高,所采集的声信号可在运算处理器上进行分析,工作过程稳定且设定简单,信号的分析无需人工干预,可靠性高,信号的重组减少了背景噪音影响。

    2024-04-27
  • 基于神经网络和多维特征融合的水声目标识别方法及系统
    基于神经网络和多维特征融合的水声目标识别方法及系统

    本发明公开了一种基于神经网络和多维特征融合的水声目标识别方法及系统,涉及水声目标识别技术领域,包括:提取待识别水声目标的水声信号频谱特征;频谱特征包括:STFT频谱特征、Mel频谱特征和MFCC特征;将Mel频谱特征和MFCC特征进行特征融合,得到初级融合特征;将初级融合特征和STFT频谱特征输入到训练好的卷积神经网络中,分别得到第一嵌入特征向量和第二嵌入特征向量;将第一嵌入特征向量和第二嵌入特征向量进行特征融合,得到目标融合特征;将目标融合特征输入到训练好的分类模型中,利用训练好的分类模型对待识别水声目标进行识别。本发明缓解了传统的水声目标识别方法难以将目标信号从无序海洋噪声中分离出来的技术问题。

    2024-04-27
  • 用于使用数据集进行音频信号增强的装置、方法和计算机程序
    用于使用数据集进行音频信号增强的装置、方法和计算机程序

    本公开的示例涉及用于针对目标用例使用数据集的音频信号增强的装置、方法和计算机程序。在本公开的示例中,一种装置被配置为使得能够访问经训练的计算机程序。经训练的计算机程序被配置用于处理一个或多个音频信号以增强在一个或多个音频信号内的声音的可听度。经训练的计算机程序是使用通用数据集来训练的。该装置还被配置为获得数据集。该数据集包括具有用于该计算机程序的输入和输出的数据样本。该装置被配置为使用该数据集来更新经训练的计算机程序。

    2024-04-27
  • 车载多人实时智能语音交互系统
    车载多人实时智能语音交互系统

    本发明涉及车载智能语音技术领域,具体涉及一种车载多人实时智能语音交互系统;包括声音采集模块、多通道语音增强模块、语音识别模块、自然语音处理模块和语音合成模块,使用车载语音时,通过声音采集模块对声源进行采集,多通道语音增强模块将采集的声源进行多通道自注意力语音增强,随后语音识别模块通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类,利用自然语音处理模块进行实时语音识别将说话人音频进行语音转文字,最后语音合成模块将转换后的实时转换文字按目标说话人声源进行人机交互处理,实现了能够提高语音的识别率,减少噪声干扰,更准确的远距离语音识别,提升了用户的体验。

    2024-04-27
  • 一种离线式语音识别电路、方法、PCB板及装置
    一种离线式语音识别电路、方法、PCB板及装置

    本申请涉及语音识别的技术领域,特别涉及一种离线式语音识别电路、方法、PCB板及装置。其包括采集模块,用于采集用户的语音指令;预处理模块,用于对所述采集模块采集到的语音进行预处理;识别模块,包括MCU芯片,所述MCU芯片用于建立音频识别模型,通过模型训练将所述预处理模块传输的语音信号转化为文本指令,以提成准确率和识别效率;以及指令传输模块,用于将所述识别模块识别到的文本指令离线传输给外部目标设备,以实现语音指令控制外部目标设备。本申请具有更好的准确性和自适应性。

    2024-04-26
  • 语音识别方法、装置、电子设备及存储介质
    语音识别方法、装置、电子设备及存储介质

    本发明提供一种语音识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:获取待识别语音;在待识别语音中包括目标领域对应的语音片段的情况下,提取待识别语音的logfbank特征;将logfbank特征输入预先训练的语音识别模型,得到语音识别模型输出的语音识别文本,语音识别模型为基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的,第一语音样本中包括目标领域内的多个样本专业术语;输出语音识别文本。训练得到的语音识别模型能识别包括专业术语的待识别语音,语音识别的准确度较高。

    2024-04-26
  • 信号处理方法、装置、计算机设备、存储介质及程序产品
    信号处理方法、装置、计算机设备、存储介质及程序产品

    本申请提供一种信号处理方法、装置、计算机设备、存储介质及程序产品,涉及语音技术、人工智能、智慧交通等技术领域。通基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号;并分别通过第一语音编码器,获取语谱频率高于目标频率阈值的第一子带信号的第一编码码流,可得到低码率的编码码流,降低了低质量需求的高频子带信号所需的传输带宽;以及通过第二语音编码器,获取语谱频率不高于目标频率阈值的第二子带信号的第二编码码流,得到高质量的编码变流,保证了具备大部分信息量的第二子带信号的编码质量,从而在保证编码质量的前提下,尽可能的降低了所需的传输成本。

    2024-04-26
  • 语音交互方法及相关装置
    语音交互方法及相关装置

    本申请提供语音交互方法及相关装置。电子设备在语音助手未被唤醒时可以识别检测到的语音是否与预设的意图匹配。若匹配,电子设备可以执行该语音匹配的意图对应的操作,并唤醒语音助手。电子设备唤醒语音助手后可以更准确地响应用户后续的请求。其中,若语音助手唤醒后的预设时间段内无语音交互,电子设备可以将语音助手从唤醒态切换到睡眠态。在上述方法中,电子设备可以在语音助手处于睡眠态时快速响应用户的请求。用户可以无需无需唤醒语音助手,随时下达语音指令指示电子设备执行相应的操作。

    2024-04-26
  • 音频信号处理方法、装置、设备、车辆以及存储介质
    音频信号处理方法、装置、设备、车辆以及存储介质

    本公开提供了一种音频信号处理方法、装置、设备、车辆以及介质,所述方法包括:通过多个车载拾音装置对多个目标环境音区的声音信号进行采集,得到包括近端语音信号和回声信号的多路音频信号;获取回声参考信号,将多路音频信号和回声参考信号输入至训练好的音频信号处理模型中,得到与各个目标环境音区对应的多路目标语音信号;音频信号处理模型基于多路音频样本信号经有监督训练得到;音频样本信号为人声样本信号与回声参考样本信号混合得到的;每路音频样本信号对应的样本标签为纯净人声信号。本公开实施例利用预先训练好的音频信号处理模型对多路音频信号进行回声消除处理以及音区分离处理,进而可以提升各个音区输出语音信号的的准确性。

    2024-04-26
  • 气溶胶量推定系统、气溶胶量推定方法以及程序
    气溶胶量推定系统、气溶胶量推定方法以及程序

    气溶胶量推定系统(100)具备:检测部(110),其检测语音;以及控制部(120),其基于特定语言声与说话者发出特定语言声时从该说话者释放的气溶胶量的相关关系,根据由检测部(110)检测到的语音所包含的特定语言声,推定被释放到发出语音的说话者所在的空间的气溶胶量。气溶胶量推定方法包括:检测语音(S11);和基于特定语言声与说话者发出所述特定语言声时从该说话者释放的气溶胶量的相关关系,根据检测到的所述语音所包含的所述特定语言声,推定被释放到发出所述语音的说话者所在的空间的气溶胶量(S14)。

    2024-04-26
  • 语音信号处理方法、装置、电子设备和计算机可读介质
    语音信号处理方法、装置、电子设备和计算机可读介质

    本公开的实施例公开了语音信号处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对语音信号进行信号预处理,以生成预处理后语音信号;根据预处理后语音信号,生成语音信号类别;根据音频信号转换模型和预处理后语音信号,生成文本指令信息;将目标唤醒词从文本指令信息中剔除,得到候选控制指令信息;对候选控制指令信息执行以下第一处理操作:根据关键信息提取模型和候选控制指令信息,生成控制指令信息;对控制对象信息对应的控制对象执行控制动作信息对应的控制动作。该实施方式避免了因环境噪声影响,造成的对语音信号识别得到的控制指令不够精准,从而导致无法依据控制指令对智能设备进行有效控制的问题。

    2024-04-26
  • 显示设备、语音处理方法及装置
    显示设备、语音处理方法及装置

    本申请实施例提供一种显示设备、语音处理方法及装置,包括控制器、图像获取装置以及语音获取装置,控制器被配置为获得待识别图像,对待识别图进行处理获得映射表,对待处理语音进行波束成形算法处理,确定待处理语音对应的来波角度,若在映射表中存在来波角度对应的目标角度参数,则获得目标角度参数对应的目标距离;确定目标距离对应的目标混响参数和目标增益参数,根据目标混响参数以及目标增益参数确定待处理语音对应的目标语音,并将目标语音发送至目标终端,通过对目标场景的图像进行处理确定语音的来波方向以及对应的距离信息,根据距离信息对采集的语音的音频进行增益处理以及去混响处理,提升了通话质量。

    2024-04-25
  • 一种基于声纹监听的识别系统及其方法
    一种基于声纹监听的识别系统及其方法

    本发明涉及声纹识别技术领域,具体公开一种基于声纹监听的识别系统及其方法,该系统包括:特性信息预处理模块、声纹信号识别分析模块、干扰信息识别分析模块、边缘计算网关、声纹特征样本库,本发明有力实现针对开关柜声纹方面进行识别监测,提高了对开关柜声纹方面的关注度,同时能够针对每个开关柜的特性特点匹配出最适合的样本数据,通过数值分析,能够高度集成的反馈开关柜的运行状态处于哪一种水平范围内,提高了数据处理的集中化程度,有助于可持续地管理各个开关柜,不仅可以进一步有针对地优化开关柜的性能,减少不必要的电气能源浪费,也为电力系统的稳定运行提供了可靠保障。

    2024-04-25
  • 一种信号处理方法、装置、设备和介质
    一种信号处理方法、装置、设备和介质

    本发明公开了一种信号处理方法、装置、设备和介质。该方法包括:获取一帧原始语音信号或每个频点组中每个频点的原始频谱信息和全频带降噪后频谱幅度值;其中,每帧原始语音信号至少包括两个频点组;根据原始频谱信息、全频带降噪后频谱幅度值和上一频点的掩码特征确定当前频点的原始掩码;根据每个频点的原始掩码和原始频谱信息确定原始语音信号对应的降噪语音信号。本实施例解决了现有技术中未考虑每个频点之间相关性的问题,更好地利用了每个频点之间的相关性,从而提升了对语音信号的降噪效果。

    2024-04-25
  • 音频合成方法、训练方法、装置、设备及存储介质
    音频合成方法、训练方法、装置、设备及存储介质

    本申请提供了一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品;涉及人工智能技术;方法包括:基于目标文本的语言信息以及待合成的目标风格信息,调用音频合成模型,其中,音频合成模型包括先验编码器以及波形解码器;通过先验编码器,对语言信息以及目标风格信息进行音频帧生成处理,得到目标文本对应的音频帧的音频特征;通过先验编码器,对音频特征进行归一化流处理,得到目标文本的隐藏变量;通过波形解码器,对目标文本的隐藏变量进行波形解码处理,得到符合目标风格信息描述的音频风格且与目标文本对应的波形。通过本申请,能够提高音频合成的质量以及表达性。

    2024-04-25
  • 一种鲁棒的点-振幅块成比例自适应声学回声消除方法
    一种鲁棒的点-振幅块成比例自适应声学回声消除方法

    本发明公开了一种鲁棒的点‑振幅块成比例自适应声学回声消除方法,其包括:滤波器的输入为语音信号,输出为估计信号;期望信号包括回声信号和噪声信号;根据鲁棒的点‑振幅块成比例自适应算法和误差信号,自适应更新滤波器的系数,以消除回声信号。本发明具备鲁棒性能,其收敛速度快,稳态误差低,声学回声的消除效果好。

    2024-04-25
  • 一种语音指令处理方法、装置、系统以及存储介质
    一种语音指令处理方法、装置、系统以及存储介质

    一种语音指令处理方法、装置、系统以及存储介质。该方法包括:语音助手获取第一语音指令;确定所述第一语音指令的意图,并根据所述第一语音指令的意图确定所述第一语音指令缺失槽位;获取历史语音指令集合中的第二语音指令,所述第二语音指令与所述第一语音指令相关;根据所述第二语音指令的槽位确定所述第一语音指令的槽位。采用上述方法可以在语音指令语义缺失的情况下,确定该语音指令的完整语义,从而可以使得该语音指令能够被执行。

    2024-04-25
  • 一种基于气流量估计的语音分离方法
    一种基于气流量估计的语音分离方法

    本发明属于数字音频处理技术领域,具体提供一种基于气流量估计的语音分离方法,用以解决现有方法在低谐波成分场景下的分离准确度降低的问题。本发明对讲话人的声门气流量和语音谐波成分进行估计,在此基础上,以帧为单位对谐波帧的气流量进行抑制,从而生成气流量特征,弥补了低谐波成分场景下传统方法在音频表征能力上的不足,将气流量特征和原音频数据进行拼接,形成新的训练和测试样本,从而在提高非谐波语音分离准确性的同时,也保持了传统方法对正常语音的分离效果。

    2024-04-24
  • 一种应用于电力作业中的声纹识别方法及其系统
    一种应用于电力作业中的声纹识别方法及其系统

    本发明公开了一种应用于电力作业中的声纹识别方法,包括:获取待建档人员的声音信号,并进行预处理;基于Gammatone滤波器组提取预处理后的所述声音信号的时频数据生成第一GFCS参数矩阵,并基于所述Gammatone滤波器组中各通道的输出信号构建频域信号的能量谱,生成第二GFCS参数矩阵;利用FastICA算法,提取所述第一GFCS参数矩阵和所述第二GFCS参数矩阵构成的混合信号中的ICA分离矩阵,并获取所述待建档人员的声纹特征;基于所述声纹特征训练SVM二分类器;在存在待测声音信号时,待测声音信号经过Gammatone滤波器组及FastICA算法处理后输入至训练完成的所述SVM二分类器,所述SVM二分类器输出声纹识别结果。

    2024-04-23
  • 一种模型生成方法、音频处理方法、装置、设备和介质
    一种模型生成方法、音频处理方法、装置、设备和介质

    本申请公开了一种模型生成方法,包括:将样本音频输入待训练的风格提取模型,得到待训练的风格提取模型输出的风格特征和内容特征;其中,风格提取模型表示基于深度学习的风格提取神经网络模型;基于风格特征和内容特征生成第一梅尔谱;基于第一梅尔谱,以及从样本音频提取得到的第二梅尔谱,确定目标损失;基于目标损失调整风格提取模型的模型参数,得到目标风格提取模型;其中,目标风格提取模型用于提取音频的风格特征和内容特征。通过该模型,能够准确获取各种音频的风格特征,从而使生成的语音具有多种风格,提高了生成语音的丰富度。

    2024-04-23
  • 应用于实时会话的语音响应方法、装置、介质及电子设备
    应用于实时会话的语音响应方法、装置、介质及电子设备

    本申请提供一种应用于实时会话的语音响应方法、装置、介质及设备,涉及计算机技术领域,该方法可以获取一种用于进行话语权预测的话语权预测模型,对会话过程中的第一用户语音进行话语权预测,若预测结果表征当前话语权属于系统端,则基于相应的系统语音来响应第一用户语音,若预测结果表征当前话语权属于用户端,则判定需要继续采集会话过程中的第二用户语音,即,通过话语权预测的结果来指导对话系统的操作,避免会话过程中出现抢话的问题,以及避免因针对不完整的用户语音生成回复语音而导致的答非所问的问题。

    2024-04-22
  • 语音控制方法、装置及车机语音控制设备
    语音控制方法、装置及车机语音控制设备

    本申请公开了一种语音控制方法、装置及车机语音控制设备。其中,该方法应用于车机语音系统,包括:从车机系统中获取目标信息,其中,目标信息中至少包括车机系统中的交互界面的界面信息;接收目标对象的语音指令;基于语音指令及目标信息确定目标对象的目标意图,并生成与目标意图对应的目标动作脚本;控制车机系统执行与目标动作脚本对应的操作。本申请解决了当前车机系统的语音服务难以提供可见即可说功能的技术问题。

    2024-04-22
  • 一种语音控制智能设备的方法和装置及移动终端
    一种语音控制智能设备的方法和装置及移动终端

    本申请涉及智能家居控制领域,公开了一种语音控制智能设备的方法和装置及移动终端,包括:通过拾音模块采集用户语音信息,并获取从不同无线接入点AP接收的信号;将用户语音信息转化为文本信息进行语义识别,确定用户的意图分类;将从不同AP接收的信号组成一个信号向量,输入预先根据从不同房间的位置测量点获取的信号向量建立的概率分类模型,确定概率最大的房间分类为用户所在的目标房间;根据意图分类确定目标房间内满足用户意图的至少一个智能设备,按照相应控制逻辑控制至少一个智能设备。本申请能够识别用户所在房间,根据用户语音判断出用户的真正意图,可以同时控制多个智能设备,不需要多轮交互,提升用户体验感。

    2024-04-22
  • 基于负面情绪的设备功能检测方法、装置、设备及存储介质
    基于负面情绪的设备功能检测方法、装置、设备及存储介质

    本发明提供一种基于负面情绪的设备功能检测方法、装置、设备及存储介质。检测方法通过使用视觉‑语音智能模型,将视频数据和语音数据的特征相结合,利用面部表情特征与文本特征协同识别用户负面情绪,提高了识别用户负面情绪微表情的准确率。并且,通过使用语音数据中特征项的变化来对视频进行热图渲染从而来获取用户微表情图像,判别方法简单,获取准确率高。收集引起用户负面情绪的设备功能信息,能够有效为后续设备功能的迭代改进提供第一手资料。

    2024-04-22
  • 一种自适应语音识别方法及系统
    一种自适应语音识别方法及系统

    本发明涉及一种自适应语音识别方法及系统,属于语音识别技术领域,解决了现有语音识别的自适应、个性化和语义理解不足的问题。包括:接收语音数据和业务信息,对语音数据预处理得到语音特征向量,对语音特征向量去除噪声后,通过语音端点检测,得到有效语音;基于业务信息提取有效语音的声纹特征,根据声纹特征获取说话人的语音片段;如果业务信息中不存在语种信息,则检测出说话人的语音片段对应语种;根据业务信息和预置的模型指标,计算出模型得分,根据模型得分和语种,将说话人的语音片段输入对应的训练好的语音识别模型,得到初始语音文本,对初始语音文本再次解码并进行后处理,得到最终的语音文本。实现了语音识别的自适应性和准确性。

    2024-04-22
  • 语音识别的特征提取方法及装置、电子设备和存储介质
    语音识别的特征提取方法及装置、电子设备和存储介质

    本公开公开了语音识别的特征提取方法及装置、电子设备和存储介质,将待处理语音信号输入SincNet网络,获取第一语音信号,所述SincNet网络包括预设数量的滤波器,所述第一语音信号包含预设数量的采样点;在分别获取所述采样点对应的幅度值的模平方之后,分别调用预设算法对所述第一语音信号进行计算,得到对应的第二语音信号,将所有所述第二语音信号按照频率范围进行组合,得到目标特征信号。本公开提供了一种将SincNet网络作为滤波器来提取目标特征信号的特征提取方法,可直接对提取到的目标特征信号进行数据增强操作,与相关技术中采用傅里叶变换提取目标特征信号的方法相比,避免了傅里叶变换的操作,简化了计算过程,节约了计算成本,减少了计算时间。

    2024-04-21
  • 语音合成的方法、装置、设备和计算机可读介质
    语音合成的方法、装置、设备和计算机可读介质

    本发明公开了语音合成的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:在合成文本中定位韵律短语,以在语音数据库中按照所述韵律短语匹配历史短语合成音频,得到匹配失败的韵律短语和匹配成功的韵律短语;将匹配失败的韵律短语输入声学模型,所述声学模型输出新建短语合成音频;以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频,构建并输出所述合成文本的语音。该实施方式能够提高语音合成的速度,保障实时流畅与用户交互。

    2024-04-21
  • 语音合成方法及装置
    语音合成方法及装置

    本说明书提供语音合成方法及装置,其中所述语音合成方法包括:获取包含主音素和副音素的拼音信息;将所述主音素和所述副音素输入至语音合成模型,并通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量;对所述主音素编码向量和所述副音素编码向量进行拼接,根据拼接结果生成基准音素编码向量和辅助音素编码向量;通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理,并根据解码处理结果生成所述拼音信息对应的音频片段。

    2024-04-21
  • 设备唤醒方法、存储介质及电子装置
    设备唤醒方法、存储介质及电子装置

    本申请公开了一种设备唤醒方法、存储介质及电子装置,涉及智能家居/智慧家庭技术领域,该设备唤醒方法包括:接收目标分组内至少一个终端设备在相应时刻发送的唤醒请求;在确定任一唤醒请求的接收时间超出目标时间窗口的情况下,若根据目标时间窗口内接收到的所有唤醒请求,确定在目标时间窗口内未接收到目标分组内所有终端设备发送的唤醒请求,则将目标时间窗口内接收到的唤醒请求中的唤醒能量值最大的终端设备作为待唤醒终端设备,并向待唤醒终端设备发送唤醒事件,以唤醒待唤醒终端设备。本申请实现对目标分组内的设备进行唯一唤醒,提高设备唤醒的准确率和用户的体验感。

    2024-04-21
  • 时序采样方法及装置、语音识别方法及装置
    时序采样方法及装置、语音识别方法及装置

    本申请提供了一种时序采样方法及装置、语音识别方法及装置,涉及人工智能技术领域。该时序采样方法包括:获取目标语音数据;基于目标语音数据,利用采样模型,确定目标语音数据的时序采样结果,其中,采样模型包括l层下采样网络和l层上采样网络,每层下采样网络包括并联的skip模块和下采样模块,每层上采样网络包括并联的skip模块和上采样模块,采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块,为目标语音数据匹配采样模型中的最优采样路径,l为大于1的正整数。通过本申请中的时序采样方法,能够提升对语音数据的声学特征的学习能力、以及建模粒度的适配度。

    2024-04-21
  • 一种语音增强方法、装置、设备及存储介质
    一种语音增强方法、装置、设备及存储介质

    本发明涉及语音处理技术领域,公开了一种语音增强方法、装置、设备及存储介质,该方法包括:将待处理音频段输入至预设分类模型,获得待处理音频段属于语音的概率和目标音频段,预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块;在概率大于预设第一阈值时,使用均方根方法确定目标音频段的音频能量;在音频能量大于预设第二阈值时,将目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型,然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量,并将音频能量大于预设第二阈值的目标音频段存入结果队列,相比于现有技术,有效提高了语音增强的质量。

    2024-04-20
  • 语音识别方法、装置、关键词检测模型的训练方法和装置
    语音识别方法、装置、关键词检测模型的训练方法和装置

    本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取待识别语音,并对待识别语音进行编码,得到编码特征;获取与识别业务相关的关键词,对关键词进行特征提取得到偏置特征;基于注意力机制融合编码特征和偏置特征得到目标特征,目标特征中包含与关键词相适配的信息;基于目标特征进行分类,得到建模单元的概率分布;根据建模单元的概率分布进行关键词识别,得到识别结果。采用本方法能够提高语音识别过程中关键词的检出率,从而提高语音识别的准确性。

    2024-04-20
  • 音频处理方法以及装置
    音频处理方法以及装置

    本发明公开了一种音频处理方法以及装置,该方法包括:确定与待处理音频相对应的至少一个音频片段,并确定至少一个音频片段中每个音频帧所对应的特征向量;将当前音频片段中所有音频帧的特征向量输入至预先训练得到的目标分类器中,以确定当前音频片段的分类结果;基于当前音频片段的分类结果,确定当前音频频段中为人声的位置信息集合;其中,位置信息集合中包括至少一个时序,时序中的第一个元素用于表示起始帧,第二个元素用于表征结束帧;基于各音频片段所对应的位置信息集合,确定至少一个时序的二级标签,以基于二级标签确定待处理音频中的目标内容。本发明实施例所提供的技术方案,实现了有效便捷对音频进行处理的技术效果。

    2024-04-20
  • 一种海南方言语音识别系统及装置
    一种海南方言语音识别系统及装置

    本发明涉及语音识别技术领域,公开了一种海南方言语音识别系统,包括特征提取模块和音素识别模块;特征提取模块通过对原始海南方言语音提取出各种语音特征,音素识别模块将所述语音特征依次通过卷积神经网络、残差网络、多头注意力机制以及长短期记忆网络组合而成的声学模型得到发音底层特征,通过全连接层映射到合适的维度,生成音素串;经过CTC损失函数计算预测的音素串与真实的音素串的差值,通过Ad‑am算法对模型中的参数进行优化,得到音素错误率;根据发音底层特征,利用海南方言发音底层特征进行方言语音识别。本发明能够有效提取不同方言特有的音素串发音底层特征,同时多种语音特征的融入使得方言语音识别性能得到大幅度提升。

    2024-04-19
  • 吸声装置
    吸声装置

    本申请涉及一种吸声装置,其包括壳体和超构吸声组件。壳体构造有具有开口的安装腔;超构吸声组件设置于安装腔内并与安装腔的腔壁连接,且超构吸声组件上构造有连通孔;超构吸声组件与安装腔的腔壁共同形成吸声腔。当通过本吸声装置对变电站或换流站这种特殊环境场所进行降噪时,由于超构吸声组件构造有连通孔,且超构吸声组件与安装腔的腔壁共同形成有吸声腔,因而吸声腔与连通孔连通并形成一个共振吸声结构,如此使得噪声的声波在进入本吸声装置时,能够在共振吸声结构中利用共振吸声原理进行吸声操作,从而使得噪声的分贝被有效降低,进而实现了降噪操作。本吸声装置的结构较为简单,因而造价成本较低,更加易于大面积推广使用。

    2024-04-19
  • 轻质、高承载通风隔声与宽频减振一体化超材料结构及系统
    轻质、高承载通风隔声与宽频减振一体化超材料结构及系统

    本发明公开了一种轻质、高承载通风隔声宽频减振一体化超材料结构及系统,该一体化超材料结构包括拉胀晶胞组件与卷曲空间组件;拉胀晶胞组件为中空结构,且拉胀晶胞组件上具有至少一个内凹型面;卷曲空间组件设在拉胀晶胞组件内,并在拉胀晶胞组件内围成至少一个卷曲通道,且拉胀晶胞组件上设有与卷曲通道连通的引波入口;拉胀晶胞组件的外壁上设有连接韧带,以连接其它超材料结构或拉胀晶胞组件。本发明应用于振动与噪声治理领域,能够有效解决如何在高承载、小尺寸条件下实现装备的低频宽带减隔振与通风、隔声多功能一体化设计的问题,为梁、板、壳等基础工程构件的多功能一体化设计提供经济、有效地技术支撑。

    2024-04-19
  • 一种基于声学隧道阵列的超宽带声波聚焦结构
    一种基于声学隧道阵列的超宽带声波聚焦结构

    本发明属于声学技术领域,具体涉及一种基于声学隧道阵列的超宽带声波聚焦结构;聚焦结构为多条长度相同的声学隧道组成的阵列,聚焦结构的入射面和出射面均为平面,且大小相同;每条声学隧道的边界由声学刚性材料构成,每条声学隧道内填充气体介质,每条声学隧道的边界上都存在周期性的凸起单元;在自由空间中,声波入射到该结构的入射面后,会在其出射面后的一定位置处产生明显声场焦斑,该结构对2kHz~21kHz的声波均能产生很好的聚焦效果。本发明最大特点是其超宽的频带宽度,在2kHz~21kHz之间都有明显的声波聚焦效果。

    2024-04-18
  • 对话语音片段的确定方法、装置及电子设备
    对话语音片段的确定方法、装置及电子设备

    本公开提供了对话语音片段的确定方法、装置及电子设备,涉及人工智能技术领域,尤其涉及自动驾驶、智能交通、自然语言处理、语音技术等技术领域。具体实现方案为:获取待处理的语音片段中各个语音帧对应的音频能量;根据语音片段内多个滑动窗口内各个语音帧对应的音频能量,确定多个滑动窗口中存在对话语音的目标滑动窗口;在多个滑动窗口中连续的多个目标滑动窗口的连续数量大于或者等于预设数量的情况下,将语音片段中连续的多个目标滑动窗口内语音帧所组成的片段,作为对话语音片段,从而能够有效地区分对话语音片段和噪声语音片段,避免对噪声语音片段进行识别处理,避免多轮对话过程中的对话重复或者对话中断,提高了对话效率。

    2024-04-18
  • 基于声学信号的水轮机初生空化预警方法
    基于声学信号的水轮机初生空化预警方法

    本发明公开了基于声学信号的水轮机初生空化预警方法,采集各工况运行参数下不同空化状态水轮机运行时的声学信号,对声学信号去噪处理,计算低频空化声学信号熵率和高频空化声学信号的信号瞬时能量值;构建水轮机工况运行参数与初生空化声学信号预警特征值之间关系的预测模型,通过水轮机工况运行参数空化声学信号熵率和高频声学信号的信号能量值对预测模型训练;采集工况运行参数已知、空化状态未知状态的实况声学信号,计算实况声学信号的熵率和能量值,将实况声学信号工况运行参数输入训练后的预测模型中获得熵率预警阈值与能量值的预警阈值;当计算信号的熵率或能量值指标超过相应预警阈值时,发出预警,精确实现水轮机初生空化预警。

    2024-04-18
  • 一种肠鸣音信号特征识别模型构建方法、装置及存储介质
    一种肠鸣音信号特征识别模型构建方法、装置及存储介质

    本发明涉及一种肠鸣音信号特征识别模型构建方法、装置及存储介质,应用于肠鸣音信号技术领域,包括:通过切比雪夫多项式对肠鸣音信号的声学特征进行逼近拟合,有效地捕捉信号的细节特征,降低了噪声对频谱拟合的影响,在此基础上,通过结合训练好的生理声音识别模型和训练好的声音识别模型,利用了生理声音的相似性,即生理声音预训练模型和一般声音预训练模型,能够从不同角度捕捉和理解肠鸣音信号,提高了识别的鲁棒性,最终得到的肠鸣音识别模型在处理具有不同特征和多样性的肠鸣音信号时具有较好的泛化性能和较强的鲁棒性能,同时能够有效的降低噪音的干扰,提高识别的精准度。

    2024-04-18
  • 基于语音识别车顶帐篷控制方法、系统、车辆及存储介质
    基于语音识别车顶帐篷控制方法、系统、车辆及存储介质

    本申请涉及汽车帐篷控制技术领域,尤其是涉及一种基于语音识别车顶帐篷控制方法、系统、车辆及存储介质。方法包括获取待识别语音信息并进行预处理,其中,预处理包括采用回声消除算法抑制采集的待识别语音信息音频信号中的车载环境自噪声;对预处理后的待识别语音信息进行分段处理以获得各语音片段,并提取各语音片段的声纹信息;根据提取声纹信息与预设的声纹数据库中语段进行匹配,判断对应的语音控制指令是否为车顶帐篷语音控制指令;若为车顶帐篷语音控制指令,根据车顶帐篷语音控制指令,对车顶帐篷进行自动化控制的动力液压系统进行控制实现开合,如此,实现对车顶帐篷打开或者折叠过程的强交互性及稳定性,提升用户的体验感。

    2024-04-18
  • 语音合成方法、装置、电子设备和存储介质
    语音合成方法、装置、电子设备和存储介质

    本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的目标文本,以及描述合成语音风格的风格文本;提取所述风格文本中的风格特征;基于所述风格特征,合成所述目标文本对应的目标语音。本发明提供的方法、装置、电子设备和存储介质,从风格文本中提取风格特征,并基于风格特征控制目标语音的合成,用户不需要具备语音知识,仅需以自然语言形式描述风格,即可完成个性化、自定义的语音合成,降低了语音合成的使用门槛,扩宽了语音合成的应用场景。并且,通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征,使得语音合成在多维度的约束控制下进行,保障了语音合成的灵活性和可控性。

    2024-04-17
  • 一种用于智能语音系统的伪装攻击方法及系统
    一种用于智能语音系统的伪装攻击方法及系统

    本发明公开了一种用于智能语音系统的伪装攻击方法及系统,通过将原始信号调整为采样率为r1的信号;根据目标系统采样率,计算重采样算法的阻带,根据获取的阻带,构造频谱在阻带上的噪声信号,将采样率为r1的信号进行能量缩小后与生成的噪声信号进行相加,从而生成伪装后的信号,本发明只需要了解目标系统的采样率,就可以生成伪装攻击样本,能在不了解模型任何信息情况下即可完成攻击,这大大增加了攻击算法的应用范围,本发明能够将普通的语音信号伪装成电流噪声,达到伪装攻击的目的;本发明验证了所提出的伪装攻击算法对于多种采样算法的有效性和普适性,即只需了解目标算法的输入采样率就可以进行攻击。

    2024-04-17
  • 一种智能双录核验方法、装置及电子设备
    一种智能双录核验方法、装置及电子设备

    本申请实施例提供了一种智能双录核验方法、装置及电子设备,其中,该智能双录核验方法通过获取用户基于目标链接的答复语音文件,将该答复语音文件转换为答复文字,并确定该答复文字是否满足预设的核验条件,若满足,则确定该答复语音文件核验通过。由于目标链接中携带有目标核验文件,答复语音文件是基于用户根据该目标核验文件进行答复生成的,由此,用户无需下载指定的APP客户端便可直接通过目标链接快速完成信息核验。故,选用本申请实施例有助于减少用户的操作以提高用户的使用体验。

    2024-04-17
  • 电子装置、其控制方法、以及该电子装置的声音输出控制系统
    电子装置、其控制方法、以及该电子装置的声音输出控制系统

    提供了电子装置、其控制方法、以及所述电子装置的声音输出控制系统。根据本公开的实施方式的电子装置包括:通信器,包括电路,配置为与服务器通信;以及至少一个处理器,其被配置为:控制电子装置提供声音,从服务器接收语音识别装置和位于语音识别装置周围的区域中的至少一个电子装置的识别信息,在提供声音的同时,从服务器接收通过语音识别装置接收到用户的语音命令的信息,基于从服务器接收的识别信息和电子装置的识别信息,确定语音识别装置和电子装置是否位于同一区域中,以及基于语音识别装置和电子装置位于同一区域中,改变从电子装置提供的声音。

    2024-04-17
  • 智能设备的语音唤醒方法、存储介质及电子装置
    智能设备的语音唤醒方法、存储介质及电子装置

    本申请提供了一种智能设备的语音唤醒方法、存储介质及电子装置,涉及智能家居/智慧家庭技术领域,该方法包括:在预设时间段内,接收智能设备集合中的每个待唤醒设备的语音唤醒信息,每个待唤醒设备的语音唤醒信息用于表示每个待唤醒设备所采集到的使用对象发出的语音唤醒指令;当智能设备集合包含的待唤醒设备的设备数量小于或等于智能设备集合包含的智能设备的设备数量时,根据每个待唤醒设备的语音唤醒信息,从智能设备集合中选取出待唤醒的目标设备;向目标设备发送第一指示信息,以指示目标设备进行唤醒,智能设备集合中除目标设备以外的其他未接收到第一指示信息的智能设备不进行唤醒。

    2024-04-17
  • 基于注意力机制的CRNN网络在麦克风唤醒中应用方法
    基于注意力机制的CRNN网络在麦克风唤醒中应用方法

    本发明涉及语音识别技术领域,具体涉及基于注意力机制的CRNN网络在麦克风唤醒中应用方法,该方法包括,建立端到端神经网络模型,网络模型由卷积神经网络、循环神经网络和注意力机制构成,输入特征经过卷积神经网络后得到输出特征,再经过循环神经网络计算各个时间步的隐藏状态,注意力机制选择更可能包含关键词的语音部分。本发明通过建立端到端的神经网络模型,将语音特征表示为更高维度的特征表示,并使用注意力机制选择更可能包含关键词的语音部分,并通过线性变换和softmax函数生成概率分布,实现关键词的识别,实现了小体积、高识别率的多分类KWS系统,并将其应用于麦克风唤醒控制中。

    2024-04-16
  • 语音MOS的测试方法、装置、设备及存储介质
    语音MOS的测试方法、装置、设备及存储介质

    本申请提供一种语音MOS的测试方法、装置、设备及存储介质。该方法包括:确定目标网络下的目标应用场景、初始语音MOS测试结果、第一语音MOS测试结果和第二语音MOS测试结果,初始语音MOS测试结果为使用第一测试设备进行语音模拟测试后得到的,第一语音MOS测试结果为使用第一测试设备进行语音测试后得到的,第二语音MOS测试结果为使用第二测试设备和第三测试设备进行语音测试后得到的,第二测试设备和第三测试设备不同;将第一语音MOS测试结果和第二语音MOS测试结果进行比对,得到测试差值;根据初始语音MOS测试结果、以及测试差值,得到目标语音MOS测试结果。本申请的方法,简化了语音MOS测试的设备投入,提高了语音MOS测试结果的准确性。

    2024-04-16
技术分类