乐器、声学

一种针对声纹识别防御模块的对抗样本构造方法

本发明公开了一种针对声纹识别防御模块的对抗样本构造方法，包括获得初始对抗扰动、原始音频和声学掩蔽音集，从声学掩蔽音集中选择一个能使听感失真度降到最低的声学掩蔽音，并和获得的初始对抗扰动与原始音频结合计算出对抗样本等步骤；本发明创新性地提出一种针对声纹识别系统防御模块的对抗样本构造方法，利用精心制作的声学掩蔽音，使人类听感失真度降到最低，并将其叠加到经过初始化的对抗扰动上，用以进行扰动掩蔽。并同时考虑多种具有代表性的防御模块，并使用集成学习方法将其与可学系的自适应权重相融合。最终生成同时满足攻击有效性、人类不可感知性、自适应性的对抗样本。

2024-03-07
语音引擎系统

本发明提供了一种语音引擎系统，该语音引擎系统应用于语音合成技术领域，包括：知识库、文本输入模块、文本检索模块、文本编码模块、语音转换模块；知识库中存储有多音字信息、各个行业的专业词汇信息；文本输入模块用于接收用户输入的文本信息；文本检索模块用于通过扫描文本信息或者基于文本信息在知识库中进行检索来确定文本信息中的目标文本；其中，目标文本为阿拉伯数字、英文字符、多音字或专业中文词组；文本编码模块用于对文本信息中的目标文本进行转换；语音转换模块用于将转换后的文本信息转换成语音。本发明能够提高语音转换的准确度。

2024-03-07
语音信号处理方法、装置、可读存储介质及电子设备

本公开实施例公开了一种语音信号处理方法、装置、可读存储介质及电子设备，其中，该方法包括：获取目标空间内的语音信号和图像序列；基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号；基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号；确定当前的语音信号处理状态是否符合语音信号输出条件；若符合语音信号输出条件，确定图像序列的图像质量信息；基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。本公开实施例根据图像质量有针对性地选择输出的语音片段信号的来源，进而有助于提高语音识别的准确性。

2024-03-07
语音增强方法、电子设备和存储介质

本发明公开语音增强方法、电子设备和存储介质，其中，语音增强方法用于语音增强系统，语音增强系统包括编码器模块、双路模块、解码器模块和合并模块，解码器模块包括激励解码器、声道解码器和复数谱解码器，方法包括：利用编码器模块提取原始带噪语音信号中的预设特征；利用双路模块对预设特征在频率轴进行建模处理得到频率轴特征，利用双路模块对预设特征在时间轴进行建模处理得到时间轴特征；利用激励解码器和声道解码器对时间轴特征进行处理得到第一降噪语音信号；利用复数谱解码器对频率轴特征进行处理得到第二降噪语音信号；利用合并模块将第一降噪语音信号、第二降噪语音信号和原始带噪语音信号进行合并得到最终的估计语音信号。

2024-03-07
基于注意力机制的声音事件样本混合方法及装置

本发明公开了一种基于注意力机制的声音事件样本混合方法及装置，在音频分类任务上，样本混合是一种有效的数据增强方法。原有的样本混合方案直接混合两个随机样本的波形，这不仅忽略了声音事件的时间分布，而且还可能干扰另一个样本中的原始声音事件。本文提出了基于注意力机制的样本混合方案，它只选择那些含有声音事件的片段进行混合，而不是简单地混合整个样本。该方案利用预先训练好的音频分类模型的注意力图，过滤出频谱图上对分类有用的部分，然后选择区域进行混合。该方案能够显著提升音频分类的准确率(+1.9mAP)，尤其能够将短事件(0.1s至2s)的分类准确率平均提高6.8％，同时保持对长事件的分类准确率。

2024-03-07
一种基于CEEMDAN和深度学习的信号去噪方法

本发明公开了一种基于CEEMDAN和深度学习的信号去噪方法，通过对信号f(t)进行CEEMDAN分解，以获取固有模态函数分量imfh(t)和残差分量r(t)；然后将固有模态函数分量imfh(t)分量划分为噪声固有模态函数分量、混合固有模态函数分量和信号固有模态函数分量；丢弃噪声固有模态函数分量，并对混合固有模态函数分量进行去除噪声处理，最后进行信号的重构，将去除噪声的混合固有模态函数分量、信号固有模态函数分量和残差进行信号重构，得到去噪后的信号。本发明将信号经CEEMDAN分解产生的固有模态函数分量分成三类，对不同类型的固有模态函数分量采用不同的处理方法，既提高了处理速度，又提高去噪的效果。引入了注意力机制，够抑制通道中没有用的特征，增强需要用到的特征。

2024-03-07
一种多种噪声环境下的语音增强方法

本发明公开了一种多种噪声环境下的语音增强方法，其包括：1)完成音频的预处理与数据增强操作；2)使用基于Transformer架构的多尺度编码器提取多层次音频特征，并借助特征提升模块强化关键的特征；3)借助基于双路架构的长短期感知模块分别实现不同维度上长短期特征的捕获；4)使用残差解码器和掩码估计模块获得纯净语音信号；5)借助均方误差损失项和信噪比损失项联合训练网络模型。此方法的鲁棒性强，实时性高，可以有效地处理鸣笛声、喧嚣声、鼓掌声、鸟鸣声等十种常见的噪声，从而改善短视频、网络直播、视频会议、语音通话等应用的用户体验。与部分主流语音增强模型相比，在相关评价指标上可以平均提升16％。

2024-03-07
智能推荐方法和装置、设备、介质

本实施例提供一种智能推荐方法和装置、设备、介质，属于人工智能技术领域。该方法包括：获取用户语音；对用户语音进行语音识别处理，以得到目标语音文本；通过NLP意图识别模型对目标语音文本进行意图识别处理，以得到至少一个意图集合；根据意图集合得到用户意图清单，用户意图清单用于向用户提供至少一个用户意图；接收用户根据用户意图反馈的意图信息；根据意图信息从预设的话术推荐库中确定目标推荐话术。本方案通过预设的NLP意图识别模型对语音文本进行清洗、抽取意图集合，进而得到用户意图清单。以便根据用户意图清单向客户澄清意图，从而确定目标推荐话术来进行服务销售，提高服务过程中的销售转化率。

2024-03-06
人机交互系统、服务器、交互终端、交互方法和电子设备

本公开提供了一种人机交互系统、服务器、交互终端、交互方法和电子设备，涉及计算机技术领域，尤其涉及人机交互技术领域。人机交互系统包括服务器、第一交互终端、第二交互终端。第一交互终端被配置为接收语音输入；通过对语音输入进行语音识别以生成第一请求指令；向服务器发送第一请求指令。服务器被配置为响应于接收到第一请求指令，将与第一请求指令相对应的控制指令存储在缓存中。第二交互终端被配置为：基于第二请求指令，调用服务器中的接口，以经由接口从服务器的缓存中读取控制指令；以及运行读取到的控制指令，以显示与控制指令相对应的内容。

2024-03-06
语音合成模型训练方法、装置、计算机设备及存储介质

本发明涉及人工智能技术领域，本发明公开了一种语音合成模型训练方法、装置、计算机设备及存储介质。通过获取原始文本数据和说话人标识，并对原始文本数据进行处理后，获取原始文本向量及对应的原始音素向量，通过对原始文本向量和原始音素向量进行特征增强处理，以得到向量更为显著目标文本向量和目标音调向量；基于说话人标识，获取对应的目标声纹向量，将目标声纹向量、目标文本向量和目标音调向量进行拼接，利用拼接后的目标隐向量对语音合成模型进行训练，以获取说话人标识对应的目标语音合成模型，从而提高更新后的目标语音合成模型所合成语音数据与说话人的声纹相似度，增加目标语音合成模型的拟人化程度。

2024-03-06
语音翻译、模型训练方法、装置、设备及存储介质

本公开提供了语音翻译、模型训练方法、装置、设备及存储介质，涉及数据处理技术领域，尤其涉及音频数据处理技术领域。具体实现方案为：提取待翻译的源语种音频中各个音频帧的音频特征；基于各个音频帧的音频特征，分别确定各个音频帧对应的目标语种的语音单元，作为目标语音单元，其中，每一语音单元为对应音频的一种声学类别的音频数据；基于各个音频帧在源语种音频中的时序顺序以及各个音频帧对应的目标语音单元，生成目标语种音频。应用本公开实施例提供的方案进行语音翻译时，能够提高语音翻译的效率。

2024-03-06
一种并联弹簧振子吸声结构

本发明公开了一种并联弹簧振子吸声结构，包括：至少一个吸声单元；所述吸声单元包括：弹簧振子模块和倒相箱；所述弹簧振子模块包括：弹簧、振子和阻尼；所述倒相箱包括：底板和顶部向内弯折的壁板。本发明通过调整各所述吸声单元中的弹簧的力抗、振子的质量及阻尼的力阻，使各所述吸声单元中的弹簧振子模块具有不同的共振频率，从而通过将至少一个具有不同共振频率的弹簧振子模块并联，能够有效拓宽整个吸声结构的吸声带宽；此外，本发明利用振子将声能转化为机械能并通过阻尼将转化而来的机械能消耗掉，同时辅以反相次级声源的抵消作用，能够提高吸声效率。

2024-03-06
一种用于在线教育的音乐旋律识别方法及装置

本发明涉及一种用于在线教育的音乐旋律识别方法及装置，所述方法包括以下步骤：对待学习的歌曲语音进行分段式旋律分析，并将分析得出的歌曲音准和音乐旋律发送至学员端；实时获取学员端的歌声，并对歌声进行降噪处理；将降噪后的学员端歌声音准和音乐旋律与待学习歌曲的音准和音乐旋律进行对比，判断学员端的歌声是否符合标准。本发明能够准确的分析出歌曲的旋律及音准，使歌曲旋律可视化，大大提高了学员音准的准确性，可以更好的帮助学员建立歌曲旋律。

2024-03-06
结合先验知识的文本识别方法、装置、计算机设备

本申请涉及语言处理领域，特别是涉及到一种结合先验知识的文本识别方法、装置、设备及介质，所述方法包括如下步骤：获取待识别文本；对所述待识别文本进行解码，得到候选词列表；读取各音素的先验数值，基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离，得到所述各原始音素与所述各目标音素间的编辑距离；基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差，得到所述各原始音素与所述各目标音素间的偏差概率；根据所述偏差概率计算所述各目标音素的阈值，得到所述各目标音素的音素阈值；基于所述音素阈值确定所述待识别文本的识别结果。本申请结合模型先验知识对文本进行识别，从而提高文本识别的准确性。

2024-03-06
文本语料筛选方法、装置、设备及存储介质

本公开提供一种文本语料筛选方法、装置、设备及存储介质。该方法包括：获取基础文本语料库以及目标对象的录音语料，利用语音识别模型对语音数据进行识别得到第一音素序列，对语音文本进行音素转换得到第二音素序列；根据第一音素序列及第二音素序列生成评价序列，基于评价序列生成评价训练数据集，利用评价训练数据集训练评价模型；依次选取基础文本语料库中的每个语料，计算语料添加到目标语料集合时的增益，并利用评价模型对每个语料的音素序列进行预测，根据增益以及评价模型的预测结果，对每个语料进行打分；根据打分结果以及筛选条件生成目标语料集合。本公开能够为目标对象生成个性化的文本语料，提高文本语料的质量，提升模型的调优效果。

2024-03-06
一种音频数据处理方法、装置、计算机设备以及介质

本申请实施例提供了一种音频数据处理方法、装置、计算机设备以及介质，该方法可以应用于云技术、人工智能、智慧交通、音频等各种场景，方法包括：在应用界面中显示原始文本信息；获取目标音色信息和目标文本信息对应的目标音频数据；目标文本信息是指在原始文本信息中所选择的文本信息；获取针对原始文本信息的拼接音频数据；拼接音频数据是由融合音频数据和剩余文本信息对应的标准音频数据进行拼接得到；剩余文本信息为原始文本信息中除目标文本信息之外的文本信息；融合音频数据是由目标音频数据和目标音色信息进行融合得到。本申请可以提高音频创作的丰富度，且提高音频数据的质量。

2024-03-06
智能眼镜的播放控制方法及智能眼镜、存储介质

本公开涉及智能眼镜的播放控制方法及智能眼镜、存储介质。所述智能眼镜的播放控制方法，包括：在至少一个多媒体设备中确定目标多媒体设备，所述目标多媒体设备为所述智能眼镜的佩戴者所关注的多媒体设备；将所述智能眼镜的音源设置为所述目标多媒体设备。

2024-03-05
一种合成语音的变奏方法、装置、电子设备及存储介质

本发明公开了一种合成语音的变奏方法、装置、电子设备及存储介质，用于解决现有的合成语音层次感不够分明，生动性差的技术问题。本发明包括：获取预处理文本，并从所述预处理文本中识别自然段落；对所述自然段落进行调整，得到实际段落；依次计算相邻两个实际段落的相关性；生成所述实际段落的合成语音；获取所述合成语音中各所述实际段落的语言节奏；根据所述相关性对所述语言节奏进行调整，得到变奏合成语音。

2024-03-05
语音序列的重点子序列识别与显示方法、系统与电子设备

本发明提出语音序列的重点子序列识别与显示方法、系统与电子设备，属于语音识别技术领域。方法包括步骤S100获取语音序列；S200识别语音序列中是否存在重点子序列；如果存在，则在播放语音序列的同时将重点子序列以预定格式显示；如果不存在，则直接播放语音序列；重点子序列包括至少一个化学物质和/或化学物质组合的反应关系。系统包括语音接收端、语音识别端、语音显示端、语音播报端；语音播报端用于在语音显示端以预定格式在显示界面上显示重点子序列的同时播报所述重点子序列。本发明还提出实现所述方法的电子设备。本发明可实现语音序列的重点子序列识别与显示，有助于化学领域语音在线教学时的重点关注，并节省系统资源。

2024-03-05
离线语音检测方法和装置、电子设备、存储介质

本公开实施例提供离线语音检测方法和装置、电子设备、存储介质，涉及计算机技术领域。该离线语音检测方法，包括：获取环境音频数据；根据预设的语音识别模型对环境音频数据进行离线语音识别处理，得到识别结果；根据识别结果和预设的目标词汇得到检测结果；根据检测结果生成语音日志数据；发送语音日志数据给管理服务器，通过本公开实施例提供的技术方案可以扩大监控的范围，提升监控的隐蔽性。

2024-03-05
一种基于ARM平台的多路G729编解码方法

本发明提供一种基于ARM平台的多路G.729编/解码方法，属于语音编解码领域。本发明创造性地运用ARM处理器大量带饱和进位的DSP运算汇编指令、状态寄存器等高效实现了G.729的复杂运算，解决了现有G.729实现方式的弊端，实现了小型语音终端中多路G.729语音编解码。

2024-03-05
基于脉冲响应降噪的厅堂客观音质参量测量方法及系统

本发明公开一种基于脉冲响应降噪的厅堂客观音质参量测量方法及系统，涉及建筑声学测量技术领域。通过对等幅值扫频信号进行加权，使扫频信号幅值在头部逐渐增大，在尾部逐渐减小，避免了扫频信号幅值突变引起的负载过大和附加脉冲，得到无尾部脉冲干扰、精度更高的脉冲响应；通过对能量脉冲响应信号进行截断处理，避免了头部及尾部以噪声为主的能量脉冲响应信号对计算精度的干扰，提高了测量结果的准确度；通过对能量脉冲响应信号进行降噪和截断能量补偿处理，避免了信号中的噪声影响客观音质参量的计算精度，从而使处理后的能量脉冲响应信号在背景噪声比较大的情况下具有良好的信噪比，减小测量误差，提高客观音质参量测量结果的准确度。

2024-03-04
人机交互系统及交互方法

本发明实施例涉及一种人机交互系统及交互方法，该系统包括：语音采集装置，分别用于采集与之对应的乘坐位置上的用户的第一语音信息；语音转换装置，用以对第一语音信息进行语音转换，获取控制消息；控制装置，用以根据控制消息，确定待控制的第一控制对象，以及待执行的第一控制指令，并在第一控制对象上执行第一控制指令，获取执行结果；语音转换装置，还用于将执行结果转换为第二语音信息；语音播放装置，用于以骨传导的方式为用户播放第二语音信息。第二语音消息只会以骨传导形式被乘客听到，而不会影响到其他乘车人。互不影响，又能得到舒服的听觉体验，更加符合用户需求。

2024-03-04
语音合成方法、系统、电子设备和存储介质

本发明实施例提供一种语音合成方法、系统、电子设备和存储介质。该方法包括：获取用于语音合成数据的隐层表示，将隐层表示输入至音素级韵律控制器，得到离散的音素级韵律预测；将离散的音素级韵律预测和隐层表示混合输入至声学模型，通过声学模型中的分类器预测每一帧的离散声学特征，并利用声学模型中的卷积神经网络预测帧级别的韵律特征；将离散声学特征以及帧级别的韵律特征输入至声码器，生成多样韵律的语音。本发明实施例使用离散化的语音表示替代传统的梅尔频谱，从而大大降低了错误传递的问题。不但使合成语音的音质有了大幅提高，而且还保留了韵律多样性。通过韵律控制器可以产生不同的韵律，从而生成多样的语音。

2024-03-04
基于语音自动分级的语音服务方法及语音客服服务平台

本申请提供的一种基于语音自动分级的语音服务方法及语音客服服务平台，该方法包括：获取用户的交流信息；其中，所述交流信息包括所述用户交流过程中的语音信息和文字信息；对所述交流信息进行处理，提取关键信息；其中，所述关键信息包括关键语音、关键字词和关键衍生信息；对所述关键信息进行分析，得到所述交流信息对应的第一等级；根据所述第一等级的交流信息，确定针对所述第一等级的交流信息的语音服务任务，所述语音服务任务包括语音服务的类型和第二等级。本申请实施例能够为用户提供高效、准确的语音服务。

2024-03-04
一种基于脑电非线性动力学分析的音频制作方法及终端

本发明公开一种基于脑电非线性动力学分析的音频制作方法及终端，获取脑电波信号集；计算所述脑电波信号集对应的多个相位同步强度，并基于所述多个相位同步强度计算脑电波信号主频率；根据所述脑电波信号主频率获取变化后的脑电波信号集，并根据所述变化后的脑电波信号集从所述脑电波信号主频率中筛选目标主频率；基于所述目标主频率进行脑电非线性动力学分析，得到基础音频，由于目标主频率即为可诱发脑电波变化的主频率，基于目标主频率得到基础音频，利用基础音频可诱发脑电波特定频率，能够刺激大脑神经元有方向性，从而提高了音频的情绪舒缓和调节效果。

2024-03-03
音乐生成方法、装置、设备及存储介质

本公开是关于一种音乐生成方法、装置、设备及存储介质。该音乐生成方法包括：根据用户的第一输入操作，获取第一音乐参数；将所述第一音乐参数输入音乐生成模型，得到初始音乐；将所述初始音乐输入音色预测模型，得到与所述初始音乐对应的音色参数；根据所述音色参数和所述初始音乐，得到目标音乐。本公开提供的音乐生成方法不需要输入原始的音乐，可以根据用户的操作生成全新的音乐，且生成的音乐的创新性和音乐价值更高。同时，根据初始音乐得到的与初始音乐对应的音色参数与初始音乐更加适配，从而根据音色参数和初始音乐得到的目标音乐的音乐效果更好。

2024-03-03
一种语音智能家居中控设备

本发明涉及智能家居技术领域，尤其涉及一种语音智能家居中控设备，包括翻盖和盒体，所述翻盖转动设置在盒体上，盒体内的两侧均开设有敞口的侧腔，侧腔的一侧设置有第一网板，且侧腔内靠近外端的内壁之间设置有相对的两个固定盒，固定盒内滑动设置有第二网板，同侧的两个第二网板之间设置有多个首尾相接且活动设置的调节板，位于中间的两个调节板的一侧还连接有连接件，连接件的一侧安装有电动推杆，且相邻的两个调节板之间还粘接有连接膜。本发明可以在防尘的同时为中控设备进行通风，有效地提高了内部组件的寿命。

2024-03-03
神经网络训练方法、装置、电子设备及介质

本发明公开了神经网络训练方法、装置、电子设备及介质，涉及音频信号编解码技术领域。训练方法包括以下步骤：基于神经网络的编码器将音频信号编码为深层次特征；量化器将深层次特征量化；解量化器将深层次特征量化索引解量化；基于神经网络的解码器将解量化的深层次特征解码，得到解码音频信号；基于心理声学模型计算输入音频信号的信掩比；听觉感知损失计算模块计算解码音频信号的听觉感知损失；训练模块基于引入听觉感知特性的损失函数训练编码器、量化码本以及解码器，直至损失收敛。根据本发明训练方法得到的编解码器，能够使解码音频信号的每一个频率成分的重建噪声尽可能地控制在掩蔽阈值内，从而达到提升解码音频信号感知质量的效果。

2024-03-03
实现精准语义和声纹双重识别的方法、系统及存储介质

本发明公开了一种实现精准语义和声纹双重识别的方法、系统及存储介质，方法包括：获取待处理的语音信号；通过快速的提升小波时频域分析方法对语音信号进行降噪处理，在降噪处理中基于预设的目标滤波器得到语音信号的小波系数；在小波域计算得到小波系数降噪后的移动方差，并根据移动方差得到语音信号二维的语音特征图像；将语音特征图像输入至预设的小波神经网络中，得到语音信号中的声纹和语义。本发明通过快速提升小波变换，进行小波降噪和提取语音特征图像，同时采用高效的小波神经网络，进行声纹和语义双重识别，不仅可以减少系统资源的开销，提高识别的准确率,还可以使系统满足快速实时运算的要求，从而实现更高效的识别过程。

2024-03-02
离线语音质检方法、系统、电子设备和存储介质

本申请涉及一种离线语音质检方法、系统、电子设备和存储介质，属于语音处理技术领域，该方法包括：获取语音文件，对语音文件进行语音转译处理，得到处理后的文本文件，将文本文件输入话者分离处理器区分用户和客服人员的对话文内容，得到区分后的文本文件，将区分后的文本文件输入音频分析处理器进行音频分析处理，得到质检文本，将质检文本输入文本正则模型识别预设关键字，得到正则识别结果，将质检文本和正则识别结果分别输入训练好的质检模型进行匹配处理，得到质检结果，本申请解决相关技术中针对用户提供的语音信息无法灵活的识别，识别准确率较低，严重影响了质检效果的问题。

2024-03-02
音频处理方法、装置、计算设备及介质

本公开的实施方式提供了一种音频处理方法、装置、计算设备及介质。通过基于待处理音频所对应的左声道音频和右声道音频，以及通过第一音频网络训练得到的、分别对应于目标多声道音频的主成分音频和环绕成分音频所属频段的频段权重参数，确定目标多声道音频对应的主成分音频和环绕成分音频，从而基于环绕成分音频以及通过第二音频网络训练得到的目标映射参数，获取渲染音频，进而基于目标多声道音频对应的主成分音频和渲染音频，获取待处理音频对应的目标多声道音频，通过采用音频处理网络训练得到的参数来进行音频处理，可以避免音频中存在多个主声源时分离信号时所采用的权重失衡导致分离度降低的问题，从而可以提高音频处理方法的处理效果。

2024-03-02
声纹识别方法、声纹提取网络的训练方法及相关装置

本申请公开了一种声纹识别方法、声纹提取网络的训练方法及相关装置，所述声纹识别方法包括：对待识别音频进行特征提取，以获得待识别音频特征；将所述待识别音频特征输入至训练后的声纹提取网络中，以获得待识别声纹特征；其中，训练所述声纹提取网络时基于有说话人标签的语音数据和无说话人标签的语音数据，且训练所述声纹提取网络时所采用的总损失与有监督损失和半监督损失相关；基于所述待识别声纹特征确定与所述待识别音频对应的说话人。通过上述设计方式，本申请能够显著提升声纹提取网络的识别性能，提升说话人识别的准确率。

2024-03-01
一种设备控制方法、装置、音箱设备及存储介质

本申请公开了一种设备控制方法、装置、音箱设备及存储介质，所属的技术领域为无线通信技术，用于对智能设备进行控制。所述设备控制方法包括：利用所述UWB模组接收多个智能设备发送的UWB信号；根据所述UWB信号确定所述音箱设备与每一所述智能设备的相对位置，并根据所述相对位置生成设备分布地图；若所述MIC模组采集到用户输入的语音指令，则根据所述语音指令确定所述用户在所述设备分布地图中的位置；根据所述设备分布地图确定所述用户与所述智能设备的距离信息，并根据所述距离信息确定目标设备；控制所述目标设备执行所述语音指令对应的操作。本申请能够提高对智能设备控制的便捷性和精准性。

2024-03-01
声纹提取方法、身份识别方法及相关设备

本申请公开了一种声纹提取方法、身份识别方法、声纹提取装置、身份识别装置、电子设备及计算机可读存储介质。该声纹提取方法包括：基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列；其中，特征序列包括至少一个帧级特征；基于音素片段的特征序列进行特征统计，得到音素片段的音素特征；基于若干音素片段的音素特征，得到所述目标对象的声纹特征。通过上述方式，能够提高声纹特征的鲁棒性和准确性。

2024-03-01
一种音乐艺术表演用节奏拍打器及其使用方法

本发明公开了一种音乐艺术表演用节奏拍打器及其使用方法，涉及音乐艺术表演辅助工具技术领域。本发明包括夹座、电动伸缩杆、顶收纳组件、底收纳组件和音响，所述夹座的顶部固定有轴承，所述轴承的顶部活动连接有电动伸缩杆，所述顶收纳组件和底收纳组件之间可拆卸连接有电子节奏拍打器，所述固定架的背面可拆卸连接有音响，所述音响与电子节奏拍打器电性连接。本发明自身带有收纳结构，在不使用时，便于简易收纳，长久放置，也不容易积尘，也便于自我防护，而且可根据使用需求，调整自身的使用高度、使用方向以及使用角度，可调性较强，并且自身带有夹座和扩音结构，可适用于不同场地使用，也适用于不同环境下使用。

2024-03-01
消声器及装置

本申请提供一种消声器及装置。消声器包括第一消声部，包括大致平行的第一侧面和第二侧面，第一侧面开设有第一声波射入口，第一侧面和第二侧面之间形成有与第一声波射入口连通的第一谐振腔；其中，在垂直于第一谐振腔的第一侧面和第二侧面的至少一个参考平面内，第一谐振腔的第一侧面具有第一轮廓，第一谐振腔的第二侧面具有第二轮廓，第一轮廓的长度小于第二轮廓的长度。上述消声器，可以在实现低频消声的同时，减少空间占用。

2024-02-29
一种业务办理的方法、装置及计算机可读存储介质

本申请公开了一种业务办理的方法、装置及计算机可读存储介质，应用于机器人，该方法通过采集开始工作信息，并在开始工作信息满足预设条件时触发开启语音助手的指令，并采集语音信息，并在语音信息包括业务信息时根据业务信息对业务信息对应的业务进行办理。可以看出，此方法通过设置开启语音助手的预设条件，当开始工作信息满足预设条件时，实现机器人与用户的交互，用户只需要说出想要办理的业务，不需要预先了解操作规则，办理流程比较简单，在用户过多时，可以与柜台的工作人员一起存在，并且可以24小时不间断的办理业务，从而减轻业务人员的压力，提高用户的体验感。

2024-02-29
歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品

本申请涉及音频技术领域，提供一种歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品。本申请能有效将歌曲中包含伴唱和非伴唱部分的伴奏去除，清除了主旋律提取过程中存在的干扰信号，增加基于干声信号估计得到的主旋律的准确率。该方法包括：获得目标歌曲的歌曲信号以及目标歌曲对应的原始伴奏的伴奏信号；原始伴奏包含伴唱部分及非伴唱部分；将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入自适应滤波器，由自适应滤波器识别目标歌曲中的初步干声信号；将目标歌曲的歌曲信号输入人声提取模型，得到人声提取模型输出的目标歌曲中的人声信号；根据初步干声信号和人声信号，确定目标歌曲的目标干声信号；根据目标干声信号得到目标歌曲的主旋律。

2024-02-29
一种语音分离方法、装置、电子设备和存储介质

本申请涉及计算机技术领域，尤其涉及语音处理技术领域，提供一种语音分离方法、装置、电子设备和存储介质，用以提高语音分离的准确性。其中，方法包括：获取待分离语音数据；对待分离语音数据进行编码，获得对应的编码结果，并对编码结果进行语音分离操作，获得至少一个目标声源各自对应的语音特征和相位移动特征；基于获得的至少一个相位移动特征，分别对预设的信号解码参数集进行参数重构，获得相应的目标信号解码参数集；分别采用获得的至少一个目标信号解码参数集，对相应的语音特征进行解码，获得对应的目标声源对应的重建语音信号。由于本申请通过相位移动提高中高频信号的建模能力，几乎没有额外增加参数量或复杂度，可有效提高分离性能。

2024-02-28
语音信号处理方法、装置、存储介质、电子设备及车辆

本公开涉及一种语音信号处理方法、装置、存储介质、电子设备及车辆。该方法包括：获取语音采集阵列采集到的语音观测信号；对所述语音观测信号进行语音预分离处理，得到与所述语音采集阵列中各语音采集装置对应的语音预分离能量；根据所述语音预分离能量对所述语音观测信号进行语音盲源分离，得到各所述语音采集装置对应的独立源语音信号。采用本公开这种方式，因引入了语音预分离能量、并基于语音预分离能量对语音观测信号进行语音盲源分离指导，而可以准确地确定分离出的各独立源语音信号与各语音采集装置的对应关系，进而基于语音采集装置的安装位置可准确地确定各独立源语音信号所在的声源位置区域。

2024-02-28
一种音频信号处理装置、方法及可存储介质

本申请公开了一种音频信号处理装置包括拾音器、扬声器以及音频信号处理芯片，所述音频信号处理芯片包括声纹识别模块、比较模块以及存储模块；所述拾音器用于获取音频信号并将所述音频信号转换成模拟信号；所述声纹识别模块用于检测所述模拟信号是否包含人声；所述比较模块用于比较所述目标模拟信号与存储在所述存储模块中的样本信号是否相同，若相同，则将所述目标模拟信号删除；若不相同，则将所述目标模拟信号作为样本信号传输至所述存储模块进行存储；所述扬声器，用于从所述存储模块获取最新存储的样本信号，并将所述最新存储的样本信号转换成对应的音频信号后输出。本申请可以过滤回声，并准确获取到用户的语音。

2024-02-28
一种基于语音播报的病理实验室管理系统

本申请提供了一种基于语音播报的病理实验室管理系统，涉及语音处理技术领域，该系统包括：包埋管理子系统、切片管理子系统、染色管理子系统以及语音播报子系统；包埋管理子系统用于对包埋过程进行监控、信息统计和质量评价；还用于将包埋处理过程播报语音的信息发送至语音播报子系统；切片管理子系统用于对切片过程进行监控、信息统计和质量评价；还用于切片处理过程播报语音的信息发送至语音播报子系统；染色管理子系统用于对染色过程进行监控和信息统计；还用于染色处理过程播报语音的信息发送至语音播报子系统；所述语音播报子系统，用于当接收到播报语音的信息，将待播放的文字转换为语音并播放。本申请提高了病理实验室质量管理水平。

2024-02-27
从视频生成同步的声音

本文的实施例描述了当训练机器学习(ML)系统时使用的音频转发正则化器和信息瓶颈。音频转发正则化器接收音频训练数据，并识别训练数据中的视觉不相关声音和视觉相关声音。通过控制信息瓶颈，音频转发正则化器将主要涉及视觉不相关声音的数据转发到生成器，同时滤除视觉相关声音。生成器还从视觉编码器接收关于视觉对象的数据，该数据是从视觉训练数据导出的。由此，当被训练时，生成器接收关于视觉对象的数据和关于视觉不相关声音的数据(但几乎没有或没有关于视觉相关声音的数据)。由此，在执行阶段期间，生成器可生成与视觉对象相关的声音，而不将视觉不相关声音添加到视频。

2024-02-27
语音合成模型的训练方法、语音合成方法及装置

本公开提供了一种语音合成模型的训练方法、语音合成方法及装置，涉及人工智能技术领域，尤其涉及语音合成领域。该方法包括：将源音频的内容输入至内容编码网络中得到内容特征向量；将源音频输入至情绪抽取网络中得到初始情绪特征向量，根据初始情绪特征向量和内容特征向量确定基础情绪特征向量；将源音频和目标音频输入至情绪排序网络中得到排序系数向量，根据排序系数向量和基础情绪特征向量确定情绪强烈程度特征向量；将源音频输入至说话人编码网络和语种编码网络得到说话人特征向量和语种特征向量；将上述特征向量输入至声谱解码合成网络得到重建音频；根据重建音频和目标音频更新模型参数。该方法实现了在语音合成中体现情绪强烈程度。

2024-02-26
一种立式钢琴的导音装置

本发明属于钢琴技术领域，公开了一种立式钢琴的导音装置，其技术要点是：包括钢琴，钢琴内部开设有传音腔，传音腔内底部固定安装有与琴键相互配合的声源，所述传音腔内固定安装有与声源相互配合的导音筒，导音筒内安装有导音块，传动腔内安装有与导音块相互配合的升降机构，导音块内部安装有与导音筒内部相互配合的限位机构。

2024-02-26
一种语音检测方法、装置、电子设备及存储介质

本申请提供了一种语音检测方法、装置、电子设备及存储介质，语音检测方法包括：从目标语音信息中提取出语音特征信息；将目标语音信息输入到训练好的端到端模型中，得到目标语音信息对应的第一检测分数，以及将语音特征信息输入到训练好的非端到端模型中，得到目标语音信息对应的第二检测分数；根据第一检测分数和第二检测分数，确定目标语音信息对应的目标检测分数。本申请通过将端到端网络模型的第一检测分数与非端到端模型的第二检测分数相融合，使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

2024-02-26
一种基于CS-MUSIC矿井提升机故障源定位分析方法

本发明公开了一种基于CS‑MUSIC矿井提升机故障源定位分析方法，包括对多通道的矿井提升机音频信号进行预处理；通过提取音频信号的MFCC特征参数并对故障的音频信号进行二次分帧、对协方差矩阵进行特征分解，结合MUSIC的频估计函数，最终实现故障识别和故障音频信号的方位。使用CS算法对MUSIC定位结果进行寻优，显著提高了定位的精准率。本发明具有诸多优势，采用了识别和定位算法相结合并通过CS对定位结果进行寻优，与传统的定位方法相比，具有实时性高、操作简便、定位算法结果准确率高的优势。

2024-02-25
语音识别方法、装置、电子设备和存储介质

本发明提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别语音；基于语音识别模型，确定待识别语音的识别文本；语音识别模型是基于第一编码网络，应用第一语音文本对训练得到的，第一编码网络是联合语音编码网络和文本编码网络，应用第二语音文本对训练得到的；待识别语音和第一语音文本对属于第一语种，第二语音文本对属于第一语种之外的其他语种。本发明提供的方法、装置、电子设备和存储介质，由于第二语音文本对容易获取，且有监督训练时数据规模的增加能够带来训练效果的提升，用于第一语种的语音识别模型预训练的第一编码网络得以保证其优良的性能，由此实现准确、可靠的低资源语种的语音识别。

2024-02-25
新型室内四合一K歌系统

本发明涉及新型室内四合一K歌系统，括：K歌主机，用于根据用户选择的K歌歌曲进行对应播放；显示模块，与所述K歌主机电连接，用于根据所述K歌主机的播放情况进行对应显示；音箱模块，与所述K歌主机电连接，用于根据所述K歌主机的播放情况进行对应播音；麦克风组件，用于获取用户的声音并进行放大；耳返耳机，与所述麦克风组件电连接，用于监听所述麦克风组件获取的用户声音；休眠模块，在所述K歌主机开启所述显示模块关闭时触发，用于进行对应运行舒缓用户情绪。本发明所提出的室内四合一K歌系统，一方面便于安装拆装，另一方面能够在用户K歌休息时舒缓用户的情绪，完善用户的使用体验，增加用户的K歌乐趣。

2024-02-25

首页
<<
3
4
5
6
7
>>
尾页

技术分类

友情链接