乐器、声学

语音翻译、模型训练方法、装置、设备及存储介质

本公开提供了语音翻译、模型训练方法、装置、设备及存储介质，涉及数据处理技术领域，尤其涉及音频数据处理技术领域。具体实现方案为：提取待翻译的源语种音频中各个音频帧的音频特征；基于各个音频帧的音频特征，分别确定各个音频帧对应的目标语种的语音单元，作为目标语音单元，其中，每一语音单元为对应音频的一种声学类别的音频数据；基于各个音频帧在源语种音频中的时序顺序以及各个音频帧对应的目标语音单元，生成目标语种音频。应用本公开实施例提供的方案进行语音翻译时，能够提高语音翻译的效率。

2024-03-06
一种并联弹簧振子吸声结构

本发明公开了一种并联弹簧振子吸声结构，包括：至少一个吸声单元；所述吸声单元包括：弹簧振子模块和倒相箱；所述弹簧振子模块包括：弹簧、振子和阻尼；所述倒相箱包括：底板和顶部向内弯折的壁板。本发明通过调整各所述吸声单元中的弹簧的力抗、振子的质量及阻尼的力阻，使各所述吸声单元中的弹簧振子模块具有不同的共振频率，从而通过将至少一个具有不同共振频率的弹簧振子模块并联，能够有效拓宽整个吸声结构的吸声带宽；此外，本发明利用振子将声能转化为机械能并通过阻尼将转化而来的机械能消耗掉，同时辅以反相次级声源的抵消作用，能够提高吸声效率。

2024-03-06
一种用于在线教育的音乐旋律识别方法及装置

本发明涉及一种用于在线教育的音乐旋律识别方法及装置，所述方法包括以下步骤：对待学习的歌曲语音进行分段式旋律分析，并将分析得出的歌曲音准和音乐旋律发送至学员端；实时获取学员端的歌声，并对歌声进行降噪处理；将降噪后的学员端歌声音准和音乐旋律与待学习歌曲的音准和音乐旋律进行对比，判断学员端的歌声是否符合标准。本发明能够准确的分析出歌曲的旋律及音准，使歌曲旋律可视化，大大提高了学员音准的准确性，可以更好的帮助学员建立歌曲旋律。

2024-03-06
结合先验知识的文本识别方法、装置、计算机设备

本申请涉及语言处理领域，特别是涉及到一种结合先验知识的文本识别方法、装置、设备及介质，所述方法包括如下步骤：获取待识别文本；对所述待识别文本进行解码，得到候选词列表；读取各音素的先验数值，基于所述先验数值计算所候选词列表中各原始音素与各目标音素间的距离，得到所述各原始音素与所述各目标音素间的编辑距离；基于所述编辑距离计算所述各原始音素与所述各目标音素间的偏差，得到所述各原始音素与所述各目标音素间的偏差概率；根据所述偏差概率计算所述各目标音素的阈值，得到所述各目标音素的音素阈值；基于所述音素阈值确定所述待识别文本的识别结果。本申请结合模型先验知识对文本进行识别，从而提高文本识别的准确性。

2024-03-06
文本语料筛选方法、装置、设备及存储介质

本公开提供一种文本语料筛选方法、装置、设备及存储介质。该方法包括：获取基础文本语料库以及目标对象的录音语料，利用语音识别模型对语音数据进行识别得到第一音素序列，对语音文本进行音素转换得到第二音素序列；根据第一音素序列及第二音素序列生成评价序列，基于评价序列生成评价训练数据集，利用评价训练数据集训练评价模型；依次选取基础文本语料库中的每个语料，计算语料添加到目标语料集合时的增益，并利用评价模型对每个语料的音素序列进行预测，根据增益以及评价模型的预测结果，对每个语料进行打分；根据打分结果以及筛选条件生成目标语料集合。本公开能够为目标对象生成个性化的文本语料，提高文本语料的质量，提升模型的调优效果。

2024-03-06
一种音频数据处理方法、装置、计算机设备以及介质

本申请实施例提供了一种音频数据处理方法、装置、计算机设备以及介质，该方法可以应用于云技术、人工智能、智慧交通、音频等各种场景，方法包括：在应用界面中显示原始文本信息；获取目标音色信息和目标文本信息对应的目标音频数据；目标文本信息是指在原始文本信息中所选择的文本信息；获取针对原始文本信息的拼接音频数据；拼接音频数据是由融合音频数据和剩余文本信息对应的标准音频数据进行拼接得到；剩余文本信息为原始文本信息中除目标文本信息之外的文本信息；融合音频数据是由目标音频数据和目标音色信息进行融合得到。本申请可以提高音频创作的丰富度，且提高音频数据的质量。

2024-03-06
智能眼镜的播放控制方法及智能眼镜、存储介质

本公开涉及智能眼镜的播放控制方法及智能眼镜、存储介质。所述智能眼镜的播放控制方法，包括：在至少一个多媒体设备中确定目标多媒体设备，所述目标多媒体设备为所述智能眼镜的佩戴者所关注的多媒体设备；将所述智能眼镜的音源设置为所述目标多媒体设备。

2024-03-05
一种合成语音的变奏方法、装置、电子设备及存储介质

本发明公开了一种合成语音的变奏方法、装置、电子设备及存储介质，用于解决现有的合成语音层次感不够分明，生动性差的技术问题。本发明包括：获取预处理文本，并从所述预处理文本中识别自然段落；对所述自然段落进行调整，得到实际段落；依次计算相邻两个实际段落的相关性；生成所述实际段落的合成语音；获取所述合成语音中各所述实际段落的语言节奏；根据所述相关性对所述语言节奏进行调整，得到变奏合成语音。

2024-03-05
语音序列的重点子序列识别与显示方法、系统与电子设备

本发明提出语音序列的重点子序列识别与显示方法、系统与电子设备，属于语音识别技术领域。方法包括步骤S100获取语音序列；S200识别语音序列中是否存在重点子序列；如果存在，则在播放语音序列的同时将重点子序列以预定格式显示；如果不存在，则直接播放语音序列；重点子序列包括至少一个化学物质和/或化学物质组合的反应关系。系统包括语音接收端、语音识别端、语音显示端、语音播报端；语音播报端用于在语音显示端以预定格式在显示界面上显示重点子序列的同时播报所述重点子序列。本发明还提出实现所述方法的电子设备。本发明可实现语音序列的重点子序列识别与显示，有助于化学领域语音在线教学时的重点关注，并节省系统资源。

2024-03-05
离线语音检测方法和装置、电子设备、存储介质

本公开实施例提供离线语音检测方法和装置、电子设备、存储介质，涉及计算机技术领域。该离线语音检测方法，包括：获取环境音频数据；根据预设的语音识别模型对环境音频数据进行离线语音识别处理，得到识别结果；根据识别结果和预设的目标词汇得到检测结果；根据检测结果生成语音日志数据；发送语音日志数据给管理服务器，通过本公开实施例提供的技术方案可以扩大监控的范围，提升监控的隐蔽性。

2024-03-05
一种基于ARM平台的多路G729编解码方法

本发明提供一种基于ARM平台的多路G.729编/解码方法，属于语音编解码领域。本发明创造性地运用ARM处理器大量带饱和进位的DSP运算汇编指令、状态寄存器等高效实现了G.729的复杂运算，解决了现有G.729实现方式的弊端，实现了小型语音终端中多路G.729语音编解码。

2024-03-05
基于脉冲响应降噪的厅堂客观音质参量测量方法及系统

本发明公开一种基于脉冲响应降噪的厅堂客观音质参量测量方法及系统，涉及建筑声学测量技术领域。通过对等幅值扫频信号进行加权，使扫频信号幅值在头部逐渐增大，在尾部逐渐减小，避免了扫频信号幅值突变引起的负载过大和附加脉冲，得到无尾部脉冲干扰、精度更高的脉冲响应；通过对能量脉冲响应信号进行截断处理，避免了头部及尾部以噪声为主的能量脉冲响应信号对计算精度的干扰，提高了测量结果的准确度；通过对能量脉冲响应信号进行降噪和截断能量补偿处理，避免了信号中的噪声影响客观音质参量的计算精度，从而使处理后的能量脉冲响应信号在背景噪声比较大的情况下具有良好的信噪比，减小测量误差，提高客观音质参量测量结果的准确度。

2024-03-04
人机交互系统及交互方法

本发明实施例涉及一种人机交互系统及交互方法，该系统包括：语音采集装置，分别用于采集与之对应的乘坐位置上的用户的第一语音信息；语音转换装置，用以对第一语音信息进行语音转换，获取控制消息；控制装置，用以根据控制消息，确定待控制的第一控制对象，以及待执行的第一控制指令，并在第一控制对象上执行第一控制指令，获取执行结果；语音转换装置，还用于将执行结果转换为第二语音信息；语音播放装置，用于以骨传导的方式为用户播放第二语音信息。第二语音消息只会以骨传导形式被乘客听到，而不会影响到其他乘车人。互不影响，又能得到舒服的听觉体验，更加符合用户需求。

2024-03-04
语音合成方法、系统、电子设备和存储介质

本发明实施例提供一种语音合成方法、系统、电子设备和存储介质。该方法包括：获取用于语音合成数据的隐层表示，将隐层表示输入至音素级韵律控制器，得到离散的音素级韵律预测；将离散的音素级韵律预测和隐层表示混合输入至声学模型，通过声学模型中的分类器预测每一帧的离散声学特征，并利用声学模型中的卷积神经网络预测帧级别的韵律特征；将离散声学特征以及帧级别的韵律特征输入至声码器，生成多样韵律的语音。本发明实施例使用离散化的语音表示替代传统的梅尔频谱，从而大大降低了错误传递的问题。不但使合成语音的音质有了大幅提高，而且还保留了韵律多样性。通过韵律控制器可以产生不同的韵律，从而生成多样的语音。

2024-03-04
基于语音自动分级的语音服务方法及语音客服服务平台

本申请提供的一种基于语音自动分级的语音服务方法及语音客服服务平台，该方法包括：获取用户的交流信息；其中，所述交流信息包括所述用户交流过程中的语音信息和文字信息；对所述交流信息进行处理，提取关键信息；其中，所述关键信息包括关键语音、关键字词和关键衍生信息；对所述关键信息进行分析，得到所述交流信息对应的第一等级；根据所述第一等级的交流信息，确定针对所述第一等级的交流信息的语音服务任务，所述语音服务任务包括语音服务的类型和第二等级。本申请实施例能够为用户提供高效、准确的语音服务。

2024-03-04
一种基于脑电非线性动力学分析的音频制作方法及终端

本发明公开一种基于脑电非线性动力学分析的音频制作方法及终端，获取脑电波信号集；计算所述脑电波信号集对应的多个相位同步强度，并基于所述多个相位同步强度计算脑电波信号主频率；根据所述脑电波信号主频率获取变化后的脑电波信号集，并根据所述变化后的脑电波信号集从所述脑电波信号主频率中筛选目标主频率；基于所述目标主频率进行脑电非线性动力学分析，得到基础音频，由于目标主频率即为可诱发脑电波变化的主频率，基于目标主频率得到基础音频，利用基础音频可诱发脑电波特定频率，能够刺激大脑神经元有方向性，从而提高了音频的情绪舒缓和调节效果。

2024-03-03
音乐生成方法、装置、设备及存储介质

本公开是关于一种音乐生成方法、装置、设备及存储介质。该音乐生成方法包括：根据用户的第一输入操作，获取第一音乐参数；将所述第一音乐参数输入音乐生成模型，得到初始音乐；将所述初始音乐输入音色预测模型，得到与所述初始音乐对应的音色参数；根据所述音色参数和所述初始音乐，得到目标音乐。本公开提供的音乐生成方法不需要输入原始的音乐，可以根据用户的操作生成全新的音乐，且生成的音乐的创新性和音乐价值更高。同时，根据初始音乐得到的与初始音乐对应的音色参数与初始音乐更加适配，从而根据音色参数和初始音乐得到的目标音乐的音乐效果更好。

2024-03-03
一种语音智能家居中控设备

本发明涉及智能家居技术领域，尤其涉及一种语音智能家居中控设备，包括翻盖和盒体，所述翻盖转动设置在盒体上，盒体内的两侧均开设有敞口的侧腔，侧腔的一侧设置有第一网板，且侧腔内靠近外端的内壁之间设置有相对的两个固定盒，固定盒内滑动设置有第二网板，同侧的两个第二网板之间设置有多个首尾相接且活动设置的调节板，位于中间的两个调节板的一侧还连接有连接件，连接件的一侧安装有电动推杆，且相邻的两个调节板之间还粘接有连接膜。本发明可以在防尘的同时为中控设备进行通风，有效地提高了内部组件的寿命。

2024-03-03
神经网络训练方法、装置、电子设备及介质

本发明公开了神经网络训练方法、装置、电子设备及介质，涉及音频信号编解码技术领域。训练方法包括以下步骤：基于神经网络的编码器将音频信号编码为深层次特征；量化器将深层次特征量化；解量化器将深层次特征量化索引解量化；基于神经网络的解码器将解量化的深层次特征解码，得到解码音频信号；基于心理声学模型计算输入音频信号的信掩比；听觉感知损失计算模块计算解码音频信号的听觉感知损失；训练模块基于引入听觉感知特性的损失函数训练编码器、量化码本以及解码器，直至损失收敛。根据本发明训练方法得到的编解码器，能够使解码音频信号的每一个频率成分的重建噪声尽可能地控制在掩蔽阈值内，从而达到提升解码音频信号感知质量的效果。

2024-03-03
实现精准语义和声纹双重识别的方法、系统及存储介质

本发明公开了一种实现精准语义和声纹双重识别的方法、系统及存储介质，方法包括：获取待处理的语音信号；通过快速的提升小波时频域分析方法对语音信号进行降噪处理，在降噪处理中基于预设的目标滤波器得到语音信号的小波系数；在小波域计算得到小波系数降噪后的移动方差，并根据移动方差得到语音信号二维的语音特征图像；将语音特征图像输入至预设的小波神经网络中，得到语音信号中的声纹和语义。本发明通过快速提升小波变换，进行小波降噪和提取语音特征图像，同时采用高效的小波神经网络，进行声纹和语义双重识别，不仅可以减少系统资源的开销，提高识别的准确率,还可以使系统满足快速实时运算的要求，从而实现更高效的识别过程。

2024-03-02
离线语音质检方法、系统、电子设备和存储介质

本申请涉及一种离线语音质检方法、系统、电子设备和存储介质，属于语音处理技术领域，该方法包括：获取语音文件，对语音文件进行语音转译处理，得到处理后的文本文件，将文本文件输入话者分离处理器区分用户和客服人员的对话文内容，得到区分后的文本文件，将区分后的文本文件输入音频分析处理器进行音频分析处理，得到质检文本，将质检文本输入文本正则模型识别预设关键字，得到正则识别结果，将质检文本和正则识别结果分别输入训练好的质检模型进行匹配处理，得到质检结果，本申请解决相关技术中针对用户提供的语音信息无法灵活的识别，识别准确率较低，严重影响了质检效果的问题。

2024-03-02
音频处理方法、装置、计算设备及介质

本公开的实施方式提供了一种音频处理方法、装置、计算设备及介质。通过基于待处理音频所对应的左声道音频和右声道音频，以及通过第一音频网络训练得到的、分别对应于目标多声道音频的主成分音频和环绕成分音频所属频段的频段权重参数，确定目标多声道音频对应的主成分音频和环绕成分音频，从而基于环绕成分音频以及通过第二音频网络训练得到的目标映射参数，获取渲染音频，进而基于目标多声道音频对应的主成分音频和渲染音频，获取待处理音频对应的目标多声道音频，通过采用音频处理网络训练得到的参数来进行音频处理，可以避免音频中存在多个主声源时分离信号时所采用的权重失衡导致分离度降低的问题，从而可以提高音频处理方法的处理效果。

2024-03-02
声纹识别方法、声纹提取网络的训练方法及相关装置

本申请公开了一种声纹识别方法、声纹提取网络的训练方法及相关装置，所述声纹识别方法包括：对待识别音频进行特征提取，以获得待识别音频特征；将所述待识别音频特征输入至训练后的声纹提取网络中，以获得待识别声纹特征；其中，训练所述声纹提取网络时基于有说话人标签的语音数据和无说话人标签的语音数据，且训练所述声纹提取网络时所采用的总损失与有监督损失和半监督损失相关；基于所述待识别声纹特征确定与所述待识别音频对应的说话人。通过上述设计方式，本申请能够显著提升声纹提取网络的识别性能，提升说话人识别的准确率。

2024-03-01
一种设备控制方法、装置、音箱设备及存储介质

本申请公开了一种设备控制方法、装置、音箱设备及存储介质，所属的技术领域为无线通信技术，用于对智能设备进行控制。所述设备控制方法包括：利用所述UWB模组接收多个智能设备发送的UWB信号；根据所述UWB信号确定所述音箱设备与每一所述智能设备的相对位置，并根据所述相对位置生成设备分布地图；若所述MIC模组采集到用户输入的语音指令，则根据所述语音指令确定所述用户在所述设备分布地图中的位置；根据所述设备分布地图确定所述用户与所述智能设备的距离信息，并根据所述距离信息确定目标设备；控制所述目标设备执行所述语音指令对应的操作。本申请能够提高对智能设备控制的便捷性和精准性。

2024-03-01
声纹提取方法、身份识别方法及相关设备

本申请公开了一种声纹提取方法、身份识别方法、声纹提取装置、身份识别装置、电子设备及计算机可读存储介质。该声纹提取方法包括：基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列；其中，特征序列包括至少一个帧级特征；基于音素片段的特征序列进行特征统计，得到音素片段的音素特征；基于若干音素片段的音素特征，得到所述目标对象的声纹特征。通过上述方式，能够提高声纹特征的鲁棒性和准确性。

2024-03-01
一种音乐艺术表演用节奏拍打器及其使用方法

本发明公开了一种音乐艺术表演用节奏拍打器及其使用方法，涉及音乐艺术表演辅助工具技术领域。本发明包括夹座、电动伸缩杆、顶收纳组件、底收纳组件和音响，所述夹座的顶部固定有轴承，所述轴承的顶部活动连接有电动伸缩杆，所述顶收纳组件和底收纳组件之间可拆卸连接有电子节奏拍打器，所述固定架的背面可拆卸连接有音响，所述音响与电子节奏拍打器电性连接。本发明自身带有收纳结构，在不使用时，便于简易收纳，长久放置，也不容易积尘，也便于自我防护，而且可根据使用需求，调整自身的使用高度、使用方向以及使用角度，可调性较强，并且自身带有夹座和扩音结构，可适用于不同场地使用，也适用于不同环境下使用。

2024-03-01
消声器及装置

本申请提供一种消声器及装置。消声器包括第一消声部，包括大致平行的第一侧面和第二侧面，第一侧面开设有第一声波射入口，第一侧面和第二侧面之间形成有与第一声波射入口连通的第一谐振腔；其中，在垂直于第一谐振腔的第一侧面和第二侧面的至少一个参考平面内，第一谐振腔的第一侧面具有第一轮廓，第一谐振腔的第二侧面具有第二轮廓，第一轮廓的长度小于第二轮廓的长度。上述消声器，可以在实现低频消声的同时，减少空间占用。

2024-02-29
一种业务办理的方法、装置及计算机可读存储介质

本申请公开了一种业务办理的方法、装置及计算机可读存储介质，应用于机器人，该方法通过采集开始工作信息，并在开始工作信息满足预设条件时触发开启语音助手的指令，并采集语音信息，并在语音信息包括业务信息时根据业务信息对业务信息对应的业务进行办理。可以看出，此方法通过设置开启语音助手的预设条件，当开始工作信息满足预设条件时，实现机器人与用户的交互，用户只需要说出想要办理的业务，不需要预先了解操作规则，办理流程比较简单，在用户过多时，可以与柜台的工作人员一起存在，并且可以24小时不间断的办理业务，从而减轻业务人员的压力，提高用户的体验感。

2024-02-29
歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品

本申请涉及音频技术领域，提供一种歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品。本申请能有效将歌曲中包含伴唱和非伴唱部分的伴奏去除，清除了主旋律提取过程中存在的干扰信号，增加基于干声信号估计得到的主旋律的准确率。该方法包括：获得目标歌曲的歌曲信号以及目标歌曲对应的原始伴奏的伴奏信号；原始伴奏包含伴唱部分及非伴唱部分；将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入自适应滤波器，由自适应滤波器识别目标歌曲中的初步干声信号；将目标歌曲的歌曲信号输入人声提取模型，得到人声提取模型输出的目标歌曲中的人声信号；根据初步干声信号和人声信号，确定目标歌曲的目标干声信号；根据目标干声信号得到目标歌曲的主旋律。

2024-02-29
一种语音分离方法、装置、电子设备和存储介质

本申请涉及计算机技术领域，尤其涉及语音处理技术领域，提供一种语音分离方法、装置、电子设备和存储介质，用以提高语音分离的准确性。其中，方法包括：获取待分离语音数据；对待分离语音数据进行编码，获得对应的编码结果，并对编码结果进行语音分离操作，获得至少一个目标声源各自对应的语音特征和相位移动特征；基于获得的至少一个相位移动特征，分别对预设的信号解码参数集进行参数重构，获得相应的目标信号解码参数集；分别采用获得的至少一个目标信号解码参数集，对相应的语音特征进行解码，获得对应的目标声源对应的重建语音信号。由于本申请通过相位移动提高中高频信号的建模能力，几乎没有额外增加参数量或复杂度，可有效提高分离性能。

2024-02-28
语音信号处理方法、装置、存储介质、电子设备及车辆

本公开涉及一种语音信号处理方法、装置、存储介质、电子设备及车辆。该方法包括：获取语音采集阵列采集到的语音观测信号；对所述语音观测信号进行语音预分离处理，得到与所述语音采集阵列中各语音采集装置对应的语音预分离能量；根据所述语音预分离能量对所述语音观测信号进行语音盲源分离，得到各所述语音采集装置对应的独立源语音信号。采用本公开这种方式，因引入了语音预分离能量、并基于语音预分离能量对语音观测信号进行语音盲源分离指导，而可以准确地确定分离出的各独立源语音信号与各语音采集装置的对应关系，进而基于语音采集装置的安装位置可准确地确定各独立源语音信号所在的声源位置区域。

2024-02-28
一种音频信号处理装置、方法及可存储介质

本申请公开了一种音频信号处理装置包括拾音器、扬声器以及音频信号处理芯片，所述音频信号处理芯片包括声纹识别模块、比较模块以及存储模块；所述拾音器用于获取音频信号并将所述音频信号转换成模拟信号；所述声纹识别模块用于检测所述模拟信号是否包含人声；所述比较模块用于比较所述目标模拟信号与存储在所述存储模块中的样本信号是否相同，若相同，则将所述目标模拟信号删除；若不相同，则将所述目标模拟信号作为样本信号传输至所述存储模块进行存储；所述扬声器，用于从所述存储模块获取最新存储的样本信号，并将所述最新存储的样本信号转换成对应的音频信号后输出。本申请可以过滤回声，并准确获取到用户的语音。

2024-02-28
一种基于语音播报的病理实验室管理系统

本申请提供了一种基于语音播报的病理实验室管理系统，涉及语音处理技术领域，该系统包括：包埋管理子系统、切片管理子系统、染色管理子系统以及语音播报子系统；包埋管理子系统用于对包埋过程进行监控、信息统计和质量评价；还用于将包埋处理过程播报语音的信息发送至语音播报子系统；切片管理子系统用于对切片过程进行监控、信息统计和质量评价；还用于切片处理过程播报语音的信息发送至语音播报子系统；染色管理子系统用于对染色过程进行监控和信息统计；还用于染色处理过程播报语音的信息发送至语音播报子系统；所述语音播报子系统，用于当接收到播报语音的信息，将待播放的文字转换为语音并播放。本申请提高了病理实验室质量管理水平。

2024-02-27
从视频生成同步的声音

本文的实施例描述了当训练机器学习(ML)系统时使用的音频转发正则化器和信息瓶颈。音频转发正则化器接收音频训练数据，并识别训练数据中的视觉不相关声音和视觉相关声音。通过控制信息瓶颈，音频转发正则化器将主要涉及视觉不相关声音的数据转发到生成器，同时滤除视觉相关声音。生成器还从视觉编码器接收关于视觉对象的数据，该数据是从视觉训练数据导出的。由此，当被训练时，生成器接收关于视觉对象的数据和关于视觉不相关声音的数据(但几乎没有或没有关于视觉相关声音的数据)。由此，在执行阶段期间，生成器可生成与视觉对象相关的声音，而不将视觉不相关声音添加到视频。

2024-02-27
语音合成模型的训练方法、语音合成方法及装置

本公开提供了一种语音合成模型的训练方法、语音合成方法及装置，涉及人工智能技术领域，尤其涉及语音合成领域。该方法包括：将源音频的内容输入至内容编码网络中得到内容特征向量；将源音频输入至情绪抽取网络中得到初始情绪特征向量，根据初始情绪特征向量和内容特征向量确定基础情绪特征向量；将源音频和目标音频输入至情绪排序网络中得到排序系数向量，根据排序系数向量和基础情绪特征向量确定情绪强烈程度特征向量；将源音频输入至说话人编码网络和语种编码网络得到说话人特征向量和语种特征向量；将上述特征向量输入至声谱解码合成网络得到重建音频；根据重建音频和目标音频更新模型参数。该方法实现了在语音合成中体现情绪强烈程度。

2024-02-26
一种立式钢琴的导音装置

本发明属于钢琴技术领域，公开了一种立式钢琴的导音装置，其技术要点是：包括钢琴，钢琴内部开设有传音腔，传音腔内底部固定安装有与琴键相互配合的声源，所述传音腔内固定安装有与声源相互配合的导音筒，导音筒内安装有导音块，传动腔内安装有与导音块相互配合的升降机构，导音块内部安装有与导音筒内部相互配合的限位机构。

2024-02-26
一种语音检测方法、装置、电子设备及存储介质

本申请提供了一种语音检测方法、装置、电子设备及存储介质，语音检测方法包括：从目标语音信息中提取出语音特征信息；将目标语音信息输入到训练好的端到端模型中，得到目标语音信息对应的第一检测分数，以及将语音特征信息输入到训练好的非端到端模型中，得到目标语音信息对应的第二检测分数；根据第一检测分数和第二检测分数，确定目标语音信息对应的目标检测分数。本申请通过将端到端网络模型的第一检测分数与非端到端模型的第二检测分数相融合，使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

2024-02-26
一种基于CS-MUSIC矿井提升机故障源定位分析方法

本发明公开了一种基于CS‑MUSIC矿井提升机故障源定位分析方法，包括对多通道的矿井提升机音频信号进行预处理；通过提取音频信号的MFCC特征参数并对故障的音频信号进行二次分帧、对协方差矩阵进行特征分解，结合MUSIC的频估计函数，最终实现故障识别和故障音频信号的方位。使用CS算法对MUSIC定位结果进行寻优，显著提高了定位的精准率。本发明具有诸多优势，采用了识别和定位算法相结合并通过CS对定位结果进行寻优，与传统的定位方法相比，具有实时性高、操作简便、定位算法结果准确率高的优势。

2024-02-25
语音识别方法、装置、电子设备和存储介质

本发明提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别语音；基于语音识别模型，确定待识别语音的识别文本；语音识别模型是基于第一编码网络，应用第一语音文本对训练得到的，第一编码网络是联合语音编码网络和文本编码网络，应用第二语音文本对训练得到的；待识别语音和第一语音文本对属于第一语种，第二语音文本对属于第一语种之外的其他语种。本发明提供的方法、装置、电子设备和存储介质，由于第二语音文本对容易获取，且有监督训练时数据规模的增加能够带来训练效果的提升，用于第一语种的语音识别模型预训练的第一编码网络得以保证其优良的性能，由此实现准确、可靠的低资源语种的语音识别。

2024-02-25
新型室内四合一K歌系统

本发明涉及新型室内四合一K歌系统，括：K歌主机，用于根据用户选择的K歌歌曲进行对应播放；显示模块，与所述K歌主机电连接，用于根据所述K歌主机的播放情况进行对应显示；音箱模块，与所述K歌主机电连接，用于根据所述K歌主机的播放情况进行对应播音；麦克风组件，用于获取用户的声音并进行放大；耳返耳机，与所述麦克风组件电连接，用于监听所述麦克风组件获取的用户声音；休眠模块，在所述K歌主机开启所述显示模块关闭时触发，用于进行对应运行舒缓用户情绪。本发明所提出的室内四合一K歌系统，一方面便于安装拆装，另一方面能够在用户K歌休息时舒缓用户的情绪，完善用户的使用体验，增加用户的K歌乐趣。

2024-02-25
一种超声凝固过程中空化噪声分离方法及系统

本发明公开了一种超声凝固过程中空化噪声分离方法及系统。该方法包括：获取空化噪声信号的原始频谱；对原始频谱进行分段、拟合和平滑处理，得到拟合谱；在设定的功率超声换能器驱动频率的1kHz邻域内确定拟合谱的最大幅值所对应的频率点，作为驱动噪声中心频率；根据功率超声换能器驱动频率以及驱动噪声量的中心频率，确定谐波频率域；在谐波频率域内确定拟合谱的最大幅值所对应的频率点，作为稳态空化噪声中心频率；基于原始频谱、拟合谱以及稳态空化噪声中心频率，确定稳态空化噪声分量；从原始频谱中除去驱动噪声分量和稳态空化噪声分量，剩余为瞬态空化噪声分量。本发明能够降低空化噪声频谱毛刺的影响，提高空化噪声分离质量。

2024-02-25
一种西班牙语口语发音训练纠正方法及系统

本发明属于计算机辅助教学领域，提供了一种西班牙语口语发音训练纠正方法及系统。该方法包括，获取待纠正语音语料，提取所述待纠正语音语料的特征参数；根据所述待纠正语音语料的特征参数对所述待纠正语音语料进行发音错误识别，得到所述待纠正语音语料的发音错误识别结果；分别对所述待纠正语音语料的每项指标进行评分，指出待纠正语音语料的每一项西班牙语发音中的错误，在给出语音的发音规律的同时给出针对性的训练资料并强化训练；所述待纠正语音语料的特征参数包括MFCC‑OVOT混合特征向量，所述MFCC‑OVOT混合特征向量包括梅尔频率倒谱系数和优化嗓音起始时间，所述优化嗓音起始时间指的是声带震动与所对应音素结束中的较早发生的时间与口腔除阻时间之差。

2024-02-25
一种模型训练、音频降噪方法、装置、设备及存储介质

本公开提供了一种模型训练、音频降噪方法、装置、设备及存储介质，涉及数据处理技术领域，尤其涉及人工智能技术领域。具体实现方案为：获得第一样本音频特征、第二样本音频特征和样本图像；将第二样本音频特征输入音频降噪模型中的音频特征提取子网络，得到深层音频特征，将样本图像输入音频降噪模型中的图像特征提取子网络，得到样本图像特征；将深层音频特征和样本图像特征输入音频降噪模型中的联合子网络重建音频特征和图像；基于重建的音频特征与第一样本音频特征间的差异、及重建的图像与样本图像间的差异，获得训练损失；基于训练损失，对音频降噪模型进行训练。应用本公开实施例提供的方案，能够训练得到对音频进行降噪处理的模型。

2024-02-24
一种语音合成方法、装置、电子设备及存储介质

本申请提供一种语音合成方法、装置、电子设备及存储介质。方法包括：对语音待合成的目标文本进行文本预处理，得到目标文本的发音序列，发音序列包括目标文本对应的韵律标记；基于目标文本对应的文本类停顿信息和发音序列中韵律标记对应的韵律类停顿信息，对发音序列分别进行句级切分和句内切分，得到句级子发音序列集合和句内子发音序列集合；基于预先设置的序列长度要求，从句级子发音序列集合和句内子发音序列集合中，确定用于语音合成的多个子发音序列，序列长度要求是基于文本转语音模型的输入数据要求确定的；将各子发音序列输入至文本转语音模型进行语音合成，得到对应的语音数据。本申请能够改善发音序列对于文本转语音模型的兼容性。

2024-02-24
用户交互辅助方法、装置、电子设备及可读存储介质

本申请公开了用户交互辅助方法、装置、电子设备及可读存储介质，应用于AR眼镜，所述AR眼镜设置有骨传导耳机，所述用户交互辅助方法包括：通过所述骨传导耳机拾取所述AR眼镜的佩戴用户的音频，得到拾取音频；若所述拾取音频为有效音频，则在检测到外界的手语动作时，将所述手语动作转换为对应的自然语言信息进行播放，以辅助所述佩戴用户与外界进行交互；若所述拾取音频不为有效音频，则在检测到外界的交互信息时，在所述AR眼镜的AR显示画面中显示所述交互信息对应的各预设答复答案，以辅助所述佩戴用户与外界进行交互。本申请解决了现有技术中聋哑用户与外界的存在沟通障碍的技术问题。

2024-02-24
基于声纹识别对抗性样本的物理域身份伪装系统及方法

本发明公开了一种基于声纹识别对抗性样本的物理域身份伪装系统及方法，系统包括离线训练部分和在线伪装部分，是一种将扰动与生成过程与施加过程分离的实时流式伪装攻击方法，利用实时音素对齐器和实时音素预测器预测并定位实时语音中的音素，并在音素级别生成细粒度的通用亚音素级对抗扰动，从而使得一次生成的亚音素级对抗性扰动能够实时施加到流式语音中，最终实现适应于真实物理域场景的伪装攻击形式。本发明每次实时同步的平均时间开销为0.11s，这表明本发明的同步机制能够在0.5s的同步间隔下实现良好的实时性能；音素延迟的中位数为50ms，超过75％的音素延迟小于100ms，具有良好的同步性能。

2024-02-24
认知检测方法及相关装置、电子设备和存储介质

本申请公开了一种认知检测方法及相关装置、电子设备和存储介质，其中，认知检测方法包括：基于目标声学模型对目标对象的待测语音进行识别，得到待测语音的音素序列；其中，目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到，且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到；并基于音素序列进行解码，得到待测语音的识别文本；再基于识别文本进行认知检测，得到目标对象的认知检测结果；其中，认知检测结果包括目标对象是否存在认知障碍。上述方案，能够在降低检测成本的同时提高认知检测的准确率。

2024-02-22
用于语音降噪的方法、装置、电子设备和计算机可读介质

本公开的实施例公开了用于语音降噪的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取目标语音；对目标语音进行预处理，得到目标语音的梅尔谱；将梅尔谱输入至预先训练的特征神经网络，得到梅尔谱的幅度掩膜增益系数；根据幅度掩膜增益系数对梅尔谱进行幅度掩膜，得到降噪梅尔谱；将降噪梅尔谱输入至预先训练的神经网络声码器，得到降噪语音。该实施方式实现了对目标语音更加轻量级的降噪处理并得到了更好的去噪效果。

2024-02-22
声纹识别方法、装置、存储介质以及电子设备

本发明公开了一种声纹识别方法、装置、存储介质以及电子设备。该方法包括：获取客户的目标语音录音；对目标语音录音进行声纹提取操作，得到第一目标声纹；将第一目标声纹与声纹数据库进行比对，得到第一比对结果；在第一比对结果为比对成功的情况下，将客户标记为风险客户，并向用户发送风险预警信息；在第一比对结果为未比对成功的情况下，将客户标记为第三方客户，并将第一目标声纹保存至声纹数据库。本发明解决了因客户归属划分不清导致的营销费用剧增的技术问题。

2024-02-22
一种语音识别方法、装置、设备和介质

本申请涉及一种语音识别方法、装置、电子设备和存储介质，该方法包括：采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号；获取语音的目标方向的大致方向的视频；根据目标方向增强后的语音信号和语音的目标方向的大致方向的视频对语音进行识别。本申请采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号，可以有效降低噪声，并且在确定方向后通过摄像头获取语音的目标方向的视频，将目标方向的视频和目标方向降低噪声后的语音信号相结合后对语音进行识别，避免了目标对象在摄像头的拍摄范围之外以及噪音干扰的情形，不仅提高了语音识别的准确率而且提升了用户体验。

2024-02-22

首页
<<
4
5
6
7
8
>>
尾页

技术分类

友情链接