乐器、声学

基于数字编码实现频率可调的多功能单向智能隔声装置

本发明提供一种基于数字编码实现频率可调的多功能单向智能隔声装置，包括隔声装置本体、探测器D、第一控制芯片MC1、第二控制芯片MC2、喇叭S，探测器D、第一控制芯片MC1、第二控制芯片MC2、喇叭S均安装在隔声装置本体上，D与S的距离为d，探测器D的输出端连接MC1和MC2，MC1的输出端连接到MC2，MC2的输出端连接到喇叭S，隔声装置本体的左右两端作为信号的入射端口，探测器D探测到入射信号时，同时传给MC1和MC2，MC1做FFT运算，经过FFT运算得到入射信号的频率fs，频率fs传递给MC2，MC2将内部洛伦兹共振模型的共振频率fres改成fs，从而第二控制芯片MC2的卷积结果信号与原入射信号相位相反，干涉相消实现隔声。

2024-05-20
自适应语音唤醒和人脸唤醒方法、装置、设备及存储介质

本发明涉及一种适应语音唤醒和人脸唤醒方法、装置、设备及存储介质，其方法包括以下步骤，1)语音唤醒词定制：通过麦克风录制唤醒关键词语音，后台生成当前智能设备的唤醒信息；2)人脸检测：摄像头检测到人脸，使用当前检测到的实时人脸和后台设置的人脸距离范围以及人脸出现的预设帧数做对比，如果比对失败，则设备返回待机模式；如果比对成功，设备进入人脸局部唤醒模式；3)语音唤醒词检测：在人脸局部唤醒模式下，监测实时语音流，如果检测到语音唤醒词，则设备进入人脸+语音的全局唤醒模式，否则进入待机模式包括；本发明同现有技术相比，能够保证语音和人脸检测的实时性和准确性，并实现智能自动化的唤醒过程，提升了用户体验。

2024-05-20
一种基于小波阈值去噪和ICEEMDAN综合去噪的语音识别方法

本发明属于通信技术领域，公开了一种基于小波阈值去噪和ICEEMDAN综合去噪的语音识别方法，包括将受干扰信号EMD分解为由高频到低频的一组模态分量IMF，小波阈值去噪负责处理其中的高频模态分量；ICEEMDAN去噪负责处理其中的低频模态分量；负责高频模态分量的小波阈值去噪根据模态分量的特征信息获取自适应的门限阈值，门限阈值在一般白噪声的处理上，其自适应参数被设为定值，在部分特殊噪声的处理上，门限阈值则与噪声的特征值有线性关系，设置小波阈值去噪的阈值函数来精确处理噪声。本发明提出了自适应的门限阈值和一种改进的阈值函数，既能保证函数在阈值点处的连续性，也能解决小波系数的偏差问题。

2024-05-20
基于链路数据的音频编码

一种设备，包括配置为存储指令的存储器；以及配置为执行指令的一个或多个处理器。该一个或多个处理器配置为执行所述指令以获得对应于到第二设备的通信链路的链路数据。该一个或多个处理器配置为执行指令以至少部分地基于链路数据，在环绕声模式与立体声模式之间进行选择。

2024-05-19
语音信号增强方法、装置、芯片及模组设备

本申请公开了一种语音信号增强方法、装置、芯片及模组设备，方法包括：获取通信语音信号；对通信语音信号进行信号分析，得到第一语音频谱；对第一语音频谱进行噪音估计，得到第一噪音频谱；将第一语音频谱导入预先训练好的AI神经网络模型，得到第二噪音频谱和第一频谱掩码；噪音估计对平稳噪声的降噪强度大于AI神经网络模型，且对非平稳噪声的降噪强度小于AI神经网络模型；对第一噪音频谱和第二噪音频谱进行特征拼接，得到第三噪音频谱；根据第三噪音频谱确定针对通信语音信号的联合降噪增益；根据该增益和第一频谱掩码对通信语音信号进行降噪处理，得到降噪语音信号。基于本申请的方法，能够提升电子设备进行语音降噪的全面性和准确性。

2024-05-18
一种基于大模型的实时英文语音识别方法及系统

本发明涉及语音识别技术，特别涉及一种基于大模型的实时英文语音识别方法及系统，方法包括：将当前收到的长度为T的音频片段与历史音频片段进行拼接并输入语音识别模型；若语音识别的结果中出现结束符，则利用当前识别结果替换上一次识别结果；使用动态线性规划算法，计算当前输入语音识别模型的音频每个单词的时间戳，以结束符前面一个单词的结束时间作为起始位置，舍弃起始位置之前的音频同时舍弃结束符之后所有识别结果并将其作为历史音频片段，将结束符及之前的识别结果标记为可以拼接状态并反馈给前端；若未出现结束符，则将当前识别结果拼接到上一次识别结果后面；本发明在满足实时性的同时，提高了语音识别准确率。

2024-05-18
一种智能语音识别系统

本发明公开了一种智能语音识别系统，包括有语音采集结构、设置于语音结构底部且用于调向的收纳框，所述语音采集结构包括有呈U字状的收纳盒，所述收纳盒的正面及背面均可拆式连接有卡盖，位于所述收纳盒的顶端呈敞开式，且收纳盒的顶部对称连接有弧形的导板一，所述导板一上设置有声音传感器，位于所述收纳盒的内部设置有消音结构，且收纳盒的内壁上对称设置有滑槽，所述滑槽中嵌入有两个导向结构，且收纳盒的底端设置有两个呈弧形的挡板，且两个挡板的中间位置处设有主控芯板。本发明可以配合声音传感器灵活调整方向，同时可以滤除较多杂音，提高语音识别的准确度。

2024-05-18
基于改进U-net和目标特征感知对比度拉伸的语音增强算法

本发明公开了基于改进U‑net和目标特征感知对比度拉伸的语音增强算法，包括：步骤S1，通过将噪声与纯净语音进行合成得到带噪语音作为输入语音片段；步骤S2，对输入语音片段进行归一化处理，并通过PCS对归一化的输入语音片段进行语音增强，获得输入时频图特征；步骤S3，建立CResDi l‑U‑Net网络模型，输入时频图特征作为网络模型的输入，进行编码、解码操作，进而去除噪声，获得预测结果。降低了语音片段去噪时的细节失真，提高了语音提取的准确率。

2024-05-18
混合多语种的文本相关和文本无关说话者确认

一种说话者确认方法(400)包括接收对应于话语(119)的音频数据(120)，处理表征预定的热词的音频数据的第一部分(121)以生成文本相关评估向量(214)，以及生成一个或多个文本相关置信度分数(215)。当文本相关置信度分数中的一个满足阈值时，操作包括识别话语的说话者为与满足阈值的文本相关置信度分数相关联的相应注册用户，和启动动作的进行而不进行说话者确认。当文本相关置信度分数都不满足阈值时，操作包括处理表征查询的音频数据的第二部分(122)以生成文本无关评估向量(224)，生成一个或多个文本无关置信度分数(225)，以及确定话语的说话者的身份是否包括任意注册用户。

2024-05-18
基于噪声抑制残差网络的语音关键词识别方法

本发明公开了基于噪声抑制残差网络的语音关键词识别方法，包括：通过第一卷积层对语音信息进行处理获得初步语音特征；构建噪声抑制残差模块，该模块在处理初步语音特征同时降低不相关信息对语音特征的干扰；通过第二卷积层对噪声抑制残差模块输出的语音特征进行处理获得最终语音特征；所述最终语音特征经过最大池化层和全连接层后，得到关键词识别结果。其不仅能保持在纯净语音环境中的识别准确率，提高在噪声情况下的识别准确率，而且模型的参数大小低于目前的模型，以实现最佳模型大小和识别性能的权衡。在原有的模型框架上进行改进，提出了噪声抑制层和频带加权归一化方法，以实现高鲁棒性、低参数占用的目标。

2024-05-17
音频数据处理方法、装置及家电设备

本申请公开了一种音频数据处理方法、装置及家电设备，其中，所述方法包括：向各个待补偿设备播放测试音频，并获取由各个待补偿设备反馈的接收测试音频时的第一能量值；接收由各个待补偿设备播放的测试音频，并确定接收各个测试音频时的第二能量值；基于所述第一能量值和所述第二能量值，计算各个待补偿设备的能量补偿值，所述能量补偿值用于修正所述待补偿设备在监听唤醒音频时的实际能量值。通过本申请提供的技术方案能够提高设备监听唤醒音频时回应唤醒音频准确性。

2024-05-17
语音识别方法、装置、计算机设备、存储介质和程序产品

本申请涉及一种语音识别方法、装置、计算机设备、存储介质和程序产品。方法包括：利用语音识别模型中的第一卷积层对待识别语音信息进行时频转换，得到待识别语音信息的频域信息，并基于频域信息确定第一卷积结果，利用语音识别模型中的第二卷积层对第一卷积结果中部分卷积结果进行卷积处理，得到第二卷积结果，基于语音识别模型中的全连接层和第二卷积结果，确定全连接层的输出结果，将输出结果输入到语音识别模型中的输出层，得到输出层输出的笑声类型，能够提高识别速度。

2024-05-17
语音克隆方法、装置、存储介质及计算机设备

本申请提供的语音克隆方法、装置、存储介质及计算机设备，当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后，可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息，以及音频信息的音频风格后进行语音合成，并在合成时，将文本信息与待克隆的目标语音进行对齐，这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题，又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度，还可以通过目标音色的音频风格来提高合成时的情感自然度，进而达到较高的语音克隆效果。

2024-05-17
用于自动语音识别的多语言重新评分模型

一种方法(400)包括接收从与话语(106)对应的音频数据提取的声学帧的序列(110)。在第一通道期间(301)，所述方法包括处理声学帧的序列以生成所述话语的N个候选假设(204)。在第二通道期间(302)，并且对于每个候选假设，所述方法包括：生成相应的未归一化似然得分(325)；生成相应的外部语言模型得分(315)；生成对对应候选假设的先验统计进行建模的独立得分(205)；以及基于未归一化似然得分、外部语言模型得分和独立得分为候选假设生成相应的总得分(355)。所述方法还包括从N个候选假设中选择相应的总得分最高的候选假设作为话语的最终转录(120)。

2024-05-17
数字人的交互方法、装置、终端设备、服务器及系统

本申请实施例提供一种数字人的交互方法、装置、终端设备、服务器及系统。该方法包括：获取目标文本，并对所述目标文本进行分句处理，得到至少一个文本语句；确定每个文本语句对应的扩展信息；针对任意一个文本语句，根据所述文本语句和所述文本语句对应的扩展信息，生成所述文本语句对应的目标实时传输协议RTP包；根据每个文本语句对应的目标RTP包，获取所述目标文本对应的多媒体数据，并播放所述多媒体数据，所述多媒体数据为所述数字人按照所述扩展信息播放所述目标文本的音频数据或者视频数据。提高了用户与数字人交互的灵活性。

2024-05-17
一种基于车辆的音乐生成系统、方法和相应车辆

本发明提供了一种基于车辆的音乐生成系统、方法和相应车辆。所述基于车辆的音乐生成系统包括处理器和存储器，存储器存储有处理器可执行指令，指令被处理器执行时实现以下步骤：通过多个传感器收集车辆行驶中的若干数据；基于预设关联确认收集到的数据各自的所属分类；基于所属分类分别将数据转换为音乐符号；合并音乐符号以生成音乐。本发明的方案可以基于车辆的驾驶过程自动生成完整音乐，提高用户的创作参与感，增强车辆与用户的感情联结，从而提高用户的满意度。

2024-05-16
基于裸机系统架构平台的车载环境降噪实现装置与方法

本发明涉及一种基于裸机系统架构平台的车载环境降噪实现装置与方法，本发明通过车载麦克风单元采集车内模拟低频噪音信号后，经过模数转换单元转换成数字低频噪音信号，同时从Can总线上获取环境降噪信号，数据处理后发送到车载数字音频处理器单元，车载数字音频处理器单元集成ENC算法(环境降噪算法)，根据输入的低频噪音信号，控制车载喇叭单元发声，实现车载环境降噪。本发明通过车载麦克风单元获取实际车内的低频噪音及从Can总线获取实际车速信号作为发动机主动降噪的参考信号，同时在裸机系统硬件中集成ENC算法，降低了分立元件搭建电路带来的硬件成本，实现了零硬件成本车机搭载了ENC算法，本发明无硬件新增成本，同时也易于安装部署。

2024-05-16
说话人日志记录方法、装置、存储介质和电子设备

本申请公开了一种说话人日志记录方法、装置、存储介质和电子设备。包括：获取目标音频数据，其中，目标音频数据中包括多个说话人的对话语音；按照时间顺序将目标音频数据划分为多个目标音频帧，并提取每个目标音频帧内的目标声学特征，其中，每个目标音频帧对应一个目标时间段，目标音频帧包括至少一个说话人的对话语音；利用预训练的说话人标签预测模型对多个目标音频帧的目标声学特征进行依次处理，得到目标音频帧对应的目标说话人标签；基于目标说话人标签确定将与目标说话人标签对应的目标音频帧存储至目标说话人日志。本申请解决了相关技术对说话人的对话语音进行端到端的日志记录时，需进行预测说话人标签和聚类两个阶段的技术问题。

2024-05-16
用于语音识别的方法、装置、设备和可读介质

本公开的实施例涉及用于语音识别的方法、装置、设备和可读介质。方法包括：基于从第一语音中识别到的至少一个第一候选文本序列，向前缀树添加分别表示至少一个第一候选文本序列的至少一个第一节点；基于从第二语音中识别到的至少一个第二候选文本序列，向前缀树添加分别表示至少一个第二候选文本序列的至少一个第二节点；确定多个文本序列各自对应的得分；从前缀树删除所述至少一条第一路径以删除至少一个第一节点，得到更新后的前缀树；以及至少基于更新后的前缀树，从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与第一语音相匹配的第一目标文本序列。可以提高语音识别的效率。

2024-05-15
一种啸叫抑制方法、装置、设备及介质

本发明实施例提供了一种啸叫抑制方法、装置、设备及介质，所述方法包括：获得音频时域信号；对所述音频时域信号进行离散傅里叶变换，得到频谱数据；对所述频谱数据进行计算，得到啸叫频点；根据所述啸叫频点对当前设备进行检测，得到检测结果；若检测结果为当前设备处于啸叫产生的设备链路，则对当前设备进行增益控制。本发明实施例可根据所述啸叫频点对当前设备进行检测，从而区分和确认当前设备是否处于啸叫产生的设备链路，进而有效进行啸叫抑制，提高啸叫抑制的整体性能。

2024-05-15
信息处理装置、信号处理装置、信息处理方法和程序

根据现有技术的一个方面的信息处理装置包括信号处理单元。信号处理单元通过机器学习从由麦克风组获得的多个观测信号中提取分别与麦克风相关的语音信号。因此，期望的信号能够被输出。此外，在线路的另一端的人可以容易地捕捉说话者的声音，并且该会话隔离了其他说话者的声音，从而为用户提供安全性和高保密性的感觉。

2024-05-15
音频处理方法及装置

本申请适用于音频处理技术领域，提供了一种音频处理方法，包括：若检测到目标语音，则根据所述目标语音判断是否发生用户主动唤醒操作；若发生用户主动唤醒操作，则识别待识别音频。通过所述音频处理方法，能够大大地提高音频的处理效率。

2024-05-15
语音控制方法、多媒体系统、汽车及存储介质

本发明公开一种语音控制方法、多媒体系统、汽车及存储介质。该方法包括：对接收到的目标语音指令进行语义解析，获取语义解析结果；若所述语义解析结果与预设关键词相匹配，则采用所述预设关键词对应的应用程序，响应所述目标语音指令；若所述语义解析结果与预设关键词不匹配，则根据所述语义解析结果确定目标业务类型，获取所述目标业务类型对应的应用程序列表；采用第一推荐策略，从所述应用程序列表中确定推荐应用程序；采用所述推荐应用程序，响应所述目标语音指令。该方法可采用推荐应用程序响应目标语音指令，满足用户偏好，提升用户留存率。

2024-05-15
一种基于Transformer的语音降噪方法及系统

本发明公开了一种基于Transformer的语音降噪方法、系统、平台及存储介质，通过实时获取及预处理与待降噪语音数据相应的原始数据，并卷积处理所述原始数据，生成与待降噪语音数据相应的第一处理数据；根据所述第一处理数据，结合卷积神经网络，提取与待降噪语音数据相应的特征数据；构建Transformer网络层，结合所述Transformer网络层，生成与待降噪语音数据相应的循环神经网络数据；根据所述循环神经网络数据，变换并重构与待降噪语音数据相应的语音信号，生成降噪处理后的语音数据，以及与方法相应的系统、平台及存储介质，可以对噪声能进行实时有效的抑制。

2024-05-13
基于ChatGPT的智能家电控制方法、系统及相关设备

本发明提供了一种基于ChatGPT的智能家电控制方法、系统及相关设备，本发明通过搭建包含有ChatGPT服务和数据分析模型的云端；建立各个智能家电与云端的通信连接；之后配合从各个智能家电的电器主控板中读取得到各个智能家电的电器部件信息和指令库信息；再将各个智能家电的电器部件信息和指令库信息进行预设格式封装，获得各个智能家电的设备控制列表文件并存储在云端；这样智能家电采集用户语音转换成文本并上传至云端后；云端可以调用ChatGPT服务获得反馈结果并利用数据分析模型对反馈结果进行解析以获得设备操控信息；再将设备操控信息基于目标智能家电的设备控制列表文件进行控制逻辑转换得到家电控制指令，从而实现了基于ChatGPT的智能家电控制。

2024-05-13
基于二次重构的多语言音色转换方法

本发明公开了一种基于二次重构的多语言音色转换方法，本发明构建由音色提取模块，文本预处理模块，梅尔频谱图生成模块组成音色转换学习网络；语音识别模型将音频识别出的文本替换成识别成音素，在完成音色转换任务的同时，提升了语音识别的准确率。音频两次重构生成新的梅尔频谱图，生成的过程不仅仅是进行了音色转换，而且实现了不同语种之间的音色转换。模型能够感知到不同语言之间的说话的差异性，并且能够在转换的过程中减缓语言差异性带来的影响，解决了不同语种间音色转换存在的口音问题，使得提取的文本特征更加精确，保证了音色转换后发音的准确性。

2024-05-13
语音合成方法、系统、电子设备及可读存储介质

本申请提供了一种语音合成方法及系统、电子设备和计算机可读存储介质。实现语音合成方法的系统包括预测器和声码器，语音合成方法包括：采用多个预定代码本对输入文本的声学特征序列中的每个向量进行量化，以形成索引序列；以及将索引序列映射为声音波形，得到与输入文本对应的合成语音。本申请提供的语音合成方法，可减少真实音频数据的声学特征与其预测特征之间的差异，使合成语音呈现出更好的保真度，并在粗粒度和细粒度上都呈现出更自然的韵律。

2024-05-13
一种切换语音交互对话风格的方法、装置及设备

本申请提供了一种切换语音交互对话风格的方法、装置及设备，通过接收用户设备发送的语音信息并识别，得到所述语音信息对应的文本信息；根据所述文本信息确定用户意图并确定对应的服务类型；根据所述服务类型从对应的内容播放库中获取对应的待播报内容；确定所述待播报内容对应的结构化数据；确定用户选择的对话风格下所述用户意图对应的预置风格化模板，并将所述结构化数据中的参数替换所述预置风格化模板对应内容，得到待播报文本；将所述待播报文本进行语音合成，并通过用户设备的扬声器进行播报。通过该方法实现了动态内容风格化的反馈，同时生成更人性化的待播报文本。

2024-05-12
语音识别模型的训练方法、语音识别方法、装置和设备

本发明提供一种语音识别模型的训练方法、语音识别方法、装置和设备，该训练方法包括：获取电子设备中处理器的目标类型；确定所述目标类型对应的目标初始声学模型，所述目标初始声学模型的模型结构和所述目标类型匹配；基于目标语料对所述目标初始声学模型进行训练，得到声学模型；基于所述声学模型，确定语音识别模型。本发明可以提高语音识别模型的适应性。

2024-05-12
一种语音识别方法及系统

本发明公开了一种语音识别方法及系统，涉及语音识别的技术领域。首先，获取音频信号，对所述音频信号进行预处理；然后引入滤波器组，对所述滤波器组进行分数阶设计，得到分数阶滤波器组，利用分数阶滤波器组从预处理后的音频信号中提取分数阶GFCC系数；构建随机森林机器学习模型，将所述分数阶GFCC系数划分为训练集与测试集，利用训练集对所述随机森林机器学习模型进行语音识别训练，利用测试集对完成每一轮次训练的随机森林机器学习模型进行语音识别测试，得到训练好的随机森林机器学习模型；最后，利用训练好的随机森林机器学习模型对待识别的音频信号进行语音识别，并输出识别结果。有效提升语音识别的性能，减小语音识别的工作量。

2024-05-12
语音接口设备处的聚焦会话

本申请涉及语音接口设备处的聚焦会话。一种已连接电子设备的本地组中的第一电子设备处的方法包括：接收包括对第一操作的请求的第一语音命令；从所述本地组当中确定用于所述第一操作的第一目标设备；相对于所述第一目标设备建立聚焦会话；使所述第一操作由所述第一目标设备执行；接收包括对第二操作的请求的第二语音命令；确定所述第二语音命令不包括对第二目标设备的显式指定；确定所述第二操作可由所述第一目标设备执行；确定所述第二语音命令是否满足一个或多个聚焦会话维持准则；以及如果所述第二语音命令满足所述聚焦会话维持准则，则使所述第二操作由所述第一目标设备执行。

2024-05-12
一种中文高保真语音合成音色定制方法

本发明涉及语音合成技术领域，特别是涉及一种中文高保真语音合成音色定制方法，包括S1、单独训练语音合成模型的文本编码器模块，并将文本编码器与BERT的特征空间进行对齐；S2、在具有多个发音人的数据集上训练一个基础语音合成模型；S3、利用动态规划算法进行最优录音语料的选取；S4、用户根据选取的语料录制声音，并构建微调所使用的训练集；S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调；S6、完成音色定制。本发明方案采用动态规划进行最优的语料选取，使用户的录音样本包含更全面的发音信息；本发明通过预训练BERT语言模型使合成出来的语音停顿更加自然，通过引入对抗网络，使训练出的音色更加符合定制角色的特点，实现高保真效果。

2024-05-12
货运轨迹生成及查询方法

本发明公开了货运轨迹生成及查询方法，涉及货运传输领域，包括：大数据建立语音识别反应模式，通过语音识别反应模式控制语音传输器；启动语音识别反应模式，获取操控指令，语音识别反应模式智能识别操控指令，语音传输器切换至对应功能，与语音处理器建立联系机制；在语音传输器所在的对应功能下，语音传输器天线接收语音处理器发射的信号；语音传输器话筒接收音频指令，语音传输器处理音频指令并转化音频指令为信号；通信结束，启动语音识别反应模式，获取操控指令。通过设置大数据处理模块、大数据训练模块、语音识别模块和语音传输器控制模块，可以解放双手执行其他操作，进而提升货运管理的便捷度和智能度。

2024-05-12
一种基于二阶循环神经网络的环境声音识别方法

本发明公开了一种基于二阶循环神经网络的环境声音识别方法，能运用在音频监控、机器人导航的音频场景识别方面等。其过程包括：构建原始音频的特征提取模块；构建对特征模块进行处理的数据增强模块；构建基于二阶循环神经网络的序列识别模块；构建含有全局注意力的注意力模块，结合二阶循环神经网络的输出生成音频标签进行音频识别与分类。

2024-05-12
无文本转录的全局韵律类型转移

提供了一种使用机器学习模型用于口头的自然语言中的韵律的分离的计算机实现的方法。该方法包括由计算设备对口头的自然语言编码以产生内容代码。该方法还包括由计算设备在无文本转录的情况下通过对机器学习模型应用无监督技术来重采样内容代码以模糊韵律，以生成韵律模糊的内容代码。该方法附加地包括由计算设备解码韵律模糊的内容代码以基于内容代码间接地合成语音。

2024-05-12
一种音乐误召的识别方法、装置、电子设备及存储介质

本申请涉及一种音乐误召的识别方法，包括：获取用于点招音乐的语音指令；识别语音指令中的第一文字数量；根据所述语音指令的音频幅值计算所述语音指令中的第二文字数量；当所述第一文字数量与所述第二文字数量的比对结果符合第一预设规则时，确定所述语音指令为音乐误招指令。与现有技术相比，本申请具有如下有益效果：本专申请通过一个音乐意图拒识模块。基于多模态识别方式，使用语音数据、文本数据，并且采用上文时序数据，作为模型数据输入，识别是否是用户真正的指令请求。通过音乐意图拒识模块，减少误召，提升用户使用语音进行娱乐需求交互频次，减少驾驶员在用车过程中手动交互，提高安全系数，提升用户对品牌技术的认可。

2024-05-11
一种飞行终端噪声的去除方法、系统、装置及介质

本说明书实施例提供一种飞行终端噪声的去除方法、系统、装置及介质，该方法包括获取多个飞行终端的噪声数据；基于所述噪声数据和若干个历史声音样本，训练噪声去除模型；所述历史声音样本包括历史噪声数据和历史环境音数据；所述噪声去除模型为机器学习模型；获取待处理飞行终端的图像数据对应的第一声音数据，基于训练后的所述噪声去除模型对所述第一声音数据进行处理，得到第二声音数据；所述第二声音数据为去除噪声后的声音数据。

2024-05-11
车辆控制方法、服务器及存储介质

本申请公开了一种车辆控制方法，包括：接收用户位于车辆座舱外发出的语音请求；基于预先训练完成的大语言模型，构建与语音请求相对应的远程智慧场景；下发远程智慧场景至车辆，以使车辆执行与远程智慧场景相对应的车辆控制指令。本申请中，在用户离车后，仍支持通过用语音实现对车辆的远程控制。具体而言，可基于预训练完成的大语言模型，可根据用户的自由表达的语音请求构建远程智慧场景，来满足用户的远程用车需求。相较于通过遥控设备进行简单的控制，能够提供更为丰富智能的车控指令，使得在用户离车后，相较于仅能执行预先设置的远程场景，能够为用户提供更高的灵活性和自由度，充分满足用户需求，改善用户体验。

2024-05-11
将音频输入数据转换成音频输出数据的方法及其收听装置

提供了一种将音频输入数据转换成音频输出数据的方法及其收听装置。所述方法(200)包括接收(202)音频输入数据(110)，通过使用语音去除模块(120)从所述音频输入数据(110)中分离语音分量提供(204)背景声音数据(122)，通过使用声学场景分类器(ASC)模块(124)确定(206)链接到匹配所述背景声音数据(122)的声学场景(AS)的声学场景数据(126)，基于所述声学场景数据(126)选择(208)专用降噪(S‑NR)模块(128A‑C)，以及通过使用所述专用降噪(S‑NR)模块(128A‑C)处理(210)所述音频输入数据(110)，从而生成所述音频输出数据(130)。

2024-05-11
编码、解码方法、编码器、解码器、电子设备和存储介质

本公开实施例提供了编码、解码方法、编码器、解码器、电子设备和存储介质。编码方法包括：将待编码信号确定为待编码信号的多描述信号；分别对各所述多描述信号进行量化，得到第一候选量化信号；根据各所述第一候选量化信号，得到每个多描述信号对应的量化信号；对各量化信号进行编码，生成所述待编码信号的目标码流，所述目标码流包括指示信息，所述指示信息指示所述目标码流是否为多描述码流。本公开直接将待编码信号确定为待编码信号的至少两个多描述信号，使得对每个多描述信号编码均是对待编码信号的编码，这种多描述编码方式，提高了编码器的抗丢包能力。

2024-05-10
一种智能家居训练离线语音固件的方法及装置

本发明涉及语音固件训练技术领域，尤其涉及一种智能家居训练离线语音固件的方法及装置。本发明从用户智能移动端的数据库中提取语音数据。智能移动端包括智能手机、手表、手环和平板电脑这些，能进行语音通话的智能设备。因此本方法通过上述来源直接获取语音数据。将上述数据处理后，作为训练样本反复输入离线语音固件训练系统，实现智能家居的离线语音固件训练。数据量大，且无需用户花费额外时间输入语音数据，训练高效、智能。

2024-05-09
一种基于GPT模型语音识别的自训练系统和方法

本发明涉及语音识别领域，具体为一种基于GPT模型语音识别的自训练系统，包括语音流模块、特征编码模块、语音权重搜索模块、GPT错词修正模块、GPT修正样例生成模块、语音权重模型库和语音识别输出，本申请采用在一个特定语音识别场景利用GPT大模型对识别结果进行修正，利用修正生成相关扩招文本，使用文本训练语音识别的语言库模型，实现无手工标点关键词条件语音识别场景优化，降低提高语音识别率的成本。

2024-05-09
用于远场语音的语音降噪方法及系统、存储介质

一种用于远场语音的语音降噪方法及系统、存储介质，方法包括：采用多个麦克风采集远场语音，所述远场语音包括用户交互语音、设备语音以及环境噪音，其中，用户交互语音由用户发出且用于与智能终端设备进行交互、设备语音由所述智能终端设备发出；对每个麦克风采集的远场语音进行初步降噪处理，以去除所述设备语音，得到初步降噪后语音；基于各个初步降噪后语音进行二次降噪处理，以去除所述环境噪音，得到降噪后用户交互语音；其中，每两个麦克风之间的距离大于等于单个麦克风的长度的10倍，和/或每个麦克风与所述智能终端设备之间的距离大于等于单个麦克风的长度的10倍。上述方案有助于改进远场语音中的设备语音和环境噪音的降噪效果。

2024-05-09
生成语音试题的方法、电子设备及计算机可读存储介质

本公开的实施方式提供了一种生成语音试题的方法、电子设备及计算机可读存储介质。其中，所述方法包括：获取语音试题的生成需求信息；将生成需求信息输入至预训练好的试题生成模型，以基于试题生成模型输出关于语音试题的试题文本；获取关于试题文本的试题音频；以及根据试题文本和试题音频生成语音试题。通过本公开的技术方案，不仅降低了人力资源投入，有效缩减了试题生成过程中的人工成本，并且能够提高试题的出题效率。另外，本公开的方案还突破了传统听力和/或口语类语音试题依赖人工出题的惯性思维，为语言学习或教学类产品的功能拓展提供了新思路，有利于提高语言学习或教学类产品的市场竞争力。

2024-05-09
一种基于广义熵的欧氏方向搜索的有源噪声控制方法

本发明涉及噪声控制技术，其公开了一种基于广义熵的欧氏方向搜索的有源噪声控制方法，解决传统自适应有源噪声控制方法中，在强冲击噪声下不够稳定、计算复杂度高的问题。本发明方案包括：S1、噪声输入向量的生成：将当前时刻n和前M‑1个时刻的M个初级噪声值x(n),x(n‑1)...x(n‑M+1)，构成滤波器当前时刻n的噪声输入向量；S2、权向量的生成：滤波器生成当前时刻n和前M‑1个时刻的权系数w(n),w(n‑1)…w(n‑M+1)；S3、根据权向量对噪声输入向量进行滤波：滤波器根据当前时刻n的权系数向量对当前时刻n的噪声输入向量X(n)进行滤波得到当前时刻输出到扬声器的输出值S4、获取残差信号，根据残差信号计算误差信号广义熵；S5、根据误差信号广义熵进行权向量更新；S6、令n＝n+1,返回步骤S1,直至噪声控制结束。

2024-05-09
语音识别模型的训练方法、语音识别方法及相关设备

本申请公开了一种语音识别模型的训练方法、语音识别方法及相关设备。该方法包括：将第一语音样本数据和第二语音样本数据输入语音识别模型，语音识别模型至少包含网络结构相同的语音识别教师网络和语音识别学生网络，语音识别教师网络用于接收第一语音样本数据，语音识别学生网络用于接收第二语音样本数据；利用语音识别教师网络对第一语音样本数据进行处理，得到第一语音处理数据；以及，利用语音识别学生网络对第二语音样本数据进行处理，得到第二语音处理数据；基于第一语音处理数据和第二语音处理数据，调整语音识别模型的网络参数，得到训练后的语音识别模型。上述方案，能够提高训练后的语音识别模型进行语音识别的准确度。

2024-05-08
语音降噪方法、装置和计算机设备

本申请涉及一种语音降噪方法、装置和计算机设备。所述方法包括：获取目标帧语音数据对应的频谱数据，并根据频谱数据中的频点获取多个子带功率，再对各子带功率进行时频域平滑处理，获取对应各子带的语音存在概率，以根据各子带的语音存在概率和对应的历史子带噪声功率均值，确定各子带的子带噪声功率，并根据各子带的语音存在概率和子带噪声功率，确定频谱数据中每个频点的频点增益，继而根据各频点增益获取降噪后的目标帧语音数据。上述降噪过程中，采用了频谱数据中各子带所对应的语音存在概率和子带噪声功率来确定频谱数据中每个频点的频点增益，无需针对频谱数据中每一频点进行计算，缩短降噪耗时，提高了效率。

2024-05-08
基于声传感器阵列空域矩阵滤波的混叠鸟鸣声分离方法

本发明涉及一种基于声传感器阵列空域矩阵滤波的混叠鸟鸣声分离方法，该方法包括：选取一种鸟鸣声作为目标信号；根据目标信号的波长计算声传感器阵元间距；根据阵元间距，布放声传感器阵列，通过每个阵元分别接收多个声源的混叠鸟鸣声信号；利用阵列波束形成技术，根据声传感器阵列接收的混叠鸟鸣声信号估计发出目标信号的声源方位；对于每个发出目标信号的声源方位，分别设计空域矩阵滤波器，并使目标信号位于滤波器的通带区域，其他干扰信号位于滤波器的阻带区域；通过空域矩阵滤波器对声传感器阵列接收的混叠鸟鸣声信号数据进行滤波，获得各个声源方位的纯净目标信号；重复以上步骤，直到获得所有纯净鸟鸣声信号，实现混叠鸟鸣声信号的分离。

2024-05-08
基于语义的语音断句方法、系统、终端及存储介质

本发明提供了一种基于语义的语音断句方法、系统、终端及存储介质，该方法包括：对用户语音进行语音端点检测；根据语音端点检测结果对用户语音进行断句，得到断句语音，依序对各断句语音进行语义完整度检测；若任一断句语音的语义完整度检测未合格，则对断句语音进行语音拼接，得到拼接语音，对拼接语音进行语义完整度检测；若拼接语音的语义完整度检测未合格，则对拼接语音进行语音拼接，返回执行对拼接语音进行语义完整度检测的步骤；若拼接语音的语义完整度检测合格，则根据拼接语音对用户语音进行语义断句。本发明实施例，能够保持语音断句后语音语义的连贯性，避免将一个连贯的指令切分成多个语义不完整的片段，提高了用户的使用体验。

2024-05-07
用于保护江豚的水体施工过程中的水下噪声预警系统

本发明涉及水体施工噪声测量预警技术领域，具体涉及一种用于保护江豚的水体施工过程中的水下噪声预警系统。该系统同时获取水上噪声、水下噪声和江豚声音三种声音数据，根据江豚声音数据获得的江豚信息获得截取范围并向前截取数据，获得待分析的数据；基于两类数据的相关性进行数据整合获得整合数据，基于待分析数据的变化趋势获得采集范围并继续采集数据，获得噪声判断数据。根据噪声判断数据进行噪声预警的检测。本发明通过自适应获得的采集范围获得用于评估噪声的噪声判断数据，能够提高水体施工的噪声预警灵活性，通过灵活的噪声预警使得水体施工能够在不影响江豚生存的基础上顺利进行施工。

2024-05-07

1
2
3
4
5
>>
尾页

技术分类

友情链接