乐器、声学

用于语音降噪的方法、装置、电子设备和计算机可读介质

本公开的实施例公开了用于语音降噪的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取目标语音；对目标语音进行预处理，得到目标语音的梅尔谱；将梅尔谱输入至预先训练的特征神经网络，得到梅尔谱的幅度掩膜增益系数；根据幅度掩膜增益系数对梅尔谱进行幅度掩膜，得到降噪梅尔谱；将降噪梅尔谱输入至预先训练的神经网络声码器，得到降噪语音。该实施方式实现了对目标语音更加轻量级的降噪处理并得到了更好的去噪效果。

2024-02-22
声纹识别方法、装置、存储介质以及电子设备

本发明公开了一种声纹识别方法、装置、存储介质以及电子设备。该方法包括：获取客户的目标语音录音；对目标语音录音进行声纹提取操作，得到第一目标声纹；将第一目标声纹与声纹数据库进行比对，得到第一比对结果；在第一比对结果为比对成功的情况下，将客户标记为风险客户，并向用户发送风险预警信息；在第一比对结果为未比对成功的情况下，将客户标记为第三方客户，并将第一目标声纹保存至声纹数据库。本发明解决了因客户归属划分不清导致的营销费用剧增的技术问题。

2024-02-22
一种语音识别方法、装置、设备和介质

本申请涉及一种语音识别方法、装置、电子设备和存储介质，该方法包括：采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号；获取语音的目标方向的大致方向的视频；根据目标方向增强后的语音信号和语音的目标方向的大致方向的视频对语音进行识别。本申请采用八麦麦克风阵列确定语音的目标方向的大致方向以及目标方向增强后的语音信号，可以有效降低噪声，并且在确定方向后通过摄像头获取语音的目标方向的视频，将目标方向的视频和目标方向降低噪声后的语音信号相结合后对语音进行识别，避免了目标对象在摄像头的拍摄范围之外以及噪音干扰的情形，不仅提高了语音识别的准确率而且提升了用户体验。

2024-02-22
一种用于电动汽车的主动降噪系统和方法

本发明揭示了一种用于电动汽车的主动降噪系统，系统设有HPC并获取电机的当前转速，所述HPC根据当前电机转速输出音频信号至音波发生器，所述音波发生器固定在电机附近用于发出声波对电机噪音主动降噪。本发明主动降噪系统采用根据车辆及周围信息，通过查询对应的噪音图谱，播放反相降噪信号降噪，成本低，还可对高频噪音作用。

2024-02-21
一种网面松紧度调节装置及鼓

本发明提供一种网面松紧度调节装置及鼓，其中调节装置包括鼓壳、网面、压圈和调节机构，所述鼓壳顶部设有与所述网面紧密连接的开口部，所述压圈设于所述鼓壳开口部的外侧，所述压圈的压接面与所述网面的边缘连接，所述调节机构在圆周方向围成一大小可调的环抱圈，所述环抱圈与鼓壳和/或压圈连接，所述鼓壳和压圈在垂向上的配合距离随所述环抱圈的圆周大小而改变。本发明通过缩小调节机构所围环抱圈的周向大小，均匀改变调节机构周向的形状，使鼓壳和压圈在垂向上的配合距离得以改变，压圈的整体垂向平移更平滑顺畅，避免受力不均的问题，且调节操作简单，避免重复纠正。

2024-01-16
语音处理方法及装置

本公开提供一种语音处理方法及装置，该方法：获取该待处理音频中的一个音节作为当前语音片段，判断当前语音片段是否符合音频切分条件及交互响应条件，音频切分条件基于ASR识别过程设置，交互响应条件基于NLP处理过程及NLP处理结果与反馈消息的匹配度设置。若当前语音片段不符合音频切分条件以及交互响应条件，则将待处理音频中下一顺位的音节合并到当前语音片段中，并转至判断当前语音片段是否符合音频切分条件以及交互响应条件的步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段。输出与目标语音片段匹配的反馈消息。该方法大大提高音频切分效率，提升人机交流中机器人或者智能设备的反应速度，改善人机交互体验。

2024-01-16
语音交互数据的处理方法和装置、存储介质及电子装置

本申请公开了一种语音交互数据的处理方法和装置、存储介质及电子装置，其中，上述方法包括：对第一对象的语音交互数据进行解析，得到语音交互数据中的关键字；在确定关键字与坏例数据库中的坏例数据匹配成功的情况下，获取坏例数据对应的第一对象的语音交互记录，其中，坏例数据保存有第一对象对语音交互记录的评价数据；根据语音交互记录对语音交互数据进行分析，向第二对象发送语音交互数据的分析结果，采用上述技术方案，解决了在用户与家电设备的语音交互场景中，存在语音交互数据处理效率低下的问题。

2024-01-15
一种语音识别方法、装置、设备、介质及产品

本公开提供了一种语音识别方法、装置、设备、介质及产品，涉及语音识别技术领域，该方法包括获取待识别语音，根据该待识别语音，确定待识别语音的第一转写文本；当所述第一转写文本中的关键词在错误关键词集合中命中时，对所述第一转写文本进行语义修复；所述错误关键词集合包括相同语音对应的多个关键词。该方法中，通过错误关键词集合，对第一转写文本进行语义修复，从而提高了对含有专业术语的关键词的语音进行识别的准确率，满足业务需求。

2024-01-15
一种基于加速工况的实车主动降噪方法及系统

在处理本发明公开了一种基于加速工况的实车主动降噪方法及系统。基于车内布置，使ANC控制器播放的扫频信号通过次级扬声器播放后再通过误差麦克风的采集再次传递给ANC控制器；基于扫频信号和误差麦克风采集信号，将输出的扫频信号与误差麦克风采集到的信号进行辨识得到次级通道传递函数；基于扫频信号和误差麦克风采集信号，将输出的扫频信号与误差麦克风采集到的信号进行辨识得到次级通道传递函数，用于计算收敛系数稳定性曲线；将次级通道传递函数和收敛系数稳定性曲线集成到FxLMS算法程序中，执行降噪程序对车辆内的噪声进行降低。本发明解决加速工况下主动降噪系统的系统调试和效果优化的问题。

2024-01-15
一种基于语音技术的盲人互联网系统

本发明涉及电子数字数据处理技术领域，且公开了一种基于语音技术的盲人互联网系统，包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块，所述语音特征提取模块用于多样化信息的特定语音提取，该用于目标页流量分析管理系统及管理方法，利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理，将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块，用户语音确认无误并指纹验证后由安全监管模块确认支付完成，再通过语音播报模块进行播报支付的金额，解决了用户通过语音来完成支付的问题。

2024-01-14
数据处理方法、智能终端及存储介质

本申请提出了一种数据处理方法、智能终端及存储介质。该方法包括：获取目标语音的类型信息；响应第一操作，根据所述类型信息对所述目标语音数据进行处理。本申请可以丰富语音降噪的场景，进而提高语音质量。

2024-01-14
一种基于只包含编码器的多头注意力机制的语音增强算法

本发明涉及一种基于无解码的多头注意力机制的语音增强算法的设计方法，涉及语音信号处理技术领域。本发明针对当前现有的注意力机制语音增强算法，提出了一种只包含编码器结构，不包含解码器结构的特征提取方法，并且应用带掩模多头注意力机制使算法对实时因果性语音更加有效。该方法能够缩短模型训练时间并有效抑制带噪语音信号中的噪声部分并增强语音部分，体现出良好的增强性能。

2024-01-14
智能设备交互方法、装置、存储介质及电子设备

本公开提供了一种智能设备交互方法、装置、存储介质及电子设备，涉及智能识别技术领域，尤其涉及语音识别、图像识别技术领域。具体实现方案为：检测目标设备所处环境的环境音量值；若检测到上述环境音量值达到预设阈值，则在识别唤醒关键词的过程中执行辅助识别，得到辅助识别数据，其中，上述唤醒关键词用于唤醒上述目标设备；若采用上述唤醒关键词无法唤醒上述目标设备，则根据上述辅助识别数据唤醒上述目标设备。

2024-01-13
一种薄膜型声学超材料结构

本发明提供了一种薄膜型声学超材料结构，属于噪声控制领域。解决了薄膜型声学超材料隔音量较低，而且隔音频段较为狭窄，薄膜型声学超材料在低频范围消除噪声能力不佳的问题。它包括圆筒形薄膜和若干质量块，所述的圆筒形薄膜的两端采用同材质薄膜封闭，若干个质量块粘贴在圆筒形薄膜的外表面，若干质量块分成上下两组沿圆筒形薄膜的轴线方向布置，同一位置处的位于上部的质量块与位于下部的质量块正对布置，同一位置处的上部的质量块的上端面与下部的质量块的下端面之间的竖直距离为圆筒形薄膜的直径长度，且位于上部的若干质量块和位于下部的若干质量块均等间距布置。本发明隔音量高，隔音频段宽，薄膜型声学超材料在低频范围消除噪声能力好。

2024-01-12
终端设备的语音控制方法和装置、存储介质及电子设备

本发明公开了一种终端设备的语音控制方法和装置、存储介质及电子设备。其中，该方法包括：在接收到目标语音的情况下，获取目标语音的语音识别结果，其中，目标语音为终端设备网络采集到的语音数据；在语音识别结果表征目标语音属于设备控制类语音的情况下，开启目标异步线程，并基于语音识别结果对目标语音进行语义解析；利用目标异步线程调用设备列表服务，以通过设备列表服务获取终端设备列表，终端设备列表中包括位于终端设备网络中的终端设备的设备信息；根据语义解析结果从终端设备列表中查找出目标终端设备，并将与语义解析结果匹配的目标控制指令下发至目标终端设备。本发明解决了设备列表调用耗时较长导致语音控制效率低的技术问题。

2024-01-11
一种句子发音测评的方法、装置及可读存储介质

本发明提供了一种句子发音测评的方法、装置及可读存储介质。该方法包括：基于目标词序列和高频单词集合构建含权重的词间解码网络；对待评测音频进行语音识别，得到候选解码路径集合；遍历当前候选解码路径集合对应所有可能的词序列，得到和目标文本具有最小编辑距离的新候选词序列集合，进一步在候选词序列对应的候选解码路径中选择解码得分最高的路径作为识别最优路径输出。本发明能在兼顾多读/漏读/错读单词评分的同时，尽可能地减少高分单词的评分错误。

2024-01-10
基于深度残差网络和注意力机制的声纹识别方法及装置

本发明涉及一种基于深度残差网络和注意力机制的声纹识别方法、装置及计算机可读存储介质，属于语音识别技术领域，包括步骤：S1：对采集到的音频数据进行预处理，得到能够模拟人耳某些特性的MFCC特征；S2：构建FAM，将S1得到的特征经过帧级注意力模块对每帧的重要性进行加权运算，得到加权后的MFCC特征；S3：构建声纹识别网络并进行声纹识别；引入MobileNet的设计思想，将普通卷积替换为深度可分离卷积以降低网络参数量；在ResNet50的每一个layer后加入通道域注意力模块建模各个特征通道的重要程度，针对不同的说话人增强或抑制不同的通道，最后将特征输入网络中的分类器进行分类，实现声纹识别。

2024-01-10
一种音频信号处理系统及方法

本发明提供一种音频信号处理系统及方法，包括：输出信号采集和采样率转换模块，采集声音输出信号的第一上采样时钟相位和第一下采样滤波器相位；输入信号采集和采样率转换模块，采集声音输入信号的第二上采样时钟相位和第二下采样滤波器相位；以及同步模块，电性连接于所述输出信号采集和采样率转换模块和输入信号采集和采样率转换模块，当所述第一上采样时钟相位、第一下采样滤波器相位、第二上采样时钟相位和第二下采样滤波器相位相同，且为预设值时，输出声音输出信号和声音输入信号的使能信号，并启动语音回声消除。通过本发明提供的一种音频信号处理系统及方法，可提高语音回声消除的质量。

2024-01-10
音频噪声检测方法、计算机设备和计算机程序产品

本申请涉及一种音频噪声检测方法、计算机设备和计算机程序产品。所述方法包括：获取待检测的音频信号的多个音频帧；确定多个音频帧中每个音频帧的频域能量信息；基于音频帧的频域能量信息，获取多个音频帧中目标音频帧与目标音频帧的相邻音频帧之间的频域能量变化量；获取目标音频帧对应的目标变化量阈值；目标变化量阈值基于目标音频帧的音频帧类型确定；若频域能量变化量大于目标变化量阈值，则确定目标音频帧存在噪声信号，本申请可以利用噪声在频域上能量快速变化的特征进行噪声信号识别，并且，可以结合音频帧类型动态调整阈值，能够适应不同的识别场景，避免错检噪声信号，实现了音频噪声高效准确的识别。

2024-01-09
一种船艏声学平台吸隔声材料结构降噪效果检测方法

本发明属于隔声材料结构降噪技术领域，公开了一种船艏声学平台吸隔声材料结构降噪效果检测方法。本发明通过在船艏声学平台外部设置声音模拟器模拟声源；在船艏声学平台内部设置噪声测量装置测量船艏声学平台内噪声大小；在船艏声学平台内部安装隔声材料并检测船艏声学平台内噪声大小；通过对无隔声材料和有隔声材料的船艏声学平台内噪声进行对比；对船艏声学平台降噪效果进行评估；本发明通过测量船艏声学平台内噪声大小在测量船艏声学平台结构噪声上具有较高的精度；同时，通过对船艏声学平台降噪效果进行评估可以实时地对降噪效果即降噪量进行计算和准确评估。

2024-01-09
用于车辆环境的语音处理方法、装置、设备、介质和车辆

本公开提供了一种用于车辆环境的语音处理方法、装置、设备、介质、产品和车辆，涉及智能交通领域，具体为语音识别、机器学习、自动驾驶、车联网等技术领域。用于车辆环境的语音处理方法包括：对待识别语音进行识别，得到识别结果和针对识别结果的识别概率；基于车辆行驶场景数据，调整识别概率，得到调整后的识别概率；基于调整后的识别概率，控制车辆基于识别结果执行操作。

2024-01-09
语音识别优化方法、电子设备和存储介质

本发明公开语音识别优化方法、电子设备和存储介质，其中，一种语音识别优化方法，包括：判断当前是否已经出了识别首字；若所述识别首字未出，利用首字解码器对待识别的首字进行解码得到第一解码结果，其中，所述首字解码器利用深度神经网络模型输出的不准确后验结果进行解码，所述深度神经网络模型的输出包括所述不准确后验结果和准确后验结果。通过判断当前是否已经出了识别首字，在识别首字未出的情况下利用首字解码器对待识别的首字进行解码得到第一解码结果，从而可以实现大幅度降低识别首字延时。

2024-01-08
一种钢琴自动演奏教学装置

本发明属于钢琴教学技术领域，尤其为一种钢琴自动演奏教学装置，包括钢琴本体以及安装在所述钢琴本体表面的琴键，所述钢琴本体的顶部固定连接有演奏箱，所述演奏箱的内部安装有触发组件，本装置通过对第一电磁铁和第二电磁铁进行通电，通过控制第一电磁铁和第二电磁铁之间产生磁力的磁性相斥和相吸，从而推动滑块在滑杆的表面进行滑动，通过滑块带动演奏杆对琴键的表面进行按压和脱离，可以实现能够根据演奏者选择好的曲目自动按压琴键使得钢琴本体自动进行演奏，便于按照演奏乐曲作为教学引导，从而对演奏者进行示范，通过显示屏的展示，可以在演奏和教学结束后展现两者之间的差别，从而能够直观生动的指导演奏者。

2024-01-08
一种训练方法、语音转换方法及装置和电子设备

本公开提供一种训练方法、语音转换方法及装置和电子设备，涉及语音转换技术领域。所述训练方法包括：利用编码器从音频文本提取第一分布参数，利用解码器处理音频频谱信息和音频音色信息，获得第一隐变量，基于单调对齐搜索算法更新编码器的网络参数和解码器的网络参数，直到第一隐变量服从第一分布参数。由于解码器为基于流的生成模型，使得音频转换模型可以快速转换超长文本语音转换。

2024-01-07
一种用于核磁共振噪声防护的吸声结构

本发明公开了一种用于核磁共振噪声防护的吸声结构，属于声学吸声材料技术领域。该吸声结构包括多个吸声单元；所述吸声单元包括腔体和连通管；所述连通管的一端插入所述腔体，另一端置于所述腔体外表面；所述连通管用于使所述腔体内部与外部环境连通从而形成亥姆霍兹共鸣器，所述吸声单元用于对单个频率的声音进行吸收；多个吸声单元平行设置于同一平面内，且多个吸声单元用于吸收不同频率的声音，从而降低核磁共振机器运行中产生的噪声。本发明通过多个吸声单元的结构设计，在一个平面内并行排列组合成一个整体结构，利用多个吸声单元的声学耦合作用，实现在一定宽度频域下的噪声较高吸收。

2024-01-07
电力监控领域语音指令模型无监督应用

本发明提供了一种电力监控领域，在无语音、意图训练样本集条件下，指令语音、意图模型的自动化构建方法。S1开源语音数据集，声码模型自动采集各演讲者声音特征，录入声音特征库；S4监控员，录制私人定制录音，声码模型自动提取声音特征，录入声音特征库；S8监控员新增操作指令、热词文本，存进专业指令/热词表，系统自动加权；S10声码模型，自动生成各演讲者指令声音特征向量，输入预训练基础语音模型，迁移训练生成电力参数的语音模型；自动生成文本指令正负样本集，迁移训练生成电力参数的意图模型。从而实现电力监控指令语音、意图模型自动化构建。新增指令、热词语音准实时生效。监控员可以使用新增操作指令、热词，进行语音交互。

2024-01-07
一种用于塔吊的语音控制系统

本发明涉及塔吊系统技术领域，具体涉及一种用于塔吊的语音控制系统。包括第一对讲终端、第二对讲终端、语音识别组件、语音指令库和控制器。第一对讲终端安装于塔吊驾驶室。第二对讲终端安装于地面指挥部，与第一对讲终端通讯连接。语音识别组件用于识别第一对讲终端和第二对讲终端之间的通讯内容中所包含的语音指令。语音指令库用于保存语音指令集。控制器用于将语音识别组件识别到的语音指令与语音指令集进行匹配。若匹配成功，则控制塔吊做与语音指令相对应的吊运动作。若匹配失败，则不对塔吊做出动作指示。其能够有效地提高塔吊的操作精度，降低了在重复定位上的时间耗费，有效地提高了施工效率。

2024-01-07
语音合成方法、装置、电子设备及存储介质

本申请实施例提供一种语音合成方法、装置、电子设备及存储介质。该方法包括：确定目标情绪；获取目标情绪的声纹特征，目标情绪的声纹特征表征用户处于目标情绪的情况下发出的语音信号的声纹特征；基于目标情绪的声纹特征对待合成信息进行合成处理，得到合成语音。在本申请实施例提供的技术方案中，通过确定期望合成语音具有的情绪，之后获取用户在处于上述情绪时发出的语音信号的声纹特征，最后基于上述声纹特征对待处理的待合成信息进行合成处理，得到能够表现情绪的合成语音，后续电子设备在播放合成语音时也能模拟出人类的情绪，使得电子设备输出的合成语音更加自然，更富有表现力。

2024-01-06
意图识别方法、装置、计算机设备及计算机可读存储介质

本申请为人工智能技术的自然语言处理技术领域，本申请提供了一种意图识别方法、装置、计算机设备及计算机可读存储介质，其中，所述方法包括：接收用户的语音信息，将语音信息转换为语音向量，计算语音向量与标准语音向量的相似度，判断相似度是否低于预设相似度阈值，当判定相似度低于预设相似度阈值时，获取语音信息的上下文对话信息，得到参考语音信息，将语音信息及参考语音信息输入预先训练好的意图识别模型，得到针对用户的语音信息的目标意图。本申请在无法准确识别用户的语音信息中的意图时，利用意图识别模型结合语音信息的上下文对话信息确定语音信息中的真实意图，提高意图识别模型的识别精度。

2024-01-06
音频信号的处理方法、装置、存储介质及车辆

本公开涉及一种音频信号的处理方法、装置、存储介质及车辆，涉及车辆控制领域，应用于车辆，车辆上设置有多个声音采集装置，每个声音采集装置分别设置在对应的音区内，每个音区内包括至少一个座位。该方法包括：获取每个声音采集装置采集的原始音频信号。根据方位信息，对多个声音采集装置采集的原始音频信号进行处理，得到至少一个声源信号和每个声源信号所属的目标音区，方位信息表征每个声音采集装置与每个音区中座位的位置关系。对每个声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，以控制车辆执行控制指令。本公开能够提高语音识别的准确率和有效性，从而对车辆进行精准、灵活地控制。

2024-01-05
智能衣柜及其控制方法

本发明属于智能家居技术领域，具体涉及一种智能衣柜及其控制方法。本发明旨在解决现有智能衣柜不能保障存衣信息的获取及时性和准确性的问题。本发明的控制方法能够基于射频识别技术在用户将盛放有衣物的搁衣架一次摞放至柜体内的同时获取各衣物的RFID标签信息，确定柜体内存储的所有衣物的具体特征，并能将每件衣物的RFID标签信息与该RFID标签信息的获取时间对应存储，以便明确柜体内所有衣物的RFID标签信息的获取时间的排列顺序，从而基于该排列顺序推断出柜体内所有衣物的摞放顺序，锁定每件衣物与盛放该衣物的搁衣架的摞放位置的对应关系，便于智能衣柜基于获取的数据进行衣物定向查找、衣物分布情况展示等工作，实现了基础存衣数据的快速、准确获取。

2024-01-05
一种智能水杯语音识别方法及装置

本发明专利公开了一种智能水杯语音识别方法，具体涉及语音识别技术领域。包括如下步骤：①语音信息读取；②自适应的高通滤波方法处理语音信息；③分帧：将语音信号分为N段小的语音信号，且帧之间存在互相重叠；④加窗：对数据采用汉明窗进行加窗操作；⑤傅里叶变换：对数据进行傅里叶变换，将矩阵取模然后取平方，得到能量谱密度，将各帧的能量谱密度相加，得到各帧的能量总和矩阵；⑥三角带通滤波；⑦离散余弦变换：将对数能量带入离散余弦变换，求出L阶的Mel‑scale Cepstrum参数；将语音特征向量通过SVM算法对其进行训练，之后进行识别。采用本发明技术方案解决了现有的智能水杯在语音交互时会出现识别准确率低的问题，可用于智能语音设备的语音信号识别。

2024-01-04
语音识别方法、装置、电子设备、存储介质及程序产品

本发明实施例提供一种语音识别方法、装置、电子设备、存储介质及程序产品，该方法包括：获取待进行语音识别的语音信号；基于声学模型及语言模型对语音信号进行语音识别；其中，声学模型和语言模型是基于修改了自注意力模块的Transformer结构构建的，修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。本发明实施例可以提高自注意力值的计算速度，进而提高改进的Transformer结构自注意力模块输出结果的速度，提高利用改进的Transformer结构构建的声学模型和语言模型的处理速度，从而从整体上提高了语音识别的处理速度。

2024-01-04
一种宽带噪声声源定位装置及定位系统

本发明公开了一种宽带噪声声源定位装置及定位系统，包括定位装置壳体，所述定位装置壳体的左右两侧均设置有连接柱，且连接柱的外部套设有连接杆，两组所述连接杆之间连接有伸缩内杆，其中一组所述连接杆的末端内部穿设有安装杆，且安装杆的左右两侧设置有调节件。该宽带噪声声源定位装置及定位系统，通过设置的调节件能够在定位装置壳体的左右两侧进行转动，从而能够调整调节件的旋转角度，带动底部的麦克风阵列安装板进行转动，改变麦克风阵列安装板上的麦克风阵列的位置，从而从不同的方向对噪声进行获取，便于对声源位置进行测算，提高声源定位的精准度，并且在调节件转动的过程中，可手动对调节件进行定位控制，调节方便。

2024-01-04
一种基于人工智能的语音交互方法及系统

本发明实施例公开了一种基于人工智能的语音交互方法及系统，实施本发明实施例提供的语音交互方法，在与用户进行语音交互时，通过识别用户的对话领域、当前意图和词槽，能够更加准确地理解用户意图和语义，使输出的回答更加符合用户的行为和意图，提高用户体验。

2024-01-03
一种语音合成方法、系统及装置

本申请公开了一种语音合成方法、系统及装置，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。本方案在基于语音合成模型将文本信息转换为语音信息时，在语音合成模型的输入侧输入文本信息的同时，输入超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定的，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

2024-01-03
一种物表消音器

目前，随着社会生活水品的提高，越来越多的人们住进楼房，而随着人口老龄化，老人越来越多，老年人无法忍受楼上噪音及隔壁噪音，心情烦躁，无法休息，冲突频发，甚至大打出手，但很多声音仅仅是邻居正常生活的声音，远没有达到扰民的噪音强度标准。而目前的通常做法是在噪音较大的墙面，天花板贴隔音棉，收效甚微，且严重影响装修整体性，如果是玻璃表面更无法应用不透明的隔音棉。本发明为解决隔物传导的声音，给声音传导途径物体施加阻尼达到消除声音传导途径物体的震动，切断声音传导途径，进而达到降噪消音的效果。

2024-01-03
一种语音合成方法、结构、终端及存储介质

本发明公开了一种语音合成方法、结构、终端及存储介质。所述方法包括：将待合成文本的音素序列输入预训练好的语音合成模型，通过所述语音合成模型提取音素序列的局部特征；其中，所述语音合成模型为基于CNN和Transformer的语音合成模型，利用多头注意力机制获取音素序列的全局上下文信息，并利用深度可分离卷积获取音素序列的局部信息，根据所述音素序列的全局上下文信息和局部信息得到音素局部特征；将所述音素局部特征映射为梅尔谱，得到所述待合成文本的语音合成结果。本发明利用Transformer的多头注意力机制建模不同音素间关系，得到全局上下文信息，并利用深度可分离卷积精细化音素内部的局部特征，提升了局部信息颗粒度，减小了模型参数量、计算量和训练时间。

2024-01-03
一种信息处理方法、信息处理装置和电子设备

本申请实施例公开了一种信息处理方法，该方法包括：将获得的待识别语音数据输入语音识别模型；通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征，并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分；按照置信度评分由大到小的顺序和筛选数量范围，对多个候选结果进行筛选，在当前进行筛选的候选结果的置信度评分发生突变的情况下，若筛选得到的候选结果数量位于筛选数量范围内，至少根据突变前参与筛选的候选结果，得到多个筛选结果；将多个筛选结果输入语音识别模型的解码模块，得到待识别语音数据的语音识别结果。本申请的实施例同时还公开了一种信息处理装置和电子设备。

2024-01-03
一种修正广播音色的方法及系统

本发明公开了一种修正广播音色的方法及系统，包括抓取并分析声波特征信息；输入所述声波特征信息进行修正，获取理论音频θ；匹配当前环境信息，将所述理论音频θ环境化，获取环境音频ρ；提取所述环境音频ρ并进行广播，在获取相应音波特征信息后通过修正模块先一步进行理论修正后，再次通过匹配环境信息进一步进行音色的环境化，进一步提高了音色调整的优质度。

2024-01-03
语音控制洗衣机的方法和装置

本申请实施例提供了一种语音控制洗衣机的方法和装置，洗衣机接收用户输入的语音数据，识别语音数据中是否包含预设关键词，如果语音数据中包含预设关键词，则通过声纹识别确定语音数据对应的发声用户的年龄，当发声用户的年龄小于预设年龄时，禁止执行语音数据对应的动作；当发声用户的年龄不小于预设年龄时，执行语音数据对应的动作。通过识别语音数据对应的发声用户的年龄，当确定发声用户为儿童时，禁止执行语音数据对应的动作，降低儿童因为好奇误操作引发的安全隐患，提高了洗衣机的使用安全性。

2024-01-02
一种基于调度域技术的语音识别系统及其方法、存储介质

本发明公开了一种基于调度域技术的语音识别系统，包括以下组成模块：语音接收模块、调度域模块、语音处理模块、特征获取模块、训练模型模块、解码模块，所述语音接收模块的输出端连接有调度域模块,所述调度域模块的输出端连接有语音处理模块，所述语音处理模块包括静音切除模块和降噪处理模块，所述静音切除模块连接在调度域模块的输出端。本发明采用了调度域技术加速语音识别系统的运行速度，通过端点检测技术对采集的语音进行首尾段静音切除，通过移动窗函数对语音进行分帧操作，通过傅里叶变换进行音频降噪，提高后续语音处理效率，通过神经网络算法对机器进行静态训练，进而令识别参数不断逼近最佳状态，提高识别率。

2024-01-02
语音增强方法、电子设备和存储介质

本发明公开一种语音增强方法、电子设备和存储介质。在该方法中，确定待增强的原始语音所对应的倒谱域信号；分解所述倒谱域信号所对应的声门激励分量信号和声道系统分量信号；基于倒谱分析逆系统模块，对所述声门激励分量信号和所述声道系统分量信号进行时域变换和降噪处理；基于降噪后的声门激励分量时域信号和声道系统分量时域信号，合成目标语音。由此，实现了语音分析、合成与降噪三者的有机融合，从而能实现模型复杂度更低、降噪性能更好的语音增强系统。

2024-01-02
一种热水器的语音交互方法及热水器

本申请属于家电技术领域，具体涉及一种热水器的语音交互方法及热水器。本申请旨在解决现有技术中热水器根据用户的语音指令，对热水器执行相应的运行操作的过程中，缺少相应的互动，使得用户的体验度相对较低的问题。本申请中，热水器获取语音指令，并根据语音指令中的文本信息，确定回应指令，以根据回应指令进行播放处理，其中，回应指令包括播放音色、回应昵称和回应文本信息。

2024-01-02
一种基于声纹的验证方法、设备、介质及产品

本申请公开了一种基于声纹的验证方法、设备、介质及产品，可应用于金融领域或其他领域。本申请中若检测到身份验证指令，控制显示用于进行声纹验证的验证图片以及朗读顺序，验证图片为随机缺失一块或多块子图片的验证图片，朗读顺序用于指示用户朗读缺失的一块或多块子图片对应的字符的朗读顺序，子图片与字符的对应关系是预先设置的；监测用户输入的语音；若语音的文本与预设的验证码相同，且，语音的声纹特征与验证码的声纹特征相同，确定身份验证通过，实现了快速验证身份的同时，还避免了用户在进行基于声纹的身份验证时，因为被窃听，从而受到录音回放攻击的情况。

2024-01-01
一种基于深度学习的歌唱评价方法

本发明提供了歌唱评价技术领域的一种基于深度学习的歌唱评价方法，包括如下步骤：步骤S10、获取大量的歌唱数据，对各所述歌唱数据进行清洗；步骤S20、提取清洗后的各所述歌唱数据的音频特征，构建特征数据集；步骤S30、创建一音频对齐模型，基于所述音频对齐模型对特征数据集中的各音频特征进行对齐；步骤S40、基于深度学习创建一多维度评价模型，利用对齐后的所述特征数据集对多维度评价模型进行训练；步骤S50、获取待评价音频，将所述待评价音频输入多维度评价模型，得到音准评价值、节奏评价值以及发音评价值并进行展示。本发明的优点在于：极大的提升了歌唱评价的准确性以及可解释性。

2024-01-01
语音数据处理方法和装置

本发明公开了一种语音数据处理方法和装置。该方法包括：获取目标对象的样本语音的音素序列；根据预设规则对音素序列进行编码，得到音素编码序列；通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征，其中，语音转换模型的输入为音素编码序列，语音转换模型的输出为样本语音的声学特征；在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音。通过本发明，达到了提高语音转换的自然度的效果。

2024-01-01
一种重叠语音的检测方法、装置、电子设备及存储介质

本申请提供了一种重叠语音的检测方法、装置、电子设备及存储介质，包括：将待检测语音输入特征提取网络层，确定出待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征；将各个音频段的幅度谱语音特征输入第一残差网络层，确定出幅度重叠得分矩阵；以及将各个音频段的相位谱语音特征输入第二残差网络层，确定出相位重叠得分矩阵；将幅度重叠得分矩阵和幅度重叠得分矩阵输入聚合网络层进行聚合处理，确定待检测语音中是否存在重叠语音，并在存在时，输出重叠语音的起始时间和终止时间。通过将待检测语音输入到重叠语音检测模型中，将幅度重叠得分矩阵、相位重叠得分矩阵进行聚合处理，从而可以提高对重叠语音识别的准确率。

2024-01-01
基于语音识别的智能答复方法及装置

本公开提出了一种基于语音识别的智能答复方法及装置，该方法包括：获取待识别的语音信息；对待识别的语音信息进行识别，以确定语音信息对应的文本；对语音进行特征提取，以确定音频特征信息；根据音频特征信息，确定语音信息对应的性别特征标签；将语音信息输入至年龄识别模型中，以确定年龄特征标签；根据音频特征信息以及文本信息，确定情感特征标签；根据情感特征标签，年龄特征标签、性别特征标签以及文本信息，确定待答复的语句信息以及待选用的音频特征；基于待答复的语句信息以及待选用的音频特征，生成待答复的内容。由此，可以结合用户的情感特征、年龄特征、性别特征以及文本信息，从而使得生成的答复内容更加可靠、准确、人性化。

2024-01-01
音频数据处理方法、装置、程序产品、计算机设备和介质

本申请公开了一种音频数据处理方法、装置、程序产品、计算机设备和介质，该方法包括：获取待优化的目标音频数据；调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据；调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据；调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。采用本申请，可以提升对目标音频数据的优化效果。

2024-01-01

首页
<<
5
6
7
8
9
>>
尾页

技术分类

友情链接