乐器、声学

  • 一种音频数据处理方法及系统
    一种音频数据处理方法及系统

    本申请公开了一种音频数据处理方法及系统,通过在获得输入数据后,将输入数据按照频率大小分成多段待处理数据,并进行增益处理后,截止频率与每一段待处理数据的截止频率匹配的第一低通滤波器对每一段分段数据进行滤波处理,能够保证衰减分段输出数据中大于其对应的截止频率的失真和噪声,从而缓解分频处理过程中导致的谐波噪声的问题,提高用户体验。

    2023-03-27
  • 基于平凡发音的说话者识别方法、系统、存储介质及设备
    基于平凡发音的说话者识别方法、系统、存储介质及设备

    本发明公开了一种基于平凡发音的说话者识别方法、系统、存储介质及设备,方法包括:获得实时音频数据,并基于实时音频数据进行频谱特征提取,得到实时音频数据对应的频谱特征;将实时音频数据对应的频谱特征输入完成训练的UNET网络,生成实时音频数据对应的频谱遮罩,并基于频谱遮罩检测实时音频数据是否为平凡发音;若实时音频数据为平凡发音,利用频谱遮罩和频谱特征融合,得到实时音频数据对应的增强频谱;将实时音频数据对应的增强频谱输入完成训练的说话者嵌入层网络,获得实时音频数据对应的实时说话者嵌入层;将实时说话者嵌入层和注册说话者嵌入层进行比较,用以识别实时音频数据对应的说话者。

    2023-03-27
  • 语音识别模型选择方法、装置、电子设备及存储介质
    语音识别模型选择方法、装置、电子设备及存储介质

    本申请提供一种语音识别模型选择方法、装置、电子设备及存储介质。该方法包括:根据决策树模型构建评价指标;对预先录制的初始音频数据执行预处理操作以确定测试音频数据,并根据与初始音频数据对应的初始文本数据确定与测试音频数据对应的测试文本数据;对于预先获取的每个语音识别模型,将测试音频数据输入语音识别模型以确定识别文本数据,根据测试文本数据和识别文本数据确定语音识别模型在评价指标的评价数据;根据多个评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分;选择总得分最高的语音识别模型作为目标语音识别模型。提高了语音识别模型与当前应用场景的适配性,有助于提高语音识别的准确率。

    2023-03-27
  • 一种用于汽车车内噪音模型的评估方法及系统
    一种用于汽车车内噪音模型的评估方法及系统

    本发明提供了一种用于汽车车内噪音模型的评估方法及系统,涉及数据处理技术领域,通过采用多种噪音对驾驶员进行噪音测试,获得噪音测试结果进行第一噪音评估模块的构建;根据多种噪音和噪音测试结果,构建第二噪音评估模块,第一噪音评估模块和第二噪音评估模块组成综合噪音评估模型;采集车内实时噪音输入综合噪音评估模型,获得对驾驶员进行警示提醒的第一噪音分析结果和对汽车进行控制的第二噪音分析结果。解决现有技术中对于驾驶员驾车安全提醒局限于统一化行驶道路规定进行驾驶车速限制,与驾驶员实际驾驶能力和驾驶状态结合度较低的技术问题。达到结合驾驶环境噪声对于驾驶员辨音能力影响进行限速适应性调整,提高驾车安全性的技术效果。

    2023-03-27
  • 一种用于直播信息提示的交互设备及其方法
    一种用于直播信息提示的交互设备及其方法

    本申请公开了一种用于直播信息提示的交互设备及其方法。其首先计算获取的预定时间段的主播的声音数据的对数梅尔谱图,接着,将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量,然后,将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量,接着,计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵并进行特征分布优化以得到分类特征矩阵,最后,将所述分类特征矩阵通过分类器以得到用于表示主播的语速是否应放慢的分类结果。通过这样的方式,可以智能地生成主播的语速是否应放慢的调整提示信息。

    2023-03-27
  • 基于语音的动作生成方法、装置、电子设备及存储介质
    基于语音的动作生成方法、装置、电子设备及存储介质

    本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质,该方法包括:确定目标语音中包含的动作意图,并确定与所述动作意图相匹配的第一动作序列;以及,从所述目标语音中提取得到语音韵律特征,并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列;对所述第一动作序列和所述第二动作序列进行融合处理,生成与所述目标语音相匹配的动作序列。上述方案通过多维度的信息生成了与目标语音相匹配的动作序列,从而使得生成的与目标语音相匹配的动作序列更准确,并且更加自然、协调。

    2023-03-26
  • 自动扶梯生产用性能检测系统及其方法
    自动扶梯生产用性能检测系统及其方法

    本申请公开了一种自动扶梯生产用性能检测系统及其方法。其采用基于深度学习的人工智能检测技术,以所述自动扶梯在运行过程中的振动特征和速度特征的联合特征来表示其理想的工况,进而以其在理想工况下生成的声音特征信息与实际探测的声音特征信息进行差异性对比,以此来判断所述自动扶梯的性能是否符合预定要求。通过这样的方式,可以对于所述自动扶梯的出厂性能进行准确地检测,进而保证自动扶梯的生产质量。

    2023-03-26
  • 语音生成模型的训练、使用方法以及训练、使用装置
    语音生成模型的训练、使用方法以及训练、使用装置

    本申请提供一种语音生成模型的训练、使用方法以及训练、使用装置,训练方法包括:获取文字信息样本;将文字信息样本输入语音生成模型的生成器中,得到输出梅尔频谱;基于语音生成模型的鉴别器,采用多个损失函数分别将输出梅尔频谱与真实梅尔频谱进行对比,得到多个损失值,其中,真实梅尔频谱为文字信息样本真正的梅尔频谱;按照预设运算规则对多个损失值进行处理,得到总损失值;基于总损失值对语音生成模型中的参数进行调整,得到训练后的语音生成模型。使得输出的语音更加流畅、清晰,韵律更加自然,平滑了频谱,在一定程度上抑制了噪声。

    2023-03-26
  • 一种基于深度压缩感知的语音去噪方法及设备
    一种基于深度压缩感知的语音去噪方法及设备

    本发明涉及一种基于深度压缩感知的语音去噪方法及设备,包括以下步骤:对纯净语音信号加入高斯白噪声,得到带噪语音信号,对纯净语音信号和带噪语音信号进行时长规整和分帧处理;对纯净语音信号和带噪语音信号进行感知特征提取,得到纯净语音的感知特征和带噪语音的感知特征;将带噪语音的感知特征作为生成对抗网络的输入,纯净语音的感知特征作为目标函数,训练生成对抗网络,得到生成纯净语音的感知特征;采用压缩感知的OMP重构算法,对生成纯净语音的感知特征进行信号重构,得到生成纯净语音信号。本发明通过深度压缩感知,适用于非线性噪声分析与处理,提高带有噪声的语音信号的去噪效果。

    2023-03-26
  • 一种回声消除方法、装置、系统、电子设备及存储介质
    一种回声消除方法、装置、系统、电子设备及存储介质

    本申请实施例提供了一种回声消除方法、装置、系统、电子设备及存储介质,涉及语音处理技术领域。应用于电子设备,该方法包括:采集目标近端声音信号;根据预先存储的播放参数与回声时延的对应关系,获取与所述电子设备的当前播放参数对应的目标回声时延;根据所述目标回声时延,消除所述目标近端声音信号中回声信号。应用本申请实施例提供的技术方案,能够提高向远端设备传输的声音信号质量。

    2023-03-26
  • 针对汽车路噪主动控制的系统、方法及车辆
    针对汽车路噪主动控制的系统、方法及车辆

    本发明公开了一种针对汽车路噪主动控制的系统、方法及车辆,包括乘客识别系统,其配置为识别车辆内部环境信号;振动拾取系统,其配置为实时采集车体振动信号;CAN输入系统,其配置为车辆状态输出信号;噪声拾取系统,其配置为实时采集车辆内部环境噪声信号;控制器系统,其配置为根据所述乘客头部信息、根据所述振动信号、根据所述降噪系统功能信号、根据所述车内噪声信号、通过将所述收敛系数应用于主动路噪控制单元生成噪声控制信号;以及噪声输出系统,其配置为输出所述噪声控制信号。本发明可精准降低目标位置噪声,提高了降噪性能,提高了降噪性能的适应性和系统收敛速度,提高了路噪主动控制系统的稳定性。

    2023-03-25
  • 一种形成具有固定振动频率的乐理体系方法
    一种形成具有固定振动频率的乐理体系方法

    本发明公开了一种形成具有固定振动频率的乐理体系方法,使用最低音震动频率定为20Hz,最高音为9600Hz;共计108个音,采用C、D、E、F、G、A、B来命名这108个音,按照等比等差律制,排出音差相同、振动频率差相同的一组12个音,得到各相邻两组之间各音的高八度、低八度音振动频率正好为二倍和二分之一倍,以各相邻两组之间各音的高八度、低八度音振动频率正好为二倍和二分之一倍设定振动频率数值不同时、音差不同,产生不同的固定振动频率的乐音,每组的音确定为5个6个7个8个9个10个11个12个13个,在设定之处计算出每个相邻音之间的振动频率之差。

    2023-03-25
  • 一种身份识别方法、装置、计算机设备和存储介质
    一种身份识别方法、装置、计算机设备和存储介质

    本发明公开了一种身份识别方法、装置、计算机设备和存储介质。该方法包括:获取至少两个原始数据集,原始数据集中包括通过对视频或者图像进行人员特征提取得到的人员特征信息集合,和通过对视频或者图像所携带的音频进行声纹特征提取得到的声纹特征信息集合;确定各原始数据集中与目标人员特征信息匹配的目标数据集,根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数,确定与目标人员特征信息匹配的目标声纹特征信息;根据与目标人员特征信息匹配的身份信息,确定与目标声纹特征信息匹配的身份信息。使用本发明的技术方案,可以实现根据声纹对存在较多干扰因素的视频或图像中的人物进行身份识别。

    2023-03-24
  • 一种单元板式声屏障干涉器及其组成的声屏障
    一种单元板式声屏障干涉器及其组成的声屏障

    本发明提供一种单元板式声屏障干涉器及其组成的声屏障,属于环境噪声及交通噪声治理技术领域,包括背板和面板,背板和面板之间形成容纳声波干涉器的容纳腔;声波干涉器包括底板,底板上设置有声波干涉装置,声波干涉装置由不同周期性排列的声波扩散单元组成,不同周期性排列的声波扩散单元由一组根据二维二次余数规律进行排列的声学元素块组成,声学元素块形成深浅不同的二维井字形结构从而改变声波扩散单元的吸声频率;本发明通过设计有声波干涉装置,根据二维二次余数规律进行排列根据可以对不同频率的噪声具有优异的吸声及扩散性能。

    2023-03-24
  • 空间可识别子带音频源的检测和提取方法、装置以及系统
    空间可识别子带音频源的检测和提取方法、装置以及系统

    在实施例中,一种方法包括:将双声道时域音频信号的一个或多个帧变换成包括多个时频片的时频域表示,其中时频域表示的频域包括多个频率仓,该多个频率仓被分组成子带。针对每个时频片,该方法包括:计算时频片的空间参数和电平;使用移位参数和挤压参数修改空间参数;使用经修改的空间参数、电平、以及子带信息获得用于每个频率仓的软掩码值;以及将软掩码值应用于时频片以生成所估计的音频源的经修改的时频片。在实施例中,时频片的多个帧被组装成多个组块,其中,每个组块包括多个子带,并且上述方法针对每个组块中的每个子带执行。

    2023-03-24
  • 语音控制方法、装置、控制设备及存储介质
    语音控制方法、装置、控制设备及存储介质

    本发明实施例涉及一种语音控制方法、装置、控制设备及存储介质,所述方法包括:在第一目标区域内的第一音频设备识别到目标对象的语音指令时,获取所述目标对象的第一位置信息;确定第二目标区域内的第二音频设备的第二位置信息;根据所述第一位置信息和所述第二位置信息确定所述第二音频设备的跟随控制指令,所述跟随控制指令中携带有所述第一音频设备的控制参数;控制所述第二音频设备执行所述控制参数情况下的所述跟随控制指令对应的控制操作。由此,可以实现多台音频设备之间的语音跟随的联动控制的技术效果。

    2023-03-23
  • 基于智能家居的语音控制方法和装置
    基于智能家居的语音控制方法和装置

    本申请公开了一种基于智能家居的语音控制方法和装置,涉及人工智能技术领域。具体实现方案为:获取采集到的操作者的初始语音信息;对初始语音信息进行声纹特征识别,得到声纹特征信息;基于预设的映射关系,根据声纹特征信息,确定与操作者对应的语音截断时间和方言类型;基于语音截断时间,获取待识别的语音信息;获取与方言类型对应的语音识别模型;基于语音识别模型,对语音信息进行识别,以生成控制指令;将控制指令发送给家居用电设备,以对家居用电设备进行控制。本申请可以有效解决老人在通过语音交互来利用智能家居控制设备控制用电设备时的语音交互说的慢、方言口音严重的问题,提高语音识别准确度,进而实现了对用电设备的精准控制。

    2023-03-23
  • 语音数据处理方法、装置及电子设备
    语音数据处理方法、装置及电子设备

    本申请实施例提供了一种语音数据处理方法、装置、电子设备及计算机可读存储介质,涉及语音识别技术领域。该方法包括:通过接收第一语音,基于语音识别模型,对所述第一语音进行语音识别,确定所述第一语音对应的识别信息;根据所述识别信息,执行所述第一语音对应的处理操作。由于语音识别模型为基于目标样本语音进行训练得到的,所述目标样本语音为对初始样本语音进行语音检测得到的,这样,得到的目标样本语音的语音质量较高,从而使得基于该目标样本语音训练的语音识别模型的语音识别精度较高,提升了语音识别的准确度。

    2023-03-23
  • 一种基于物联网的智能钢琴控制方法及系统
    一种基于物联网的智能钢琴控制方法及系统

    本发明提供一种基于物联网的智能钢琴控制方法及系统,其中方法包括:将钢琴接入物联网;监听用户是否将目标乐器接入物联网;若是,基于所述目标乐器对应的预设的邀约信息,向用户发出合奏邀约;当用户同意邀约后,控制钢琴与用户演奏所述目标乐器进行合奏。本发明的基于物联网的智能钢琴控制方法及系统,当用户有目标乐器与钢琴合奏的目的时,控制钢琴与用户演奏目标乐器进行合奏,当用户独自在家时,可以实现钢琴合奏,提升了用户的体验感,使得自动弹奏钢琴能够实现为用户提供钢琴合奏这一功能。

    2023-03-22
  • 基于互信息量和SE注意力机制的跨语种语音转换方法
    基于互信息量和SE注意力机制的跨语种语音转换方法

    本发明涉及语音转换技术领域,具体地说,是一种基于互信息量和SE注意力机制的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段包括以下步骤:首先在内容编码器中引入SE模块,通过该模块,网络可以学习获取全局信息,提升内容编码器生成的内容表征的质量;进一步引入互信息量作为相关度量,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠;最后在解码器中将目标说话人语句中的个性信息与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种语音转换。

    2023-03-22
  • 一种基于几何相位的声场可重构调控超表面器件
    一种基于几何相位的声场可重构调控超表面器件

    本发明公开了一种基于几何相位的声场可重构调控超表面器件,所述超表面器件由亚波长双层微结构的阵列组成;双层微结构能实现可调谐的声学几何相位,由圆柱波导和两个具有相反人工拓扑荷±lξ的相位梯度超构声栅PGM组成,分别为PGM‑1、PGM‑2;所述双层微结构能通过旋转PGM‑2的角度θ实现线性连续变化的声学几何相位的调节,满足关系式本发明通过转动每个微结构的几何角度实现透射相位的任意调节,可以实现波束偏折、聚焦和分离等多样化声场调控功能,从而实现了一个新型可重构声学超表面器件;本发明在声场功能调控器件中有着巨大的应用潜力。

    2023-03-22
  • 人声定位方法及电子设备和存储介质
    人声定位方法及电子设备和存储介质

    本发明公开一种人声定位方法及电子设备和存储介质,其中方法包括:将获取的音频信号转换为语谱图信号,对所述语谱图信号进行分离;通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号,并判断所述语谱图信号中每个方向上人声信号的存在概率,确定人声信号存在概率最大的方向并输出人声信号存在概率最大的方向的掩码信号;至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息。本发明实施例通过利用神经网络来输出概率最大的方向的掩码信号,根据概率最大的方向的掩码信号估计人声信号的方位信息,当外部噪声较大时,声源定位结果也能够准确地指向目标人声源,进一步提高了目标人声定位的精准度。

    2023-03-22
  • 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法
    基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法

    本发明公布了一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法。训练阶段,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦和余弦值,作为双向长短时记忆网络的输入特征。基于复空间角中心高斯混合聚类模型,计算各目标声源的掩蔽值,作为双向长短时记忆网络的训练目标,损失函数采用均方误差损失。测试阶段,根据双向长短时记忆网络输出的各目标声源在参考通道测试语音信号中的掩蔽估计值,计算多通道测试语音信号的协方差矩阵并进行广义特征值分解,基于各目标声源预期信噪比增益最大化准则,得到各目标声源的波束成形器系数,从而分离得到各目标声源。

    2023-03-22
  • 一种音频数据处理方法和预测方法
    一种音频数据处理方法和预测方法

    本发明涉及音频处理技术领域中的一种音频数据处理方法和预测方法,包括以下步骤:获取音频数据集,并将音频数据集进行预处理,得到预处理音频集;提取预处理音频集内的每一段音频的每一帧音频信号,并提取每一帧音频信号的特征语谱图集合,其中,特征语谱图集合包括两种以上的特征语谱图;归一化处理特征语谱图集合,并生成多通道特征;生成神经网络模型,并将多通道特征作为输入进行神经网络训练,解决了能够针对音频的多特征进行深度学习的问题。

    2023-03-22
  • 音频识别方法、装置、存储介质及电子设备
    音频识别方法、装置、存储介质及电子设备

    本申请公开了一种音频识别方法、装置、存储介质及电子设备,其中方法包括:将待识别音频输入音频识别模型,得到音频识别模型输出的音频识别结果;音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层;语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接;特征提取层用于提取待识别音频的声学识别特征;语音检测层基于声学识别特征确定待识别音频对应的待识别语音帧;唤醒词识别层基于声学识别特征确定待识别音频对应的唤醒词识别结果;命令词识别层基于声学识别特征确定待识别音频对应的命令词识别结果。本申请提供的方法和装置,减小了音频识别模型的网络尺寸和计算参数,提高了用户对于终端设备的使用体验。

    2023-03-22
  • 一种基于光电信息的木钢琴弹奏检测方法
    一种基于光电信息的木钢琴弹奏检测方法

    本申请涉及钢琴教学技术领域,尤其涉及一种基于光电信息的木钢琴弹奏检测方法。包括:安装传感器;通过传感器对对照弹奏过程进行采样,得到光电对照信号集;分别对每个光电对照信号进行强弱分析和节奏分析,得到光电对照信号分析结果,以及建立弹奏检测模型;通过传感器对实际弹奏过程进行采样,得到光电实际信号集;输入光电实际信号集至弹奏检测模型,所述弹奏检测模型以光电对照信号集为检测依据对光电实际信号集中每个光电实际信号进行强弱检测和节奏检测,输出弹奏过程中基于时序的关于琴键的检测结果。本申请的弹奏检测模型对是否准确按动琴键,以及按动琴键后时相应的光电实际信号的强弱和节奏进行检测,由此可实现全面检测。

    2023-03-22
  • 电动汽车轰鸣器
    电动汽车轰鸣器

    电动汽车轰鸣器,由汽车轰鸣声存储模块、音频信号护理模块、音频功率放大模块、声音播放器、扬声器和音量调节模块组成,汽车轰鸣声存储模块、音频信号护理模块和音量调节模块与声音播放器信号连接,音频功率放大模块与音频信号护理模块信号连接,扬声器与音频功率放大模块信号连接,音量调节模块安装在电动汽车的速度控制踏板上。与现有技术相比,本发明解决了驾驶员从开燃油汽车到开电动汽车的不适应,克服了电动车的无声效果造成的驾驶员容易犯困现象,避免了驾驶电动汽车的“假性”疲劳驾驶。

    2023-03-22
  • 基于深度学习的声音隔离方法、装置和存储介质
    基于深度学习的声音隔离方法、装置和存储介质

    本申请公开了基于深度学习的声音隔离方法、装置和存储介质,本申请的方法包括获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理;构建DeepAudioSep模型并训练所述DeepAudioSep模型,所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出;通过所述DeepAudioSep模型进行声音分离。本申请将数据驱动和深度学习思想引入声音分离及噪声隔离处理,提升在环境监测领域对于声音分离及噪声隔离处理能力,因此具有广泛的噪声处理前景及实用价值。

    2023-03-21
  • 语音识别的置信度估计方法、存储介质及电子设备
    语音识别的置信度估计方法、存储介质及电子设备

    本申请公开了一种语音识别的置信度估计方法、存储介质及电子设备。该方法包括:获取语音数据和文本数据;对语音数据进行特征提取,得到语音数据的声学特征;对声学特征进行长度预测和特征抽取,预测得到文本长度和语音特征,文本长度用于表征与语音数据对应的文本包含的字符的数量,语音特征的长度与文本长度相同;基于语音特征对语音数据和文本数据进行匹配,得到置信度估计结果,置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。本申请解决了相关技术中基于语音识别的置信度估计的准确度不高的技术问题,使得下游任务可以更好的基于置信度估计结果进行针对性的操作,帮助下游任务作出正确的判断。

    2023-03-21
  • 语音检测的方法、装置、电子设备及存储介质
    语音检测的方法、装置、电子设备及存储介质

    本发明实施例提供了语音检测的方法、装置、电子设备及存储介质,包括:将待检测的第一语音数据转换成文本数据;基于文本数据和预设关键词进行关键词检测,得到第一分值;将预设关键词转换成第二语音数据,并基于第一语音数据和第二语音数据进行语音特征检测,得到第二分值;经过归一化处理,得到目标第一分值和目标第二分值;基于目标第一分值对目标第二分值进行处理,得到第一语音数据的语音检测的检测结果。本发明可以将语音数据转换成文本数据,与预设关键词进行匹配,还可以将预设关键词转换成目标语音数据,与语音数据进行匹配,已解决只能对语音识别转写后的文本进行检索或者对语音进行检索,导致无法检索出语音中需要的全部信息的问题。

    2023-03-21
  • 一种基于时间序列卷积神经网络的歌曲评分方法
    一种基于时间序列卷积神经网络的歌曲评分方法

    本发明涉及一种基于时间序列卷积神经网络的歌曲评分方法。本发明歌唱质量评分模型以时间序列卷积神经网络TCN为主体,对音频声学特征和物理学特征进行序列分析,挖掘物理与声学特征序列和歌唱质量的潜在关联;设置了多个TCN残差模块,直接连接输入层与输出层,实现特征信息的跨层传递;以声学和物理学特征作为输入,以计算得到对应版本的歌唱质量评分为期望输出,训练模型。本发明通过收集不同翻唱版本的大众评价指标来训练模型,摒弃了以原唱为基准的评分思想,输出的评分更贴近大众主观感受;基于时间序列卷积神经网络,并分离人声音轨和伴奏音轨单独提取声学特征和物理学特征,提高了歌唱评分的伴奏无关性,评价更精准。

    2023-03-21
  • 音频处理方法、装置、计算设备及介质
    音频处理方法、装置、计算设备及介质

    本公开提供了一种音频处理方法、装置、计算设备及介质。通过响应于针对待处理音频序列的音量调整操作,基于待处理音频序列中目标音频帧对应的当前能量分布信息和历史能量分布信息,确定目标音频调整信息,以便基于目标音频调整信息实现音频处理。由于当前能量分布信息对应的是用户正在收听的音频帧,而历史能量分布信息对应的是用户过往收听过的音频帧,这些都是已经被用户所感知、接受并认可的,从而使得通过当前能量分布信息和历史能量分布信息确定出目标音频调整信息,并基于目标音频调整信息来实现对音频序列的调整,是可以满足用户的个性化听音需求的,进而使得本公开所提供的方案可以为用户提供自适应的个性化音频调整方式。

    2023-03-21
  • 婴幼儿需求的识别系统、方法、电子设备及存储介质
    婴幼儿需求的识别系统、方法、电子设备及存储介质

    本发明实施例公开了一种婴幼儿需求的识别系统、方法、电子设备及存储介质,婴幼儿需求的识别方法包括:获取历史声音数据,并对所述历史声音数据进行去噪处理;通过CNN神经网络对所述历史声音数据进行卷积得到第一语义特征;将所述第一语音特征输入transformer模型得到第二语义特征;对所述第二语义特征进行归一化处理,获得与所述第二语义特征对应的多组归一化语义特征;基于多组所述归一化语义特征构建多个训练样本集;基于所述训练样本集训练婴幼儿需求识别模型;将待识别的婴幼儿声音输入所述婴幼儿需求识别模型,得出婴幼儿的需求信息。该婴幼儿需求的识别方法改善了现有技术中无法通过婴幼儿的声音智能识别婴幼儿的需求的问题。

    2023-03-21
  • 一种语音信息处理方法和装置
    一种语音信息处理方法和装置

    本发明实施例公开了一种语音信息处理方法,所述方法包括:获取第一语音信息;对所述第一语音信息进行分析处理,得到所述第一语音信息的第一特征信息和第二特征信息;基于所述第一语音信息的第一特征信息和第二特征信息,判断所述第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与所述第一语音信息对应的操作。本发明实施例同时还公开了一种语音信息处理装置。

    2023-03-19
  • 语音识别方法、装置及电子设备
    语音识别方法、装置及电子设备

    本申请实施例提供了一种语音识别方法、装置及电子设备,其中,语音识别方法包括:获取待识别的语音帧数据对应的语音表征向量和说话人表征向量;对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量;根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人。通过本申请实施例,提高了语音识别和说话人标记的准确度。

    2023-03-16
  • 一种听障儿童发音水平测试方法、设备及存储介质
    一种听障儿童发音水平测试方法、设备及存储介质

    本发明提出的一种听障儿童发音水平测试方法,该方法包括:采集听障儿童的训练过程中一段时间内的发音数据集,并按训练时间顺序进行排序,然后将发音数据集按顺序依次进行预处理;将预处理后的发音数据集按顺序依次全部输入到聚类模型中进行聚类得到多组聚类簇,再将多组聚类簇分别输入到图神经网络知识追踪模型中进行单独训练后得到多组知识追踪模型;多组知识追踪模型接收新采集的听障儿童的发音数据依次进行预处理和聚类后,输出测试结果。此外,本发明还公开了相应的设备及存储介质。本发明通过对听障儿童学习过程中的学习数据进行个性化建模实现对听障儿童现有发音水平进行预测,同时也提高了知识追踪模型的个性化能力和时间动态特性。

    2023-03-16
  • 一种语音转文本的纠错方法、装置、设备及介质
    一种语音转文本的纠错方法、装置、设备及介质

    本申请提供一种语音转文本的纠错方法、装置、设备及介质。方法包括:将待纠错文本输入错误识别模型,以预测待纠错文本中字符的错误类型,待纠错文本是基于语音转文本生成的,错误类型包括语音转文本将单字符发音误转换输出为双字符的第一错误类型或将双字符发音误转换输出为单字符的第二错误类型。基于待纠错文本中字符的错误类型,对待纠错文本中的字符数进行修正,使原先属于第一错误类型的由同一单字符发音转换得到的双字符被替换为一个无语义字符,原先属于第二错误类型的由双字符发音误转换得到的单字符被替换为两个无语义字符;将字符数修正后的待纠错文本和字符数修正后的待纠错文本的音素序列输入至文本纠错模型,以预测正确的字符序列。

    2023-03-15
  • 一种莫尔斯自动识别模型的构建方法及自动识别方法
    一种莫尔斯自动识别模型的构建方法及自动识别方法

    本发明涉及一种莫尔斯自动识别模型的构建方法及自动识别方法,属于报文识别技术领域,解决了现有技术中莫尔斯自动识别模型准确率不高,识别结果需要大量人工矫正的问题。构建方法包括:获取莫尔斯语音数据集,对莫尔斯语音数据进行标注,得到标注后的数据集Dp’;对标注后的数据集Dp’进行预处理,得到包含原始语速数据和扩展语速数据的预处理后数据集Dp1;对所述预处理后数据集Dp1进行莫尔斯特征提取和特征扩展,得到由莫尔斯语音特征序列和其对应的字符序列构成的训练数据集Dt;利用所述训练数据集Dt对语音识别模型M进行训练,得到训练好的莫尔斯自动识别模型Mp。最终得到的莫尔斯自动识别模型准确率高、稳定性好、适应性强,可用于实战。

    2023-03-15
  • 一种定位方法、定位装置和计算机可读存储介质
    一种定位方法、定位装置和计算机可读存储介质

    根据本发明实施例提供的一种基于声纹场景指纹识别的定位方法、定位装置和计算机存储介质,获取定位环境声信息,定位环境声信息为所需定位终端所处位置的环境声声纹;将定位环境声信息输入预设的声纹场景识别模型,识别出定位环境声信息中的场景物体,得出对应的定位场景识别集;将定位场景识别集与预设的场景位置指纹数据库进行匹配;根据匹配结果确定定位场景识别集所对应的定位位置信息,定位位置信息用于确定定位终端当前所处的位置。通过获取定位终端所处的环境声信息,并将环境声信息输入到声纹场景识别模型中,得出定位场景识别集,根据定位场景识别集从场景位置指纹数据库中匹配出对应的位置信息,即可确定终端当前所处位置和场景。

    2023-03-14
  • 一种语音唤醒的方法、电子设备、可穿戴设备和系统
    一种语音唤醒的方法、电子设备、可穿戴设备和系统

    本申请提供了一种语音唤醒的方法、电子设备、可穿戴设备和系统,该系统包括电子设备和可穿戴设备,电子设备通过近距离无线连接与可穿戴设备通信,电子设备用于采集所处环境中的语音信号;电子设备还用于在语音信号满足预设条件时,向可穿戴设备发送查询请求,查询请求用于请求用户正在说话的信息;可穿戴设备用于向电子设备发送查询结果,查询结果包括用户正在说话的信息;电子设备还用于在根据用户正在说话的信息确定用户正在说话时,进入唤醒状态。本申请实施例,有助于提升电子设备进行语音唤醒时的准确度。

    2023-03-14
技术分类