乐器、声学

  • 音色提取、模型训练方法、装置、设备、介质及程序
    音色提取、模型训练方法、装置、设备、介质及程序

    本申请实施例公开了一种音色提取、模型训练方法、装置、设备、介质及程序,属于音视频领域。该方法包括:将M个初始音频输入至第一音色提取模型,以得到第一音色特征。将第一音色特征和N个第一媒体信息输入至第一音频合成模型,以得到N个第一合成音频。如果N个第一合成音频满足第一收敛条件,则将第一音色特征确定为第一对象的音色特征。其中,第一音色提取模型是通过用户关于N个第二合成音频的评价结果,对第二音色提取模型进行调整后得到。本申请实施例通过用户的评价结果对音色提取模型进行调整,相当于给用户定制了符合自身评价标准的音色提取模型,保证最终确定出的音色特征满足用户的实际需求。

    2024-03-20
  • 语音识别方法、装置、系统、计算机设备及存储介质
    语音识别方法、装置、系统、计算机设备及存储介质

    本申请公开了一种语音识别系统,包括特征提取模块,用于对待识别语音进行特征提取处理,得到待识别语音的声学特征;基于端到端CTC框架构建的声学模型,用于获取声学特征,并根据声学特征输出待识别语音对应的候选字的概率分数;语言模型,用于输出各个候选字组成的句子的概率分数;动态解码器,用于根据候选字的概率分数、句子的概率分数解码出待识别语音对应的语音识别文本。本申请可以提高语音识别精度。

    2024-03-20
  • 音频降噪方法、装置、电子设备及可读存储介质
    音频降噪方法、装置、电子设备及可读存储介质

    本申请公开了一种音频降噪方法、装置、电子设备及可读存储介质,属于音频处理技术领域。该方法包括:计算目标音频信号对应的目标长时信噪比和目标长时平稳度指标,所述目标长时平稳度指标用于指示目标音频信号中噪声的平稳程度;根据目标长时信噪比和目标长时平稳度指标,确定目标音频信号对应的目标声学场景;基于目标声学场景,对目标音频信号进行降噪处理。

    2024-03-20
  • 语音唤醒方法、装置、设备以及存储介质
    语音唤醒方法、装置、设备以及存储介质

    本公开提供了一种语音唤醒方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及语音语义技术领域。具体实现方案为:采集音频数据,对音频数据进行降噪处理,根据降噪后的音频数据的信噪比,确定唤醒参考信息,在根据第一唤醒词和唤醒参考信息确定满足唤醒条件的情况下,唤醒语音助手。如此,由于信噪比能够表征当前环境中人声数据与噪声数据之间的比例,因此,根据信噪比所确定的唤醒参考信息,能够更加贴合当前环境中的实际音频情况,进而利用该第一唤醒词与唤醒参考信息来唤醒语音助手,能够有效避免误唤醒的风险,提高了语音唤醒的准确性。

    2024-03-20
  • 信号处理方法、芯片、电子设备及存储介质
    信号处理方法、芯片、电子设备及存储介质

    本申请提供一种信号处理方法、芯片、电子设备及存储介质,该方法包括:获取输入信号,所述输入信号为多个麦克风接收到的语音信号;对所述输入信号中的第N帧进行协方差矩阵估计,得到所述第N帧的目标协方差矩阵;基于所述第N帧的目标协方差矩阵进行解混矩阵更新,得到所述第N帧的解混矩阵中的目标元素;基于所述第N帧的解混矩阵中的目标元素进行幅度解混,得到所述第N帧的目标解混矩阵;基于所述第N帧的目标解混矩阵及所述第N帧的输入信号进行信号分离,得到所述第N帧的输出信号。本申请提供的方法,有助于平衡盲源分离算法中的性能和鲁棒性,提升语音信号的信噪比。

    2024-03-20
  • 语音变调方法、存储介质及电子设备
    语音变调方法、存储介质及电子设备

    本发明涉及语音变调技术领域,公开了一种语音变调方法、存储介质及电子设备。语音变调方法包括:获取语音信号,每帧语音信号包括多个语音采样点,确定目标语音采样点的至少一类目标相位信息,目标语音采样点为多个语音采样点中的一个语音采样点,根据目标相位信息平滑调整目标语音采样点的幅值,得到变调语音信号。本实施例能够根据目标语音采样点的目标相位信息平滑调整目标语音采样点的幅值,如此可避免帧间不连续的现象出现,会使得变调语音信号变得更为自然。

    2024-03-20
  • 声纹识别方法及装置、电子设备、存储介质
    声纹识别方法及装置、电子设备、存储介质

    本发明公开了一种声纹识别方法及装置、电子设备、存储介质,涉及生物识别领域,其中,该方法包括:采集用户对象的声音,得到待识别语音;将待识别语音输入至目标声纹识别模型,输出声纹识别结果,其中,目标声纹识别模型的训练集包含有多语种的训练样本;基于声纹识别结果,分析待识别语音的语音特征,其中,语音特征至少包括:声纹所属语种和语音匹配度,语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库;在待识别语音属于指定声纹库的情况下,确定用户对象属于目标机构的员工。本发明解决了相关技术中,声纹识别系统仅仅采用单一类语言训练模型进行声纹识别,而不能对多语种进行有效识别的技术问题。

    2024-03-19
  • 用于流式文本的文本到语音合成的方法和系统
    用于流式文本的文本到语音合成的方法和系统

    公开了一种用于流式文本的语音合成的方法和系统。在文本到语音(TTS)系统中,可以接收具有起点和终点的实时流式文本串,并且可以累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串。初始点不早于起点并且在第一触发点之前,并且第一触发点不超过终点。TTS系统的标点模型可被应用于第一子串以生成预处理的第一子串,该预处理的第一子串包括添加了由标点模型确定的语法标点的第一子串。TTS合成处理可以至少应用于预处理的第一子串,以生成第一合成语音,并且产生第一合成语音的音频播放。

    2024-03-18
  • 一种音乐合成器与图形界面的交互方法
    一种音乐合成器与图形界面的交互方法

    本发明公开了一种音乐合成器与图形界面的交互方法,方法具体包括,音乐合成器的设置,建立音乐合成器上按键及旋钮的数字模型;图形界面的素材构建,包括利用代码绘制基本图形及若干个组合圆;设定组合圆的组合数目及组合内的位置;设定若干个组合圆之间的间距、运动形态、速度参数及摇摆区间参数;图形界面的功能设计,将界面中素材的运动状态与音乐合成器所能触发的频率间建立连接;将音乐合成器的按键及旋钮与图形界面的画面变化间建立连接,包括组合圆的运动、大小变化及颜色变换。本发明中简洁明了,易于上手,通过操控合成器上任意旋钮或按键均可在屏幕上实时直观的给出图形变化反馈,交互轻松有趣,能显著提高合成器的趣味性,利于推广。

    2024-03-18
  • 用于变分自动编码的音频表示
    用于变分自动编码的音频表示

    公开了适于用在变分音频编码中的用于表示音频的各种方法。一种方法包括:由计算系统维护具有不同谐振频率的多个谐振器模型的状态信息。该方法还包括:由计算系统针对时域中的一组音频样本中的多个相应样本迭代地执行多个不同操作。这些操作包括:基于样本振幅来更新多个谐振器模型的状态信息。这些操作还包括:确定经更新的多个谐振器模型的相应谐振器振幅和相位以及存储针对样本的相应谐振器振幅和相位变化信息。

    2024-03-18
  • 一种基于粒群优化的声学模型拓扑结构选择方法
    一种基于粒群优化的声学模型拓扑结构选择方法

    本发明《一种基于粒群优化的声学模型拓扑结构选择方法》属于语音识别和粒群优化的学科交叉领域。针对当前主要采用存在诸多缺点的经验式和启发式方法选择语音识别系统的声学模型拓扑结构的情形,本发明提出了一种将粒群优化算法的粒群位置编码为语音识别系统的声学模型拓扑结构集合,通过优化粒群位置获得语音识别系统优化的声学模型拓扑结构集合的新方法。相对于传统的经验式和启发式方法,本发明提出的方法能够通过更深入地优化语音识别系统的声学模型拓扑结构,为语音识别系统带来更高的识别率,因而在语音识别系统的创建过程中具有提高识别性能的重要作用。

    2024-03-18
  • 一种基于语音识别的外呼管理方法及装置
    一种基于语音识别的外呼管理方法及装置

    一种基于语音识别的外呼管理方法,包括:获取外呼通话内容,并将外呼对象的通话标记为第一通话,人工坐席的通话标记为第二通话;对所述第一通话进行第一实时语音监测和环境识别;对所述第二通话进行第二实时语音监测;其中,所述第二实时语音监测主要用于第二语音特征进行监测;所述第二语音特征包括对语调、语速、音量、服务关键词;根据第一预设模型对第一语音特征进行处理,并对人工坐席进行相应提醒。本发明提供一种基于语音识别的外呼管理方法及装置,通过对外呼对象和人工坐席的语音特征进行监测和处理,得到外呼对象的情绪和变化,根据第一预测模型可以为人工坐席提供相应的话术指导,从而可以提高人工坐席的效率与质量。

    2024-03-17
  • 一种消声结构
    一种消声结构

    本发明公开了一种消声结构,所述消声结构应用于高温工质的降噪过程,所述消声结构包括:消声结构本体;冷却系统,设置在所述消声结构本体上,所述冷却系统适于根据消声结构本体的温度状况控制消声结构本体的温度变化,以使消声结构本体具有高温环境的工作特性。当需要对消声结构进行降温时,可直接通过冷却系统对消声结构本体进行降温,进而实现对装置整体的降温。当本发明在高温介质的环境中使用时,可根据装置整体的温度状况,来选择性启动冷却系统,并可控制冷却系统中的冷却介质流量以控制降温程度,能够避免因温度过高而对消声结构本体造成损伤的可能性,能够把高温工质传递给消声结构的热量快速传递出去,防止消声结构被高温气流工质烧损。

    2024-03-17
  • 一种结合声子晶体的夹芯板结构
    一种结合声子晶体的夹芯板结构

    一种结合声子晶体的夹芯板结构,属于减振降噪技术领域,本发明为了解决现有声子晶体在低频范围内产生带隙时,存在尺寸大且带隙宽度窄的问题,本申请所述夹芯板结构包括上层薄板、下层薄板和M个中间夹心层,M为正整数,所述上层薄板与下层薄板上下相对设置,多个中间夹心层由上至下依次堆叠在上层薄板与下层薄板之间,且位于最上方的中间夹心层与上层薄板的下表面固定连接,位于最下方的中间夹心层与下层薄板的上表面固定连接,多个中间夹心层之间设有连接层,连接层的顶部与位于其上方的中间夹心层固定连接,连接层的底部与位于其下方的中间夹心层固定连接,中间夹心层包括多个声子晶体单元,多个声子晶体单元呈矩形方阵设置。

    2024-03-17
  • 一种利用咳嗽声检测肺部疾病的方法和装置
    一种利用咳嗽声检测肺部疾病的方法和装置

    本发明涉及一种利用咳嗽声检测肺部疾病的方法,所述方法具体包括:去除原始咳嗽音频中非咳嗽音片段,得到咳嗽音频,以及该咳嗽音频中各单个咳嗽片段的起始和结束时间;依据各单个咳嗽片段的起始和结束时间,分别生成各单个咳嗽片段对应的对数梅尔普矩阵,并分别计算各单个咳嗽片段对应的位置编码矩阵;依据各单个咳嗽片段对应的对数梅尔普矩阵和位置编码矩阵,得到所述咳嗽音频的特征矩阵;将咳嗽音频的特征矩阵归一化后乘比例因子,将得到的乘积与咳嗽音频的特征矩阵相加后输入分类网络分类。还涉及了装置,包括:咳嗽音检测单元、音频信号处理单元、拼接单元、归一化单元和分类网络单元。本发明的方法和装置,能够提高检测结果的准确度。

    2024-03-16
  • 基于环境上下文的命令消歧
    基于环境上下文的命令消歧

    本公开涉及基于环境上下文的命令消歧。在一个具体实施中,一种改变对象的状态的方法在包括图像传感器、一或多个处理器和非暂态存储器的设备处执行。该方法包括接收语音命令。该方法包括使用该图像传感器获得物理环境的图像。该方法包括基于与对象的对象标识符相关联地存储在该非暂态存储器中的该对象的视觉模型,在该物理环境的该图像中检测该对象。该方法包括基于该语音命令和该对象的检测来生成包括该对象的该对象标识符的指令。该方法包括实现该指令以改变该对象的状态。

    2024-03-16
  • 数据传输方法、装置、电子设备和计算机可读存储介质
    数据传输方法、装置、电子设备和计算机可读存储介质

    本发明实施例公开了一种数据传输方法、装置、电子设备和计算机可读存储介质;本发明实施例在获取待传输数据和当前环境噪声后,对当前环境噪声进行特征提取,得到当前环境噪声的音频特征,然后,基于音频特征,确定当前环境噪声的环境噪声类型,并将环境噪声类型添加至待传输数据,得到目标传输数据,将目标传输数据转换为音频数据,并播放音频数据,以便接收终端根据环境噪声类型在所述音频数据中获取待传输数据;该方案可以提升数据传输的传输成功率。

    2024-03-15
  • 一种声纹识别方法及控制设备
    一种声纹识别方法及控制设备

    本申请实施例公开了一种声纹识别方法及控制设备,该控制设备可以接收来自智能设备的认证请求,所述认证请求中包括第一语音数据;所述处理器被配置为对所述第一语音数据进行识别,获得加密的第一声纹信息;根据所述第一声纹信息和保存的第二声纹信息进行认证,得到认证结果。该方法实现了对用户的声纹信息的隐私保护,并在数据处理过程中保持了加密状态,能够在不影响声纹识别效率和准确率的情况下,提升用户隐私数据的安全性。

    2024-03-15
  • 一种减小噪声的发声乐器
    一种减小噪声的发声乐器

    本发明提供了一种减小噪声的发声乐器,包括鼓盘、鼓面与压盘,鼓盘的底部设置有用于连接固定支架的固定环,压盘与鼓盘通过压盘固定螺丝连接,压盘与鼓盘之间夹持固定有鼓面,鼓面下侧的鼓盘内固定有传感器感应鼓面震动,其特征在于,鼓盘的周向设置有延伸出的托杆,鼓盘与压盘上分别设置有弹性的缓冲连接件与下压件从上下两侧进行托杆的浮动夹持,通过对弹性的缓冲连接件与下压件从上下两侧进行托杆的浮动夹持,通过浮动夹持吸能,降低打击力向鼓盘与压盘的传导,减少共振,减低噪音,具有良好的发展前景。

    2024-03-14
  • 用于检测自适应系统中的发散的系统和方法
    用于检测自适应系统中的发散的系统和方法

    本公开涉及用于检测自适应系统中的发散的系统和方法。检测自适应系统中的发散包括以下步骤:确定误差信号在第一频率下的分量的功率,该分量与噪声消除信号相关,该噪声消除信号由自适应滤波器产生并且被配置为当被转换成声学信号时消除预定体积内的噪声,其中该误差信号表示该预定体积内的残余噪声的幅度;确定该误差信号的分量功率的时间梯度;以及将度量与阈值进行比较,其中该度量至少部分地基于该误差信号的分量功率的时间梯度在一个时段内的值。

    2024-03-14
  • 音频数据处理方法、装置及家电设备
    音频数据处理方法、装置及家电设备

    本申请公开了一种音频数据处理方法、装置及家电设备,其中,所述方法包括:获取第一基准能量值,所述第一基准能量值为基准设备在测试环境下监听测试音频时确定的能量值;在测试环境下监听所述测试音频,并确定监听所述测试音频时的能量值,作为原始能量值;基于所述第一基准能量值和所述原始能量值,计算针对所述待补偿设备的第一补偿值,所述第一补偿值用于修正所述待补偿设备在监听唤醒音频时确定的原始能量值。通过本申请提供的技术方案能够提高设备监听唤醒音频时回应唤醒音频的准确性。

    2024-03-13
  • 结合深度学习与聚类的轧机状态识别方法、装置及设备
    结合深度学习与聚类的轧机状态识别方法、装置及设备

    本发明公开了一种结合深度学习与聚类的轧机状态识别方法、装置及设备,方法包括:采集轧机在不同测点的一维音频信号,通过梅尔频谱分析转为二维频谱图;将二维频谱图划分为多个子块,对子块添加位置嵌入,输入至基于视觉自注意力模块构建的深度学习模型,通过二维卷积神经网络将子块的通道维度映射为类别;通过深度学习模型从二维频谱图中提取768维特征,再通过二分类算法生成不同轧机测点状态间的特征相似度矩阵;采用层次聚类算法将不同轧机测点的数据聚类,得到进一步划分的组别;基于组别对深度学习模型进行调整,以对轧机进行状态识别。本发明通过集成深度学习的自动聚类,能够有效提高深度学习轧机设备空负载状态音频识别的性能。

    2024-03-13
  • 一种便携式的多功能的乐器支架
    一种便携式的多功能的乐器支架

    本发明涉及乐器支架技术领域,具体涉及一种便携式的多功能的乐器支架,包括U型架,还包括压力稳定组件,设置在U型架的底部,包括外套管,外套管的内壁滑动连接有活动柱,活动柱远离U型架的一端固定连接有密封垫圈,外套管的外壁滑动连接有活动圆环,活动圆环的外壁等距铰接有一个伸缩支撑柱和两个固定支撑柱,外套管的内壁等距固定连接有三个伸缩套管组件,当活动柱向下滑动时伸缩套管组件伸开;倾斜稳定组件,用于在支架倾斜时增加支架稳定性。当支架放置乐器受到压力时使活动柱下压,外套管内形成正压将伸缩套管组件伸开继而将伸缩支撑柱和固定支撑柱撑开,增加了支架底部的三角面积,增加了稳定性,乐器越重则底部撑开越大越稳定。

    2024-03-13
  • 一种基于虚拟人进行人机交互的方法
    一种基于虚拟人进行人机交互的方法

    本发明公开了一种基于虚拟人进行人机交互的方法,包括控制系统、数据库、选取调用模块、语音处理模块、播音模块以及与控制系统通讯连接的下位设备;所述数据库内设有语音包数据集合;预先往语音包数据集合内传送多种不同性格的语音从而形成多个性格语音子集,用户选取喜好性格并通过录音模块与虚拟人物进行对话,从而丰富虚拟人物的性格属性表现能力,进而提高用户的满意度,每种虚拟人物形象包集合对应一个性格语音子集,通过选取调用模块调取出对应的虚拟人物形象包集合在显示面板上进行展示,从而提高虚拟人物的个性化展示能力。

    2024-03-13
  • 用于渲染的对象和环境相对水平控制
    用于渲染的对象和环境相对水平控制

    一种装置,包括被配置为执行以下操作的部件:获得对象轨道和环境轨道;获得控制值,该控制值被配置为控制对象轨道和环境轨道的相对水平;估计对象轨道与环境轨道之间的泄漏;基于控制值和泄漏,确定至少一个泄漏水平增益控制值;以及将至少一个泄漏水平增益值应用于对象轨道和环境轨道中的至少一项,至少一个泄漏水平增益值的应用使得经渲染的音频信号是基于将至少一个泄漏水平增益控制值应用于对象轨道和环境轨道中的至少一项。

    2024-03-13
  • 一种亚波长的宽带柱面声波吸收体
    一种亚波长的宽带柱面声波吸收体

    本发明属于声学降噪技术领域。涉及一种亚波长的宽带柱面声波吸收体,由N个吸收胞元环形阵列而成,4≤N≤20;其中,每一个所述吸收胞元包含M个具有不同共振频率的共振器环形阵列而成,2≤M≤10;所述吸收胞元包括前、后、顶、底、左、右六块板,各个板之间相互连接组成一封闭腔体;该封闭腔体由M‑1个隔板分隔以形成具有M个共振器的腔体,2≤M≤10;在每个共振器的两块隔板之间的前面板一上均设有开口用以形成声学共振;每个吸收元胞元之间通过左侧壁板一及右侧壁板一相互连接以形成吸收体。本发明的吸收体能高效地吸收频率范围为180~240 Hz的柱面声波,针对柱面声源产生的辐射噪声具有良好的宽频带抑制作用。

    2024-03-13
  • 一种多源异构噪声治理方法及其装置
    一种多源异构噪声治理方法及其装置

    本发明公开了一种多源异构噪声治理方法及其装置,将输入噪声分离成第一噪声和第一电力线信号,分析噪声特征并对电力线信号进行噪声危害评估,与危害阈值比较以判断危害等级,并将噪声特征输入噪声系数空间进行映射,获得噪声稀疏特征向量,与已有噪声特征稀疏向量进行稀疏逼近以确定噪声类型;对不同噪声危害等级、类别与噪声协同治理自主决策模块中存储的参数等进行训练获得初步治理结果,根据存在的不确定性因素进行进一步调整治理获得最终治理方案,将治理方案发送至噪声治理系统并做出对应的噪声治理。通过以上方法实现了基于噪声信息分析评估和历史治理做出协同治理自主决策,使噪声治理系统根据协同治理自主决策做出对应的噪声治理。

    2024-03-13
  • 具有声音调整能力的系统、方法和非暂态电脑可读储存介质
    具有声音调整能力的系统、方法和非暂态电脑可读储存介质

    具有声音调整功能的系统。该系统包括头戴式装置、第一扬声器和处理器。第一扬声器可从头戴式装置上拆卸下来。处理器用于检测头戴式装置和第一扬声器的多个位置和多个方位,以确定第一扬声器是否与头戴式装置分离。处理器还被配置为通过至少一个第一滤波器或至少一个第二滤波器来调变第一音频信号以生成滤波后第一音频信号。当第一扬声器耦合到头戴式装置时使用至少一个第一滤波器,并且当第一扬声器从头戴式装置分离时使用至少一个第二滤波器。滤波后第一音频信号被配置为用以驱动第一扬声器。藉此提供两种不同配置方式,耳机配置和扬声器配置,提高沟通效率。

    2024-03-13
  • 辅助调节乐器弦轴的装置
    辅助调节乐器弦轴的装置

    本发明公开了辅助调节乐器弦轴的装置,属于辅助调节乐器弦轴技术领域,该辅助调节乐器弦轴的装置包括调节架以及转动设置在调节架侧壁的安装部,所述调节架的底端开设有凹槽,且调节架的两端分别内转动安装有第一转轴和第二转轴,所述凹槽中转动设置有固定套接在第二转轴上的旋钮,所述第一转轴与第二转轴之间设置有啮合组件,且第一转轴上安装有连接管,所述安装部的侧壁设置有卡接部,所述调节架中内嵌设置有定位部,所述调节架中内嵌设置有定位部,且调节架的两端均开设有容纳槽。本发明结构合理,只需将卡接部与乐器弦轴规格适配,便可用于各类乐器的旋轴调节,不需损害乐器本身结构。而且可达到省力效果,精确度高,结构简单,可操作性强。

    2024-03-13
  • 多模型语音命令词的识别方法、系统、设备及储存介质
    多模型语音命令词的识别方法、系统、设备及储存介质

    本发明公开了多模型语音命令词的识别方法、系统、设备及储存介质,该识别方法包括如下步骤:基于需要支持的语音命令词划分后构建相应数量的模型以及各个模型支持的命令词;根据划分的结果得出系统运行时需要并行的模型最大数量,根据模型的最大数量创建线程池,加载需要运行的模型,每个模型从线程池中分配一个单独的线程;主线程对音频输入进行特征提取及公共部分的计算,其余的多个线程分别由对应模型的神经网络进行计算;当只有一个模型识别到命令词时,对误识别做过滤得到最终识别结果;当多个模型同一时间检测到命令词时,根据命令词的得分最高的作为最终的识别结果;本发明通过以命令词建的模型对语音命令词进行快速精准识别。

    2024-03-13
  • 音乐处理系统、音乐处理程序以及音乐处理方法
    音乐处理系统、音乐处理程序以及音乐处理方法

    本发明在以原曲为输入的情况下生成新制作的曲子。本发明涉及一种音乐处理系统。并且,本发明的音乐处理系统的特征在于,具有:乐曲生成单元,其使用学习模型来生成乐曲,所述学习模型是根据包含乐曲数据和构成信息的输入数据进行机器学习得到的,所述乐曲数据记述有由1通道以上的旋律和1通道以上的和弦构成的乐曲的乐谱,所述构成信息表示构成乐曲数据的乐曲的要素的属性;以及整形单元,其将乐曲生成单元所生成的生成乐曲整形为在音乐上和谐的内容。

    2024-03-12
  • 基于低秩双线性融合的线索语识别方法及系统
    基于低秩双线性融合的线索语识别方法及系统

    本发明公开了基于低秩双线性融合的线索语识别方法及系统,所述方法包括:获取数据集;构建线索语识别模型,提取当前时间步的短时运动特征与空间特征并进行堆叠,作为时空特征,将唇形时空特征与手形时空特征融合得到辅音特征,将唇形时空特征与手部位置时空特征融合得到元音特征,对融合得到的元音特征与辅音特征通过多模态注意力机制赋予不同的权重输入至序列识别模型中,序列识别模型输出最终的音素序列;利用数据集对线索语识别模型进行端到端的训练,得到训练好的线索语识别模型;将实时采集的线索语视频输入训练好的线索语识别模型,输出对应的因素序列;本发明的优点在于:特征提取过程简单,鲁棒性好,识别结果较为准确。

    2024-03-11
  • 一种应急会议系统设备运行可视化监测的方法及系统
    一种应急会议系统设备运行可视化监测的方法及系统

    本发明提供了一种应急会议系统设备运行可视化监测的方法及系统,采集目标会议室内多个位置的音频信号;检索各音频信号形成的混合信号,将其分离为多个音频通道,形成矩阵;针对每个音频通道设置缓冲区;控制音频数据输入与输出顺序,使各路通道的左右声道音频数据存入对应的从缓冲区,并将从缓冲区回调至主缓冲区;对主缓冲区的音频数据进行音量大小分析、回声检测、啸叫检测和底噪检测;对音频质量异常情况进行记录和显示。本发明以实现对音频处理器和扩声系统运行状态的检测,方便了运维人员对设备运行状态的监控,提高了运维效率。

    2024-03-11
  • 音频数据处理方法、装置、设备及计算机可读存储介质
    音频数据处理方法、装置、设备及计算机可读存储介质

    本申请涉及一种音频数据处理方法、装置、设备及计算机可读存储介质,属于音频处理技术领域,方法包括:对待处理音频流数据进行音频格式检测,并将待处理音频流数据存储至第一缓冲区,待处理音频流数据包括对应至少一种音频格式的多个待处理音频数据;对于任一待处理音频数据,获取待处理音频数据的音频格式对应的音频解码器,利用音频解码器对待处理音频数据进行解码,将生成的PCM数据存储至第二缓冲区;对从第二缓冲区中读取的多个PCM数据进行后处理,将生成的多个多声道数据存储至第三缓冲区;对从第三缓冲区读取的多个多声道数据进行通道排序,并将生成的多个音频通道数据存储至第四缓冲区。本申请能够减少音频数据处理卡顿、失真、失败的情况。

    2024-03-11
  • 车载多音区语音分离方法及电子设备和存储介质
    车载多音区语音分离方法及电子设备和存储介质

    本发明公开一种车载多音区语音分离方法、电子设备和存储介质,其中,一种车载多音区语音分离方法,包括:将获取的高保真音频与获取的房间脉冲响应数据进行卷积,得到混合信号和至少一个语音标签;基于所述混合信号和所述至少一个语音标签训练融合波束成形的网络模型;基于预设的仿真测试集测试所述融合波束成形的网络模型,判断所述融合波束成形的网络模型是否达到预设要求;若达到预设要求,基于所述融合波束成形的网络模型预测所述混合信号和所述至少一个语音标签的波束成形的权重,得到每一音区分离信号。

    2024-03-10
  • 一种基于语音控制的多端联动大屏控制系统及方法
    一种基于语音控制的多端联动大屏控制系统及方法

    本发明公开了一种基于语音控制的多端联动大屏控制系统及方法,所述基于语音控制的多端联动大屏控制系统包括移动端、服务器和显示端,所述移动端通过服务器与显示端相连;所述移动端内设置有联动控制APP,所述联动控制APP将操作指令,通过接口的方式发送至服务器;所述服务器接收移动端发送的指令,进行指令解析,并将需要的操作结果,发送至显示端,控制显示端根据操作结果进行显示。本发明提供一种基于语音控制的多端联动大屏控制系统及方法,实现大屏显示的移动化控制,通过用户语音远程控制大屏的界面切换和跳转。

    2024-03-10
  • 一种纠正语音识别中多音字的方法、装置、电子设备和存储介质
    一种纠正语音识别中多音字的方法、装置、电子设备和存储介质

    本发明实施例提供了一种纠正语音识别中多音字的方法、装置、电子设备和存储介质,涉及语音识别领域。所述纠正语音识别中多音字的方法包括:获取自动语音识别得到的第一文本;若所述第一文本中含有错误多音字和辅助关键词,则根据所述第一文本中的辅助关键词判断所述第一文本中的错误多音字是否需要替换,若是,则用与所述错误多音字对应的正确多音字替换所述第一文本中的错误多音字,得到第二文本。应用在车机中,达到纠正语音识别中错误多音字的目的。

    2024-03-10
  • 用于处理多声道音频信号的装置和方法
    用于处理多声道音频信号的装置和方法

    一种用于处理音频的装置包括:至少一个处理器,该处理器被配置为从比特流获得下混合音频信号,从比特流获得下混合相关信息,通过使用下混合相关信息来对下混合相关信息进行解混合,以及基于解混合的音频信号来重建包括至少一帧的音频信号。下混合相关信息是通过使用音频场景类型以帧为单位生成的信息。

    2024-03-10
  • 一种基于半监督语音情感识别框架的深度情感聚类方法
    一种基于半监督语音情感识别框架的深度情感聚类方法

    本发明涉及一种基于半监督语音情感识别框架的深度情感聚类方法,属于语音情感识别技术领域,对输入的语料库中的音频进行预处理;使用Attn‑Convolution网络对预处理后的语音数据在空间上进行特征提取;使用BiGRU网络对预处理后的语音数据在时间上进行特征提取;将提取出的语音特征使用ADD函数进行特征融合;在聚类分类器模块中对未标记的数据集进行伪标签分配;在情感回归器中对每个句子i的语音片段sij进行回归预测;使用新的CCC‑CE联合损失作为回归器与分类器模型的损失函数。有益效果在于,使用较少未标记数据的模型框架比现有的半监督框架实现了更好的语音表示,并且在下游任务中优于最先进的方法。

    2024-03-09
  • 基于DyCNN及Bi-LSTM并融合注意力机制的语音情感识别方法
    基于DyCNN及Bi-LSTM并融合注意力机制的语音情感识别方法

    本发明请求保护一种基于DyCNN及Bi‑LSTM并融合注意力机制的语音情感识别方法。包括以下步骤:S1,将语音信号进行预加重、分帧、加窗等预处理,经过MFCC特征提取得到Mel谱特征;S2,然后将谱图输入到动态卷积神经网络中,提取动态的情感特征;S3,将动态情感特征输入到双向长短期记忆网络中,针对上下文联系提取全局情感特征;S4,采用注意力机制对网络学习得到的一句语音信号中的情感特征生成时间分布上的权重,与特征图进行加权求和,以给不同特征区域分配不同的注意力权重;S5,将最终的情感特征输入Softmax分类器中进行分类。本发明能够更加有效的对情感特征进行分类,对情感识别精确度上有一定程度上的提高。

    2024-03-09
  • 乐器
    乐器

    乐器具备:固定部件;可动部件,根据乐器的演奏动作从位于初始位置的第一状态向第二状态相对于所述固定部件位移;被检测电路,设置于所述可动部件,具有磁性体或导体;以及检测电路,具有配置于所述固定部件的线圈,输出成为与所述被检测电路和所述线圈之间的距离对应的电压的检测信号,所述第一状态下的所述被检测电路和所述线圈之间的距离比所述第二状态下的所述被检测电路和所述线圈之间的距离短。

    2024-03-09
  • 一种确定鼾声信号的方法、装置、电子设备和存储介质
    一种确定鼾声信号的方法、装置、电子设备和存储介质

    本发明提供一种确定鼾声信号的方法、装置、电子设备和存储介质,属于信号处理领域。方法包括:获取声音信号,并对所述声音信号进行人声段检测,并在目标人声段之前检测到至少两个人声段;若在所述声音信号中检测到目标人声段的起始帧,则在所述目标人声段中确定第一当前帧是否为鼾声段起始帧;如果确定出鼾声段起始帧,则从所述鼾声段起始帧的下一帧起确定鼾声段结束帧;将所述鼾声段起始帧和所述鼾声段结束帧之间的声音信号作为鼾声信号。采用本发明,可以在嵌入式系统上实现实时的鼾声信号检测。

    2024-03-09
  • 基于生成式预训练GPT模型的交互意图信息确定方法
    基于生成式预训练GPT模型的交互意图信息确定方法

    本申请公开了一种基于生成式预训练GPT模型的交互意图信息确定方法,涉及智慧家庭技术领域,该基于生成式预训练GPT模型的交互意图信息确定方法包括:获取目标对象与智能语音设备进行交互时的原始交互信息;将原始交互信息输入至目标生成式预训练GPT模型,并通过目标生成式预训练GPT模型中的N个编码器中的各个编码器对原始交互信息进行编码,得到N个编码特征向量;基于N个编码特征向量,得到合并特征向量;通过目标生成式预训练GPT模型中的解码器对合并特征向量进行解码,得到目标解码结果;根据目标解码结果,确定目标对象的交互意图信息,采用上述技术方案,解决了如何准确识别用户交互意图的技术问题。

    2024-03-09
  • 一种面向语音识别模型的动态掩码方法
    一种面向语音识别模型的动态掩码方法

    本发明公开一种面向语音识别模型的动态掩码方法,步骤为:对语音数据集中原始音频输入进行声学特征提取,将原始的不定长时序信号转换成特征向量表示,使声学信号由非平稳参数信号变为阈值范围内的平稳信号,得到音频对应的帧级特征序列;对帧级特征进行编码,使用CTC进行序列建模,将识别为空帧所对应的特征向量掩码为0;定义二分函数避免神经网络的行为不稳定和CTC计算问题;将二分函数处理后的表示传递给语音识别模块,完成建模,最终实现动态掩码。本发明在编码过程中借助CTC的尖峰特性来检测空帧,同时解决了掩码输入后无法计算CTC的问题,从而缩短序列的长度,减少计算资源;同时可以有效的借助CTC来帮助模型收敛。

    2024-03-09
  • 混合文本到语音
    混合文本到语音

    一种用于从用户应用接收文本数据的混合文本到语音(TTS)系统的系统和方法;确定所接收的文本数据从该高速缓存中丢失;向远程TTS引擎并向设备中的TTS引擎两者发送所接收的文本数据;从该远程TTS引擎和该设备中的该TTS引擎两者接收语音数据;以及基于选择策略来选择或组合来自该远程TTS引擎或该设备中的该TTS引擎的语音数据。该语音数据被传送到该用户应用。

    2024-03-09
  • 用于大噪声设备上的语音唤醒方法及系统
    用于大噪声设备上的语音唤醒方法及系统

    本发明涉及用于大噪声设备上的语音唤醒方法及系统,包括以下实施步骤:先准备用于训练语音唤醒模型的训练数据,然后对训练集中的加噪音频信号进行特征提取,在完成预加重、分帧、加窗、离散傅里叶变换、梅尔三角滤波器滤波并取对数后,每一帧的音频信号提取到40维的Fbank特征。该用于大噪声设备上的语音唤醒方法及系统,通过在模型训练时除了常规的分类目标外,还额外添加了新的目标,即让噪声样本特征和干净样本特征在输入到语音唤醒模型后,模型中间层得到相近的输出,神经网络模型本身能够将带噪特征处理为和干净特征相似的中间结果,即模型本身对噪声有较强的鲁棒性,因此,相对于过去的数据增强配合前端降噪模块的语音唤醒方。

    2024-03-08
  • 说话人日志提取方法及系统
    说话人日志提取方法及系统

    本发明提供一种说话人日志提取方法及系统,包括:对音频与视频分别进行预处理,并分别提取模态对齐后的音频数据及各说话人视频数据的初始语义表征;利用视频的语义信息得到说话人活跃片段的粗略划分,并由此提取说话人的声学特征;根据语义信息及说话人特征对各模态进行帧级别的不确定性建模,对音频和视频的质量进行评估;利用置信度分数指导音频和视频模态语义表征的融合,得到融合后的各说话人音视频语义信息流;解码器根据融合后的各说话人音视频语义信息流对各说话人各个时刻的活跃状态分别进行估计。本发明利用置信度分数来指导不同模态信息的动态融合,相较于其他方法对带噪片段有着更好的鲁棒性,同时对多通道音频也具有良好的兼容性。

    2024-03-08
  • 终端设备及语音唤醒方法
    终端设备及语音唤醒方法

    本申请提供一种终端设备及语音唤醒方法,所述终端设备包括声音采集器、第一处理器和第二处理器,第一处理器可以响应于用户输入的唤醒语音,对唤醒语音进行特征提取,提取唤醒语音的语音特征值,并向第二处理器发送语音特征值,其中,语音特征值为包含唤醒词的频谱特征,频谱特征由唤醒语音经过语音信号处理得到,第二处理器可以响应于第一处理器发送的语音特征值,对语音特征值进行校验,以及在校验成功时,控制终端设备开启语音交互功能。所述方法可以将在唤醒语音中提取的语音特征值进行缓存,在唤醒词二次校验时,直接传输语音特征值进行二次校验,以降低占用的存储空间,提高唤醒响应速度。

    2024-03-08
  • 语音意图识别方法、装置、电子设备及存储介质
    语音意图识别方法、装置、电子设备及存储介质

    本发明涉及人工智能技术领域,提供一种语音意图识别方法、装置、电子设备及存储介质,在接收到语音的意图识别指令后,通过在现有的预训练语言模型的MLM任务基础上,获取所述语音的转译文本及获取与所述转译文本对应的转写文本,易混淆词(如寿险和首先)的词向量在词向量空间中会被拉近,从而使词向量除了包含语义信息外,也包含了语音信息。包含转译错误的转译文本和正确的转写文本之间的差异被缩小,进而基于相似文本对对预训练语言模型进行微调得到的意图识别模型,对语音转译错误的鲁棒性更强,提升了整体意图识别的准确率。

    2024-03-08
  • 倦怠检测预警方法、系统及计算设备
    倦怠检测预警方法、系统及计算设备

    本发明公开了一种倦怠检测预警方法、系统及计算设备。该方法、系统和计算设备通过采集用户语音生成语音信号,对接收到的语音信号进行识别转换为文本信息,对文本信息和语音信号时间对齐,获得保持一致序列长度的词序列和音频序列,然后将音频序列转换为Mel语谱图,最后利用所述词序列和所述Mel语谱图,通过预训练多模态深度学习模型计算用户倦怠概率并反馈预警。本发明通过运算识别用户注意力状态确定用户的倦怠风险并向用户或管理人员预警,检测方法客观有效,能够实现较好的倦怠风险预警效果。

    2024-03-07
技术分类