乐器、声学

  • 应用于实时会话的语音响应方法、装置、介质及电子设备
    应用于实时会话的语音响应方法、装置、介质及电子设备

    本申请提供一种应用于实时会话的语音响应方法、装置、介质及设备,涉及计算机技术领域,该方法可以获取一种用于进行话语权预测的话语权预测模型,对会话过程中的第一用户语音进行话语权预测,若预测结果表征当前话语权属于系统端,则基于相应的系统语音来响应第一用户语音,若预测结果表征当前话语权属于用户端,则判定需要继续采集会话过程中的第二用户语音,即,通过话语权预测的结果来指导对话系统的操作,避免会话过程中出现抢话的问题,以及避免因针对不完整的用户语音生成回复语音而导致的答非所问的问题。

    2024-04-22
  • 语音控制方法、装置及车机语音控制设备
    语音控制方法、装置及车机语音控制设备

    本申请公开了一种语音控制方法、装置及车机语音控制设备。其中,该方法应用于车机语音系统,包括:从车机系统中获取目标信息,其中,目标信息中至少包括车机系统中的交互界面的界面信息;接收目标对象的语音指令;基于语音指令及目标信息确定目标对象的目标意图,并生成与目标意图对应的目标动作脚本;控制车机系统执行与目标动作脚本对应的操作。本申请解决了当前车机系统的语音服务难以提供可见即可说功能的技术问题。

    2024-04-22
  • 一种语音控制智能设备的方法和装置及移动终端
    一种语音控制智能设备的方法和装置及移动终端

    本申请涉及智能家居控制领域,公开了一种语音控制智能设备的方法和装置及移动终端,包括:通过拾音模块采集用户语音信息,并获取从不同无线接入点AP接收的信号;将用户语音信息转化为文本信息进行语义识别,确定用户的意图分类;将从不同AP接收的信号组成一个信号向量,输入预先根据从不同房间的位置测量点获取的信号向量建立的概率分类模型,确定概率最大的房间分类为用户所在的目标房间;根据意图分类确定目标房间内满足用户意图的至少一个智能设备,按照相应控制逻辑控制至少一个智能设备。本申请能够识别用户所在房间,根据用户语音判断出用户的真正意图,可以同时控制多个智能设备,不需要多轮交互,提升用户体验感。

    2024-04-22
  • 基于负面情绪的设备功能检测方法、装置、设备及存储介质
    基于负面情绪的设备功能检测方法、装置、设备及存储介质

    本发明提供一种基于负面情绪的设备功能检测方法、装置、设备及存储介质。检测方法通过使用视觉‑语音智能模型,将视频数据和语音数据的特征相结合,利用面部表情特征与文本特征协同识别用户负面情绪,提高了识别用户负面情绪微表情的准确率。并且,通过使用语音数据中特征项的变化来对视频进行热图渲染从而来获取用户微表情图像,判别方法简单,获取准确率高。收集引起用户负面情绪的设备功能信息,能够有效为后续设备功能的迭代改进提供第一手资料。

    2024-04-22
  • 一种自适应语音识别方法及系统
    一种自适应语音识别方法及系统

    本发明涉及一种自适应语音识别方法及系统,属于语音识别技术领域,解决了现有语音识别的自适应、个性化和语义理解不足的问题。包括:接收语音数据和业务信息,对语音数据预处理得到语音特征向量,对语音特征向量去除噪声后,通过语音端点检测,得到有效语音;基于业务信息提取有效语音的声纹特征,根据声纹特征获取说话人的语音片段;如果业务信息中不存在语种信息,则检测出说话人的语音片段对应语种;根据业务信息和预置的模型指标,计算出模型得分,根据模型得分和语种,将说话人的语音片段输入对应的训练好的语音识别模型,得到初始语音文本,对初始语音文本再次解码并进行后处理,得到最终的语音文本。实现了语音识别的自适应性和准确性。

    2024-04-22
  • 语音识别的特征提取方法及装置、电子设备和存储介质
    语音识别的特征提取方法及装置、电子设备和存储介质

    本公开公开了语音识别的特征提取方法及装置、电子设备和存储介质,将待处理语音信号输入SincNet网络,获取第一语音信号,所述SincNet网络包括预设数量的滤波器,所述第一语音信号包含预设数量的采样点;在分别获取所述采样点对应的幅度值的模平方之后,分别调用预设算法对所述第一语音信号进行计算,得到对应的第二语音信号,将所有所述第二语音信号按照频率范围进行组合,得到目标特征信号。本公开提供了一种将SincNet网络作为滤波器来提取目标特征信号的特征提取方法,可直接对提取到的目标特征信号进行数据增强操作,与相关技术中采用傅里叶变换提取目标特征信号的方法相比,避免了傅里叶变换的操作,简化了计算过程,节约了计算成本,减少了计算时间。

    2024-04-21
  • 语音合成的方法、装置、设备和计算机可读介质
    语音合成的方法、装置、设备和计算机可读介质

    本发明公开了语音合成的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:在合成文本中定位韵律短语,以在语音数据库中按照所述韵律短语匹配历史短语合成音频,得到匹配失败的韵律短语和匹配成功的韵律短语;将匹配失败的韵律短语输入声学模型,所述声学模型输出新建短语合成音频;以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频,构建并输出所述合成文本的语音。该实施方式能够提高语音合成的速度,保障实时流畅与用户交互。

    2024-04-21
  • 语音合成方法及装置
    语音合成方法及装置

    本说明书提供语音合成方法及装置,其中所述语音合成方法包括:获取包含主音素和副音素的拼音信息;将所述主音素和所述副音素输入至语音合成模型,并通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量;对所述主音素编码向量和所述副音素编码向量进行拼接,根据拼接结果生成基准音素编码向量和辅助音素编码向量;通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理,并根据解码处理结果生成所述拼音信息对应的音频片段。

    2024-04-21
  • 设备唤醒方法、存储介质及电子装置
    设备唤醒方法、存储介质及电子装置

    本申请公开了一种设备唤醒方法、存储介质及电子装置,涉及智能家居/智慧家庭技术领域,该设备唤醒方法包括:接收目标分组内至少一个终端设备在相应时刻发送的唤醒请求;在确定任一唤醒请求的接收时间超出目标时间窗口的情况下,若根据目标时间窗口内接收到的所有唤醒请求,确定在目标时间窗口内未接收到目标分组内所有终端设备发送的唤醒请求,则将目标时间窗口内接收到的唤醒请求中的唤醒能量值最大的终端设备作为待唤醒终端设备,并向待唤醒终端设备发送唤醒事件,以唤醒待唤醒终端设备。本申请实现对目标分组内的设备进行唯一唤醒,提高设备唤醒的准确率和用户的体验感。

    2024-04-21
  • 时序采样方法及装置、语音识别方法及装置
    时序采样方法及装置、语音识别方法及装置

    本申请提供了一种时序采样方法及装置、语音识别方法及装置,涉及人工智能技术领域。该时序采样方法包括:获取目标语音数据;基于目标语音数据,利用采样模型,确定目标语音数据的时序采样结果,其中,采样模型包括l层下采样网络和l层上采样网络,每层下采样网络包括并联的skip模块和下采样模块,每层上采样网络包括并联的skip模块和上采样模块,采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块,为目标语音数据匹配采样模型中的最优采样路径,l为大于1的正整数。通过本申请中的时序采样方法,能够提升对语音数据的声学特征的学习能力、以及建模粒度的适配度。

    2024-04-21
  • 一种语音增强方法、装置、设备及存储介质
    一种语音增强方法、装置、设备及存储介质

    本发明涉及语音处理技术领域,公开了一种语音增强方法、装置、设备及存储介质,该方法包括:将待处理音频段输入至预设分类模型,获得待处理音频段属于语音的概率和目标音频段,预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块;在概率大于预设第一阈值时,使用均方根方法确定目标音频段的音频能量;在音频能量大于预设第二阈值时,将目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型,然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量,并将音频能量大于预设第二阈值的目标音频段存入结果队列,相比于现有技术,有效提高了语音增强的质量。

    2024-04-20
  • 语音识别方法、装置、关键词检测模型的训练方法和装置
    语音识别方法、装置、关键词检测模型的训练方法和装置

    本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取待识别语音,并对待识别语音进行编码,得到编码特征;获取与识别业务相关的关键词,对关键词进行特征提取得到偏置特征;基于注意力机制融合编码特征和偏置特征得到目标特征,目标特征中包含与关键词相适配的信息;基于目标特征进行分类,得到建模单元的概率分布;根据建模单元的概率分布进行关键词识别,得到识别结果。采用本方法能够提高语音识别过程中关键词的检出率,从而提高语音识别的准确性。

    2024-04-20
  • 音频处理方法以及装置
    音频处理方法以及装置

    本发明公开了一种音频处理方法以及装置,该方法包括:确定与待处理音频相对应的至少一个音频片段,并确定至少一个音频片段中每个音频帧所对应的特征向量;将当前音频片段中所有音频帧的特征向量输入至预先训练得到的目标分类器中,以确定当前音频片段的分类结果;基于当前音频片段的分类结果,确定当前音频频段中为人声的位置信息集合;其中,位置信息集合中包括至少一个时序,时序中的第一个元素用于表示起始帧,第二个元素用于表征结束帧;基于各音频片段所对应的位置信息集合,确定至少一个时序的二级标签,以基于二级标签确定待处理音频中的目标内容。本发明实施例所提供的技术方案,实现了有效便捷对音频进行处理的技术效果。

    2024-04-20
  • 一种海南方言语音识别系统及装置
    一种海南方言语音识别系统及装置

    本发明涉及语音识别技术领域,公开了一种海南方言语音识别系统,包括特征提取模块和音素识别模块;特征提取模块通过对原始海南方言语音提取出各种语音特征,音素识别模块将所述语音特征依次通过卷积神经网络、残差网络、多头注意力机制以及长短期记忆网络组合而成的声学模型得到发音底层特征,通过全连接层映射到合适的维度,生成音素串;经过CTC损失函数计算预测的音素串与真实的音素串的差值,通过Ad‑am算法对模型中的参数进行优化,得到音素错误率;根据发音底层特征,利用海南方言发音底层特征进行方言语音识别。本发明能够有效提取不同方言特有的音素串发音底层特征,同时多种语音特征的融入使得方言语音识别性能得到大幅度提升。

    2024-04-19
  • 吸声装置
    吸声装置

    本申请涉及一种吸声装置,其包括壳体和超构吸声组件。壳体构造有具有开口的安装腔;超构吸声组件设置于安装腔内并与安装腔的腔壁连接,且超构吸声组件上构造有连通孔;超构吸声组件与安装腔的腔壁共同形成吸声腔。当通过本吸声装置对变电站或换流站这种特殊环境场所进行降噪时,由于超构吸声组件构造有连通孔,且超构吸声组件与安装腔的腔壁共同形成有吸声腔,因而吸声腔与连通孔连通并形成一个共振吸声结构,如此使得噪声的声波在进入本吸声装置时,能够在共振吸声结构中利用共振吸声原理进行吸声操作,从而使得噪声的分贝被有效降低,进而实现了降噪操作。本吸声装置的结构较为简单,因而造价成本较低,更加易于大面积推广使用。

    2024-04-19
  • 轻质、高承载通风隔声与宽频减振一体化超材料结构及系统
    轻质、高承载通风隔声与宽频减振一体化超材料结构及系统

    本发明公开了一种轻质、高承载通风隔声宽频减振一体化超材料结构及系统,该一体化超材料结构包括拉胀晶胞组件与卷曲空间组件;拉胀晶胞组件为中空结构,且拉胀晶胞组件上具有至少一个内凹型面;卷曲空间组件设在拉胀晶胞组件内,并在拉胀晶胞组件内围成至少一个卷曲通道,且拉胀晶胞组件上设有与卷曲通道连通的引波入口;拉胀晶胞组件的外壁上设有连接韧带,以连接其它超材料结构或拉胀晶胞组件。本发明应用于振动与噪声治理领域,能够有效解决如何在高承载、小尺寸条件下实现装备的低频宽带减隔振与通风、隔声多功能一体化设计的问题,为梁、板、壳等基础工程构件的多功能一体化设计提供经济、有效地技术支撑。

    2024-04-19
  • 一种基于声学隧道阵列的超宽带声波聚焦结构
    一种基于声学隧道阵列的超宽带声波聚焦结构

    本发明属于声学技术领域,具体涉及一种基于声学隧道阵列的超宽带声波聚焦结构;聚焦结构为多条长度相同的声学隧道组成的阵列,聚焦结构的入射面和出射面均为平面,且大小相同;每条声学隧道的边界由声学刚性材料构成,每条声学隧道内填充气体介质,每条声学隧道的边界上都存在周期性的凸起单元;在自由空间中,声波入射到该结构的入射面后,会在其出射面后的一定位置处产生明显声场焦斑,该结构对2kHz~21kHz的声波均能产生很好的聚焦效果。本发明最大特点是其超宽的频带宽度,在2kHz~21kHz之间都有明显的声波聚焦效果。

    2024-04-18
  • 对话语音片段的确定方法、装置及电子设备
    对话语音片段的确定方法、装置及电子设备

    本公开提供了对话语音片段的确定方法、装置及电子设备,涉及人工智能技术领域,尤其涉及自动驾驶、智能交通、自然语言处理、语音技术等技术领域。具体实现方案为:获取待处理的语音片段中各个语音帧对应的音频能量;根据语音片段内多个滑动窗口内各个语音帧对应的音频能量,确定多个滑动窗口中存在对话语音的目标滑动窗口;在多个滑动窗口中连续的多个目标滑动窗口的连续数量大于或者等于预设数量的情况下,将语音片段中连续的多个目标滑动窗口内语音帧所组成的片段,作为对话语音片段,从而能够有效地区分对话语音片段和噪声语音片段,避免对噪声语音片段进行识别处理,避免多轮对话过程中的对话重复或者对话中断,提高了对话效率。

    2024-04-18
  • 基于声学信号的水轮机初生空化预警方法
    基于声学信号的水轮机初生空化预警方法

    本发明公开了基于声学信号的水轮机初生空化预警方法,采集各工况运行参数下不同空化状态水轮机运行时的声学信号,对声学信号去噪处理,计算低频空化声学信号熵率和高频空化声学信号的信号瞬时能量值;构建水轮机工况运行参数与初生空化声学信号预警特征值之间关系的预测模型,通过水轮机工况运行参数空化声学信号熵率和高频声学信号的信号能量值对预测模型训练;采集工况运行参数已知、空化状态未知状态的实况声学信号,计算实况声学信号的熵率和能量值,将实况声学信号工况运行参数输入训练后的预测模型中获得熵率预警阈值与能量值的预警阈值;当计算信号的熵率或能量值指标超过相应预警阈值时,发出预警,精确实现水轮机初生空化预警。

    2024-04-18
  • 一种肠鸣音信号特征识别模型构建方法、装置及存储介质
    一种肠鸣音信号特征识别模型构建方法、装置及存储介质

    本发明涉及一种肠鸣音信号特征识别模型构建方法、装置及存储介质,应用于肠鸣音信号技术领域,包括:通过切比雪夫多项式对肠鸣音信号的声学特征进行逼近拟合,有效地捕捉信号的细节特征,降低了噪声对频谱拟合的影响,在此基础上,通过结合训练好的生理声音识别模型和训练好的声音识别模型,利用了生理声音的相似性,即生理声音预训练模型和一般声音预训练模型,能够从不同角度捕捉和理解肠鸣音信号,提高了识别的鲁棒性,最终得到的肠鸣音识别模型在处理具有不同特征和多样性的肠鸣音信号时具有较好的泛化性能和较强的鲁棒性能,同时能够有效的降低噪音的干扰,提高识别的精准度。

    2024-04-18
  • 基于语音识别车顶帐篷控制方法、系统、车辆及存储介质
    基于语音识别车顶帐篷控制方法、系统、车辆及存储介质

    本申请涉及汽车帐篷控制技术领域,尤其是涉及一种基于语音识别车顶帐篷控制方法、系统、车辆及存储介质。方法包括获取待识别语音信息并进行预处理,其中,预处理包括采用回声消除算法抑制采集的待识别语音信息音频信号中的车载环境自噪声;对预处理后的待识别语音信息进行分段处理以获得各语音片段,并提取各语音片段的声纹信息;根据提取声纹信息与预设的声纹数据库中语段进行匹配,判断对应的语音控制指令是否为车顶帐篷语音控制指令;若为车顶帐篷语音控制指令,根据车顶帐篷语音控制指令,对车顶帐篷进行自动化控制的动力液压系统进行控制实现开合,如此,实现对车顶帐篷打开或者折叠过程的强交互性及稳定性,提升用户的体验感。

    2024-04-18
  • 语音合成方法、装置、电子设备和存储介质
    语音合成方法、装置、电子设备和存储介质

    本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的目标文本,以及描述合成语音风格的风格文本;提取所述风格文本中的风格特征;基于所述风格特征,合成所述目标文本对应的目标语音。本发明提供的方法、装置、电子设备和存储介质,从风格文本中提取风格特征,并基于风格特征控制目标语音的合成,用户不需要具备语音知识,仅需以自然语言形式描述风格,即可完成个性化、自定义的语音合成,降低了语音合成的使用门槛,扩宽了语音合成的应用场景。并且,通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征,使得语音合成在多维度的约束控制下进行,保障了语音合成的灵活性和可控性。

    2024-04-17
  • 一种用于智能语音系统的伪装攻击方法及系统
    一种用于智能语音系统的伪装攻击方法及系统

    本发明公开了一种用于智能语音系统的伪装攻击方法及系统,通过将原始信号调整为采样率为r1的信号;根据目标系统采样率,计算重采样算法的阻带,根据获取的阻带,构造频谱在阻带上的噪声信号,将采样率为r1的信号进行能量缩小后与生成的噪声信号进行相加,从而生成伪装后的信号,本发明只需要了解目标系统的采样率,就可以生成伪装攻击样本,能在不了解模型任何信息情况下即可完成攻击,这大大增加了攻击算法的应用范围,本发明能够将普通的语音信号伪装成电流噪声,达到伪装攻击的目的;本发明验证了所提出的伪装攻击算法对于多种采样算法的有效性和普适性,即只需了解目标算法的输入采样率就可以进行攻击。

    2024-04-17
  • 一种智能双录核验方法、装置及电子设备
    一种智能双录核验方法、装置及电子设备

    本申请实施例提供了一种智能双录核验方法、装置及电子设备,其中,该智能双录核验方法通过获取用户基于目标链接的答复语音文件,将该答复语音文件转换为答复文字,并确定该答复文字是否满足预设的核验条件,若满足,则确定该答复语音文件核验通过。由于目标链接中携带有目标核验文件,答复语音文件是基于用户根据该目标核验文件进行答复生成的,由此,用户无需下载指定的APP客户端便可直接通过目标链接快速完成信息核验。故,选用本申请实施例有助于减少用户的操作以提高用户的使用体验。

    2024-04-17
  • 电子装置、其控制方法、以及该电子装置的声音输出控制系统
    电子装置、其控制方法、以及该电子装置的声音输出控制系统

    提供了电子装置、其控制方法、以及所述电子装置的声音输出控制系统。根据本公开的实施方式的电子装置包括:通信器,包括电路,配置为与服务器通信;以及至少一个处理器,其被配置为:控制电子装置提供声音,从服务器接收语音识别装置和位于语音识别装置周围的区域中的至少一个电子装置的识别信息,在提供声音的同时,从服务器接收通过语音识别装置接收到用户的语音命令的信息,基于从服务器接收的识别信息和电子装置的识别信息,确定语音识别装置和电子装置是否位于同一区域中,以及基于语音识别装置和电子装置位于同一区域中,改变从电子装置提供的声音。

    2024-04-17
  • 智能设备的语音唤醒方法、存储介质及电子装置
    智能设备的语音唤醒方法、存储介质及电子装置

    本申请提供了一种智能设备的语音唤醒方法、存储介质及电子装置,涉及智能家居/智慧家庭技术领域,该方法包括:在预设时间段内,接收智能设备集合中的每个待唤醒设备的语音唤醒信息,每个待唤醒设备的语音唤醒信息用于表示每个待唤醒设备所采集到的使用对象发出的语音唤醒指令;当智能设备集合包含的待唤醒设备的设备数量小于或等于智能设备集合包含的智能设备的设备数量时,根据每个待唤醒设备的语音唤醒信息,从智能设备集合中选取出待唤醒的目标设备;向目标设备发送第一指示信息,以指示目标设备进行唤醒,智能设备集合中除目标设备以外的其他未接收到第一指示信息的智能设备不进行唤醒。

    2024-04-17
  • 基于注意力机制的CRNN网络在麦克风唤醒中应用方法
    基于注意力机制的CRNN网络在麦克风唤醒中应用方法

    本发明涉及语音识别技术领域,具体涉及基于注意力机制的CRNN网络在麦克风唤醒中应用方法,该方法包括,建立端到端神经网络模型,网络模型由卷积神经网络、循环神经网络和注意力机制构成,输入特征经过卷积神经网络后得到输出特征,再经过循环神经网络计算各个时间步的隐藏状态,注意力机制选择更可能包含关键词的语音部分。本发明通过建立端到端的神经网络模型,将语音特征表示为更高维度的特征表示,并使用注意力机制选择更可能包含关键词的语音部分,并通过线性变换和softmax函数生成概率分布,实现关键词的识别,实现了小体积、高识别率的多分类KWS系统,并将其应用于麦克风唤醒控制中。

    2024-04-16
  • 语音MOS的测试方法、装置、设备及存储介质
    语音MOS的测试方法、装置、设备及存储介质

    本申请提供一种语音MOS的测试方法、装置、设备及存储介质。该方法包括:确定目标网络下的目标应用场景、初始语音MOS测试结果、第一语音MOS测试结果和第二语音MOS测试结果,初始语音MOS测试结果为使用第一测试设备进行语音模拟测试后得到的,第一语音MOS测试结果为使用第一测试设备进行语音测试后得到的,第二语音MOS测试结果为使用第二测试设备和第三测试设备进行语音测试后得到的,第二测试设备和第三测试设备不同;将第一语音MOS测试结果和第二语音MOS测试结果进行比对,得到测试差值;根据初始语音MOS测试结果、以及测试差值,得到目标语音MOS测试结果。本申请的方法,简化了语音MOS测试的设备投入,提高了语音MOS测试结果的准确性。

    2024-04-16
  • 行走部剩余寿命预测方法、装置及作业机械
    行走部剩余寿命预测方法、装置及作业机械

    本发明涉及工程机械领域,提供一种行走部剩余寿命预测方法、装置及作业机械,该方法包括:若目标行走部的当前运行时长大于或等于预设运行时长时,基于当前运行时长以及预设的特征预测模型,确定目标行走部在未来预设时刻的健康得分预测值;其中,特征预测模型是基于全生命周期的历史声纹数据在各时刻对应的健康得分生成的;基于目标行走部在未来预设时刻的健康得分预测值,以及目标行走部在各瞬态异常时刻的健康得分,确定目标行走部的剩余寿命。本发明能够有效保证行走部剩余寿命预测结果的准确性,进而能够有效降低作业机械运行过程中发生故障的风险,保障了作业机械作业过程中的可靠性和安全性。

    2024-04-16
  • 吹奏乐器的可折弯吹嘴结构
    吹奏乐器的可折弯吹嘴结构

    本发明涉及吹奏乐器配件技术领域,且公开了吹奏乐器的可折弯吹嘴结构,包括吹嘴壳体一,吹嘴壳体一的外部设置有折弯组件,折弯组件包括:接口一,固定于吹嘴壳体一的外壁上,接口一的外侧具有保护壳;转轴,活动的安装于保护壳的内部,转轴的内部安装有固定螺丝;吹嘴壳体二,滑动安装于吹嘴壳体一的外壁上,吹嘴壳体二靠近吹嘴壳体一一侧的外壁上开设有角度限位孔,接口一从角度限位孔中穿过,方便对吹嘴壳体二的角度进行调节,使用者可以灵活的调整到适合自己的姿势使用吹奏乐器,避免长时间保持一个姿势引起肌肉疲劳,提高了使用吹奏乐器时姿势的自由度。

    2024-04-16
  • 声学环境的编码和解码
    声学环境的编码和解码

    公开了用于对声学环境进行编码和解码的装置和方法。根据示例,提供了一种用于对声学环境进行解码的装置,该声学环境包括至少一个音频源和至少一个音频对象,该至少一个音频对象由结构声学数据表示,该结构声学数据将多边形的位置数据与声学材料的声学性质链接,其中,对于每个多边形,位置数据包括顶点的位置,该装置包括:比特流读取器,用于从比特流中读取由声学环境中的至少一个音频源生成的要被渲染的至少一个音频流和结构声学数据的编码版本;音频源解码块,用于对表示至少一个音频源的至少一个音频流进行解码;结构声学数据解码块,用于对结构声学数据进行解码。

    2024-04-16
  • 一种远端及自主实验机器人装置,管理系统及方法
    一种远端及自主实验机器人装置,管理系统及方法

    一种远端及自主实验机器人装置、管理系统及方法,包括机器人主控制系统(101)、机器臂动作规划模块(102)、摄像头视觉模块(103)、移动模块(104)、语音模块(105)、多媒体触摸屏模块(106)、扫码信息模块(107)、振荡器模块(108)、培养器模块(109)、加热/冷却/干燥模块(110)、萃取过滤结晶模块(111)、显微镜模块(112)、360度旋转台称/放大模块(113)和多传感器模块(114)。可实现远端,自主实验,监测,智能化识别数据,分析数据,远距离实验,隔离实验,广泛应用于生物实验,物理实验,医学实验,化学实验等多场景实验,检验。

    2024-04-16
  • 音频处理方法、装置、电子设备及存储介质
    音频处理方法、装置、电子设备及存储介质

    本申请公开了一种音频处理方法、装置、电子设备及存储介质,该音频处理方法包括:检测所述音频采集模块采集的音频信号中存在啸叫的子频带信号,作为第一子频带信号;基于所述第一子频带信号的啸叫参数,对所述第一子频带信号进行啸叫抑制处理,得到第二子频带信号,所述啸叫参数用于表征所述第一子频带信号的啸叫程度;将所述第二子频带信号与所述音频信号中除所述第一子频带信号以外的其他子频带信号进行混合,得到目标音频信号。本方法可以提升啸叫抑制效果。

    2024-04-15
  • 文本转换音频的方法、装置及计算机设备
    文本转换音频的方法、装置及计算机设备

    本申请实施例提供一种文本转换音频的方法、装置及计算机设备,所述方法包括:获取待处理文本;若待处理文本包含第一类标签,将第一类标签所标记的语句输入声学模型与声码器中,得到第一音频;对第一音频进行语速处理,得到第一目标音频;若待处理文本包含第二类标签,确定第二类标签对应的曲目的人声数据;将人声数据输入预设的声音转换模型,得到将人声数据替换为目标用户的声音数据的第二目标音频,声音转换模型根据目标用户录制的声音样本训练得到;基于根据第一类标签和/或第二类标签在待处理文本中的位置确定的播放顺序、第一目标音频和/或第二目标音频,生成待处理文本对应的第三目标音频。本申请能够有效地满足用户的个性化需求。

    2024-04-15
  • 实时语音转换方法、装置及电子设备
    实时语音转换方法、装置及电子设备

    本公开提供一种实时语音转换方法、装置及电子设备,该方法包括:获取第一用户的第一音频和目标音色的标识,所述第一音频以流式方式进行处理,所述第一音频的音色与所述目标音色不同;基于实时语音转换模型、所述第一音频和所述目标音色的标识,确定目标音频,所述目标音频的音色为所述目标音色,所述实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的,所述样本音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征;播放所述目标音频。提高实时语音的音色转换准确度。

    2024-04-15
  • 一种音视频的生成方法、装置、设备及存储介质
    一种音视频的生成方法、装置、设备及存储介质

    本申请实施例公开了一种音视频的生成方法、装置、设备及存储介质,该音视频的生成方法包括:获取针对采集到的语音数据反馈的回复语音数据和回复语音数据包含的音素,由于一个音素对应一个口型调整参数,可以获取各个音素对应的口型调整参数,基于音素中每两个相邻音素对应的口型调整参数,生成该每两个相邻音素对应的视频片段,按照音素在回复语音数据中的时序,将该每两个相邻音素对应的视频片段进行拼接,得到与回复语音数据匹配的数字人视频,基于该数字人视频和回复语音数据构建音视频,并播放该音视频。采用本发明实施例,使音视频的生成直接在前端完成,减小对网络频宽和后端服务器的效能需求,使数字人部署更容易、更能被广泛推广使用。

    2024-04-14
  • 一种利用超材料实现的指向性声源系统及指向性调节方法
    一种利用超材料实现的指向性声源系统及指向性调节方法

    本发明提供一种利用超材料实现的指向性声源系统及指向性调节方法,包括无指向声源和指向性装置,在圆柱体内部设置贯穿圆柱体的双层扇环腔,得到双层曲面共鸣器形式的指向性声源装置;然后利用多共鸣器耦合圆柱体结构调控声波,在较低的频率范围内激活出圆柱体结构单极子模式和偶极子模式相互耦合的共振模态,利用声源激发的圆柱体结构共振模态与声源本身相耦合相互作用,使得声波除在指定方向具有能量,其余方向均被抵消,从而实现声源在远场位置处的超指向性,为指向性声源制备提供了条件。

    2024-04-14
  • 语音交互方法、装置、设备、存储介质及车辆
    语音交互方法、装置、设备、存储介质及车辆

    本申请实施例提供了一种语音交互方法、装置、设备、存储介质及车辆,该语音交互方法包括:获取目标对象的第一情感特征信息,第一情感特征信息包括面部表情信息和声音信息中的至少一个;基于第一情感特征信息,从预设的情绪状态类型中筛选目标对象的目标情绪状态;根据预设的情绪状态类型与预设语音交互信息的对应关系,确定与目标情绪状态对应的目标语音交互信息;基于目标语音交互信息与目标对象进行语音交互。根据本申请实施例,可以实时监控目标对象的情绪情感状态,自动识别目标对象的情绪状态类型,提高情绪状态识别的准确率。根据目标对象的目标情绪状态确定目标语音交互信息,可以及时调整语音交互方式,并主动与用户沟通,提高了用户的体验。

    2024-04-14
  • 去混响方法、装置、设备及存储介质
    去混响方法、装置、设备及存储介质

    本申请提供一种去混响方法、装置、设备及存储介质。该方法包括:获取待处理的语音频域信号,并根据所述语音频域信号确定对应的语音频域特征信号;将所述语音频域特征信号输入至预设的神经网络模型中,输出混响抑制语音频域特征信号;根据混响抑制语音频域特征信号确定对应的预估混响频域信号;基于预估混响频域信号对所述语音频域信号进行滤波处理,以获取去混响的语音频域信号。本申请,将神经网络模型及滤波处理结合使用,将神经网络输出的结果进行滤波处理,能够有效地减少语音的畸变,提升后续的语音唤醒率和识别率。

    2024-04-14
  • 基于特征压缩和声纹信息自适应融合的语音提取方法
    基于特征压缩和声纹信息自适应融合的语音提取方法

    本发明公开了一种基于特征压缩和声纹信息自适应融合的语音提取方法、装置、存储介质及电子装置。该方法包括:通过深度神经网络实现目标语音提取,即获取带噪语音和注册语音,其中,注册语音与带噪语音中目标对象的语音是不同声音;进行短时傅里叶变换;在时频域进行提出的基于人耳听觉特征的特征压缩,分别得到第一、第二压缩特征;使用噪音编码器和注册编码器对第一、第二压缩特征分别进行编码和映射;使用提出的声纹信息自适应融合方法融合编码特征与映射特征;使用基于深度神经网络的编码器得到目标语音;解决了传统目标语音提取使用固定频率分辨率带来的问题以及目标对象动态声音特征变化的问题,提高了现有技术中提取的目标语音质量。

    2024-04-14
  • 一种语音转换方法、系统及存储介质
    一种语音转换方法、系统及存储介质

    本申请提供一种语音转换方法、系统及存储介质,通过识别待转换音频中的人物语音,通过端点检测技术从待转换音频中分离人物语音和背景音,并识别待转换音频中的人物语音,如果待转换语音中识别出至少两个不同人物发出的人物语音,则通过声纹识别模型在人物语音中识别出源人物语音,再通过语音转换模型将源人物语音转换为目标人物语音,最后将背景音、剩余的人物语音和目标人物语音拼接,得到转换后的音频。本申请通过在多个人物语音中识别出源人物语音,避免多个人物语音混淆源人物语音的语音转换,从而将背景音、剩余的人物语音和转换后得到的目标人物语音拼接,使得语音转换更加真实自然,提高语音转换后音频的场景还原度。

    2024-04-14
  • 一种基于大数据服务的信息采集设备及信息采集方法
    一种基于大数据服务的信息采集设备及信息采集方法

    本发明公开了一种基于大数据服务的信息采集设备及信息采集方法,涉及大数据服务技术领域,其技术方案要点包括数据采集模块,所述数据采集模块包括第一数据采集单元和第二数据采集单元;所述第一数据采集单元用于采集交流者正在与机器人进行语言交流时的基本信息;其中,所述基本信息包括语种信息、音质信息和语言情感信息;所述第二数据采集单元用于采集正在与机器人进行语言交流时所处环境的其他语言信息;效果是通过对交流者正在与机器人进行语言交流时的音质信息进行识别,通过对交流者的音质追踪后识别交流者的语言内容,从而机器人根据交流者的语言内容提供相关服务。

    2024-04-13
  • 一种基于时序情感信息建模的语音情感识别方法及系统
    一种基于时序情感信息建模的语音情感识别方法及系统

    本发明公开了一种基于时序情感信息建模的语音情感识别方法及系统,首先通过特征提取模块获取语音信号的对数短时离散傅里叶变换谱特征,鲁棒性更好,然后通过卷积模块进行时序编码并特征降维,循环神经网络模块进行长程依赖关系建模,Transformer编码器模块进行注意力增强,获取与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征,最后利用情感分类器模块判别出语音样本的情绪类别,本发明泛化性好、识别率更高。

    2024-04-13
  • 基于全局风格令牌和奇异谱分析的端到端语音合成方法
    基于全局风格令牌和奇异谱分析的端到端语音合成方法

    一种基于全局风格令牌和奇异谱分析的端到端语音合成方法,包括以下步骤:S1:输入文本;S2:文本预处理;S3:构造编码‑解码器网络;S4:训练编码‑解码器网络;S5:构造MelGAN声码器;S6:构造GST;S7:生成梅尔谱;S8:生成时域波形;S9:通过SSA对音频进行降噪。采用奇异谱分析的方法,解决了端到端语音合成模型合成的语音波形中偶现的毛刺问题;可以一定程度上降低合成语音中存在的背景噪声,同时采用了GST结构,能合成出不同风格的语音,达到语音风格多样化的目的,声码器部分采用了MelGAN结构,提高了语音合成的速度。相较于传统的语音合成方法,本发明的方法在自然度与质量上有所提高。

    2024-04-13
  • 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
    语音转换方法及语音转换模型的训练方法、电子设备和存储介质

    本发明公开语音转换方法及语音转换模型的训练方法、电子设备和存储介质,其中语音转换方法包括:使用预训练模型从源语音中提取语义特征;从引用语音中提取梅尔频谱特征,并使用一层卷积神经网络对所述梅尔频谱特征进行编码得到引用特征;将所述语义特征经过两个语义编码器,其中,两个语义编码器之间还包括辅助特征适配器,所述辅助特征适配器用于根据第一个语义编码器的输出进行PPE的预测;利用判别器对第二个语义编码器的输出进行上采样得到最终语音;其中,每个语义编码器均包括两个构词块,每个构词块包括自注意力模块、交叉注意力模块、卷积层和投影层,所述交叉注意力模块用于引入所述引用特征。

    2024-04-13
  • 承载与低频宽带隔声减振多功能超材料结构及复合超结构
    承载与低频宽带隔声减振多功能超材料结构及复合超结构

    本发明公开了一种承载与低频宽带隔声减振多功能超材料结构及复合超结构,该超材料结构包括至少一个超材料结构单元;超材料结构单元包括板壳隔声件、柔性隔声件与两个支撑结构件,支撑结构件间隔连接在板壳隔声件、柔性隔声件之间,围成两端开口的空腔;当超材料结构单元的数量为两个以上时,各超材料结构单元依次相连,各板壳隔声件形成一层板壳隔声部,各柔性隔声件形成一层柔性隔声部;相邻两超材料结构单元共用一支撑结构件,各支撑结构件间隔分布形成一层单向阵列化支撑结构部。本发明应用于噪声和振动治理领域,具有良好的低频宽带、高效的隔声减振性能,又具有高刚度的承载能力,具有广阔的工程应用前景。

    2024-04-11
  • 基于语音识别的诊疗文书生成方法及装置
    基于语音识别的诊疗文书生成方法及装置

    基于语音识别的诊疗文书生成方法及装置,预先存储医生的声纹信息,并将声纹信息对应的角色设置为医生角色;通过录音设备采集医生口述内容或医患对话语音,将采集的语音转换为指定格式的音频文件进行保存;采用自动语音识别算法,将采集的医生口述内容或医患对话语音转换为文本文字,将得到的文本文字作为语义理解模型撰写诊疗文书的基础数据;根据预设的医生角色的声纹信息,将医患对话语音进行医生角色和患者角色区分,并将得到的文本文字内容进行说话角色标注;采用语义理解模型对得到的文本文字内容进行分析、理解、标准化形成信息摘要,按照设定的格式样式输出诊疗文书。本发明无需改变诊疗行为习惯,极大提升病历文书撰写的效率和质量。

    2024-04-11
  • 一种基于智能语音识别的仪表数据管理系统及方法
    一种基于智能语音识别的仪表数据管理系统及方法

    本发明涉及仪表数据管理技术领域,具体为一种基于智能语音识别的仪表数据管理系统及方法,包括:仪表信息采集模块、数据库、数据存储分析模块、数据存储管理模块和仪表控制管理模块,通过仪表信息采集模块采集语音指令发布历史数据以及仪表控制历史数据,将采集到的全部数据传输到数据库,通过数据库存储接收到的全部数据,通过数据存储分析模块分析语音指令发布历史数据,对语音指令的删除进行判断,通过数据存储管理模块规划需要保留存储的语音指令数据,通过仪表控制管理模块通过发布保留存储的语音指令对仪表进行语音控制,提高了语音控制仪表的便利性,减少了无效语音数据的存储,节省了数据存储空间。

    2024-04-10
  • 多屏幕语音控制方法、装置、设备及计算机可读存储介质
    多屏幕语音控制方法、装置、设备及计算机可读存储介质

    本公开涉及一种多屏幕语音控制方法、装置、设备及计算机可读存储介质,本公开在接收实时语音及实时语音所属空间内的实时图像后,能够利用实时图像,在多个屏幕中检测发出实时语音的用户看向的目标屏幕;确定目标屏幕后,在目标屏幕当前显示的交互界面对应的目标控制指令集中查找与实时语音相匹配的目标控制指令,并控制目标屏幕执行查询到的控制指令,使得当用户通过可见即可说的方式对任一屏幕进行语音控制时,可以从多个屏幕中确定用户想要语音控制的目标屏幕,减少了无屏幕响应或响应屏幕与用户实际想要控制屏幕不符等误操作情况,提高了用户体验。

    2024-04-10
  • 一种业务意图识别方法、装置、设备及其存储介质
    一种业务意图识别方法、装置、设备及其存储介质

    本申请实施例属于金融科技技术领域,应用于客户业务意图识别场景中,涉及一种业务意图识别方法、装置、设备及其存储介质,包括获取坐席终端与客户终端间的历史对话录音,对历史对话录音进行文本转换,获得文本数据;采用预设的对话意图第一识别模型对所述文本数据进行意图识别;根据意图识别结果、文本数据和业务词典,构建训练样本;将训练样本输入预构建的基于ERN I E的对话意图第二识别模型,进行训练,获得训练完成的对话意图第二识别模型;获取待测对话数据,将待测对话数据输入训练完成的对话意图第二识别模型,获取第二识别结果,根据第二识别结果,预测目标客户的业务意图,提高客户业务意图预测准确性。

    2024-04-10
技术分类