掌桥专利:专业的专利平台
掌桥专利
首页

车载多人实时智能语音交互系统

文献发布时间:2024-04-18 20:02:18


车载多人实时智能语音交互系统

技术领域

本发明涉及车载智能语音技术领域,尤其涉及一种车载多人实时智能语音交互系统。

背景技术

车载语音识别是车载智能语音的重要组成部分,它利用语音识别技术,将用户的语音指令转化为文字,再通过自然语言处理技术理解用户的意图,从而实现对车辆的控制和查询等功能。车载语音识别技术具有高效、方便、安全等特点,为用户提供了更加智能、便捷的驾驶体验。

但是传统的单麦克风语音识别系统在车载场景中存在一些局限性,容易受到周围环境噪声的干扰,难以实现远距离的语音识别,导致智能车机可能错误地识别目标用户的指令,从而降低了用户的体验。

发明内容

本发明的目的在于提供一种车载多人实时智能语音交互系统,旨在解决现有传统的单麦克风语音识别系统在车载场景中存在一些局限性,容易受到周围环境噪声的干扰,难以实现远距离的语音识别,导致智能车机可能错误地识别目标用户的指令,从而降低了用户的体验的技术问题。

为实现上述目的,本发明采用的一种车载多人实时智能语音交互系统,包括声音采集模块、多通道语音增强模块、语音识别模块、自然语音处理模块和语音合成模块,所述多通道语音增强模块与所述声音采集模块连接,所述语音识别模块与所述多通道语音增强模块连接,所述自然语音处理模块与所述语音识别模块连接,所述语音合成模块与所述自然语音处理模块连接;

所述声音采集模块用于对声源进行采集,得到多通道音频数据;

所述多通道语音增强模块用于将采集的多通道音频数据进行多通道自注意力语音增强,提取降低多通道导致的定位延迟与混响特性,基于多通道输入背景影响关联性,减少场景噪声;

所述语音识别模块用于通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类;

所述自然语音处理模块用于进行实时语音识别将说话人音频进行语音转文字;

所述语音合成模块用于将转换后的实时转换文字按目标说话人声源进行人机交互处理,并通过语音合成技术进行回复。

其中,所述多通道语音增强模块通过每个通道的语音信号进行短时逐帧分析,针对每个短时语音框,计算其能量值,具体计算公式为:

Ep(t)=log(∑n=0N-1|x(n+tT)|2);

其中,Ep(t)表示第p个通道在t时刻的短时能量,x(n)是语音信号的采样值,T是帧长,N是每个语音框内的采样点个数。

其中,所述多通道语音增强模块获得完整多通道语音讯号的短时能量曲线后,需要设定一个能量差阈值Th,设定两个连续短时能量帧间的差值为:

ΔEp(t)=|Ep(t)-Ep(t-1)|;

将ΔEp(t)与阈值Th进行比较,若ΔEp(t)>Th,则认为t时刻存在语音活动。

其中,所述语音识别模块包括特征提取单元、嵌入层、Encoder单元、Decoder单元和预测头,所述特征提取单元与所述多通道语音增强模块连接,所述嵌入层与所述特征提取单元连接,所述Encoder单元与所述嵌入层连接,所述Decoder单元与所述Encoder单元连接,所述预测头与所述Decoder单元连接;

所述特征提取单元用于对每个说话人语音片段进行时频特征提取;

所述嵌入层用于features序列作为网络输入通过学习,投影到低维空间,后续建模奠定基础;

所述Encoder单元用于提取全局语义特征;

所述Decoder单元用于将全局语义特征转化为实际的语音输出;

所述预测头用于预测序列。

其中,所述Encoder模块的数量为多个,且每个所述Encoder模块内有两种注意力操作,包括交叉注意力和自注意力。

其中,所述声音采集模块包括多个分布式麦克风,利用多个分布式麦克风对声源进行采集。

本发明的一种车载多人实时智能语音交互系统,使用车载语音时,通过所述声音采集模块对声源进行采集,得到多通道音频数据,所述多通道语音增强模块从输入的多通道音频数据进行多通道自注意力语音增强,提取降低多通道导致的定位延迟与混响特性,基于多通道输入背景影响关联性,减少场景噪声,随后所述语音识别模块通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类,利用所述自然语音处理模块进行实时语音识别将说话人音频进行语音转文字,最后所述语音合成模块将转换后的实时转换文字按目标说话人声源进行人机交互处理,并通过语音合成技术进行回复,通过上述方式,实现了能够提高语音的识别率,减少噪声干扰,更准确的远距离语音识别,提升了用户的体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明的车载多人实时智能语音交互系统的原理示意图。

图2是本发明的车载多人实时智能语音交互系统的语音识别模块的原理示意图。

101-声音采集模块、102-多通道语音增强模块、103-语音识别模块、104-自然语音处理模块、105-语音合成模块、106-特征提取单元、107-嵌入层、108-Encoder单元、109-Decoder单元、110-预测头。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

请参阅图1和图2,本发明提供了一种车载多人实时智能语音交互系统,包括声音采集模块101、多通道语音增强模块102、语音识别模块103、自然语音处理模块104和语音合成模块105,所述多通道语音增强模块102与所述声音采集模块101连接,所述语音识别模块103与所述多通道语音增强模块102连接,所述自然语音处理模块104与所述语音识别模块103连接,所述语音合成模块105与所述自然语音处理模块104连接;

所述声音采集模块101用于对声源进行采集,得到多通道音频数据;

所述多通道语音增强模块102用于将采集的多通道音频数据进行多通道自注意力语音增强,提取降低多通道导致的定位延迟与混响特性,基于多通道输入背景影响关联性,减少场景噪声;

所述语音识别模块103用于通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类;

所述自然语音处理模块104用于进行实时语音识别将说话人音频进行语音转文字;

所述语音合成模块105用于将转换后的实时转换文字按目标说话人声源进行人机交互处理,并通过语音合成技术进行回复。

在本实施方式中,使用车载语音时,通过所述声音采集模块101对声源进行采集,得到多通道音频数据,所述多通道语音增强模块102将采集的多通道音频数据利用基于Transformer的多头自注意力机制进行多通道语音增强,提取降低多通道导致的定位延迟与混响特性,基于多通道输入背景影响关联性,减少场景噪声,(具体而言,输入的多通道语音首先进行STFT时频变换,提取每个时频单元的短时傅立叶变换特征,形成输入特征矩阵,然后,采用多头注意力结构提取特征之间的相关性,每个注意力头都会学习通道之间在时频上的关联权重,构建通道间协同关系),随后所述语音识别模块103通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类,(本模块采用端到端的深度学习方法,对每个说话人的语音进行自动识别,实现语音到文字的转换,主要技术采用结合注意力机制的自适应Transformer模型),利用所述自然语音处理模块104进行实时语音识别将说话人音频进行语音转文字,(根据所述多通道语音增强模块102的输出结果确定目标说话人的位置和方向,接着,将多通道语音识别结果传递给自然语言处理模型,用于分析和理解用户的问题或指令,自然语言处理模型应用命名实体识别、关键词提取、语义分析技术,帮助理解用户的意图并提取有用信息,根据用户需求,自然语言处理模型进行处理,执行相应操作,最后,通过语音合成技术将处理结果合成语音,以自然流畅的语音回复用户),最后所述语音合成模块105将转换后的实时转换文字按目标说话人声源进行人机交互处理,并通过语音合成技术进行回复,通过上述方式,实现了能够提高语音的识别率,减少噪声干扰,更准确的远距离语音识别,提升了用户的体验。

进一步地,所述多通道语音增强模块102通过每个通道的语音信号进行短时逐帧分析,针对每个短时语音框,计算其能量值,具体计算公式为:

Ep(t)=log(∑n=0N-1|x(n+tT)|2);

其中,Ep(t)表示第p个通道在t时刻的短时能量,x(n)是语音信号的采样值,T是帧长,N是每个语音框内的采样点个数。

进一步地,所述多通道语音增强模块102获得完整多通道语音讯号的短时能量曲线后,需要设定一个能量差阈值Th,设定两个连续短时能量帧间的差值为:

ΔEp(t)=|Ep(t)-Ep(t-1)|;

将ΔEp(t)与阈值Th进行比较,若ΔEp(t)>Th,则认为t时刻存在语音活动。

在本实施方式中,所述多通道语音增强模块102通过语音活动检测、说话人声纹特征提取以及多通道说话人切分,来有效提升多通道语音环境下的信噪比及质量,其中,在语音活动检测中,利用经典的基于短时能量差异检测的方法,实现对对齐后的多通道语音进行自动语音段分割,具体来说,首先对每个通道的语音信号进行短时逐帧分析,一般设置256个的帧长度,与64个采样点的帧移采样语音,获得每个通道的一系列短时语音框。然后,针对每个短时语音框,计算其能量值。这里采用短时对数能量作为每个语音框的能量表示。具体计算公式为:

Ep(t)=log(∑n=0N-1|x(n+tT)|2)

其中,Ep(t)表示第p个通道在t时刻的短时能量,x(n)是语音信号的采样值,T是帧长,N是每个语音框内的采样点个数。采用此公式对多通道语音的每个短时框进行循环计算,获得完整多通道语音讯号的短时能量曲线。接着需要设定一个能量差阈值Th。以帧内短时能量的差异来判断是否存在语音活动。设定两个连续短时能量帧间的差值为:

ΔEp(t)=|Ep(t)-Ep(t-1)|

然后将ΔEp(t)与阈值Th进行比较,若ΔEp(t)>Th,则认为t时刻存在语音活动,进一步,将多通道语音活动检测结果进行捆绑判断。当同一时刻多半数以上的通道检测到语音活动时,则认为此时整个多通道语音中存在语音。利用这个方法,能够准确找到多通道语音中的语音段开始和结束时间,实现语音段的自动分割;同时在说话人声纹特征提取中,在得到每个语音段的时间范围和解析出时域特征后,通过采用深度学习方法建立说话人声纹模型;另外在多通道说话人切分中,利用深度学习建立通道关注力机制,自动实现多人语音的精准切割。

进一步地,所述语音识别模块103包括特征提取单元106、嵌入层107、Encoder单元108、Decoder单元109和预测头110,所述特征提取单元106与所述多通道语音增强模块102连接,所述嵌入层107与所述特征提取单元106连接,所述Encoder单元108与所述嵌入层107连接,所述Decoder单元109与所述Encoder单元108连接,所述预测头110与所述Decoder单元109连接;所述Encoder模块的数量为多个,且每个所述Encoder模块内有两种注意力操作,包括交叉注意力和自注意力;

所述特征提取单元106用于对每个说话人语音片段进行时频特征提取;

所述嵌入层107用于features序列作为网络输入通过学习,投影到低维空间,后续建模奠定基础;

所述Encoder单元108用于提取全局语义特征;

所述Decoder单元109用于将全局语义特征转化为实际的语音输出;

所述预测头110用于预测序列。

在本实施方式中,本模块采用端到端的深度学习方法,对每个说话人的语音进行自动识别,实现语音到文字的转换。主要技术采用结合注意力机制的自适应Transformer模型,首先,对每个说话人语音片段进行时频特征提取,这里采用经典的MFCC特征,经过训练得到语言模型可以直接应用于各类语音识别任务,然后,features序列作为网络输入通过学习嵌入层107,投影到低维空间,为后续建模奠定基础。随后是多层的所述Encoder单元108,每个所述Encoder单元108内有两种注意力操作:

自注意力可以学习序列内各特征点间的依赖关系;交叉注意力可以利用输出端检索编码器特征,实现信息互通。与传统RNN不同,Transformer具有并行计算优势,可以处理更长序列。卷积注意力可增强对上下文信息的学习。Encoder提取全局语义特征后,送入解码器生成预测,解码器也含两种注意力,核心是交叉注意力联系编码器与生成,用来不断预测下一个字,并生成条件概率分布,利用负对数似然损失优化网络,解码器输出后添加所述预测头110,使用CTC或Attn函数预测序列。这些注意力模块可增强模式学习能力。通过大量语音数据的监督学习,模型可以自动适应不同语言/说话人/噪音环境等影响,真正实现通用语音识别,除经典组件外,模型还加入坐标上下文机制强化对关系学习,深度监督等技巧可最优解决问题,总体来说,该识别框架具有高效、准确、适应能力强的特点,可以快速准确的实时转录目标声源的文本信息。

进一步地,所述声音采集模块101包括多个分布式麦克风,利用多个分布式麦克风对声源进行采集。在本实施方式中,将分布式麦克风呈列阵式安装,构成区域性的麦克风阵列,可以更广泛地采集各个方位的声音信号。

以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

技术分类

06120116581006