掌桥专利:专业的专利平台
掌桥专利
首页

说话人日志提取方法及系统

文献发布时间:2024-04-18 19:53:33


说话人日志提取方法及系统

技术领域

本发明涉及音视频识别及分析技术领域,具体地,涉及一种基于置信度分数和多模态信息流融合的说话人日志提取方法及系统,尤其涉及一种说话人日志提取方法及系统。

背景技术

说话人日志是智能语音处理的一项基础任务,旨在识别出一段音频中“谁在何时说话”。而通过引入视频模态,系统能够获取更丰富的有关说话人的身份和活跃状态的信息。尽管先前的多模态融合方法在特定场景下表现出色,但这些方法主要基于高质量数据,并未考虑真实场景中存在的声学噪声或人脸缺失等情况。因此,如何设计一种新的方法,能够在真实场景下面对复杂环境依旧保持良好的鲁棒性,是一个重要且极富挑战性的任务。

公开号为CN116312552A的中国发明专利,公开了一种音视频说话人日志方法及系统。该发明的模型方法将一段录音录像视频分离为音频部分和视频部分,一方面利用语音识别技术,对整个音频部分进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发声者属性检测获取发声者属性信息并提取声纹特征;另一方面对视频部分中的人物目标进行目标检测和跟踪,得到目标人属性信息;最后结合发声者属性信息和目标人属性信息的匹配结构以及声纹特征比对来确定说话人。

该专利没有考虑真实场景中存在的说话人重叠问题,以及由于设备、环境等原因导致的音视频质量不佳乃至缺失,因此在不能很好地应对复杂环境带来的消极影响。

发明内容

针对现有技术中的缺陷,本发明提供一种说话人日志提取方法及系统。

根据本发明提供的一种说话人日志提取方法及系统,所述方案如下:

第一方面,提供了一种说话人日志提取方法,所述方法包括:

步骤S1:对音频与视频分别进行预处理,并分别提取模态对齐后的音频数据及各说话人视频数据的初始语义表征;

步骤S2:利用视频的语义信息得到说话人活跃片段的粗略划分,并由此提取说话人的声学特征;

步骤S3:根据语义信息及说话人特征对各模态进行帧级别的不确定性建模,对音频和视频的质量进行评估;

步骤S4:利用置信度分数指导音频和视频模态语义表征的融合,得到融合后的各说话人音视频语义信息流;

步骤S5:解码器根据融合后的各说话人音视频语义信息流对各说话人各个时刻的活跃状态分别进行估计。

优选地,所述步骤S1包括:

对音频和视频分别进行分段处理和采帧处理;

利用人脸识别算法提取各说话人的脸部图像;

分别使用模态对齐过的音频的预训练特征提取器和视觉的预训练特征提取器,得到音频数据和说话人脸部视频数据的语义表征。

优选地,所述步骤S2包括:

将视频语义表征输入到视频解码器中,得到基于视频的说话人活跃状态Y

根据Y

其中,D

优选地,所述步骤S3包括:

将音频的语义表征与各说话人声学特征分别进行拼接,得到具有说话人特异性的音频语义表征;

对于音频数据和视频数据的语义表征,将其每一帧分别建模为独立的多维高斯分布,记为

其中,M∈A,V,分别对应音频和视频模态;

根据语义表征,分别使用两个独立的前馈神经网络分别计算均值和方差;

在计算方差的过程中,对于前馈神经网络的输出,额外使用自然对数e的指数函数来保证方差恒大于0。

优选地,所述步骤S4包括:

对音、视频模态分别在多维高斯分布中进行采样,得到其隐藏状态

将视频模态中各说话人人脸缺失情况记作

根据各分布的方差,计算其置信度分数,表示为

根据置信度分数和隐藏状态,得到融合后的语义表征:

其中,

优选地,训练过程中,采用重参数化的方式对分布进行采样:

推理过程中,直接采用均值向量

优选地,训练时,仅需采用单通道音频数据;

推理时,对于多通道音频,将各通道分别视作音频的子模态,分别计算其隐藏状态向量和方差;

计算通道间的置信度分数,并将各通道音频及方差通过加权平均的方式预先进行融合,得到

优选地,所述步骤S5包括:

将各说话人的融合语义表征经过长短时循环神经网络,得到其中间输出;

将中间输出按时序对齐,并按说话人顺序在特征维度上进行拼接,经过第二个长短时循环神经网络,得到帧级语义表征,表示为

对帧级语义表征分别使用不同线性层和Sigmoid操作,得到第n个说话人在第t时刻的活跃概率:

其中,W

设定阈值s,当

优选地,所述说话人日志的优化目标,包括:

设置优化目标一,将预测结果与真实标签相拟合:

其中,M

在训练过程中,额外引入单模态解码器,根据融合前的各模态语义表征进行预测,得到活跃概率

设置优化目标二,使方差能正确地表示该模态的置信度:

首先使用交叉熵函数计算单模态预测值与真实值之间的距离

对方差向量进行L2正则化,并计算倒数:

将不同模态的距离序列与方差向量序列分别在时间维度上进行拼接,即:

设置优化目标三,引入防止训练崩溃的正则项

其中μ,σ分别为每一个多维高斯分布均值与方差,I为单位矩阵。

最终得到的总损失函数为:

其中,λ

第二方面,提供了一种说话人日志提取系统,所述系统包括:

音视频特征提取模块:对于音频和视频分别进行分段和采帧处理,利用人脸识别算法提取人脸图像;使用预训练的音频特征提取器和视觉特征提取器得到对齐的音频数据和视频数据的语义表征;

说话人声学特征提取模块:将视频语义表征输入到视频解码器,得到说话人活跃片段的粗略划分,并由此提取说话人的声学特征;

不确定性建模模块:根据语义信息及声学特征将音频和视频模态按帧分别建模为具有说话人特异性的独立高斯分布;

模态融合模块:根据分布的方差和模态缺失情况计算模态置信度分数,并利用置信度分数指导音频和视频模态语义表征的融合,得到融合后的各说话人音视频信息流;

活跃状态预测模块:根据融合后的表征分别预测各说话人各时刻的活跃概率。

与现有技术相比,本发明具有如下的有益效果:

1、本发明有效提高了多模态说话人日志系统在真实场景下的准确率;

2、本发明利用不确定性指导音视频模态的融合,相较于其他融合方法,能够有效处理数据中每种模态的低质量片段,从而面对嘈杂和不完整的远场数据更具鲁棒性;

3、本发明能够利用从单通道数据中学到的内部模态不确定性,在不需要额外训练的情况下,在多通道数据上实现良好性能。

本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明方法流程示意图;

图2为本发明系统原理图。

具体实施方

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供的一种说话人日志提取方法,该方法具体包括以下内容:

分别提取模态对齐后的音频数据及各说话人视频数据的语义表征;

利用视频的语义信息得到说话人活跃片段的粗略划分,并由此提取说话人的声学特征;

根据语义信息及说话人特征对各模态进行帧级别的不确定性建模,对音频和视频的质量动态地进行评估;

利用置信度分数指导音频和视频模态语义表征的融合,得到融合后的各说话人音视频语义信息流;

解码器根据音视频信息对各说话人各个时刻的活跃状态分别进行估计。本发明通过利用置信度指导模态融合,能够减小低质量片段对预测结果带来的消极影响,提高真实场景下的准确率。

基于上述实施例进一步优化,如图1~2所示,为本实施例方法流程图,包括:

步骤S1:对音频与视频分别进行预处理,分别提取模态对齐后的音频数据及各说话人视频数据的语义表征。

具体地,在步骤S1中:

对音频和视频分别进行分段处理和采帧处理;

利用人脸识别算法提取各说话人的脸部图像;

分别使用模态对齐过的音频的预训练特征提取器和视觉的预训练特征提取器得到音频数据和说话人脸部数据的语义表征。

步骤S2:利用视频的语义信息得到说话人活跃片段的粗略划分,并由此提取说话人的声学特征。

具体地,在步骤S2中:

将视频语义表征输入到视频解码器中,得到基于视频的说话人活跃状态Y

根据Y

步骤S3:根据语义信息及说话人特征对各模态进行帧级别的不确定性建模,对音频和视频的质量动态地进行评估。

具体地,在步骤S3中:

将音频的语义表征与各说话人声学特征分别进行拼接,得到具有说话人特异性的音频语义表征。

对于音频数据和视频数据的语义表征,将其每一帧分别建模为独立的多维高斯分布,记为

具体地,多维高斯分布的建模,包括:

根据语义表征,分别使用两个独立的前馈神经网络分别计算均值和方差;

在计算方差的过程中,对于前馈神经网络的输出,额外使用自然对数e的指数函数来保证方差恒大于0。

步骤S4:利用置信度分数指导音频和视频模态语义表征的融合,得到融合后的各说话人音视频语义信息流。

具体地,在步骤S4中:

对音、视频模态分别在多维高斯分布中进行采样,得到其隐藏状态

将视频模态中各说话人人脸缺失情况记作

根据各分布的方差,计算其置信度分数,表示为

根据置信度分数和隐藏状态,得到融合后的语义表征:

其中,

具体地,多维高斯分布的采样过程,包括:

训练过程中,采用重参数化的方式对分布进行采样:

推理过程中,直接采用均值向量

具体地,对于多通道音频的处理,包括:

训练时,仅需采用单通道音频数据;

推理时,对于多通道音频,将各通道分别视作音频的子模态,分别计算其隐藏状态向量和方差;

计算通道间的置信度分数,并将且仅将各通道音频及方差通过加权平均的方式预先进行融合,得到

步骤S5:解码器根据音视频信息对各说话人各个时刻的活跃状态分别进行估计。

具体地,在步骤S5中:

将各说话人的融合语义表征经过长短时循环神经网络,得到其中间输出;

将中间输出按时序对齐,并按说话人顺序在特征维度上进行拼接,经过第二个长短时循环神经网络,得到帧级语义表征,表示为

对帧级语义表征分别使用不同线性层和Sigmoid操作,得到第n个说话人在第t时刻的活跃概率:

其中,W

设定阈值s,当

具体地,说话人日志的优化目标,包括:

设置优化目标一,将预测结果与真实标签相拟合:

其中,M

设置优化目标二,使方差能正确地表示该模态的置信度:

首先使用交叉熵函数计算单模态预测值与真实值之间的距离

对方差向量进行L2正则化,并计算倒数:

将不同模态的距离序列与方差向量序列分别在时间维度上进行拼接,即:

设置优化目标三,引入防止训练崩溃的正则项

其中μ,σ分别为每一个多维高斯分布均值与方差,I为单位矩阵。

最终得到的总损失函数为:

其中,λ

本发明还提供了一种说话人日志提取系统,如图2所示,为本实施例的系统的原理图,包括:

音视频特征提取模块:对于音频和视频分别进行分段和采帧处理,利用人脸识别算法提取人脸图像;使用预训练的音频特征提取器和视觉特征提取器得到对齐的音频数据和视频数据的语义表征;

说话人声学特征提取模块:将视频语义表征输入到视频解码器,得到说话人活跃片段的粗略划分,并由此提取说话人的声学特征;

不确定性建模模块:根据语义信息及声学特征将音频和视频模态按帧分别建模为具有说话人特异性的独立高斯分布;

模态融合模块:根据分布的方差和模态缺失情况计算模态置信度分数,并利用置信度分数指导音频和视频模态语义表征的融合,得到融合后的各说话人音视频信息流;

活跃状态预测模块:根据融合后的表征分别预测各说话人各时刻的活跃概率。

本发明能够利用公开数据集进行多模态场景下的对话生成,取得良好的文本生成指标。

本发明实施例提供了一种说话人日志提取方法及系统,利用置信度分数来指导不同模态信息的动态融合,相较于其他方法对带噪片段有着更好的鲁棒性,同时对多通道音频也具有良好的兼容性。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

技术分类

06120116339201