掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及视频处理技术领域,具体而言,涉及一种基于多模态融合的主播表现力评价方法、装置和计算设备。

背景技术

当前以网络主播为核心的直播产业链不断完善成熟,目前对网络主播进行评价的算法流程简单效果较差,缺少能够对主播多维度进行分析的智能评分系统。为了不断提升直播质量,持续推动直播产业发展,可以使用3D-CNN、Open SMILE和CNN提取直播视频中的图像、音频和文本特征,并通过融合注意力机制的LSTM(Contextual Attention-basedLSTM,CAT-LSTM)模型对提取到的图像、音频和文本特征进行评价,得到分别针对图像、音频和文本特征等不同模态的不同评价结果。然而,在实践中发现。以上主播表现力评价方法能全面精准地捕捉模态内信息,但对模态间交互性的研究不够深入,导致最终得到的主播表现力的评价结果不够准确。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于多模态融合的主播表现力评价方法、装置和计算设备,能够基于多模态特征综合对主播颜值、音色、直播内容以及综合表现进行评价,提升了主播表现力的评价结果的准确性。

根据本发明实施例的一个方面,提供了一种基于多模态融合的主播表现力评价方法,包括:

对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息;

对所述待评价视频进行音色特征提取,得到主播音色特征以及所述主播音色特征对应的音色评价信息;

对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息;

将所述主播颜值特征、所述主播音色特征以及所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息;

将所述颜值评价信息、所述音色评价信息、所述内容评价信息以及所述主播表现力综合评价信息共同确定为视频综合评价信息。

作为一种可选的实施方式,所述对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息的方式具体为:

通过预先构建的颜值特征提取模型对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息;

其中,所述颜值特征提取模型包括输入卷积层、最大池化层、第一残差卷积层、第二残差卷积层、第三残差卷积层、第四残差卷积层以及平均池化层;所述输入卷积层的卷积核大小为7×7,所述输入卷积层的步长为2;所述最大池化层的卷积核大小为3×3,所述最大池化层的步长为2;所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层以及所述第四残差卷积层的卷积核大小均为3×3,所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层以及所述第四残差卷积层的步长均为1;所述平均池化层的卷积核大小为1×1,所述平均池化层的步长为1。

作为一种可选的实施方式,所述对所述待评价视频进行音色特征提取,得到主播音色特征以及所述主播音色特征对应的音色评价信息,包括:

对所述待评价视频进行音频提取,得到所述待评价视频中包括的语音音频数据;

对所述语音音频数据进行预加重处理,得到加重音频数据;

对所述加重音频数据进行分帧处理,得到分帧音频数据;

对所述分帧音频数据进行加窗处理,得到加窗语音数据;

对所述加窗语音数据进行声学特征提取,得到声学特征参数;

根据所述声学特征参数得到多维度的声学特征向量;

对所述声学特征向量进行音色特征提取,得到主播音色特征;

对所述主播音色特征进行评价,得到所述主播音色特征对应的音色评价信息。

作为一种可选的实施方式,所述对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息,包括:

将所述待评价视频进行文字转录,得到所述待评价视频中包含的文本信息;

根据预训练得到的训练语料与所述文本信息进行叠加,得到所述文本信息对应的直播内容特征;其中,所述训练语料通过预先构建的双向编码模型训练得到;

对所述直播内容特征进行评价,得到所述直播内容特征对应的内容评价信息。

作为一种可选的实施方式,所述主播颜值特征为颜值特征类型的特征,所述主播音色特征为音色特征类型的特征,所述直播内容特征为内容特征类型的特征,所述将所述主播颜值特征、所述主播音色特征以及所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息,包括:

对所述主播颜值特征、所述主播音色特征以及所述直播内容特征分别进行长距离上下文表示,得到所述主播颜值特征对应的颜值特征序列、所述主播音色特征对应的音色特征序列以及所述直播内容特征对应的内容特征序列;其中,每个特征序列中的模态信息的类型至少包括输出状态类型和特征状态类型;

根据所述颜值特征序列、所述音色特征序列以及所述内容特征序列,得到多个交叉注意力值矩阵;其中,各个交叉注意力值矩阵中均包括两种特征类型,且任意两个交叉注意力值矩阵中包括的两种特征类型不完全相同;

根据所述多个交叉注意力值矩阵构建多张量融合网络;其中,所述多张量融合网络中包括多组交叉注意力值矩阵组,且每组交叉注意力值矩阵组中均包括三种特征类型;

根据所述多张量融合网络得到融合张量;

将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息。

作为一种可选的实施方式,所述根据所述多张量融合网络得到融合张量,包括:

对所述多张量融合网络中的多组交叉注意力值矩阵组分别进行压缩,得到多个压缩张量;

将多个所述压缩张量进行合并,得到融合张量。

作为一种可选的实施方式,所述将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息,包括:

将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到初始评价信息;

基于激活函数和预设参数对所述初始评价信息进行激活,得到主播表现力综合评价信息。

根据本发明实施例的另一方面,还提供了一种基于多模态融合的主播表现力评价装置,包括:

颜值特征提取单元,用于对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息;

音色特征提取单元,用于对所述待评价视频进行音色特征提取,得到主播音色特征以及所述主播音色特征对应的音色评价信息;

内容特征提取单元,用于对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息;

输入单元,用于将所述主播颜值特征、所述主播音色特征以及所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息;

确定单元,用于将所述颜值评价信息、所述音色评价信息、所述内容评价信息以及所述主播表现力综合评价信息共同确定为视频综合评价信息。

根据本发明实施例的又一方面,还提供了一种计算设备,所述计算设备包括:至少一个处理器、存储器和输入输出单元;其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行上述基于多模态融合的主播表现力评价方法。

根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述基于多模态融合的主播表现力评价方法。

在本发明实施例中,对输入的待评价视频进行主播颜值特征、主播音色特征以及直播内容特征的提取,并且可以得到针对主播颜值、主播音色以及直播内容的评价,还可以对主播颜值特征、主播音色特征以及直播内容特征进行综合分析,得到主播表现力综合评价信息,提升了主播表现力的评价结果的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的基于多模态融合的主播表现力评价方法的流程示意图;

图2是根据本发明实施例的一种多模态张量融合网络的结构示意图;

图3是根据本发明实施例的一种主播表现力综合评价信息的获取方法的流程示意图;

图4是根据本发明实施例的一种双向编码模型的结构示意图;

图5是根据本发明实施例的一种可选的基于多模态融合的主播表现力评价装置的结构示意图;

图6示意性地示出了本发明实施例的一种介质的结构示意图;

图7示意性地示出了本发明实施例的一种计算设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面参考图1,图1为本发明一实施例提供的基于多模态融合的主播表现力评价方法的流程示意图。需要注意的是,本发明的实施方式可以应用于适用的任何场景。

图1所示的本发明一实施例提供的基于多模态融合的主播表现力评价方法的流程,包括:

步骤S101,对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息。

本发明实施例中,可以通过预先训练得到的颜值特征提取模型对待评价视频中的主播的颜值特征进行提取,颜值特征提取模型可以基于残差网络(Residual Network,ResNet)构建,残差网络可以为ResNet18、ResNet34、ResNet50、ResNet101或ResNet152网络等,对此,本发明实施例不做限定。颜值特征提取模型提取待评价视频中的主播颜值特征,还可以对主播颜值特征进行评价,得到颜值评价信息。其中,颜值评价信息中可以包括针对待评价视频中主播颜值的评论信息以及评分。

作为一种可选的实施方式,步骤S101对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息的方式具体可以为:

通过预先构建的颜值特征提取模型对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息。

其中,所述颜值特征提取模型包括输入卷积层、最大池化层、第一残差卷积层、第二残差卷积层、第三残差卷积层、第四残差卷积层以及平均池化层;所述输入卷积层的卷积核大小为7×7,所述输入卷积层的步长为2;所述最大池化层的卷积核大小为3×3,所述最大池化层的步长为2;所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层以及所述第四残差卷积层的卷积核大小均为3×3,所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层以及所述第四残差卷积层的步长均为1;所述平均池化层的卷积核大小为1×1,所述平均池化层的步长为1。

本发明实施例中,可以提取到更加准确的主播颜值特征,进而得到更加准确的颜值评价信息。颜值特征提取模型的网络结构可以见表1:

表1颜值特征提取模型的网络结构

步骤S102,对所述待评价视频进行音色特征提取,得到主播音色特征以及所述主播音色特征对应的音色评价信息。

本发明实施例中,可以通过预先训练得到的音色特征提取模型对待评价视频中的主播的音色特征进行提取,音色特征提取模型可以基于长短期记忆网络(Long Short TermMemory,LSTM)构建。音色特征提取模型提取待评价视频中的主播音色特征,还可以对主播音色特征进行评价,得到音色评价信息。其中,音色评价信息中可以包括针对待评价视频中主播音色的评论信息以及评分。

作为一种可选的实施方式,步骤S102对所述待评价视频进行音色特征提取,得到主播音色特征以及所述主播音色特征对应的音色评价信息的方式具体可以为:

对所述待评价视频进行音频提取,得到所述待评价视频中包括的语音音频数据;

对所述语音音频数据进行预加重处理,得到加重音频数据;

对所述加重音频数据进行分帧处理,得到分帧音频数据;

对所述分帧音频数据进行加窗处理,得到加窗语音数据;

对所述加窗语音数据进行声学特征提取,得到声学特征参数;

根据所述声学特征参数得到多维度的声学特征向量;

对所述声学特征向量进行音色特征提取,得到主播音色特征;

对所述主播音色特征进行评价,得到所述主播音色特征对应的音色评价信息。

其中,实施这种实施方式,可以通过预加重、分帧以及加窗等操作对音频数据进行优化,以使得到的主播音色特征更加准确。

本发明实施例中,可以对从待评价视频中提取到的语音音频数据进行预加重、分帧、加窗等预处理操作,然后使用LibROSA语音工具包来提取声学特征参数,声学特征参数可以包括但不限于chromag-ram、RMS、spectral centroid、spectral bandwidth、spectralrolloff、zero-crossing rate以及梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCCs)等,以及可以将提取到的声学特征参数组成一个26维的声学特征向量;还可以将声学特征向量输入到LSTM神经网络构建的音色特征提取模型进一步提取主播音色特征,并且可以主播音色特征进行评价得到音色评价信息。

步骤S103,对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息。

本发明实施例中,可以通过预先训练得到的内容特征提取模型对待评价视频中的直播内容特征进行提取,内容特征提取模型可以基于双向编码网络(BidirectionalEncoder Representation from Transformers,BERT)以及双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)构建。直播内容特征提取模型提取待评价视频中的直播内容特征,还可以对直播内容特征进行评价,得到内容评价信息。其中,内容评价信息中可以包括针对待评价视频中直播内容的评论信息以及评分。

作为一种可选的实施方式,步骤S103对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息的方式具体可以为:

将所述待评价视频进行文字转录,得到所述待评价视频中包含的文本信息;

根据预训练得到的训练语料与所述文本信息进行叠加,得到所述文本信息对应的直播内容特征;其中,所述训练语料通过预先构建的双向编码模型训练得到;

对所述直播内容特征进行评价,得到所述直播内容特征对应的内容评价信息。

其中,实施这种实施方式,可以通过双向编码模型训练得到的训练语料对文本信息进行叠加,以提升得到的直播内容特征的准确性。

本发明实施例中,可以使用语音文字转换技术将待评价视频中提取到的语音音频数据转录为文本存入文档中,每个待评价视频片段都可以对应一个文本文件;还可以选用BERT模型对已经序列标注的训练语料进行嵌入叠加,再将处理好的向量表示加入输入Bi-LSTM神经网络中,网络结构见图2,获得直播内容特征对应的内容评价信息。

步骤S104,将所述主播颜值特征、所述主播音色特征以及所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息。

本发明实施例中,所述主播颜值特征为颜值特征类型的特征,所述主播音色特征为音色特征类型的特征,所述直播内容特征为内容特征类型的特征。

本发明另一实施例中,为了使得到的主播表现力综合评价信息更加全面,可以通过交叉注意力机制将多种特征类型的模态信息进行融合,如图3所示,则上述步骤S104由以下步骤S301~步骤S305代替,以及请一并参阅图4:

步骤S301,对所述主播颜值特征、所述主播音色特征以及所述直播内容特征分别进行长距离上下文表示,得到所述主播颜值特征对应的颜值特征序列、所述主播音色特征对应的音色特征序列以及所述直播内容特征对应的内容特征序列。

本发明实施例中,待评价视频可以为网络直播视频,可以对容貌特征提取模块提取到的主播颜值特征、音频特征提取模块提取到的主播音色特征以及文本特征提取模块提取到的直播内容特征通过LSTM网络分别进行长距离上下文表示,得到主播颜值特征对应的颜值特征序列、主播音色特征对应的音色特征序列以及直播内容特征对应的内容特征序列,每个特征序列中的模态信息的类型至少包括输出状态类型和特征状态类型;即颜值特征序列中可以包括容貌特征提取模块输出的输出状态类型的模态信息O

假设模型最后一层的输出状态类型的模态信息为O

O

其中,n是特征序列的长度,下标l是视频的模态信息,V、A和T分别指颜值、音色和文本单模态。

步骤S302,根据所述颜值特征序列、所述音色特征序列以及所述内容特征序列,得到多个交叉注意力值矩阵。

本发明实施例中,各个交叉注意力值矩阵中均包括两种特征类型,且任意两个交叉注意力值矩阵中包括的两种特征类型不完全相同;即将不同类型的模态信息两两嵌入到交叉注意力机制矩阵中,增强模态交互中有效的显著特征并削弱不相关特征。

本发明实施例中,在双模嵌入和融合中添加交叉注意力机制以捕捉模态对的交互特征。

举例来说,以颜值模态和文本模态为例,通过交叉注意力机制将LSTM输出的颜值分支的输出特征与文本分支的隐藏状态相融合,然后计算交叉注意力值Attention′

Attention

Attention

其中,H

步骤S303,根据所述多个交叉注意力值矩阵构建多张量融合网络。

本发明实施例中,所述多张量融合网络中包括多组交叉注意力值矩阵组,且每组交叉注意力值矩阵组中均包括三种特征类型;可以将6组交叉注意力值矩阵等分为两组,要求每组的跨模态特征同时包含V、A和T模态,通过多次分组,可以得到一个多张量融合网络(即多模态张量融合网络TFN-AM),以及可以将提取到的颜值特征记作z

值为1的额外常量维度会生成单模态和双模态特征,因此在多级张量融合之前,需要将“1”向量拼接到每个模态的特征向量上,使所有模态都可以正确建模。最终得到的多张量融合网络定义如下:

其中,

步骤S304,根据所述多张量融合网络得到融合张量。

作为一种可选的实施方式,步骤S304根据所述多张量融合网络得到融合张量的方式具体可以为:

对所述多张量融合网络中的多组交叉注意力值矩阵组分别进行压缩,得到多个压缩张量;

将多个所述压缩张量进行合并,得到融合张量。

其中,实施这种实施方式,可以提升得到的融合张量的高维关系。

本发明实施例中,可以将通过下式得到的Z

Z=Tensor

Z

Z

步骤S305,将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息。

作为一种可选的实施方式,步骤S305将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息的方式具体可以为:

将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到初始评价信息;

基于激活函数和预设参数对所述初始评价信息进行激活,得到主播表现力综合评价信息。

其中,实施这种实施方式,可以通过表现力评价模型压缩稀疏特征使交互特征集中收敛,提升主播表现力综合评价信息的准确性。

本发明实施例中,最后由一个全连接神经网络(表现力评价模型)和Sigmoid函数获得主播表现力综合评价信息,具体方法定义如下:

I=6*Sigmoid(FC(Z;W

其中,I是主播表现力综合评价信息,Z是融合张量,W

本发明实施例中,可以构建表现力评价模型,并对表现力评价模型进行训练,以使表现力评价模型输出的主播表现力综合评价信息更加准确。

本发明实施例中,可以通过构建的多模态数据集LSVideo对表现力评价模型进行训练,多模态数据集LSVideo的获取方式可以为:在各大直播网站爬取同一类型的直播视频,并邀请多名直播行业资深观众,在视频、音频和文本分离的条件下,对各片段的主播颜值、音色和直播内容进行单项评分及综合评分,接着根据公式综合人工评分和主播流行度计算标签值,制作专用于主播评分任务的多模态数据集LSVideo。

具体的,可以遵循二八定律,爬取各直播平台热度占前20%的同类型直播视频,同时爬取直播粉丝数、在线观看人数、观众送礼数、弹幕数和主播自身热度等信息,其中,直播视频中仅包含一个主播的完整人脸和该主播的普通话音频。例如,共收集来自不同平台的306名主播的直播视频,性别包含男、女,直播总时长达50小时。然后在帧级别裁剪视频获得目标片段,剪辑后的视频片段长度在3秒到10秒之间,最终获得2236个目标片段,详细信息见表2:

表2多模态数据集LSVideo的详细信息

本发明实施例中,还可以邀请多名直播行业资深观众,在视频、音频和文本分离的条件下,对各片段的主播颜值、音色和直播内容进行单项评分(评分范围均为1-5的整数)。然后计算颜值、音色、直播内容和综合评分的平均值,记作V、A、T、C,将人工打分结果与平均分相差超过2的视频片段记为异常数据剔除;以及可以将每个视频的各维度评分结果和主播自身热度两两对比,通过层次分析法和主观赋值法构造判别矩阵;以及可以先计算判别矩阵对应的特征值,然后选取特征值中最大的一个,接着计算该特征值对应的特征向量,最终得到颜值、音色、直播内容和流行度四个维度的权重,分别记作W

表3各评价维度权重数值

本发明实施例中,可以融合人工评分和主播流行度计算标签,将剔除异常值后的第n位主播对应的颜值评分、音色评分、直播内容评分分别记作

实施上述的步骤S301~步骤S305,可以通过交叉注意力机制将多种特征类型的模态信息进行融合,以使得到的主播表现力综合评价信息更加全面。

步骤S105,将所述颜值评价信息、所述音色评价信息、所述内容评价信息以及所述主播表现力综合评价信息共同确定为视频综合评价信息。

本发明能够对输入的待评价视频进行主播颜值特征、主播音色特征以及直播内容特征的提取,并且可以得到针对主播颜值、主播音色以及直播内容的评价,还可以对主播颜值特征、主播音色特征以及直播内容特征进行综合分析,得到主播表现力综合评价信息,提升了主播表现力的评价结果的准确性。此外,本发明还可以得到更加准确的颜值评价信息。此外,本发明还可以使得到的主播音色特征更加准确。此外,本发明还可以提升得到的直播内容特征的准确性。此外,本发明还可以使得到的主播表现力综合评价信息更加全面。此外,本发明还可以提升得到的融合张量的高维关系。此外,本发明还可以提升主播表现力综合评价信息的准确性。

在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的一种基于多模态融合的主播表现力评价装置进行说明,该装置包括:

颜值特征提取单元501,用于对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息;

音色特征提取单元502,用于对所述待评价视频进行音色特征提取,得到主播音色特征以及所述主播音色特征对应的音色评价信息;

内容特征提取单元503,用于对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息;

输入单元504,用于将颜值特征提取单元501得到的所述主播颜值特征、音色特征提取单元502得到的所述主播音色特征以及内容特征提取单元503得到的所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息;

确定单元505,用于将颜值特征提取单元501得到的所述颜值评价信息、音色特征提取单元502得到的所述音色评价信息、内容特征提取单元503得到的所述内容评价信息以及输入单元504得到的所述主播表现力综合评价信息共同确定为视频综合评价信息。

作为一种可选的实施方式,音色特征提取单元502对所述待评价视频进行音色特征提取,得到主播音色特征以及所述主播音色特征对应的音色评价信息的方式具体可以为:

通过预先构建的颜值特征提取模型对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及所述主播颜值特征对应的颜值评价信息;其中,所述颜值特征提取模型包括输入卷积层、最大池化层、第一残差卷积层、第二残差卷积层、第三残差卷积层、第四残差卷积层以及平均池化层;所述输入卷积层的卷积核大小为7×7,所述输入卷积层的步长为2;所述最大池化层的卷积核大小为3×3,所述最大池化层的步长为2;所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层以及所述第四残差卷积层的卷积核大小均为3×3,所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层以及所述第四残差卷积层的步长均为1;所述平均池化层的卷积核大小为1×1,所述平均池化层的步长为1。

其中,实施这种实施方式,可以提取到更加准确的主播颜值特征,进而得到更加准确的颜值评价信息。

作为一种可选的实施方式,内容特征提取单元503对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息的方式具体可以为:

对所述待评价视频进行音频提取,得到所述待评价视频中包括的语音音频数据;

对所述语音音频数据进行预加重处理,得到加重音频数据;

对所述加重音频数据进行分帧处理,得到分帧音频数据;

对所述分帧音频数据进行加窗处理,得到加窗语音数据;

对所述加窗语音数据进行声学特征提取,得到声学特征参数;

根据所述声学特征参数得到多维度的声学特征向量;

对所述声学特征向量进行音色特征提取,得到主播音色特征;

对所述主播音色特征进行评价,得到所述主播音色特征对应的音色评价信息。

其中,实施这种实施方式,可以通过预加重、分帧以及加窗等操作对音频数据进行优化,以使得到的主播音色特征更加准确。

作为一种可选的实施方式,输入单元504对所述待评价视频进行内容特征提取,得到直播内容特征以及所述直播内容特征对应的内容评价信息的方式具体可以为:

将所述待评价视频进行文字转录,得到所述待评价视频中包含的文本信息;

根据预训练得到的训练语料与所述文本信息进行叠加,得到所述文本信息对应的直播内容特征;其中,所述训练语料通过预先构建的双向编码模型训练得到;

对所述直播内容特征进行评价,得到所述直播内容特征对应的内容评价信息。

其中,实施这种实施方式,可以通过双向编码模型训练得到的训练语料对文本信息进行叠加,以提升得到的直播内容特征的准确性。

作为一种可选的实施方式,所述主播颜值特征为颜值特征类型的特征,所述主播音色特征为音色特征类型的特征,所述直播内容特征为内容特征类型的特征,确定单元505将所述主播颜值特征、所述主播音色特征以及所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息的方式具体可以为:

对所述主播颜值特征、所述主播音色特征以及所述直播内容特征分别进行长距离上下文表示,得到所述主播颜值特征对应的颜值特征序列、所述主播音色特征对应的音色特征序列以及所述直播内容特征对应的内容特征序列;其中,每个特征序列中的模态信息的类型至少包括输出状态类型和特征状态类型;

根据所述颜值特征序列、所述音色特征序列以及所述内容特征序列,得到多个交叉注意力值矩阵;其中,各个交叉注意力值矩阵中均包括两种特征类型,且任意两个交叉注意力值矩阵中包括的两种特征类型不完全相同;

根据所述多个交叉注意力值矩阵构建多张量融合网络;其中,所述多张量融合网络中包括多组交叉注意力值矩阵组,且每组交叉注意力值矩阵组中均包括三种特征类型;

根据所述多张量融合网络得到融合张量;

将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息。

其中,实施这种实施方式,可以通过交叉注意力机制将多种特征类型的模态信息进行融合,以使得到的主播表现力综合评价信息更加全面。

作为一种可选的实施方式,确定单元505根据所述多张量融合网络得到融合张量的方式具体可以为:

对所述多张量融合网络中的多组交叉注意力值矩阵组分别进行压缩,得到多个压缩张量;

将多个所述压缩张量进行合并,得到融合张量。

其中,实施这种实施方式,可以提升得到的融合张量的高维关系。

作为一种可选的实施方式,确定单元505将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息的方式具体可以为:

将所述融合张量以及预设的特征权重输入至预先训练得到的表现力评价模型,得到初始评价信息;

基于激活函数和预设参数对所述初始评价信息进行激活,得到主播表现力综合评价信息。

其中,实施这种实施方式,可以通过表现力评价模型压缩稀疏特征使交互特征集中收敛,提升主播表现力综合评价信息的准确性。

在介绍了本发明示例性实施方式的方法和装置之后,接下来,参考图6对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图6,其示出的计算机可读存储介质为光盘60,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及主播颜值特征对应的颜值评价信息;对待评价视频进行音色特征提取,得到主播音色特征以及主播音色特征对应的音色评价信息;对待评价视频进行内容特征提取,得到直播内容特征以及直播内容特征对应的内容评价信息;将主播颜值特征、所述主播音色特征以及所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息;将所述颜值评价信息、所述音色评价信息、所述内容评价信息以及所述主播表现力综合评价信息共同确定为视频综合评价信息;各步骤的具体实现方式在此不再重复说明。

需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图7对本发明示例性实施方式的基于多模态融合的主播表现力评价的计算设备。

图7示出了适于用来实现本发明实施方式的示例性计算设备70的框图,该计算设备70可以是计算机系统或服务器。图7显示的计算设备70仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示,计算设备70的组件可以包括但不限于:一个或者多个处理器或者处理单元701,系统存储器702,连接不同系统组件(包括系统存储器702和处理单元701)的总线703。

计算设备70典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备70访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器702可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)7021和/或高速缓存存储器7022。计算设备70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM7023可以用于读写不可移动的、非易失性磁介质(图7中未显示,通常称为“硬盘驱动器”)。尽管未在图7中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线703相连。系统存储器702中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块7024的程序/实用工具7025,可以存储在例如系统存储器702中,且这样的程序模块7024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块7024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备70也可以与一个或多个外部设备704(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且,计算设备70还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器706通过总线703与计算设备70的其它模块(如处理单元701等)通信。应当明白,尽管图7中未示出,可以结合计算设备70使用其它硬件和/或软件模块。

处理单元701通过运行存储在系统存储器702中的程序,从而执行各种功能应用以及数据处理,例如,对输入的待评价视频进行颜值特征提取,得到主播颜值特征以及主播颜值特征对应的颜值评价信息;对待评价视频进行音色特征提取,得到主播音色特征以及主播音色特征对应的音色评价信息;对待评价视频进行内容特征提取,得到直播内容特征以及直播内容特征对应的内容评价信息;将主播颜值特征、所述主播音色特征以及所述直播内容特征输入至预先训练得到的表现力评价模型,得到主播表现力综合评价信息;将所述颜值评价信息、所述音色评价信息、所述内容评价信息以及所述主播表现力综合评价信息共同确定为视频综合评价信息。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了基于多模态融合的主播表现力评价装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

技术分类

06120115629035