掌桥专利:专业的专利平台
掌桥专利
首页

一种用于直播信息提示的交互设备及其方法

文献发布时间:2023-06-19 18:46:07


一种用于直播信息提示的交互设备及其方法

技术领域

本申请涉及智能监控技术领域,且更为具体地,涉及一种用于直播信息提示的交互设备及其方法。

背景技术

随着互联网技术的不断发展,网络直播也受到越来越多的用户的关注。网络直播具有实时性以及内容广泛性逐渐成为互联网的主流表达方式。主播用户可以通过互联网在直播平台或直播软件上建立在线直播间,在直播间中进行直播,向在该直播间中的观众进行在线广播,观众用户可以看到在直播间中的主播的直播内容,比如观看到视频内容等。

通常,直播间的观众人数反应了该直播间主播的人气值,然而,在直播的过程中,根据直播的内容,观众人数会发生变化。当在观众人数较低时主播应快速介绍产品来回笼人气,此时就需要主播加快语速,而当观众人数较多时表示观众对于产品有着兴趣,此时主播应放慢语速来详细介绍产品内容。

并且,现有的一些直播间主播在进行直播时,通常难以吸引到大量的观众观看,从而导致直播间主播的人气值较低,其中一部分原因是主播的语速难以适应观众的观看以及对于产品的选择,因此对于主播的语速需要根据观众的实时观看情况进行相应的调整。

因此,期待一种用于直播信息提示的交互设备,其能够基于看播端的数据来智能地生成主播的语速是否应放慢的调整提示信息,进而增加主播的人气,并且实现较高的购物转化率。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于直播信息提示的交互设备及其方法。其首先计算获取的预定时间段的主播的声音数据的对数梅尔谱图,接着,将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量,然后,将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量,接着,计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵并进行特征分布优化以得到分类特征矩阵,最后,将所述分类特征矩阵通过分类器以得到用于表示主播的语速是否应放慢的分类结果。通过这样的方式,可以智能地生成主播的语速是否应放慢的调整提示信息。

根据本申请的一个方面,提供了一种用于直播信息提示的交互设备,其包括:

主播监控模块,用于获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据;

声谱图转化模块,用于计算所述声音数据的对数梅尔谱图;

声谱特征提取模块,用于将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量;

看播端数据监控模块,用于将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量;

响应关联模块,用于计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;

特征分布优化模块,用于对所述转移矩阵进行特征分布优化以得到分类特征矩阵;以及

交互结果生成模块,用于将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示主播的语速是否应放慢。

在上述的用于直播信息提示的交互设备中,所述声谱图转化模块,包括:

预加重单元,用于对所述声音数据进行预加重处理以得到预加重声音数据;

分帧单元,用于对所述预加重声音数据进行分帧处理以得到多个声音分帧;

加窗单元,用于对所述多个声音分帧进行加窗处理以得到多个加窗声音分帧;

频域变换单元,用于对所述多个加窗声音分帧进行短时傅里叶变换并取模平方以得到能量谱;以及

对数梅尔谱图生成单元,用于将所述能量谱通过梅尔滤波器组并计算对数能量以得到所述对数梅尔谱图。

在上述的用于直播信息提示的交互设备中,所述声谱特征提取模块,进一步用于:

使用所述对数梅尔谱图通过作为过滤器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行二维卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述对数梅尔谱图通过作为过滤器的卷积神经网络模型的最后一层输出所述声音谱图特征向量,其中,所述作为过滤器的卷积神经网络模型的第一层的输入为所述对数梅尔谱图。

在上述的用于直播信息提示的交互设备中,所述看播端数据监控模块,包括:

实时数据编码单元,用于将所述各个预定时间点的看播端的实时数据通过全连接层以得到多个实时数据特征值,并将所述多个实时数据特征值排列为实时数据特征值输入向量,其中,所述看播端的实时数据包括以下至少之一:看播属性数据、在线人数数据、弹幕数据、礼物赠送数据和商品浏览数据;以及

多尺度邻域特征提取单元,用于将所述实时数据特征值输入向量通过所述多尺度邻域特征提取模块以得到所述实时数据动态特征向量。

在上述的用于直播信息提示的交互设备中,所述多尺度邻域特征提取单元,包括:

第一邻域尺度卷积编码子单元,用于使用所述多尺度邻域特征提取模块的第一卷积层对所述实时数据特征值输入向量进行一维卷积编码以得到第一尺度实时数据动态特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;

第二邻域尺度卷积编码子单元,用于使用所述多尺度邻域特征提取模块的第二卷积层对所述实时数据特征值输入向量进行一维卷积编码以得到第二尺度实时数据动态特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及

多尺度级联子单元,用于使用所述多尺度邻域特征提取模块的级联层将所述第一尺度实时数据动态特征向量和所述第二尺度实时数据动态特征向量进行级联以得到所述实时数据动态特征向量。

在上述的用于直播信息提示的交互设备中,所述响应关联模块,进一步用于:以如下公式计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;

其中,所述公式为:

其中V表示所述声音谱图特征向量,V

在上述的用于直播信息提示的交互设备中,所述特征分布优化模块,进一步用于:以如下公式对所述转移矩阵进行特征分布优化以得到所述分类特征矩阵;

其中,所述公式为:

其中M表示所述转移矩阵通过线性变换得到的对角矩阵,m

在上述的用于直播信息提示的交互设备中,所述交互结果生成模块,进一步用于:

将所述分类特征矩阵按照行向量或列向量展开为分类特征向量;

使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及

将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

根据本申请的另一个方面,提供了一种用于直播信息提示的交互方法,其包括:

获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据;

计算所述声音数据的对数梅尔谱图;

将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量;

将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量;

计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;

对所述转移矩阵进行特征分布优化以得到分类特征矩阵;以及

将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示主播的语速是否应放慢。

在上述的用于直播信息提示的交互方法中,所述计算所述声音数据的对数梅尔谱图,包括:

对所述声音数据进行预加重处理以得到预加重声音数据;

对所述预加重声音数据进行分帧处理以得到多个声音分帧;

对所述多个声音分帧进行加窗处理以得到多个加窗声音分帧;

对所述多个加窗声音分帧进行短时傅里叶变换并取模平方以得到能量谱;以及

将所述能量谱通过梅尔滤波器组并计算对数能量以得到所述对数梅尔谱图。

与现有技术相比,本申请提供的一种用于直播信息提示的交互设备及其方法,其首先计算获取的预定时间段的主播的声音数据的对数梅尔谱图,接着,将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量,然后,将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量,接着,计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵并进行特征分布优化以得到分类特征矩阵,最后,将所述分类特征矩阵通过分类器以得到用于表示主播的语速是否应放慢的分类结果。通过这样的方式,可以智能地生成主播的语速是否应放慢的调整提示信息。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的用于直播信息提示的交互设备的应用场景图。

图2为根据本申请实施例的用于直播信息提示的交互设备的框图示意图。

图3为根据本申请实施例的用于直播信息提示的交互设备的所述声谱图转化模块的框图示意图。

图4为根据本申请实施例的用于直播信息提示的交互设备的看播端数据监控模块的框图示意图。

图5为根据本申请实施例的用于直播信息提示的交互设备的所述多尺度邻域特征提取单元的框图示意图。

图6为根据本申请实施例的用于直播信息提示的交互方法的流程图。

图7为根据本申请实施例的用于直播信息提示的交互方法的系统架构的示意图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

场景概述

如上所述,随着互联网技术的不断发展,网络直播也受到越来越多的用户的关注。网络直播具有实时性以及内容广泛性逐渐成为互联网的主流表达方式。主播用户可以通过互联网在直播平台或直播软件上建立在线直播间,在直播间中进行直播,向在该直播间中的观众进行在线广播,观众用户可以看到在直播间中的主播的直播内容,比如观看到视频内容等。

通常,直播间的观众人数反应了该直播间主播的人气值,然而,在直播的过程中,根据直播的内容,观众人数会发生变化。当在观众人数较低时主播应快速介绍产品来回笼人气,此时就需要主播加快语速,而当观众人数较多时表示观众对于产品有着兴趣,此时主播应放慢语速来详细介绍产品内容。

并且,现有的一些直播间主播在进行直播时,通常难以吸引到大量的观众观看,从而导致直播间主播的人气值较低,其中一部分原因是主播的语速难以适应观众的观看以及对于产品的选择,因此对于主播的语速需要根据观众的实时观看情况进行相应的调整。因此,期待一种用于直播信息提示的交互设备,其能够基于看播端的数据来智能地生成主播的语速是否应放慢的调整提示信息,进而增加主播的人气,并且实现较高的购物转化率。

目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。

近年来,深度学习以及神经网络的发展为主播语速的智能监控提供了新的解决思路和方案。

相应地,考虑到实际对于主播的语速监控不仅与主播的声音数据语义理解特征有关,还与看播端的实时数据关于观众的兴趣特征有关,并且所述看播端的实时数据包括有以下至少之一:看播属性数据、在线人数数据、弹幕数据、礼物赠送数据和商品浏览数据,这对于主播的语速自适应实时监控带来了困难。因此,在本申请的技术方案中,采用基于深度学习的人工智能监控技术,以提取出所述主播声音数据的语义理解隐藏特征信息以及所述看播端的各项数据在时间维度上的多尺度邻域关联特征分布信息,并且计算这两者的转移矩阵来表示所述主播的声音数据语义理解隐含特征与所述看播端观众的兴趣动态变化特征的关联性特征分布信息,并以此来对于主播语速是否应放慢进行实时准确地判断,进而增加主播的人气,并且实现较高的购物转化率。

具体地,在本申请的技术方案中,首先,获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据。接着,为了提高对于所述主播的声音数据的语义理解的精准度,将所述主播的声音数据转化为声谱图,应可以理解,声谱图是由时间、频率和能量三部分组成的感知图,是声音信号的可视性语言,可提供丰富的视觉信息,结合了时域分析和频域分析,不仅能够反映信号的频率内容,同时又能够反映频率内容随时间的变化规律。特别地,在本申请的技术方案中,为了捕捉更为精准的声谱信息,计算所述声音数据的对数梅尔谱图。应可以理解,所述对数梅尔谱图是使用最为广泛的特征,它在设计过程中仿照了人耳的特性,该特性对不同频率的声音具有不同的声学敏感性。值得一提的是,所述对数梅尔谱图的提取流程类似MFCC,但减少了最后一步的线性变换即离散余弦变换,去掉这一步后,能够保留更多的所述声音数据高阶信息以及非线性信息。

然后,使用在图像的隐含特征提取方面具有优异表现的作为过滤器的卷积神经网络模型来对于所述对数梅尔谱图进行隐含特征挖掘,以提取出所述对数梅尔谱图中关于所述主播的声音数据语义理解的局部隐含特征分布信息,从而得到声音谱图特征向量。

进一步地,由于所述看播端的实时数据包括以下至少之一:看播属性数据、在线人数数据、弹幕数据、礼物赠送数据和商品浏览数据,这些所述看播端的实时数据中的各项数据都是不断变化的,并且这些所述看播端的实时数据中的各项数据之间在不同的时间点下都具有着不同程度的关联性的关系。因此,在本申请的技术方案中,进一步将所述各个预定时间点的看播端的实时数据通过全连接层以提取出在各个预定时间点下的所述看播端的实时数据中的各项数据间的关联性特征分布信息,从而得到多个实时数据特征值,并且将所述多个实时数据特征值排列为实时数据特征值输入向量。

接着,将具有各个预定时间点下各项数据间关联特征信息的所述实时数据特征值输入向量通过所述多尺度邻域特征提取模块中进行特征提取,以提取出所述看播端的实时数据在不同时间跨度下的多尺度邻域关联特征,即所述看播端关于观众兴趣的动态变化特征信息,从而得到所述实时数据动态特征向量。

然后,进一步再计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵,以此来表示所述主播的声音数据语义理解隐含特征与所述看播端观众的兴趣动态变化特征的关联性特征分布信息,并以此作为分类特征矩阵来进行通过分类器进行分类处理以得到用于表示主播的语速是否应放慢的分类结果。这样,能够对于主播语速是否应放慢进行实时准确地判断。

特别地,在本申请的技术方案中,这里,在计算所述声音谱图特征向量相对于所述实时数据动态特征向量的所述转移矩阵时,由于所述声音谱图特征向量的特征分布沿着所述作为过滤器的卷积神经网络模型的通道维度方向,而所述实时数据动态特征向量的特征分布沿着所述多个预定时间点的多尺度时序关联方向,而所述多尺度时序关联方向上分布单调性要显著地高于所述卷积神经网络模型的通道维度方向的分布单调性。因此,为了提升所述转移矩阵通过分类器的分类的收敛效果以提升分类结果的准确性,需要提升所述转移矩阵的整体特征分布的单调性。

由此,对所述转移矩阵进行平滑最大函数近似性调制,表示为:

m

这里,通过用沿所述转移矩阵的行和列维度的平滑最大函数来近似地定义符号化的距离函数,可以实现所述转移矩阵在高维特征空间内所表征的高维流形的凸优化的相对良好的联合,并通过以其对所述转移矩阵的结构化的特征分布进行调制,就可以获得特征分布的内在结构到特征空间内的空间特征变化的自然分布转移,增强了所述转移矩阵的高维流形的特征表达的凸单调性保留,从而增强了所述转移矩阵的分类结果的准确性。这样,能够对于主播语速是否应放慢进行实时准确地判断,进而增加主播的人气,并且实现较高的购物转化率。

基于此,本申请提供了一种用于直播信息提示的交互设备,其包括:主播监控模块,用于获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据;声谱图转化模块,用于计算所述声音数据的对数梅尔谱图;声谱特征提取模块,用于将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量;看播端数据监控模块,用于将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量;响应关联模块,用于计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;特征分布优化模块,用于对所述转移矩阵进行特征分布优化以得到分类特征矩阵;以及,交互结果生成模块,用于将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示主播的语速是否应放慢。

图1为根据本申请实施例的用于直播信息提示的交互设备的应用场景图。如图1所示,在该应用场景中,获取预定时间段的主播的声音数据(例如,如图1中所示意的D1)以及所述预定时间段内多个预定时间点的看播端的实时数据(例如,如图1中所示意的D2),然后,将所述预定时间段的主播的声音数据和所述预定时间段内多个预定时间点的看播端的实时数据输入至部署有用于直播信息提示的交互算法的服务器中(例如,图1中所示意的S),其中,所述服务器能够使用所述用于直播信息提示的交互算法对所述预定时间段的主播的声音数据和所述预定时间段内多个预定时间点的看播端的实时数据进行处理以生成用于表示主播的语速是否应放慢的分类结果。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性设备

图2为根据本申请实施例的用于直播信息提示的交互设备的框图示意图。如图2所示,根据本申请实施例的用于直播信息提示的交互设备100,包括:主播监控模块110,用于获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据;声谱图转化模块120,用于计算所述声音数据的对数梅尔谱图;声谱特征提取模块130,用于将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量;看播端数据监控模块140,用于将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量;响应关联模块150,用于计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;特征分布优化模块160,用于对所述转移矩阵进行特征分布优化以得到分类特征矩阵;以及,交互结果生成模块170,用于将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示主播的语速是否应放慢。

更具体地,在本申请实施例中,主播监控模块110,用于获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据。有的一些直播间主播在进行直播时,通常难以吸引到大量的观众观看,从而导致直播间主播的人气值较低,其中一部分原因是主播的语速难以适应观众的观看以及对于产品的选择,因此对于主播的语速需要根据观众的实时观看情况进行相应的调整。

考虑到实际对于主播的语速监控不仅与主播的声音数据语义理解特征有关,还与看播端的实时数据关于观众的兴趣特征有关,并且所述看播端的实时数据包括有以下至少之一:看播属性数据、在线人数数据、弹幕数据、礼物赠送数据和商品浏览数据,这对于主播的语速自适应实时监控带来了困难。因此,在本申请的技术方案中,采用基于深度学习的人工智能监控技术,以提取出所述主播声音数据的语义理解隐藏特征信息以及所述看播端的各项数据在时间维度上的多尺度邻域关联特征分布信息,并且计算这两者的转移矩阵来表示所述主播的声音数据语义理解隐含特征与所述看播端观众的兴趣动态变化特征的关联性特征分布信息,并以此来对于主播语速是否应放慢进行实时准确地判断,进而增加主播的人气,并且实现较高的购物转化率。

更具体地,在本申请实施例中,声谱图转化模块120,用于计算所述声音数据的对数梅尔谱图。为了提高对于所述主播的声音数据的语义理解的精准度,将所述主播的声音数据转化为声谱图,应可以理解,声谱图是由时间、频率和能量三部分组成的感知图,是声音信号的可视性语言,可提供丰富的视觉信息,结合了时域分析和频域分析,不仅能够反映信号的频率内容,同时又能够反映频率内容随时间的变化规律。特别地,在本申请的技术方案中,为了捕捉更为精准的声谱信息,计算所述声音数据的对数梅尔谱图。应可以理解,所述对数梅尔谱图是使用最为广泛的特征,它在设计过程中仿照了人耳的特性,该特性对不同频率的声音具有不同的声学敏感性。值得一提的是,所述对数梅尔谱图的提取流程类似MFCC,但减少了最后一步的线性变换即离散余弦变换,去掉这一步后,能够保留更多的所述声音数据高阶信息以及非线性信息。

相应地,在一个具体示例中,如图3所示,所述声谱图转化模块120,包括:预加重单元121,用于对所述声音数据进行预加重处理以得到预加重声音数据;分帧单元122,用于对所述预加重声音数据进行分帧处理以得到多个声音分帧;加窗单元123,用于对所述多个声音分帧进行加窗处理以得到多个加窗声音分帧;频域变换单元124,用于对所述多个加窗声音分帧进行短时傅里叶变换并取模平方以得到能量谱;以及,对数梅尔谱图生成单元125,用于将所述能量谱通过梅尔滤波器组并计算对数能量以得到所述对数梅尔谱图。

更具体地,在本申请实施例中,声谱特征提取模块130,用于将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量。使用在图像的隐含特征提取方面具有优异表现的作为过滤器的卷积神经网络模型来对于所述对数梅尔谱图进行隐含特征挖掘,以提取出所述对数梅尔谱图中关于所述主播的声音数据语义理解的局部隐含特征分布信息,从而得到声音谱图特征向量。

相应地,在一个具体示例中,所述声谱特征提取模块130,进一步用于:使用所述对数梅尔谱图通过作为过滤器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行二维卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述对数梅尔谱图通过作为过滤器的卷积神经网络模型的最后一层输出所述声音谱图特征向量,其中,所述作为过滤器的卷积神经网络模型的第一层的输入为所述对数梅尔谱图。

更具体地,在本申请实施例中,看播端数据监控模块140,用于将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量。进一步地,由于所述看播端的实时数据包括以下至少之一:看播属性数据、在线人数数据、弹幕数据、礼物赠送数据和商品浏览数据,这些所述看播端的实时数据中的各项数据都是不断变化的,并且这些所述看播端的实时数据中的各项数据之间在不同的时间点下都具有着不同程度的关联性的关系。因此,在本申请的技术方案中,进一步将所述各个预定时间点的看播端的实时数据通过全连接层以提取出在各个预定时间点下的所述看播端的实时数据中的各项数据间的关联性特征分布信息,从而得到多个实时数据特征值,并且将所述多个实时数据特征值排列为实时数据特征值输入向量。接着,将具有各个预定时间点下各项数据间关联特征信息的所述实时数据特征值输入向量通过所述多尺度邻域特征提取模块中进行特征提取,以提取出所述看播端的实时数据在不同时间跨度下的多尺度邻域关联特征,即所述看播端关于观众兴趣的动态变化特征信息,从而得到所述实时数据动态特征向量。

相应地,在一个具体示例中,如图4所示,所述看播端数据监控模块140,包括:实时数据编码单元141,用于将所述各个预定时间点的看播端的实时数据通过全连接层以得到多个实时数据特征值,并将所述多个实时数据特征值排列为实时数据特征值输入向量,其中,所述看播端的实时数据包括以下至少之一:看播属性数据、在线人数数据、弹幕数据、礼物赠送数据和商品浏览数据;以及,多尺度邻域特征提取单元142,用于将所述实时数据特征值输入向量通过所述多尺度邻域特征提取模块以得到所述实时数据动态特征向量。

相应地,在一个具体示例中,如图5所示,所述多尺度邻域特征提取单元142,包括:第一邻域尺度卷积编码子单元1421,用于使用所述多尺度邻域特征提取模块的第一卷积层对所述实时数据特征值输入向量进行一维卷积编码以得到第一尺度实时数据动态特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二邻域尺度卷积编码子单元1422,用于使用所述多尺度邻域特征提取模块的第二卷积层对所述实时数据特征值输入向量进行一维卷积编码以得到第二尺度实时数据动态特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联子单元1423,用于使用所述多尺度邻域特征提取模块的级联层将所述第一尺度实时数据动态特征向量和所述第二尺度实时数据动态特征向量进行级联以得到所述实时数据动态特征向量。

更具体地,在本申请实施例中,响应关联模块150,用于计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵。计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵,以此来表示所述主播的声音数据语义理解隐含特征与所述看播端观众的兴趣动态变化特征的关联性特征分布信息,并以此作为分类特征矩阵来进行通过分类器进行分类处理以得到用于表示主播的语速是否应放慢的分类结果。这样,能够对于主播语速是否应放慢进行实时准确地判断。

相应地,在一个具体示例中,所述响应关联模块150,进一步用于:以如下公式计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;其中,所述公式为:

其中V表示所述声音谱图特征向量,V

更具体地,在本申请实施例中,特征分布优化模块160,用于对所述转移矩阵进行特征分布优化以得到分类特征矩阵。

特别地,在本申请的技术方案中,这里,在计算所述声音谱图特征向量相对于所述实时数据动态特征向量的所述转移矩阵时,由于所述声音谱图特征向量的特征分布沿着所述作为过滤器的卷积神经网络模型的通道维度方向,而所述实时数据动态特征向量的特征分布沿着所述多个预定时间点的多尺度时序关联方向,而所述多尺度时序关联方向上分布单调性要显著地高于所述卷积神经网络模型的通道维度方向的分布单调性。因此,为了提升所述转移矩阵通过分类器的分类的收敛效果以提升分类结果的准确性,需要提升所述转移矩阵的整体特征分布的单调性。由此,对所述转移矩阵进行平滑最大函数近似性调制。

相应地,在一个具体示例中,所述特征分布优化模块160,进一步用于:以如下公式对所述转移矩阵进行特征分布优化以得到所述分类特征矩阵;其中,所述公式为:

其中M表示所述转移矩阵通过线性变换得到的对角矩阵,m

这里,通过用沿所述转移矩阵的行和列维度的平滑最大函数来近似地定义符号化的距离函数,可以实现所述转移矩阵在高维特征空间内所表征的高维流形的凸优化的相对良好的联合,并通过以其对所述转移矩阵的结构化的特征分布进行调制,就可以获得特征分布的内在结构到特征空间内的空间特征变化的自然分布转移,增强了所述转移矩阵的高维流形的特征表达的凸单调性保留,从而增强了所述转移矩阵的分类结果的准确性。这样,能够对于主播语速是否应放慢进行实时准确地判断,进而增加主播的人气,并且实现较高的购物转化率。

更具体地,在本申请实施例中,交互结果生成模块170,用于将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示主播的语速是否应放慢。

相应地,在一个具体示例中,所述交互结果生成模块170,进一步用于:将所述分类特征矩阵按照行向量或列向量展开为分类特征向量;使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

综上,基于本申请实施例的用于直播信息提示的交互设备100被阐明,其首先计算获取的预定时间段的主播的声音数据的对数梅尔谱图,接着,将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量,然后,将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量,接着,计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵并进行特征分布优化以得到分类特征矩阵,最后,将所述分类特征矩阵通过分类器以得到用于表示主播的语速是否应放慢的分类结果。通过这样的方式,可以智能地生成主播的语速是否应放慢的调整提示信息。

如上所述,根据本申请实施例的所述用于直播信息提示的交互设备100可以实现在各种终端设备中,例如用于直播信息提示的交互算法的服务器等。在一个示例中,用于直播信息提示的交互设备100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该用于直播信息提示的交互设备100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该用于直播信息提示的交互设备100同样可以是该终端设备的众多硬件模块之一。

替换地,在另一示例中,该用于直播信息提示的交互设备100与该终端设备也可以是分立的设备,并且该用于直播信息提示的交互设备100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

示例性方法

图6为根据本申请实施例的用于直播信息提示的交互方法的流程图。如图6所示,根据本申请实施例的用于直播信息提示的交互方法,其包括:S110,获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据;S120,计算所述声音数据的对数梅尔谱图;S130,将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量;S140,将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量;S150,计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;S160,对所述转移矩阵进行特征分布优化以得到分类特征矩阵;以及,S170,将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示主播的语速是否应放慢。

图7为根据本申请实施例的用于直播信息提示的交互方法的系统架构的示意图。如图7所示,在所述用于直播信息提示的交互方法的系统架构中,首先,获取预定时间段的主播的声音数据,以及,所述预定时间段内多个预定时间点的看播端的实时数据;接着,计算所述声音数据的对数梅尔谱图;然后,将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量;接着,将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量;然后,计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;接着,对所述转移矩阵进行特征分布优化以得到分类特征矩阵;最后,将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示主播的语速是否应放慢。

在一个具体示例中,在上述用于直播信息提示的交互方法中,所述计算所述声音数据的对数梅尔谱图,包括:对所述声音数据进行预加重处理以得到预加重声音数据;对所述预加重声音数据进行分帧处理以得到多个声音分帧;对所述多个声音分帧进行加窗处理以得到多个加窗声音分帧;对所述多个加窗声音分帧进行短时傅里叶变换并取模平方以得到能量谱;以及,将所述能量谱通过梅尔滤波器组并计算对数能量以得到所述对数梅尔谱图。

在一个具体示例中,在上述用于直播信息提示的交互方法中,所述将所述对数梅尔谱图通过作为过滤器的卷积神经网络模型以得到声音谱图特征向量,进一步包括:使用所述对数梅尔谱图通过作为过滤器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行二维卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述对数梅尔谱图通过作为过滤器的卷积神经网络模型的最后一层输出所述声音谱图特征向量,其中,所述作为过滤器的卷积神经网络模型的第一层的输入为所述对数梅尔谱图。

在一个具体示例中,在上述用于直播信息提示的交互方法中,所述将所述多个预定时间点的看播端的实时数据排列为输入向量后通过多尺度邻域特征提取模块以得到实时数据动态特征向量,包括:将所述各个预定时间点的看播端的实时数据通过全连接层以得到多个实时数据特征值,并将所述多个实时数据特征值排列为实时数据特征值输入向量,其中,所述看播端的实时数据包括以下至少之一:看播属性数据、在线人数数据、弹幕数据、礼物赠送数据和商品浏览数据;以及,将所述实时数据特征值输入向量通过所述多尺度邻域特征提取模块以得到所述实时数据动态特征向量。

在一个具体示例中,在上述用于直播信息提示的交互方法中,所述将所述实时数据特征值输入向量通过所述多尺度邻域特征提取模块以得到所述实时数据动态特征向量,包括:使用所述多尺度邻域特征提取模块的第一卷积层对所述实时数据特征值输入向量进行一维卷积编码以得到第一尺度实时数据动态特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;使用所述多尺度邻域特征提取模块的第二卷积层对所述实时数据特征值输入向量进行一维卷积编码以得到第二尺度实时数据动态特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,使用所述多尺度邻域特征提取模块的级联层将所述第一尺度实时数据动态特征向量和所述第二尺度实时数据动态特征向量进行级联以得到所述实时数据动态特征向量。

在一个具体示例中,在上述用于直播信息提示的交互方法中,所述计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵,进一步包括:以如下公式计算所述声音谱图特征向量相对于所述实时数据动态特征向量的转移矩阵;其中,所述公式为:

其中V表示所述声音谱图特征向量,V

在一个具体示例中,在上述用于直播信息提示的交互方法中,所述对所述转移矩阵进行特征分布优化以得到分类特征矩阵,进一步包括:以如下公式对所述转移矩阵进行特征分布优化以得到所述分类特征矩阵;其中,所述公式为:

其中M表示所述转移矩阵通过线性变换得到的对角矩阵,m

在一个具体示例中,在上述用于直播信息提示的交互方法中,所述将所述分类特征矩阵通过分类器以得到分类结果,进一步包括:将所述分类特征矩阵按照行向量或列向量展开为分类特征向量;使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

这里,本领域技术人员可以理解,上述用于直播信息提示的交互方法中的各个步骤的具体操作已经在上面参考图1到图5的用于直播信息提示的交互设备的描述中得到了详细介绍,并因此,将省略其重复描述。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术分类

06120115685875