掌桥专利:专业的专利平台
掌桥专利
首页

音频推荐的方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 11:35:49


音频推荐的方法、装置、计算机设备和存储介质

技术领域

本公开涉及音视频技术领域,特别涉及一种音频推荐的方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术和网络技术的发展,越来越多的音乐应用程序都进行个性化音乐推荐。音乐应用程序一般是基于音频的描述信息,如音频的语种、版本等,筛选出与用户匹配的音频,推荐给用户。

然而新上线的音频或者曲库中的冷门音频,其音频的描述信息并不完备或者存在标签不准确的问题,并不能基于音频的描述信息,为用户进行推荐这些音频,所以会导致推荐准确率比较低。

发明内容

本公开实施例提供了一种音频推荐的方法、装置、计算机设备和存储介质,能够解决推荐准确率比较低的问题。所述技术方案如下:

一方面,本公开提供了一种音频推荐的方法,所述方法包括:

获取目标账户的历史信息中提取的历史音频;

获取多个候选音频,其中,所述多个候选音频包括上线时长低于第一时长的音频和/或上线时长超过所述第一时长且播放量低于第一阈值的音频;

提取获取的每个音频的第一特征和第二特征;

对于获取的每个音频,使用所述音频的第一特征的统计值和第二特征的统计值进行封装,获得所述音频的音频表征;

在所述多个候选音频中,选择音频表征与所述历史音频中任一音频的音频表征的相似度高于第二阈值的音频,推荐至所述目标账户。

在一种可能的实现方式中,所述第一特征为属性特征,所述第二特征为流派特征;

所述提取获取的每个音频的第一特征和第二特征,包括:

将获取的每个音频按照时间顺序分割为等间隔的音频段;

确定每个音频的各音频段属于每个属性的置信度,获得每个音频的属性特征;其中,所述属性包括纯人声、纯音乐、伴奏音源或者目标属性中的一种或多种;

确定每个音频的各音频段属于每个流派的置信度,获得每个音频的流派特征。

在一种可能的实现方式中,所述对于获取的每个音频,使用所述音频的第一特征的统计值和第二特征的统计值进行封装,获得所述音频的音频表征,包括:

对于获取的每个音频,将所述音频的M*T维属性特征和所述音频的N*T维流派特征合并为(M+N)*T维特征,其中,M为属性的数目,N为流派的数目,T为所述音频包括的音频段的数目;

在所述音频的(M+N)*T维特征中,分别确定M个属性中各属性按照时间顺序排列的T个置信度的P个统计值、N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得所述音频的(M+N)*P维音频表征,其中,所述统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种。

这样,可以使得每个音频的音频表征的维度相同。

在一种可能的实现方式中,所述对于获取的每个音频,使用所述音频的第一特征的统计值和第二特征的统计值进行封装,获得所述音频的音频表征,包括:

对于获取的每个音频,确定所述音频的M*T维属性特征中,M个属性中各属性按照时间顺序排列的T个置信度的P个统计值,获得M*P维统计值,并确定所述音频的N*T维流派特征中,N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得N*P维统计值,其中,M为属性的数目,N为流派的数目,T为所述音频包括的音频段的数目,所述统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种;

将所述M*P维统计值和所述N*P维统计值进行合并,获得所述音频的(M+N)*P维音频表征。

这样,可以使得每个音频的音频表征的维度相同。

在一种可能的实现方式中,所述获取目标账户的历史信息中提取的历史音频,包括:

获取目标账户的历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种;

基于所述历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种,获得所述历史音频。

在一种可能的实现方式中,所述历史信息包括音频关注信息、音频评论信息和音频播放信息;

所述基于所述历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种,获得历史音频,包括:

确定所述音频关注信息指示的第一音频集合,确定所述音频评论信息中包括预设关键字的音频评论信息指示的第二音频集合,确定所述音频播放信息指示的第三音频集合;

对所述第一音频集合、所述第二音频集合和所述第三音频集合中音频进行合并去重处理,获得所述历史音频。

在一种可能的实现方式中,所述获取多个候选音频,包括:

确定所述历史音频的语种信息,以及确定当前待推荐的多个音频的语种信息;

在所述待推荐的多个音频中,获取语种信息与所述历史音频的语种信息相同的多个候选音频。

在一种可能的实现方式中,所述多个候选音频中与所述历史音频中任一音频的音频表征的相似度高于第二阈值的音频的数目超过目标数目;

所述在所述多个候选音频中,选择音频表征与所述历史音频中任一音频的音频表征的相似度高于第二阈值的音频,包括:

在所述多个候选音频中,选择音频表征与所述历史音频中任一音频的音频表征的相似度高于第二阈值且相似度最大的目标数目个音频。

这样,由于可以获取到准确的历史音频,所以可以使得推荐准确率比较高。

在一种可能的实现方式中,所述推荐至所述目标账户,包括:

将在所述多个候选音频中选择的音频,添加至所述目标账户的音频推荐点位。

这样,可以将音频推荐至音频推荐点位。

在一种可能的实现方式中,所述将在所述多个候选音频中选择的音频,添加至所述目标账户的音频推荐点位,包括:

将在所述多个候选音频中选择的音频,按照与所述历史音频的相似度从高到低的顺序,添加至所述目标账户的音频推荐点位的歌单的预设位置处。

这样,提高推荐至音频推荐点的音频的推荐效率。

另一方面,本公开提供了一种音频推荐的装置,所述装置包括:

获取模块,用于:

获取目标账户的历史信息中提取的历史音频;

获取多个候选音频,其中,所述多个候选音频包括上线时长低于第一时长的音频和/或上线时长超过所述第一时长且播放量低于第一阈值的音频;

提取模块,用于:

提取获取的每个音频的第一特征和第二特征;

对于获取的每个音频,使用所述音频的第一特征的统计值和第二特征的统计值进行封装,获得所述音频的音频表征;

推荐模块,用于在所述多个候选音频中,选择音频表征与所述历史音频中任一音频的音频表征的相似度高于第二阈值的音频,推荐至所述目标账户。

在一种可能的实现方式中,所述第一特征为属性特征,所述第二特征为流派特征;

所述提取模块,用于:

将获取的每个音频按照时间顺序分割为等间隔的音频段;

确定每个音频的各音频段属于每个属性的置信度,获得每个音频的属性特征;其中,所述属性包括纯人声、纯音乐、伴奏音源或者目标属性中的一种或多种;

确定每个音频的各音频段属于每个流派的置信度,获得每个音频的流派特征。

在一种可能的实现方式中,所述提取模块,用于:

对于获取的每个音频,将所述音频的M*T维属性特征和所述音频的N*T维流派特征合并为(M+N)*T维特征,其中,M为属性的数目,N为流派的数目,T为所述音频包括的音频段的数目;

在所述音频的(M+N)*T维特征中,分别确定M个属性中各属性按照时间顺序排列的T个置信度的P个统计值、N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得所述音频的(M+N)*P维音频表征,其中,所述统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种。

在一种可能的实现方式中,所述提取模块,用于:

对于获取的每个音频,确定所述音频的M*T维属性特征中,M个属性中各属性按照时间顺序排列的T个置信度的P个统计值,获得M*P维统计值,并确定所述音频的N*T维流派特征中,N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得N*P维统计值,其中,M为属性的数目,N为流派的数目,T为所述音频包括的音频段的数目,所述统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种;

将所述M*P维统计值和所述N*P维统计值进行合并,获得所述音频的(M+N)*P维音频表征。

在一种可能的实现方式中,所述获取模块,用于:

获取目标账户的历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种;

基于所述历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种,获得所述历史音频。

在一种可能的实现方式中,所述历史信息包括音频关注信息、音频评论信息和音频播放信息;

在一种可能的实现方式中,所述获取模块,用于:

确定所述音频关注信息指示的第一音频集合,确定所述音频评论信息中包括预设关键字的音频评论信息指示的第二音频集合,确定所述音频播放信息指示的第三音频集合;

对所述第一音频集合、所述第二音频集合和所述第三音频集合中音频进行合并去重处理,获得所述历史音频。

在一种可能的实现方式中,所述获取模块,用于:确定所述历史音频的语种信息,以及确定当前待推荐的多个音频的语种信息;

在所述待推荐的多个音频中,获取语种信息与所述历史音频的语种信息相同的多个候选音频。

在一种可能的实现方式中,所述多个候选音频中与所述历史音频中任一音频的音频表征的相似度高于第二阈值的音频的数目超过目标数目;

所述推荐模块,用于:

在所述多个候选音频中,选择音频表征与所述历史音频中任一音频的音频表征的相似度高于第二阈值且相似度最大的目标数目个音频。

在一种可能的实现方式中,所述推荐模块,用于:

将在所述多个候选音频中选择的音频,添加至所述目标账户的音频推荐点位。

在一种可能的实现方式中,所述推荐模块,用于:将在所述多个候选音频中选择的音频,按照与所述历史音频的相似度从高到低的顺序,添加至所述目标账户的音频推荐点位的歌单的预设位置处。

再一方面,本公开提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如第一方面所述的音频推荐的方法所执行的操作。

再一方面,本公开提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如第一方面所述的音频推荐的方法所执行的操作。

本公开实施例提供的技术方案带来的有益效果至少包括:

本公开实施例中,在存在新上线或者上线时长比较长但是播放量较小的候选音频时,可以获取用户的历史音频,确定出历史音频的音频表征和候选音频的音频表征。基于候选音频的音频表征和历史音频的音频表征进行推荐,而不依赖于音频的描述信息进行推荐,使得推荐准确率比较高,进而可以提升新上新线音频的播放量。

附图说明

图1是本公开实施例提供的音频推荐的方法的流程图;

图2是本公开实施例提供的获得音频表征的示意图;

图3是本公开实施例提供的音频推荐的框架示意图;

图4是本公开实施例提供的音频推荐的装置的结构示意图;

图5是本公开实施例提供的计算机设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。

为了更好的理解本公开实施例,首先介绍下可能涉及的名词概念:

音频表征,指基于音频的音频波形进行信息提取,以向量或者矩阵等抽象的特征代替直观的文本来表示音频。

感兴趣音频,指基于账户对应的最近播放音频的行为,获得的用户感兴趣的音频。

相关技术中,新上线(也可以称为是新发布)的音频或者曲库中的冷门音频,由于音频的描述信息并不完整,或者存在标签不准确的问题,并不能基于音频的描述信息,为用户推荐这些音频,所以会导致推荐准确率较低。为了精准的推荐音频,本公开实施例提供了一种音频推荐的方法,该方法的执行主体可以是推荐装置,推荐装置可以是软件程序,也可以是服务器等计算机设备,该服务器也可以是云端服务器。服务器可以包括处理器、存储器和收发器。处理器可以用于执行音频推荐的过程的处理,如可以提取音频的音频表征等。存储器可以用于存储音频推荐的过程中需要的数据,以及产生的数据,如可以用于存储提取出的音频表征等。收发器可以用于接收以及发送数据。

本公开实施例中,推荐装置可以为音频程序的每个账户推荐音频,如下以为目标账户推荐音频为例,介绍音频推荐的方法的执行流程,如图1所示:

步骤101,获取目标账户的历史信息中提取的历史音频;获取多个候选音频,其中,多个候选音频包括上线时长低于第一时长的音频和/或上线时长超过第一时长且播放量低于第一阈值的音频。

其中,目标账户为任一账户,第一时长可以预设,如15天,第一阈值可以预设,如200等。音频可以是歌曲、乐器演奏音频等。音频的格式可以是任意格式,例如,mp3(movingpicture experts group audio layer III,动态影像专家压缩标准音频层面3)格式、flac(free lossless audio codec,无损音频压缩编码)格式、wav(波形声音文件)格式、ogg(ogg vorbis)格式等,ogg格式是一种音频压缩格式。

在本实施例中,推荐装置基于推荐周期,确定达到推荐时间点时,可以获取目标账户的历史信息,历史信息可以包括已播放的音频等信息。推荐装置使用历史信息,确定目标账户对应的历史音频。该历史音频也可以称为是感兴趣音频。

推荐装置还可以确定当前待推荐的音频,待推荐的音频可以是推荐装置所在音频程序后端的音频库中的任一音频。然后推荐装置确定这些音频的上线时长,筛选出上线时长小于第一时长的音频,获得多个候选音频。或者,推荐装置确定这些音频的上线时长和播放量,筛选出上线时长超过第一时长且播放量低于第一阈值的音频,获得多个候选音频。或者,推荐装置确定这些音频的上线时长和播放量,推荐装置筛选出上线时长小于第一时长的音频,以及上线时长超过第一时长且播放量低于第一阈值的音频,获得多个候选音频。此处在确定候选音频时,如果推荐装置可以直接获取到新上线的音频(如在新歌库中,获取到新上线的音频),则可以将新上线的音频,确定为候选音频。

此处推荐周期可以是一天、一周等,推荐时间点可以预设,如是24:00时,这样在用户使用量较少时进行推荐,可以使得音频程序后端的压力较小。

步骤102,提取获取的每个音频的第一特征和第二特征;对于获取的每个音频,使用音频的第一特征的统计值和第二特征的统计值进行封装,获得音频的音频表征。

其中,第一特征和第二特征是不同类型的特征。

在本实施例中,推荐装置可以提取每个候选音频的第一特征和第二特征,并且提取每个历史音频的第一特征和第二特征。推荐装置可以使用每个候选音频的第一特征的统计值和第二特征的统计值进行封装,获得每个候选音频的音频表征。并且推荐装置可以使用每个历史音频的第一特征的统计值和第二特征的统计值进行封装,获得每个历史音频的音频表征。

另外,在提取获取的每个音频的音频表征之前,推荐装置可以对每个音频进行预处理,过程为:

将每个音频的原始波形数据,通过时频域变换,获得二维声谱图(spectrogram)。另外,考虑到人耳对频率的感知并非线性,可以将频域轴为线性的声谱图映射到梅尔尺度,获得梅尔声谱图(melspectrogram),再考虑到人耳对声音强度的感知也并非线性,可将梅尔声谱图的能量取对数,获得对数能量下的梅尔声谱图(log-melspectrogram)。后续提取音频表征,都是对该音频的对数能量下的梅尔声谱图进行操作,提取该音频的音频表征。在提取音频的音频表征之前,进行上述预处理,将音频从时域转换到频域,会体现出更多的语义信息。

步骤103,在多个候选音频中,选择音频表征与历史音频中任一音频的音频表征的相似度高于第二阈值的音频,推荐至目标账户。

其中,第二阈值可以预设,存储至推荐装置中。

在本实施例中,假设候选音频的数目为N,候选音频的音频表征记为En,n=[1,2,…,N],历史音频的数目为M,历史音频的音频表征记为Pm,m=[1,2,…,M]。

推荐装置确定任一候选音频(可以称为是候选音频i)的音频表征Ei和历史音频中每个音频的音频表征Pm之间的相似度,该相似度可以为余弦相似度,或者是欧式距离等,分别记录为C(i,m),m=[1,2,…,M]。推荐装置确定C(i,m)中的最大值,即为候选音频i与历史音频之间的最大相似度,记录为Cui。

按照上述方式,确定候选音频中每个音频的音频表征和历史音频中每个音频的音频表征Pm之间的相似度,分别获得候选音频中每个音频对应的最大相似度[Cu1,Cu2,…,CuN]。

推荐装置将[Cu1,Cu2,…,CuN]按照相似度从大到小进行排序,在候选音频中,选择相似度大于第二阈值的音频,获得要推荐给目标账户的音频。推荐装置将选择的音频,推荐至目标账户。这样,用户在使用目标账户登录音频程序后,音频程序的后端将推荐给目标账户的音频,推送至音频程序的前端。用户在音频程序中,可以看到推荐装置推荐的音频。

可选的,如果相似度大于第二阈值的音频比较多,步骤103的处理可以为:

在多个候选音频中,选择音频表征与历史音频中任一音频的音频表征的相似度高于第二阈值且相似度最大的目标数目个音频。

其中,目标数目可以预设,如30等。

在本实施例中,如果相似度大于第二阈值的音频比较多,推荐装置可以在相似度大于第二阈值的音频中选择相似度最大的目标数目个音频。推荐装置将选择的目标数目个音频,推荐至目标账户,以防止给目标账户推荐的音频过多。

可选的,第二阈值可以为0.707,0.707即夹角为45度的余弦相似度。

这样,可以基于音频的音频表征推荐音频,可见是基于音频本身的波形进行推荐,而不是使用音频的描述信息进行推荐,所以即使不存在音频的描述信息,也能精准的进行推荐,进而会提升音频播放量。

如下对图1所示的流程进行进一步的补充说明:

在一种可能的实现方式中,可以基于语种信息,筛选出候选音频,步骤101中获取候选音频的处理为:

确定历史音频的语种信息,以及确定当前待推荐的多个音频的语种信息;在待推荐的多个音频中,获取语种信息与历史音频的语种信息相同的多个候选音频。

其中,语种信息可以为华语、英文、韩语等。

在本实施例中,推荐装置可以获取历史音频的语种信息,并且获取当前待推荐的音频的语种信息。推荐装置确定当前待推荐的音频中,与历史音频的语种信息相同的音频,获得多个候选音频。这样,由于用户一般是喜欢相同语种信息的音频,所以可以先使用语种信息进行筛选,使得不需要确定音频表征就能筛选部分音频,使得音频推荐的计算量比较小。

在一种可能的实现方式中,可以基于目标账户的一些行为信息,获得目标账户对应的历史音频,步骤101中,获取历史音频的处理为:

获取目标账户的历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种;基于历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种,获得历史音频。

其中,音频关注信息为目标账户对应的关注列表中的音频标识,目标账户的用户在音频程序中关注了某个音频,该音频的标识添加至目标账户对应的关注列表中。音频评论信息为目标账户的用户在音频程序中对音频进行评论,生成的评论信息。音频播放信息为目标账户对应的音频历史播放信息。

在本实施例中,推荐装置可以获取历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种。然后确定音频关注信息中的音频标识指示的音频。使用预设的关键字,筛选音频评论信息,确定筛选出的音频评论信息指示的音频。此处关键字可以是“好听”、“喜欢”等一些表示喜欢的词语。并且获取音频播放信息中,播放次数最多且播放完成的目标数目个音频。

推荐装置使用音频关注信息、音频评论信息或音频播放信息中的一种或多种获取到音频,这样即确定出历史音频。

在一种可能的实现方式中,历史信息包括音频关注信息、音频评论信息和音频播放信息,确定历史音频的处理可以为:

确定音频关注信息指示的第一音频集合,确定音频评论信息中包括预设关键字的音频评论信息指示的第二音频集合,确定音频播放信息指示的第三音频集合;对第一音频集合、第二音频集合和第三音频集合中音频进行合并去重处理,获得历史音频。

在本实施例中,推荐装置可以获取历史信息中的音频关注信息、音频评论信息和音频播放信息。然后确定音频关注信息中的音频标识指示的音频,这些音频组成第一音频集合。使用预设的关键字,筛选音频评论信息,确定筛选出的音频评论信息指示的音频,这些音频组成第二音频集合。此处关键字可以是“好听”、“喜欢”等一些表示喜欢的词语。并且获取音频播放信息中,播放次数最多且播放完成的预设数目个音频,这预设数目个音频组成第三音频集合。预设数目可以是预设的,如预设数目为30等。

然后推荐装置将第一音频集合、第二音频集合和第三音频集合进行合并,获取合并后的集合中音频,将合并后的集合中的音频去重,获得历史音频。此处“去重”指将相同的音频仅保留一个。

可选的,上述历史信息可以是距离当前时间点最近的第二时长,第二时长可以预设,如1个月,第二时长可以与目标账户对应,如果目标账户使用音频程序频率高,则第二时长可以短一点,如果目标账户使用音频程序频率低,则第二时长可以长一点。

以上仅是一种可能的获取历史音频的方式,当然还可以使用其它方式获取历史音频,例如,使用目标账户对应的音频下载信息,将下载的音频,确定为目标账户对应的历史音频。

在一种可能的实现方式中,第一特征为属性特征,第二特征为流派特征,步骤102中提取获取的每个音频的第一特征和第二特征的处理如下:

将获取的每个音频按照时间顺序分割为等间隔的音频段;确定每个音频的各音频段属于每个属性的置信度,获得每个音频的属性特征;确定每个音频的各音频段属于每个流派的置信度,获得每个音频的流派特征。

其中,属性包括纯人声、纯音乐、伴奏音源或者目标属性中的一种或多种。纯人声指音频只包含人声音源,无其他伴奏音源,如清唱、合唱等。纯音乐指音频中除人声以外的音源,如歌曲伴奏或者器乐演奏等音源。伴奏音源指音频除人声演唱还有伴奏。目标属性指预设的环境音,如雨声、雷声等。流派可以是音频程序中对音频进行标注的常用流派,且流派之间的界限相对清晰,可以根据音色或者节奏模式等进行区分。例如,流派为10种,分别为:摇滚、流行、古典、说唱、乡村、民谣、金属、电子音乐、节奏音乐(包括布鲁斯、节奏布鲁斯、雷鬼等)、以及世界音乐。

在本实施例中,对于步骤101获取的任一音频,对该音频进行预处理,经过预处理后记为S,将S输入至属性特征提取模型,获得该音频的属性特征。并且将S输入至流派特征提取模型,获得该音频的流派特征。示例性的,属性特征的提取方式为:

属性特征提取模型将S按照时间顺序,划分为多个音频段,每个音频段的时长相同,如每个音频段的时长为3秒。然后属性特征提取模型计算每个音频段属于各属性的置信度,每个音频段对应的置信度的数目为属性的数目,置信度的范围为[0,1]。这样,假设属性为4种,S包括T个音频段,那么属性特征提取模型会输出4*T维属性特征。此处是由属性特征提取模型划分音频段,当然也可以由其它模型划分音频段,将划分好的音频段,输入至属性特征提取模型,属性特征提取模型确定音频段属于各属性的置信度。

流派特征的提取方式为:

流派特征提取模型将S按照时间顺序,划分为多个音频段,每个音频段的时长相同,如每个音频段的时长为3秒。然后流派特征提取模型计算每个音频段属于各流派的置信度,每个音频段对应的置信度的数目为流派的数目,置信度的范围为[0,1]。这样,假设流派为10种,S包括T个音频段,那么流派特征提取模型会输出10*T维流派特征。此处是由流派特征提取模型划分音频段,当然也可以由其它模型划分音频段,将划分好的音频段,输入至流派特征提取模型,流派特征提取模型确定音频段属于各流派的置信度。

在本公开中,时间顺序为音频的播放时间顺序。

此处需要说明的是,属性特征提取模型和流派特征提取模型可以是深度卷积神经网络。预先可以使用多个样本音频,训练获得属性特征提取模型和流派特征提取模型。

在本公开实施例中,置信度也可以称为是概率。

可选的,步骤102中,获得获取的每个音频的音频表征的处理为:

方式一,对于获取的每个音频,将音频的M*T维属性特征和音频的N*T维流派特征合并为(M+N)*T维特征,其中,M为属性的数目,N为流派的数目,T为音频包括的音频段的数目;在音频的(M+N)*T维特征中,分别确定M个属性中各属性按照时间顺序排列的T个置信度的P个统计值、N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得音频的(M+N)*P维音频表征,其中,统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种。

在本实施例中,推荐装置将获取的每个音频的M*T属性特征和N*T流派特征合并,获得每个音频的(M+N)*T合并特征,M为属性的数目,N为流派的数目,T为该音频包括的音频段的数目。例如,

然后推荐装置在(M+N)*T维特征中,确定M个属性中各属性按照时间顺序排列的T个置信度的P个统计值,并且可以确定N个流派中各流派按照时间顺序排列的T个置信度的P个统计值。将M个属性中各属性按照时间顺序排列的T个置信度的P个统计值和N个流派中各流派按照时间顺序排列的T个置信度的P个统计值组成(M+N)*P维音频表征。例如,对于某个音频,M取值为4,N取值为10,T为该音频包括的音频段的数目,该音频合并后为14*T维特征,4个属性,10个流派,每个属性在各音频段有一个置信度,那么每个属性有T个置信度,每个流派有T个置信度,确定每个属性的T个置信度的最小值、最大值、均差、方差、峰值与偏度,将T个置信度转换为6个统计值(最小值、最大值、均差、方差、峰值与偏度),并且确定每个流派的T个置信度的最小值、最大值、均差、方差、峰值与偏度,将T个置信度转换为6个统计值。这样,该音频的音频表征为14*6维。可见将不同播放时长的音频均转换为14*6维,使得每个音频输出维度相同的音频表征,方便后续进行相似度计算。

方式二,对于获取的每个音频,确定音频的M*T维属性特征中,M个属性中各属性按照时间顺序排列的T个置信度的P个统计值,获得M*P维统计值,并确定音频的N*T维流派特征中,N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得N*P维统计值,其中,M为属性的数目,N为流派的数目,T为音频包括的音频段的数目,统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种;将M*P维统计值和N*P维统计值进行合并,获得音频的(M+N)*P维音频表征。

在本实施例中,对于步骤101获取的每个音频,在M*T维属性特征中,M个属性中每个属性在各音频段有一个置信度。由于每个音频有T个音频段,所以每个属性有T个置信度,确定每个属性的T个置信度的P个统计值,P个统计值为最小值、最大值、均差、方差、峰值和偏度中的P个统计值,由于有M个属性,所以可以获得M*P维统计值。并且在N*T维流派特征中,N个流派中每个流派在各音频段有一个置信度。由于每个音频有T个音频段,所以每个流派有T个置信度,确定每个流派的T个置信度的P个统计值,P个统计值为最小值、最大值、均差、方差、峰值和偏度中的P个统计值,由于有N个流派,所以可以获得N*P维统计值。

然后推荐装置将M*P维统计值和N*P维统计值直接合并在一起,获得音频的(M+N)*P维音频表征。例如,M*P维统计值为4*6维,相当于一个4*6的矩阵,N*P维统计值为10*6维,相当于一个10*6的矩阵,将4*6的矩阵和10*6的矩阵合并在一起即为14*6维的矩阵。

如图2所示,可见对于一个音频,经过音频预处理后,分别提取属性特征和流派特征,然后再基于属性特征和流派特征,获得该音频的音频表征。

如图3所示,在图1流程的基础上结合语种信息,以及结合历史音频与候选音频的相似度,还提供了音频推荐的框架图。

在一种可能的实现方式中,步骤103中推荐至目标账户的处理可以为:

将在多个候选音频中选择的音频,添加至目标账户的音频推荐点位。

其中,目标推荐点位可以为音频程序中的个性电台、今日私享等位置。

在本实施例中,推荐装置可以将在候选音频中选择的音频的标识,添加至目标账户的音频推荐点位的歌单中。这样,用户在打开音频应用程序后,音频程序的后端会将音频推荐点位的歌单发送给音频程序,用户可以在音频推荐点位看到推荐的音频。

可选的,可以将选择的音频的标识添加至目标账户的音频推荐点位的歌单的预设位置处,处理为:

将在多个候选音频中选择的音频,按照与历史音频的相似度从高到低的顺序,添加至目标账户的音频推荐点位的歌单的预设位置处。

其中,预设位置可以为第三首、第十首、第十五首等。

在本实施例中,将在候选音频中选择的音频的标识,添加至目标账户的音频推荐点位时,还会通知音频推荐点位中选择的音频的排序,排序是按照相似度大小进行排序,相似度大的排序在前,相似度小的排序在后,按照这种方式添加至目标账户的音频推荐点位的歌单的预设位置处。这样,可以使得用户首先看到相似度大的音频,提升相似度大的音频的播放量。

本公开实施例中,在存在新上线或者上线时长比较长但是播放量较小的候选音频时,可以获取用户历史音频。基于候选音频的音频表征和历史音频的音频表征进行推荐,而不依赖于音频的描述信息进行推荐,使得推荐准确率比较高,进而可以提升新上新线音频的播放量。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

基于相同的技术构思,本公开实施例还提供了一种音频推荐的装置,如图4所示,该装置包括:

获取模块410,用于:

获取目标账户的历史信息中提取的历史音频;

获取多个候选音频,其中,所述多个候选音频包括上线时长低于第一时长的音频和/或上线时长超过所述第一时长且播放量低于第一阈值的音频;

提取模块420,用于:

提取获取的每个音频的第一特征和第二特征;

对于获取的每个音频,使用所述音频的第一特征的统计值和第二特征的统计值进行封装,获得所述音频的音频表征;

推荐模块430,用于在所述多个候选音频中,选择音频表征与所述历史音频中任一音频的音频表征的相似度高于第二阈值的音频,推荐至所述目标账户。

在一种可能的实现方式中,所述第一特征为属性特征,所述第二特征为流派特征;

所述提取模块420,用于:

将获取的每个音频按照时间顺序分割为等间隔的音频段;

确定每个音频的各音频段属于每个属性的置信度,获得每个音频的属性特征;其中,所述属性包括纯人声、纯音乐、伴奏音源或者目标属性中的一种或多种;

确定每个音频的各音频段属于每个流派的置信度,获得每个音频的流派特征。

在一种可能的实现方式中,所述提取模块420,用于:

对于获取的每个音频,将所述音频的M*T维属性特征和所述音频的N*T维流派特征合并为(M+N)*T维特征,其中,M为属性的数目,N为流派的数目,T为所述音频包括的音频段的数目;

在所述音频的(M+N)*T维特征中,分别确定M个属性中各属性按照时间顺序排列的T个置信度的P个统计值、N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得所述音频的(M+N)*P维音频表征,其中,所述统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种。

在一种可能的实现方式中,所述提取模块420,用于:

对于获取的每个音频,确定所述音频的M*T维属性特征中,M个属性中各属性按照时间顺序排列的T个置信度的P个统计值,获得M*P维统计值,并确定所述音频的N*T维流派特征中,N个流派中各流派按照时间顺序排列的T个置信度的P个统计值,获得N*P维统计值,其中,M为属性的数目,N为流派的数目,T为所述音频包括的音频段的数目,所述统计值包括最小值、最大值、均值、方差、峰值或偏度中的一种或多种;

将所述M*P维统计值和所述N*P维统计值进行合并,获得所述音频的(M+N)*P维音频表征。

在一种可能的实现方式中,所述获取模块410,用于:

获取目标账户的历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种;

基于所述历史信息中的音频关注信息、音频评论信息或音频播放信息中的一种或多种,获得所述历史音频。

在一种可能的实现方式中,所述历史信息包括音频关注信息、音频评论信息和音频播放信息;

在一种可能的实现方式中,所述获取模块410,用于:

确定所述音频关注信息指示的第一音频集合,确定所述音频评论信息中包括预设关键字的音频评论信息指示的第二音频集合,确定所述音频播放信息指示的第三音频集合;

对所述第一音频集合、所述第二音频集合和所述第三音频集合中音频进行合并去重处理,获得所述历史音频。

在一种可能的实现方式中,所述获取模块410,用于:确定所述历史音频的语种信息,以及确定当前待推荐的多个音频的语种信息;

在所述待推荐的多个音频中,获取语种信息与所述历史音频的语种信息相同的多个候选音频。

在一种可能的实现方式中,所述多个候选音频中与所述历史音频中任一音频的音频表征的相似度高于第二阈值的音频的数目超过目标数目;

所述推荐模块430,用于:

在所述多个候选音频中,选择音频表征与所述历史音频中任一音频的音频表征的相似度高于第二阈值且相似度最大的目标数目个音频。

在一种可能的实现方式中,所述推荐模块430,用于:

将在所述多个候选音频中选择的音频,添加至所述目标账户的音频推荐点位。

在一种可能的实现方式中,所述推荐模块,用于:将在所述多个候选音频中选择的音频,按照与所述历史音频的相似度从高到低的顺序,添加至所述目标账户的音频推荐点位的歌单的预设位置处。

需要说明的是:上述实施例提供的音频推荐的装置在推荐音频时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将音频推荐的装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频推荐的装置与音频推荐的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图5是本公开实施例提供的一种计算机设备的结构示意图,该计算机设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上CPU(central processingunits,处理器)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述音频推荐的方法。当然,该计算机设备还可以具有有线或无线网络接口、输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中音频推荐的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是ROM(read-only memory,只读存储器,)、RAM(random access memory,随机存取存储器)、CD-ROM(compact disc read-only memory,光盘只读存储器)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

相关技术
  • 一种音频推荐方法、装置、电子设备及计算机存储介质
  • 一种音频推荐方法、装置、电子设备及计算机存储介质
技术分类

06120112986113