掌桥专利:专业的专利平台
掌桥专利
首页

一种基于大数据的音乐推送方法及系统

文献发布时间:2024-04-18 20:02:18


一种基于大数据的音乐推送方法及系统

技术领域

本发明涉及音乐推送技术领域,更具体地说,本发明涉及一种基于大数据的音乐推送方法及系统。

背景技术

随着互联网技术及音乐资源电子化地持续发展,用户获取音乐资源的途径和方式变得越来越简单和便捷。只需轻点鼠标,海量的音乐资源就会呈现在眼前。然而,随着音乐库的规模不断扩大,用户在寻找自己喜爱的音乐时却遇到了新的难题。如何在浩如烟海的音乐库中快速找到触动自己心灵的音乐,成为摆在用户面前的一大挑战。

现有的音乐推荐算法多为单一推荐算法,常见的推荐算法包括基于用户历史记录的内容推荐算法和协同过滤推荐算法,在基于内容的推荐算法中,音乐的特征被作为主要的推荐依据。这些特征可能包括音乐的风格、节奏、旋律、歌词等,通过分析用户历史听歌记录和歌曲特征,基于内容的推荐算法可以为用户推荐类似风格的音乐,然而,这种推荐方式往往只考虑了音乐的共性特征,而忽略了用户个体的差异和多样性需求;协同过滤推荐算法则是一种基于用户行为的推荐方法,通过分析用户之间的行为相似度,将具有相似听歌习惯的用户喜欢的音乐推荐给新用户,这种推荐方式能够考虑到用户的个性化需求和市场动态变化。但随着音乐库的不断扩大,用户之间的行为相似度可能会变得越来越低,导致协同过滤的效果下降。

综上,现有的音乐推送系统存在的问题有:通过分析用户历史听歌记录和歌曲特征,基于内容的推荐算法可以为用户推荐类似风格的音乐,只考虑了音乐的共性特征,而忽略了用户个体的差异和多样性需求,导致用户对音乐推送平台的粘性降低,导致用户流失。

发明内容

为了克服现有技术的上述缺陷,本发明提供一种基于大数据的音乐推送方法及系统,基于训练好的用户偏好预测模型得到用户对于新音乐的偏好程度,得到用户感兴趣音乐集合A;基于协同过滤推荐算法得到用户相似人群,将用户Yv喜欢的音乐推荐给用户Yu,得到用户感兴趣音乐集合B;将用户感兴趣音乐集合A、集合B按照等数量音乐进行划分,得到若干区域,基于每个区域的偏好程度指数平均值,设置每个区域的选取概率;基于设置的选取概率从每个区域中随机得到音乐,构成用户Yu的音乐推送列表,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于大数据的音乐推送方法,包括下列步骤:

采集用户信息,包括用户基础信息、音乐基础信息和用户行为数据;

将用户行为数据输入偏好程度分析模型,得到用户对音乐偏好指数pi;

基于聚类分析得到音乐向量矩阵Pw,将用户对音乐偏好指数pi记为目标变量,通过机器学习得到每个维度特征向量的贡献度集合Gx;

基于训练好的用户偏好预测模型得到用户对于新音乐的偏好程度,将满足预设值tha的新音乐标记为用户感兴趣音乐集合A,将用户记为Yu;

从用户Yu信息中筛选得到冷门音乐,通过协同过滤推荐算法,分析用户之间的行为相似度,基于行为相似度得到用户相似人群,将用户相似人群记为Yv,将用户Yv喜欢的音乐推荐给用户Yu,得到用户感兴趣音乐集合B;

将用户感兴趣音乐集合A和用户感兴趣音乐集合B按照等数量音乐进行划分,得到若干区域,基于每个区域的偏好程度指数平均值,设置每个区域的选取概率xpi;

基于设置的选取概率从每个区域中随机得到音乐,构成用户Yu的音乐推送列表。

优选的,所述音乐基础信息包括音乐名称、作曲者信息、歌唱者信息、歌词文本内容、音乐时长,所述用户行为数据包括用户播放音乐的次数、时间、评论、分享信息。

优选的,基于用户行为信息得到用户对音乐的偏好程度指数,将用户第i首音乐对应的偏好程度指数记为pi,i表示音乐编号,i的取值为[1-n],将获取的用户行为数据输入偏好程度分析模型

优选的,基于用户对音乐偏好指数得到用户感兴趣的音乐集合Gu,音乐集合Gu中包括n首音乐,基于聚类分析技术提取得到若干个音乐特征维度,得到关于每首音乐的音乐特征向量,将提取的音乐特征向量转映射成取值范围在[0-1]的数值,基于音乐集合Gu得到音乐向量矩阵Pw,设音乐特征维度有m个,则音乐向量矩阵Pw满足

优选的,通过聚类分析得到用户对于音乐的若干特征维度的向量值,包括下列步骤:

特征提取:基于音乐集合Gu提取音乐特征,音乐特征至少包括音乐的文本特征和旋律特征,基于音乐对应的歌词、文本内容,经过特征提取得到若干维度的音乐文本特征,至少包括歌词的词频、情感分析得分、主题词;基于音乐对应的音频信号,得到若干维度的音乐旋律特征,至少包括节奏、音高、和弦;

聚类分析:使用K-means、层次聚类或其他聚类算法对提取的特征进行聚类,通过轮廓系数、肘部法则来确定聚类数量,即得到特征向量的维度;

对于每个聚类,计算每个聚类的中心点,即计算每个特征维度的平均值,特征维度的平均值理解为该聚类代表的向量值;

向量值:计算每个音乐特征与每个聚类的中心点的距离,经过线性归一得到每个特征维度平均值的距离,得到音乐的特征维度的向量值。

优选的,贡献度集合的获取方式为:使用机器学习算法将音乐向量矩阵Pw映射到偏好程度指数为pi,得到每个音乐特征维度的贡献度参数,若干个音乐特征维度构成贡献度集合,得到每个用户关于音乐特征维度对应的贡献度集合Gx,满足

优选的,贡献度集合的获取方式为:获取新音乐在m个文本特征维度的向量值xwj,从数据库中获取音乐文本特征维度对应的贡献度集合gj,预测得到用户对于新音乐文本的偏好程度指数,满足公式

优选的,从用户Yu的信息中筛选出冷门音乐,然后通过分析与其他用户的行为相似度来找出与用户Yu最相似的其他用户,最后基于这些相似度信息为用户推荐音乐,包括下列步骤:

从用户Yu信息中筛选得到冷门音乐:收集用户Yu听过的所有音乐信息,

通过协同过滤推荐算法,通过分析用户之间的听冷门歌行为相似度,计算用户Yu与其他用户之间的行为相似度Lxs;

基于行为相似度Lxs得到用户的相似人群,相似人群喜欢的冷门音乐构成用户感兴趣音乐集合B。

优选的,所述行为相似度Lxs的获取方式为:

获取

分析用户Yu和用户Yv关于第i首冷门音乐的听歌频率、时间、偏好程度指数,并将用户Yu对第i首冷门音乐的听歌频率、时间、偏好程度指数,分别标记为u_lpi,u_lti,u_pi;并将用户Yv对第i首冷门音乐的听歌频率、时间、偏好程度指数,分别标记为v_lpi,v_lti,v_pi;

通过公式得到

用户Yu与用户Yv的行为相似度,其中,/>

设置行为相似度的阈值,当

优选的,设置用户感兴趣音乐集合A和用户感兴趣音乐集合B的占比为w1和w2,w1+w2=100%;即在推送歌单中,用户感兴趣音乐集合A的占比为w1,用户感兴趣音乐集合B的占比为w2,初始值管理人员设置,在接受用户反馈信息后,进行调整;

将用户感兴趣音乐集合A和用户感兴趣音乐集合B按照等音乐数量进行划分,并进行编号,得到若干区域;

基于每个区域的偏好程度指数平均值设置每个区域的选取概率xpi;

将每个区域的偏好程度指数平均值记为pi_avg,i表示区域的编号,每个区域的选取概率xpi满足公式,

为实现上述目的,本发明提供如下技术方案:一种基于大数据的音乐推送系统,包括:

用户信息采集模块,用于采集用户信息,包括用户基础信息、音乐基础信息和用户行为数据;

音乐偏好指数分析模块,将用户行为数据输入偏好程度分析模型,得到用户对音乐偏好指数pi;

音乐偏好预测模块,用于筛选得到用户感兴趣音乐集合A,将用户对音乐偏好指数pi作为机器学习的目标变量,基于音乐向量矩阵得到每个用户的特征维度贡献度,基于音乐向量矩阵和特征维度贡献度预测用户对新音乐的音乐偏好指数,基于预测的音乐偏好指数筛选得到用户感兴趣音乐集合A;

协同过滤筛选模块,用于筛选得到用户感兴趣音乐集合B,获取用户的冷门音乐集合的交集,通过协同过滤推荐算法分析用户之间的行为相似度,基于行为相似度得到用户相似人群,将用户相似人群记为Yu,将用户相似人群记为Yv,用户Yv喜欢的音乐推荐给用户Yu,得到用户感兴趣音乐集合B;

推送列表构建模块,基于概率从音乐库中筛选得到用户的音乐推送列表,将用户感兴趣音乐集合A和用户感兴趣音乐集合B按照等数量音乐进行划分,得到若干区域,基于每个区域的偏好程度指数平均值,设置每个区域的选取概率。

本发明的技术效果和优点:

本发明通过分析用户行为数据得到用户对音乐的偏好程度指数,基于机器学习,将音乐向量矩阵作为第一变量,将用户对音乐的偏好程度指数作为目标变量,经过训练学习,得到用户的贡献度集合;基于贡献度集合预测用户对于新音乐的偏好程度,能够为用户推送感兴趣的音乐;

本发明通过对冷门音乐的偏好,筛选用户的相似人群,能够解决随着音乐库的不断扩大,用户之间的行为相似度可能会变得越来越低,导致协同过滤的效果下降的问题,在基于协同过滤推荐算法中融入时间因素,通过分析用户在不同时间段的听歌行为变化,捕捉到用户对冷门音乐的喜爱程度,能够更好地适应市场和用户兴趣的变化,提高推荐的精准度;

本发明通过将用户感兴趣音乐集合A和用户感兴趣音乐集合B按照等数量音乐进行划分,得到若干区域,基于每个区域的偏好程度指数平均值,设置每个区域的选取概率xpi;基于设置的选取概率从每个区域中随机得到音乐,构成用户Yu的音乐推送列表,能够克服传统单一音乐推荐算法的局限性,提高音乐推荐的精准度和质量,增加个性化的随机推送,从而为用户提供更为精准、个性化的音乐推荐服务。

附图说明

图1为本发明的音乐推送方法流程图。

图2为本发明的聚类分析流程图。

图3为本发明的音乐推送系统结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本发明提供了如图1所示的一种基于大数据的音乐推送方法,包括下列步骤:

采集用户信息,包括用户基础信息、音乐基础信息和用户行为数据;

将用户行为数据输入偏好程度分析模型,得到用户对音乐偏好指数pi;

基于聚类分析得到音乐向量矩阵Pw,将用户对音乐偏好指数pi记为目标变量,通过机器学习得到每个维度特征向量的贡献度集合Gx;

基于训练好的用户偏好预测模型得到用户对于新音乐的偏好程度,将满足预设值tha的新音乐标记为用户感兴趣音乐集合A,将用户记为Yu;

在本发明实施例中需要解释的是,预设值tha的基于管理人群设置,例如管理人员将播放超过5次、播放超过20min、分享或评论超过三次的音乐标记为用户感兴趣的音乐。

从用户Yu信息中筛选得到冷门音乐,通过协同过滤推荐算法,分析用户之间的行为相似度,基于行为相似度得到用户相似人群,将用户相似人群记为Yv,将用户Yv喜欢的音乐推荐给用户Yu,得到用户感兴趣音乐集合B;

将用户感兴趣音乐集合A和用户感兴趣音乐集合B按照等数量音乐进行划分,得到若干区域,基于每个区域的偏好程度指数平均值,设置每个区域的选取概率xpi;

基于设置的选取概率从每个区域中随机得到音乐,构成用户Yu的音乐推送列表。

在本发明实施例中需要解释说明的是,所述音乐基础信息包括音乐名称、作曲者信息、歌唱者信息、歌词文本内容、音乐时长,所述用户行为数据包括用户播放音乐的次数、时间、评论、分享信息。

在本发明实施例中需要解释说明的是,基于用户行为信息得到用户对音乐的偏好程度指数,将用户第i首音乐对应的偏好程度指数记为pi,i表示音乐编号,i的取值为[1-n],将获取的用户行为数据输入偏好程度分析模型

进一步的,在本发明实施例中需要解释说明的是,用户历史行为信息随着时间变化,对当前用户的音乐偏好产生衰减的效果,即用户过去偏好的音乐,随着时间发展,偏好发生变化,通过在用户对音乐的偏好程度指数中加入随时间衰减函数,得到经过时间修正后的偏好程度指数,基于修正后的偏好程度指数得到贡献度集合、预测得到用户对于新音乐文本的偏好程度指数。

本发明实施例不对随时间衰减函数作出具体限定,基于实际情况设置。

在本发明实施例中需要解释说明的是,基于用户对音乐偏好指数得到用户感兴趣的音乐集合Gu,音乐集合Gu中包括n首音乐,基于聚类分析技术提取得到若干个音乐特征维度,得到关于每首音乐的音乐特征向量,将提取的音乐特征向量转映射成取值范围在[0-1]的数值,基于音乐集合Gu得到音乐向量矩阵Pw,设音乐特征维度有m个,则音乐向量矩阵Pw满足

参阅图2的聚类分析流程图,通过聚类分析得到用户对于音乐的若干特征维度的向量值,包括下列步骤:

特征提取:基于音乐集合Gu提取音乐特征,音乐特征至少包括音乐的文本特征和旋律特征;

聚类分析:使用K-means、层次聚类或其他聚类算法对提取的特征进行聚类,通过轮廓系数、肘部法则来确定聚类数量,即得到特征向量的维度;

对于每个聚类,计算每个聚类的中心点,即计算每个特征维度的平均值,特征维度的平均值理解为该聚类代表的向量值;

向量值:计算每个音乐特征与每个聚类的中心点的距离,经过线性归一得到每个特征维度平均值的距离,得到音乐的特征维度的向量值。

在本发明实施例中需要解释说明的是,贡献度集合的获取方式为:使用机器学习算法将音乐向量矩阵Pw映射到偏好程度指数为pi,得到每个音乐特征维度的贡献度参数,若干个音乐特征维度构成贡献度集合,得到每个用户关于音乐特征维度对应的贡献度集合Gx,满足

在本发明实施例中需要解释说明的是,贡献度集合的获取方式为:获取新音乐在m个文本特征维度的向量值xwj,从数据库中获取音乐文本特征维度对应的贡献度集合gj,预测得到用户对于新音乐文本的偏好程度指数,满足公式

在本发明实施例中需要解释说明的是,基于行为相似度得到用户相似人群,通过比较他们听过的歌曲、听歌的频率、时间等来得出与用户Yu最相似的其他用户。如果两个用户听过的冷门音乐中有许多是相同的,那么他们之间的行为相似度就会很高。对于这些相似人群,推荐他们喜欢但还没听过的冷门音乐,或者推荐Yu喜欢但这些相似人群还没听过的冷门音乐。

冷门音乐指的是播放次数少、传播范围小的音乐,设置冷门音乐的播放次数和传播范围,得到用户的冷门音乐数据集。

在本发明实施例中需要解释说明的是,从用户Yu的信息中筛选出冷门音乐,然后通过分析与其他用户的行为相似度来找出与用户Yu最相似的其他用户,最后基于这些相似度信息为用户推荐音乐,包括下列步骤:

从用户Yu信息中筛选得到冷门音乐:收集用户Yu听过的所有音乐信息,

通过协同过滤推荐算法,通过分析用户之间的听冷门歌行为相似度,计算用户Yu与其他用户之间的行为相似度Lxs;

基于行为相似度Lxs得到用户的相似人群,相似人群喜欢的冷门音乐构成用户感兴趣音乐集合B。

在本发明实施例中需要解释说明的是,所述行为相似度Lxs的获取方式为:

获取

分析用户Yu和用户Yv关于第i首冷门音乐的听歌频率、时间、偏好程度指数,并将用户Yu对第i首冷门音乐的听歌频率、时间、偏好程度指数,分别标记为u_lpi,u_lti,u_pi;并将用户Yv对第i首冷门音乐的听歌频率、时间、偏好程度指数,分别标记为v_lpi,v_lti,v_pi;

通过公式得到

用户Yu与用户Yv的行为相似度,其中,/>

设置行为相似度的阈值,当

在本发明实施例中需要解释说明的是,设置用户感兴趣音乐集合A和用户感兴趣音乐集合B的占比为w1和w2,w1+w2=100%;即在推送歌单中,用户感兴趣音乐集合A的占比为w1,用户感兴趣音乐集合B的占比为w2,初始值管理人员设置,在接受用户反馈信息后,进行调整;

将用户感兴趣音乐集合A和用户感兴趣音乐集合B按照等音乐数量进行划分,并进行编号,得到若干区域;

基于每个区域的偏好程度指数平均值设置每个区域的选取概率xpi;

将每个区域的偏好程度指数平均值记为pi_avg,i表示区域的编号,每个区域的选取概率xpi满足公式,

在本发明实施例中需要解释的是,调整方法为:计算用户感兴趣音乐集合B的累计偏好程度指数与用户感兴趣音乐集合A的累计偏好程度指数的比值BZ,根据比值调整w1、w2,使w2/w1与BZ接近。

参阅图3,本发明实施例提供如下技术方案:一种基于大数据的音乐推送系统,包括:

用户信息采集模块,用于采集用户信息,包括用户基础信息、音乐基础信息和用户行为数据;

音乐偏好指数分析模块,将用户行为数据输入偏好程度分析模型,得到用户对音乐偏好指数pi;

音乐偏好预测模块,用于筛选得到用户感兴趣音乐集合A,将用户对音乐偏好指数pi作为机器学习的目标变量,基于音乐向量矩阵得到每个用户的特征维度贡献度,基于音乐向量矩阵和特征维度贡献度预测用户对新音乐的音乐偏好指数,基于预测的音乐偏好指数筛选得到用户感兴趣音乐集合A;

协同过滤筛选模块,用于筛选得到用户感兴趣音乐集合B,获取用户的冷门音乐集合的交集,通过协同过滤推荐算法分析用户之间的行为相似度,基于行为相似度得到用户相似人群,将用户相似人群记为Yu,将用户相似人群记为Yv,用户Yv喜欢的音乐推荐给用户Yu,得到用户感兴趣音乐集合B;

推送列表构建模块,基于概率从音乐库中筛选得到用户的音乐推送列表,将用户感兴趣音乐集合A和用户感兴趣音乐集合B按照等数量音乐进行划分,得到若干区域,基于每个区域的偏好程度指数平均值,设置每个区域的选取概率。

最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116576239