一种基于机器学习的收入预测方法及装置

文献发布时间：2023-06-19 11:39:06

技术领域

本发明涉及游戏收入预测技术领域，尤其涉及一种基于机器学习的收入预测方法及装置。

背景技术

在游戏发行过程中，通过前几日的游戏数据预测未来一段时间，尤其是未来30天的总收入情况具有重要的意义，可以供发行商决定是否追加宣传推广、修改游戏内容或者停止继续投放该游戏。在目前的游戏发行收入预测中，主要根据对收入进行指数拟合，用以预测未来30天的状况，但是准确度并不理想。更多的技术方案集中在评估单个用户的未来价值。

某发明涉及一种用户生命价值周期检测方法、装置、计算机设备和存储介质。获取用户账号对应的行为数据；将该行为数据输入训练好的分类模型，得到用户账号对应的用户类型；分类模型是基于第一用户类型的历史行为数据和第二用户类型的历史行为数据训练得到；若用户类型为第一用户类型，根据预设属性值和预设时段内属于第一用户类型的用户数量，确定用户账号对应的用户的生命价值周期LTV；若该用户类型为第二用户类型，将用户账号对应的行为数据输入到训练好的预测模型，得到第二类用户的LTV，预测模型是基于属于第二用户类型的历史行为数据训练得到。利用用户的历史行为数据确定用户类型，再针对不同用户类型分别确定用户LTV，减小了用户LTV检测的误差。

发明内容

本发明所要解决的技术问题在于，提供一种基于机器学习的收入预测方法及装置，通过考虑游戏运行数据和推广数据，用机器学习的方法得到其收入模型，并对偏差进行预测，最终得到预测模型，其具体方案如下：

第一方面，本发明提供了一种基于机器学习的收入预测方法，其特征在于：包括：

获取自游戏开服之日起每日的运行数据；其中，所述运行数据包括用户总数、单日新用户数、单日收入数据；

获取游戏的特征数据；其中，所述特征数据包括游戏类型、操作系统；

获取游戏推广数据；其中，所述推广数据包括推广天数、推广费用、推广国家和地区；

使用机器学习模型对获取的所述运行数据和所述推广数据进行训练，生成第一预测模型；

计算每日的模型数值与真实数值的偏差，并采用所述机器学习模型对所述偏差进行训练，生成偏差预测模型；

将所述第一预测模型与所述偏差预测模型相加，得到第二预测模型，并使用所述第二预测模型预测未来的收入。

可选地，所述的一种基于机器学习的收入预测方法，其特征在于，还包括：

记录所述第二预测模型及所述游戏类型，并生成按所述游戏类型分类的所述第二预测模型数据库；

根据所述数据库信息计算出所述游戏类型对应的各个参数的平均系数；

根据所述第二预测模型中各参数的系数与其所在行业的所述平均系数对比，为用户提供优化建议。

在上述技术方案中，建立按游戏类型分类的数据库，为后续的数据分析提供了数据支持。根据行业类别计算行业的平均系数，使得数据更加精细。通过将当前模型中的系数与行业内的平均系数相对比，可以过滤掉不同类型的影响，给出的建议更加准确。

可选地，所述使用机器学习模型对获取的所述运行数据和所述推广数据进行训练，是指：

使用指数模型对所述运行数据和所述推广数据进行训练，得到其指数预测模型；其中，所述指数模型为

在上述技术方案中，采用指数预测模型对数据进行训练，可以提高训练的速度与准确性。同时，对于游戏预测而言，该模型还具有很强的兼容性，对于用户新加入的参数都可以进行训练，并且都可以获得较佳的训练结果。

可选地，所述的一种基于机器学习的收入预测方法，其特征在于，用于训练生成所述第一预测模型的所述机器学习模型与用于训练生成所述偏差预测模型的所述机器学习模型均为监督学习模型，并且采用的模型相同。

在上述技术方案中，两者采用的学习模型相同，可以保证模型的一致性，提高预测的稳定性，并且为后继两者结合提供了更好的一致性。

可选地，所述为用户提供优化建议，包括：

对比所述第二预测模型各参数和系数与所述游戏类型对应的各个参数的平均系数，并按照相差值由高到低排序；

将排名靠前的系数替换为平均系数，计算得出未来的收入；

根据所述排序对用户进行优先推荐，并提供预期的收入。

在上述技术方案中，通过对各系数的权重值进行差值排序，得出影响最大的因素，并给出根据行业平均值得出的预期值，给出的数据更加直观可信，大大减少了用户分析的成本。

第二方面，本发明还提供了一种基于机器学习的收入预测装置，其特征在于，包括：

获取模块，用于获取自游戏开服之日起每日的运行数据；其中，所述运行数据包括用户总数、单日新用户数、单日收入数据；获取游戏的特征数据；其中，所述特征数据包括游戏类型、操作系统；获取游戏推广数据；其中，所述推广数据包括推广天数、推广费用、推广国家和地区；

第一模型模块，用于使用机器学习模型对获取的所述运行数据和所述推广数据进行训练，生成第一预测模型；

偏差模块，用于计算每日的模型数值与真实数值的偏差，并采用所述机器学习模型对所述偏差进行训练，生成偏差预测模型；

第二模型模块，用于将所述第一预测模型与所述偏差预测模型相加，得到第二预测模型，并使用所述第二预测模型预测未来的收入。

可选地，所述的一种基于机器学习的收入预测装置，其特征在于，还包括：

数据库模块，用于记录所述第二预测模型及所述游戏类型，并生成按所述游戏类型分类的所述第二预测模型数据库；

均值模块，用于根据所述数据库信息计算出所述游戏类型对应的各个参数的平均系数；

建议模块，用于根据所述第二预测模型中各参数的系数与其所在行业的所述平均系数对比，为用户提供优化建议。

可选地，所述的一种基于机器学习的收入预测装置，其特征在于，所述第一模型模块使用指数模型对所述运行数据和所述推广数据进行训练，得到其指数预测模型；其中，所述指数模型为

可选地，所述的一种基于机器学习的收入预测装置，其特征在于，所述第一模型模块与所述偏差模块所使用的机器学习模型均为监督学习模型，并且采用的模型相同。

可选地，所述的一种基于机器学习的收入预测装置，其特征在于，所述建议模块，包括：

排序单元，用于对比所述第二预测模型各参数和系数与所述游戏类型对应的各个参数的平均系数，并按照相差值由高到低排序；

估算单元，用于将排名靠前的系数替换为平均系数，计算得出未来的收入；

推荐单元，用于根据所述排序对用户进行优先推荐，并提供预期的收入。

实施本发明，具有如下有益效果。

本发明以游戏开服之日起每日的运行数据预估未来收益，对于游戏运营商调整决策具有指导意义。本发明将游戏推广数据和游戏运行数据共同用于预测，提升了预测的全面性和准确性，同时更易发现游戏运营中的薄弱环节，对于游戏运营更具有指导意义。本发明对预测的偏差进行学习，提升了预测的准确性。

附图说明

图1是本发明实施例提供的一种基于机器学习的收入预测方法流程图。

图2是本发明实施例提供的另一种基于机器学习的收入预测方法流程图。

图3是本发明实施例提供的一种基于机器学习的收入预测装置的结构示意图。

图4是本发明实施例提供的另一种基于机器学习的收入预测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于单个游戏玩家的支出情况存在较大的不确定性，而游戏玩家作为一个整体呈现出一定的规律性，所以通过CPC估计整体用户产生的收入是现阶段的最优策略。当且仅当特定用户的点击-下载的转化率等于当日整体的点击-下载的转化率， CPC收入100%正确。如果特定用户的点击-下载的转化率 > 当日整体的点击-下载的转化率， CPC收入低估，反之，高估。当特定用户体量过小或点击过小（<=500），偶然性事件产生的影响占比提升，会造成CPC收入与真实收入的差异波动增大。当特定用户体量足够大或者点击足够大(>=1000)，偶然性的影响占比减低，数据波动减少，CPC收入的差异会呈现相对稳定。当特定用户的点击在当天整体的点击的占比极高（>= 90%），CPC收入估算趋近于100% 正确。这种情况仅仅存在于首次买量或者第二次买量。当特定用户的点击在当天整体的点击的占比极低（<= 20% ~ 0%）， CPC收入估算会存在相对非常稳定的误差率（依照不同APP，误差率不同）。这一点对于修正CPC收入，非常重要。

从商业角度，一款新APP上线后首次开始买量后7-10天（仅仅拥有7-10天数据），预测后续30天内的数据是刚需（因为前期不确定性）。当买量后第15-20天（中期，拥有15-20天数据），这款APP的未来走向，大部分产品经理已经明确。同时，从模型算法角度来说，越长的预测周期，误差越大。综上，预测的准确性将以特定一批用户未来30天内的LTV和收入表现为核心。

请参见图1，示出了本发明实施例提供的一种基于机器学习的收入预测方法流程图，该方法应用于服务器端。考虑了游戏玩家群体的特征及对其起主要影响的推广力度、游戏类型、国家和地区等因素。

如图1所示，本实施例提供的一种基于机器学习的收入预测方法包括以下步骤。

S100.获取自游戏开服之日起每日的运行数据、游戏的特征数据和游戏推广数据。

其中，所述运行数据包括用户总数、单日新用户数、单日收入数据；所述特征数据包括游戏类型、操作系统；所述推广数据包括推广天数、推广费用、推广国家和地区；

通过用户总数、单日新用户数可以计算得出用户留存率，并可以作为计算后本游戏中留存的用户的价值，从而可以通过对每日新增的用户的预期价值进行评估，得出总体的用户价值。用户总数是指新开服的服务器所服务的用户数量总和。如果一款游戏有多台服务器，则仅指其中的一个服务器，而不是多个服务器的综合数值。本实施例针对新发行游戏而设计，能够提供更加准确的预测数据。游戏类型是角色扮演、休闲益智、经营策略、体育竞速、动作射击、棋牌桌游中的一种。操作系统是指玩家终端的操作系统为安卓系统还是IOS系统。推广天数是指从主要的推广阶段开始计算的日期。推广费用是指推广截止数据日期的总费用，并且统一换算统一的货币，比如人民币。推广国家和地区可以有一个，也要以有多个。

S200.使用机器学习模型对获取的所述运行数据和所述推广数据进行训练，生成第一预测模型。

使用指数模型对所述运行数据和所述推广数据进行训练，得到其指数预测模型；其中，所述指数模型为

S300.计算每日的模型数值与真实数值的偏差，并采用所述机器学习模型对所述偏差进行训练，生成偏差预测模型。

通过对偏差进行分析，发现偏差值也呈现一指的指数函数特征，因此也适用于指数函数预测。用于训练生成所述第一预测模型的所述机器学习模型与用于训练生成所述偏差预测模型的所述机器学习模型均为监督学习模型，并且采用的模型相同。对于数值进行预测的模型与对偏差进行预测的模型为同一模型，是由于两者呈现的同一规律，这样可以更好地训练，并且有利于后期数据的处理。偏差值既有正值，也有负值。

S400.将所述第一预测模型与所述偏差预测模型相加，得到第二预测模型，并使用所述第二预测模型预测未来的收入。

将第一预测模型与偏差预测模型相加，可以使得预测数据更加准确。同时，对于第二预测模型多次执行步骤S300，即对偏差再次做计算和训练，直至最终的偏差呈现无规律的变化，停止迭代。发现第一次偏差预测模型的效果最好，而后效果逐渐减弱，尤其是用于30天的预测时，因此本实施例对偏差的预测次数不超过2次。例如，通过对前述四款APP进行预测，最终得到的平均误差率为9.4%，而仅对偏差进行2次偏差预测迭代的平均误差率为10.1%。

本实施例通过将游戏的推广数据和运行数据进行预测，使得预测更加准确。本实施例还通过机器学习对数据进行预测，并对偏差进行多次迭代，提升了预测的准确性，对于游戏发行商具有更强的指导意义。

请参见图2，示出了本发明实施例提供的另一种基于机器学习的收入预测方法流程图，该实施例可以为用户提供针对性的优化建议。如图2所示，相比于上一实施例，该方法还包括以下步骤。

S500.记录所述第二预测模型及所述游戏类型，并生成按所述游戏类型分类的所述第二预测模型数据库。

将第二预测模型的各类参数、系数进行记录，并存入数据库中。同时，还对游戏类型、操作系统进行记录。数据库采用结构化存储的方式，方便查询。由于数据量不大，可以采用MySQL数据库进行存储。对于同一游戏类型、同一操作系统，对同一个参数的所有系统求平均值，即可得出该游戏类型、该操作系统下的平均系数。

S600.根据所述数据库信息计算出所述游戏类型对应的各个参数的平均系数。

本步骤计算出同一游戏类型、同一操作系统下的平均系数和不考虑操作系统的同一游戏类型下的平均系数。如果用户的游戏仅适用于某一操作系统，则以相同游戏类型、同一操作系统下的平均系数作为其所在行业的平均系数。如果用户的游戏适用于多个操作系统，则以不考虑操作系统的同一游戏类型下的平均系数作为其所在行业的平均系数。

S700.根据所述第二预测模型中各参数的系数与其所在行业的所述平均系数对比，为用户提供优化建议。

各个参数的系数代表着各个参数对于游戏收入的贡献度。系数越大，表示该参数的功能越得到发挥；系数越小，表示该参数的功能未得到充分发挥。因此，可以通过系数的大小判断各个参数的功能是否得到发挥，尤其是与同行业的平均系数对比，可以得出本游戏在运行和推广过程中哪些地方需要改进，哪些地方优于行业平均水平。而低于行业平均水平的参数的投放产出比明显高于行业平均水平的参数的投放产出比，因而低于行业平均水平的参数就成为最佳的改进着手点。

而为用户提供优化建议又包括以下三个步骤。

S710.对比所述第二预测模型各参数和系数与所述游戏类型对应的各个参数的平均系数，并按照相差值由高到低排序。

对同一参数的系统直接进行相减，如果结果为正值，表示行业平均系数高于本游戏的系数；如果为负数，表示表示行业平均系数低于本游戏的系数。而数值越高，表示行业平均系数越高于本游戏的系数，即本游戏的该参数对收入的贡献度低于行业平均水平，越具有较高的投入产出比。按照相差值对参数进行由高到低的排序，也就得出了需要改进的优先级。

S720.将排名靠前的系数替换为平均系数，计算得出未来的收入。

直接将单个参数的系数替换为行业平均系数，即可预判当前参数达到行业平均水平的收入预期，而这是不影响其他参数的情况下的计算，因此可以更加直观地判断出本方案的效果。通常计算开服30天的数据进行评估。

S730.根据所述排序对用户进行优先推荐，并提供预期的收入。

按照步骤S710中的顺序提供三个优化方案，并分别提供步骤S720中对应的预测收入，为用户提供直观的改进效果。

在本实施例中，通过建立数据库，将单个数据与行业平均数据进行对比，得出改进方案，并通过对系数的替换和计算，得出改进方案的预期收入情况，可以更好地为用户决策服务。

请参见图3，示出了本发明实施例提供的一种基于机器学习的收入预测装置，该装置可以包括：获取模块100、第一模型模块200、偏差模块300和第二模型模块400。

获取模块100，用于获取自游戏开服之日起每日的运行数据；其中，所述运行数据包括用户总数、单日新用户数、单日收入数据；获取游戏的特征数据；其中，所述特征数据包括游戏类型、操作系统；获取游戏推广数据；其中，所述推广数据包括推广天数、推广费用、推广国家和地区；

获取模块100用于获得用户的游戏相差数据，既可以由用户手动将相关数据输入，也可以由用户进行授权，将相关数据导入本装置中。获取模块100还可以以SDK的形式内嵌入各游戏服务器中进行数据收集，如此收集的数据更加准确、高效。本实施例不对具体的形式进行限制，只要能够获得相关的数据均为可行的方案。

第一模型模块200，用于使用机器学习模型对获取的所述运行数据和所述推广数据进行训练，生成第一预测模型。

第一模型模块200使用指数模型对对获取模块100获得的运行数据和推广数据进行训练，得到其指数预测模型；其中，所述指数模型为

偏差模块300，用于计算每日的模型数值与真实数值的偏差，并采用所述机器学习模型对所述偏差进行训练，生成偏差预测模型。

偏差模块300对模型的偏差进行计算，并进行预测学习，可以提高预测的准确性。偏差模块300的模型既可以是第一模型模块200得出的模型，也可以是第二模型模块400得出的模型。

第二模型模块400，用于将所述第一预测模型与所述偏差预测模型相加，得到第二预测模型，并使用所述第二预测模型预测未来的收入。

第一模型模块200与偏差模块300所使用的机器学习模型均为监督学习模型，并且采用的模型相同，因此可以直接相加。第二模型模块400的数据来源于第一模型模块200与偏差模块300，而第二模型模块400所产生的模型又可以反馈给偏差模块进行迭代。用于学习的数据越多，模型的准确性越高。例如，针对前述实施例中4款APP的5天数据天数平均误差率为9.4% ,7 天数据天数平均误差率为7.6% ,10天数据天数平均误差率为5.5% ,12天数据天数平均误差率为4.7%。

本实施例实现了对多种游戏收入的预测，既考虑了每日的运行数据，又考虑了游戏的推广数据，对游戏运营商更加具有现实的指导意义。另一方面，本实施例对模型的偏差进行了学习，使得数据更加准确，尤其是通过7-10天的数据预测后续30天的收入数据的准确性更好。

在一种基于机器学习的收入预测装置实施例中未详细说明部分参见一种基于机器学习的收入预测方法实施例，此处不再赘述。

请参见图4，示出了本发明实施例提供的另一种监控模块的结构示意图。本实施例可以针对历史数据进行分析，并对用户进行针对性的提升建议，并可以给出预期的改进效果。如图4所示，相比于上一实施例，本实施例还包括如下模块。

数据库模块500，用于记录所述第二预测模型及所述游戏类型，并生成按所述游戏类型分类的所述第二预测模型数据库。

数据库模块500中记录的模型数据为第二模型模块200最终的模型数据，并不记录中间的模型数据。数据库模块500定期异地备份，提高数据的安全性。

均值模块600，用于根据所述数据库信息计算出所述游戏类型对应的各个参数的平均系数。

建议模块700，用于根据所述第二预测模型中各参数的系数与其所在行业的所述平均系数对比，为用户提供优化建议。

建议模块700，包括如下单元。

排序单元710，用于对比所述第二预测模型各参数和系数与所述游戏类型对应的各个参数的平均系数，并按照相差值由高到低排序；

估算单元720，用于将排名靠前的系数替换为平均系数，计算得出未来的收入；

推荐单元730，用于根据所述排序对用户进行优先推荐，并提供预期的收入。

本实施例通过对可能的改进方案呈现给用户，使得用户决策更加科学、更加准确，有利于提高用户的游戏运营的水平，促进用户数据的利用水平。

在另一种基于机器学习的收入预测装置实施例中未详细说明部分参见另一种基于机器学习的收入预测方法实施例，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例中的装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张龙;
专利申请人：上海酷量信息技术有限公司;