导航：首页> 一般热交换>数据处理方法和装置

数据处理方法和装置

文献发布时间：2023-06-19 11:19:16

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法和装置。

背景技术

人群拓展常用于广告的投放或者商家的营销活动。例如，在进行广告投放时，考虑到广告主提供的种子人群的用户量往往比较小，基于种子人群进行广告投放存在广告覆盖面小、达不到预期的流量等缺陷，广告数据平台或者购物数据平台(DMP)通过解析种子人群的显著性特征，并根据该特征对种子人群进行拓展，然后基于拓展后的人群进行广告投放，从而达到提升点击转化率或者购买转化率的目的。

现有的人群扩展方案主要包括以下两种：第一种、基于用户画像进行人群拓展。具体来说，通过用户画像分析为用户设置各类画像特征标签，分析种子人群中大部分用户具有的画像特征标签，然后将数据库中拥有高相似画像特征标签的人群列为拓展人群。第二种，基于分类算法进行人群拓展。具体来说，以种子人群为正样本、以候选人群为负样本训练分类模型，然后通过训练后的分类模型对候选人群进行筛选，以得到拓展人群。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：在第一种现有技术中，完全依赖用户画像来做人群拓展存在精准性不高、时效性不强等问题。在第二种现有技术中，由于种子人群的选取可能来自于特定的规则，因此将种子人群作为正样本容易导致模型存在过拟合的问题，而且，由于负样本的采样较为粗糙，也容易导致模型的训练效果较差，进而影响最终人群拓展的效果。

发明内容

有鉴于此，本发明提供一种数据处理方法和装置，能够改善人群拓展中机器学习模型的训练效果，提高人群拓展的精准性。

为实现上述目的，根据本发明的一个方面，提供了一种数据处理方法。

本发明的数据处理方法包括：响应于人群拓展任务的触发，确定用于人群拓展的候选用户集；根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户；根据第二提取规则提取部分用户作为负样本用户；根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模型进行训练，以得到训练后的第一机器学习模型；根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集。

可选地，所述确定用于人群拓展的候选用户集包括：获取需要进行人群拓展的业务活动信息；根据所述业务活动信息查询数据库表，以得到与之对应的候选用户集；其中，所述业务活动信息包括业务活动涉及的目标商品的品牌标识、业务活动涉及的目标商品的品类标识、业务活动涉及的店铺标识中的至少一项。

可选地，所述候选用户集包括：短期兴趣用户集和中长期兴趣用户集；其中，所述短期兴趣用户集是基于用户的短期行为特征数据筛选出来的对所述目标商品感兴趣的用户集；所述中长期兴趣用户集是基于用户的中长期行为特征数据筛选出来的对所述目标商品感兴趣的用户集。

可选地，所述短期兴趣用户集包括：第一短期兴趣用户集、第二短期兴趣用户集和第三短期兴趣用户集；所述方法还包括：从近期对目标商品有第一类型的操作行为的第一用户集中筛选出第一短期兴趣用户集；确定所述目标商品的相似商品，然后从近期对所述相似商品有第一类型的操作行为的第二用户集中筛选出第二短期兴趣用户集；从近期对所述目标商品或者所述相似商品有第二类型的操作行为的第三用户集中筛选出第三短期兴趣用户集。

可选地，所述从近期对目标商品有第一类型的操作行为的第一用户集中筛选出第一短期兴趣用户集包括：获取近期对目标商品有第一类型的操作行为的第一用户集；根据训练后的第二机器学习模型确定所述第一用户集中各个用户对目标商品的偏好度；将所述偏好度大于预设阈值的所有用户、或者将偏好度最大的预设数量的用户，作为第一短期兴趣用户集。

可选地，所述中长期兴趣用户集包括：第一中长期兴趣用户集、以及第二中长期兴趣用户集；所述方法还包括：对所述种子用户集中各个用户对应的画像标签的取值分布情况进行统计，以确定所述种子用户集对应的群体画像；根据与所述群体画像相似的用户构建第一中长期兴趣用户集；根据近期对所述目标商品没有购买行为、但是曾经对所述目标商品有购买行为的用户构建第二中长期兴趣用户集。

可选地，所述根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集包括：根据所述训练后的第一机器学习模型确定所述候选用户集中各个用户对目标商品的偏好度；将所述偏好度大于预设阈值的所有用户、或者将偏好度最大的预设数量的用户，作为拓展用户集。

为实现上述目的，根据本发明的另一方面，提供了一种数据处理装置。

本发明的数据处理装置包括：确定模块，用于响应于人群拓展任务的触发，确定用于人群拓展的候选用户集；提取模块，用于根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户；还用于根据第二提取规则提取部分用户作为负样本用户；训练模块，用于根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模型进行训练，以得到训练后的第一机器学习模型；筛选模块，用于根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集。

为实现上述目的，根据本发明的再一个方面，提供了一种电子设备。

本发明的电子设备，包括：一个或多个处理器；以及，存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明的数据处理方法。

为实现上述目的，根据本发明的又一个方面，提供了一种计算机可读介质。

本发明的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明的数据处理方法。

上述发明中的一个实施例具有如下优点或有益效果：通过构建用于人群拓展的候选用户集，根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户，根据第二提取规则提取部分用户作为负样本用户，根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模型进行训练这些步骤，能够改善人群拓展中机器学习模型的训练效果，进而提高人群拓展的精准性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明第一实施例的数据处理方法的主要流程的示意图；

图2是根据本发明第二实施例的数据处理方法的主要流程的示意图；

图3是根据本发明第三实施例的数据处理装置的主要模块的示意图；

图4是根据本发明第四实施例的数据处理装置的主要模块的示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以相互组合。

图1是根据本发明第一实施例的数据处理方法的主要流程的示意图。如图1所示，本发明实施例的数据处理方法包括：

步骤S101、响应于人群拓展任务的触发，确定用于人群拓展的候选用户集。

示例性地，可在接收到需求方(比如广告主或者营销方)提交的人群拓展请求后，开始执行人群拓展任务，即开始执行本发明实施例的数据处理流程。其中，所述人群拓展请求可包括：需要进行人群拓展的业务活动信息、以及该业务活动涉及的种子用户集。进一步，所述需要进行人群拓展的业务活动信息可包括以下至少一项信息：业务活动涉及的目标商品的品牌标识、业务活动涉及的目标商品的品类标识、业务活动涉及的店铺标识。

在一个可选实施方式中，所述确定用于人群拓展的候选用户集包括：获取需要进行人群拓展的业务活动信息；根据所述业务活动信息查询数据库表，以得到与之对应的候选用户集。其中，所述数据库表中存储有与业务活动信息对应的候选用户信息(比如候选用户标识等信息)。

在该可选实施方式的一个具体示例中，获取的业务活动信息具体为业务活动涉及的目标商品的品牌标识，则可根据所述目标商品的品牌标识查询数据库表，以找到与之对应的候选用户标识，进而基于找到的候选用户标识构建候选用户集。

在该可选实施方式的另一个具体示例中，获取的业务活动信息具体为业务活动涉及的目标商品的品类标识，则可根据所述目标商品的品类标识查询数据库表，以找到与之对应的候选用户标识，进而基于找到的候选用户标识构建候选用户集。

步骤S102、根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户；根据第二提取规则提取部分用户作为负样本用户。

考虑到需求方提供的种子用户集可能来自于特定的强规则，比如近期对该商品品牌或品类有购买行为的用户，因此若直接将种子用于集作为正样本容易导致模型存在过拟合的问题。鉴于此，在本发明实施例中，根据第一提取规则从候选用户集中提取了部分用户，对种子用户集进行了适当地泛化，以解决过拟合的问题、以及增强机器学习模型的泛化能力。

在一个可选实施方式中，所述第一提取规则可包括：以购买转化率和/或点击转化率为依据确定需要从候选用户集中提取的用户。比如，若候选用户集中有多个类别，可先统计出近一个月内对业务活动所涉及的商品品牌有过购买和点击行为的用户，分析其在各个类别的候选用户集中的占比，并依据该占比从各个类别的候选用户集中提取出部分用户作为正样本的补充。又比如，若候选用户集中有多个类别，可先统计出近一个月内对业务活动所涉及的商品品类有过购买或点击行为的用户，分析其在各个类别的候选用户集中的占比，并依据该占比从各个类别的候选用户集中提取出部分用户作为正样本的补充。

进一步，在上述可选实施方式中，所述第一提取规则还可包括：令从候选用户集中提取的部分用户的数量不低于种子用户的五分之一、且不高于种子用户的三分之一。通过设置以上第一提取规则，能够在保证泛化出的正样本与种子用户相似的同时控制泛化的正样本的数量，使种子用户没有被稀释，从而有助于提高模型训练效果。

在现有技术中，将除了种子用户之外的用户都作为负样本，负样本的选取方式比较粗糙，导致模型的训练效果不好。鉴于此，在本发明实施例中，根据第二提取规则提取与正样本存在关联性、且差异性较大的用户作为负样本用户，以改善模型的训练效果。

在一个可选实施方式中，所述第二提取规则包括：将近期(比如半年内或者一年内)有购买行为、但是对业务活动涉及的品牌或者品类商品有点击却无购买行为的用户作为负样本用户。在另一个可选实施方式中，所述第二提取规则包括：将近期有购买行为、但是对业务活动涉及的品牌以及相似品牌有点击却无购买行为的用户作为负样本用户。

步骤S103、根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模型进行训练，以得到训练后的第一机器学习模型。

其中，所述用户特征数据可基于以下一种或多种维度的用户特征构建：用户画像类特征、用户对业务活动涉及的目标商品的行为特征(比如购买、加购物车、点击、关注等行为特征)、用户对相似商品的行为特征、以及购买商品的分词特征。

示例性地，所述第一机器学习模型可以为XGBoost模型(XGBoost模型的全称是eXtreme Gradient Boosting，是一种Boosting算法)。在不影响本发明实施的情况下，所述第一机器学习模型也可以为其他机器学习模型。

步骤S104、根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集。

在该步骤中，可根据所述训练后的第一机器学习模型确定所述候选用户集中各个用户对目标商品的偏好度；将所述偏好度大于预设阈值的所有用户、或者将偏好度最大的预设数量的用户，作为拓展用户集。具体实施时，所述预设阈值、所述预设数量可由需求方进行设置，也可由人群拓展任务的执行方根据具体业务需求进行灵活设置。

在本发明实施例中，通过以上步骤实现了人群拓展。与现有技术相比，本发明实施例的方法能够改善人群拓展中机器学习模型的训练效果，提高人群拓展的精准性。另外，由于本发明实施例在进行人群拓展时无需依赖用户的社交网络，因此提高了人群拓展的普适性。

图2是根据本发明第二实施例的数据处理方法的主要流程的示意图。如图2所示，本发明实施例的数据处理方法包括：

步骤S201、构建数据库表，所述数据库表用于存储与商品品牌标识或者商品品类标识对应的候选用户集。

在一个可选实施方式中，所述候选用户集包括：短期兴趣用户集和中长期兴趣用户集；其中，所述短期兴趣用户集是基于用户的短期行为特征数据筛选出来的对所述目标商品感兴趣的用户集；所述中长期兴趣用户集是基于用户的中长期行为特征数据筛选出来的对所述目标商品感兴趣的用户集。在本发明实施例中，在确定候选用户集时不仅考虑了短期内对目标商品感兴趣的用户，而且考虑了长期对目标商品感兴趣的用户，兼顾了用户的长短期偏好和多样性，有助于提高人群拓展的时效性和精准性，进而提高基于拓展人群开展的业务活动(比如广告投放)的效果。

示例性地，所述短期兴趣用户集可包括：第一短期兴趣用户集、第二短期兴趣用户集和第三短期兴趣用户集。其中，所述第一短期兴趣用户集是从近期(比如近一个月内)对目标商品有第一类型的操作行为的第一用户集中筛选出的用户集，其可简称为“目标商品的高潜用户集”；所述第二短期兴趣用户集是从从近期对目标商品的相似商品有第一类型的操作行为的第二用户集中筛选出来的用户集，其可称为“相似商品的高潜用户集”；所述第三短期兴趣用户集是从近期对所述目标商品或者所述相似商品有第二类型的操作行为的第三用户集中筛选出来的用户集。其中，所述第一类型的操作行为可以为购买、加购物车、关注、点击等行为；所述第二类型的操作行为可以为搜索行为。当第二类型的操作行为为搜索行为时，第三短期兴趣用户集可简称为“搜索召回用户集”。此外，在不影响本发明实施的情况下，所述短期兴趣用户集也可只包括第一至第三短期兴趣用户集中的一种或两种。

示例性地，所述中长期兴趣用户集包括：第一中长期兴趣用户集、以及第二中长期兴趣用户集。其中，所述第一中长期兴趣用户集是基于与种子用户集的群体画像相似的用户构建的用户集，其可简称为“画像标签相似用户集”；所述第二中长期兴趣用户集是基于近期对所述目标商品没有购买行为、但是曾经对所述目标商品有购买行为的用户构建的用户集，其可简称为“流失用户集”。此外，在不影响本发明实施的情况下，所述中长期兴趣用户集也可只包括第一至第二中长期兴趣用户集中的一种。

在一个具体示例中，所述候选用户集具体包括：“目标商品的高潜用户集”、“相似商品的高潜用户集”、“搜索召回用户集”、“画像标签相似用户集”、以及“流失用户集”。以下针对这五种候选用户集的构建过程进行说明。

在该具体示例中，“目标商品的高潜用户集”的构建过程包括：获取近期(比如近一个月内)对目标商品有第一类型的操作行为的第一用户集；根据训练后的第二机器学习模型确定所述第一用户集中各个用户对目标商品的偏好度；将所述偏好度大于预设阈值的所有用户、或者将偏好度最大的预设数量的用户，作为第一短期兴趣用户集。其中，所述第二机器学习模型可以为XGBoost模型(XGBoost模型的全称是eXtreme Gradient Boosting，是一种Boosting算法)。在不影响本发明实施的情况下，所述第二机器学习模型也可以为其他机器学习模型。

在该具体示例中，“相似商品的高潜用户集”的构建过程包括：确定所述目标商品的相似商品，然后从近期对所述相似商品有第一类型的操作行为的第二用户集中筛选出“相似商品的高潜用户集”。

在一个可选实施方式中，可根据如下方式确定所述目标商品的相似商品：根据所述目标商品的品牌标识查询商品品牌与其相似品牌的对应关系表，并将查询出的预设数量(比如相似度最大的前10个、前5个或者其他数量)的相似品牌作为所述目标商品的相似商品。具体实施时，可通过获取用户在一个月内的行为序列，并通过文本处理算法(比如word2vec算法)对所述行为序列进行处理，以得到各个品牌的词嵌入(embeding)，然后基于各个品牌的词嵌入计算品牌之间的相似度，进而确定各个品牌的相似品牌，并基于此生成商品品牌与其相似品牌的对应关系表中。

在另一个可选实施方式中，可根据如下方式确定所述目标商品的相似商品：根据所述目标商品的品类标识查询商品品类与其相关品类的对应关系表，并将查询出的预设数量的相关品类作为所述目标商品的相似商品。其中，所述相关品类是基于“购物篮”的概念得到的，比如顾客在购买牙膏的同时也可能购买牙刷，因此牙膏与牙刷为相关品类。具体实施时，可采用频繁挖掘模式来挖掘各个商品的相关品类。例如，可以先获取近一年的用户下单数据，基于所述用户下单数据计算提升度，然后基于提升度确定商品的相关品类。其中，所述提升度用于衡量商品品类之间的相关度。例如，商品品类A和商品品类B之间的提升度可定义为：“同时购买商品品类A和商品品类B的用户数占购买商品品类A的用户数的比例”与“购买商品品类B的用户数占全部用户的比例”的比值。

在该具体示例中，“搜索召回用户集”的构建过程包括：可先获取近一个月内所有用户的搜索关键词记录，据此找出搜索了该目标商品或者相似商品的用户，并基于这些用户构建“搜索召回用户集”

在该具体示例中，“画像标签相似用户集”的构建过程包括：对种子用户集中各个用户对应的画像标签的取值分布情况进行统计，以确定所述种子用户集对应的群体画像；然后，根据与所述群体画像相似的用户构建“画像标签相似用户集”。

此外，在该具体示例中，“流失用户集”的构建过程包括：获取近一年内对所述目标商品没有购买行为、但是曾经对所述目标商品有购买行为的用户，并基于这些用户构建“流失用户集”。

步骤S202、响应于人群拓展任务的触发，获取需要进行人群拓展的业务活动信息和种子用户集。

示例性地，可在接收到需求方(比如广告主或者营销方)提交的人群拓展请求后，开始执行人群拓展任务，即开始执行步骤S202。其中，所述人群拓展请求可包括：需要进行人群拓展的业务活动信息、以及该业务活动涉及的种子用户集。进一步，所述需要进行人群拓展的业务活动信息可包括以下信息：业务活动涉及的目标商品的品牌标识、业务活动涉及的目标商品的品类标识、以及业务活动涉及的店铺标识。另外，所述人群拓展请求还可包括：需求方设置的各类候选用户集的召回比例。例如，假设共有“目标商品的高潜用户集”、“相似商品的高潜用户集”、“搜索召回用户集”、“画像标签相似用户集”、以及“流失用户集”这五类候选用户集，需求方可灵活设置召回比例，比如，将召回比例设置成3：3：2：1：1。

步骤S203、根据所述业务活动信息查询所述数据库表，以得到与之对应的候选用户集。

在一个示例中，可根据所述目标商品的品牌标识查询数据库表，以找到与之对应的候选用户标识，进而基于找到的候选用户标识构建候选用户集。

在另一个示例中，可根据所述目标商品的品类标识查询数据库表，以找到与之对应的候选用户标识，进而基于找到的候选用户标识构建候选用户集。

步骤S204、根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户。

在一个可选实施方式中，所述第一提取规则可包括：以购买转化率和/或点击转化率为依据确定需要从候选用户集中提取的用户。比如，可先分析候选用户集中各个用户近期对业务活动所涉及的商品品牌的购买点击率，并将购买点击率最高的10个用户选取出来，并将其与种子用户集一并作为正样本用户。又比如，可先分析候选用户集中各个用户近期对业务活动所涉及的商品品类的点击转化率，并将点击转化率最高的20个用户选取出来，并将其与种子用户集一并作为正样本用户。

步骤S205、根据第二提取规则提取部分用户作为负样本用户。

步骤S206、根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模块进行训练，以得到训练后的第一机器学习模型。

步骤S207、根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集。

进一步，本发明实施例的方法还可包括以下步骤：对基于训练后的第一机器学习模型筛选出的拓展用户集的质量进行评估。具体实施时，可基于准确率、召回率等多个指标进行评估。

图3是根据本发明第三实施例的数据处理装置的主要模块的示意图。如图3所示，本发明实施例的数据处理装置300包括：确定模块301、提取模块302、训练模块303、筛选模块304。

确定模块301，用于响应于人群拓展任务的触发，确定用于人群拓展的候选用户集。

示例性地，数据处理装置300可在接收到需求方(比如广告主或者营销方)提交的人群拓展请求后，开始执行人群拓展任务，即开始通过确定模块确定用于人群拓展的候选用户集。其中，所述人群拓展请求可包括：需要进行人群拓展的业务活动信息、以及该业务活动涉及的种子用户集。进一步，所述需要进行人群拓展的业务活动信息可包括以下至少一项信息：业务活动涉及的目标商品的品牌标识、业务活动涉及的目标商品的品类标识、业务活动涉及的店铺标识。

在一个可选实施方式中，确定模块301确定用于人群拓展的候选用户集包括：确定模块301获取需要进行人群拓展的业务活动信息；确定模块301根据所述业务活动信息查询数据库表，以得到与之对应的候选用户集。其中，所述数据库表中存储有与业务活动信息对应的候选用户信息(比如候选用户标识等信息)。

在该可选实施方式的一个具体示例中，确定模块301获取的业务活动信息具体为业务活动涉及的目标商品的品牌标识，接下来，确定模块301可根据所述目标商品的品牌标识查询数据库表，以找到与之对应的候选用户标识，进而基于找到的候选用户标识构建候选用户集。

在该可选实施方式的另一个具体示例中，确定模块301获取的业务活动信息具体为业务活动涉及的目标商品的品类标识，接下来确定模块301可根据所述目标商品的品类标识查询数据库表，以找到与之对应的候选用户标识，进而基于找到的候选用户标识构建候选用户集。

提取模块302，用于根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户；根据第二提取规则提取部分用户作为负样本用户。

考虑到需求方提供的种子用户集可能来自于特定的强规则，比如近期对该商品品牌或品类有购买行为的用户，因此若直接将种子用于集作为正样本容易导致模型存在过拟合的问题。鉴于此，在本发明实施例中，通过提取模块302根据第一提取规则从候选用户集中提取了部分用户，对种子用户集进行了适当地泛化，以解决过拟合的问题、以及增强机器学习模型的泛化能力。

在现有技术中，将除了种子用户之外的用户都作为负样本，选取方式比较粗糙，导致模型的训练效果不好。鉴于此，在本发明实施例中，通过提取模块302根据第二提取规则提取与正样本存在关联性、且差异性较大的用户作为负样本用户，以改善模型的训练效果。

训练模块303，用于根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模型进行训练，以得到训练后的第一机器学习模型。

筛选模块304，用于根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集。

示例性地，筛选模块304可根据所述训练后的第一机器学习模型确定所述候选用户集中各个用户对目标商品的偏好度；然后，筛选模块304将所述偏好度大于预设阈值的所有用户、或者将偏好度最大的预设数量的用户，作为拓展用户集。具体实施时，所述预设阈值、所述预设数量可由需求方进行设置，也可由人群拓展任务的执行方根据具体业务需求进行灵活设置。

在本发明实施例中，通过以上装置实现了人群拓展。与现有技术相比，本发明实施例的装置能够改善人群拓展中机器学习模型的训练效果，提高人群拓展的精准性。另外，由于本发明实施例在进行人群拓展时无需依赖用户的社交网络，因此提高了人群拓展的普适性。

图4是根据本发明第四实施例的数据处理装置的主要模块的示意图。如图4所示，本发明实施例的数据处理装置400包括：构建模块401、确定模块402、提取模块403、训练模块404、筛选模块405。

构建模块401，用于构建数据库表，所述数据库表用于存储与商品品牌标识或者商品品类标识对应的候选用户集。

确定模块402，用于响应于人群拓展任务的触发，确定用于人群拓展的候选用户集。

示例性地，数据处理装置400可在接收到需求方(比如广告主或者营销方)提交的人群拓展请求后，开始通过确定模块确定用于人群拓展的候选用户集。其中，所述人群拓展请求可包括：需要进行人群拓展的业务活动信息、以及该业务活动涉及的种子用户集。进一步，所述需要进行人群拓展的业务活动信息可包括以下至少一项信息：业务活动涉及的目标商品的品牌标识、业务活动涉及的目标商品的品类标识、业务活动涉及的店铺标识。

在本发明实施例中，确定模块402确定用于人群拓展的候选用户集包括：确定模块402获取需要进行人群拓展的业务活动信息；确定模块402根据所述业务活动信息查询数据库表，以得到与之对应的候选用户集。其中，所述数据库表中存储有与业务活动信息对应的候选用户信息(比如候选用户标识等信息)。

提取模块403，用于根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户；根据第二提取规则提取部分用户作为负样本用户。

考虑到需求方提供的种子用户集可能来自于特定的强规则，比如近期对该商品品牌或品类有购买行为的用户，因此若直接将种子用于集作为正样本容易导致模型存在过拟合的问题。鉴于此，在本发明实施例中，通过提取模块403根据第一提取规则从候选用户集中提取了部分用户，对种子用户集进行了适当地泛化，以解决过拟合的问题、以及增强机器学习模型的泛化能力。

在现有技术中，将除了种子用户之外的用户都作为负样本，选取方式比较粗糙，导致模型的训练效果不好。鉴于此，在本发明实施例中，通过提取模块403根据第二提取规则提取与正样本存在关联性、且差异性较大的用户作为负样本用户，以改善模型的训练效果。

训练模块404，用于根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模型进行训练，以得到训练后的第一机器学习模型。

其中，所述用户特征数据可基于以下维度的用户特征构建：用户画像类特征、用户对业务活动涉及的目标商品的行为特征(比如购买、加购物车、点击、关注等行为特征)、用户对相似商品的行为特征、以及购买商品的分词特征。具体实施时，可预先构建用户特征数据，比如，可以每天例行执行构建用户特征数据的步骤，从而在人群拓展任务触发后，可直接从数据库中获取这些用户特征数据，有助于提高人群拓展任务的执行效率。

筛选模块405，用于根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集。

示例性地，筛选模块405可根据所述训练后的第一机器学习模型确定所述候选用户集中各个用户对目标商品的偏好度；然后，筛选模块405将所述偏好度大于预设阈值的所有用户、或者将偏好度最大的预设数量的用户，作为拓展用户集。具体实施时，所述预设阈值、所述预设数量可由需求方进行设置，也可由人群拓展任务的执行方根据具体业务需求进行灵活设置。

图5示出了可以应用本发明实施例的数据处理方法或数据处理装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所提交的人群拓展任务提供支持的后台管理服务器。后台管理服务器可以在接收到人群拓展任务后进行分析等处理，并将处理结果(例如拓展用户集)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据处理方法一般由服务器505执行，相应地，数据处理装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的计算机系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括确定模块、提取模块、训练模块和筛选模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，确定模块还可以被描述为“确定候选用户集的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行以下流程：响应于人群拓展任务的触发，确定用于人群拓展的候选用户集；根据第一提取规则从所述候选用户集中提取部分用户，然后将提取的所述部分用户和种子用户集作为正样本用户；根据第二提取规则提取部分用户作为负样本用户；根据所述正样本用户和负样本用户的用户特征数据对第一机器学习模型进行训练，以得到训练后的第一机器学习模型；根据所述训练后的第一机器学习模型从所述候选用户集中筛选出拓展用户集。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张美娜;仲济源;
专利申请人：北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司;