一种基于大数据的用户分组方法及系统

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及计算机软件技术领域，具体涉及一种基于大数据的用户分组方法及系统。

背景技术

随着互联网技术的发展，越来越多的用户通过互联网平台进行社交、消费和商业活动。在实际公司运营的过程中，产生了大量的用户数据，比如用户的股票兴趣数据、产品登录数据、内容点击数据、课程参与数据、联络沟通数据、营销活动参与数据、投资信息、用户的基本信息等。

随着用户数据的增多和机器学习技术的发展，用户分类呈现出以下几个趋势。首先，是分类用户的维度增多，即，用户分类所涉及的场景越来越多，比如用户对于金融产品的逾期识别。其次，用户分类的时效越来越短，这也使得对于分类所用的用户数据的要求提高，且需要改进用户分类技术。第三，用户分类从人工分类发展为基于用户大数据的人工智能分类，也就是，通过采用机器学习算法从用户的数据中提取特征以进行用户分类。

在公司经营过程中，如何利用这些数据精准对用户进行分类从而为销售人员提供准实时的销售支持，成为亟需解决的技术问题。

发明内容

针对现有技术中的技术缺陷，本发明实施例的目的在于提供一种基于大数据的用户分组方法及系统，利用大数据技术实现客户分组，为销售人员对不同组别的客户进行精准营销提供支持。

为实现上述目的，第一方面，本发明实施例提供了一种基于大数据的用户分组方法，包括：

从预定数据源中采集用户的原始数据；

对所述原始数据按预设规则进行规范化处理获得标准化数据；

从标签配置库中获取与所述标准化数据的业务属性对应的标签算法对所述标准化数据进行计算以得到多维度的数据标签；

根据所述数据标签对所述用户进行分组。

进一步，所述原始数据包括兴趣股票数据、产品登录数据、功能点击数据、课程参与数据、联络沟通数据、营销活动参与数据、投资信息数据和用户的基本信息。

进一步，在采集用户的原始数据后，所述方法还包括：

对所述原始数据中的噪声、错误和冗余数据进行数据清洗处理以确保数据的准确性和一致性。

进一步，所述数据清洗处理包括去重、去除缺失值、处理异常值和纠正格式错误。

进一步，对所述原始数据按预设规则进行规范化处理，包括：统一日期格式、统一单位和统一命名规范。

进一步，在得到所述数据标签后，所述方法还包括：

将所述数据标签存储至标签数据库。

进一步，所述标签数据库以用户为索引存储于ES集群中，所述ES集群采用三节点部署。

进一步，所述方法还包括：

通过标准API使所述ES集群向各类应用提供接入服务。

进一步，所述多维度的数据标签包括用户维度标签值、频次维度标签值、产品维度标签值和兴趣维度标签值。

第二方面，本发明实施例还提供了一种基于大数据的用户分组系统，包括：

数据获取模块，用于从预定数据源中采集用户的原始数据；

数据处理模块，用于对所述原始数据按预设规则进行规范化处理获得标准化数据；

标签计算模块，用于从标签配置库中获取与所述标准化数据的业务属性对应的标签算法对所述标准化数据进行计算以得到多维度的数据标签；

用户分组模块，用于根据所述数据标签对所述用户进行分组。

实施本发明实施例提供的方法，利用大数据技术完成对用户的分类标签画像，将用户分成不同的群体，根据不同群体的特征进行有针对性的营销活动，从而提高营销服务的质量和效率。

通过此系统的应用，可以更加精准地把握用户需求，制定更加合理的市场策略和广告方案，提高企业的产品销量和用户满意度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的基于大数据的用户分组方法的流程示意图；

图2是本发明实施例提供的数据业务类型分类示意图；

图3是本发明实施例提供的基于大数据的用户分组ER图；

图4是本发明实施例提供的基于大数据的用户分组系统结构示意图；

图5是本发明实施例提供的基于大数据的用户分组系统拓扑图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

在实际公司运营的过程中，会产生大量的数据，比如用户的股票兴趣数据、产品登录数据、内容点击数据、课程参与数据、联络沟通数据、营销活动参与数据、投资信息、用户的基本信息等。如何利用这些数据为销售人员提供准实时的销售支持，是本申请技术方案的目标。

本申请的技术方案通过多方位的数据采集和业务系统数据的对接，包括用户的软件行为数据、直播平台的听课数据、与业务系统之间的交互数据等，建立了多维度数据标签，对用户进行分层沉淀。并在此基础上，实现精准化营销，在用户的不同生命周期，活动行为前提下，推送合适的产品活动和消息，并提供销售建议。

具体的，如图1所示，其示出了本发明实施例提供的一种基于大数据的用户分组方法的流程图。该方法具体包括以下步骤：

步骤S101：从预定数据源中采集用户的原始数据。

用户画像的数据源主要由五个部分构成：产品行为数据源、订单数据源、CRM数据源、培训课程数据源以及电话沟通数据源。

其中，产品行为数据源中的数据为用户在产品端(PC、APP)产生的各类点击与产品使用过程中所产生的数据，通过APP、PC端定时上报至日志采集库中。

订单数据源中的数据为用户在订单系统中购买产品、发放赠品等购买行为产生的订单数据。

CRM数据源中的数据为用户在CRM系统中记录的用户基本信息、联络记录、属性标注、咨询工单、投诉等各类数据。

培训课程数据源中的数据为用户参加的各类直播会场、课程回放等数据。

电话沟通数据源中的数据为用户与公司通过电话作为媒介的话单数据。

以上数据源中数据采用ETL工具，通过数据同步系统定时从各个垂直系统中抽取汇集至数据库中进行存储。

具体的，本实施例中，依照数据来源和业务场景，将原始数据归类为8类，包括：兴趣股票数据、产品登录数据、功能点击数据、课程参与数据、联络沟通数据、营销活动参与数据、投资信息和用户的基本信息，见图2所示。其中，兴趣股票数据是用户在平台上对于个股的兴趣爱好和偏好。该类数据目的在于帮助平台分析用户的偏好和投资方向，在为用户推荐投资产品和股票方面提供重要参考。同时，这些数据也可以结合平台预测的市场趋势和股票表现，从而初步判定用户投资水平。

产品登录数据是用户在平台中登录账号、使用产品的记录。该类数据目的在于帮助平台分析用户活跃度和使用频率，了解用户对产品的喜好和使用习惯，同时也可以作为评估产品质量和用户体验的指标，有助于推进产品优化和改进。此外，产品登录数据还可以帮助平台识别异常行为和安全风险，保障用户账号和资产的安全。

功能点击数据是指用户在平台上点击各种功能按钮、链接或其他交互元素的行为记录。该类数据可以帮助平台分析用户对各个功能的使用偏好、频率以及交互体验。平台可通过收集和分析此类数据来分析用户关注的产品功能，根据产品功能属性来对用户进行分组。

课程参与数据是指用户在平台上参加课程学习、完成作业、交流讨论等行为的记录。此类数据可以帮助平台评估课程的受欢迎程度、学生满意度、教学效果以及用户留存率。通过分析课程参与数据，平台可以了解到用户对各种课程的喜好、学习习惯和需求，进而调整未来的教学计划和推广策略。

联络沟通数据是指用户在平台上使用产品IM组件、企点、企微、电话或其他联络方式与客服进行联系沟通的记录数据。该类数据可以聚焦用户的需求和问题，可评估每个用户的沟通意愿、习惯等。通过分析此类数据可以提供契合用户属性的沟通方案，提高沟通效率和沟通质量。

营销活动参与数据是指用户在平台上参与各种营销活动的记录，包括点击广告、下单、优惠券领用等等。此类数据可以帮助平台评估活动的效果、获取更多的用户信息以及了解用户对产品的认知和态度。基于前述数据，也可以制定针对用户分类群体的营销策略，提高高用户的活动转化率和用户参与度。

投资信息是用户的交易诊断数据、风险评测数据、投资标识数据。其中，交易诊断数据是指用户在股市买卖股票的交易情况，包括股票买卖的时间、买卖价格、买卖数量等信息。用于分析用户的投资行为。风险评测数据是指用户通过做题或问卷等方式，对自己的风险偏好进行评估得到的数据。该数据充分反应用户的投资偏好和风险承受能力，从而构成向用户提供匹配的投资标的和投资方案的数据支撑。投资标识数据是指用户对股票的标识信息，如股票代码、股票名称、所属行业等等。此类数据同样可反应用户的投资偏好和风险承受能力。

用户的基本信息则包括个人身份、性别、年龄、教育程度、兴趣爱好、股龄、资金量等等基本信息。个人身份是指用户的姓名、身份证号码等信息。可用于验证用户的身份和确保投资安全。性别、年龄、教育程度、兴趣爱好、股龄、资金量等等基本信息可用于更加准确地了解用户的投资习惯、风险偏好、金融知识水平和投资能力。

本实施例中，原始数据大多数都是来自系统打点的使用日志、其他业务系统的客户填写数据、人工录入数据、问卷调查数据等等。来自各个业务系统的未经处理的数据，需要进行数据清洗、去重和格式化才能进行后续的分析和应用。

系统对原始数据中的噪声、错误和冗余数据进行数据清洗处理，以确保数据的准确性和一致性。数据清洗包含去重、去除缺失值、处理异常值、纠正格式错误等步骤。

步骤S102：对所述原始数据按预设规则进行规范化处理获得标准化数据。

标准化数据是将原始数据根据一定规则进行的数据规范化处理后，生成的具有一致性和准确性的数据池。标准化数据在不同的场景下能够进行有效的共通性操作。数据标准化处理包括统一日期格式、统一单位、统一命名规范等步骤。

步骤S103：从标签配置库中获取与所述标准化数据的业务属性对应的标签算法对所述标准化数据进行计算以得到多维度的数据标签。

本实施例中，通过对业务场景的分析，将标签分为8个大类约400+个标签内容，如图3所示。将这些标签的计算方法记录在标签配置库中。考虑后期的系统维护以及标签的扩展、变更能力，采用算法与数据分离的模式。

计算数据标签时，首先读取标签配置库中的各类算法，然后生产计算任务，再基于标准化数据生成每一个维度的标签值储存至标签数据库，所有的标签值均为True或者False。这种结构的设计便于标签的存储以及应用。

其中，所述多维度的数据标签包括用户维度标签值、频次维度标签值、产品维度标签值和兴趣维度标签值，从而从用户维度、频次维度、产品维度、兴趣维度建立了多维度数据标签，对用户进行分层沉淀。

上述标签计算架构设计巧妙合理，其一，根植于业务场景的标签分类具备快速适配业务的应用属性；再者，分离的数据和算法层、配置式算法覆盖率达90％，使系统具有高维护、迭代性能。

标签数据库以用户为索引存储于ES集群中，ES集群采用三节点部署以达成高可用性的目的。各类过程数据及变量也通过ES集群接入Kibana监控平台，通过平台实时监控各类指标计算的过程，保障数据处理流程的稳定性。

ES集群通过标准API向各类应用提供接入服务。API接口提供多种维度的数据查询，查询入口包括用户、单标签、多标签组、多条件逻辑组，全面覆盖使用场景。API接口基于Http协议提供接入Nginx代理，通过Nginx+LVS的架构设计保障服务的高可用性。

步骤S104：根据所述数据标签对所述用户进行分组。

分组手段采用人工干预的智能聚类算法，通过手动分组训练算法，自动生成强关联性查询条件组，从而实现具有使用价值的用户分组数据，以便进行针对性的营销和服务。

基于相同的发明构思，本发明实施例提供了一种基于大数据的用户分组系统。如图4所示，该系统包括：

数据获取模块201，用于从预定数据源中采集用户的原始数据；

数据处理模块202，用于对所述原始数据按预设规则进行规范化处理获得标准化数据；

标签计算模块203，用于从标签配置库中获取与所述标准化数据的业务属性对应的标签算法对所述标准化数据进行计算以得到多维度的数据标签；

用户分组模块204，用于根据所述数据标签对所述用户进行分组。

为了实现系统平台需求目标，基于前述架构和设计，本实施例设计了冗余互备的拓扑架构，如图5所示。总的来说，系统采用分布式可扩展架构，充分保留了扩增未来数据的可行性，通过多点存储，保障数据的安全。

该系统的数据处理过程依赖于三个外部数据源，即客户管理系统(CMP系统)、产品数据系统和调度中心集群。为了保证数据的稳定可靠获取，系统设置了两台数据加工服务器，采用了Windows Server故障转移群集(WSFC)技术，形成双节点协同工作。

WSFC技术是一种为了提高可用性而设计的故障转移和自动恢复的技术。在该系统中，由于数据加工服务器是数据获取的重要环节，因此采用WSFC技术可以确保数据获取过程中不会因为服务器故障而导致数据中断。

采用双节点WSFC协同工作的方案，实现了简单的分布式元数据和通知、资源管理、运行状况监视、故障转移协调等功能。在此拓扑层，系统将来自三个外部数据源的数据进行聚合和整合，完成原始数据的积累，为后续的数据处理和分析提供了可靠的数据源。

具体的，本拓扑层中系统对基础数据的流程包括数据获取、数据清洗、数据标准化，形成标准化的数据，是后续处理的基础。

在基础数据加工集群后方是支持一键水平扩容的TiDB集群，包括行存储引擎TiKV服务器3台、服务调度服务器3台和监控服务器1台。TiKV是分布式的键值存储引擎，能够支持高并发的读写操作；服务调度服务器主要负责集群内部的调度和资源管理，确保计算和存储的均衡；监控服务器则用于监测整个集群的状态，并提供可视化的监控结果。

该集群符合计算和存储分离的原则，在不中断集群服务的情况，可通过上线或下线对应服务器单元进行无感的水平扩容和缩容操作，以应对不同数据量增长、计算模型增加等业务需求。

该集群采用了多副本存储策略，实现了数据的高可用性和强一致性。多数派写入成功后，才能提交事务，数据副本通过Multi-Raft协议同步事务日志，多数派写入成功事务才能提交，确保数据的一致性。本策略也确保了某些数据副本出现故障时的数据可用性，并且可以根据实际需求选择副本的数量和地理位置等策略，满足不同容灾级别的要求。

本集群中，标准化数据的处理和存储都是在拓扑层进行的。有效地提高数据处理的效率，并为后续的数据分析和挖掘提供基础支持。

总之，本次研究部署的TiDB数据处理集群具有可靠性高、扩展性强、处理效率高等优点，能够满足不同量级的数据处理和存储需求。

在标准化数据处理TiDB集群后方是标签计算单元，部署有2台服务器。主要采用Hadoop和Kafka相结合的方式进行。

其中于Hadoop架构主要针对相对静态的数据，使用处理流程上的MapReduce来批量处理数据并生成标签。通过MapReduce将一个大任务分成多个小任务并行处理，以提高处理效率。在标签计算中，通过MapReduce来进行标签的抽取、过滤、清洗、聚合等操作，将处理后的数据存储在Hadoop分布式文件系统HDFS中，供后续分析和挖掘使用。

其中Kafka的标签计算技术主要应用在高吞吐量的分布式低延迟数据(高时间要求的动态数据流)的处理。面对大量的此类消息数据流，Kafka相对Hadoop更加具有优势，通过将数据存储在分布式系统中的同时，采用流式计算算法进行实时处理和分析，生成标签数据。使用Kafka处理标签数据时，通过对数据流进行实时计算和分析，动态调整标签的生成和更新策略，并将计算后的标签数据同样存储在Hadoop的分布式数据库中。同时，Kafka系统一样具有高可靠性、分布式数据处理、水平扩展性等特点。

通过结合Kafka和Hadoop形成的混合标签处理拓扑层，完成在各个时间颗粒度上标签处理，并存储进入标签值数据库中，等待下一步处理。

在标签计算服务器后方是标签搜索服务集群，部署有2台服务器。该集群使用基于Lucene的倒排索引ElasticSearh(ES)技术，可以实现高性能、高可扩展、高实时的搜索和数据分析，能够快速地检索对应的目录。

为了提高查询效率，集群引入了分词字典和分词索引，降低了IO次数。通过对用户进行分组计算生成拓扑层，可以更加有效地管理和利用用户标签信息，实现更准确的搜索和推荐。整个系统架构相当于一个分布式的标签搜索引擎，可以处理大量的数据和请求，并具有较强的扩展性和可靠性。此拓扑层进行用户分组的计算生成。

通过此系统的应用，可以更加精准地把握用户需求，制定更加合理的市场策略和广告方案，提高企业的产品销量和用户满意度。

进一步地，本发明实施例还提供了一种可读存储介质，存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：上述基于大数据的用户分组方法。

所述计算机可读存储介质可以是前述实施例所述的后台服务器的内部存储单元，例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备，例如所述系统上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：益盟股份有限公司;

上一篇：物联网卡中剩余流量的存储方法、电子设备及存储介质
下一篇：银行对公交易流水视图构建方法和装置