一种通信服务业用户需求预测方法和装置

文献发布时间：2024-04-18 20:01:55

技术领域

本发明涉及大数据分析技术领域，具体涉及一种通信服务业用户需求预测方法和装置。

背景技术

用户需求是影响通信运营的关键因素，用户的消费心理已经从过去的追求低价，转变为不仅限于商品的功能，而且追求心理满足感，营销学家提出的“服务质量差距模型法”由“服务期望与服务感知之差”等5个差距的度量方法构成，是服务行业质量控制的基本方法；其中，“服务期望”识别是服务管理与运营中的第一步，若市场调查不全面或进度慢、向上沟通的渠道不畅通、管理层级过多等会极大地影响服务型企业的生存和发展。

现有技术中的通过用户座谈和员工讨论等方式研究用户需求的方法周期长、成本高、样本偏差、信息递减难以避免；因此，如何量化计算通信服务主流消费者的需求，且度量每一位用户的差异化需求，实现“服务质量差距模型法”中“服务期望”识别环节的全程数字化是亟待解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种通信服务业用户需求预测方法和装置。

根据本发明的一个方面，提供了一种通信服务业用户需求预测方法，包括：

获取历史用户留言，依据历史用户留言构建用户客群角色描绘表；

针对每个用户，从该用户的历史用户留言中提取关键字，依据所述关键字和所述用户客群角色描绘表确定该用户对应的用户客群；

针对每个用户客群，提取该用户客群中各个用户的特征字段，根据所述特征字段进行训练学习得到对应的线性回归模型；

将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型；

依据所述用户需求预测模型进行用户需求预测。

根据本发明的另一方面，提供了一种通信服务业用户需求预测装置，包括：

客群划分模块，用于获取历史用户留言，依据历史用户留言构建用户客群角色描绘表；针对每个用户，从该用户的历史用户留言中提取关键字，依据所述关键字和所述用户客群角色描绘表确定该用户对应的用户客群；

模型训练模块，用于针对每个用户客群，提取该用户客群中各个用户的特征字段，根据所述特征字段进行训练学习得到对应的线性回归模型；将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型；

预测模块，用于依据所述用户需求预测模型进行用户需求预测。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述一种通信服务业用户需求预测方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述一种通信服务业用户需求预测方法对应的操作。

根据本发明的一种通信服务业用户需求预测方法和装置，通过获取历史用户留言，依据历史用户留言构建用户客群角色描绘表；针对每个用户，从该用户的历史用户留言中提取关键字，依据关键字和用户客群角色描绘表确定该用户对应的用户客群；针对每个用户客群，提取该用户客群中各个用户的特征字段，根据特征字段进行训练学习得到对应的线性回归模型；将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型；依据用户需求预测模型进行用户需求预测。本发明通过对历史用户留言进行大数据分析划分用户客群，按照各个用户客群建立用户需求预测模型，实现对用户需求的精准预测，提高用户需求预测的时效性和准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种通信服务业用户需求预测方法流程图；

图2示出了本发明实施例提供的一种通信服务业用户需求预测装置的结构示意图；

图3示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明一种通信服务业用户需求预测方法实施例的流程图，如图1所示，该方法包括以下步骤：

步骤S110：获取历史用户留言，依据历史用户留言构建用户客群角色描绘表。

在一种可选的方式中，该方法还包括：通过自然语言处理技术对历史用户留言进行去噪处理；其中，去噪处理至少包括：去除语气助词、标点符号和地名。

具体地说，提取历史用户留言后，可以通过自然语言处理(Natural LanguageProcessing，NLP)技术对历史用户留言进行去噪处理，针对去噪处理后的历史用户留言提取关键字。

在一种可选的方式中，步骤S110进一步包括：提取历史用户留言中的关键字，依据关键字与用户需求的交叉关系建立对照表；根据对照表划分用户客群，依据划分的用户客群和用户客群对应的关键字构建用户客群角色描绘表。

通过在通信平台用户信息管理系统中获取历史用户留言，提取历史用户留言中的关键字，依据关键字与用户需求的交叉关系建立对照表。例如，可以依据用户的年龄和职级信息等作为选择维度，与历史用户留言中的关键字进行分析，根据各个年龄段或各个职级对各个关键字的提及率建立对照表；其中，职级信息可以包括高层、中层、基层等类型。

以年龄为例，按照30岁以下、30-44岁、45岁以上划分年龄段，将用户需求类型划分为：基本保障类、价格实惠类、服务便捷类和可玩性强类，年龄与关键字提及率的交叉关系如表1所示：

表1年龄与用户需求的交叉关系对照表

以职级信息为例，将职级划分为高层、中层和基层，职级信息与关键字提及率的交叉关系如表2所示：

表2职级信息与用户需求的交叉关系对照表

由表1和表2可见，除基本保障类的提及率无显著差异外，其他用户需求类型的关键字提及率差异较大，因此，可以根据对照表划分四类用户客群，依据划分的用户客群和用户客群对应的关键字构建用户客群角色描绘表，如

表4所示：

表3用户客群角色描绘表

步骤S120：针对每个用户，从该用户的历史用户留言中提取关键字，依据关键字和用户客群角色描绘表确定该用户对应的用户客群。

在一种可选的方式中，步骤S120进一步包括：对该用户的历史用户留言进行拆分，得到短句文本；将短句文本转换为词向量输入至语义识别模型中，通过语义识别模型识别情绪强度值符合预设情绪强度值范围的目标短句文本；从目标短句文本中提取关键字。

由于每个用户在历史周期内可能多次留言，且留言长短不一，因此，针对每个用户，为了精准地确定用户所属用户客群，可以先对该用户的历史用户留言进行文本情绪强度预测，具体地，将含有标点符号的历史用户留言依据标点符号进行拆分，得到短句文本；将短句文本通过单词转换为向量(word to vector，Word2vec)技术转换为词向量，将词向量输入至语义识别模型中，通过语义识别模型识别情绪强度值符合预设情绪强度值范围的目标短句文本；从目标短句文本中提取关键字；若未从目标短句文本中提取到关键字，则废弃该目标短句文本。

具体地说，可以通过普拉切克(Plutchik)情绪轮理论中五级情绪为依据作线性回归输出(情绪强度值设定为0.0-5.0)，通过长短期记忆网络(Long Short-Term Memory，LSTM)算法分别预测每个短句文本的情绪强度值，输出该用户历史留言中情绪强度值最大的1个短句文本作为目标短句文本。

依据提取到的关键字和表3的用户客群角色描绘表确定该用户对应的用户客群；若提取到多个关键字，且多个关键字分属不同用户客群，则说明该用户所属用户客群并不明朗，则废弃该用户的历史用户留言样本。

在一种可选的方式中，该方法还包括：依据确定的用户客群对每个用户进行标注。

进一步地，依据确定的用户客群对每个用户进行自动标注，作为线性回归模型的输入数据。

步骤S130：针对每个用户客群，提取该用户客群中各个用户的特征字段，根据特征字段进行训练学习得到对应的线性回归模型。

针对每个用户客群的用户，用户很多特征字段可能不全，因此仍需从后台提取该用户客群中各个用户的特征字段。

在一种可选的方式中，步骤S130进一步包括：针对每个用户客群，获取该用户客群对应的预设特征字段集合，按照预设特征字段集合，提取该用户客群中各个用户的特征字段；将各个用户的特征字段按照预设比例建立训练集和测试集；依据训练集，通过梯度提升算法对每个用户客群进行训练学习得到对应的线性回归模型；依据测试集对线性回归模型进行准确率测试。

具体地，以表3中确定的用户客群为例，提取用户客群A：价格实惠类用户的特征字段输入线性回归模型进行训练，用户客群A价格实惠类模型训练所需的特征字段如表4所示：

表4用户客群A价格实惠类模型训练所需的特征字段

提取用户客群B：服务便捷类用户的特征字段输入线性回归模型进行训练，用户客群B服务便捷类模型训练所需的特征字段如表5所示：

表5用户客群B服务便捷类模型训练所需的特征字段

提取用户客群C：关心客户类用户的特征字段输入线性回归模型进行训练，用户客群C关心客户类模型训练所需的特征字段如表6所示：

表6用户客群C关心客户类模型训练所需的特征字段

提取用户客群D：可玩性强类用户的特征字段输入线性回归模型进行训练，用户客群D可玩性强类模型训练所需的特征字段如表7所示：

表7用户客群D可玩性强类模型训练所需的特征字段

将已标注的用户样本按表4-表7补充特征字段后，将样本量按照预设比例建立训练集和测试集；例如，按照预设比例7.5:2.5划分训练集和测试集，依据训练集，通过梯度提升(XGBOOST)算法对每个用户客群进行训练学习得到对应的线性回归模型；在本实施例中，以近三个月的历史用户留言为样本，即可训练得到用户客群A-D对应的四个线性回归模型如表8所示，其中，线性回归模型输出的是预测概率值：

表8用户客群A-D对应的四个线性回归模型

步骤S140：将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型。

在本步骤中，将线性回归模型的输出即每个用户属于各个用户客群的概率值作为多值选择模型的输入，采用k均值(k-means)无监督学习算法自动确定阈值，多值选择模型的输入和输出情况如表9所示，其中，输入为每个用户属于用户客群A-D的概率，通过k-means无监督学习算法进行K值选择，输出即为每个客户所属客群：

表9多值选择模型的输入和输出情况

需要说明的是，K值选择是k-means无监督学习算法很重要的一步，K值选择方法有肘部法则、拍脑袋法、间隔统计量(gap statistic)法、轮廓系数等，在本实施例中，主要采用肘部法则及gap statistic两种常用方法。

步骤S150：依据用户需求预测模型进行用户需求预测。

在本步骤中，通过用户需求预测模型进行用户需求预测，预测得到的结果可以用于管理赋能；按地域统计和跟踪用户需求的分布和变化趋势，从而优化市场资源的投放；例如，统计发现某网格内用户客群D：可玩性强类型占比持续上升，则对该区域内的广告投放和供应链均可向新产品倾斜；预测得到的结果还可以用于一线赋能，基于用户需求预测结果实现定制化服务，按用户需求向其提供差异化服务；例如，基于用户客群D的用户关注可玩性强的新产品，则可主动邀约标记为用户客群D的用户参加新产品发布会，增强与用户的情感共鸣。

在一种可选的方式中，该方法还包括：按照预设周期提取上一周期内产生的用户留言，将上一周期内的用户留言对应的用户作为测试集对用户需求预测模型进行准确率测试；当准确率低于预设阈值时，利用历史用户留言以及上一周期内的用户留言更新用户客群角色描绘表，以对用户需求预测模型进行更新训练。

为了提高用户需求预测模型预测的准确性，可定期对用户需求预测模型进行更新训练，具体地，将上一周期的用户留言对应的用户作为用户需求模型的测试集，按月滚动测试用户需求模型质量；当模型预测结果的准确率低于预设阈值时，利用历史用户留言以及上一周期内的用户留言更新用户客群角色描绘表，形成无需人工干预的质量迭代闭环，表10为用户需求模型准确率测试情况，如表10所示，准确率＝验证样本中“准确”的量/验证样本总量*100％，可将准确率预设阈值设置为70％，当模型预测结果的准确率低于70％时，则对用户需求预测模型进行更新训练。

表10用户需求模型准确率测试情况

采用本实施例的方法，通过对历史用户留言进行语义识别，得到每一个用户的差异化需求，从而划分用户客群，并对每个用户客群的对应数据进行自动标注得到训练集数据，通过多个大数据模型组合运作，得到用户需求预测模型，通过用户需求预测模型预测每一个用户的需求，提升用户体验；且可以对模型预测准确度进行监测，从而自动触发模型更新训练，大幅提升时效性和准确性，无需人工干预。

图2示出了本发明一种通信服务业用户需求预测装置实施例的结构示意图。如图2所示，该装置包括：客群划分模块210、模型训练模块220和预测模块230。

客群划分模块210，用于获取历史用户留言，依据历史用户留言构建用户客群角色描绘表；针对每个用户，从该用户的历史用户留言中提取关键字，依据关键字和用户客群角色描绘表确定该用户对应的用户客群。

在一种可选的方式中，客群划分模块210进一步用于：提取历史用户留言中的关键字，依据关键字与用户需求的交叉关系建立对照表；根据对照表划分用户客群，依据划分的用户客群和用户客群对应的关键字构建用户客群角色描绘表。

在一种可选的方式中，客群划分模块210进一步用于：对该用户的历史用户留言进行拆分，得到短句文本；将短句文本转换为词向量输入至语义识别模型中，通过语义识别模型识别情绪强度值符合预设情绪强度值范围的目标短句文本；从目标短句文本中提取关键字。

在一种可选的方式中，客群划分模块210进一步用于：依据确定的用户客群对每个用户进行标注。

在一种可选的方式中，客群划分模块210进一步用于：通过自然语言处理技术对历史用户留言进行去噪处理；其中，去噪处理至少包括：去除语气助词、标点符号和地名。

模型训练模块220，用于针对每个用户客群，提取该用户客群中各个用户的特征字段，根据特征字段进行训练学习得到对应的线性回归模型；将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型。

在一种可选的方式中，模型训练模块220进一步用于：针对每个用户客群，获取该用户客群对应的预设特征字段集合，按照预设特征字段集合，提取该用户客群中各个用户的特征字段；将各个用户的特征字段按照预设比例建立训练集和测试集；依据训练集，通过梯度提升算法对每个用户客群进行训练学习得到对应的线性回归模型；依据测试集对线性回归模型进行准确率测试。

在一种可选的方式中，模型训练模块220进一步用于：按照预设周期提取上一周期内产生的用户留言，将上一周期内的用户留言对应的用户作为测试集对用户需求预测模型进行准确率测试；当准确率低于预设阈值时，利用历史用户留言以及上一周期内的用户留言更新用户客群角色描绘表，以对用户需求预测模型进行更新训练。

预测模块230，用于依据用户需求预测模型进行用户需求预测。

采用本实施例的装置，通过获取历史用户留言，依据历史用户留言构建用户客群角色描绘表；针对每个用户，从该用户的历史用户留言中提取关键字，依据关键字和用户客群角色描绘表确定该用户对应的用户客群；针对每个用户客群，提取该用户客群中各个用户的特征字段，根据特征字段进行训练学习得到对应的线性回归模型；将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型；依据用户需求预测模型进行用户需求预测。本装置通过对历史用户留言进行大数据分析划分用户客群，按照各个用户客群建立用户需求预测模型，实现对用户需求的精准预测，提高用户需求预测的时效性和准确性。

本发明实施例提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的一种通信服务业用户需求预测方法。

可执行指令具体可以用于使得处理器执行以下操作：

获取历史用户留言，依据历史用户留言构建用户客群角色描绘表；

针对每个用户，从该用户的历史用户留言中提取关键字，依据关键字和用户客群角色描绘表确定该用户对应的用户客群；

针对每个用户客群，提取该用户客群中各个用户的特征字段，根据特征字段进行训练学习得到对应的线性回归模型；

将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型；

依据用户需求预测模型进行用户需求预测。

图3示出了本发明计算设备实施例的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图3所示，该计算设备可以包括：

处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。

其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口，用于与其它设备比如客户端或其它服务器等的网元通信。处理器，用于执行程序，具体可以执行上述一种通信服务业用户需求预测方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器可能是中央处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序具体可以用于使得处理器执行以下操作：

获取历史用户留言，依据历史用户留言构建用户客群角色描绘表；

针对每个用户，从该用户的历史用户留言中提取关键字，依据关键字和用户客群角色描绘表确定该用户对应的用户客群；

针对每个用户客群，提取该用户客群中各个用户的特征字段，根据特征字段进行训练学习得到对应的线性回归模型；

将多个用户客群的线性回归模型输入多值选择模型进行训练得到用户需求预测模型；

依据用户需求预测模型进行用户需求预测。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国移动通信集团浙江有限公司;中国移动通信集团有限公司;