掌桥专利:专业的专利平台
掌桥专利
首页

应用于云数字业务的大数据推荐方法及大数据挖掘系统

文献发布时间:2024-04-18 19:58:21


应用于云数字业务的大数据推荐方法及大数据挖掘系统

技术领域

本发明涉及数字经济、人工智能和大数据技术领域,特别涉及一种应用于云数字业务的大数据推荐方法及大数据挖掘系统。

背景技术

随着互联网、大数据、云计算、人工智能、区块链等数字技术迅猛发展,数字经济日益成为全球产业要素资源重组、结构重塑、竞争格局嬗变的关键力量。数字经济是驱动产业高质量发展的关键力量,而产业高质量发展是数字经济发展的重要支撑。产业高质量发展指向产业发展质量的高级状态,其过程必然伴随着产业结构的升级调整以及新兴业态的加速涌现,其核心衡量维度包括产业竞争力、产业创新力、产业可持续发展能力与产业安全性等。

数字经济驱动产业高质量发展的核心逻辑包括生产要素赋能机制、交易成本降低机制、产业组织变革机制以及资源配置能力提升等多重机制,具体包括数字要素成为产业高质量发展的核心生产要素,数字开放式创新系统、用户创新成为产业跨界融合创新的新常态,产业平台组织下的跨产业链融合,以及跨生态位协同的产业生态链群成为产业链价值共创的新产业组织,数字产业链高度柔性化提高产业链韧性与抗风险能力等。

发明内容

本发明至少提供一种应用于云数字业务的大数据推荐方法及大数据挖掘系统。

本发明的技术方案是通过如下至少部分实施例实现的。

一种应用于云数字业务的大数据推荐方法,应用于大数据挖掘系统,所述方法包括:

获得在选定在线话题交互场景下所爬取的待分析用户会话活动记录;对所述待分析用户会话活动记录进行对话观点评论挖掘得到观点评论量化频繁项;

基于所述观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从所述评论关键词特征池中确定与所述观点评论量化频繁项存在联系的目标评论关键词特征,所述评论关键词特征池中包括不同特征语义的评论关键词特征,所述评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量;

依据所述目标评论关键词特征对所述观点评论量化频繁项进行优化得到当前观点评论频繁项;基于所述当前观点评论频繁项确定所述待分析用户会话活动记录对应的目标会话文本量化编码;基于所述目标会话文本量化编码对所述待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息,以基于所述话题兴趣捕捉信息指导所述选定在线话题交互场景所对应的数字服务业的大数据推荐。

在一些示例性实施例中,所述方法还包括:

将所述待分析用户会话活动记录加载到话题兴趣捕捉网络,所述话题兴趣捕捉网络包括对话观点评论挖掘组件、评论关键词特征组件、向量聚合组件和话题兴趣捕捉组件,所述评论关键词特征组件由所述评论关键词特征池中的评论关键词特征形成;

所述对所述待分析用户会话活动记录进行对话观点评论挖掘得到观点评论量化频繁项,包括:依据所述对话观点评论挖掘组件对所述待分析用户会话活动记录进行对话观点评论挖掘得到所述观点评论量化频繁项;

所述基于所述观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从所述评论关键词特征池中确定与所述观点评论量化频繁项存在联系的目标评论关键词特征,包括:依据所述评论关键词特征组件确定与所述观点评论量化频繁项存在联系的所述目标评论关键词特征;

所述依据所述目标评论关键词特征对所述观点评论量化频繁项进行优化得到当前观点评论频繁项,包括:依据所述向量聚合组件将所述目标评论关键词特征与所述观点评论量化频繁项进行聚合得到所述当前观点评论频繁项;

所述基于所述当前观点评论频繁项确定所述待分析用户会话活动记录对应的目标会话文本量化编码,包括:依据所述向量聚合组件基于所述当前观点评论频繁项确定所述待分析用户会话活动记录对应的所述目标会话文本量化编码;

所述基于所述目标会话文本量化编码对所述待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息,包括:依据所述话题兴趣捕捉组件基于所述目标会话文本量化编码对所述待分析用户会话活动记录进行话题兴趣捕捉,得到所述话题兴趣捕捉信息。

在一些示例性实施例中,所述方法还包括生成所述评论关键词特征组件,所述生成所述评论关键词特征组件包括:

在调试得到所述话题兴趣捕捉网络的过程中,依据所述对话观点评论挖掘组件对用户会话活动记录样例进行对话观点评论挖掘,得到先验特征语义注释所匹配的话题兴趣关注点的观点评论量化频繁项样例,所述先验特征语义注释用于标记所述用户会话活动记录样例中包括的话题兴趣关注点的特征语义;

基于所述话题兴趣关注点的观点评论量化频繁项样例调整所述评论关键词特征组件中所述话题兴趣关注点所对应特征语义的评论关键词特征。

在一些示例性实施例中,所述基于所述话题兴趣关注点的观点评论量化频繁项样例调整所述评论关键词特征组件中所述话题兴趣关注点所对应特征语义的评论关键词特征,包括:

如果所述话题兴趣关注点所对应特征语义的评论关键词特征的个数=0,则将所述话题兴趣关注点的观点评论量化频繁项样例作为所述话题兴趣关注点所对应特征语义的评论关键词特征;

如果所述话题兴趣关注点所对应特征语义的评论关键词特征的个数≠0,则确定所述话题兴趣关注点的观点评论量化频繁项样例与所述话题兴趣关注点所对应特征语义的评论关键词特征之间的共性度量结果;

基于所述共性度量结果调整所述评论关键词特征组件中所述话题兴趣关注点所对应特征语义的评论关键词特征。

在一些示例性实施例中,所述基于所述共性度量结果调整所述评论关键词特征组件中所述话题兴趣关注点所对应特征语义的评论关键词特征,包括:

如果所述共性度量结果小于共性度量结果限值,将所述话题兴趣关注点的观点评论量化频繁项样例添加到所述话题兴趣关注点所对应特征语义的评论关键词特征。

在一些示例性实施例中,所述基于所述共性度量结果调整所述评论关键词特征组件中所述话题兴趣关注点所对应特征语义的评论关键词特征,包括:

如果所述共性度量结果小于共性度量结果限值,确定所述话题兴趣关注点所对应特征语义的评论关键词特征的个数与个数限值之间的比较结果;

基于所述比较结果调整所述评论关键词特征组件中所述话题兴趣关注点所对应特征语义的评论关键词特征。

在一些示例性实施例中,所述生成所述评论关键词特征组件,包括:

基于所述先验特征语义注释和得到的当前观点评论频繁项样例之间的区别生成目标调试代价指标;

基于所述目标调试代价指标调整所述评论关键词特征组件中的评论关键词特征,以生成所述评论关键词特征组件。

在一些示例性实施例中,不同在线话题交互场景下对应不同的评论关键词特征池,所述基于所述观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从所述评论关键词特征池中确定与所述观点评论量化频繁项存在联系的目标评论关键词特征,包括:

获得所述选定在线话题交互场景对应的评论关键词特征池;

从所述选定在线话题交互场景对应的评论关键词特征池中确定与所述观点评论量化频繁项存在联系的所述目标评论关键词特征。

在一些示例性实施例中,所述基于所述当前观点评论频繁项确定所述待分析用户会话活动记录对应的目标会话文本量化编码,包括:将所述当前观点评论频繁项与所述观点评论量化频繁项进行组合得到所述目标会话文本量化编码。

在一些示例性实施例中,所述依据所述目标评论关键词特征对所述观点评论量化频繁项进行优化得到当前观点评论频繁项,包括:

基于所述目标评论关键词特征和所述观点评论量化频繁项计算共性度量结果可信列表,所述共性度量结果可信列表中的成员用于标记每个目标评论关键词特征对于所述观点评论量化频繁项的重要性系数;

基于所述共性度量结果可信列表对所述目标评论关键词特征和所述观点评论量化频繁项进行强化整合,得到所述观点评论量化频繁项对应的所述当前观点评论频繁项。

在一些示例性实施例中,所述方法还包括:

获得在线话题交互场景样例下的用户会话活动记录样例,所述用户会话活动记录样例存在其所包括话题兴趣关注点的先验特征语义注释;

将所述用户会话活动记录样例加载到通用话题兴趣捕捉网络,所述通用话题兴趣捕捉网络包括通用对话观点评论挖掘组件、通用评论关键词特征组件、通用向量聚合组件和通用话题兴趣捕捉组件,所述用户会话活动记录样例存在其所包括话题兴趣关注点的先验特征语义注释;

依据所述通用对话观点评论挖掘组件对所述用户会话活动记录样例进行对话观点评论挖掘得到观点评论量化频繁项样例;

依据所述通用评论关键词特征组件,基于所述观点评论量化频繁项样例与所述评论关键词特征池中评论关键词特征的共性度量结果,从所述通用评论关键词特征组件中确定与所述观点评论量化频繁项样例存在联系的目标评论关键词特征样例;

依据所述通用向量聚合组件,利用所述目标评论关键词特征样例对所述观点评论量化频繁项样例进行优化得到当前观点评论频繁项样例;

依据所述通用向量聚合组件,基于所述当前观点评论频繁项样例确定所述用户会话活动记录样例对应的目标会话文本量化编码样例;

依据所述通用话题兴趣捕捉组件,基于所述目标会话文本量化编码样例对所述待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息样例;

基于所述先验特征语义注释和所述话题兴趣捕捉信息样例对所述通用话题兴趣捕捉网络进行调试,得到所述话题兴趣捕捉网络。

一种大数据挖掘系统,包括:处理器、存储器以及网络接口;所述处理器与所述存储器、所述网络接口相连;所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行上述方法。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行应用于云数字业务的大数据推荐方法。

一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现应用于云数字业务的大数据推荐方法。

根据本发明的一个实施例,本发明事先统计不同特征语义的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量,可以表征一个特征语义的话题兴趣。对在选定在线话题交互场景下所爬取的待分析用户会话活动记录进行话题兴趣捕捉时,可以对待分析用户会话活动记录进行对话观点评论挖掘得到观点评论量化频繁项,然后基于观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从评论关键词特征池中确定与观点评论量化频繁项存在联系的目标评论关键词特征。评论关键词特征池中包括不同特征语义的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量,因而可以基于目标评论关键词特征对观点评论量化频繁项进行优化得到当前观点评论频繁项,基于当前观点评论频繁项确定待分析用户会话活动记录对应的目标会话文本量化编码,以获得尽可能综合完整且可以表征相关特征语义的话题兴趣关注点的编码向量。特别是在选定在线话题交互场景影响待分析用户会话活动记录,造成挖掘的观点评论量化频繁项缺失、特征识别度较低时,依据目标评论关键词特征对观点评论量化频繁项进行优化来帮助话题兴趣捕捉,确保所得到的目标会话文本量化编码的完整性和特征识别度。如此,基于目标会话文本量化编码对待分析用户会话活动记录进行话题兴趣捕捉,得到的话题兴趣捕捉信息更为精准合理,提升了话题兴趣捕捉的精度和可信度,为相关数字服务业的大数据推荐提供了可信度更高的分析依据。综上,本发明实施例改善了现有技术难以准确可靠地实现话题兴趣捕捉的技术问题,进而改善了难以为相关数字服务业的大数据推荐提供可信度更高的分析依据的技术问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本发明的技术方案。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本发明的实施例,并与说明书一起用于说明本发明的技术方案。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种大数据挖掘系统的示意图。

图2示出了本发明实施例所提供的一种应用于云数字业务的大数据推荐方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示出了本发明实施例所提供的一种大数据挖掘系统的示意图,大数据挖掘系统100包括处理器110、存储器120以及网络接口130。所述处理器110与所述存储器120、所述网络接口130相连。进一步地,所述网络接口130用于提供数据通信功能,所述存储器120用于存储程序代码,所述处理器110用于调用所述程序代码,以执行应用于云数字业务的大数据推荐方法。

图2是示出可以实现本发明的实施例的应用于云数字业务的大数据推荐方法的流程示意图,应用于云数字业务的大数据推荐方法可以通过图1所示的大数据挖掘系统100实现,应用于云数字业务的大数据推荐方法示例性地包括步骤201-步骤206。

步骤201、获得在选定在线话题交互场景下所爬取的待分析用户会话活动记录。

在实际实施时,文本大数据爬虫可能在不同在线话题交互场景下进行用户会话活动记录(文本)爬取,然而这些在线话题交互场景的网络状态稳定性可能欠佳,所爬取的用户会话活动记录(文本)可能被这类在线话题交互场景影响,比如用户会话活动记录(文本)存在错误或者缺失等,依据本发明实施例的设计思路可以对这些在线话题交互场景下爬取的用户会话活动记录(文本)进行话题兴趣捕捉,获得尽可能精准的话题兴趣捕捉信息。本发明实施例以在线话题交互场景为选定在线话题交互场景为例,在选定在线话题交互场景下爬取的、以进行话题兴趣捕捉的用户会话活动记录(文本)可以理解为待分析用户会话活动记录。其中,选定在线话题交互场景可以是针对数字虚拟空间服务(比如元宇宙、VR游戏、VR商城等)的在线话题交互场景。作为数字经济新业态下的高热度高流量分支,数字虚拟空间服务所对应的在线话题交互场景具有相当大的挖掘价值和指导意义。

本发明实施例中,待分析用户会话活动记录中包括不同在线平台用户的一系列会话交互信息,比如语音对话信息、文字聊天信息、表情图片信息等。

步骤202、对所述待分析用户会话活动记录进行对话观点评论挖掘得到观点评论量化频繁项。

在本发明实施例中,在得到待分析用户会话活动记录后,可以将待分析用户会话活动记录加载到话题兴趣捕捉网络,以通过话题兴趣捕捉网络对待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息。

进一步地,话题兴趣捕捉网络包括对话观点评论挖掘组件、评论关键词特征组件、向量聚合组件和话题兴趣捕捉组件。评论关键词特征组件由评论关键词特征池中的评论关键词特征形成。利用话题兴趣捕捉网络对待分析用户会话活动记录进行话题兴趣捕捉可以包括两个环节,第一个环节是依据话题兴趣捕捉网络进行对话观点评论挖掘,比如依据对话观点评论挖掘组件对待分析用户会话活动记录进行对话观点评论挖掘得到观点评论量化频繁项。第二环节主要是依据话题兴趣捕捉网络通过挖掘到的观点评论量化频繁项进行之后的处理,第二环节需应用评论关键词特征组件、向量聚合组件和话题兴趣捕捉组件。

进一步地,话题兴趣捕捉网络可以是基于人工智能技术训练调试所的神经网络模型,比如卷积神经网络、深度结构化语义模型、残差网络等。对话观点评论挖掘用于进行对话观点评论特征的提取,所得到的观点评论量化频繁项可以理解为量化的观点评论特征。其中,利用观点评论量化频繁项来表征观点评论特征,能够避免浮点特征造成的系统运算开销过大,且由于话题分析侧重于一定的主观性分析,因而可以牺牲一部分浮点特征的粒度,从而保障整体方案的时效性。

在上述内容的基础上,第一环节所应用的对话观点评论挖掘组件可以包括兴趣识别层和可逆层。首先依据第一环节的兴趣识别层来获得到待分析用户会话活动记录中话题兴趣关注点可能对应的分布窗口,得到兴趣识别窗口。

然后这些兴趣识别窗口依据NMS(Non-Maximum Suppression)之后清洗部分针对同一话题兴趣关注点存在重叠的兴趣识别窗口,这些兴趣识别窗口依据可逆层(卷积层)得到对应的观点评论量化频繁项,之后进入到第二环节进行处理得到最后的特征语义和分布窗口。

步骤203、基于所述观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从所述评论关键词特征池中确定与所述观点评论量化频繁项存在联系的目标评论关键词特征。

在本发明实施例中,可以事先生成评论关键词特征池,评论关键词特征池中包括不同特征语义(语义种类)的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量(显著性特征向量)。本发明实施例中的评论关键词特征池可以形成评论关键词特征组件,评论关键词特征组件也可以理解为类中心组件。

其中,评论关键词特征池中的评论关键词特征可以是在话题兴趣捕捉网络调试过程中采集的,在调试话题兴趣捕捉网络的过程中,持续地采集每一特征语义的话题兴趣关注点的文本细节表征向量作为这一特征语义的评论关键词特征,评论关键词特征不但用于调试过程,还用于为话题兴趣捕捉提供参考。

鉴于待分析用户会话活动记录可能被选定在线话题交互场景所影响,得到的观点评论量化频繁项可能特征识别度较低,因而可以基于观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从评论关键词特征池中选择与观点评论量化频繁项存在联系的目标评论关键词特征。比如确定观点评论量化频繁项与评论关键词特征池中每个评论关键词特征的共性度量结果(特征相似度),共性度量结果越高,表明该评论关键词特征所对应的话题兴趣关注点与观点评论量化频繁项所对应的话题兴趣关注点可能为一个特征语义的话题兴趣关注点,因而可以将共性度量结果高于一定限值的评论关键词特征作为目标评论关键词特征。鉴于评论关键词特征池中包括不同特征语义的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量,而确定出的目标评论关键词特征可能为观点评论量化频繁项所对应话题兴趣关注点的文本细节表征向量,因而之后可以利用目标评论关键词特征对观点评论量化频繁项进行优化得到当前观点评论频繁项,以获得尽可能综合完整且可以表征相关特征语义的话题兴趣关注点的编码向量(量化编码特征)。

可以理解的是,在通过以上话题兴趣捕捉网络进行话题兴趣捕捉时,在本发明实施例中可以依据话题兴趣捕捉网络中的评论关键词特征组件确定与观点评论量化频繁项存在联系的目标评论关键词特征。

在一些示例性设计思路下,对于同一话题兴趣关注点,不同在线话题交互场景可能会使其对应的文本细节表征向量有所不同,因此,在本发明实施例中可以生成不同在线话题交互场景下对应不同的评论关键词特征池。此时步骤203的实现方式可以是获得选定在线话题交互场景对应的评论关键词特征池,从选定在线话题交互场景对应的评论关键词特征池中确定与观点评论量化频繁项存在联系的目标评论关键词特征。

比如,分别生成VR商城交互场景、VR导购交互场景、数字空间业务交互场景对应的评论关键词特征池,若待分析用户会话活动记录是在VR导购交互场景采集得到的,则确定目标评论关键词特征时,需要确定观点评论量化频繁项与VR商城交互场景对应的评论关键词特征池中评论关键词特征的共性度量结果,进而从VR商城交互场景对应的评论关键词特征池中确定目标评论关键词特征。

可见,与传统方案中利用各种在线话题交互场景下的固定特征空间来优化话题兴趣关注点的细节向量相比,引入了不同的在线话题交互场景下的场景特征,相同在线话题交互场景下的目标评论关键词特征可以提供较佳的参考,进一步提高之后话题兴趣捕捉的精度和合理性。

步骤204、依据所述目标评论关键词特征对所述观点评论量化频繁项进行优化得到当前观点评论频繁项。

通常,相同特征语义的评论关键词特征(目标评论关键词特征)的参考价值更高,本发明实施例的向量聚合组件可以是基于Attention Mechanism的向量聚合组件,并结合特征局部强化处理对观点评论量化频繁项进行优化。在一些示例性设计思路下,可以基于目标评论关键词特征和观点评论量化频繁项确定共性度量结果可信列表,共性度量结果可信列表中的成员用于标记每个目标评论关键词特征对于观点评论量化频繁项的重要性系数,然后基于共性度量结果可信列表对目标评论关键词特征和观点评论量化频繁项进行强化整合,得到观点评论量化频繁项对应的当前观点评论频繁项。其中,共性度量结果可信列表的确定思路包括:M=function(F*VT/r1/2)。

其中,F是观点评论量化频繁项,维度是x*r,x是F中特征向量的数目(待分析用户会话活动记录中话题兴趣关注点的数目),r是特征维度,一般为1024;V是目标评论关键词特征,VT为V的转置;M是共性度量结果可信列表,维度是[x*y],表明每个目标评论关键词特征对于观点评论量化频繁项F的重要性系数,x表示观点评论量化频繁项的数目,y表示评论关键词特征组件中评论关键词特征的数目;function是softmax函数。依据强化整合来为每一个话题兴趣关注点的观点评论量化频繁项生成自身的当前观点评论频繁项,为了不损失话题兴趣关注点原来的细节,可以在原来细节向量(观点评论量化频繁项)的基础上进行优化:G=M*V+F。

其中,G是当前观点评论频繁项,M是共性度量结果可信列表,V是目标评论关键词特征,F是对话观点评论挖掘得到的观点评论量化频繁项。

可以理解的是,在通过以上话题兴趣捕捉网络进行话题兴趣捕捉的情况下,在本发明实施例中可以依据话题兴趣捕捉组件中的向量聚合组件将目标评论关键词特征与观点评论量化频繁项进行聚合得到当前观点评论频繁项。

步骤205、基于所述当前观点评论频繁项确定所述待分析用户会话活动记录对应的目标会话文本量化编码。

可以理解的是,在通过以上话题兴趣捕捉网络进行话题兴趣捕捉的情况下,在本发明实施例中可以依据向量聚合组件基于当前观点评论频繁项确定待分析用户会话活动记录对应的目标会话文本量化编码。

在本发明实施例中,基于当前观点评论频繁项确定待分析用户会话活动记录对应的目标会话文本量化编码的思路可以包括多种,一种思路是直接将当前观点评论频繁项作为目标会话文本量化编码,另一种思路是将当前观点评论频繁项与观点评论量化频繁项进行组合得到目标会话文本量化编码,利用组合处理将当前观点评论频繁项与观点评论量化频繁项进行组合得到目标会话文本量化编码,从而规避待分析用户会话活动记录中的原始细节的损失。若观点评论量化频繁项的维度是x*r,则得到的目标会话文本量化编码的维度是[x*2r]。

步骤206、基于所述目标会话文本量化编码对所述待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息。

在通过以上话题兴趣捕捉网络进行话题兴趣捕捉的情况下,在本发明实施例中可以依据话题兴趣捕捉组件基于目标会话文本量化编码对待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息。其中,话题兴趣捕捉信息可以包括待分析用户会话活动记录中所包括话题兴趣关注点的特征语义和话题兴趣关注点在待分析用户会话活动记录中的分布窗口。

本发明实施例事先统计不同特征语义的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量,可以表征一个特征语义的话题兴趣。对在选定在线话题交互场景下所爬取的待分析用户会话活动记录进行话题兴趣捕捉时,可以对待分析用户会话活动记录进行对话观点评论挖掘得到观点评论量化频繁项,然后基于观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从评论关键词特征池中确定与观点评论量化频繁项存在联系的目标评论关键词特征。评论关键词特征池中包括不同特征语义的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量,因而可以基于目标评论关键词特征对观点评论量化频繁项进行优化得到当前观点评论频繁项,基于当前观点评论频繁项确定待分析用户会话活动记录对应的目标会话文本量化编码,以获得尽可能综合完整且可以表征相关特征语义的话题兴趣关注点的编码向量。特别是在选定在线话题交互场景影响待分析用户会话活动记录,造成挖掘的观点评论量化频繁项缺失、特征识别度较低时,依据目标评论关键词特征对观点评论量化频繁项进行优化来帮助话题兴趣捕捉,确保所得到的目标会话文本量化编码的完整性和特征识别度。这样,基于目标会话文本量化编码对待分析用户会话活动记录进行话题兴趣捕捉,得到的话题兴趣捕捉信息更为精准合理,提升了话题兴趣捕捉的精度和可信度,为相关数字服务业的大数据推荐提供了可信度更高的分析依据。

在一些示例性设计思路下,为了提高非优质在线话题交互场景下话题兴趣捕捉的精度和合理性,可以预调试文本复述网络,进而在采集得到用户会话活动记录后,依据文本复述网络对所爬取的用户会话活动记录进行复述,以提高输入话题兴趣捕捉网络的用户会话活动记录的质量,进而提高话题兴趣捕捉的精度和合理性。本发明实施例提供的应用于云数字业务的大数据推荐方法与基于文本复述网络提高话题兴趣捕捉精度和合理性这一思路相比,无需调试另外的神经网络,减少了资源开销,提高了方案的应用范围。

在一些可独立的实施例中,话题兴趣捕捉网络的调试步骤可以包括如下相关内容。

步骤401、获得在线话题交互场景样例下的用户会话活动记录样例,所述用户会话活动记录样例存在其所包括话题兴趣关注点的先验特征语义注释。

其中,先验特征语义注释可以理解为特征语义的训练标签,该实施例中的样例皆可以做训练样本或者调试样本理解。

步骤402、将所述用户会话活动记录样例加载到通用话题兴趣捕捉网络。

其中,通用话题兴趣捕捉网络包括通用对话观点评论挖掘组件、通用评论关键词特征组件、通用向量聚合组件和通用话题兴趣捕捉组件,用户会话活动记录样例存在其所包括话题兴趣关注点的先验特征语义注释。

进一步地,通用的网络/组件/模型可以理解为未训练的网络/组件/模型,还可以理解为初始的网络/组件/模型。

步骤403、依据所述通用对话观点评论挖掘组件对所述用户会话活动记录样例进行对话观点评论挖掘得到观点评论量化频繁项样例。

步骤404、依据所述通用评论关键词特征组件,基于所述观点评论量化频繁项样例与所述评论关键词特征池中评论关键词特征的共性度量结果,从所述通用评论关键词特征组件中确定与所述观点评论量化频繁项样例存在联系的目标评论关键词特征样例。

步骤405、依据所述通用向量聚合组件,利用所述目标评论关键词特征样例对所述观点评论量化频繁项样例进行优化得到当前观点评论频繁项样例。

步骤406、依据所述通用向量聚合组件,基于所述当前观点评论频繁项样例确定所述用户会话活动记录样例对应的目标会话文本量化编码样例。

步骤407、依据所述通用话题兴趣捕捉组件,基于所述目标会话文本量化编码样例对所述待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息样例。

步骤408、基于所述先验特征语义注释和所述话题兴趣捕捉信息样例对所述通用话题兴趣捕捉网络进行调试,得到所述话题兴趣捕捉网络。

可以理解的是,调试的话题兴趣捕捉网络的过程中,步骤401-步骤407的示例性实现方式可以结合上述对应的话题兴趣捕捉思路。

在调试得到话题兴趣捕捉网络的过程中,可以生成评论关键词特征组件。生成评论关键词特征组件的思路可以是在调试得到话题兴趣捕捉网络的过程中,依据对话观点评论挖掘组件对用户会话活动记录样例进行对话观点评论挖掘,得到先验特征语义注释所匹配的话题兴趣关注点的观点评论量化频繁项样例,先验特征语义注释用于标记用户会话活动记录样例中包括的话题兴趣关注点的特征语义;基于话题兴趣关注点的观点评论量化频繁项样例调整评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征。

本发明实施例在对话题兴趣捕捉网络进行调试过程中,引入生成了评论关键词特征组件,以依据评论关键词特征组件中的文本细节表征向量补偿抑制话题兴趣关注点的鉴别特征,有助于保障话题兴趣捕捉网络的稳定性和抗干扰性。

可以理解的是,基于话题兴趣关注点的观点评论量化频繁项样例调整评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征的思路可以是将话题兴趣关注点的观点评论量化频繁项样例作为评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征。

鉴于评论关键词特征组件中所对应特征语义的评论关键词特征需要占据一定的存储区,所包含的评论关键词特征的个数越多,占据的存储区也就越大,资源开销更多,且可能影响话题兴趣捕捉的质量。基于此,在一些示例性设计思路下,可以基于评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征的个数进行调整。一般而言,若话题兴趣关注点所对应特征语义的评论关键词特征的个数=0(即该特征语义对应的评论关键词特征集合Vk为空),则将话题兴趣关注点的观点评论量化频繁项样例作为话题兴趣关注点所对应特征语义的评论关键词特征;若话题兴趣关注点所对应特征语义的评论关键词特征的个数≠0(即该特征语义对应的评论关键词特征集合Vk不为空),则确定话题兴趣关注点的观点评论量化频繁项样例与话题兴趣关注点所对应特征语义的评论关键词特征之间的共性度量结果,基于共性度量结果调整评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征。其中,话题兴趣关注点的观点评论量化频繁项样例与话题兴趣关注点所对应特征语义的评论关键词特征之间的共性度量结果可以是余弦相似度。

对于一些示例性实施例而言,若共性度量结果小于共性度量结果限值(比如共性度量结果限值设置为0.6),则直接将话题兴趣关注点的观点评论量化频繁项样例添加到话题兴趣关注点所对应特征语义的评论关键词特征。其中,共性度量结果限值(相似度阈值)可以是灵活设置。

为了规避因为观点评论量化频繁项的添加到造成评论关键词特征组件中评论关键词特征的个数过多,对于一些示例性实施例而言,基于共性度量结果调整评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征的思路可以是若共性度量结果小于共性度量结果限值,确定话题兴趣关注点所对应特征语义的评论关键词特征的个数与个数限值之间的比较结果,进而基于比较结果调整评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征。

一般而言,若该比较结果表示评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征的个数达到个数限值(个数限值可以设置为50),则说明评论关键词特征组件中的评论关键词特征饱和,此时可以用观点评论量化频繁项更替掉与其共性度量结果最高的评论关键词特征。其中,个数限值可以灵活设置。依据这种思路,可以在得到话题兴趣关注点的文本细节表征向量的前提下,尽可能削减评论关键词特征的个数,从而减少存储区的占据,保证话题兴趣捕捉质量。

如此,伴随话题兴趣捕捉网络调试的进行,就能得到包含文本细节表征向量的评论关键词特征组件,并且这样的获得方式可以使得整个评论关键词特征组件能够伴随话题兴趣捕捉网络进行完整的调试(端到端调试)。

示例性的,对评论关键词特征组件(类中心组件)中话题兴趣关注点所对应特征语义的评论关键词特征进行调整的过可以包括如下内容:对于每一个小组中的用户会话活动记录样例,可以使用已认证标注的先验特征语义注释得到所有的捕捉窗口(又称已认证捕捉窗口),依据可逆层来得到捕捉窗口所对应话题兴趣关注点的观点评论量化频繁项。每个观点评论量化频繁项都存在各自正确的先验特征语义注释,将得到的观点评论量化频繁项去调整自己先验特征语义注释对应的评论关键词特征。

进一步地,先验特征语义注释包括先验特征语义注释1(tag_1)、先验特征语义注释2(tag_2)、先验特征语义注释3(tag_3)、......,tag_1的评论关键词特征的个数已经达到了个数限值,由于最新的tag_1对应的观点评论量化频繁项与tag_1对应的评论关键词特征中所有评论关键词特征的共性度量结果都比较低,因此基于最新的tag_1对应的观点评论量化频繁项更替掉了其中与其最类似的一个评论关键词特征。tag_2的评论关键词特征的个数没有达到个数限值,而最新的tag_2的观点评论量化频繁项与tag_2的评论关键词特征中所有评论关键词特征的共性度量结果都低于共性度量结果限值,因而将此观点评论量化频繁项添加到tag_2的评论关键词特征。tag_3的评论关键词特征的个数即使没有达到个数限值,但是最新的tag_3的观点评论量化频繁项与tag_3的评论关键词特征中所有评论关键词特征非常类似,因而将tag_3的观点评论量化频繁项忽略。

可以理解的是,在对评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征进行调整时,为了得到高特征质量的当前观点评论频繁项G,可以生成目标调试代价指标来对当前观点评论频繁项进行指导。比如基于先验特征语义注释和得到的当前观点评论频繁项样例之间的区别生成目标调试代价指标,基于目标调试代价指标调整评论关键词特征组件中的评论关键词特征,以生成评论关键词特征组件。

其中,目标调试代价指标可以是不同类别的损失函数,比如交叉熵损失函数、三元组损失函数、铰链损失函数等。

本发明实施例,在对评论关键词特征组件中话题兴趣关注点所对应特征语义的评论关键词特征进行调整时,为其配置了特征择选的目标调试代价指标,从而可以灵活管理文本细节表征向量并准确地实现网络训练调试。

在一些可独立的实施例中,所述话题兴趣捕捉信息用于指导所述选定在线话题交互场景所对应的数字服务业的大数据推荐,基于此,在所述基于所述目标会话文本量化编码对所述待分析用户会话活动记录进行话题兴趣捕捉,得到话题兴趣捕捉信息之后,所述方法还包括:通过所述话题兴趣捕捉信息生成针对目标用户的当前推送需求信息;分别提取当前推送需求信息中每一推送需求项的推送属性特征和历史推送需求信息中每一推送需求项的推送属性特征;分别基于所述当前推送需求信息中每一推送需求项的推送属性特征和所述历史推送需求信息中每一推送需求项的推送属性特征,确定所述当前推送需求信息的类内属性特征和所述历史推送需求信息的类内属性特征;基于所述当前推送需求信息中每一推送需求项的推送属性特征和所述历史推送需求信息的类内属性特征,确定所述当前推送需求信息的类间属性特征,以及基于所述历史推送需求信息中每一推送需求项的推送属性特征和所述当前推送需求信息的类内属性特征,确定所述历史推送需求信息的类间属性特征;基于所述当前推送需求信息的类内属性特征、所述当前推送需求信息的类间属性特征、所述历史推送需求信息的类内属性特征以及所述历史推送需求信息的类间属性特征,确定所述当前推送需求信息与所述历史推送需求信息的推送策略适配特征;在基于所述推送策略适配特征确定出所述当前推送需求信息与所述历史推送需求信息满足推送策略转用条件时,利用所述历史推送需求信息的历史推送策略,生成针对所述当前推送需求信息的当前推送策略。

在一些可独立的实施例中,分别提取当前推送需求信息中每一推送需求项的推送属性特征和历史推送需求信息中每一推送需求项的推送属性特征,包括:通过第一卷积模型提取当前推送需求信息中每一推送需求项的推送属性特征和历史推送需求信息中每一推送需求项的推送属性特征。

在一些可独立的实施例中,在提取当前推送需求信息中每一推送需求项的推送属性特征和历史推送需求信息中每一推送需求项的推送属性特征之后,所述方法还包括:通过第一卷积模型的第一处理单元对所述当前推送需求信息中每一推送需求项的推送属性特征和所述历史推送需求信息中每一推送需求项的推送属性特征进行下采样处理,得到所述当前推送需求信息中每一推送需求项的第一下采样属性特征和所述历史推送需求信息中每一推送需求项的第一下采样属性特征。

在一些可独立的实施例中,分别基于所述当前推送需求信息中每一推送需求项的推送属性特征和所述历史推送需求信息中每一推送需求项的推送属性特征,确定所述当前推送需求信息的类内属性特征和所述历史推送需求信息的类内属性特征包括:将所述当前推送需求信息中每一推送需求项的推送属性特征和所述当前推送需求信息中每一推送需求项的第一下采样属性特征输入第二卷积模型中,确定所述当前推送需求信息的类内属性特征;将所述历史推送需求信息中每一推送需求项的推送属性特征和所述历史推送需求信息中每一推送需求项的第一下采样属性特征输入第二卷积模型中,确定所述历史推送需求信息的类内属性特征。

本发明实施例中,推送属性特征用于反映推送需求项的推送模式、推送内容、推送时段等一系列特征,而类内属性特征反映不同推送需求信息各种的属性特征,类间属性特征反映不同推送需求信息互相之间存在关联的属性特征,基础此,可以完整全面地确定出推送策略适配特征,进而利用推送策略适配特征从特征相似度层面出发,判断当前推送需求信息与历史推送需求信息是否满足推送策略转用条件,若是,则利用历史推送需求信息的历史推送策略,生成针对当前推送需求信息的当前推送策略。如此一来,可以将在先的数据信息作为参考依据,从而快速准确地实现当前推送需求信息的推送策略定制,减少不必要的资源开销。

基于上述相同或相似的技术构思,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行应用于云数字业务的大数据推荐方法。

基于上述相同或相似的技术构思,本发明实施例还提供了一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现应用于云数字业务的大数据推荐方法。

本发明实施例提供了一种应用于云数字业务的大数据推荐方法及大数据挖掘系统,本发明事先统计不同特征语义的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量,可以表征一个特征语义的话题兴趣。对在选定在线话题交互场景下所爬取的待分析用户会话活动记录进行话题兴趣捕捉时,可以对待分析用户会话活动记录进行对话观点评论挖掘得到观点评论量化频繁项,然后基于观点评论量化频繁项与评论关键词特征池中评论关键词特征的共性度量结果,从评论关键词特征池中确定与观点评论量化频繁项存在联系的目标评论关键词特征。评论关键词特征池中包括不同特征语义的评论关键词特征,评论关键词特征是不同特征语义的话题兴趣关注点所对应的文本细节表征向量,因而可以基于目标评论关键词特征对观点评论量化频繁项进行优化得到当前观点评论频繁项,基于当前观点评论频繁项确定待分析用户会话活动记录对应的目标会话文本量化编码,以获得尽可能综合完整且可以表征相关特征语义的话题兴趣关注点的编码向量。特别是在选定在线话题交互场景影响待分析用户会话活动记录,造成挖掘的观点评论量化频繁项缺失、特征识别度较低时,依据目标评论关键词特征对观点评论量化频繁项进行优化来帮助话题兴趣捕捉,确保所得到的目标会话文本量化编码的完整性和特征识别度。如此,基于目标会话文本量化编码对待分析用户会话活动记录进行话题兴趣捕捉,得到的话题兴趣捕捉信息更为精准合理,提升了话题兴趣捕捉的精度和可信度,为相关数字服务业的大数据推荐提供了可信度更高的分析依据。综上,本发明实施例改善了现有技术难以准确可靠地实现话题兴趣捕捉的技术问题,进而改善了难以为相关数字服务业的大数据推荐提供可信度更高的分析依据的技术问题。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明相关内容所作的等同变化,仍属本发明所涵盖的范围。

相关技术
  • 一种面向主题特征的地理大数据挖掘推荐的方法及系统
  • 基于5G互联大数据的云业务挖掘方法及大数据推送系统
  • 应用于大数据挖掘的数字化业务操作安全处理方法及系统
技术分类

06120116482791