掌桥专利:专业的专利平台
掌桥专利
首页

针对在线话题的大数据挖掘方法及大数据挖掘系统

文献发布时间:2023-06-19 16:04:54



技术领域

本申请涉及大数据技术领域,尤其涉及一种针对在线话题的大数据挖掘方法及大数据挖掘系统。

背景技术

在线话题分析是自然语言处理(Natural Language Processing,NLP)的其中一个应用分支,其目的是通过对用户的社交平台话题进行大数据挖掘以得到有价值的数据资产。相关的在线话题分析通常基于AI模型实现,但是经发明人深入研究和分析发现,传统的AI模型一方面难以保障话题大数据挖掘的时效性,另一方面难以保障话题大数据挖掘的精度,因此,如何有效改善上述问题是当下的一个难点。

发明内容

本申请的一个目的是提供一种针对在线话题的大数据挖掘方法及大数据挖掘系统。

本申请的技术方案是通过如下至少部分实施例实现的。

本申请实施例提供了一种针对在线话题的大数据挖掘方法,应用于与话题活动平台系统通信连接的大数据挖掘系统,所述方法至少包括:在接收到所述话题活动平台系统发送的用户兴趣挖掘请求时,利用所述用户兴趣挖掘请求,从与所述话题活动平台系统对应的设定关系型数据库中调用待进行兴趣挖掘的在线话题大数据;将所述待进行兴趣挖掘的在线话题大数据传输到指定话题兴趣挖掘模型,通过所述指定话题兴趣挖掘模型获得所述待进行兴趣挖掘的在线话题大数据的用户兴趣知识分布;其中,所述指定话题兴趣挖掘模型为基于轻量化配置规则配置所得。

基于本申请实施例,鉴于指定话题兴趣挖掘模型为基于轻量化配置规则配置所得,因此通过指定话题兴趣挖掘模型对待进行兴趣挖掘的在线话题大数据进行挖掘处理,一方面可以快速地得到用户兴趣知识分布,提高用户兴趣挖掘的时效性,另一方面还能够提高用户兴趣知识分布的准确性和完整性,提高用户兴趣挖掘的质量。综上,借助指定话题兴趣挖掘模型以及轻量化配置,能够提高用户兴趣知识分布的效率和质量。

在一种可独立实施的实施例中,所述指定话题兴趣挖掘模型的配置方式如下:采集已认证在线话题大数据并确定已认证在线话题大数据的先验依据;将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布;其中,所述轻量型话题兴趣短语抽取节点包括待进行配置的维度指标优化变量;依据设定规模将所述目标话题兴趣短语分布拆解为多个交互话题兴趣短语集,并将所述目标话题兴趣短语分布传输到话题兴趣短语整理节点,所述话题兴趣短语整理节点包括多个轻量型话题兴趣短语处理子节点,每个轻量型话题兴趣短语处理子节点用于对所述交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘;利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布,以及所述已认证在线话题大数据的先验依据对所述基础话题兴趣挖掘模型进行配置。

基于本申请实施例,基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点中,包括待进行配置的维度指标优化变量,维度指标优化变量可以对轻量型话题兴趣短语抽取节点抽取的已认证在线话题大数据的话题兴趣短语分布distribution1进行维度指标优化,如此设计,对维度指标完成优化的话题兴趣短语分布distribution1进行轻量化升级,可以理解为灵活定位两极轻量判定指标,从而减少了轻量化短语采样处理和非轻量化短语采样处理之间的采样质量区别,此外,话题兴趣短语整理节点可以对多个交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘,从而保障生成的话题兴趣短语情绪字段分布能够充分考虑到不同阶段的话题兴趣,可以提高基于话题兴趣短语情绪字段分布和先验依据配置的话题兴趣挖掘模型的挖掘准确性和完整性,且轻量型话题兴趣短语抽取节点和话题兴趣短语整理节点皆经过轻量化处理,这样可以实现指定话题兴趣挖掘模型的模型架构最小化,不仅可以保障挖掘质量,还可以减少额外的运算资源开销。

在一种可独立实施的实施例中,所述将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布,包括:对所述已认证在线话题大数据进行话题兴趣短语总结操作,确定所述已认证在线话题大数据对应的话题兴趣短语分布distribution1;利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的维度指标进行第一优化,确定完成优化的话题兴趣短语分布distribution2;利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作,确定话题兴趣短语分布distribution3;对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布。

基于本申请实施例,鉴于所述维度指标优化变量是灵活可调的(可配置的),这样能够减少轻量化短语采样处理和非轻量化短语采样处理之间的采样差异。

在一种可独立实施的实施例中,所述利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作,确定话题兴趣短语分布distribution3,包括:基于指定触发机制的第一判定指标、以及所述已认证在线话题大数据和所述话题兴趣短语分布distribution2对应维度指标的量化比较结果,确定所述话题兴趣短语分布distribution3。

在一种可独立实施的实施例中,所述对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布,包括:对所述话题兴趣短语分布distribution3进行短语采样处理,确定话题兴趣短语分布distribution4;利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的短语描述值进行第二优化,确定完成优化的话题兴趣短语分布distribution5;对所述话题兴趣短语分布distribution4和所述话题兴趣短语分布distribution5进行话题兴趣短语整理,确定所述目标话题兴趣短语分布。

基于本申请实施例,为尽可能减少两极简化处理对于抽取的话题兴趣短语的准确性和细节内容的干扰,可在所述话题兴趣短语分布distribution4中增设原本的已认证在线话题大数据的话题兴趣短语,比如将对话题兴趣短语分布distribution1进行第二完成优化的话题兴趣短语分布distribution5和话题兴趣短语分布distribution4进行整理。

在一种可独立实施的实施例中,所述话题兴趣短语整理节点中的第U个轻量型话题兴趣短语处理子节点的导出信息为第U+1个轻量型话题兴趣短语处理子节点的原料信息,首个轻量型话题兴趣短语处理子节点的原料信息为所述目标话题兴趣短语分布,末尾的轻量型话题兴趣短语处理子节点的导出信息为所述话题兴趣短语情绪字段分布,U为正整数。

基于本申请实施例,通过轻量型话题兴趣短语处理子节点进行潜在的兴趣短语采样处理,能够尽可能深入和细致地挖掘话题兴趣短语情绪字段,从而保障兴趣挖掘的质量。

在一种可独立实施的实施例中,对于其中一个轻量型话题兴趣短语处理子节点,该轻量型话题兴趣短语处理子节点用于基于如下方式,对传输到该轻量型话题兴趣短语处理子节点的原料型话题兴趣短语分布的交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘:对原料型话题兴趣短语分布进行轻量化更新操作,确定话题兴趣短语分布distribution6;基于不少于一个映射指示,对所述话题兴趣短语分布distribution6的交互话题兴趣短语集进行短语集映射,得到已映射话题兴趣短语分布;对所述已映射话题兴趣短语分布和所述话题兴趣短语分布distribution6分别进行短语采样处理后,与所述原料型话题兴趣短语分布进行话题兴趣短语整理,得到已整理话题兴趣短语分布;对所述已整理话题兴趣短语分布进行处理,得到该轻量型话题兴趣短语处理子节点的话题兴趣短语分布生成结果。

基于本申请实施例,经过整体性映射可以使得当前交互话题兴趣短语集拼接整体性的话题兴趣短语,通过阶段性映射,可以使得当前交互话题兴趣短语集拼接阶段性的话题兴趣短语,进而可以保障话题兴趣短语分布能够充分考虑整体的阶段的兴趣短语,这样可以保障整理得到的话题兴趣短语的完整性和丰富性。

在一种可独立实施的实施例中,对于其中一个映射指示,所述对所述话题兴趣短语分布distribution6的交互话题兴趣短语集进行短语集映射,得到已映射话题兴趣短语分布,包括:对于其中一个交互话题兴趣短语集,基于该映射指示,确定所述话题兴趣短语分布distribution6中与该交互话题兴趣短语集对应的待映射交互话题兴趣短语集;基于待映射交互话题兴趣短语集在对应维度下的变量数据,确定该交互话题兴趣短语集在进行短语集映射后各维度下的变量数据。

基于本申请实施例,通过不同维度层面的映射处理分析,可以保障已映射话题兴趣短语分布的内容丰富度。

在一种可独立实施的实施例中,所述对所述已映射话题兴趣短语分布和所述话题兴趣短语分布distribution6分别进行短语采样处理后,与所述原料型话题兴趣短语分布进行话题兴趣短语整理,得到已整理话题兴趣短语分布,包括:基于轻量型话题兴趣短语处理线程对所述已映射话题兴趣短语分布和所述话题兴趣短语分布distribution6分别进行短语采样处理,确定多个潜在话题兴趣短语分布;对所述多个潜在话题兴趣短语分布进行去量纲轻量化操作后,与所述原料型话题兴趣短语分布进行话题兴趣短语整理,得到所述已整理话题兴趣短语分布。

基于本申请实施例,通过去量纲轻量化操作(归一化处理),可以在一定程度上保障已整理话题兴趣短语分布的精简程度,从而减少相关分析处理的运算资源开销。

在一种可独立实施的实施例中,所述利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布,以及所述已认证在线话题大数据的先验依据对所述基础话题兴趣挖掘模型进行配置,包括:获得所述基础话题兴趣挖掘模型对应的目标迁移学习模型;利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布、所述已认证在线话题大数据的先验依据、以及所述目标迁移学习模型对所述基础话题兴趣挖掘模型进行配置。

基于本申请实施例,获取的所述目标迁移学习模型可以是完成配置的,所述目标迁移学习模型的学习期望与所述基础话题兴趣挖掘模型的学习期望可以一致。鉴于所述目标迁移学习模型的模型变量是完整的,因此所述目标迁移学习模型的模型准确性相对于所述基础话题兴趣挖掘模型而言更高,通过所述目标迁移学习模型对所述基础话题兴趣挖掘模型进行自适应配置,可以提升所述基础话题兴趣挖掘模型的模型准确性。

在一种可独立实施的实施例中,所述利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布、所述已认证在线话题大数据的先验依据、以及所述目标迁移学习模型对所述基础话题兴趣挖掘模型进行配置,包括:利用所述话题兴趣短语情绪字段分布和所述目标迁移学习模型对所述已认证在线话题大数据的第一迁移学习信息,确定第一模型性能评价参量;以及,利用所述话题兴趣短语情绪字段分布和所述已认证在线话题大数据的先验依据确定第二模型性能评价参量;利用所述第一模型性能评价参量和所述第二模型性能评价参量对所述基础话题兴趣挖掘模型进行配置。

在一种可独立实施的实施例中,所述利用所述话题兴趣短语情绪字段分布和所述目标迁移学习模型对所述已认证在线话题大数据的第一迁移学习信息,确定第一模型性能评价参量,包括:基于配置样本平衡节点和所述话题兴趣短语情绪字段分布,确定所述基础话题兴趣挖掘模型的第二迁移学习信息;其中,所述配置样本平衡节点的变量列表与所述目标迁移学习模型的变量一致;利用所述第一迁移学习信息和所述第二迁移学习信息确定所述第一模型性能评价参量。

基于本申请实施例,所述配置样本平衡节点的变量列表与所述目标迁移学习模型的变量列表一致的效果可以是:保障通过所述配置样本平衡节点继承所述目标迁移学习模型的完整性描述。

在一种可独立实施的实施例中,所述利用所述话题兴趣短语情绪字段分布和所述已认证在线话题大数据的先验依据确定第二模型性能评价参量,包括:基于显著性改善节点和所述话题兴趣短语情绪字段分布,确定所述基础话题兴趣挖掘模型的第三迁移学习信息;利用所述第三迁移学习信息和所述已认证在线话题大数据的先验依据,确定所述第二模型性能评价参量。

在一种可独立实施的实施例中,在所述基础话题兴趣挖掘模型配置完成之后,所述方法还包括:基于完成配置的所述配置样本平衡节点和所述显著性改善节点,生成用户需求分析节点,所述用户需求分析节点用于在进行用户需求分析时,基于完成配置的所述基础话题兴趣挖掘模型的话题兴趣短语整理节点的导出信息确定用户需求分析报告。

基于本申请实施例,可以快速生成用户需求分析节点,从而减少不必要的运算,且可以保障用户需求分析节点的分析准确性和可信度。

一种大数据挖掘系统,包括:用于存储可执行计算机程序的存储器,用于执行所述存储器中存储的可执行计算机程序时实现上述方法的处理器。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述方法。

附图说明

图1是示出可以实现本申请的实施例的大数据挖掘系统的示意图。

图2是示出可以实现本申请的实施例的针对在线话题的大数据挖掘方法的流程示意图。

图3是示出可以实现本申请的实施例的针对在线话题的大数据挖掘方法的应用环境的架构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

图1是示出可以实现本申请的实施例的大数据挖掘系统100的一种通信配置的框图,大数据挖掘系统100包括用于存储可执行计算机程序的存储器101,用于执行所述存储器101中存储的可执行计算机程序时实现本申请实施例中针对在线话题的大数据挖掘方法的处理器102。

图2是示出可以实现本申请的实施例的针对在线话题的大数据挖掘方法的流程示意图,针对在线话题的大数据挖掘方法可以通过图1所示的大数据挖掘系统100实现,进一步可以包括以下相关步骤所描述的技术方案。

STEP101、在接收到所述话题活动平台系统发送的用户兴趣挖掘请求时,利用所述用户兴趣挖掘请求,从与所述话题活动平台系统对应的设定关系型数据库中调用待进行兴趣挖掘的在线话题大数据。

在本申请实施例中,话题活动平台系统可以是不同类型的平台系统,比如云服务系统,社交媒体系统,用户评价系统等。用户兴趣挖掘请求可以是话题活动平台系统向大数据挖掘系统发送的用于进行用户兴趣挖掘的辅助申请,基于此,大数据挖掘系统可以从与话题活动平台系统对应的设定关系型数据库(比如MySQL数据库)中调取对应的待挖掘数据(比如上述的待进行兴趣挖掘的在线话题大数据)。

进一步地,在线话题大数据可以是用户社交大数据、用户会话大数据、用户评论大数据等,在此不作限定。此外,在线话题大数据涉及的领域可以是电子商务、远程教育、数字办公、智慧教育、云游戏、VR/AR/MR等。

STEP102、将所述待进行兴趣挖掘的在线话题大数据传输到指定话题兴趣挖掘模型,通过所述指定话题兴趣挖掘模型获得所述待进行兴趣挖掘的在线话题大数据的用户兴趣知识分布。

在本申请实施例中,所述指定话题兴趣挖掘模型为基于轻量化配置规则配置所得,轻量化配置可以在保障模型性能的前提下尽可能减少模型规模,从而提高后续模型使用的时效性和性能质量。

进一步地,用户兴趣知识分布可以反映用户的兴趣点或者兴趣倾向,用户兴趣知识分布可以通过文本形式记录,也可以通过知识图谱/知识库的形式记录,还可以通过兴趣特征关系网的形式进行记录,在此不作限定。此外,用户兴趣知识分布具有丰富的使用价值,比如,不仅可以作为后续信息推荐的依据,还可以作为后续服务升级的决策指导。

应用STEP101和STEP102,鉴于指定话题兴趣挖掘模型为基于轻量化配置规则配置所得,因此通过指定话题兴趣挖掘模型对待进行兴趣挖掘的在线话题大数据进行挖掘处理,一方面可以快速地得到用户兴趣知识分布,提高用户兴趣挖掘的时效性,另一方面还能够提高用户兴趣知识分布的准确性和完整性,提高用户兴趣挖掘的质量。综上,借助指定话题兴趣挖掘模型以及轻量化配置,能够提高用户兴趣知识分布的效率和质量。

在一些可独立的设计思路下,所述指定话题兴趣挖掘模型的配置方式可以包括STEP201-STEP204所描述的内容。

STEP201、采集已认证在线话题大数据并确定已认证在线话题大数据的先验依据。

STEP202、将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布。

在本申请实施例中,所述轻量型话题兴趣短语抽取节点包括待进行配置的维度指标优化变量,而维度指标优化变量可以理解为维度调整参数。此外,轻量型话题兴趣短语抽取节点还可以理解为具有二分类特性的特征挖掘节点/特征挖掘层,该二分类特性能够有效减少特征挖掘节点的架构复杂度。进一步地,基础话题兴趣挖掘模型可以理解为待进行配置的话题挖掘模型。目标话题兴趣短语分布可以理解为目标话题兴趣点集或者目标话题兴趣倾向集,进一步的,目标话题兴趣短语分布可以通过兴趣短语图的形式或者兴趣短语关系网的形式进行记录。

STEP203、依据设定规模将所述目标话题兴趣短语分布拆解为多个交互话题兴趣短语集,并将所述目标话题兴趣短语分布传输到话题兴趣短语整理节点。

在本申请实施例中,所述话题兴趣短语整理节点包括多个轻量型话题兴趣短语处理子节点,每个话题兴趣短语处理子节点用于对所述交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘,进一步的,交互话题兴趣短语集可以理解为话题兴趣标签。话题兴趣短语整理例如可以是话题兴趣短语融合/话题兴趣短语合并。潜在的话题兴趣短语挖掘可以理解为隐藏的兴趣短语提取或者深层次的兴趣短语提取。此外,话题兴趣短语整理节点可以理解为话题兴趣短语融合单元或者话题兴趣短语合并网络。轻量型话题兴趣短语处理子节点还可以理解为具有二分类特性的处理子节点/短语处理层。设定规模可以理解为设定尺寸或者设定数量。

STEP204、利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布,以及所述已认证在线话题大数据的先验依据对所述基础话题兴趣挖掘模型进行配置。

在本申请实施例中,可以将目标话题兴趣短语分布传输到话题兴趣短语整理节点中进行兴趣短语融合操作,以得到话题兴趣短语情绪字段分布,而话题兴趣短语情绪字段分布可以理解为话题兴趣短语的情绪特征对应的集合,先验依据可以理解为标注信息或者注释信息。

对于STEP201-STEP204所描述的内容,下面进行示例性说明和解释,但不应理解为实施上述方案必不可少的技术特征,换言之,本领域技术人员在上述内容的基础上能够完整清楚地实施。

对于STEP201而言,所述已认证在线话题大数据可以是样本在线话题大数据,所述已认证在线话题大数据的先验依据可为在先注释的所述已认证在线话题大数据的用户兴趣知识分布。

对于STEP202而言,在将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布时,示例性的可以包可如下STEP301-STEP304所记录的内容。

STEP301、对所述已认证在线话题大数据进行话题兴趣短语总结操作,确定所述已认证在线话题大数据对应的话题兴趣短语分布distribution1。

STEP302、利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的维度指标进行第一优化,确定完成优化的话题兴趣短语分布distribution2。

STEP303、利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作(比如二值化更新处理),确定话题兴趣短语分布distribution3。

STEP304、对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布。

可以理解是,对于STEP301而言,在对所述已认证在线话题大数据进行话题兴趣短语总结操作(比如全局平局池化操作)后,可以得到所述已认证在线话题大数据对应的特征关系网,换言之,所述话题兴趣短语分布distribution1是已认证在线话题大数据的基础特征关系网。

在STEP302中,通过所述维度指标优化变量对所述话题兴趣短语分布distribution1的维度指标进行优化,可以理解为对所述基础特征关系网进行优化。

在一些实施例中,所述维度指标优化变量可以包括第一优化变量、第二优化变量和第三优化变量,在利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的维度指标进行第一优化时,可以通过所述第一优化变量和所述第二优化变量对所述话题兴趣短语分布distribution1的维度指标进行优化,举例而言,可以将所述话题兴趣短语分布distribution1的各维度下的变量数据与第一优化变量和第二优化变量进行处理。所述第三优化变量用于对所述话题兴趣短语分布distribution1的维度指标进行第二优化。

进一步的,鉴于所述维度指标优化变量是灵活可调的(比如可配置的),由此造成完成优化的特征关系网也是灵活可调的,换言之,所述已认证在线话题大数据可以是通过灵活可调的特征关系网表示的。

在STEP303中,所述利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作(比如,双极性简化/二分类),确定话题兴趣短语分布distribution3,可为基于指定触发机制的第一判定指标、以及所述已认证在线话题大数据和所述话题兴趣短语分布distribution2对应维度指标的量化比较结果(比如,差值),确定所述话题兴趣短语分布distribution3。进一步的,指定触发机制可以理解为预设触发函数。

在一些实施例中,可以是确定所述已认证在线话题大数据和所述话题兴趣短语分布distribution2对应维度指标的量化比较结果,若所述已认证在线话题大数据的维度指标大于所述话题兴趣短语分布distribution2的维度指标,则将该维度指标调整为增加一,若所述已认证在线话题大数据的维度指标不大于所述话题兴趣短语分布distribution2的维度指标,则将该维度指标调整为减少一。

在本申请实施例中,所述触发机制的第一判定指标虽然可以是保持不变的,但是鉴于在基于触发机制(RELU)进行轻量化升级之前,通过STEP302对话题兴趣短语分布distribution1的维度指标进行了优化,实际上也等同于灵活可调的优化了所述触发机制的第一判定指标。

STEP304中,在对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布时,可以先对所述话题兴趣短语分布distribution3进行短语采样处理,确定话题兴趣短语分布distribution4;其次利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的短语描述值进行第二优化,确定完成优化的话题兴趣短语分布distribution5;然后对所述话题兴趣短语分布distribution4和所述话题兴趣短语分布distribution5进行话题兴趣短语整理,确定所述目标话题兴趣短语分布。

在本申请实施例中,在利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的短语描述值进行第二优化时,可以理解,可以利用所述第一优化变量和所述第三优化变量对所述话题兴趣短语分布distribution1的短语描述值进行优化,具体的优化思路可以与以上第一优化思路相同,在此不作过多描述。

可以理解的是,所述对所述话题兴趣短语分布distribution4和所述话题兴趣短语分布distribution5进行话题兴趣短语整理,举例而言,可以将所述话题兴趣短语分布distribution4和所述话题兴趣短语分布distribution5对应维度下的变量数据进行统计,确定所述目标话题兴趣短语分布。

进一步的,已认证在线话题大数据在加载之后,一部分经处理得到话题兴趣短语分布distribution1,其次经由第一优化变量和第二优化变量优化之后,得到话题兴趣短语分布distribution2。最后基于已认证在线话题大数据和话题兴趣短语分布distribution2的维度指标之间的比较结果和第一判定指标进行轻量化更新操作,确定话题兴趣短语分布distribution3。

应用以上实施例,可以将已认证在线话题大数据转换为量化特征关系网表示,然后可以通过二分类滑动处理确定所述话题兴趣短语分布distribution3的细节,得到话题兴趣短语分布distribution4。

进一步的,为尽可能减少两极简化处理对于抽取的话题兴趣短语的准确性和细节内容的干扰,可在所述话题兴趣短语分布distribution4中增设原本的已认证在线话题大数据的话题兴趣短语,比如将对话题兴趣短语分布distribution1进行第二完成优化的话题兴趣短语分布distribution5和话题兴趣短语分布distribution4进行整理。

在以上设计思路中,通过对话题兴趣短语分布distribution1的维度指标进行优化,其次对维度指标完成优化的话题兴趣短语分布distribution1进行轻量化升级,实质可以理解为灵活定位两极轻量判定指标,从而减少了轻量化短语采样处理和非轻量化短语采样处理之间的采样质量区别。

在本申请实施例中,虽然话题兴趣短语分布distribution3为话题兴趣短语量化分布,对话题兴趣短语分布distribution3进行短语采样处理(二分类滑动处理)后得到的话题兴趣短语分布distribution4也为话题兴趣短语量化分布,但是鉴于话题兴趣短语分布distribution5并非话题兴趣短语量化分布,将话题兴趣短语分布distribution4和话题兴趣短语分布distribution5进行整理后得到的目标话题兴趣短语分布也并非话题兴趣短语量化分布,由此在之后进行操作的过程中,依旧需要通过触发机制进行轻量化升级。

对于STEP203而言,在将所述目标话题兴趣短语分布拆解为多个交互话题兴趣短语集时,可以基于设定的维度拆解。

在一些示例中,所述话题兴趣短语整理节点可以包括多个轻量型话题兴趣短语处理子节点,第U个轻量型话题兴趣短语处理子节点的导出信息为第U+1个轻量型话题兴趣短语处理子节点的原料信息(原料信息作输入信息理解),首个轻量型话题兴趣短语处理子节点的原料信息为所述目标话题兴趣短语分布,末尾的轻量型话题兴趣短语处理子节点的导出信息为所述话题兴趣短语情绪字段分布,U为正整数。

在一些可能的实施例中,对于其中一个轻量型话题兴趣短语处理子节点,可以通过如下思路进行话题兴趣短语整理和潜在的话题兴趣短语挖掘,具体可以包括如下STEP601-STEP604所记录的内容。

STEP601、对原料型话题兴趣短语分布进行轻量化更新操作,确定话题兴趣短语分布distribution6。

STEP602、基于不少于一个映射指示,对所述话题兴趣短语分布distribution6的交互话题兴趣短语集进行短语集映射,得到已映射话题兴趣短语分布。

STEP603、对所述已映射话题兴趣短语分布和所述话题兴趣短语分布distribution6分别进行短语采样处理后,与所述原料型话题兴趣短语分布进行话题兴趣短语整理,得到已整理话题兴趣短语分布。

STEP604、对所述已整理话题兴趣短语分布进行处理,得到该轻量型话题兴趣短语处理子节点的话题兴趣短语分布生成结果。

在STEP601中,对原料型话题兴趣短语分布进行轻量化更新操作可以理解为基于触发机制对原料型话题兴趣短语分布进行轻量化升级,鉴于首个轻量型话题兴趣短语处理子节点的原料信息为目标话题兴趣短语分布,所述目标话题兴趣短语分布并非话题兴趣短语量化分布,由此通过处理可以对模型变量进行精简;而剩余轻量型话题兴趣短语处理子节点的原料信息为前一轻量型话题兴趣短语处理子节点的导出信息,前一轻量型话题兴趣短语处理子节点的导出信息可以是通过以上步骤处理过的,完成处理后的话题兴趣短语分布并不一定是话题兴趣短语量化分布,基于此也需要进行轻量化更新操作。

在STEP602中,所述映射指示可以为事先设定的量化指示,举例而言,可为是话题兴趣短语分布的规模的1/2。

对于其中一个映射指示,所述对所述话题兴趣短语分布distribution6的交互话题兴趣短语集进行短语集映射,得到已映射话题兴趣短语分布,可为对于其中一个交互话题兴趣短语集,基于该映射指示,确定所述话题兴趣短语分布distribution6中与该交互话题兴趣短语集对应的待映射交互话题兴趣短语集;基于待映射交互话题兴趣短语集在对应维度下的变量数据,确定该交互话题兴趣短语集在进行短语集映射后各维度下的变量数据。

在一种可能的实施例中,可以利用所述映射指示的不同,分为整体性映射处理和阶段性映射处理,整体性映射处理可以理解为全局层面或者大范围的映射处理,阶段性映射处理可以理解为局部层面或者小范围的映射处理,映射处理可以理解对调处理或者对换处理。

举例而言,如果当前交互话题兴趣短语集为交互话题兴趣短语集phrase set_A,与当前交互话题兴趣短语集phrase set_A相邻的交互话题兴趣短语集为交互话题兴趣短语集phrase set_B、phrase set_C、phrase set_D、phrase set_E;则对于交互话题兴趣短语集phrase set_A,进行阶段性映射处理时,可以将交互话题兴趣短语集phrase set_B、phrase set_C、phrase set_D、phrase set_E在对应维度下的变量数据,确定交互话题兴趣短语集phrase set_A在进行短语集映射后各维度下的变量数据。

举例而言,在基于待映射交互话题兴趣短语集在对应维度下的变量数据,确定该交互话题兴趣短语集在进行短语集映射后各维度下的变量数据时,不同分布状态的待映射交互话题兴趣短语集的对应维度在一定程度上存在差异,比如,如果交互话题兴趣短语集有H个维度,则可以挑选当前交互话题兴趣短语集的在先的待映射交互话题兴趣短语集的第0个维度~第0.25H维度上的指数,作为短语集映射后的交互话题兴趣短语集phrase set_A的第0个维度~第0.25H维度上的指标;挑选当前交互话题兴趣短语集的在后的待映射交互话题兴趣短语集的第0.25H维度~第0.5H维度上的指标,作为短语集映射后的交互话题兴趣短语集phrase set_A的第0.25H维度~第0.5H维度上的指标;挑选当前交互话题兴趣短语集的上侧的待映射交互话题兴趣短语集的第0.5H维度~第0.75H维度上的指标,作为短语集映射后的交互话题兴趣短语集phrase set_A的第0.5H维度~第0.75H维度上的指标;挑选当前交互话题兴趣短语集的下侧的待映射交互话题兴趣短语集的第0.75H维度~第H个维度上的指标,作为短语集映射后的交互话题兴趣短语集phrase set_A的第0.75H维度~第H个维度上的指标。

如此一来,经由整体性映射可以使得当前交互话题兴趣短语集拼接整体性的话题兴趣短语,通过阶段性映射可以使得当前交互话题兴趣短语集拼接阶段性的话题兴趣短语,基于此,结合以上思路得到的话题兴趣短语分布,可以结合阶段性的话题兴趣短语和整体性的话题兴趣短语,而基于窗口化思路进行短语采样处理,只能结合阶段性的话题兴趣短语,这样可以保障整理得到的话题兴趣短语的完整性和丰富性。

在STEP603中,所述已映射话题兴趣短语分布的数目可以为若干个,所述对所述已映射话题兴趣短语分布和所述话题兴趣短语分布distribution6分别进行短语采样处理后,与所述原料型话题兴趣短语分布进行话题兴趣短语整理,得到已整理话题兴趣短语分布,可以是先基于轻量型话题兴趣短语处理线程对所述已映射话题兴趣短语分布和所述话题兴趣短语分布distribution6分别进行短语采样处理,确定多个潜在话题兴趣短语分布,然后对所述多个潜在话题兴趣短语分布进行去量纲轻量化操作后,与所述原料型话题兴趣短语分布进行话题兴趣短语整理,得到所述已整理话题兴趣短语分布。

在本申请实施例中,与所述原料型话题兴趣短语分布进行话题兴趣短语整理的有益效果在于避免梯度损失,从而保障兴趣短语分析的完整性。

或者,可以将所述待映射交互话题兴趣短语集各个维度上的变量数据进行计算,并将得到的平均计算结果确定为当前交互话题兴趣短语集维度上的变量数据。

在STEP604中,对所述已整理话题兴趣短语分布进行处理可以不同于STEP303和STEP601中的轻量化更新操作,举例而言,可以是基于相关激活函数进行的处理。STEP303和STEP601中的轻量化更新操作时的判定指标可以不一致,换言之,所述第一判定指标和所述第二判定指标可以不一致。

可以理解的是,所述对所述多个潜在话题兴趣短语分布进行去量纲轻量化操作,可以是对所述多个潜在话题兴趣短语分布进行整理之后再进行去量纲轻量化操作(比如归一化处理)。

在本申请实施例中,已整理话题兴趣短语分布整理了更加准确可靠的阶段性的话题兴趣短语和整体性的话题兴趣短语,由此,在基于已整理话题兴趣短语分布确定用户兴趣知识分布时,准确性及可信度更高。

对于STEP104而言,在利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布,以及所述已认证在线话题大数据的先验依据对所述基础话题兴趣挖掘模型进行配置,可以利用所述话题兴趣短语情绪字段分布和显著性改善节点(比如监督节点),确定基础话题兴趣挖掘模型的用户兴趣知识分布,然后利用所述用户兴趣知识分布和所述先验依据,确定模型性能评价参量(比如,可以是交叉模型代价),并利用所述模型性能评价参量配置所述基础话题兴趣挖掘模型。

在另一种可能的实施例中,为了提高基础话题兴趣挖掘模型的模型准确性,可以对所述基础话题兴趣挖掘模型进行自适应配置。

对于一种可能的实施例而言,在利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布,以及所述已认证在线话题大数据的先验依据对所述基础话题兴趣挖掘模型进行配置时,可以包括以下STEPa和STEPb。

STEPa、获得所述基础话题兴趣挖掘模型对应的目标迁移学习模型。

在本申请实施例中,确定的所述目标迁移学习模型可以是完成配置的,所述目标迁移学习模型的学习期望与所述基础话题兴趣挖掘模型的学习期望可以一致。鉴于所述目标迁移学习模型的模型变量是完整的,由此,所述目标迁移学习模型的模型准确性相较于所述基础话题兴趣挖掘模型而言更准确,通过所述目标迁移学习模型对所述基础话题兴趣挖掘模型进行自适应配置,能够提高所述基础话题兴趣挖掘模型的模型准确性。

STEPb、利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布、所述已认证在线话题大数据的先验依据、以及所述目标迁移学习模型对所述基础话题兴趣挖掘模型进行配置。

在一种可能的实施例中,在利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布、所述已认证在线话题大数据的先验依据、以及所述目标迁移学习模型对所述基础话题兴趣挖掘模型进行配置时,可以先利用所述话题兴趣短语情绪字段分布和所述目标迁移学习模型对所述已认证在线话题大数据的第一迁移学习信息,确定第一模型性能评价参量;以及,利用所述话题兴趣短语情绪字段分布和所述已认证在线话题大数据的先验依据确定第二模型性能评价参量,然后利用所述第一模型性能评价参量和所述第二模型性能评价参量对所述基础话题兴趣挖掘模型进行配置。

在本申请实施例中,所述第一模型性能评价参量用于表征所述目标迁移学习模型在进行自适应配置时的自适应偏差结果,所述第二模型性能评价参量用于表征所述基础话题兴趣挖掘模型的话题兴趣挖掘偏差结果。结合第一模型性能评价参量和所述第二模型性能评价参量对所述基础话题兴趣挖掘模型进行配置,可以提高所述基础话题兴趣挖掘模型的模型准确性。

可以理解的是,在利用所述话题兴趣短语情绪字段分布和所述目标迁移学习模型对所述已认证在线话题大数据的第一迁移学习信息,确定第一模型性能评价参量时,可以基于配置样本平衡节点和所述话题兴趣短语情绪字段分布,确定所述基础话题兴趣挖掘模型的第二迁移学习信息;其中,所述配置样本平衡节点的变量列表与所述目标迁移学习模型的变量一致;然后利用所述第一迁移学习信息和所述第二迁移学习信息确定所述第一模型性能评价参量。

进一步的,所述配置样本平衡节点的变量列表(变量位数或者变量架构)与所述目标迁移学习模型的变量列表一致的效果可以是:保障通过所述配置样本平衡节点继承所述目标迁移学习模型的完整性描述。

在一些可能的实施例中,在利用所述话题兴趣短语情绪字段分布和所述已认证在线话题大数据的先验依据确定第二模型性能评价参量时,可以先基于显著性改善节点和所述话题兴趣短语情绪字段分布,确定所述基础话题兴趣挖掘模型的第三迁移学习信息;然后利用所述第三迁移学习信息和所述已认证在线话题大数据的先验依据,确定所述第二模型性能评价参量。

举例而言,所述第一模型性能评价参量可以是相对模型代价,铰链模型代价;所述第二模型性能评价参量可以是交叉模型代价等。

在利用所述第一模型性能评价参量和所述第二模型性能评价参量对所述基础话题兴趣挖掘模型进行配置时,可以对所述第一模型性能评价参量和所述第二模型性能评价参量进行全局处理(比如,加权求和),确定全局模型性能评价参量,然后基于全局模型性能评价参量对所述基础话题兴趣挖掘模型进行配置。

在一种可能的实施例中,在将所述基础话题兴趣挖掘模型配置完成之后,可以基于完成配置的配置样本平衡节点和显著性改善节点,生成用户需求分析节点,可以理解为,生成用户需求分析节点的变量,以提高所述基础话题兴趣挖掘模型的运行质量。

可以理解的是,所述用户需求分析节点用于在进行用户需求分析时,基于完成配置的所述基础话题兴趣挖掘模型的话题兴趣短语整理节点的导出信息确定用户需求分析报告。

结合以上思路可以直接生成用户需求分析节点,从而减少不必要的运算,且可以保障用户需求分析节点的分析准确性和可信度。

对于一种可独立实施的实施例而言,以上基础话题兴趣挖掘模型的配置思路可以包括如下内容。

在采集已认证在线话题大数据之后,已认证在线话题大数据一部分传输到目标迁移学习模型中,以进行自适应配置,一部分传输到基础话题兴趣挖掘模型中进行短语采样处理。具体的传输到基础话题兴趣挖掘模型之后,实施以下STEP1-STEP6所记录的内容。

STEP1、将已认证在线话题大数据传输到轻量型话题兴趣短语抽取节点,以抽取轻量型话题兴趣短语,得到目标话题兴趣短语分布。

STEP2、基于目标话题兴趣短语分布进行拆解。

STEP3、将目标话题兴趣短语分布传输到话题兴趣短语整理节点,进行短语采样处理和话题兴趣短语整理。

在本申请实施例中,话题兴趣短语整理节点包括多个轻量型话题兴趣短语处理子节点。

STEP4、将话题兴趣短语整理节点生成的情绪类别数量一部分传输到配置样本平衡节点,与目标迁移学习模型的导出信息同步确定铰链模型代价,一部分传输到显著性改善节点,与已认证在线话题大数据的先验依据同步确定交叉模型代价。

STEP5、基于铰链模型代价和交叉模型代价对基础话题兴趣挖掘模型进行配置。

STEP6、在上述网络配置完成之后,基于配置样本平衡节点和显著性改善节点生成用户需求分析节点,用于进行进一步的用户需求分析。

应用于以上实施例,基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点中,包括待进行配置的维度指标优化变量,维度指标优化变量可以对轻量型话题兴趣短语抽取节点抽取的已认证在线话题大数据的话题兴趣短语分布distribution1进行维度指标优化,如此设计,对维度指标完成优化的话题兴趣短语分布distribution1进行轻量化升级,可以理解为灵活定位两极轻量判定指标,从而减少了轻量化短语采样处理和非轻量化短语采样处理之间的采样质量区别;进一步的,话题兴趣短语整理节点可以对多个交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘,从而保障生成的话题兴趣短语情绪字段分布能够充分考虑到不同阶段的话题兴趣,可以提高基于话题兴趣短语情绪字段分布和先验依据配置的话题兴趣挖掘模型的挖掘准确性和完整性,且轻量型话题兴趣短语抽取节点和话题兴趣短语整理节点皆经过轻量化处理,这样可以实现指定话题兴趣挖掘模型的模型架构最小化,不仅可以保障挖掘质量,还可以减少额外的运算资源开销。

在一些可独立实施的设计思路下,在通过所述指定话题兴趣挖掘模型获得所述待进行兴趣挖掘的在线话题大数据的用户兴趣知识分布之后,该方法还可以包括如下STEP103所描述的内容。

STEP103、响应于针对所述用户兴趣知识分布的潜在需求解析指令,对所述用户兴趣知识分布进行潜在需求解析,得到话题用户需求;基于所述话题用户需求进行信息推荐。

在本申请实施例中,潜在需求解析指令可以是信息推荐平台向大数据挖掘系统发送的,大数据挖掘系统可以基于潜在需求解析指令对用户兴趣知识分布进行进一步挖掘处理,从而得到话题用户需求,然后依据话题用户需求生成信息推荐建议并将该建议下发给信息推荐平台,信息推荐平台可以基于该信息推荐建议进行针对性的信息推荐以提高信息推荐的效率,避免不必要资源浪费。

在一些可独立实施的设计思路下,STEP103所描述的对所述用户兴趣知识分布进行潜在需求解析,得到话题用户需求,可以通过如下技术方案实现:对所述用户兴趣知识分布进行需求事项解析,得到第一用户需求数据;将所述用户兴趣知识分布的兴趣知识分布模板与所述用户兴趣知识分布进行知识描述混淆,对完成知识描述混淆的所述用户兴趣知识分布进行需求事项解析,得到第二用户需求数据;根据所述第一用户需求数据和所述第二用户需求数据确定所述用户兴趣知识分布中活跃需求事项的需求解析结果。

可以理解的是,通过知识描述混淆处理(特征混淆处理),能够实现噪声需求事项的主动削弱处理,从而确保需求解析结果的准确性和可靠性。

在一些可独立实施的设计思路下,所述第一用户需求数据在所述用户兴趣知识分布中对应第一兴趣知识区域,所述第二用户需求数据在所述用户兴趣知识分布中对应第二兴趣知识区域;所述根据所述第一用户需求数据和所述第二用户需求数据确定所述用户兴趣知识分布中活跃需求事项的需求解析结果,包括:确定所述第一兴趣知识区域和所述第二兴趣知识区域的区域共性值;响应于所述区域共性值大于设定阈值,将所述第一用户需求数据和所述第二用户需求数据进行整合,确定所述用户兴趣知识分布中活跃需求事项的需求解析结果。

在一些可独立实施的设计思路下,所述第一用户需求数据包括所述活跃需求事项的第一标签,所述第二用户需求数据包括所述活跃需求事项的第二标签;所述将所述第一用户需求数据和所述第二用户需求数据进行正而后,确定所述用户兴趣知识分布中活跃需求事项的需求解析结果,包括:将所述活跃需求事项的第一标签与所述活跃需求事项的第二标签进行合并,确定所述活跃需求事项的最终定位标签。

在一些可独立实施的设计思路下,所述第一用户需求数据包括所述活跃需求事项的第一需求主题和所述活跃需求事项对应于所述第一需求主题的第一可能性,所述第二用户需求数据包括所述活跃需求事项的第二需求主题和所述活跃需求事项对应于所述第二需求主题的第二可能性;所述将所述第一用户需求数据和所述第二用户需求数据进行整合,确定所述用户兴趣知识分布中活跃需求事项的需求解析结果,包括:响应于所述第一需求主题和所述第二需求主题为相同主题,对所述第一可能性和所述第二可能性进行相加得到所述活跃需求事项对应于该需求主题的可能性。

在一些可独立实施的设计思路下,所述将所述第一用户需求数据和所述第二用户需求数据进行合并,确定所述用户兴趣知识分布中活跃需求事项的需求解析结果,还包括:响应于所述第一需求主题和所述第二需求主题为不同需求主题,更新所述第一可能性和所述第二可能性。

在一些可独立实施的设计思路下,所述对用户兴趣知识分布进行需求事项解析,得到第一用户需求数据,包括:利用第一需求事项解析线程对所述用户兴趣知识分布进行需求事项解析,得到所述用户兴趣知识分布的第一需求字段分布;利用第二需求事项解析线程对所述用户兴趣知识分布的第一需求字段分布进行需求事项解析,得到所述用户兴趣知识分布的多组第二需求字段分布;对所述用户兴趣知识分布的多组第二需求字段分布进行分析,得到所述第一用户需求数据。

在一些可独立实施的设计思路下,所述将所述用户兴趣知识分布的兴趣知识分布模板与所述用户兴趣知识分布进行知识描述混淆,对完成知识描述混淆的所述用户兴趣知识分布进行需求事项解析,得到第二用户需求数据,包括:利用知识描述混淆线程将所述用户兴趣知识分布的第一需求字段分布与所述兴趣知识分布模板的第一需求字段分布进行整合,得到所述用户兴趣知识分布的第三需求字段分布;利用第三需求事项解析线程对所述用户兴趣知识分布的第三需求字段分布进行需求事项解析,得到用户兴趣知识分布的多组第四需求字段分布;对所述用户兴趣知识分布的多组第四需求字段分布进行分析,得到所述第二用户需求数据。

在一些可独立实施的设计思路下,所述兴趣知识分布模板包括位于所述用户兴趣知识分布之前的预设组数的多组兴趣知识分布;所述利用知识描述混淆线程将所述用户兴趣知识分布的第一需求字段分布与所述兴趣知识分布模板的第一需求字段分布进行整合,得到所述用户兴趣知识分布的第三需求字段分布,包括:将所述用户兴趣知识分布的第一需求字段分布与所述用户兴趣知识分布的前一组兴趣知识分布的第三需求字段分布进行整合,得到所述用户兴趣知识分布的第三需求字段分布。

图3是示出可以实现本申请的实施例的针对在线话题的大数据挖掘方法的应用环境的架构示意图,针对在线话题的大数据挖掘方法的应用环境中可以包括互相通信的大数据挖掘系统100和话题活动平台系统200。基于此,大数据挖掘系统100和话题活动平台系统200在运行时实现或者部分实现本申请实施例的针对在线话题的大数据挖掘方法。

以上已经结合附图描述了本申请的实施例,至少具有如下有益效果:鉴于指定话题兴趣挖掘模型为基于轻量化配置规则配置所得,因此通过指定话题兴趣挖掘模型对待进行兴趣挖掘的在线话题大数据进行挖掘处理,一方面可以快速地得到用户兴趣知识分布,提高用户兴趣挖掘的时效性,另一方面还能够提高用户兴趣知识分布的准确性和完整性,提高用户兴趣挖掘的质量。综上,借助指定话题兴趣挖掘模型以及轻量化配置,能够提高用户兴趣知识分布的效率和质量。

以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

相关技术
  • 针对在线话题的大数据挖掘方法及大数据挖掘系统
  • 基于大数据挖掘的热点话题处理方法及话题分析服务系统
技术分类

06120114697736