掌桥专利:专业的专利平台
掌桥专利
首页

一种信息挖掘方法、装置、设备及存储介质、程序产品

文献发布时间:2023-06-19 19:30:30


一种信息挖掘方法、装置、设备及存储介质、程序产品

技术领域

本申请涉及人工智能技术,尤其涉及一种信息挖掘方法、装置、设备及存储介质、程序产品。

背景技术

标签是在某个维度对文章、歌曲、视频等内容的凝练表示,可以用于区分不同类型的内容。不同的标签的含义可能是相同,或者相近的,挖掘不同标签的相关性,是自然语言处理技术的一个重要应用方向。相关技术中,存在对标签的特征构造难度大、标签相关性挖掘存在有效性较差、覆盖率较低的问题,使得信息挖掘的智能程度较低。

发明内容

本申请实施例提供一种信息挖掘方法、装置、设备及计算机可读存储介质、程序产品,能够提高信息挖掘的智能程度。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种信息挖掘方法,包括:

获取多个内容信息、多个标签信息和多个创建信息;

基于多个所述内容信息、多个所述标签信息和多个所述创建信息,构建出信息异构图;其中,所述信息异构图描述了所述内容信息、所述标签信息和所述创建信息之间的关联、多个所述内容信息内部的关联,以及多个所述标签信息内部的关联;

通过对所述信息异构图的节点进行序列采样,生成多个所述标签信息各自的标签特征;

基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性,实现信息挖掘。

本申请实施例提供一种信息挖掘装置,包括:。

信息获取模块,用于获取多个内容信息、多个标签信息和多个创建信息;

异构图构建模块,用于基于多个所述内容信息、多个所述标签信息和多个所述创建信息,构建出信息异构图;其中,所述信息异构图描述了所述内容信息、所述标签信息和所述创建信息之间的关联、多个所述内容信息内部的关联,以及多个所述标签信息内部的关联;

特征生成模块,用于通过对所述信息异构图的节点进行序列采样,生成多个所述标签信息各自的标签特征;

相关性确定模块,用于基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性,实现信息挖掘。

在本申请的一些实施例中,所述异构图构建模块,还用于依据多个所述标签信息分别与多个所述内容信息和多个所述创建信息之间的关联,构建出第一子异构图;基于多个所述创建信息和多个所述标签信息,构建出表征多个所述内容信息的内部关联的第二子异构图;基于多个所述内容信息,构建出表征多个所述标签信息的内部关联的第三子异构图;将所述第一子异构图、所述第二子异构图和所述第三子异构图进行拼接,得到所述信息异构图。

在本申请的一些实施例中,所述异构图构建模块,还用于从多个所述标签信息中筛选出与每个所述创建信息关联的第一标签信息,以及从多个所述标签信息中筛选出与每个所述内容信息关联的第二标签信息;利用第一连接边对每个所述创建信息与所述第一标签信息进行连接,并依据所述第一标签信息的出现次数,对所述第一连接边设置权重,得到第一带权连接边;通过第二连接边将每个所述内容信息和所述第二标签信息进行连接,并将第一预设权重设置为所述第二连接边的权重,得到第二带权连接边;对所述第一带权连接边和所述第二带权连接边进行拼接,得到所述第一子异构图。

在本申请的一些实施例中,所述异构图构建模块,还用于利用每个所述创建信息,从多个所述内容信息中筛选出关联的至少两个第一内容信息,以及依据每个所述标签信息,从多个所述内容信息中筛选出关联的至少两个第二内容信息;利用第三连接边将至少两个所述第一内容信息进行连接,并依据第二预设权重,以及至少两个所述第一内容信息各自的标签信息,为所述第三连接边设置权重,得到第三带权连接边;通过第四连接边对至少两个所述第二内容信息进行连接,并依据至少两个所述第二内容信息各自的创建信息,以及依据至少两个所述第二内容信息各自的标签信息,为所述第四连接边设置权重,得到第四带权连接边;利用所述第三带权连接边和所述第四带权连接边,整合出所述第二子异构图。

在本申请的一些实施例中,所述异构图构建模块,还用于利用每个所述内容信息,从多个所述标签信息中筛选出关联的至少两个第三标签信息;利用第五连接边对至少两个所述第三标签信息进行连接,并依据至少两个所述第三标签信息的共同出现次数,为所述第五连接边设置权重,得到第五带权连接边;利用所述第五带权连接边,整合出所述第三子异构图。

在本申请的一些实施例中,所述特征生成模块,还用于将所述信息异构图所包含的多个节点分别作为起点进行序列采样,得到多个所述节点分别对应的关联序列;所述节点为多个所述内容信息、多个所述标签信息和多个所述创建信息中的任意一个;针对所述关联序列进行文本特征编码,得到多个所述节点各自对应的节点特征;从多个所述节点各自对应的所述节点特征中,筛选出多个所述标签信息各自的标签特征。

在本申请的一些实施例中,所述特征生成模块,还用于对所述关联序列进行文本特征编码,得到多个所述节点对应的编码特征;对从多个所述节点中的标签信息抽取出的文本进行文本特征编码,得到标签属性特征,以及对从多个所述节点中的内容信息的标题中抽取出的文本进行文本特征编码,得到内容属性特征;将多个所述节点中的标签信息的编码特征和所述标签属性特征进行加权,得到多个所述节点中的标签信息的节点特征;将多个所述节点中的内容信息的编码特征与所述内容属性特征进行加权,得到多个所述节点中的内容信息的节点特征;将多个所述节点中除所述标签信息和所述内容信息之外的创建信息所对应的编码特征,确定为多个所述节点中的创建信息的节点特征。

在本申请的一些实施例中,所述信息挖掘模块还包括:画像生成模块;所述画像生成模块,用于所述基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性之后,依据多个所述标签信息之间的相关性,对多个所述标签信息进行分类,得到标签分类结果;依据所述标签分类结果生成待挖掘对象的画像特征;其中,所述待挖掘对象表征等待进行画像特征挖掘的对象。

在本申请的一些实施例中,所述信息挖掘模块还包括:标签召回模块;所述标签召回模块,用于所述基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性之后,依据多个所述标签信息之间的相关性,从多个所述标签信息中针对识别出的异常标签确定出匹配标签;将所述异常标签和所述匹配标签确定为待优化标签,以进行标签优化。

在本申请的一些实施例中,所述信息挖掘模块还包括:标签推荐模块;所述标签推荐模块,用于所述基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性之后,依据多个所述标签信息之间的相关性,针对接收到的输入标签,从多个所述标签信息提取出推荐标签,并将所述推荐标签提供给使用对象。

在本申请的一些实施例中,所述信息获取模块,还用于获取历史内容发布数据,并依据所述历史内容发布数据,构建初始内容信息池、初始标签信息池和初始创建信息池;对所述初始标签信息池中的初始标签信息进行去重,并将去重后的初始标签信息池中除对应的创建信息的数量少于第一数量阈值的初始标签信息之外的多个初始标签信息,确定为多个所述标签信息;从所述初始创建信息池中分别确定出第一初始创建信息、第二初始创建信息和第三初始创建信息,其中,所述第一初始创建信息为对应的内容信息的数量少于第二数量阈值的初始创建信息,所述第二初始创建信息为对应内容信息的类别的数量大于第三数量阈值的初始创建信息,以及所述第三初始创建信息为对应的标签信息的数量大于第四数量阈值的初始创建信息;将所述初始创建信息池中除所述第一初始创建信息、所述第二初始创建信息、以及所述第三初始创建信息外的多个初始创建信息,确定为多个所述创建信息;将所述初始内容信息池中除所述第一初始创建信息对应的内容信息、所述第二初始创建信息对应的内容信息、以及所述第三初始创建信息对应的内容信息之外的多个初始内容信息,确定为多个所述内容信息。

本申请实施例提供一种信息挖掘设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息挖掘方法。

本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的信息挖掘方法。

本申请实施例提供一种计算机程序产品,包括计算机程序或指令所述计算机程序或指令被处理器执行时实现本申请实施例提供的信息挖掘方法。

本申请实施例具有以下有益效果:信息挖掘设备能够基于异构信息图自动生成标签的标签特征,减小了标签的特征表示的构造难度,并且通过对信息异构图的节点进行序列采样,可以有效控制所得到的标签特征的大小,从而所得到的标签特征能够正常进行运算,使得标签的相关性挖掘的有效性得以提高,且标签的特征表示不会受到语料库的限制,能够提高标签相关性挖掘的覆盖率。综上,本申请实施例能够降低标签的特征构造难度、提高标签相关性挖掘的覆盖率和有效性,最终提高了信息挖掘的智能程度。

附图说明

图1是无向图的示意图;

图2是有向图的示意图;

图3是本申请实施例提供的信息挖掘系统的架构示意图;

图4是本申请实施例提供的图3中的服务器的结构示意图;

图5是本申请实施例提供的信息挖掘方法的流程示意图一;

图6是本申请实施例提供的信息挖掘方法的流程示意图二;

图7是本申请实施例提供的筛选第一内容信息和第二内容信息的示意图;

图8是本申请实施例提供的信息挖掘方法的流程示意图三;

图9是本申请实施例提供的信息挖掘方法的流程示意图四;

图10是本申请实施例提供的信息挖掘方法的流程示意图五;

图11是本申请实施例提供的数据清洗的过程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一第二第三第四第五”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一第二第三第四第五”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

2)自然语言处理(Nature Language Processing,NLP)是计算机领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学习、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

4)云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、存储和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

5)图,是由节点和连接节点的边所构成的离散数据结构,可以用来对生物网络、社交网络等进行建模。图可以分为有向图和无向图等几大类,其中,无向图中任意两个节点之间的边都是无向边,有向图是指图中任意两个节点之间的边都是有向边。

示例性的,图1是无向图的示意图,在图1中,A、B、C、D四个节点之间的边均为无向边。图2是有向图的示意图,在图2中,A、B、C、D四个节点之间的边均有方向。

6)一阶邻域,对于图中的节点A,与其有边连接的节点,即为节点A的一阶邻域。

7)二阶邻域,对于图中的节点A,由其所有的一阶邻域的节点构成集合B,若节点C属于B,即节点C为节点A的一阶邻域,那么,节点C的一阶邻域,就为节点A的二阶邻域。

8)图表示学习,其目标是将图中的节点映射为向量时,能够最大化地保留图的拓扑信息。图内部错综复杂的结构信息是高纬度的隐式信息,图表示学习就是为了将这些高纬度的隐式信息进行降维,同时最大化保留图原本的结构信息。

9)随机游走,图表示学习的一个步骤,即以图上的任意节点A为起点,从A的一阶邻域中随机选取一个节点加入节点A所对应的序列中,并再以选取的节点为起点,进行下一轮的随机游走,直至满足游走停止的条件。需要说明的是,对于无权图,在随机游走时,不同一阶邻域的节点被选中的概率相同,而对于有权图,在随机游走时,不同一阶邻域的几点被选中的概率等于归一化的边的权重。

10)深度游走(Deep Walk)是指将遍历图中的节点,以每个节点为起点进行随机游走,得到节点序列,将节点序列作为文本,利用跳字(Skip-Gram)模型进行学习,以输出每个节点的向量表示。

11)元路径,在异构图(即包含不同类型的节点的图)中,任意一个节点可能有多种类型的一阶邻域节点,元路径就是指定了游走规则的节点类型序列。

12)基于节点类型的随机游走,即通过设置不同的元路径,在随机游走时对不同类型的节点进行采样,以避免少数类型的节点被遗漏采样而导致图表示学习不充分的问题。

13)基于边信息增强图表示学习(EGES),是深度游走的改进算法,多使用用户的行为来构建图,在行为稀疏的场景中,引入节点属性,将图表示学习的目标从学习节点的嵌入变成学习节点属性和节点标识(ID)的嵌入,从而节点的嵌入为节点标识的嵌入和节点属性的嵌入的加权和,权重可以通过学习得到。

标签是在某个维度对文章、歌曲、视频等内容的凝练表示,可以用于区分不同类型的内容。不同的标签的含义可能是相同,或者相近的,挖掘不同标签的相关性,是自然语言处理技术的一个重要应用方向。

相关技术中,在挖掘不同标签的相关性时,是先通过人工为标签构造特征表示,或者是直接在语料库中学习标签的特征表示(例如构造文本相关度矩阵,求解拉普拉斯特征向量,以各个特征向量中的中值向量对特征向量进行二值化,生成低维度的二值化码作为标签的特征表示),然后再对标签的特征表示两两计算距离,通过对距离进行聚类,以明确不同标签的相关度,实现标签的相关性挖掘。

然而,当标签规模不断扩大时,通过人工需要较长时间才能为标签构造出合适的特征表示,特征表示的构造难度大,并且人工构造出的标签的特征表示会过于庞大,无法全部放入内存中以进行后续运算,即无法有效应用到实际的标签相关性挖掘过程中,从而标签的相关性挖掘的有效性较差。

而通过直接在语料库中学习标签的特征表示时,也会在标签规模扩大时难以有效应用到实际的标签相关性挖掘过程中,即标签的相关性挖掘的有效性较差。同时,用户提供的标签可能并不在语料库中,使得对语料库没有覆盖到的标签进行相关性的挖掘,影响了标签相关性挖掘的覆盖率。

综上所述,相关技术中,存在对标签的特征构造难度大、标签相关性挖掘存在有效性较差、覆盖率较低的问题,使得信息挖掘的智能程度较低。

本申请实施例提供一种信息挖掘方法、装置、设备和计算机可读存储介质、程序产品,能够提高信息挖掘的智能程度。下面说明本申请实施例提供的信息挖掘设备的示例性应用,本申请实施例提供的信息挖掘设备可以实施为各种类型的终端,也可以实施为服务器。下面,将说明信息挖掘设备实施为服务器时示例性应用。

参见图3,图3是本申请实施例提供的信息挖掘系统的架构示意图。为实现支撑一个信息挖掘应用,在信息挖掘系统100中,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。信息挖掘系统100中还设置有数据库500,用于向服务器200提供数据支持。数据库500可以独立于服务器200,也可以配置在服务器200中。

服务器200用于从数据库500获取多个内容信息、多个标签信息和多个创建信息;基于多个内容信息、多个标签信息和多个创建信息,构建出信息异构图;其中,信息异构图描述了内容信息、标签信息和创建信息之间的关联、多个内容信息内部的关联,以及多个标签信息内部的关联;通过对信息异构图的节点进行序列采样,生成多个标签信息各自的标签特征;基于对标签特征进行聚类,确定出多个标签信息之间的相关性,实现信息挖掘。

服务器200还用于接收终端400通过网络300发送的输入标签,针对接收到的输入标签,依据多个标签信息之间的相关性,从多个标签信息中提取出推荐标签,并将推荐标签提供给使用对象,即发送给终端400。

终端400用于图形界面400-1中接收用户的操作,得到输入标签,通过网络300将输入标签发送给服务器200,以及接收服务器200发送的推荐标签,在图形界面400-1中展示推荐标签。

在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端等,但并不局限于此。在终端上,设置有客户端,例如视频客户端、浏览客户端、信息流客户端、教育客户端等等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。

参见图4,图4是本申请实施例提供的图3中的服务器的结构示意图,图4所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;

在一些实施例中,本申请实施例提供的信息挖掘装置可以采用软件方式实现,图4示出了存储在存储器250中的信息挖掘装置255,其可以是程序和插件等形式的软件,包括以下软件模块:信息获取模块2551、异构图构建模块2552、特征生成模块2553、相关性确定模块2554、画像生成模块2555、标签召回模块2556和标签推荐模块2557,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中,本申请实施例提供的信息挖掘装置可以采用硬件方式实现,作为示例,本申请实施例提供的信息挖掘装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的信息挖掘方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。

示例性的,本申请实施例提供一种信息挖掘设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息挖掘方法。

在一些实施例中,信息挖掘设备可以通过运行计算机程序来实现本申请实施例提供的权限发放方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如用于挖掘标签相关性等信息的APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景。等场景。下面,将结合本申请实施例提供的信息挖掘设备的示例性应用和实施,说明本申请实施例提供的信息挖掘方法。

参见图5,图5是本申请实施例提供的信息挖掘方法的流程示意图一,本申请实施例提供的信息挖掘方法可以由信息挖掘设备执行。将结合图5示出的步骤进行说明。

S101、获取多个内容信息、多个标签信息和多个创建信息。

本申请实施例可以应用于在挖掘不同标签的相关性的场景下实现的,例如,针对不同的文章、歌曲等内容的标签进行相关性挖掘,以利用标签的相关性给用户推荐其可能感兴趣的内容,或者是对标签库中的标签进行相关性的挖掘,以便于对已有的垃圾标签含义相近的标签进行处理等等。信息挖掘设备可以从数据库中所存储的用户的内容发布数据中,获取到其所存储的多个内容信息、多个标签信息和多个创建信息,或者是对在线监听到的用户的内容发布数据进行解析,获取到多个内容信息、多个标签信息和多个创建信息。

可以理解的是,内容信息是指用户所创建并发布的内容主体,其可以是文章、视频、歌曲等。标签信息是指用户所添加的用于区分其所创建的内容信息的类别的短文本(字符数量小于阈值的文本,例如小于5个字的文本),例如,“搞笑视频”、“美食制作”等文本。创建信息是用于区分不同的用户的信息,可以理解为用户的ID、昵称等等。

在一些实施例中,信息挖掘设备可以直接对内容发布数据进行解析,得到多个内容信息、多个标签信息和多个创建信息。在另一些实施例中,信息挖掘设备在对发文数据进行解析,然后对内容发布数据进行数据清洗,例如对发文数据中的日期、外文标签进行清理,对内容发布数据中同一内容信息的相同或相近标签进行去重等等,以得到多个内容信息、多个标签信息和多个创建信息。

可以理解的是,内容信息的数量、标签信息的数量和创建信息的数量可以是相等的,也可以是不相等的,本申请在此不作限定。

S102、基于多个内容信息、多个标签信息和多个创建信息,构建出信息异构图。

由于用户在发布内容信息时,会为内容信息添加相应的标签信息,然后以创建信息(例如发文ID等)的名义进行发布,从而使得内容信息、标签信息和创建信息之间存在着一定的关联。信息挖掘设备对多个内容信息、多个标签信息和多个创建信息之间的关联进行分析,利用不同的节点来分别表示多个内容信息、多个标签信息和多个创建信息,对多个内容信息、多个标签信息和多个创建信息中有关联的节点利用边进行连接,就能够得到一个对多个内容信息、多个标签信息和多个创建信息之间的关联进行建模的异构图(图中包含了三种不同类型的节点,即内容信息类型的节点、标签信息类型的节点和创建信息类型的节点),所得到的图即为信息异构图。

本申请实施例中,信息挖掘设备在构建信息异构图时,不仅会分析内容信息、标签信息和创建信息之间的关联,即不同类型的信息的之间的外部关联情况,还会分析多个内容信息内部的关联情况,以及多个标签信息内部的关联情况等,即同一类型的信息的内部关联情况,从而,所得到的信息异构图描述了内容信息、标签信息和创建信息之间关联、多个内容信息内部的关联,以及多个标签信息内部的关联。

需要说明的是,信息异构图可以是带权重的异构图(即异构图的边具有权重),也可以是无权重的异构图(即异构图的边不具有权重),本申请在此不作限定。

S103、通过对信息异构图的节点进行序列采样,生成多个标签信息各自的标签特征。

信息挖掘设备针对信息异构图的各个节点进行序列采样,以分别得到用于表示各个节点,即多个内容信息、多个标签信息和多个创建信息的节点序列,然后再基于这些节点序列,生成每个节点,即多个内容信息、多个标签信息和多个创建信息各自的特征,并从每个节点的特征中筛选出每个标签信息所对应的特征,以得到多个标签信息各自对应的标签特征。

可以理解的是,信息挖掘设备可以通过随机游走、深度游走、元路径游走的方式对每个节点的进行序列采样,以得到每个节点的节点序列;也可以直接对每个节点的所有一阶邻域的节点进行采样,得到每个节点的节点序列。

还可以理解的是,信息挖掘设备然后可以对每个节点的节点序列进行文本特征抽取,生成信息异构图的各个节点所对应的特征;也可以然后通过每个节点的节点序列进行下采样,得到各个节点所对应的特征,本申请在此不作限定。

S104、基于对标签特征进行聚类,确定出多个标签信息之间相关性,实现信息挖掘。

信息挖掘设备得到不同的多个标签信息各自所对应的标签特征之后,会针对所有的标签信息设置聚类粒度,以明确聚类时的类别数量,例如设置512个类别、1024个类别等等。信息挖掘设备按照设置好的聚类粒度,对多个标签信息各自的标签特征进行聚类,从而得到每个类别所对应的特征类簇,其中,每个类别的特征类簇中所囊括的标签特征在特征空间是相关的,此时,信息挖掘设备可以依据标签特征与标签信息之间的对应关系,就可以明确了哪些标签信息是属于同一类的,是具有相关性的,以完成信息挖掘。

需要说明的是,信息挖掘设备可以基于对多个标签信息各自的标签特征两两进行距离计算,来实现对标签特征的聚类,也可以通过对不同的标签信息所对应的标签特征的夹角进行计算,来实现对标签特征的聚类。当然,信息挖掘设备还可能够通过其他方式来对多个标签信息各自的标签特征进行聚类,本申请在此不作限定。

可以理解的是,相比于人工为标签构造特征表示,本申请实施例能够基于异构信息图自动生成标签的标签特征,减小了标签的特征表示的构造难度,并且通过对信息异构图的节点进行序列采样,可以有效控制所得到的标签特征的大小,从而所得到的标签特征能够正常进行运算,使得标签的相关性挖掘的有效性得以提高;同理,相比于在语料库中学习标签的特征表示,本申请实施例也能够提高标签相关性挖掘的有效性,与此同时,标签的特征表示不会受到语料库的限制,能够提高标签相关性挖掘的覆盖率。综上所述,本申请实施例中,信息挖掘设备能够通过对异构信息图进行序列采样,降低标签的特征构造难度、提高标签相关性挖掘的覆盖率和有效性,最终提高了信息挖掘的智能程度。

基于图5,参见图6,图6是本申请实施例提供的信息挖掘方法的流程示意图二。基于多个内容信息、多个标签信息和多个创建信息,构建出信息异构图,即S102的具体实现过程,可以包括:S1021-S1024,如下:

S1021、依据多个标签信息分别与多个内容信息和多个创建信息之间的关联,构建出第一子异构图。

信息挖掘设备从多个内容信息和多个创建信息中,分别筛选出与每个标签信息有关联的内容信息和创建信息,并利用边将每个标签信息和其所关联的内容信息进行连接,计算出每个标签信息和其所关联的内容信息的边的权重,同时利用边将每个标签信息和其所关联的创建信息进行连接,计算出每个标签信息和其所关联的创建信息的边的权重,利用带有权重的边拼接出第一子异构图。

S1022、基于多个创建信息和多个标签信息,构建出表征多个内容信息的内部关联的第二子异构图。

信息挖掘设备分别利用每个创建信息,从多个内容信息中查找出在创建信息上相互关联的若干个内容信息,利用边将这些内容信息进行连接,同理的,信息挖掘设备利用每个标签信息,从多个内容查找出在标签信息上相关联的若干个内容信息,并利用边将连接这些内容信息。接着,信息挖掘设备会计算出连接不同的内容信息的边的权重,并利用带有权重的边组成第二子异构图。

S1023、基于多个内容信息,构建出表征多个标签信息的内部关联的第三子异构图。

信息挖掘设备通过每个内容信息,挖掘出在内容信息上有关联的若干个标签信息,利用边将有关联的标签信息进行连接,同时计算出这些边的权重,利用带权重的边生成第三子异构图。

S1024、将第一子异构图、第二子异构图和第三子异构图进行拼接,得到信息异构图。

第一子异构图、第二子异构图和第三子异构图之间存在着相同的节点,信息挖掘设备根据重复的节点,将第一子异构图、第二子异构图和第三异构图进行拼接,拼接结果就是信息异构图。

本申请实施例中,信息挖掘设备能够分别构建表征标签信息、内容信息和创建信息之间的关联的第一子异构图、表征不同的内容信息的内部关联的第二子异构图,以及表征不同的标签信息的内部关联的第三子异构图,然后基于所得到的各个子异构图,拼接出完整的信息异构图,以完成信息异构图的构建。

在本申请的一些实施例中,依据多个标签信息分别与多个内容信息和多个所述创建信息之间的关联,构建出第一子异构图,即S1021的具体实现过程,可以包括:S1021a-S1021d(未在附图中示出),如下:

S1021a、从多个标签信息中筛选出与每个创建信息关联的第一标签信息,以及从多个标签信息中筛选出与每个内容信息关联的第二标签信息。

当用户在发布内容时,针对所发布的内容,即内容信息添加了标签信息,那么,用户的创建信息就与添加的标签信息是关联的;在用户发布内容时,针对内容信息添加了标签信息,那么所添加的标签信息与内容信息就是关联的。信息挖掘设备依据每个创建信息,从多个标签信息中筛选出与每个创建信息具有关联的标签信息,作为第一标签信息,同时依据每个内容信息,从多个标签信息中筛选出与每个内容信息具有关联的标签信息,作为第二标签信息。

S1021b、利用第一连接边对每个创建信息与第一标签信息进行连接,并依据第一标签信息的出现次数,对第一连接边设置权重,得到第一带权连接边。

信息挖掘设备针对每个创建信息,以及其所对应的第一标签信息建立连接边,该连接边就是第一连接边。同时,信息挖掘设备还会依据第一标签信息的出现次数,为第一连接边计算出所要设置的权重,从而得到第一带权连接边。

可以理解的是,信息挖掘设备可以直接将第一标签信息的出现次数,占据所有的标签信息的出现总数,作为第一连接边的权重,也可以是对第一标签信息的出现次数加1后取对数,得到第一连接边的权重。

示例性的,式(1)示出了第一连接边的权重的计算过程:

W(A1,T1)=log(count(T1)+1) (1)

其中,A1是指每个创建信息,T1是每个创建信息对应的第一标签信息,count(T1)是第一标签信息的出现次数,W(A1,T1)是连接每个创建信息和第一标签信息的第一连接边的权重。

S1021c、通过第二连接边将每个内容信息和第二标签信息进行连接,并将第一预设权重设置为第二连接边的权重,得到第二带权连接边。

信息挖掘设备针对每个内容信息,以及每个内容信息所对应的第二标签信息建立连接边,这时的连接边即为第二连接边。接着,信息挖掘设备将第一预设权重直接确定为第二连接边的权重,这样,就能够得到第二带权连接边。

可以理解的是,第一预设权重的大小可以根据实际情况进行设置,例如可以设置为1,也可以设置为0.8,本申请在此不作限定。

需要说明的是,在一些实施例中,信息挖掘设备还可以先执行S1021c,再执行S1021b,也可以同时执行S1021b和S1021c,本申请在此不作限定。

S1021d、对第一带权连接边和第二带权连接边进行拼接,得到第一子异构图。

信息挖掘设备依据第一带权连接边和第二带权连接边之间的重叠节点,将第一带权连接边和第二带权连接边拼接成图,就能够得到第一子异构图。

本申请实施例中,信息挖掘设备会先依据创建信息与标签信息之间的关联,以及标签信息和内容信息之间的关联,建立出带权的第一子异构图,以利用第一子异构图来表示创建信息、标签信息和内容信息之间的关联。

在本申请的一些实施例中,基于多个创建信息和多个标签信息,构建出表征多个内容信息的内部关联的第二子异构图,即S1022的具体实现过程,可以包括:S1022a-S1022d(未在附图中示出),如下:

S1022a、利用每个创建信息,从多个内容信息中筛选出关联的至少两个第一内容信息,以及依据每个标签信息,从多个内容信息中筛选出关联的至少两个第二内容信息。

对应同一个创建信息的若干个内容信息,例如,同一用户发布的不同文章、歌曲等,信息挖掘设备会认为其是相关联的,信息挖掘设备会将每个创建信息作为搜索条件,从多个内容信息中搜索出同一个创建信息所对应的若干个内容信息作为第一内容信息,从而得到至少两个内容信息。同理的,用户在发布内容时,可能会对不同的内容信息添加相同的标签信息,例如,针对同一个系列(内容具有连续性)的每个短视频,都会添加该系列的标签等,此时,认为标签信息与内容信息是相关的。信息挖掘设备将每个标签信息作为搜索条件,将每个标签信息所命中的若干个内容信息,作为第二内容信息,从而会得到至少两个内容信息。

示例性的,图7是本申请实施例提供的筛选第一内容信息和第二内容信息的示意图。在图7中,搜索条件为某个作者的昵称(创建信息)HXX7-1,以及其在发布内容时打过的标签(标签信息)美食制作7-2,在文章池(多个内容信息)7-3中进行搜索。文章池7-3中,包含了4个不同的文章,分别为:糍粑的制作方法7-31,对应的作者昵称为HXX7-1,标签为美食制作7-2;萌翻天的小奶猫7-32,对应的作者昵称为HXX7-1,标签为萌宠视频7-32a;教你怎么炒肉更好吃7-33,对应的作者昵称为张三7-33a,标签为美食制作7-2;怎么修野生眉7-34,对应的作者昵称为李四7-34a,标签为美妆护肤7-34b。那么,信息挖掘设备所筛选出的第一内容信息为:糍粑的制作方法7-31、萌翻天的小奶猫7-32,在后续信息挖掘设备即是针对这两个内容信息建立第三连接边;信息挖掘设备所筛选出的第二内容信息为:糍粑的制作方法7-31和教你怎么炒肉更好吃7-33,在后续信息挖掘设备即是针对这两个内容信息建立第四连接边。

S1022b、利用第三连接边将至少两个第一内容信息进行连接,并依据第二预设权重,以及至少两个第一内容信息各自的标签信息,为第三连接边设置权重,得到第三带权连接边。

由于至少两个第一内容信息对应同一个创建信息,因此,可以直接利用代表两个内容信息的创建信息相同的第二预设权重,作为第三连接边的第一权重因子。接着,信息挖掘设备会获取每个第一内容信息所对应的标签信息,然后将至少两个第一内容信息的标签信息求交集,得到交集结果,依据交集结果中标签的数量,与至少两个第一内容信息中任意一个第一内容信息的标签信息的数量计算比值,或者是与至少两个第一内容信息的标签信息的并集结果所包含的标签信息的数量求比值,得到第三连接边的第二权重因子。最后,信息挖掘设备将第一权重因子和第二权重因子叠加,就得到了第三连接边的权重,从而得到第三带权连接边。

示例性的,式(2)-(4)提供了第三连接边的权重的计算过程,如下所示:

W(D1,D2)=W_alpha+W_beta (2)

W_alpha=1 (3)

其中,D1和D2分别表示至少两个第二内容信息,W_alpha表示第一权重因子,由于本步骤中D1和D2显然是对应同一个创建信息,因此,直接将第二预设权重1设置为W_alpha;W_beta是第二权重因子,Tag(D1)是D1的标签信息,Tag(D2)是D2的标签信息,Tag(D1)∩Tag(D2)是D1和D2的标签信息的交集中的标签信息的数量,Tag(D1)∪Tag(D2)是D1和D2的标签信息的并集中的标签信息的数量。需要注意的是,当W_alpha+W_beta的值大于1时,可以直接将W(D1,D2)设置为1,或者是对W_alpha+W_beta进行归一化,得到最终的W(D1,D2)。

S1022c、通过第四连接边对至少两个第二内容信息进行连接,并依据至少两个第二内容信息各自的创建信息,以及至少两个第二内容信息各自的标签信息,为第四连接边设置权重,得到第四带权连接边。

信息挖掘设备判断至少两个第二内容信息各自的创建信息是否相同,在相同时直接将第四连接边的第一权重因子设置为第二预设权重,在不同时将第四连接边的第一权重因子设置为0。然后,信息挖掘设备通过与步骤S1022b中计算第三连接边的第二权重因子相类似的过程,计算出第四连接边的第二权重因子,最后将第四连接边的第一权重因子和第二权重因子相叠加,就得到了第四连接边的权重,从而得到第四带权连接边。

也就是说,本步骤中,式(3)的过程可以变为:

S1022d、利用第三带权连接边和第四带权连接边,整合出第二子异构图。

信息挖掘设备将第三带权连接边和第四带权连接边进行拼接整合,就能够得到第二子异构图。

本申请实施例中,信息挖掘设备能够依据创建信息和标签信息,对多个内容信息之间的关联进行分析,构建出表征多个内容信息自身的内部关联情况的第二子异构图,以便于后续生成信息异构图。

基于图6,参见图8,图8是本申请实施例提供的信息挖掘方法的流程示意图三。在本申请的一些实施例中,基于多个内容信息,构建出表征多个标签信息的内部关联的第三子异构图,即S1023的具体实现过程,可以包括:S1023a-S1023c,如下:

S1023a、利用每个内容信息,从多个标签信息中筛选出关联的至少两个第三标签信息。

同一个内容信息的不同标签信息是相关的,例如,用户为同一篇文章所添加的两个标签就是相关的。从而,信息挖掘设备将每个内容信息作为索引条件,从多个标签信息中索引出每个内容信息所对应的若干个标签信息,这些标签信息就是具有关联的至少两个第三标签信息。

S1023b、利用第五连接边对至少两个第三标签信息进行连接,并依据至少两个第三标签信息的共同出现次数,为第五连接边设置权重,得到第五带权连接边。

信息挖掘设备构建第五连接边,利用第五连接边建立至少两个第三标签信息的连接关系,然后当至少两个第三标签信息共同出现在同一个内容信息时(即该内容信息同时包含了该至少两个第三标签信息),将至少两个第三标签信息的共同出现次数增加一次,如此,就能够统计出至少两个第三标签信息的共同出现次数。之后,信息挖掘设备可以对该共同出现次数进行归一化处理,或者是将共同出现次数与1之和取对数,从而得到第五连接边的权重,进而得到第五带权连接边。

示例性的,当至少两个第三标签信息分别为a和b时,信息挖掘设备就是统计在所有的内容信息中,共同包含的内容信息的数量,即的共同出现次数,以便于得到第五连接边的权重。

进一步的,式(6)是本申请实施例提供的计算第五连接边的权重的过程示意:

W(T1,T2)=log(count()+1) (6)

其中,T1和T2为两个第三标签信息,count()为T1和T2的共同出现次数,W(T1,T2)为第五连接边的权重。

S1023c、利用第五带权连接边,整合出第三子异构图。

信息挖掘设备在得到第五带权连接边之后,就会按照不同的第三标签信息重叠情况,将第五带权连接边进行拼接,以得到第三子异构图。

本申请实施例中,信息挖掘设备会利用内容信息,分析出多个标签信息的内部的联系,以得到表征多个标签信息的内部关联的第三子异构图,以便于后续生成信息异构图。

基于图5,参见图9,图9是本申请实施例提供的信息挖掘方法的流程示意图四。在本申请的一些实施例中,通过对信息异构图的节点进行序列采样,生成多个标签信息各自的标签特征,即S103的具体实现过程,可以包括:S1031-S1033,如下:

S1031、将信息异构图所包含的多个节点分别作为起点进行序列采样,得到多个节点分别对应的关联序列。

信息挖掘设备可以将信息异构图中的每个节点作为起点,通过随机游走、深度游走或者是基于元路径进行游走,来针对每个节点进行序列采样,并在游走结束时,得到每个节点所对应的关联序列,这个关联序列描述了每个节点的拓扑信息,即描述了与每个节点相关联的节点是哪些。

本申请实施例中,节点为多个内容信息、多个标签信息和多个创建信息中的任意一个。也即,信息挖掘设备是针对所有的内容信息、标签信息和创建信息均确定出关联序列。

可以理解的是,元路径可以根据实际情况来进行设置,例如可以设置为A-T-A、D-T-D等,也可以设置为D-D、T-T等,本申请在此不作限定。

S1032、针对关联序列进行文本特征编码,得到多个节点各自对应的节点特征。

信息挖掘设备在得到每个节点的关联序列之后,会将关联序列看作一个文本,并利用文本特征编码算法,对关联序列进行文本特征编码,编码所得到的特征,就是每个节点对应的节点特征。

在一些实施例中,信息挖掘设备可以选择一位有效编码(one-hot)模型作为文本特征编码算法,也可以选择跳字(Skip-Gram)模型作为文本特征编码算法,还可以选择其他的文本特征编码算法,本申请在此不作限定。

S1033、从多个节点各自对应的节点特征中,筛选出多个标签信息各自的标签特征。

信息挖掘设备从每个节点所对应的节点特征中,将每个标签信息所对应的节点特征挑选出来,作为每个标签信息的标签特征。如此,信息挖掘设备就能够得到多个标签信息各自的标签特征。

本申请实施例中,信息挖掘设备能够以信息异构图中的每个节点作为起点,进行序列采样,以对每个节点的拓扑结构进行保留,得到节点序列,然后再对节点序列进行嵌入编码,就能够学习到每个节点的嵌入特征,即得到每个节点的节点特征,并从中筛选出每个标签信息所对应的标签特征。如此,所得到的标签特征能够包含更多的信息,从而能够标签信息更好地进行表征。

在本申请的一些实施例中,针对关联序列进行文本特征编码,得到多个节点各自对应的节点特征,即S1032的具体实现过程,可以包括:S1032a-S1032e(未在附图中示出),如下:

S1032a、对关联序列进行文本特征编码,得到多个节点对应的编码特征。

S1032b、对从多个节点中的标签信息抽取出的文本进行文本特征编码,得到标签属性特征,以及对从多个节点中的内容信息的标题中抽取出的文本进行文本特征编码,得到内容属性特征。

信息挖掘设备可以通过Char-Ngram(基于字符的N元语法)模型,来对多个节点中的每个标签信息进行文本抽取,从而能够捕获到构成每个标签信息的字符或短语,以通过捕获到的字符或短语来学习到不同标签信息的相关性,得到每个标签信息的标签属性特征。同时可以通过Char-Ngram模型对每个内容信息的标签进行文本抽取,以捕获构成不同内容信息的标题的字符或短语,以通过这些字符或短语学习到不同内容信息的标题的相关性,得到每个内容信息的内容属性特征。

S1032c、将多个节点中的标签信息的编码特征和标签属性特征进行加权,得到多个节点中的标签信息的节点特征。

信息挖掘设备将每个标签信息的编码特征和标签属性特征进行对应加权,将加权结果作为每个标签信息所对应的节点特征。可以理解的是,加权的权重可以随机设置,也可以是根据标签信息的编码特征和标签属性特征之间的相似度进行设置。

S1032d、将多个节点中的内容信息的编码特征与内容属性特征进行加权,得到多个节点中的内容信息的节点特征。

该步骤与S1032c的处理过程类似,在此不再赘述。

S1032e、将多个节点中除标签信息和内容信息之外的创建信息所对应的编码特征,确定为多个节点中的创建信息的节点特征。

信息挖掘设备直接将每个创建信息原本的编码特征,确定为每个创建信息的节点特征。至此,信息挖掘设备就针对每个节点都确定出了对应的节点特征。

本申请实施例中,信息挖掘设备在确定标签信息和内容信息的节点特征时,能够引入标签信息的构成文本作为对应的属性,引入内容信息的组成短语作为对应的属性,从而依据属性能够确定出标签信息和内容信息更加合理的表征特征,以提高节点特征的特征表征效果;并且,通过抽取标签的组成文本,能够有效覆盖长尾标签,提升标签相关性挖掘的覆盖率。

基于图5,参见图10,图10是本申请实施例提供的信息挖掘方法的流程示意图五。在本申请的一些实施例中,基于对标签特征进行聚类,确定出多个标签信息之间的相关性之后,即在S104之后,该方法还可以包括:S105-S106,如下:

S105、依据多个标签信息之间的相关性,对多个标签信息进行分类,得到标签分类结果。

信息挖掘设备在明确多个标签信息之间的相关性之后,可以依据该相关性,将有关联,或者关联较为紧密的标签信息划分到一个类别之中,在对多个标签信息均完成分类之后,可以得到标签分类结果。

可以理解的是,在标签分类结果中,同一个类别的标签信息集中在一起,这些标签信息具有统一的类别标识,类别标识可以是类别ID,也可以是类别的概括性短语等,本申请在此不作限定。

S106、依据标签分类结果生成待挖掘对象的画像特征。

本申请实施例中,信息挖掘设备可以根据待挖掘对象的操作数据,与标签分类结果中的不同类别的标签进行比较,将待挖掘对象的操作数据所命中的类别所对应的类别标识,或者是类别中的代表性(可以是人工选择的)标签,作为待挖掘对象的画像特征,这样,能够减少大量同义标签对画像特征的负面影响。

可以理解的是,待挖掘对象表征等待进行画像特征挖掘的对象。判断操作数据是否命中某个类别,即是分析用户所查看过的内容信息的标签信息集中在哪个类别中。

本申请实施例中,信息挖掘设备能够依据不同标签信息之间的相关性,来对标签信息进行类别划分,从而依据标签分类结果来为待挖掘对象生成更加准确的画像特征,以便后续利用更加准确的画像特征对待挖掘对象进行信息推荐或信息投放等过程。

在本申请的一些实施例中,基于对标签特征进行聚类,确定出多个标签信息之间的相关性之后,即在S104之后,该方法还可以包括:S107-S108(未在附图中示出),如下:

S107、依据多个标签信息之间的相关性,针对从多个标签信息中识别出的异常标签确定出匹配标签。

S108、将异常标签和匹配标签确定为待优化标签,以进行标签优化。

当信息挖掘设备从多个标签信息中识别出异常标签时,可以将异常标签作为搜索条件,从多个标签信息中查找出与异常标签较为类似的匹配标签,然后将异常标签和匹配标签全部进行召回,并确定为待优化标签,以在后续进行标签优化,减少多个标签信息中的不良标签。

可以理解的是,异常标签可以是被用户举报、投诉的内容信息的标签,也可以是携带有不良含义的标签,信息挖掘设备可以通过对标签进行文本分析,或者是对被举报、投诉的内容信息的标签信息进行提取,以得到异常标签。

本申请实施例中,信息挖掘设备能够依据多个标签信息之间的相关性,识别出与异常标签相类似的标签,并针对这些带有不良影响的标签进行召回,以减少多个标签信息中不良标签的影响,提高标签信息的质量。

在本申请的一些实施例中,基于对标签特征进行聚类,确定出多个标签信息之间的相关性之后,即在S104之后,该方法还可以包括:S109(未在附图中示出),如下:

S109、依据多个标签信息之间的相关性,针对接收到的输入标签信息,从多个标签信息提取出推荐标签信息,并将推荐标签信息提供给使用对象。

用户在发布内容时,一般会针对内容信息自主选择,或者是撰写生成对应的标签信息,这些标签信息就是用户的输入标签信息。然而,用户的输入标签信息可能并不准确,或者是措辞并不合适,因此,信息挖掘设备可以将输入标签信息作为索引条件,从多个标签信息中,针对输入标签信息筛选出含义相同或相似,并且措辞更加合适的推荐标签信息,将推荐标签信息提供给使用对象,也即用户,以便用户使用。

可以理解的是,推荐标签信息可以是多个标签信息中任意一个与输入标签信息的相关度达到阈值的标签信息,也可以是针对输入标签信息所属的类别所筛选出的代表性标签,本申请在此不作限定。

本申请实施例中,信息挖掘设备还能够依据多个标签信息之间的相关性,为用户推荐更加合适的推荐标签信息,以降低用户添加标签的难度,并辅助提高标签信息的质量。

在本申请的一些实施例中,获取多个内容信息、多个标签信息和多个创建信息,即S101的具体实现过程,可以包括:S1011-S1015(未在附图中示出),如下:

S1011、获取历史内容发布数据,并依据历史内容发布数据,构建初始内容信息池、初始标签信息池和初始创建信息池。

S1012、对初始标签信息池中的初始标签信息进行去重,并将去重后的初始标签信息池中除对应的创建信息的数量少于第一数量阈值的初始标签信息之外的多个初始标签信息,确定为多个标签信息。

信息挖掘设备从若干个相同或相近的初始标签信息中,择一保留,将剩余的初始标签信息删除,以完成对初始标签信息池中的初始标签信息去重。同时,信息挖掘设备会统计每个初始标签信息对应的创建信息的数量,例如使用初始标签信息作为发布内容时所添加的标签的作者的数量,将数量少于第一数量阈值的初始标签信息从初始标签信息池中删除,初始标签信息池中剩余的初始标签信息,就是最终参与信息异构图构建的多个标签信息。

示例性的,第一数量阈值可以根据实际情况进行设置,例如设置为3,从而信息挖掘设备是将标签对应的作者少于3的标签删除,得到多个标签信息。

可以理解的是,对应的创建信息的数量少于第一数量阈值的初始标签信息,实际上就是极少有用户使用的标签,其表达不具有普适性,很难以此来预测其他的用户是否也有意愿使用该标签,并且基于该标签来构建图时,其所对应的邻域节点显然较少,很难以进行有效的序列采样,因此需要删除。

S1013、从初始创建信息池中分别确定出第一初始创建信息、第二初始创建信息和第三初始创建信息。

其中,第一初始创建信息为对应的内容信息的数量少于第二数量阈值的初始创建信息,第二初始创建信息为对应内容信息的类别的数量大于第三数量阈值的初始创建信息,以及第三初始创建信息为对应的标签信息的数量大于第四数量阈值的初始创建信息。

S1014、将初始创建信息池中除第一初始创建信息、第二初始创建信息、以及第三创建信息外的多个初始创建信息,确定为多个创建信息。

S1015、将初始内容信息池中除第一初始创建信息对应的内容信息、第二初始创建信息对应的内容信息、以及第三创建信息对应的内容信息之外的多个初始内容信息,确定为多个内容信息。

信息挖掘设备将初始创建信息池中的各个初始创建信息中,将对应的内容信息数量较少的第一初始创建信息筛选出来,从初始创建信息池中将对应的内容信息的类别的数量较少的第二初始创建信息筛选出来,以及从初始创建信息池中将对应的标签的信息较多的第三创建信息筛选出来,将这些筛选出的初始创建信息,以及这些初始创建信息所对应的内容信息删除之后,初始创建信息池和初始内容信息池中所剩余的初始创建信息和初始内容信息,就是最终要参与信息异构图构建的多个内容信息和多个创建信息。

可以利用的是,第二数量阈值、第三数量阈值和第四数量阈值均可以根据实际情况进行设置,例如将第二数量阈值设置为10,将第三数量阈值设置为5,将第四数量阈值设置为1000等,本申请在此不作限定。

需要说明的是,对应的内容信息少于第二数量阈值的第一初始创建信息及对应的内容信息,会降低建模用户对标签的偏好程度分析的可信度,因此需要将这部分第一创建信息和对应的内容信息删除,以提高信息异构图的质量。对应的内容信息的类别的数量大于第三数量阈值时,创建信息,例如用户账号很可能是媒体账号或者是搬运账号,基于此并不能分析出用户的发布偏好和标签偏好,因此需要删除,以提高信息异构图的质量。而对应的标签信息的数量大于第四数量阈值的第三创建信息,是过于活跃的用户,其也可能是搬运号或者是媒体号,会对信息异构图造成一定的影响,因此也需要删除。

本申请实施例中,信息挖掘设备能够先从原始的内容发布数据中构建出初始内容信息池、初始标签信息池和初始创建信息池,然后进行数据清洗,得到用于进行信息异构图构建的多个标签信息、多个内容信息以及多个创建信息,以提高信息异构图的质量。

下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是在对短视频的标签进行相关性挖掘(信息挖掘)的场景下实现的。一般来说,短视频平台上的用户发布视频时提供的标签往往比较随机,具有较大的相关性挖掘空间,挖掘到的相关性可以有以下的应用场景:

标签的相关性挖掘主要包括以下三个主要步骤:

1、原始数据清洗。

2、图投建与样本生成,节点嵌入向量生成。

3、标签节点嵌入向量聚类,得到相似标签。

在原始数据清洗过程中,服务器(信息挖掘设备)利用历史发文信息(历史内容发布数据)构建训练样本,可用信息包括作者、视频、视频的标签、视频的类别、视频的标题等等。基于历史发文信息,服务器可以构建作者池(初始创建信息池)、视频池(初始内容信息池)和标签池(初始标签信息池),分别对应作者ID的集合、所有视频的集合、所有标签的集合。服务器对这些数据进行数据清洗,以得到最终使用的标签(多个标签信息)、作者(多个创建信息)和视频(多个内容信息)。

示例性的,图11是本申请实施例提供的数据清洗的过程示意图。参见图11,数据清洗过程包括清理数字、日期、外文标签11-1,对同一视频对应的标签去重11-2(对初始标签信息池中的初始标签信息进行去重),将使用的作者的数量少于3的标签删除11-3(将对应的创建信息数量(使用的作者的数量,例如选择“美妆”标签作为自己的短视频的作者的数量)少于第一数量阈值(即上文的3)的初始标签信息从初始标签信息池中删除,得到多个标签信息),过滤作者发文数量少于10、发文类别数大于5以及历史发文覆盖的标签数大于1000的作者和视频11-4(从初始创建信息池分别确定出第一初始创建信息、第二初始创建信息和第三初始创建信息,其中,第一初始创建信息为对应的内容信息的数量(作者发文数量,例如作者发布的短视频的数量)少于第二数量阈值(即上文的10)的初始创建信息、第二初始创建信息为对应的内容信息的类别的数量(发文类别数)大于第三数量阈值(上文中的5)的初始创建信息,以及第三初始创建信息为对应的标签信息的数量(历史发文覆盖的标签数)大于第四数量阈值(上文中的1000)的初始创建信息;将初始创建信息池中除第一初始创建信息、第二初始创建信息以及第三初始创建信息外的多个初始创建信息,确定为多个创建信息,以及将初始内容信息池中除第一初始创建信息对应的内容信息、第二初始创建信息对应的内容信息、第三初始创建信息对应的内容信息之外的多个初始内容信息,确定为多个内容信息)。

在图投建与样本生成中,服务器将数据清洗之后的数据构建为一个包含作者(创作信息)、视频(内容信息)、标签(标签信息)三种节点的带权异构图(信息异构图)。

具体的,当作者与标签一阶相关,例如作者A1发布视频时添加了标签TA,那么A1与T1(第一标签信息)之间存在边连接(第一连接边);文章与标签为一阶相关,例如文章D1被标记标签T1(第二标签信息),那么D1与T1之间存在边连接(第二连接边);对应同一作者的视频为一阶相关,例如,两个视频D1与D2(至少两个第一内容信息)对应同一作者A1,那么D1与D2存在边连接(第三连接边);包含同一标签的两个视频为一阶相关,例如,两个视频D1和D2包含了相同的T1时,D1和D2(至少两个第二内容信息)之间存在边连接(第四连接边);对应同一视频的两个标签为一阶相关,例如,视频D1包含标签T1和T2,那么T1和T2(至少两个第三标签信息)之间存在边连接(第五连接边)。

同时,服务器会为上面的边设置对应的权重,其中,作者到标签的权重(第一连接边的权重)可以通过式(1)计算,两个标签之间的权重(第五连接边的权重)可以通过式(6)计算,视频到标签的权重(第二连接边的权重)默认为1(第一预设权重);视频到视频的权重(第三连接边的权重和第四连接边的权重)可以通过式(2)-式(4)来计算。

在节点嵌入向量生成过程中,可以通过A-T-A、D-T-D、D-D和T-T的元路径,来指定节点的游走规则,从而得到节点所对应的序列表示(关联序列),以在这些序列表示中学习节点的嵌入表示(节点特征)。

本申请实施例中,可以通过EGES算法,来分析挖掘所有的节点的嵌入。服务器在学习节点的嵌入表示时,除了对节点的序列表示进行学习之外,还会将标签作为一个词语,通过Char-Ngram计算标签的属性,以通过Char-Ngram捕获标签在内容层面的属性,以及将视频的标题视为一个词语,通过Char-Ngr-am捕获构成标题的短语,然后对节点对应的序列表示所学习到的嵌入(编码特征),和对应的属性嵌入(内容属性特征和标签属性特征)加权,得到节点最终的嵌入(节点特征)。通过引入属性信息,能够在一定程度上避免行为稀疏导致的训练不充分的问题。并且,基于Char-Ngram所得到的向量能够覆盖长尾标签,能够提升标签相关性挖掘的覆盖率。

本申请实施例中,可以将EGES算法的上下文窗口大小ws设置为3,节点嵌入维度dim设置为32,bucket设置为1千万。

在EGES算法运行结束后,会自动导出所有的节点的嵌入。其中,标签的嵌入(标签特征)可以作为一个结果,也可以基于标签的嵌入进行进一步的挖掘和利用。

例如,服务器筛选出标签的嵌入,并使用K-means(K-均值)进行不同粒度的聚类,即设置不同的聚类中心数量,例如512、1024、4096等等。通过分析聚类,利用标签嵌入能够很好的建模标签相关性,然而选择合适的聚类数量,将聚类之后到标签映射到聚类ID,以用于表征用户的画像(依据多个标签信息之间的相关性,对多个标签信息进行分类,得到标签分类结果,依据标签分类结果生成待挖掘对象的画像特征)。

当发现垃圾标签(异常标签)时,可以进行相似搜索,召回与垃圾标签相关的标签以进行后续处理(依据多个标签信息之间的相关性,针对识别出的异常标签确定出匹配标签,将异常标签和匹配标签确定为待优化标签)。

在用户发布视频时,可以针对相似的若干个标签人工筛选或生成一个代表性的标签,然后在根据用户填写的标签(接收到的输入标签),为用户提供候选标签(推荐标签),以降低用户设置标签的门槛。

通过上述方法,能够通过构建异构图,并从异构图中采样出节点序列,以生成节点的嵌入表征,构造难度小,消耗的资源可控,能够正常送入内存以进行运算,且能够更好地表达标签的拓扑结构,使得相关性挖掘的有效性得到提高,且标签的表征不受语料库的影响,能够覆盖长尾标签,从而相关性挖掘的覆盖率也会得到提高。

下面继续说明本申请实施例提供的信息挖掘装置255的实施为软件模块的示例性结构,在一些实施例中,如图4所示,存储在存储器250的信息挖掘装置255中的软件模块可以包括:

信息获取模块2551,用于获取多个内容信息、多个标签信息和多个创建信息;

异构图构建模块2552,用于基于多个所述内容信息、多个所述标签信息和多个所述创建信息,构建出信息异构图;其中,所述信息异构图描述了所述内容信息、所述标签信息和所述创建信息之间的关联、多个所述内容信息内部的关联,以及多个所述标签信息内部的关联;

特征生成模块2553,用于通过对所述信息异构图的节点进行序列采样,生成多个所述标签信息各自的标签特征;

相关性确定模块2554,用于基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性,实现信息挖掘。

在本申请的一些实施例中,所述异构图构建模块2552,还用于依据多个所述标签信息分别与多个所述内容信息和多个所述创建信息之间的关联,构建出第一子异构图;基于多个所述创建信息和多个所述标签信息,构建出表征多个所述内容信息的内部关联的第二子异构图;基于多个所述内容信息,构建出表征多个所述标签信息的内部关联的第三子异构图;将所述第一子异构图、所述第二子异构图和所述第三子异构图进行拼接,得到所述信息异构图。

在本申请的一些实施例中,所述异构图构建模块2552,还用于从多个所述标签信息中筛选出与每个所述创建信息关联的第一标签信息,以及从多个所述标签信息中筛选出与每个所述内容信息关联的第二标签信息;利用第一连接边对每个所述创建信息与所述第一标签信息进行连接,并依据所述第一标签信息的出现次数,对所述第一连接边设置权重,得到第一带权连接边;通过第二连接边将每个所述内容信息和所述第二标签信息进行连接,并将第一预设权重设置为所述第二连接边的权重,得到第二带权连接边;对所述第一带权连接边和所述第二带权连接边进行拼接,得到所述第一子异构图。

在本申请的一些实施例中,所述异构图构建模块2552,还用于利用每个所述创建信息,从多个所述内容信息中筛选出关联的至少两个第一内容信息,以及依据每个所述标签信息,从多个所述内容信息中筛选出关联的至少两个第二内容信息;利用第三连接边将至少两个所述第一内容信息进行连接,并依据第二预设权重,以及至少两个所述第一内容信息各自的标签信息,为所述第三连接边设置权重,得到第三带权连接边;通过第四连接边对至少两个所述第二内容信息进行连接,并依据至少两个所述第二内容信息各自的创建信息,以及依据至少两个所述第二内容信息各自的标签信息,为所述第四连接边设置权重,得到第四带权连接边;利用所述第三带权连接边和所述第四带权连接边,整合出所述第二子异构图。

在本申请的一些实施例中,所述异构图构建模块2552,还用于利用每个所述内容信息,从多个所述标签信息中筛选出关联的至少两个第三标签信息;利用第五连接边对至少两个所述第三标签信息进行连接,并依据至少两个所述第三标签信息的共同出现次数,为所述第五连接边设置权重,得到第五带权连接边;利用所述第五带权连接边,整合出所述第三子异构图。

在本申请的一些实施例中,所述特征生成模块2553,还用于将所述信息异构图所包含的多个节点分别作为起点进行序列采样,得到多个所述节点分别对应的关联序列;所述节点为多个所述内容信息、多个所述标签信息和多个所述创建信息中的任意一个;针对所述关联序列进行文本特征编码,得到多个所述节点各自对应的节点特征;从多个所述节点各自对应的所述节点特征中,筛选出多个所述标签信息各自的标签特征。

在本申请的一些实施例中,所述特征生成模块2553,还用于对所述关联序列进行文本特征编码,得到多个所述节点对应的编码特征;对从多个所述节点中的标签信息抽取出的文本进行文本特征编码,得到标签属性特征,以及对从多个所述节点中的内容信息的标题中抽取出的文本进行文本特征编码,得到内容属性特征;将多个所述节点中的标签信息的编码特征和所述标签属性特征进行加权,得到多个所述节点中的标签信息的节点特征;将多个所述节点中的内容信息的编码特征与所述内容属性特征进行加权,得到多个所述节点中的内容信息的节点特征;将多个所述节点中除所述标签信息和所述内容信息之外的创建信息所对应的编码特征,确定为多个所述节点中的创建信息的节点特征。

在本申请的一些实施例中,所述信息挖掘模块255还包括:画像生成模块2555;所述画像生成模块2555,用于所述基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性之后,依据多个所述标签信息之间的相关性,对多个所述标签信息进行分类,得到标签分类结果;依据所述标签分类结果生成待挖掘对象的画像特征;其中,所述待挖掘对象表征等待进行画像特征挖掘的对象。

在本申请的一些实施例中,所述信息挖掘模块255还包括:标签召回模块2556;所述标签召回模块2556,用于所述基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性之后,依据多个所述标签信息之间的相关性,从多个所述标签信息中针对识别出的异常标签确定出匹配标签;将所述异常标签和所述匹配标签确定为待优化标签,以进行标签优化。

在本申请的一些实施例中,所述信息挖掘模块255还包括:标签推荐模块2557;所述标签推荐模块2557,用于所述基于对所述标签特征进行聚类,确定出多个所述标签信息之间的相关性之后,依据多个所述标签信息之间的相关性,针对接收到的输入标签,从多个所述标签信息提取出推荐标签,并将所述推荐标签提供给使用对象。

在本申请的一些实施例中,所述信息获取模块2551,还用于获取历史内容发布数据,并依据所述历史内容发布数据,构建初始内容信息池、初始标签信息池和初始创建信息池;对所述初始标签信息池中的初始标签信息进行去重,并将去重后的初始标签信息池中除对应的创建信息的数量少于第一数量阈值的初始标签信息之外的多个初始标签信息,确定为多个所述标签信息;从所述初始创建信息池中分别确定出第一初始创建信息、第二初始创建信息和第三初始创建信息,其中,所述第一初始创建信息为对应的内容信息的数量少于第二数量阈值的初始创建信息,所述第二初始创建信息为对应内容信息的类别的数量大于第三数量阈值的初始创建信息,以及所述第三初始创建信息为对应的标签信息的数量大于第四数量阈值的初始创建信息;将所述初始创建信息池中除所述第一初始创建信息、所述第二初始创建信息、以及所述第三初始创建信息外的多个初始创建信息,确定为多个所述创建信息;将所述初始内容信息池中除所述第一初始创建信息对应的内容信息、所述第二初始创建信息对应的内容信息、以及所述第三初始创建信息对应的内容信息之外的多个初始内容信息,确定为多个所述内容信息。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。信息挖掘设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该信息挖掘设备执行本申请实施例上述的信息挖掘方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的信息挖掘方法,例如,如图5示出的信息挖掘方法。

在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个信息挖掘设备上执行,或者在位于一个地点的多个信息挖掘设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个信息挖掘设备上执行。

综上所述,本申请实施例能够基于异构信息图自动生成标签的标签特征,减小了标签的特征表示的构造难度,并且通过对信息异构图的节点进行序列采样,可以有效控制所得到的标签特征的大小,使得标签的相关性挖掘的有效性得以提高;与此同时,标签的特征表示不会受到语料库的限制,能够提高标签相关性挖掘的覆盖率。从而,通过本申请实施例,信息挖掘设备能够通过对异构信息图进行序列采样,降低标签的特征构造难度、提高标签相关性挖掘的覆盖率和有效性,最终提高了信息挖掘的智能程度。同时,信息挖掘设备还可以通过挖掘出的多个标签信息的相关性,来提升用户画像挖掘的效果、召回异常标签以及降低用户添加标签的难度,从而使得标签信息的质量得以提高,并且更加便于用户使用。

以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

相关技术
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 目标检测方法和装置、电子设备、存储介质、程序产品
  • 行人再识别方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 信息挖掘方法、装置、设备及可读存储介质、程序产品
  • 运维知识的挖掘方法、装置、设备、存储介质和程序产品
技术分类

06120115931317