基于图谱标签降噪的素材推荐方法及系统

文献发布时间：2023-06-19 10:29:05

技术领域

本发明属于基于图谱标签降噪的素材推荐的方法领域，具体涉及一种基于图谱标签降噪的素材推荐方法及系统。

背景技术

传统的搜索引擎，在一定程度上解决了用户从互联网中获取信息的难题，但由于它们是基于关键词或字符串的，并没有对查询的目标和用户的查询输入进行理解。因此，它们在搜索准确度方面存在明显的欠缺。

运用了知识图谱的智能搜索引擎可以返回更加精准的结果。然而构造和应用领域知识图谱，依然面临着各种挑战和难题。一个比较麻烦的问题是构造知识图谱，我们需要对图谱进行大量人工的打标，但是很多人打标的方式不一样，造成打标的结果也参差不齐。打标质量太差会造成大量的标签不具有实际意义，歧义很多，也会带来很多噪声。因为我们在搜索时大部分时候是通过匹配搜索内容和标签，然后根据标签再去找相似的素材等等，那么标签的质量就很重要了。

现有的方法：

我们在使用图谱进行素材搜索时，会首先根据用户搜索信息抽取关键词，然后将关键词和图谱中的标签节点进行映射，然后通过该节点去找相关的热门素材。然而这个方法的最大问题是，如果标签里面噪声太多，并不能很好的代表素材的含义，那么搜索出来的东西也没有实际价值。

解决方案：

通过Louvain算法根据搜索的关键词所构建的邻接图进行社区聚类，找到对应关键词的重要topic节点，然后根据这些节点做素材索引。

现有的方法：

我们在做素材搜索时，会首先根据用户对话抽取关键词，然后将关键词和图谱中的标签节点进行映射，最后通过该节点的周边信息去找相关的热门素材。然而这个方法的最大问题是，如果标签里面噪声太多，并不能很好的代表素材的含义，那么搜索出来的东西也没有实际价值。

发明内容

本申请实施例提供了一种基于图谱标签降噪的素材推荐方法，以至少解决相关技术中主观因素影响的问题。

本发明提供了一种基于图谱标签降噪的素材推荐方法，其中，包括：

预处理步骤：从用户的搜索内容中抽取关键词并对所述关键词进行处理；

匹配步骤：根据处理后的所述关键词与知识图谱中的节点进行匹配；

抽取步骤：抽取匹配后的节点子图，并通过Louvain算法对所述节点子图进行聚类，根据聚类结果输出搜索结果；

输出步骤：通过下游模型对所述搜索结果进行排序和推荐。

上述素材推荐方法，其中，所述预处理步骤包括：

关键词抽取步骤：通过算法从所述搜索内容中进行关键词抽取获得所述关键词；

消歧步骤：通过算法计算所述关键词和所述知识图谱的中节点的相关度。

上述素材推荐方法，其中，所述匹配步骤包括：

根据所述相关度将所述关键词和所述知识图谱中的节点建立映射关系。

上述素材推荐方法，其中，所述抽取步骤包括：

节点子图抽取步骤：根据所述映射关系抽取所述知识图谱中的节点周围的所述子图；

聚类步骤：通过所述Louvain算法获取所述子图中的热门节点；

搜索结果获得步骤：根据所述热门节点获得所述搜索结果。

上述素材推荐方法，其中，所述下游模型为语义相关匹配算法或者为基于用户和物品信息的推荐模型。

本发明还包括一种基于图谱标签降噪的素材推荐系统，其中，包括：

预处理模块：从用户的搜索内容中抽取关键词并对所述关键词进行处理；

匹配模块：根据处理后的所述关键词与知识图谱中的节点进行匹配；

抽取模块：抽取匹配后的节点子图，并通过Louvain算法对所述节点子图进行聚类，根据聚类结果输出搜索结果；

输出模块：通过下游模型对所述搜索结果进行排序和推荐。

上述素材推荐系统，其中，所述预处理模块包括：

关键词抽取单元：通过算法从所述搜索内容中进行关键词抽取获得所述关键词；

消歧单元：通过算法计算所述关键词和所述知识图谱的中节点的相关度。

上述素材推荐系统，其中，所述匹配模块

根据所述相关度将所述关键词和所述知识图谱中的节点建立映射关系。

上述素材推荐系统，其中，所述抽取模块包括：

节点子图抽取单元：根据所述映射关系抽取所述知识图谱中的节点周围的所述子图；

聚类单元：通过所述Louvain算法获取所述子图中的热门节点；

搜索结果获得单元：根据所述热门节点获得所述搜索结果。

上述素材推荐系统，其中，所述下游模型为语义相关匹配算法或者为基于用户和物品信息的推荐模型。

本发明的有益效果在于：

通过以上的降噪方式可以很大程度上减少图谱中的标签噪声，使得通过图谱做索引的文章相关度更高，同时在性能上有很大帮助，并且可视化效果也很好，从而提高了用户体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

在附图中：

图1是基于图谱标签降噪的素材推荐方法的流程图；

图2是图1中步骤S1的分步骤流程图；

图3是图1中步骤S3的分步骤流程图；

图4是本发明的基于图谱标签降噪的素材推荐系统的结构示意图；

图5是根据本发明实施例的计算机设备的框架图；

图6是本发明的基于图谱标签降噪的素材推荐方法的应用流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

在详细阐述本发明各个实施例之前，对本发明的核心发明思想予以概述，并通过下述若干实施例予以详细阐述。

本发明旨在用于解决通过知识图谱进行素材搜索时的标签降噪问题。

请参照图1，图1是基于图谱标签降噪的素材推荐方法的流程图。如图1所示，本发明的通过基于图谱标签降噪的素材推荐方法包括：

预处理步骤S1：用户的搜索内容中抽取关键词并对所述关键词进行处理；

匹配步骤S2：据处理后的所述关键词与知识图谱中的节点进行匹配；

抽取步骤S3：取匹配后的节点子图，并通过Louvain算法对所述节点子图进行聚类，根据聚类结果输出搜索结果；

输出步骤S4：过下游模型对所述搜索结果进行排序和推荐。

请参照图2，图2是图1中步骤S1的分步骤流程图。如图2所示，所述预处理步骤S1包括：

关键词抽取步骤S11：算法从所述搜索内容中进行关键词抽取获得所述关键词；

消歧步骤S12：算法计算所述关键词和所述知识图谱的中节点的相关度。

进一步，所述匹配步骤S2包括：

根据所述相关度将所述关键词和所述知识图谱中的节点建立映射关系。

请参照图3图3是图1中步骤S3分步骤流程图。如图3示，所述抽取步骤S3包括：

节点子图抽取步骤S31：所述映射关系抽取所述知识图谱中的节点周围的所述子图；

聚类步骤S32：所述Louvain算法获取所述子图中的热门节点；

搜索结果获得步骤S33：所述热门节点获得所述搜索结果。

再进一步，所述下游模型为语义相关匹配算法或者为基于用户和物品信息的推荐模型。

以下，列举实施例具体说明本发明的设备间用户识别方法如下。

实施例一：

请参照图6，图6是本发明的基于图谱标签降噪的素材推荐方法的应用流程图。以下结合图6，通过一具体实施例说明本发明的基于图谱标签降噪的素材推荐方法。本发明是基于图网络的Louvain算法对庞大的标签系统进行聚类，从而找到每个聚类的核心节点，从核心节点再去找相关的文章。

本发明流程步骤如下：

1、首先对用户的搜索内容进行实体抽取和消歧。

a)实体抽取主要是通过算法从用户的搜索内容中进行关键词抽取。

b)实体消歧主要是通过算法计算抽取的关键词和图谱的中节点的相关度。以便可以将关键词和图谱中的节点做精准映射。

2、抽取节点周围子图。

a)即和该节点相关的多跳子图，主要包含文章的各种标签。

3、通过Louvain找到子图中的热门节点。Louvain算法的具体过程容后详述。

4、抽取和热门节点相关的文章。

5、通过下游模型对文章进行排序和推荐。这一部分的算法可以是word2vec，TFIDF，Jaccarddistance等等的语义相关匹配算法，或者是基于用户和物品信息的推荐模型。

Louvain算法

算法思想

Louvain算法是由Blondel在2008年提出的用于网络社区发现的方法，算法思想简单，算法主要分为节点的局部移动和网络社区聚合两个阶段[4]。首将每个节点看作一个独立的类，并依次迭代每个节点，将单个节点移动到产生最大质量函数增长的社区，并做好标识。然后初始化整个图，将分区中的每个社区成为聚合网络中的一个节点，按照步骤一的方式迭代对网络社区进行迭代归类，直到满足迭代结束条件为止。该算法在两个基本阶段对质量函数如模量度或CPM进行优化，直到评估函数不在变化为止。在每次迭代中，算法都会以任意预先定义的顺序线性扫描顶点。对于每一个点v，会对它的所有邻近社区进行检查，并计算从当前社区移动到每个相邻社区的模块度增益值。一旦增益被计算出来，算法就会将该节点分配给一个能产生最大模块增益的邻近社区作为新社区，并更新以该节点为源和目标维护的相应社区结构。反之，如果所有的增益都是负的，顶点就留在它的当前共社区中。一旦所有顶点都以这种方式线性扫描，迭代就结束了。在一个阶段结束后，该算法通过将一个个小的社区归并为一个超结点来重新构造网络，这时网络中边的权重为两个结点内所有原始结点的边权重之和；以及在两个元顶点之间放置一条边，其权重等于对应两个社区之间的所有社区间边的权重之和。这样就形成了一个由多个子社区压缩的图G′(V′，E′，ω′)，并将它作为下一阶段的输入，随后，进行多次迭代计算，直到模块度的值收敛。注意，每个阶段代表社区检测过程中形成的粗糙层次结构。

评价模型

Louvain算法是一个不断迭代和合并的过程，在这个过程中是否需要进行下一次是由模块度增益来确定的。在图中每一种结构都对应着一个模块度值，其计算方法如公式(1)所示：

当图的结构发生变化，如一个节点a从当前社区C(i)移动到另外一个社区Qi时，图的结构就会发生变化，相应的模块度也会发生变化，把这种变化称为模块度增益，用[？Q]表示，计算方法如公式(2)所示：

在维护的几个数据集中，算法都可以让QiC(j)的每个实例在O(1)时间内计算。因此，算法的时间复杂度为O(M)。虽然在迭代次数或相位数上没有确定上限，但很明显，该算法可以通过使用模块增益来截止(因为模块是一个单调递增的函数，直到终止)。在实践中，该方法只需要几十次迭代和更少的阶段就能终止大多数真实网络的输入。

算法基本流程

Louvain社区发现是一个不断移动节点，对节点和社区进行合并的过程

基于Louvain的社交网络分类

社交网络是一個由若干个体构成的交互网络，这些个体之间存在着不同的连接，有的个体之间保存在较为密切的联系，而有的个体之间存在着较少的联系，朋友之间的联系用图中节点之间的边表示，节点之间的边越多，则他们之间的关系越密切。一个大型的社交网络通常是由若干小型网络组成的，因此可以通过Louvain算法对社交网络进行分类。本文在两组社交网络数据集上进行了实验.其中一个是从Facebook上抓取的社交数据集，命名为socialship，另一个则是根据美国大学生足球联赛而创建的一个复杂的社会网络football。

实验结果

socialship网络是从facebook社交平台上抓取的社交关系网络，网络中的成员来具有不同的学历，在不同的年份参加了不同的假期活动，具有一定的社交关系。通过Louvain算法聚类分析后得到如图1的结果。从聚类结果可以看出，socialship网络主要被分成了8个社区，分类依据主要是成员的学历、是否参加了相同的活动。分类效果较好，但仍然存在模糊的区域。

football网络包含115个节点和616条边，其中网络中的结点代表足球队，两个结点之间的边表示两只球队之间进行过一场比赛，参赛的115支大学生代表队被分为12个联盟。比赛的流程是联盟内部的球队先进行小组赛，然后再是联盟之间球队的比赛。通过聚类分析得到如图2所示的结果。由图可知115成员被很好地划分成立12支球队。

总结

本文对louvain算法的思想、流程、评价模型进行了分析，并应用该算法对社交网络数据集进行分类。由于本次研究的网络数据集较小，且是静态网络，社区结构相对简单，因此得到了较好的实验结果。在下一步的研究中，将试图对louvain算法进行改进，用于更大的或动态的社交网络社区发现。

Louvain算法(原文为<>)具体细节：

Louvain算法是基于模块度最大化来优化的社区发现算法。算法优化目标的最大化为整个数据的模块度，如下：

其中A

具体步骤：

1、最开始，每个原始节点都看成一个独立的社区，社区内的连边权重为0。便利所有节点，衡量把每个节点加入其另据节点所在的社区所带来的最大模块度收益。并选择最大收益的邻居节点，加入其所在的社区。

2、对步骤1中形成的社区进行折叠，把每个社区折叠成一个单点，分别计算这些新生成的社区点之间的连边权重，以及社区内的所有点之间的连边权重之和。用于下一轮步骤1。

3、重复迭代以上两步多次，直到converge。

实施例二：

请参照图4，图4是本发明的基于图谱标签降噪的素材推荐系统的结构示意图。如图4所示本发明的基于图谱标签降噪的素材推荐系统，其中，包括：

预处理模块：从用户的搜索内容中抽取关键词并对所述关键词进行处理；

匹配模块：根据处理后的所述关键词与知识图谱中的节点进行匹配；

抽取模块：抽取匹配后的节点子图，并通过Louvain算法对所述节点子图进行聚类，根据聚类结果输出搜索结果；

输出模块：通过下游模型对所述搜索结果进行排序和推荐。

其中，所述预处理模块包括：

关键词抽取单元：通过算法从所述搜索内容中进行关键词抽取获得所述关键词；

消歧单元：通过算法计算所述关键词和所述知识图谱的中节点的相关度。

其中，所述匹配模块包括：

根据所述相关度将所述关键词和所述知识图谱中的节点建立映射关系。

其中，所述抽取模块包括：

节点子图抽取单元：根据所述映射关系抽取所述知识图谱中的节点周围的所述子图；

聚类单元：通过所述Louvain算法获取所述子图中的热门节点；

搜索结果获得单元：根据所述热门节点获得所述搜索结果。

其中，所述下游模型为语义相关匹配算法或者为基于用户和物品信息的推荐模型。

实施例三：

结合图5所示，本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种基于图谱标签降噪的素材推荐方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图5所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(Infini Band)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于一种基于图谱标签降噪的素材推荐方法，从而实现结合图1-图3描述的方法。

另外，结合上述实施例中治理数据的方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的一种基于图谱标签降噪的素材推荐方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

综上所述，基于本发明的有益效果在于，本专利提供了一种基于图谱标签降噪的素材推荐方法，该方法通过社区发现算法对图谱标签进行降噪，筛选出合适的topic，从而可以给用户提供更精准的素材推荐。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈嘉真;孙泽懿;张琛;
专利申请人：上海明略人工智能(集团)有限公司;