基于对比学习的网页图卷积文档排序方法及系统

文献发布时间：2023-06-19 16:09:34

技术领域

本公开属于网页文档排序技术领域，尤其涉及一种基于对比学习的网页图卷积文档排序方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

文档排序是根据用户输入查询，检索得到一系列相关文档，并按照查询和文档的相关程度对文档列表进行排序的方法。文档排序在信息检索中占有非常重要的地位，它通过建模用户查询和文档集中的文档，以此学习并判别二者之间的关联关系，从而使搜索引擎返回更满足用户需求的文档。此外，利用这些技术的相关产品如今已被广泛应用于各大搜索引擎，如百度搜索，必应搜索，谷歌搜索等高效的搜索引擎满足了用户的信息需求，极大地便利了人们的生活。与此同时，随着大数据时代到来，文档规模持续扩大，为了充分挖掘数据背后的关联并提高检索效果，学术界和工业界对该任务广为关注。

发明人发现，在文档排序中，已有的方法有基于词项-文档矩阵(TF-IDF Matrix)，神经排序模型(Neural Ranking Model)，预训练语言模型(Pretrained Language Model)等，这些技术大多都面向纯文本格式的文档，对于结构化和半结构化数据处理不够充分。虽然已有方法通过计算查询与文档之间的共现关系，但由于这些方法将结构化、半结构数据全部转换为非结构化数据，从而导致文档原有信息的丢失，如列表信息、表格信息以及外链信息等，从而影响检索效果。例如：在网页web中，文档以超文本标记语言(HTML)的形式组织，HTML文档中包含了许多的标签元素，其中包含着文档结构信息，已有模型未能充分利用这些信息提升文档排序效果。

发明内容

本公开为了解决上述问题，提供了一种基于对比学习的网页图卷积文档排序方法及系统，所述方案能够有效解决结构化、半结构化文本未充分利用的问题，同时，结合网页中的标签信息，提高文档排序性能和指标。

根据本公开实施例的第一个方面，提供了一种基于对比学习的网页图卷积文档排序方法，包括：

获取待查询内容的向量表示以及待排序网页HTML序列；

基于预先训练的序列编码模型，将所述HTML序列编码为若干标记信息组成的隐藏表示序列；其中，所述标记信息包括文本表示和网页标签表示；

基于位置索引从所述隐藏表示序列中提取网页标签表示，并基于单向图表示或对称图表示方法，以标签表示构建图节点，以网页DOM树中父节点与子节点之间的关系构建图的边，实现网页图的构建；

基于关系图卷积神经网络对上所述网页图进行编码，获得网页图的向量表示；

基于多层感知机方法，计算待查询内容向量表示与网页图的向量表示之间的相似度，并基于所述相似度大小实现相关网页的排序。

进一步的，所述序列编码模型采用Longformer模型，通过预先训练的Longformer模型将HTML序列中的每个标记转换为相应的隐藏状态；其中，所述HTML序列中的文本信息经过Longformer模型被聚合到HTML标签表示中。

进一步的，所述单向图表示，具体包括：

将所述隐藏表示序列中成对的标签表示进行聚合，获得新的序列表示，其中，成对的标签表示聚合为唯一的标签表示；

将所述标签表示作为网页图的节点，基于网页DOM树结构，在其父节点和子节点之间构建图的边；在根节点和叶节点之间也构建边，且对于序列中存在多棵树的情况，将每棵树的根基点连接；获得单向网页图结构。

进一步的，所述对称图表示，具体包括：

基于隐藏表示序列中成对标签的左标签和右标签，分别替换所述单向网页图结构中的节点；获得对称的两个网页图；

在两个网页图对应的叶节点之间构建双向边，获得对称网页图。

进一步的，所述基于关系图卷积神经网络对上所述网页图进行编码，通过图卷积神经网络对网页图结构中不同边关系对节点的影响引入编码结果中。

进一步的，所述排序方法中的编码模型训练过程采用的损失函数具体包括：

掩蔽节点预测，其损失函数定义为：

其中，h为原始嵌入表示，h

和，

父子节点建模，其损失函数定义为：

其中，h

和，

兄弟节点预测，其损失函数定义为：

其中，h

和，

网页图对比建模，其损失函数定义为：

其中，z

进一步的，在所述排序方法的编码模型训练过程中，还采用如下方式进行微调，具体包括：

基于交互式方法，具体为：

对文本对的编码层输出进行交互对比，得到统一的向量表征，并基于该表征向量，采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测；

或，

基于表示的方法，具体为：

将待查询内容和网页文档进行嵌入编码，分别得到待查询内容和网页文档的向量表示，采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测。

根据本公开实施例的第二个方面，提供了一种基于对比学习的网页图卷积文档排序系统，包括：

数据获取单元，其用于获取待查询内容的向量表示以及待排序网页HTML序列；

HTML序列编码单元，其用于基于预先训练的序列编码模型，将所述HTML序列编码为若干标记信息组成的隐藏表示序列；其中，所述标记信息包括文本表示和网页标签表示；

网页图构建单元，其用于基于位置索引从所述隐藏表示序列中提取网页标签表示，并基于单向图表示或对称图表示方法，以标签表示构建图节点，以网页DOM树中父节点与子节点之间的关系构建图的边，实现网页图的构建；

网页图编码单元，其用于基于关系图卷积神经网络对上所述网页图进行编码，获得网页图的向量表示；

排序单元，其用于基于多层感知机方法，计算待查询内容向量表示与网页图的向量表示之间的相似度，并基于所述相似度大小实现相关网页的排序。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于对比学习的网页图卷积文档排序方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于对比学习的网页图卷积文档排序方法及系统。

与现有技术相比，本公开的有益效果是：

(1)本公开提供了一种基于对比学习的网页图卷积文档排序方法及系统，所述方案基于构建的网页图结构，通过结合结构化文档中的特殊标签信息提高排序准确性，案能够有效解决结构化、半结构化文本未充分利用的问题，同时，结合网页中的标签信息，提高文档排序性能和指标。

(2)本公开所述方案在预训练阶段设计了四种预训练目标，包括掩码节点预测，父子关系建模，兄弟关系预测以及网页图对比建模，通过两种图建模方式挖掘网页中的结构信息，采用自监督的学习方式使模型在大量未标注数据中学习建模结构化文本，提高了模型的鲁棒性；在微调阶段，对比了基于交互式和基于表示的方法，对模型进行迁移学习和调优，达到了良好的文档排序效果。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例中所述的基于对比学习的网页图卷积文档排序方法流程图；

图2为本公开实施例中所述的基于对比学习的网页图卷积文档排序所采用的模型结构示意图；

图3(a)为本公开实施例中所述的基于掩蔽节点预测的训练目标示意图；

图3(b)为本公开实施例中所述的基于父子节点建模的训练目标示意图；

图3(c)为本公开实施例中所述的基于兄弟节点预测的训练目标示意图；

图3(d)为本公开实施例中所述的基于网页图对比建模的训练目标示意图；

图4(a)为本公开实施例中所述的基于交互式方法的排序方式示意图；

图4(b)为本公开实施例中所述的基于表示方法的排序方式示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种基于对比学习的网页图卷积文档排序方法。

如图1所示，一种基于对比学习的网页图卷积文档排序方法，包括：

获取待查询内容的向量表示以及待排序网页HTML序列；

基于预先训练的序列编码模型，将所述HTML序列编码为若干标记信息组成的隐藏表示序列；其中，所述标记信息包括文本表示和网页标签表示；

基于关系图卷积神经网络对上所述网页图进行编码，获得网页图的向量表示；

基于多层感知机方法，计算待查询内容向量表示与网页图的向量表示之间的相似度，并基于所述相似度大小实现相关网页的排序。

进一步的，所述单向图表示，具体包括：

将所述隐藏表示序列中成对的标签表示进行聚合，获得新的序列表示，其中，成对的标签表示聚合为唯一的标签表示；

进一步的，所述对称图表示，具体包括：

基于隐藏表示序列中成对标签的左标签和右标签，分别替换所述单向网页图结构中的节点；获得对称的两个网页图；

在两个网页图对应的叶节点之间构建双向边，获得对称网页图。

进一步的，所述基于关系图卷积神经网络对上所述网页图进行编码，通过图卷积神经网络对网页图结构中不同边关系对节点的影响引入编码结果中。

进一步的，所述排序方法中的编码模型训练过程采用的损失函数具体包括：

掩蔽节点预测，其损失函数定义为：

其中，h为原始嵌入表示，h

和，

父子节点建模，其损失函数定义为：

其中，h

和，

兄弟节点预测，其损失函数定义为：

其中，h

和，

网页图对比建模，其损失函数定义为：

其中，z

进一步的，在所述排序方法的编码模型训练过程中，还采用如下方式进行微调，具体包括：

基于交互式方法，具体为：

或，

基于表示的方法，具体为：

具体的，为了便于理解，以下结合附图对本公开所述方案进行详细说明：

一种基于对比学习的网页图卷积文档排序方法，包括：

步骤1：获取待查询内容的向量表示以及待排序网页HTML序列；

步骤2：基于预先训练的序列编码模型，将所述HTML序列编码为若干标记信息组成的隐藏表示序列；其中，所述标记信息包括文本表示和网页标签表示；

具体的，所述序列编码模型采用Longformer模型，对于给定的输入序列S，序列编码器将S编码并输出为一个隐藏表示序列H,

H＝HSEncoder(S) (1)

其中，l

步骤3：基于位置索引从所述隐藏表示序列中提取网页标签表示，并基于单向图表示或对称图表示方法，以标签表示构建图节点，以网页DOM树中父节点与子节点之间的关系构建图的边，实现网页图的构建；

其中，网页图G＝(V，E，X)是由HTML序列编码器输出的一系列token构造而成，这些token包含了文本表示(Text Representation)和网页标签表示(HTML TagRepresentation)，其中V表示图节点，E表示节点之间的边(如表1所示，展示了网页图中不同节点之间边的类型定义)，X表示特征矩阵。首先，我们根据位置索引提取序列H中的HTML标签表示。我们采用两种方式将提取得到的序列转换为图G，如下所示：

(1)单向图：在构造图之前，序列首先通过一个表示聚合层。该层将序列中的所有成对节点表示聚合，并输出一个新的表示。公式化描述如下：

其中，i和j是是成对标签在输入序列中的位置索引，H

(2)对称图：第二种图构建方式不经过表示聚合层，我们保留输入序列表示H的原始标签表示。其图构建方式与第一种大致相同，具体来说，我们分别使用左标签()和右标签()来替换单向图中的节点，得到对称的两个图。通过在叶节点对(如

和

)之间构建双向边，将以上两个图合并为一个对称图。对于序列中包含多棵树的图构造方法与单向图相同。

表1网页图中不同节点之间边的类型定义

步骤4：基于关系图卷积神经网络对上所述网页图进行编码，获得网页图的向量表示；

其中，对于所述单向图表示的网页图采用HTML单向图编码器，具体的，所述HTML单向图编码器仅包含了一个图编码层，图编码层采用关系图卷积神经网络编码输入图的结构信息，输出为每一个图节点的表示。

H′

其中，

对于对称图表示的网页图采用HTML对称图编码器，具体的所述HTML对称图编码器包含了一个图编码层和一个表示聚合层。图编码层与HTML单向图编码器结构相同，随后，我们获得一系列图节点的表示。接下来的表示聚合层如序列到单向图的方式将节点表示合并。公式化描述如下：

H′

步骤5：基于多层感知机方法，计算待查询内容向量表示与网页图的向量表示之间的相似度，并基于所述相似度大小实现相关网页的排序。

进一步的，本实施例所述方法采用的编码模型需要预先进行训练，以下对其训练过程进行详细描述：

在预训练阶段，采用基于自监督的方式对模型进行训练，学习HTML序列中的结构信息，如标签之间的并列关系、层次关系和递进关系。编码输入序列(包括HTML标签和段落文本)的模型结构如图2所示，我们使用预先训练的Longformer模型将HTML序列中的每个标记转换为相应的隐藏状态。在这里，我们根据标签在序列中的位置索引提取标签的隐藏状态表示。

只使用标签而不使用文本信息的原因是，我们认为这里使用的标签类似于[CLS]特殊标记的使用，也就是说，文本信息在经过Longformer后被聚合到HTML标签。例如，对于输入“

text1 text2

”，在通过模型后只保留

和

的隐藏状态。因为Longformer中包含了双向注意力机制，因此

和

标签中均融合了text1和text2的文本信息。

H＝Longformer(S)，h＝index(H

我们提出四种预训练目标如下：

(1)掩蔽节点预测：

受BERT(Bidirectional Encoder Representation from Transformers)模型中掩码语言模型的启发，我们提出的掩码节点预测模型随机掩蔽一些输入中HTML标记，如图3(a)所示，其目标是根据上下文预测掩码节点的原始嵌入表示h＝Mask(Encoder(S))，我们将原始嵌入表示与mask后的表示h

(2)父子节点建模：

在web页面的DOM树中，有很多表示父子关系的标签，例如“

text1
text2

”中的ul为li标签的父节点。由于父节点的信息是由所有子节点构成的，我们提出利用这种关系来学习图节点之间的包含关系。如图3(b)所示，对于输入序列S＝t

在此之后，我们在同一批数据中随机抽样另一个节点的向量表示作为子节点对应的负样例，记为h

(3)兄弟节点预测：

除了父子关系，兄弟关系在网页中也随处可见，如在序列“

text1

text2

”中li标签表示并列关系。如图3(c)所示，我们从序列S＝t

(4)网页图对比建模：

如上文所述，在给定输入的HTML序列的前提下，HTML序列编码器输出每个标记的隐藏表示。接下来HTML图形编码器输出新的图节点表示。对于两个通道的输出(即单向图Graph1和对称图Graph2)，我们使用对比学习的方法来计算损失。我们假设左右通道的输出分别为A1和A2，同一批的其他数据输出在为B1,B2(假设每批有2条数据),正样例对为(A1、A2),(B1、B2),负样例对为(A1,B1),(A1、B2),(A2,B1),(A2,B2)。我们按照如下公式计算对比学习损失。

其中，z

进一步的，在所述微调阶段，我们采用了两种排序策略，分别为基于交互的排序方式和基于表示的排序方式。两种排序策略采用相同的输入，即我们将输入的query和document拼接为一个序列，二者之间使用特殊标记[SEP]分割，同时在序列开始处添加特殊标记[CLS]，即S＝[CLS]+query+[SEP]+document。

模型首先对输入进行嵌入获得文本的细粒度表示，并在嵌入的基础上进一步编码，公式化描述如下：

其中，H表示模型预测得到的每个token的表示，m和n分别为查询(query)和文档(document)包含的token数量。

(1)基于交互式的方法

在模型内部，对文本对的编码层输出进行交互、对比，得到统一的向量表征h

score

其中，score表示查询和文档之间相关的概率，为一个0-1之间的数值；CLS(-)表示取输出张量中CLS位置对应的表征向量，Model表示我们在第三节中提出的模型。

(2)基于表示的方法

与基于交互式的方法不同的是，基于表示的方法将输入嵌入，编码，分别得到增强后的查询和文档向量表征

score

实施例二：

本实施例的目的是提供一种基于对比学习的网页图卷积文档排序系统。

一种基于对比学习的网页图卷积文档排序系统，包括：

数据获取单元，其用于获取待查询内容的向量表示以及待排序网页HTML序列；

网页图编码单元，其用于基于关系图卷积神经网络对上所述网页图进行编码，获得网页图的向量表示；

排序单元，其用于基于多层感知机方法，计算待查询内容向量表示与网页图的向量表示之间的相似度，并基于所述相似度大小实现相关网页的排序。

进一步的，本实施例所述系统与实施例一中所述方法相对应，其相应的技术细节已经在实施例一中进行了详细描述，故此处不再赘述。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

上述实施例提供的一种基于对比学习的网页图卷积文档排序方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：任鹏杰;石超宇;任昭春;陈竹敏;颜强;
专利申请人：山东大学;