导航：首页> 运动；游戏；娱乐活动>网页处理方法、装置、电子设备及计算机可读存储介质

网页处理方法、装置、电子设备及计算机可读存储介质

文献发布时间：2024-05-31 01:29:11

技术领域

本申请涉及互联网技术，尤其涉及一种网页处理方法、装置、电子设备及计算机可读存储介质。

背景技术

在一些搜索场景中，用户在一些应用程序的搜索入口或者浏览器的搜索引擎中，输入搜索的关键词主题进行搜索查询来获取网页内容。应用程序或者浏览器就会根据用户输入的关键词显示出与关键词主题相关联的网页内容。但在通常情况下，网页内容中会出现部分与用户输入的关键词主题不相关的内容，例如一些引流、广告、推荐信息，这些与关键词主题不相关的内容称为网页噪音，网页噪音的出现降低了网页搜索内容的质量。

相关技术中针对网页的去噪，一方面，使用基于文本密度或文本分割的去噪方法，通过计算文本密度将网页内容进行粗粒度地分割，再对分割的网页内容分别进行噪音识别并进行网页去噪。这种粗粒度的分割会使分割的网页内容中存在部分有效网页内容也被误识别为噪音，从而影响最终的网页去噪效果。另一方面，这些去噪方法只适用于某些特定网页，针对不同种类的网页需要定制不同的去噪方法，不具备通用性。

发明内容

本申请实施例提供一种网页处理方法、装置及计算机可读存储介质，能够更细粒度地对网页进行噪音识别并进行网页去噪，提高网页内容的去噪效果，具有通用性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种网页处理方法，所述方法包括：

对待处理网页进行网页解析处理，得到所述待处理网页的网页内容；

对所述网页内容进行划分处理，得到所述网页内容包括的多个文档元素；

对每个所述文档元素进行多个维度的噪音识别处理，得到所述文档元素的多个维度的噪音标记；

基于所述多个维度的噪音标记，对所述待处理网页进行基于视觉块的去噪处理，得到去噪网页。

本申请实施例提供一种装置，包括：

解析模块，用于对待处理网页进行网页解析处理，得到所述待处理网页的网页内容；

划分模块，用于对所述网页内容进行划分处理，得到所述网页内容包括的多个文档元素；

识别模块，用于对每个所述文档元素进行多个维度的噪音识别处理，得到所述文档元素的多个维度的噪音标记；

去噪模块，用于基于所述多个维度的噪音标记，对所述待处理网页进行基于视觉块的去噪处理，得到去噪网页。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令或计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或计算机程序时，实现本申请实施例提供的网页处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令或计算机程序，用于被处理器执行时实现本申请实施例提供的网页处理方法。

本申请实施例提供一种计算机程序产品，包括计算机可执行指令或计算机程序，所述计算机可执行指令或计算机程序被处理器执行时，实现本申请实施例提供的网页处理方法。

本申请实施例具有以下有益效果：

通过本申请实施例，对待处理网页进行网页解析处理得到网页内容，再对所述网页内容进行划分得到每个网页内容包括的多个文档元素，来对网页内容进行细粒度地划分。接下来对每个文档元素进行多个维度的噪音识别，得到噪音标记，通过多维度的噪音识别来对细粒度的文档元素进行更准确地噪音标记。最后利用文档元素的噪音标记对网页进行基于视觉块的去噪。由此实现了从文档元素粒度的噪音识别到视觉块粒度的去噪过程，提高了网页去噪效果。此外，本申请实施例是对待处理网页直接进行网页解析，再进行噪音识别并去噪，无需针对不同的特定网页定制不同的去噪方法，具有通用性。

附图说明

图1是本申请实施例提供的网页处理系统架构的结构示意图；

图2是本申请实施例提供的服务器200的结构示意图；

图3A至图3M是本申请实施例提供的网页处理方法的流程示意图；

图4是本申请实施例提供的网页搜索结果的示意图；

图5是本申请实施例提供的网页搜索结果中的网页噪音示意图；

图6是本申请提供的页面噪音识别的示意图；

图7是本申请实施例提供的页面去噪多维度策略模型的示意图；

图8是本申请实施例提供的网页去噪方法的流程图；

图9是本申请实施例提供的噪音模板挖掘的原理图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一第二第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一第二第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)超文本标记语言(Hyper Text Markup Language，HTML)，是一种标记语言。它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字，图形、动画、声音、表格、链接等。

2)文档对象模型(Document Object Model，DOM)，是一种用于表示网页文档对象的标准模型，实质上属于一种应用程序接口。在网页中，通过文档对象模型将网页的组织页面或文档的对象解析成一个树形结构，这个树形结构就被称为文档对象模型树，简称DOM树。通过遍历DOM树上的任何节点，就可以访问到网页上所有的内容元素。

3)视觉块，是一种基于自然视觉范围或在视觉范围下的设定范围的矩形划分单位。一般用于针对通用的图文类型的目标进行划分，所以也称为图文视觉块。例如，将某文本或网页划分为多个视觉块，即是以自然视觉范围(如显示区域范围)为单位，将文本或网页划分为多个视觉块，每个视觉块包括文本或网页的一部分。

本申请实施例提供一种网页处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品，能够更细粒度地对网页进行噪音识别并进行网页去噪，提高网页内容的去噪效果，具有通用性。

下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑、平板电脑，台式计算机、机顶盒、移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能手机、智能音箱、智能手表、智能电视、车载终端等各种类型的用户终端，也可以实施为服务器。

参见图1，图1是本申请实施例提供的网页处理系统100的架构示意图，包括终端400、网络300、服务器200。终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400上运行着与搜索功能有关的应用程序(Application，APP)，例如可以是即时通信APP、阅读APP、视频APP、游戏APP，或者其他的具有搜索功能的软件程序。用户在终端400的应用程序的搜索功能入口中输入搜索关键词后通过网络300发起网页请求，来获取网页内容。服务器200收到终端400发起的网页请求，就会生成与搜索关键词相关联的网页，将网页作为待处理网页，对待处理网页进行网页解析处理得到网页内容，继而对网页内容进行划分处理，得到多个文档元素。接下来对每个文档元素进行多个维度的噪音识别处理，得到文档元素的多个维度的噪音标记，最后基于多个维度的噪音标记，对待处理网页进行基于视觉块的去噪处理，得到去噪网页。此时再将去噪网页通过网络300返回到终端400，用户在终端400的应用程序上就可以浏览到去噪网页对应的网页内容。

在一些实施例中，当用户在终端400的应用程序的搜索功能入口中输入搜索关键词后发起网页请求，来获取网页内容时，终端400可以直接响应用户的网页请求，生成与搜索关键词相关联的网页，将网页作为待处理网页，对待处理网页进行网页解析处理得到网页内容，继而对网页内容进行划分处理，得到多个文档元素。接下来对每个文档元素进行多个维度的噪音识别处理，得到文档元素的多个维度的噪音标记，最后基于多个维度的噪音标记，对待处理网页进行基于视觉块的去噪处理，得到去噪网页。终端400直接在应用程序中显示对应的去噪网页，呈现给用户进行预览。

在一些实施例中，图1所示的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

本申请实施例可以借助人工智能(Artificial Intelligence，AI)技术实现，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

以本申请实施例提供的服务器为例，例如可以部署在云端的服务器集群，从而向用户或开发者开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城，所有的用户或开发者都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，云端的服务器封装有本申请实施例提供的网页处理方法的程序。用户通过终端(终端运行有APP，例如即时通信APP、阅读APP等)调用云服务中的网页处理服务，以使部署在云端的服务器调用封装的网页处理方法的程序。用户在终端的应用程序的搜索功能入口中输入搜索关键词并发起网页请求时，云端的服务器收到终端发起的网页请求，就会生成与关键词相关联的待处理网页，对待处理网页进行网页解析处理得到网页内容，继而对网页内容进行划分处理，得到多个文档元素，接下来对每个文档元素进行多个维度的噪音识别处理，得到文档元素的多个维度的噪音标记，最后基于多个维度的噪音标记，对待处理网页进行基于视觉块的去噪处理，得到去噪网页。此时再将去噪网页返回到终端，用户在终端的应用程序上就可以浏览到去噪网页的网页内容。

参见图2，图2是本申请实施例提供的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(Digital Signal Processor，DSP)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(Random Access Memory，RAM)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus，USB)等；

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的网页处理装置453，其可以是程序和插件等形式的软件，包括以下软件模块：解析模块4531、划分模块4532、识别模块4533、去噪模块4534，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的网页处理方法。

参见图3A，图3A是本申请实施例提供的网页处理方法的流程示意图，以图1中所示的服务器200为执行主体，将结合图3A示出的步骤进行说明。

在步骤101中，对待处理网页进行网页解析处理，得到待处理网页的网页内容。

在一些搜索场景中，当在一些应用程序的搜索入口或者浏览器的搜索引擎中，输入搜索的关键词主题进行搜索查询时，就会根据输入的关键词显示出与关键词主题相关联的HTML网页。此时，将HTML网页作为待处理网页，待处理网页中可能包含部分与输入的关键词主题不相关的内容，例如一些引流、广告、推荐信息，这些与关键词主题不相关的内容称为网页噪音。要去除待处理网页中的噪音内容，就需要提取待处理网页的网页内容。本申请实施例中通过文档对象模型来对待处理网页进行网页解析处理，得到待处理网页的网页内容。

在一些实施例中，参见图3B，图3A示出的步骤101还可以通过以下步骤1011至步骤1013实现，下面具体说明。

在步骤1011中，遍历待处理网页的多个网页结构元素，将遍历到的网页结构元素确定为一个节点。

在一些实施例中，通过对待处理网页进行网页解析处理可以通过文档对象模型来实现，利用文档对象模型将待处理网页的网页结构解析成一个DOM树。首先需要确定遍历待处理网页的多个网页结构元素，将遍历到的网页结构元素确定为一个节点。待处理网页是以很多网页结构元素构成的，这些网页结构元素可以是网页标签、网页标记或者文本。这里以网页标签为例，由于网页中每个网页标签包含的内容共同组成待处理网页的网页内容。所以本申请实施例可以遍历待处理网页中所有的网页标签，然后将遍历到的每个网页标签都看作DOM树上的节点。

在步骤1012中，基于节点构建待处理网页的结构树。

承接上述实施例，在将遍历到的网页结构元素确定为一个节点之后，基于节点构建待处理网页的结构树。由于待处理网页中的网页标签都是嵌套的，有对应的嵌套关系，例如一个标签里面包括多个一级子标签，每个一级子标签又包括多个二级子标签，依次类推。所以，这里将所有的网页标签都作为节点后，再将这些网页标签的子标签作为对应节点的子节点，依次类推，直到某个节点不存在子节点。如此将所有的节点及其节点的子节点进行关联，最终得到一个DOM树，即待处理网页的结构树。结构树中完整地保留并体现了待处理网页的网页结构，用于后续针对节点逐一进行网页内容提取。

在步骤1013中，分别对结构树中的每个节点进行内容提取处理，得到待处理网页的网页内容。

在构建待处理网页的结构树后，再分别对结构树中的每个节点进行内容提取处理，得到待处理网页的网页内容。结构树中每个节点包括待处理网页的网页标签，而每个网页标签对应有待处理网页的网页内容，例如文本标签(text标签、p标签、title标签)对应的文本内容、图片标签(img标签)对应的图片内容、表格标签(table标签、tr标签、td标签)对应的表格文本内容等等。所以可以分别对结构树中的每个节点进行内容提取，从而得到节点对应网页标签的网页内容。

此外，因为网页内容的类型不一，针对图片标签对应的图片内容，可以使用光学字符识别的方法提取出图片的文本信息，针对表格标签(table标签、tr标签、td标签)对应的表格内容，直接提取出表格中的所有文本信息即可。如此可以将提取处理的网页内容统一为文本形式。

在一些实施例中，对结构树中的每个节点进行内容提取，还可以采用一些无监督的学习方法对节点的网页内容进行内容提取，其中，无监督的学习方法可以是聚类算法，例如可以是K均值(K-means)聚类算法或基于密度的噪声应用空间聚类(Density-BasedSpatial Clustering of Applications with Noise，DBSCAN)算法。这些聚类算法可以对节点中的网页内容进行自动聚类，聚类得到的结果就可以作为提取的网页内容，由此也可以实现网页内容的有效提取。

继续参见图3A，在步骤102中，对网页内容进行划分处理，得到网页内容包括的多个文档元素。

在一些实施例中，考虑到某些网页噪音(与关键词主题不相关的内容)可能以文本或图片的形式嵌套在有效网页内容(与关键词主题相关的网页内容)中，直接对网页内容进行粗略的划分来实现噪音识别，会产生误判识别效果差。而在对网页进行解析时，图片和表格等网页内容也统一成文本形式，为了更细粒度地对网页噪音进行识别，本申请实施例中对网页内容进行划分处理，得到网页内容包括的多个文档元素，其中，文档元素可以是一个文本段落、一个句子甚至为一个词，为后续基于文档元素粒度进行噪音识别提供基础。

在一些实施例中，参见图3C，图3A示出的步骤101还可以通过以下步骤1021至步骤1023实现，下面具体说明。

在步骤1021中，基于网页内容中的符号标识，对网页内容进行划分处理，得到网页内容的多个句子。

由于待处理网页在结构树的节点中提取出的网页内容都统一为文本形式，所以可以基于网页内容中的符号标识，对网页内容进行划分处理，得到网页内容的多个句子。其中，符号标识可以是文本中的句号、分号、空格或者空行。利用这些符号标识，可以将网页内容划分为多个句子。

在步骤1022中，获取每个句子的位置坐标。

对网页内容进行划分处理，得到网页内容的多个句子后，接下来再获取每个句子的位置坐标。因为待处理网页的网页页面大小都设置有宽高，页面的宽高通过像素(Pixel，px)单位表示，例如某网页的页面大小为“200px*150px”)，即表示页面的宽有200个像素单位，高有150个像素单位。所以这里的位置坐标可以是句子当前所在网页位置处的像素位置。每个句子在待处理网页中都有对应的像素位置，例如左上，右侧，底部等。这里可以将每个句子的首个字符作为标准，将首个字符的像素位置确定为所在句子的位置坐标。

示例的，某网页的页面大小为“200px*150px”，即表示页面的宽有200个像素单位，高有150个像素单位。此时句子1的首个字符在网页页面的正中间，那么首个字符当前所在网页位置处的像素位置为(100px，75px)，由此句子1的位置坐标即为(100，75)。而句子2属于网页的标题，在网页页面中是置顶居中的，那么句2的位置坐标即为(100、0)。

在某些通过网格布局设计的待处理网页中，每个网格都有对应的排列位置，可以直接将网格中某些句子的排列位置坐标作为句子的位置坐标。

在步骤1023中，将位置坐标相邻的句子组合为文档元素。

获取每个句子的位置坐标之后，再将位置坐标相邻的句子组合为文档元素。因为位置坐标相邻的句子可能同属于一个文本段落或者同一部分文本，所以可以将位置坐标相邻的句子组合为文档元素，这里的文档元素可以是文本段落，也可以是网页内容的一部分文本。此外，考虑到文本之间可能存在空格或者换行，所以某些句子之间的位置坐标并不相邻，但这些句子仍然可能属于同一段落或者同一部分文本。所以本申请实施例中还可以计算出每个句子之间的位置坐标差异，将位置坐标差异不大于差异阈值的多个句子看作同一文本段落或者同一部分文本。

通过上述步骤102，对待处理网页的网页内容进行划分，得到多个文档元素，为后续针对文本元素进行噪音识别提供基础，相较于通过文本密度进行粗粒度的网页内容分割，本申请实施例中实现了对网页内容进行更细粒度的划分。

继续参见图3A，在步骤103中，对每个文档元素进行多个维度的噪音识别处理，得到文档元素的多个维度的噪音标记。

在对待处理网页的网页内容进行划分，得到多个文档元素后，就可以对每个文档元素进行多个维度的噪音识别处理，得到文档元素的多个维度的噪音标记。这里，多个维度的噪音识别处理实质上是从网页内容的多个特征属性上进行噪音识别，其中特征属性包括文本内容特征、标签特征。在文本内容特征的基础上，可以对文档元素进行语义噪音识别以及标签噪音识别，从而构建得到对应的语义噪音标记、标签噪音标记。在标签特征的基础上，可以对文档元素进行标签噪音识别，从而构建得到对应的标签噪音标记。所以最终得到的文档元素的多个维度的噪音标记包括：语义噪音标记、标签噪音标记、模板噪音标记。下面具体介绍每个维度的噪音识别过程。

在一些实施例中，参见图3D，图3A示出的步骤103还可以通过以下步骤1021至步骤1023实现，下面具体说明。

在步骤1031中，对每个文档元素进行语义噪音识别处理，得到文档元素的语义噪音标记。

首先，当文档元素的多个维度的噪音标记为语义噪音标记时，此时对每个文档元素进行语义噪音识别处理，得到文档元素的语义噪音标记。针对每个文档元素，提取出文档元素的文本特征，然后对文本特征进行噪音预测得到文档元素属于噪音的概率，通过概率来判断文档元素是否为噪音，并为确定为噪音的文档元素构建语义噪音标记。

在一些实施例中，参见图3E，图3D示出的步骤1031还可以通过以下步骤10311至步骤10313实现，下面具体说明。

在步骤10311中，对文档元素包括的文本进行语义特征提取处理，得到文档元素的文本特征。

针对网页内容中的每个文档元素，对文档元素包括的文本进行语义特征提取处理，得到文档元素的文本特征。其中语义特征提取可以调用文本编码器来实现，通过文本编码器对文档元素对应的文本进行编码处理就可以得到文本特征。这里的文本特征可以为文档元素的属性特征，具体可以为文本语义特征、文本情感特征，然后将这些特征组合为属性特征集合，作为文本特征。

在步骤10312中，对文本特征进行噪音预测处理，得到文档元素属于噪音的概率。

获取到文档元素的属性特征之后，就可以对文本特征进行噪音预测处理，得到文档元素属于噪音的概率。在本申请实施例中，可以预先训练一个二分类器，用于对文本特征进行噪音预测，用以识别文档元素是否为噪音。二分类器将噪音识别问题建模成一个二分类问题，可以通过贝叶斯定理来实现。首先确定分类结果为0，1，其中，0表示噪音，1表示非噪音。为了估计出文档元素在分类结果的条件概率(后验概率)，通过采用贝叶斯定理，计算在给定分类结果的情况下，文档元素的概率分布，也即似然概率，同时确定文档元素在分类结果的先验概率和边缘概率，最后确定似然概率与先验概率的乘积，并通过乘积与边缘概率的比值来确定出文档元素在分类结果的条件概率。通过不断收集噪音样本来训练这个二分类器，使得通过贝叶斯定理计算出的噪音样本的条件概率最大，当条件概率最大时，停止二分类器的训练。训练后的二分器即可用于对文本特征进行噪音预测处理，得到文档元素对应的条件概率(后验概率)，也即文档元素属于噪音的概率。

在步骤10313中，当概率大于第一概率阈值时，为文档元素构建语义噪音标记。

承接上述实施例，通过调用训练的二分类器对文本特征进行噪音预测处理，得到文档元素属于噪音的概率后，即可根据这个概率来确定文档元素是否属于噪音。可以设定一个第一概率阈值，例如0.5，来确定这个概率是否可以表征文档元素为噪音。当概率大于第一概率阈值时，为文档元素构建语义噪音标记。这里当概率大于第一概率阈值0.5时，说明此时文档元素可能属于噪音，则为识别为噪音的文档元素构建语义噪音标记。当概率不大于第一概率阈值时，说明此时文档元素不可能属于噪音，则无需为文档元素构建语义噪音标记。

在一些实施例中，针对语义维度上的噪音识别，可以采用基于图模型的噪音识别方法，可以预先为结构树中每个节点分配一个权重，以表示节点在网页内容中的重要程度。权重根据节点对应的标签类型、标签的属性以及其他样式信息来计算。例如，可以为标题标签(如

、

等)分配相对其他标签高的权重，例如为0.8，而为一些辅助性标签(如
、
等)分配相对标签低的权重，例如为0.2，具体的权重分配方法可以根据实际需求进行调整。
通过构建网页内容的图模型，然后确定每个文档元素在结构树上的节点，利用节点之间的连接关系(利用文档元素之间的语义相关关系)和节点的权重来对节点进行分类，从而识别节点对应的文档元素是否为噪音，分类可以采用一些分类器来实现，例如支持向量机或者决策树等。
继续参见图3D，在步骤1032中，对每个文档元素进行标签噪音识别处理，得到文档元素的标签噪音标记。
当文档元素的多个维度的噪音标记为标签噪音标记时，此时对每个文档元素进行标签噪音识别处理，得到文档元素的标签噪音标记。针对每个文档元素，在待处理网页的结构树中，确定出文档元素对应的节点，然后确定节点对应的网页标签是否存在于预设的噪音标签集合中。当噪音标签集合中包括节点对应的网页标签，则判断节点对应的文档元素为噪音，并为文档元素构建标签噪音标记。
在一些实施例中，参见图3F，图3D示出的步骤1032还可以通过以下步骤10321至步骤10323实现，下面具体说明。
在步骤10321中，从待处理网页对应的结构树的节点中，确定出文档元素对应的第一目标节点。
由于网页内容是从结构树的每个节点中提取出来的，所以网页内容的每个文档元素都可以从结构树中找到对应节点。于是可以从待处理网页对应的结构树的节点中，确定出文档元素对应的第一目标节点。针对每个文档元素，都可以从待处理网页的结构树中，确定出文档元素是从哪个节点中提取出来的，由此每个文档元素都可以在结构树中确定出一个对应的第一目标节点。
在步骤10322中，获取噪音标签集合，其中，标签噪音集合包括多个网页标签。
承接上述实施例，在待处理网页的结构树中，确定出每个文档元素对应的第一目标节点后，即可从第一目标节点中确定出文档元素对应的至少一个网页标签。而在对待处理网页进行网页解析处理之前，可以预先获取噪音标签集合，其中，标签噪音集合包括多个网页标签。通过收集大量的噪音网页的常见网页标签可以构建一个噪音标签集合。比如广告类标签“”、弹窗类标签“”和赞助内容类标签“”等噪音标签，这些标签都是噪音网页内容常见的网页标签，只要网页中存在这些网页标签就可以确定出网页中存在噪音，通过不断将这些噪音网页的常见网页标签收集起来，就可以构建一个噪音标签集合。
在步骤10323中，当噪音标签集合包括第一目标节点的网页标签时，为第一目标节点对应的文档元素构建标签噪音标记。
当获取到噪音标签集合以及从结构树的节点中确定出文档元素对应的至少一个网页标签后，就可以确定文档元素对应的网页标签是否存在于噪音标签集合中，当噪音标签集合包括第一目标节点的网页标签时，为第一目标节点对应的文档元素构建标签噪音标记。当噪音标签集合包括第一目标节点的网页标签时时，说明文档元素对应的网页标签存在于噪音标签集合中，则确定出这个文档元素属于噪音，并为这个文档元素构建标签噪音标记。当噪音标签集合不包括第一目标节点的网页标签时，说明文档元素对应的网页标签不存在于噪音标签集合中，则确定出这个文档元素不属于噪音，无需构建标签噪音标记。
继续参见图3D，在步骤1033中，对每个文档元素进行模板噪音识别处理，得到文档元素的模板噪音标记。
当文档元素的多个维度的噪音标记为模板噪音标记时，此时对每个文档元素进行模板噪音识别处理，得到文档元素的模板噪音标记。模板噪音识别首先需要获取噪音词典，针对每个文档元素，确定文档元素与噪音词典的相似度，继而判断文档元素是否为噪音，并为确定为噪音的文档元素构建模板噪音标记。
在一些实施例中，参见图3G，图3D示出的步骤1033还可以通过以下步骤10331至步骤10333实现，下面具体说明。
在步骤10331中，获取噪音词典，其中，噪音词典包括至少一个噪音匹配模板。
要对每个文档元素进行模板噪音识别处理，就需要构建噪音模板来与文档元素进行匹配。但噪音模板不是固定的，需要不断进行完善。本申请实施例通过获取噪音词典，噪音词典包括至少一个噪音匹配模板。通过多个噪音匹配目标构建的噪音词典，可以不断收集噪音数据来扩充噪音词典以进行完善。所以可以利用不断完善的噪音词典来匹配文档元素，以确定文档元素是否为噪音。下面介绍构建噪音词典的过程。
在一些实施例中，参见图3H，图3G示出的步骤10331还可以通过以下步骤103311至步骤103314实现，下面具体说明。
在步骤103311中，获取噪音网页样本，并对噪音网页样本进行去重处理，得到噪音网页集合。
在构建噪音词典时，首先需要获取噪音网页样本，并对噪音网页样本进行去重处理，得到噪音网页集合。噪音网页样本可以通过一些公众号收集历史网页文本来收集，这里可以利用一些过滤封禁或者发文数过少的公众号账号。因为这些公众号所发出的网页内容一般都为网页噪音，例如含有各种大量的广告、推荐信息以及引流内容。针对这些公众号可以对其中所发布的网页内容进行采样，作为噪音网页样本。
考虑到采样得到的噪音网页样本可能具有重复的内容，例如内容描述同一种广告或者推荐信息，所以本申请实施例还针对采样的噪音网页样本进行去重处理，这里去重处理可以采用指纹过滤的方法。指纹过滤的方法实质上是通过比较文本相似度来确定相同文本，可以基于每个噪音网页样本构建一个指纹，作为样本的标识，指纹实质上是噪音网页样本中的部分字符串。相同指纹的噪音网页样本则认为是相同的噪音网页样本。对采样的所有噪音网页样本统一进行指纹过滤，如此可得到噪音网页集合。
在步骤103312中，从噪音网页集合中，确定出第一文档元素集合，其中，第一文档元素集合包括多个噪音文档元素。
承接上述实施例，因为对文档元素(例如可以是文本段落或者句子)进行噪音识别，所以本申请实施例中从噪音网页集合中，确定出第一文档元素集合，其中，第一文档元素集合包括多个噪音文档元素(例如可以是噪音文本段落或者噪音网页内容的一部分)。针对噪音网页集合中的每个噪音网页，也可以使用符号标识对噪音网页的网页内容进行内容提取再划分，得到噪音网页的多个噪音文档元素，如此即可从噪音网页集合中，确定多个噪音文档元素，并将所有的噪音文档元素组合得到第一文档元素集合。
在步骤103313中，对第一文档元素集合包括的噪音文档元素进行归一化处理，得到第二文档元素集合。
承接上述实施例，确定第一文档元素集合，再对第一文档元素集合包括的噪音文档元素进行归一化处理，得到第二文档元素集合。为了便于后续文档元素的匹配，本申请实施例中对第一文档元素集合包括的每个噪音文档元素进行归一化处理，这里归一化处理为：将第一噪音文档集合中的每个噪音文档元素区分为文本和图片，对于图片归一化处理成图像对应的资源(Source，src)地址。对于文本则进行文字归一化，具体为变更英文文本的大小写(大写统一变更为小写)、文字字体的繁简(中文文本的繁体字变更为简体字)、去掉所有文本的标点符号。具体的，如英文文本中的字母大写统一处理成对应的小写，中文文本中的繁体字统一处理成对应的简体字、去除所有文本的标点符号。如此，每个噪音文档元素都进行归一化处理，将噪音文档元素都统一变成纯文本的形式，并将归一化处理后的得到的噪音文档元素组合为第二文档元素集合。
在步骤103314中，对第二文档元素集合中的噪音文档元素进行聚类处理，得到噪音词典。
承接上述实施例，接下来再对第二文档元素集合中的噪音文档元素进行聚类处理，得到噪音词典。通过使用聚类算法(如DBSCAN算法)，对第二文档元素集合中的噪音文档元素进行聚类。因为噪音文档元素数量很多，可能存在部分噪音文档元素的类型相似，例如广告类、推荐类、文注类。可以将这些噪音文档元素进行聚类得到多个类，然后针对每个类的噪音文档元素可以构建为一个噪音匹配模板，如此可以得到多个噪音匹配模板，例如广告引导模板、推荐语模板、文注模板等。最终将所有的噪音匹配模板组合得到噪音词典。
继续参见图3G，在步骤10332中，确定文档元素与噪音词典之间的相似度。
在一些实施例中，参见图3I，图3G示出的步骤10332还可以通过以下步骤103321至步骤103324实现，下面具体说明。
在步骤103321中，确定文档元素对应的第一字符序列以及噪音词典对应的第二字符序列。
获取到噪音词典后，就可以计算文档元素与噪音词典之间的相似度，来实现文档元素与噪音词典的匹配，继而确定文档元素是否为噪音。文档元素与噪音词典之间的相似度通过两个相似度来确定，首先将文档元素与噪音词典都看作一个字符序列，即确定文档元素对应的第一字符序列以及噪音词典对应的第二字符序列，第一相似度根据两个字符序列的公共子串个数来确定，第二相似度根据两个字符序列的字符编辑距离来确定。
在步骤103322中，基于第一字符序列与第二字符序列之间的公共子串个数，确定文档元素与噪音词典之间的第一相似度。
针对第一相似度，首先需要确定第一字符序列与第二字符序列之间的公共子串个数，其中，公共子串为第一字符序列与第二字符序列共有的连续字符(例如一个词语或者一个句子)。接下来再基于第一字符序列与第二字符序列之间的公共子串个数，确定文档元素与噪音词典之间的第一相似度。
具体的，可以通过一些匹配算法来确定第一字符序列与第二字符序列之间的公共子串，并统计公共子串的个数，然后再分别确定第一字符序列与第二字符序列的序列长度，通过比较确定出其中序列长度小的字符序列的序列长度，再将公共子串个数与序列长度小的字符序列对应序列长度的比值，作为第一相似度。
示例的，某文档元素对应的第一字符序列的序列长度为5，噪音词典对应的第二字符序列的序列长度为20，则确定序列长度小的字符序列为第一字符序列，同时确定第一字符序列与第二字符序列之间的公共子串个数为3，则将公共子串个数3与第一字符序列长度5的比值作为第一相似度，即0.6。
在步骤103323中，基于第一字符序列与第二字符序列之间的字符编辑距离，确定文档元素与噪音词典的第二相似度。
针对第二相似度，首先需要确定第一字符序列与第二字符序列之间的字符编辑距离，其中，字符编辑距离为第一字符序列与第二字符序列互相转换时的单字符编辑操作次数。接下来再基于第一字符序列与第二字符序列之间的字符编辑距离，确定文档元素与噪音词典之间的第二相似度。
具体的，先通过一些字符串操作函数或者算法来计算第一字符序列与第二字符序列之间的字符编辑距离，然后再分别确定第一字符序列与第二字符序列的序列长度，通过比较确定出其中序列长度大的字符序列的序列长度，再将字符编辑距离与序列长度大的字符序列对应序列长度的比值，作为第二相似度。
示例的，某文档元素对应的第一字符序列的序列长度为5，噪音词典对应的第二字符序列的序列长度为20，则确定序列长度大的字符序列为第二字符序列，同时确定第二字符序列转换为第一字符序列需要删除15个字符，即需要执行15次删除操作次数。相应地，第一字符序列转换为第二字符序列需要新增15个字符，即需要执行15次添加操作次数。由此确定第一字符序列与第二字符序列之间的字符编辑距离互相转换时所需单字符编辑操作次数为15，即字符编辑距离为15。最后将字符编辑距离15与第二字符序列长度20的比值作为第二相似度，即0.75。
在步骤103324中，对第一相似度与第二相似度进行加权求和，得到文档元素与噪音词典的相似度。
确定第一相似度与第二相似度之后，可以预设一个权重，用于平衡第一相似度和第二相似度，防止其中一个相似度很大，另一个相似度很小，对最终的相似度的准确性造成影响。所以可以通过预设权重，对第一相似度与第二相似度进行加权求和，得到文档元素与噪音词典的相似度。即通过预设第一权重对第一相似度进行加权，再通过预设第二权重对第二相似度进行加权，最后将两个加权结果进行求和，得到文档元素与噪音词典的相似度，其中，第一权重和第二权重的和可以是1。
示例的，文档元素与噪音词典的第一相似度为0.6，第二相似度为0.75，则可以对第一相似度0.6预设权重为0.6，加权结果为0.36。并对第二相似度0.75预设权重为0.4，加权结果为0.3，最终得到文档元素与噪音词典的相似度为加权结果0.36与加权结果0.3的和，即0.66。
继续参见图3G，在步骤10333中，当相似度大于相似度阈值时，为文档元素构建模板噪音标记。
确定每个文档元素与噪音词典的相似度之后，也可以根据实际场景预设一个相似度阈值，例如0.6。当相似度大于相似度阈值时，为文档元素构建模板噪音标记。即通过相似度阈值来确定文档元素是否为噪音，当文档元素与噪音词典的相似度(例如0.66)大于相似度阈值(例如0.6)，说明文档元素与噪音词典相似，匹配成功则确定文档元素可能为噪音，并对文档元素构建模板噪音标记。当文档元素与噪音词典的相似度小于或等于相似度阈值，说明文档元素与噪音词典不相似，匹配失败则确定文档元素不可能为噪音，无需对文档元素构建模板噪音标记
需要说明的是，图3D所示的步骤1031、步骤1032、步骤1033的执行顺序不分先后，可以是串行执行也可以是并行执行的。在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。本申请实施例为了方便解释说明，所以针对不同的处理编排对应的步骤，但是不应视为对执行顺序的限定。
通过本申请实施例中图3D所示的步骤1031、步骤1032、步骤1033，从文档元素粒度上对文档元素进行语义噪音识别、标签噪音识别、模板噪音识别等三个维度的噪音识别处理。并且三个维度的噪音识别处理是串行或者并行的，只要有一个维度的噪音识别将文档元素识别为噪音，则可更准确地识别文档元素为噪音，相较于仅通过一种方式来进行噪音识别，能有效提高文档元素的噪音识别准确率。并且通过文本语义、噪音网页标签集合、噪音词典的设计，使得去噪方法具有很强的泛化性，能够广泛应用于各种不同的网页中，无需针对特征网页进行定制化去噪，还可以不断扩充和完善噪音网页标签集合以及噪音词典，降低了网页去噪的维度成本。
继续参见图3A，在步骤104中，基于多个维度的噪音标记，对待处理网页进行基于视觉块的去噪处理，得到去噪网页。
通过对每个文档元素进行多个维度的噪音识别处理，得到文档元素的多个维度的噪音标记后，便完成了在文档元素粒度上对待处理网页的噪音进行识别的过程，接下来为了提高去噪效率，将去噪过程从文档元素粒度扩大到视觉块粒度，所以本申请实施基于多个维度的噪音标记，对待处理网页进行基于视觉块的去噪处理，得到去噪网页，从视觉块粒度上来实现网页的去噪过程。
在一些实施例中，参见图3J，图3A示出的步骤104还可以通过以下步骤1041至步骤1043实现，下面具体说明。
在步骤1041中，确定待处理网页的至少一个视觉块，其中，视觉块包括至少一个文档元素。
首先需要确定网页的去噪单位，为了提高去噪效率，本申请实施例中将视觉块作为待处理网页的去噪单位，通过确定待处理网页的至少一个视觉块，以对每个视觉块进行噪音预测并进行去噪，其中，视觉块包括至少一个文档元素。视觉块的大小可根据实际场景来设定，例如根据待处理网页的总宽高大小来计算得到，或者根据终端的网页显示区域(网页的渲染区域)来分配视觉块的范围大小。
在步骤1042中，基于多个维度的噪音标记，对每个视觉块进行噪音识别处理，得到视觉块的去噪标记。
将待处理网页划分为多个视觉块后，考虑到视觉块中包括多个文档元素，每个文档元素都可能存在多个维度的噪音标记，所以本申请实施例中基于多个维度的噪音标记，对每个视觉块进行噪音识别处理，具体为在基于多个维度的噪音标记的基础上确定视觉块的噪音比例值，同时确定视觉块的语义相关性以及外观特征，并综合噪音比例值、语义相关性以及外观特征这三个特征项来识别视觉块是否为噪音，从而得到视觉块的去噪标记。
在一些实施例中，参见图3K，图3J示出的步骤1042还可以通过以下步骤10421至步骤10424实现，下面具体说明。
在步骤10421中，确定视觉块中文档元素的第一总数量、以及具有多个维度的噪音标记的文档元素的第二总数量，并将第二总数量与第一总数量的比值确定为噪音比例值。
在一些实施例中，可以通过确定视觉块的噪音比例值，来确定视觉块是否为噪音。由于视觉块中包括多个文档元素，每个文档元素可能存在多个维度的噪音标记，也可能不存在任何噪音标记，所以确定噪音比例值则需要确定噪音文档元素(具有多个维度的噪音标记的文档元素)在视觉块的所有文档元素中的占比。本申请实施例中通过确定视觉块中文档元素的第一总数量、以及具有多个维度的噪音标记的文档元素的第二总数量，并将第二总数量与第一总数量的比值确定为噪音比例值。具体的，先视觉块中文档元素的第一总数量(例如为20)，再统计具有多个维度的噪音标记的文档元素的第二总数量(例如为16)，最后将第二总数量(例如为16)与第一总数量(例如为20)的比值确定为噪音比例值，即为80％。
在另外一些实施例中，当确定视觉块的噪音比例值之后，可以预设一个噪音比例阈值，当视觉块的噪音比例值超过噪音比例阈值时，可以直接确定视觉块为噪音。
在步骤10422中，确定视觉块的语义相关性。
在一些实施例中，还可以确定视觉块的语义相关性，来确定视觉块是否为噪音。语义相关性综合了网页内容的位置特征和网页标签权重。对网页内容的位置特征和网页标签权重进行聚类可以得到视觉块的语义相关性，同时确定噪音网页内容的语义相关性标准(值)，当视觉块的语义相关性与噪音网页内容的语义相关性标准越接近，则确定视觉块越可能为噪音。
在一些实施例中，参见图3L，图3K示出的步骤10422还可以通过以下步骤104221至步骤104223实现，下面具体说明。
在步骤104221中，从待处理网页对应的结构树的节点中，确定出文档元素对应的第二目标节点。
由于确定视觉块的语义相关性，需要确定网页内容的位置特征和网页标签权重，所以通过视觉块中的文档元素定位到待处理网页结构树上对应的节点。所以本申请实施例中，针对视觉块中的每个文档元素执行以下处理：从待处理网页对应的结构树的节点中，确定出文档元素对应的第二目标节点。即从待处理网页对应的结构树的节点中，寻找包括文档元素的第二目标节点。
在步骤104222中，获取第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重。
承接上述实施例，确定视觉块中每个文档元素在结构树中的第二目标节点后，再获取第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重。
针对位置特征，首先针对每个文档元素，确定文档元素对应的第二目标节点在结构树中的深度，其中，深度为从结构树根节点(例如标签对应的节点)到当前第二目标节点的最短路径长度。然后确定第二目标节点在结构树中的兄弟节点列表中的位置，将位置与深度的比值作为第二目标节点的相对位置信息。
示例的，确定某个文档元素对应的第二目标节点在结构树中的深度为4，然后确定第二目标节点在结构树中的兄弟节点，例如第二目标节点的父节点有5个子节点，即第二目标节点有4个兄弟节点，而第二目标节点为父节点的第二个子节点，所以第二目标节点在结构树中的兄弟节点列表中的位置为2，最后将位置2与深度4的比值作为第二目标节点的相对位置信息，即0.5。
针对标签权重，则根据预先为结构树中每个节点分配的权重来确定。因为权重是根据节点在网页内容中的重要程度来设定，具体是根据节点对应的网页标签类型、网页标签的属性以及其他样式信息来计算得到的。节点的重要程度也决定了节点所包括的网页标签的重要程度，所以这里可以直接将第二目标节点的权重作为第二目标节点所包括的网页标签的标签权重。
在步骤104223中，对位置特征和标签权重进行聚类处理，得到视觉块的语义相关性。
确定第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重后，再对位置特征和标签权重进行聚类处理，得到视觉块的语义相关性。因为在视觉块中，两个文档元素之间越相近，则文档元素对应第二目标节点在结构树中的位置特征越相似(即两个文档元素之间越相近，说明对应的节点在结构树中是相邻的，可能属于兄弟节点)，第二目标节点中网页标签对应的标签权重也越相近甚至是相同(即在结构树中兄弟节点分配的节点权重是相同的)，所以可以将视觉块中所有文档元素对应的位置特征以及标签权重通过聚类手段进行聚类处理，并根据得到的聚类结果来确定视觉块的语义相关性指标。聚类处理可以采用一些无监督学习的聚类方法来实现，例如K-means聚类算法、DBSCAN聚类算法。
在一些实施例中，当确定视觉块的语义相关性之后，可以预先计算一些噪音网页内容的语义相关性，然后制定出一个噪音网页内容的语义相关性标准值，当视觉块的语义相关性对应的指标值与噪音网页内容的语义相关性标准值越接近，或者视觉块的语义相关性对应的指标值与语义相关性标准值的差异不大于差异阈值，则确定视觉块越有可能为噪音。
继续参见图3K，在步骤10423中，确定视觉块的外观特征，其中，外观特征包括视觉块的位置特征以及视觉块的属性特征。
在一些实施例中，要确定视觉块是否为噪音，还确定视觉块的外观特征，其中外观特征包括视觉块的位置特征以及视觉块的属性特征。针对视觉块的位置特征，可以确定视觉块在待处理网页中的位置，如视觉块在待处理网页的上、下、左、右四个方向上的边距，然后结合待处理网页的宽高，确定出视觉块的位置信息，例如可以是位置坐标，或者以上、下、左、右四个方向中的一个方向为标准，将视觉块在这个方向上的边距作为位置信息。针对属性特征，则可将视觉块中文档元素(文本段落)的字体大小、字体颜色、背景色等特征作为属性特征，再将这些属性特征映射为一个属性特征值。因为正常的网页内容一般字体大小都是相同的，字体颜色为标准的黑色、背景色为白色，而噪音网页内容为了吸引流量和与其他内容明显化，对应的文本可能具有各种不同的字体，字体颜色以及背景色都可能具有多种颜色。由此正常网页内容和噪音网页内容都可以将对应的属性特征映射为不同的属性特征值，作为视觉块的属性特征。所以可以将视觉块中文档元素(文本段落)的字体大小、字体颜色、背景色等特征作为属性特征，最后综合视觉块的位置特征(位置信息)和属性特征(属性特征值)，得到视觉块的外观特征，例如可以将视觉块的位置特征(位置信息)和属性特征进行拼接，得到视觉块的外观特征。
需要说明的是，图3K所示的步骤10421、步骤10422、步骤10423的执行顺序不分先后，可以是串行执行也可以是并行执行的。在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。本申请实施例为了方便解释说明，所以针对不同的处理编排对应的步骤，但是不应视为对执行顺序的限定。
在步骤10424中，基于噪音比例值、语义相关性以及外观特征，对视觉块进行噪音识别处理，得到视觉块的去噪标记。
在分别确定视觉块的噪音比例值、语义相关性以及外观特征，再基于噪音比例值、语义相关性以及外观特征，对视觉块进行噪音识别处理，得到视觉块的去噪标记。即通过综合视觉块的噪音比例值、语义相关性以及外观特征这三个特征项，可以对视觉块进行一个综合的噪音识别，下面具体说明。
在一些实施例中，参见图3M，图3K示出的步骤10424还可以通过以下步骤104241至步骤104243实现，下面具体说明。
在步骤104241中，将噪音比例值、语义相关性指标以及外观特征进行拼接处理，得到视觉块的拼接特征。
首先针对每个视觉块，可以将噪音比例值、语义相关性以及外观特征进行拼接处理，得到视觉块的拼接特征，其中，拼接处理可以是直接进行物理拼接。例如可以将噪音比例值映射为一个特征向量的形式，同时将语义相关性以及外观特征也分别映射为特征向量的形式进行表示，接下来可以对三个特征向量进行线性变换出来，以统一三个特征向量的特征维度，并对统一特征维度的三个特征向量进行物理拼接，得到视觉块的拼接特征。
在步骤104242中，对拼接特征进行预测处理，得到视觉块属于噪音的概率。
承接上述实施例，确定每个视觉块的拼接特征后，再对拼接特征进行预测处理，得到视觉块属于噪音的概率。其中，预测处理可以调用常见的分类算法实现，例如支持向量机、朴素贝叶斯、或者决策树等。通过分类算法直接对拼接特征进行预测处理，从而将拼接特征映射为一个概率值，作为视觉块属于噪音的概率。
在步骤104243中，当概率大于第二概率阈值时，为视觉块构建去噪标记。
当确定每个视觉块属于噪音的概率之后，可以预设一个第二概率阈值，来确定视觉块是否为噪音。当概率大于第二概率阈值时，为视觉块构建去噪标记。即当视觉块属于噪音的概率大于第二概率阈值时，说明确定视觉块中的网页内容存在噪音，此时对视觉块构建去噪标记，以用于去噪。当视觉块属于噪音的概率小于第二概率阈值时，说明确定视觉块中的网页内容不存在噪音，为有效网页内容，此时无需对视觉块构建去噪标记，也即无需对视觉块进行去噪。
继续参见图3J，在步骤1043中，对待处理网页中具有去噪标记的视觉块进行去噪处理，得到去噪网页。
通过对每个视觉块进行噪音识别并构建去噪标记后，即可对待处理网页中具有去噪标记的视觉块进行去噪处理，得到去噪网页。当根据输入的关键词主题渲染出与关键词主题相关联的待处理网页时，就可以对待处理网页中具有去噪标记的视觉块进行去噪处理，例如可以是直接去除或替换噪音视觉块对应的噪音网页内容，也可以将这些噪音网页内容渲染之后直接进行屏蔽，提取出原始待处理网页中的有效网页内容，得到去噪网页后再进行渲染。由此实现了对待处理网页进行视觉块状粒度的去噪，为搜索引擎提供高质量的搜索内容，方便构建网页索引。
通过上述步骤104，在确定文档元素粒度的基础上对每个文档元素进行噪音识别，并添加噪音标记。继而在去噪过程中将文档元素粒度扩大到视觉块状粒度。在文档元素的噪音标记基础上，结合视觉块的噪音比例、语义相关性、外观特征来综合确定视觉块的去噪标记，在提高视觉块噪音的识别准确率，也提高了网页去噪的效率。
通过本申请实施例中，对待处理网页的网页内容进行划分，得到多个文档元素，为后续针对文本元素进行噪音识别提供基础，相较于通过文本密度进行粗粒度的网页内容分割，本申请实施例实现了对网页内容更细粒度的划分。接下来从文档元素粒度上对文档元素进行语义噪音识别、标签噪音识别、模板噪音识别等三个维度的噪音识别处理，相较于仅通过单方式来进行噪音识别，能有效提高文档元素的噪音识别准确率。此外，通过文本语义、噪音网页标签集合、噪音词典的设计，使得去噪方法具有很强的泛化性，能够广泛应用于各种不同的网页中，无需针对特征网页进行定制化去噪，还可以不断扩充和完善噪音网页标签集合以及噪音词典，降低了网页去噪的维度成本。最后，在确定文档元素粒度的基础上对每个文档元素进行噪音识别，并添加噪音标记。继而在去噪过程中将文档元素粒度扩大到视觉块状粒度，提高了网页去噪的效率。在文档元素的噪音标记基础上，结合视觉块的噪音比例、语义相关性、外观特征来综合确定视觉块的去噪标记，进一步提高视觉块噪音的识别准确率。
下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些通用搜索引擎、搜一搜等业务场景中，高质量的索引内容对搜索体验至关重要。然而搜索得到的HTML网页(以下简称网页)通常是鱼龙混杂的，包含了广告、引流、推荐、无意义符号等与网页主题不相关的内容。如果将这些包含不相关内容的原始网页的所有信息建立搜索引擎的索引，会减小搜索主题的有效正文内容(即网页有效正文内容)的权重，影响搜索引擎所得到的网页内容最终的排序结果。
相关技术中，一方面通过各种方法来识别网页内容的噪音并去噪，比如通过正则匹配提取网页的有效正文内容，但未考虑正文内容的语义，提取准确率不高。也有通过计算网页中各个区域的文本密度，将密度较低的区域视为噪音并去除。这种方法属于粗粒度的方式，容易将网页的有效正文内容误判为噪音。此外，还有通过视觉分割的方法对网页内容进行区域分割并对每个分割区域进行识别分类，但视觉分割未考虑到网页内容的位置信息和结构信息，分类准确率低。另一方面，大多数方法都仅局限于特定的网页，针对不同的网页内容需要定制不同的去噪方法，不具备通用性。
基于以上场景，本申请实施例提供一种网页处理方法(由网页去噪方法实现)，构建了从原始网页至网页文本提取，对网页文本分句分段后进行页面噪音识别，最后去除网页噪音的解析系统流程。最终通过对原始网页进行噪音去除，提取出网页中有效正文内容，为搜索引擎提供高质量内容，以构建网页索引。
本申请实施例的网页去噪方法可以应用于大多数应用程序的具有搜索功能的入口或者网页搜索引擎中，如媒体、通信等应用程序的搜一搜功能入口中。如图4所示，左侧图是某通信应用程序中搜一搜的主要入口，中间为点击该入口进入后的主界面，右侧图为用户通过输入问题进行查询的网页外显结果，每一个查询结果和输入的问题都具有相关性，而一般将搜索结果自身的内容质量作为评估搜索结果好坏的依据，与输入问题越相关的搜索结果、以及内容质量越高的搜索结果理应排序靠前。因为部分高质量的网页正文内容会受到噪音分布的干扰，而使被检索到的搜索结果改变网页内容的排序，而影响根据搜索结果而构建的网页索引。示例的，如图5所示，在某应用程序中以输入问题“某城市city walk”为例，搜索之后得到如图5中的搜索结果，其中，501所示的“等你关注”和502所示的“阅读更多”即为在网页正文内容的搜索结果中出现网页噪音，这些网页噪音属于广告、引流、推荐信息等内容，与输入问题的主题“某城市city walk”不相关。因此，通过本申请实施例中提供的网页去噪方法，可以识别并去除网页内容中这些与输入问题的主题“某城市citywalk”不相关，属于广告、引流、推荐信息等内容。
参见图6，图6是本申请提供的页面噪音识别的示意图。如图6所示，页面噪音识别作为一个整体方案，包括语义噪音识别、噪音模板匹配，样式属性去噪等三个模块。其中，语义噪音识别一般用广告类、推荐类、文注类以及符号类等多种不同类型的网页内容。噪音模板匹配则是通过历史模板挖掘和正则模板生成的方法构建噪音模板，用于与网页内容进行匹配，以识别出噪音。而样式属性去噪则是利用网页内容的文字信号、样式信号、图片信号、页面分布信号这四类信号来分别提取网页内容的特征，从而利用特征来识别出网页内容的噪音。其中，网页内容的文字信号包括网页的字面文本、标点、段落字数，样式信号包括网页中文字字号、字色(字体颜色)、背景色、加粗文字、下划线文字、内容的超链(超链接)，图片信号包括网页内容中图片宽高、光学字符识别(Optical Character Recognition，OCR)信息、图片格式以及可能存在的二维码信息，页面布局新型号包括网页内容中文章段落数、图文密度、段落分布、页面分块。通过比对网页内容与噪音内容的这四类信号的特征，可以识别网页内容是否为噪音内容。
根据图6中的页面噪音识别的整体方案，在一些实施例中，还可以根据整体方案构建出一种页面去噪多维度策略模型，具体参见图7，图7是本申请实施例提供的页面去噪多维度策略模型的示意图。首先根据网页内容的四类信号可以构建不同的策略模型。
具体的，根据文字信号中网页的字面文本，一方面可以根据网页的类型构建一些模板作为噪音匹配模板，其中，模板可以包括广告引导模板、推荐语模板、文注模板、符号模板以及白名单模板，这些模板可以针对网页内容中的部分特定内容进行噪音模板匹配，从而识别出部分特定内容是否噪音。另一方面可以训练并构建一种模式类识别模型，模式类识别模型可以使用神经网络模型实现。如图7所示，在模式类识别模型中，将网页的字面文本切分为多个文本段落输入到模型，表示为W
如图7所示，根据文字信号(包括字面文本、标点、段落字数)、样式信号(包括网页的文字字号、字色、背景色、超链)、页面分布信号(包括文章段落数、段落分布)这三类信号还可以构建文字块策略模型。具体的，在文字信号中，根据字面文本构建的模板和模式类识别模型，可以识别出部分文字噪音并标记，文字块策略模型中可以将网页内容中内含标记噪音的部分内容作为依据，并且根据一些视觉块的字面文本还可以确定字面文本在块内外是否命中术语(term hit)，这些术语一般容易被识别为噪音。而文字信号中的标点，可以确定每段落的标点数。在样式信号中，根据字号、字色、背景色可以分别确定出与主体字号差异、与主体字色差异以及与主体背景色差异，而超链(即网页中的超链接)可以确定出超链占比，即占总链接的比例。在页面分布信号中，根据网页的段落分布可以确定网页内容是否位于结尾文注后、以及所处网页全文相对位置。根据文字信号、样式信号、页面分布信号确定出来的这些网页内容特征可以确定出策略，通过这些网页内容特征构建一个逻辑回归(Logistic，Regression，LR)模型作为文字块策略模型。
此外，根据图片信号(包括图片宽高、OCR信息、图片格式、二维码信息)和页面分布信号(包括文章段落数、段落分布)还可以构建图片策略模型。具体的，在图片信号中，根据图片宽高可以确定图片的特征，例如是否为扁条形、窄长形或者方形，或者确定图片是否过小(小于设定阈值)。图片格式可以确定图片是否为图形交换格式(Graphics InterchangeFormat，GIF)类型，而OCR信息可以直接对OCR文本进行噪音预测，例如预测OCR文本为噪音，基于二维码信息可以提取其中的二维码。在页面分布信号中，根据文章段落数和段落分布可以确定段落中的图片所在的全文相对位置，以及对图片的前后部分的内进行噪音预测，以识别出图片的前后序为噪音。类似的根据图片信号、页面分布信号确定出来的这些图片内容特征可以确定出策略，通过这些图片内容特征也可以构建一个逻辑回归(Logistic，Regression，LR)模型作为图片策略模型。
在图7中，文字信号中的字面文本所确定的模板，可以根据采集的噪音样本对这些模板扩充数据，不断对模板进行完善，并且这些模板可以泛化为模式类识别模型、而模型类识别模型可以泛化为文字块策略模型，即三者之间具有通用性可以根据不同的需求进行适配。同时通过人工标注数据可以不断对文字块策略模型进行优化，而图片策略模型也可以根据更多的模型扩充数据不断进行优化。通过页面去噪多维度策略模型，可以针对原始HTML网页内容进行多维度的噪音识别，并去除噪音。
参见图8，图8是本申请实施例提供的网页去噪方法的流程图，下面结合图8来具体说明本申请实施例提供的网页去噪方法。
在步骤801中，获取原始HTML网页。
在某应用程序的搜一搜入口或者网页搜索引擎中，当用户输入问题进行查询并显示网页外显结果后，从网页外显结果中获取原始HTML网页的文档，简称原始HTML网页。
在步骤802中，调用文档对象模型对原始HTML网页进行结构解析处理。
获取到原始HTML网页后，在调用文档对象模型(即DOM树模型)对原始HTML网页进行结果解析，将原始HTML网页的网页结构表示为树形结构，同时分析树形结构中各个节点的属性标签及属性信息。
具体的，首先利用DOM树模型对输入的原始HTML网页进行解析，使得原始HTML网页的网页结构被表示为一个树形结构。DOM树中的每个节点表示原始HTML网页中的一个元素(如标签、属性或文本)。解析的实现过程为：给定一个原始HTML网页，可以构建一个原始HTML网页对应的DOM树，简称为D。在构建DOM树的过程中，遍历原始HTML网页的所有元素，并为每个元素创建一个相应的节点作为文本节点。构建DOM树的方法如下公式(1)：
D＝f(H)(1)
上述公式(1)中，f()表示构建DOM树的函数。
在步803中，提取解析后的原始HTML网页中每个文本节点的网页内容。
基于构建的DOM树，分别提取原始HTML网页的DOM树中每个文本节点的文本内容作为初始正文，如果有图片内容则将图片作为媒体内容。这里可以通过遍历DOM树中的所有文本节点，提取遍历过程中每个文本节点的文本内容，然后将提取到的文本内容表示为一个文本集合Q＝q
在步骤804中，对网页内容中的文本内容进行分段分句，并提取每个段落或句子的属性特征，并依次或同步转入步骤805、806和步骤807。
提取原始HTML网页的网页内容后，接下来对网页内容中的初始正文(文本集合Q)进行分段和分句处理。根据原始HTML网页中的标签和标点符号将文本集合Q中的每个文本内容t
P＝g(Q)，其中，P＝p
上述公式(2)中，P表述段落划分所得到的段落集合，Q表述文本集合，p
通过以上步骤802至步骤804的处理过程，可以从获取的原始HTML网页H中提取出段落集合P，为后续的噪音识别和去噪处理提供基础。在执行完步骤804之后，依次或同步转入步骤805、806和步骤807。需要说明的是，步骤805、步骤806、步骤807，执行顺序不分先后，可以是串行执行也可以是并行执行的。在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。本申请实施例为了方便解释说明，所以针对不同的处理编排对应的步骤，但是不应视为对执行顺序的限定。
在步骤805中，对每个段落或句子进行语义噪音识别。
在执行完步骤804之后，可以转入执行步骤805。对于文本集合Q中的每个文本内容q
二分类器旨在识别和去除文本内容中的噪音内容。首先，通过步骤604将文本内容划分为段落，得到段落集合P，其中，P＝p
这里可以将分类问题建模为一个二分类问题，其中分类结果R取值为0，1，其中，0表示噪音，1表示非噪音。为了估计出段落载体T
上述公式(3)中，P(T
接下来，使用训练数据集(通过人工标注，含有文本和html标签的文本数据)，在训练数据集中，当载体是图片时，对应的文本内容为对图片进行光学字符识别所得到的内容和图片的上下文内容。先通过训练数据集估计似然概率P(T
通过求解这个最优化问题，在段落粒度上，可以识别出段落集合P里的所有噪音。给定文本集合Q中的文本内容q
而针对原始HTML网页中每个文本节点网页内容中的图片内容，本申请实施例使用预设的图像去噪器进行噪音标记。具体，使用光学字符识别技术提取图片中的文本内容，并结合图片上下文的语义、位置、尺寸、实际渲染宽高以及二维码标记等特征，训练一个图片分类器，作为图形去噪器。这个分类器可以识别出原始HTML网页中的横幅广告以及与网页初始正文无关的符号。给定一个图片m
在步骤806中，对原始HTML网页中文本节点的网页内容进行标签属性噪音识别。
在执行完步骤804之后，可以转入执行步骤806。标签属性噪音识别基于步骤802中得到的原始HT ML网页树形结构中各个节点的属性标签来实现，以对网页内容进行进一步的噪音标记。具体而言，首先获取DOM树中每个节点的标签属性信息，并根据预先收集的常见噪音标签进行识别。例如，当一个文本节点带有标签时，将其识别为广告噪音。类似地，还可以根据诸如(弹窗广告)或(赞助内容)等其他已知噪音标签，分别识别出弹窗噪音或赞助内容噪音。
设预先收集的网页内容中噪音标签集合为T
n
上述公式(5)中，I()为指示函数，用于指示满足条件时生成对应的取值，当条件满足时取值为1，否则取值为0。n
通过以上标签属性噪音识别方法，可以进一步识别和去除网页正文中的噪音内容，提高网页内容提取的准确性和干净度。同时，在实际业务场景中可以不断更新和扩充噪音标签集合T
在步骤807中，调用噪音模板对每个段落或句子进行噪音匹配识别(即模板噪音识别)。
在执行完步骤804之后，可以转入执行步骤807。
在一些业务场景中，还可以通过扩充后的历史噪音挖掘方法来识别噪音，通过调用预存储的历史数据模板，对当前网页内容进行模式匹配，以识别出其中的噪音并作噪音标记。针对某些应用软件中搜一搜的内容提供方(如公众号平台、小程序平台等)所提供的内容作为历史数据进行聚类分析。在这些内容的文章或者页面中，通常会有固定的信息(如每次文章开头的主体介绍、结尾的相关推荐等)，这些信息对内容理解没有用。通过采用DBSCAN聚类模型对历史数据进行聚类分析，从而挖掘出固定的噪音模板。
下面结合图9来说明历史噪音挖掘过程，图9是本申请实施例提供的噪音模板挖掘的原理图。如图9所示，首先通过一些公众号收集历史文章数据，可以采集一些过滤封禁或者发文数过少的公众号账号，因为这些公众号所发出的历史文章一般都为噪音。针对这些公众号可以对其中的文章进行采样，例如每个月采集30篇文章，得到一个采样文章集。接下来利用指纹过滤重复文章，也即对采样文章集进行去重，指纹过滤的方法实质上是通过文本相似度来确定相同文本，可以基于每个文章构建一个指纹，作为文章的标识，指纹实质上是文本中的部分字符串。相同指纹的文章则认为是相同的文章。对采样文章集过滤重复文章后，得到文章集合。接下来对文章集合中的文章进行拆分得到段落集合，并对段落集合进行段落处理。其中，段落处理将段落集合中的段落分为文本和图片，对于图片处理成图像对应的图片资源(S ource，src)地址。对于文本，则进行文字归一化，如变更文字的大小写、文字字体的繁简、去标点。具体的，如英文字母大写处理成对应的小写，繁体字处理成对应的简体字、去除所有的标点符号。如此，每个段落都被处理成了归一化段落，得到归一化段落集合。在对归一化段落集合中的所有段落利用聚类算法进行聚合，得到候选模板(pattern)集合再过滤无效模板，得到最终模板集合，作为噪音模板集合，也即噪音词典。随着不断利用公众号的历史发出文章进行文章采样，可以对噪音模板集合中的模板扩充数据。
噪音模板集合构建以后，当有待识别文章需要识别噪音，则将待识别文章拆分成多个待识别段落，然后对每个待识别段落进行段落处理，也即将段落集合中的段落分为文本和图片，对于图片处理成图像对应的资源地址。对于文本，则进行文字归一化，具体为变更文字的大小写、文字字体的繁简、去标点。最终得到归一化段落，最后将归一化段落于噪音模板集合进行模板匹配，如果匹配成功则确定归一化段落为噪音，如此可以对待识别文本的每个归一化段落进行噪音识别。具体的，噪音模板集合为M，这里M＝m
在上述过程中，计算语义相似度S(p
上述公式(6)中，其中
关于字符编辑距离，针对段落p
上述公式(7)中，其中
最后综合以上关于公共子串个数的相似度
上述公式(8)中，a是一个预设的权重参数，用于平衡两种相似度度量方法，
通过步骤807，对每个公众号账号的历史发出文章进行采样，挖掘出公众号账号下固定的某种模板模式，此类重复出现的模板可作为噪音词典，一旦其他文章中出现词典中的这些模板格式就识别为噪音，直接去除。
继续参见图8，在步骤808中，结合图文视觉块进行去噪。
通过上述步骤805、步骤806、步骤807的三个步骤，可以为网页内容中的文本内容的每个段落分别进行噪音识别并进行噪音标记，接下来则是去噪过程。在去噪过程中，将段落粒度放大到块状粒度，能够提高去噪的效率。首先根据视觉块中每个段落的噪音标记来确定视觉块是否为噪音。将网页内容划分为多个视觉块，每个视觉块包含一个或多个段落。设视觉块集合为B，其中，B＝b
对于每个视觉块b
进一步的，再结合HTML标签和DOM树信息，分析视觉块b
具体地，对于相对位置，首先计算DOM树中每个文本节点在DOM树中的深度。给定一个文本节点n
对于权重，首先DOM树中的每个文本节点分配一个权重，以表示文本节点在网页内容中的重要程度。权重根据节点的标签类型、属性以及其他样式信息来计算。例如，可以为标题标签(如
、
等)分配相对其他标签高的权重，而为一些辅助性标签(如
、
等)分配相对标签低的权重。具体的权重分配方法可以根据实际需求进行调整。对于每个视觉块b
通过以上分析，针对每个视觉块b
h(b
上述公式(9)中，coord(b
综合判断函数的综合分析过程如下：
对于噪音比例r
对于坐标信息coord(b
对于语义相关性sem(b
综合以上信息，构建一个综合特征向量V
V
上述公式(10)中，V
接下来使用一个分类模型(例如可以是支持向量机)对综合特征向量V
因此，综合判断函数h(b
h(b
通过以上综合判断函数h(b
在步骤809中，输出去噪后的网页。
通过上述步骤808，将网页内容的每个视觉块b
本申请实施例通过构建从原始HTML网页至文本提取的解析系统，结合DOM树、文本语义、标签信息和位置信息等多方面因素实现了噪音的识别并进行噪音去除。一方面，通过对原始页面所示提取的网页正文内容进行分段分句，再对每个句段的噪音进行识别并去除，能够更精细化去除噪音，粒度细致，不会直接暴力去除块状网页内容，降低了误判有效正文内容为噪音的风险，另一方面，通过结合文本语义、网页标签属性、噪音模板等方式来综合识别以去除噪音，充分考虑了文本的语义信息，能够更准确地识别和去除与网页主题不相关的噪音内容。在文本语义的基础上既结合了网页标签信息，又考虑了页面布局，实现了多层次的噪音过滤，提高了噪音去除的准确率和召回率。
综上所述，本申请实施例提出了一种精细化、结合文本语义和多维过滤的网页噪音去除方法，通过从原始HTML网页中提取有效正文内容，为搜索引擎提供高质量的内容建立索引。这将有助于提升搜索引擎的搜索质量和用户体验。
通过网页分句分段后的细粒度去噪处理，能够更准确地识别和去除网页中的噪音内容，降低误判有效正文内容为噪音的风险，从而提升了去噪结果的质量，解决了现有技术中页面去噪粒度粗、准确率低的问题。此外，本申请实施例综合了文本语义和网页标签信息设计分类器，具备很强的泛化性。相较于现有技术中需要针对不同网页站点进行定制化去噪的方法，本申请实施例能够适应各种网页结构的原始网页，降低了维护成本。并且通过多维过滤和综合考虑页面布局等因素，进一步提升了去噪器的通用性，使其能够广泛应用于不同类型的网页。
下面继续说明本申请实施例提供的网页处理装置453的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的网页处理装置453中的软件模块可以包括：解析模块4531，用于对待处理网页进行网页解析处理，得到待处理网页的网页内容；划分模块4532，用于对网页内容进行划分处理，得到网页内容包括的多个文档元素；识别模块4533，用于对每个文档元素进行多个维度的噪音识别处理，得到文档元素的多个维度的噪音标记；去噪模块4534，用于基于多个维度的噪音标记，对待处理网页进行基于视觉块的去噪处理，得到去噪网页。
在一些实施例中，解析模块4531，还用于遍历待处理网页的多个网页结构元素，将遍历到的网页结构元素确定为一个节点；基于节点构建待处理网页的结构树；分别对结构树中的每个节点进行内容提取处理，得到待处理网页的网页内容。
在一些实施例中，划分模块4532，还用于基于网页内容中的符号标识，对网页内容进行划分处理，得到网页内容的多个句子；获取每个句子的位置坐标；将位置坐标相邻的句子组合为文档元素。
在一些实施例中，识别模块4533，还用于对每个文档元素进行语义噪音识别处理，得到文档元素的语义噪音标记；对每个文档元素进行标签噪音识别处理，得到文档元素的标签噪音标记；对每个文档元素进行模板噪音识别处理，得到文档元素的模板噪音标记。
在一些实施例中，识别模块4533，还用于对文档元素包括的文本进行语义特征提取处理，得到文档元素的文本特征；对文本特征进行噪音预测处理，得到文档元素属于噪音的概率；当概率大于第一概率阈值时，为文档元素构建语义噪音标记。
在一些实施例中，识别模块4533，还用于从待处理网页对应的结构树的节点中，确定出文档元素对应的第一目标节点；获取噪音标签集合，其中，标签噪音集合包括多个网页标签；当噪音标签集合包括第一目标节点的网页标签时，为第一目标节点对应的文档元素构建标签噪音标记。
在一些实施例中，识别模块4533，还用于获取噪音词典，其中，噪音词典包括至少一个噪音匹配模板；确定文档元素与噪音词典之间的相似度；当相似度大于相似度阈值时，为文档元素构建模板噪音标记。
在一些实施例中，识别模块4533，还用于获取噪音网页样本，并对噪音网页样本进行去重处理，得到噪音网页集合；从噪音网页集合中，确定出第一文档元素集合，其中，第一文档元素集合包括多个噪音文档元素；对第一文档元素集合包括的噪音文档元素进行归一化处理，得到第二文档元素集合；对第二文档元素集合中的噪音文档元素进行聚类处理，得到噪音词典。
在一些实施例中，识别模块4533，还用于确定文档元素对应的第一字符序列以及噪音词典对应的第二字符序列；基于第一字符序列与第二字符序列之间的公共子串个数，确定文档元素与噪音词典之间的第一相似度，其中，公共子串为第一字符序列与第二字符序列的共有连续字符；基于第一字符序列与第二字符序列之间的字符编辑距离，确定文档元素与噪音词典的第二相似度，其中，字符编辑距离为第一字符序列与第二字符序列互相转换时的单字符编辑操作次数；对第一相似度与第二相似度进行加权求和，得到文档元素与噪音词典的相似度。
在一些实施例中，去噪模块4534，还用于确定待处理网页的至少一个视觉块，其中，视觉块包括至少一个文档元素；基于多个维度的噪音标记，对每个视觉块进行噪音识别处理，得到视觉块的去噪标记；对待处理网页中具有去噪标记的视觉块进行去噪处理，得到去噪网页。
在一些实施例中，去噪模块4534，还用于针对每个视觉块执行以下处理：
确定视觉块中文档元素的第一总数量、以及具有多个维度的噪音标记的文档元素的第二总数量，并将第二总数量与第一总数量的比值确定为噪音比例值；确定视觉块的语义相关性；确定视觉块的外观特征，其中，外观特征包括视觉块的位置特征以及视觉块的属性特征；基于噪音比例值、语义相关性以及外观特征，对视觉块进行噪音识别处理，得到视觉块的去噪标记。
在一些实施例中，去噪模块4534，还用于针对视觉块中的每个文档元素执行以下处理：从待处理网页对应的结构树的节点中，确定出文档元素对应的第二目标节点；获取第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重；对位置特征和标签权重进行聚类处理，得到视觉块的语义相关性。
在一些实施例中，去噪模块4534，还用于将噪音比例值、语义相关性以及外观特征进行拼接处理，得到视觉块的拼接特征；对拼接特征进行预测处理，得到视觉块属于噪音的概率；当概率大于第二概率阈值时，为视觉块构建去噪标记。本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的网页处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的网页处理方法，例如，如图3A至图3M示出的网页处理方法。
在一些实施例中，计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-R OM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(Hyper TextMarkup Language，HTML)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。
作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述，通过本申请实施例，对待处理网页的网页内容进行划分，得到多个文档元素，为后续针对文本元素进行噪音识别提供基础，相较于通过文本密度进行粗粒度的网页内容分割，本申请实施例实现了对网页内容更细粒度的划分。接下来从文档元素粒度上对文档元素进行语义噪音识别、标签噪音识别、模板噪音识别等三个维度的噪音识别处理，相较于仅通过一种方式来进行噪音识别，能有效提高文档元素的噪音识别准确率。此外，通过文本语义、噪音网页标签集合、噪音词典的设计，使得去噪方法具有很强的泛化性，能够广泛应用于各种不同的网页中，无需针对特征网页进行定制化去噪，还可以不断扩充和完善噪音网页标签集合以及噪音词典，降低了网页去噪的维度成本。最后，在确定文档元素粒度的基础上对每个文档元素进行噪音识别，并添加噪音标记。继而在去噪过程中将文档元素粒度扩大到视觉块状粒度。在文档元素的噪音标记基础上，结合视觉块的噪音比例、语义相关性、外观特征来综合确定视觉块的去噪标记，在提高视觉块噪音的识别准确率，也提高了网页去噪的效率。
以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：腾讯科技(深圳)有限公司;

上一篇：游戏中的交互控制方法、装置、电子设备及可读存储介质
下一篇：一种数据获取方法、装置、设备及介质