掌桥专利:专业的专利平台
掌桥专利
首页

网页处理方法、装置、电子设备及计算机可读存储介质

文献发布时间:2024-05-31 01:29:11


网页处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及互联网技术,尤其涉及一种网页处理方法、装置、电子设备及计算机可读存储介质。

背景技术

在一些搜索场景中,用户在一些应用程序的搜索入口或者浏览器的搜索引擎中,输入搜索的关键词主题进行搜索查询来获取网页内容。应用程序或者浏览器就会根据用户输入的关键词显示出与关键词主题相关联的网页内容。但在通常情况下,网页内容中会出现部分与用户输入的关键词主题不相关的内容,例如一些引流、广告、推荐信息,这些与关键词主题不相关的内容称为网页噪音,网页噪音的出现降低了网页搜索内容的质量。

相关技术中针对网页的去噪,一方面,使用基于文本密度或文本分割的去噪方法,通过计算文本密度将网页内容进行粗粒度地分割,再对分割的网页内容分别进行噪音识别并进行网页去噪。这种粗粒度的分割会使分割的网页内容中存在部分有效网页内容也被误识别为噪音,从而影响最终的网页去噪效果。另一方面,这些去噪方法只适用于某些特定网页,针对不同种类的网页需要定制不同的去噪方法,不具备通用性。

发明内容

本申请实施例提供一种网页处理方法、装置及计算机可读存储介质,能够更细粒度地对网页进行噪音识别并进行网页去噪,提高网页内容的去噪效果,具有通用性。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种网页处理方法,所述方法包括:

对待处理网页进行网页解析处理,得到所述待处理网页的网页内容;

对所述网页内容进行划分处理,得到所述网页内容包括的多个文档元素;

对每个所述文档元素进行多个维度的噪音识别处理,得到所述文档元素的多个维度的噪音标记;

基于所述多个维度的噪音标记,对所述待处理网页进行基于视觉块的去噪处理,得到去噪网页。

本申请实施例提供一种装置,包括:

解析模块,用于对待处理网页进行网页解析处理,得到所述待处理网页的网页内容;

划分模块,用于对所述网页内容进行划分处理,得到所述网页内容包括的多个文档元素;

识别模块,用于对每个所述文档元素进行多个维度的噪音识别处理,得到所述文档元素的多个维度的噪音标记;

去噪模块,用于基于所述多个维度的噪音标记,对所述待处理网页进行基于视觉块的去噪处理,得到去噪网页。

本申请实施例提供一种电子设备,包括:

存储器,用于存储计算机可执行指令或计算机程序;

处理器,用于执行所述存储器中存储的计算机可执行指令或计算机程序时,实现本申请实施例提供的网页处理方法。

本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令或计算机程序,用于被处理器执行时实现本申请实施例提供的网页处理方法。

本申请实施例提供一种计算机程序产品,包括计算机可执行指令或计算机程序,所述计算机可执行指令或计算机程序被处理器执行时,实现本申请实施例提供的网页处理方法。

本申请实施例具有以下有益效果:

通过本申请实施例,对待处理网页进行网页解析处理得到网页内容,再对所述网页内容进行划分得到每个网页内容包括的多个文档元素,来对网页内容进行细粒度地划分。接下来对每个文档元素进行多个维度的噪音识别,得到噪音标记,通过多维度的噪音识别来对细粒度的文档元素进行更准确地噪音标记。最后利用文档元素的噪音标记对网页进行基于视觉块的去噪。由此实现了从文档元素粒度的噪音识别到视觉块粒度的去噪过程,提高了网页去噪效果。此外,本申请实施例是对待处理网页直接进行网页解析,再进行噪音识别并去噪,无需针对不同的特定网页定制不同的去噪方法,具有通用性。

附图说明

图1是本申请实施例提供的网页处理系统架构的结构示意图;

图2是本申请实施例提供的服务器200的结构示意图;

图3A至图3M是本申请实施例提供的网页处理方法的流程示意图;

图4是本申请实施例提供的网页搜索结果的示意图;

图5是本申请实施例提供的网页搜索结果中的网页噪音示意图;

图6是本申请提供的页面噪音识别的示意图;

图7是本申请实施例提供的页面去噪多维度策略模型的示意图;

图8是本申请实施例提供的网页去噪方法的流程图;

图9是本申请实施例提供的噪音模板挖掘的原理图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一第二第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一第二第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

1)超文本标记语言(Hyper Text Markup Language,HTML),是一种标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。

2)文档对象模型(Document Object Model,DOM),是一种用于表示网页文档对象的标准模型,实质上属于一种应用程序接口。在网页中,通过文档对象模型将网页的组织页面或文档的对象解析成一个树形结构,这个树形结构就被称为文档对象模型树,简称DOM树。通过遍历DOM树上的任何节点,就可以访问到网页上所有的内容元素。

3)视觉块,是一种基于自然视觉范围或在视觉范围下的设定范围的矩形划分单位。一般用于针对通用的图文类型的目标进行划分,所以也称为图文视觉块。例如,将某文本或网页划分为多个视觉块,即是以自然视觉范围(如显示区域范围)为单位,将文本或网页划分为多个视觉块,每个视觉块包括文本或网页的一部分。

本申请实施例提供一种网页处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品,能够更细粒度地对网页进行噪音识别并进行网页去噪,提高网页内容的去噪效果,具有通用性。

下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的设备可以实施为笔记本电脑、平板电脑,台式计算机、机顶盒、移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、智能手机、智能音箱、智能手表、智能电视、车载终端等各种类型的用户终端,也可以实施为服务器。

参见图1,图1是本申请实施例提供的网页处理系统100的架构示意图,包括终端400、网络300、服务器200。终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。

终端400上运行着与搜索功能有关的应用程序(Application,APP),例如可以是即时通信APP、阅读APP、视频APP、游戏APP,或者其他的具有搜索功能的软件程序。用户在终端400的应用程序的搜索功能入口中输入搜索关键词后通过网络300发起网页请求,来获取网页内容。服务器200收到终端400发起的网页请求,就会生成与搜索关键词相关联的网页,将网页作为待处理网页,对待处理网页进行网页解析处理得到网页内容,继而对网页内容进行划分处理,得到多个文档元素。接下来对每个文档元素进行多个维度的噪音识别处理,得到文档元素的多个维度的噪音标记,最后基于多个维度的噪音标记,对待处理网页进行基于视觉块的去噪处理,得到去噪网页。此时再将去噪网页通过网络300返回到终端400,用户在终端400的应用程序上就可以浏览到去噪网页对应的网页内容。

在一些实施例中,当用户在终端400的应用程序的搜索功能入口中输入搜索关键词后发起网页请求,来获取网页内容时,终端400可以直接响应用户的网页请求,生成与搜索关键词相关联的网页,将网页作为待处理网页,对待处理网页进行网页解析处理得到网页内容,继而对网页内容进行划分处理,得到多个文档元素。接下来对每个文档元素进行多个维度的噪音识别处理,得到文档元素的多个维度的噪音标记,最后基于多个维度的噪音标记,对待处理网页进行基于视觉块的去噪处理,得到去噪网页。终端400直接在应用程序中显示对应的去噪网页,呈现给用户进行预览。

在一些实施例中,图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。

本申请实施例可以借助人工智能(Artificial Intelligence,AI)技术实现,是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

以本申请实施例提供的服务器为例,例如可以部署在云端的服务器集群,从而向用户或开发者开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城,所有的用户或开发者都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如,云端的服务器封装有本申请实施例提供的网页处理方法的程序。用户通过终端(终端运行有APP,例如即时通信APP、阅读APP等)调用云服务中的网页处理服务,以使部署在云端的服务器调用封装的网页处理方法的程序。用户在终端的应用程序的搜索功能入口中输入搜索关键词并发起网页请求时,云端的服务器收到终端发起的网页请求,就会生成与关键词相关联的待处理网页,对待处理网页进行网页解析处理得到网页内容,继而对网页内容进行划分处理,得到多个文档元素,接下来对每个文档元素进行多个维度的噪音识别处理,得到文档元素的多个维度的噪音标记,最后基于多个维度的噪音标记,对待处理网页进行基于视觉块的去噪处理,得到去噪网页。此时再将去噪网页返回到终端,用户在终端的应用程序上就可以浏览到去噪网页的网页内容。

参见图2,图2是本申请实施例提供的服务器200的结构示意图,图2所示的服务器200包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(Random Access Memory,RAM)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等;

在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的网页处理装置453,其可以是程序和插件等形式的软件,包括以下软件模块:解析模块4531、划分模块4532、识别模块4533、去噪模块4534,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的网页处理方法。

参见图3A,图3A是本申请实施例提供的网页处理方法的流程示意图,以图1中所示的服务器200为执行主体,将结合图3A示出的步骤进行说明。

在步骤101中,对待处理网页进行网页解析处理,得到待处理网页的网页内容。

在一些搜索场景中,当在一些应用程序的搜索入口或者浏览器的搜索引擎中,输入搜索的关键词主题进行搜索查询时,就会根据输入的关键词显示出与关键词主题相关联的HTML网页。此时,将HTML网页作为待处理网页,待处理网页中可能包含部分与输入的关键词主题不相关的内容,例如一些引流、广告、推荐信息,这些与关键词主题不相关的内容称为网页噪音。要去除待处理网页中的噪音内容,就需要提取待处理网页的网页内容。本申请实施例中通过文档对象模型来对待处理网页进行网页解析处理,得到待处理网页的网页内容。

在一些实施例中,参见图3B,图3A示出的步骤101还可以通过以下步骤1011至步骤1013实现,下面具体说明。

在步骤1011中,遍历待处理网页的多个网页结构元素,将遍历到的网页结构元素确定为一个节点。

在一些实施例中,通过对待处理网页进行网页解析处理可以通过文档对象模型来实现,利用文档对象模型将待处理网页的网页结构解析成一个DOM树。首先需要确定遍历待处理网页的多个网页结构元素,将遍历到的网页结构元素确定为一个节点。待处理网页是以很多网页结构元素构成的,这些网页结构元素可以是网页标签、网页标记或者文本。这里以网页标签为例,由于网页中每个网页标签包含的内容共同组成待处理网页的网页内容。所以本申请实施例可以遍历待处理网页中所有的网页标签,然后将遍历到的每个网页标签都看作DOM树上的节点。

在步骤1012中,基于节点构建待处理网页的结构树。

承接上述实施例,在将遍历到的网页结构元素确定为一个节点之后,基于节点构建待处理网页的结构树。由于待处理网页中的网页标签都是嵌套的,有对应的嵌套关系,例如一个标签里面包括多个一级子标签,每个一级子标签又包括多个二级子标签,依次类推。所以,这里将所有的网页标签都作为节点后,再将这些网页标签的子标签作为对应节点的子节点,依次类推,直到某个节点不存在子节点。如此将所有的节点及其节点的子节点进行关联,最终得到一个DOM树,即待处理网页的结构树。结构树中完整地保留并体现了待处理网页的网页结构,用于后续针对节点逐一进行网页内容提取。

在步骤1013中,分别对结构树中的每个节点进行内容提取处理,得到待处理网页的网页内容。

在构建待处理网页的结构树后,再分别对结构树中的每个节点进行内容提取处理,得到待处理网页的网页内容。结构树中每个节点包括待处理网页的网页标签,而每个网页标签对应有待处理网页的网页内容,例如文本标签(text标签、p标签、title标签)对应的文本内容、图片标签(img标签)对应的图片内容、表格标签(table标签、tr标签、td标签)对应的表格文本内容等等。所以可以分别对结构树中的每个节点进行内容提取,从而得到节点对应网页标签的网页内容。

此外,因为网页内容的类型不一,针对图片标签对应的图片内容,可以使用光学字符识别的方法提取出图片的文本信息,针对表格标签(table标签、tr标签、td标签)对应的表格内容,直接提取出表格中的所有文本信息即可。如此可以将提取处理的网页内容统一为文本形式。

在一些实施例中,对结构树中的每个节点进行内容提取,还可以采用一些无监督的学习方法对节点的网页内容进行内容提取,其中,无监督的学习方法可以是聚类算法,例如可以是K均值(K-means)聚类算法或基于密度的噪声应用空间聚类(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)算法。这些聚类算法可以对节点中的网页内容进行自动聚类,聚类得到的结果就可以作为提取的网页内容,由此也可以实现网页内容的有效提取。

继续参见图3A,在步骤102中,对网页内容进行划分处理,得到网页内容包括的多个文档元素。

在一些实施例中,考虑到某些网页噪音(与关键词主题不相关的内容)可能以文本或图片的形式嵌套在有效网页内容(与关键词主题相关的网页内容)中,直接对网页内容进行粗略的划分来实现噪音识别,会产生误判识别效果差。而在对网页进行解析时,图片和表格等网页内容也统一成文本形式,为了更细粒度地对网页噪音进行识别,本申请实施例中对网页内容进行划分处理,得到网页内容包括的多个文档元素,其中,文档元素可以是一个文本段落、一个句子甚至为一个词,为后续基于文档元素粒度进行噪音识别提供基础。

在一些实施例中,参见图3C,图3A示出的步骤101还可以通过以下步骤1021至步骤1023实现,下面具体说明。

在步骤1021中,基于网页内容中的符号标识,对网页内容进行划分处理,得到网页内容的多个句子。

由于待处理网页在结构树的节点中提取出的网页内容都统一为文本形式,所以可以基于网页内容中的符号标识,对网页内容进行划分处理,得到网页内容的多个句子。其中,符号标识可以是文本中的句号、分号、空格或者空行。利用这些符号标识,可以将网页内容划分为多个句子。

在步骤1022中,获取每个句子的位置坐标。

对网页内容进行划分处理,得到网页内容的多个句子后,接下来再获取每个句子的位置坐标。因为待处理网页的网页页面大小都设置有宽高,页面的宽高通过像素(Pixel,px)单位表示,例如某网页的页面大小为“200px*150px”),即表示页面的宽有200个像素单位,高有150个像素单位。所以这里的位置坐标可以是句子当前所在网页位置处的像素位置。每个句子在待处理网页中都有对应的像素位置,例如左上,右侧,底部等。这里可以将每个句子的首个字符作为标准,将首个字符的像素位置确定为所在句子的位置坐标。

示例的,某网页的页面大小为“200px*150px”,即表示页面的宽有200个像素单位,高有150个像素单位。此时句子1的首个字符在网页页面的正中间,那么首个字符当前所在网页位置处的像素位置为(100px,75px),由此句子1的位置坐标即为(100,75)。而句子2属于网页的标题,在网页页面中是置顶居中的,那么句2的位置坐标即为(100、0)。

在某些通过网格布局设计的待处理网页中,每个网格都有对应的排列位置,可以直接将网格中某些句子的排列位置坐标作为句子的位置坐标。

在步骤1023中,将位置坐标相邻的句子组合为文档元素。

获取每个句子的位置坐标之后,再将位置坐标相邻的句子组合为文档元素。因为位置坐标相邻的句子可能同属于一个文本段落或者同一部分文本,所以可以将位置坐标相邻的句子组合为文档元素,这里的文档元素可以是文本段落,也可以是网页内容的一部分文本。此外,考虑到文本之间可能存在空格或者换行,所以某些句子之间的位置坐标并不相邻,但这些句子仍然可能属于同一段落或者同一部分文本。所以本申请实施例中还可以计算出每个句子之间的位置坐标差异,将位置坐标差异不大于差异阈值的多个句子看作同一文本段落或者同一部分文本。

通过上述步骤102,对待处理网页的网页内容进行划分,得到多个文档元素,为后续针对文本元素进行噪音识别提供基础,相较于通过文本密度进行粗粒度的网页内容分割,本申请实施例中实现了对网页内容进行更细粒度的划分。

继续参见图3A,在步骤103中,对每个文档元素进行多个维度的噪音识别处理,得到文档元素的多个维度的噪音标记。

在对待处理网页的网页内容进行划分,得到多个文档元素后,就可以对每个文档元素进行多个维度的噪音识别处理,得到文档元素的多个维度的噪音标记。这里,多个维度的噪音识别处理实质上是从网页内容的多个特征属性上进行噪音识别,其中特征属性包括文本内容特征、标签特征。在文本内容特征的基础上,可以对文档元素进行语义噪音识别以及标签噪音识别,从而构建得到对应的语义噪音标记、标签噪音标记。在标签特征的基础上,可以对文档元素进行标签噪音识别,从而构建得到对应的标签噪音标记。所以最终得到的文档元素的多个维度的噪音标记包括:语义噪音标记、标签噪音标记、模板噪音标记。下面具体介绍每个维度的噪音识别过程。

在一些实施例中,参见图3D,图3A示出的步骤103还可以通过以下步骤1021至步骤1023实现,下面具体说明。

在步骤1031中,对每个文档元素进行语义噪音识别处理,得到文档元素的语义噪音标记。

首先,当文档元素的多个维度的噪音标记为语义噪音标记时,此时对每个文档元素进行语义噪音识别处理,得到文档元素的语义噪音标记。针对每个文档元素,提取出文档元素的文本特征,然后对文本特征进行噪音预测得到文档元素属于噪音的概率,通过概率来判断文档元素是否为噪音,并为确定为噪音的文档元素构建语义噪音标记。

在一些实施例中,参见图3E,图3D示出的步骤1031还可以通过以下步骤10311至步骤10313实现,下面具体说明。

在步骤10311中,对文档元素包括的文本进行语义特征提取处理,得到文档元素的文本特征。

针对网页内容中的每个文档元素,对文档元素包括的文本进行语义特征提取处理,得到文档元素的文本特征。其中语义特征提取可以调用文本编码器来实现,通过文本编码器对文档元素对应的文本进行编码处理就可以得到文本特征。这里的文本特征可以为文档元素的属性特征,具体可以为文本语义特征、文本情感特征,然后将这些特征组合为属性特征集合,作为文本特征。

在步骤10312中,对文本特征进行噪音预测处理,得到文档元素属于噪音的概率。

获取到文档元素的属性特征之后,就可以对文本特征进行噪音预测处理,得到文档元素属于噪音的概率。在本申请实施例中,可以预先训练一个二分类器,用于对文本特征进行噪音预测,用以识别文档元素是否为噪音。二分类器将噪音识别问题建模成一个二分类问题,可以通过贝叶斯定理来实现。首先确定分类结果为0,1,其中,0表示噪音,1表示非噪音。为了估计出文档元素在分类结果的条件概率(后验概率),通过采用贝叶斯定理,计算在给定分类结果的情况下,文档元素的概率分布,也即似然概率,同时确定文档元素在分类结果的先验概率和边缘概率,最后确定似然概率与先验概率的乘积,并通过乘积与边缘概率的比值来确定出文档元素在分类结果的条件概率。通过不断收集噪音样本来训练这个二分类器,使得通过贝叶斯定理计算出的噪音样本的条件概率最大,当条件概率最大时,停止二分类器的训练。训练后的二分器即可用于对文本特征进行噪音预测处理,得到文档元素对应的条件概率(后验概率),也即文档元素属于噪音的概率。

在步骤10313中,当概率大于第一概率阈值时,为文档元素构建语义噪音标记。

承接上述实施例,通过调用训练的二分类器对文本特征进行噪音预测处理,得到文档元素属于噪音的概率后,即可根据这个概率来确定文档元素是否属于噪音。可以设定一个第一概率阈值,例如0.5,来确定这个概率是否可以表征文档元素为噪音。当概率大于第一概率阈值时,为文档元素构建语义噪音标记。这里当概率大于第一概率阈值0.5时,说明此时文档元素可能属于噪音,则为识别为噪音的文档元素构建语义噪音标记。当概率不大于第一概率阈值时,说明此时文档元素不可能属于噪音,则无需为文档元素构建语义噪音标记。

在一些实施例中,针对语义维度上的噪音识别,可以采用基于图模型的噪音识别方法,可以预先为结构树中每个节点分配一个权重,以表示节点在网页内容中的重要程度。权重根据节点对应的标签类型、标签的属性以及其他样式信息来计算。例如,可以为标题标签(如

等)分配相对其他标签高的权重,例如为0.8,而为一些辅助性标签(如

相关技术
  • 网页生成方法、装置、电子设备及计算机可读存储介质
  • 数据处理方法、装置、计算机可读存储介质和电子设备
  • 三维模型处理方法和装置、电子设备、计算机可读存储介质
  • 图像处理方法和装置、电子设备、计算机可读存储介质
  • 任务处理方法、装置、电子设备及计算机可读存储介质
  • 网页处理方法、装置、计算机可读存储介质及电子设备
  • 网页的处理方法/系统、计算机可读存储介质及电子设备
技术分类

06120116626394