等)分配相对标签低的权重,例如为0.2,具体的权重分配方法可以根据实际需求进行调整。通过构建网页内容的图模型,然后确定每个文档元素在结构树上的节点,利用节点之间的连接关系(利用文档元素之间的语义相关关系)和节点的权重来对节点进行分类,从而识别节点对应的文档元素是否为噪音,分类可以采用一些分类器来实现,例如支持向量机或者决策树等。
继续参见图3D,在步骤1032中,对每个文档元素进行标签噪音识别处理,得到文档元素的标签噪音标记。
当文档元素的多个维度的噪音标记为标签噪音标记时,此时对每个文档元素进行标签噪音识别处理,得到文档元素的标签噪音标记。针对每个文档元素,在待处理网页的结构树中,确定出文档元素对应的节点,然后确定节点对应的网页标签是否存在于预设的噪音标签集合中。当噪音标签集合中包括节点对应的网页标签,则判断节点对应的文档元素为噪音,并为文档元素构建标签噪音标记。
在一些实施例中,参见图3F,图3D示出的步骤1032还可以通过以下步骤10321至步骤10323实现,下面具体说明。
在步骤10321中,从待处理网页对应的结构树的节点中,确定出文档元素对应的第一目标节点。
由于网页内容是从结构树的每个节点中提取出来的,所以网页内容的每个文档元素都可以从结构树中找到对应节点。于是可以从待处理网页对应的结构树的节点中,确定出文档元素对应的第一目标节点。针对每个文档元素,都可以从待处理网页的结构树中,确定出文档元素是从哪个节点中提取出来的,由此每个文档元素都可以在结构树中确定出一个对应的第一目标节点。
在步骤10322中,获取噪音标签集合,其中,标签噪音集合包括多个网页标签。
承接上述实施例,在待处理网页的结构树中,确定出每个文档元素对应的第一目标节点后,即可从第一目标节点中确定出文档元素对应的至少一个网页标签。而在对待处理网页进行网页解析处理之前,可以预先获取噪音标签集合,其中,标签噪音集合包括多个网页标签。通过收集大量的噪音网页的常见网页标签可以构建一个噪音标签集合。比如广告类标签“”、弹窗类标签“”和赞助内容类标签“”等噪音标签,这些标签都是噪音网页内容常见的网页标签,只要网页中存在这些网页标签就可以确定出网页中存在噪音,通过不断将这些噪音网页的常见网页标签收集起来,就可以构建一个噪音标签集合。
在步骤10323中,当噪音标签集合包括第一目标节点的网页标签时,为第一目标节点对应的文档元素构建标签噪音标记。
当获取到噪音标签集合以及从结构树的节点中确定出文档元素对应的至少一个网页标签后,就可以确定文档元素对应的网页标签是否存在于噪音标签集合中,当噪音标签集合包括第一目标节点的网页标签时,为第一目标节点对应的文档元素构建标签噪音标记。当噪音标签集合包括第一目标节点的网页标签时时,说明文档元素对应的网页标签存在于噪音标签集合中,则确定出这个文档元素属于噪音,并为这个文档元素构建标签噪音标记。当噪音标签集合不包括第一目标节点的网页标签时,说明文档元素对应的网页标签不存在于噪音标签集合中,则确定出这个文档元素不属于噪音,无需构建标签噪音标记。
继续参见图3D,在步骤1033中,对每个文档元素进行模板噪音识别处理,得到文档元素的模板噪音标记。
当文档元素的多个维度的噪音标记为模板噪音标记时,此时对每个文档元素进行模板噪音识别处理,得到文档元素的模板噪音标记。模板噪音识别首先需要获取噪音词典,针对每个文档元素,确定文档元素与噪音词典的相似度,继而判断文档元素是否为噪音,并为确定为噪音的文档元素构建模板噪音标记。
在一些实施例中,参见图3G,图3D示出的步骤1033还可以通过以下步骤10331至步骤10333实现,下面具体说明。
在步骤10331中,获取噪音词典,其中,噪音词典包括至少一个噪音匹配模板。
要对每个文档元素进行模板噪音识别处理,就需要构建噪音模板来与文档元素进行匹配。但噪音模板不是固定的,需要不断进行完善。本申请实施例通过获取噪音词典,噪音词典包括至少一个噪音匹配模板。通过多个噪音匹配目标构建的噪音词典,可以不断收集噪音数据来扩充噪音词典以进行完善。所以可以利用不断完善的噪音词典来匹配文档元素,以确定文档元素是否为噪音。下面介绍构建噪音词典的过程。
在一些实施例中,参见图3H,图3G示出的步骤10331还可以通过以下步骤103311至步骤103314实现,下面具体说明。
在步骤103311中,获取噪音网页样本,并对噪音网页样本进行去重处理,得到噪音网页集合。
在构建噪音词典时,首先需要获取噪音网页样本,并对噪音网页样本进行去重处理,得到噪音网页集合。噪音网页样本可以通过一些公众号收集历史网页文本来收集,这里可以利用一些过滤封禁或者发文数过少的公众号账号。因为这些公众号所发出的网页内容一般都为网页噪音,例如含有各种大量的广告、推荐信息以及引流内容。针对这些公众号可以对其中所发布的网页内容进行采样,作为噪音网页样本。
考虑到采样得到的噪音网页样本可能具有重复的内容,例如内容描述同一种广告或者推荐信息,所以本申请实施例还针对采样的噪音网页样本进行去重处理,这里去重处理可以采用指纹过滤的方法。指纹过滤的方法实质上是通过比较文本相似度来确定相同文本,可以基于每个噪音网页样本构建一个指纹,作为样本的标识,指纹实质上是噪音网页样本中的部分字符串。相同指纹的噪音网页样本则认为是相同的噪音网页样本。对采样的所有噪音网页样本统一进行指纹过滤,如此可得到噪音网页集合。
在步骤103312中,从噪音网页集合中,确定出第一文档元素集合,其中,第一文档元素集合包括多个噪音文档元素。
承接上述实施例,因为对文档元素(例如可以是文本段落或者句子)进行噪音识别,所以本申请实施例中从噪音网页集合中,确定出第一文档元素集合,其中,第一文档元素集合包括多个噪音文档元素(例如可以是噪音文本段落或者噪音网页内容的一部分)。针对噪音网页集合中的每个噪音网页,也可以使用符号标识对噪音网页的网页内容进行内容提取再划分,得到噪音网页的多个噪音文档元素,如此即可从噪音网页集合中,确定多个噪音文档元素,并将所有的噪音文档元素组合得到第一文档元素集合。
在步骤103313中,对第一文档元素集合包括的噪音文档元素进行归一化处理,得到第二文档元素集合。
承接上述实施例,确定第一文档元素集合,再对第一文档元素集合包括的噪音文档元素进行归一化处理,得到第二文档元素集合。为了便于后续文档元素的匹配,本申请实施例中对第一文档元素集合包括的每个噪音文档元素进行归一化处理,这里归一化处理为:将第一噪音文档集合中的每个噪音文档元素区分为文本和图片,对于图片归一化处理成图像对应的资源(Source,src)地址。对于文本则进行文字归一化,具体为变更英文文本的大小写(大写统一变更为小写)、文字字体的繁简(中文文本的繁体字变更为简体字)、去掉所有文本的标点符号。具体的,如英文文本中的字母大写统一处理成对应的小写,中文文本中的繁体字统一处理成对应的简体字、去除所有文本的标点符号。如此,每个噪音文档元素都进行归一化处理,将噪音文档元素都统一变成纯文本的形式,并将归一化处理后的得到的噪音文档元素组合为第二文档元素集合。
在步骤103314中,对第二文档元素集合中的噪音文档元素进行聚类处理,得到噪音词典。
承接上述实施例,接下来再对第二文档元素集合中的噪音文档元素进行聚类处理,得到噪音词典。通过使用聚类算法(如DBSCAN算法),对第二文档元素集合中的噪音文档元素进行聚类。因为噪音文档元素数量很多,可能存在部分噪音文档元素的类型相似,例如广告类、推荐类、文注类。可以将这些噪音文档元素进行聚类得到多个类,然后针对每个类的噪音文档元素可以构建为一个噪音匹配模板,如此可以得到多个噪音匹配模板,例如广告引导模板、推荐语模板、文注模板等。最终将所有的噪音匹配模板组合得到噪音词典。
继续参见图3G,在步骤10332中,确定文档元素与噪音词典之间的相似度。
在一些实施例中,参见图3I,图3G示出的步骤10332还可以通过以下步骤103321至步骤103324实现,下面具体说明。
在步骤103321中,确定文档元素对应的第一字符序列以及噪音词典对应的第二字符序列。
获取到噪音词典后,就可以计算文档元素与噪音词典之间的相似度,来实现文档元素与噪音词典的匹配,继而确定文档元素是否为噪音。文档元素与噪音词典之间的相似度通过两个相似度来确定,首先将文档元素与噪音词典都看作一个字符序列,即确定文档元素对应的第一字符序列以及噪音词典对应的第二字符序列,第一相似度根据两个字符序列的公共子串个数来确定,第二相似度根据两个字符序列的字符编辑距离来确定。
在步骤103322中,基于第一字符序列与第二字符序列之间的公共子串个数,确定文档元素与噪音词典之间的第一相似度。
针对第一相似度,首先需要确定第一字符序列与第二字符序列之间的公共子串个数,其中,公共子串为第一字符序列与第二字符序列共有的连续字符(例如一个词语或者一个句子)。接下来再基于第一字符序列与第二字符序列之间的公共子串个数,确定文档元素与噪音词典之间的第一相似度。
具体的,可以通过一些匹配算法来确定第一字符序列与第二字符序列之间的公共子串,并统计公共子串的个数,然后再分别确定第一字符序列与第二字符序列的序列长度,通过比较确定出其中序列长度小的字符序列的序列长度,再将公共子串个数与序列长度小的字符序列对应序列长度的比值,作为第一相似度。
示例的,某文档元素对应的第一字符序列的序列长度为5,噪音词典对应的第二字符序列的序列长度为20,则确定序列长度小的字符序列为第一字符序列,同时确定第一字符序列与第二字符序列之间的公共子串个数为3,则将公共子串个数3与第一字符序列长度5的比值作为第一相似度,即0.6。
在步骤103323中,基于第一字符序列与第二字符序列之间的字符编辑距离,确定文档元素与噪音词典的第二相似度。
针对第二相似度,首先需要确定第一字符序列与第二字符序列之间的字符编辑距离,其中,字符编辑距离为第一字符序列与第二字符序列互相转换时的单字符编辑操作次数。接下来再基于第一字符序列与第二字符序列之间的字符编辑距离,确定文档元素与噪音词典之间的第二相似度。
具体的,先通过一些字符串操作函数或者算法来计算第一字符序列与第二字符序列之间的字符编辑距离,然后再分别确定第一字符序列与第二字符序列的序列长度,通过比较确定出其中序列长度大的字符序列的序列长度,再将字符编辑距离与序列长度大的字符序列对应序列长度的比值,作为第二相似度。
示例的,某文档元素对应的第一字符序列的序列长度为5,噪音词典对应的第二字符序列的序列长度为20,则确定序列长度大的字符序列为第二字符序列,同时确定第二字符序列转换为第一字符序列需要删除15个字符,即需要执行15次删除操作次数。相应地,第一字符序列转换为第二字符序列需要新增15个字符,即需要执行15次添加操作次数。由此确定第一字符序列与第二字符序列之间的字符编辑距离互相转换时所需单字符编辑操作次数为15,即字符编辑距离为15。最后将字符编辑距离15与第二字符序列长度20的比值作为第二相似度,即0.75。
在步骤103324中,对第一相似度与第二相似度进行加权求和,得到文档元素与噪音词典的相似度。
确定第一相似度与第二相似度之后,可以预设一个权重,用于平衡第一相似度和第二相似度,防止其中一个相似度很大,另一个相似度很小,对最终的相似度的准确性造成影响。所以可以通过预设权重,对第一相似度与第二相似度进行加权求和,得到文档元素与噪音词典的相似度。即通过预设第一权重对第一相似度进行加权,再通过预设第二权重对第二相似度进行加权,最后将两个加权结果进行求和,得到文档元素与噪音词典的相似度,其中,第一权重和第二权重的和可以是1。
示例的,文档元素与噪音词典的第一相似度为0.6,第二相似度为0.75,则可以对第一相似度0.6预设权重为0.6,加权结果为0.36。并对第二相似度0.75预设权重为0.4,加权结果为0.3,最终得到文档元素与噪音词典的相似度为加权结果0.36与加权结果0.3的和,即0.66。
继续参见图3G,在步骤10333中,当相似度大于相似度阈值时,为文档元素构建模板噪音标记。
确定每个文档元素与噪音词典的相似度之后,也可以根据实际场景预设一个相似度阈值,例如0.6。当相似度大于相似度阈值时,为文档元素构建模板噪音标记。即通过相似度阈值来确定文档元素是否为噪音,当文档元素与噪音词典的相似度(例如0.66)大于相似度阈值(例如0.6),说明文档元素与噪音词典相似,匹配成功则确定文档元素可能为噪音,并对文档元素构建模板噪音标记。当文档元素与噪音词典的相似度小于或等于相似度阈值,说明文档元素与噪音词典不相似,匹配失败则确定文档元素不可能为噪音,无需对文档元素构建模板噪音标记
需要说明的是,图3D所示的步骤1031、步骤1032、步骤1033的执行顺序不分先后,可以是串行执行也可以是并行执行的。在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。本申请实施例为了方便解释说明,所以针对不同的处理编排对应的步骤,但是不应视为对执行顺序的限定。
通过本申请实施例中图3D所示的步骤1031、步骤1032、步骤1033,从文档元素粒度上对文档元素进行语义噪音识别、标签噪音识别、模板噪音识别等三个维度的噪音识别处理。并且三个维度的噪音识别处理是串行或者并行的,只要有一个维度的噪音识别将文档元素识别为噪音,则可更准确地识别文档元素为噪音,相较于仅通过一种方式来进行噪音识别,能有效提高文档元素的噪音识别准确率。并且通过文本语义、噪音网页标签集合、噪音词典的设计,使得去噪方法具有很强的泛化性,能够广泛应用于各种不同的网页中,无需针对特征网页进行定制化去噪,还可以不断扩充和完善噪音网页标签集合以及噪音词典,降低了网页去噪的维度成本。
继续参见图3A,在步骤104中,基于多个维度的噪音标记,对待处理网页进行基于视觉块的去噪处理,得到去噪网页。
通过对每个文档元素进行多个维度的噪音识别处理,得到文档元素的多个维度的噪音标记后,便完成了在文档元素粒度上对待处理网页的噪音进行识别的过程,接下来为了提高去噪效率,将去噪过程从文档元素粒度扩大到视觉块粒度,所以本申请实施基于多个维度的噪音标记,对待处理网页进行基于视觉块的去噪处理,得到去噪网页,从视觉块粒度上来实现网页的去噪过程。
在一些实施例中,参见图3J,图3A示出的步骤104还可以通过以下步骤1041至步骤1043实现,下面具体说明。
在步骤1041中,确定待处理网页的至少一个视觉块,其中,视觉块包括至少一个文档元素。
首先需要确定网页的去噪单位,为了提高去噪效率,本申请实施例中将视觉块作为待处理网页的去噪单位,通过确定待处理网页的至少一个视觉块,以对每个视觉块进行噪音预测并进行去噪,其中,视觉块包括至少一个文档元素。视觉块的大小可根据实际场景来设定,例如根据待处理网页的总宽高大小来计算得到,或者根据终端的网页显示区域(网页的渲染区域)来分配视觉块的范围大小。
在步骤1042中,基于多个维度的噪音标记,对每个视觉块进行噪音识别处理,得到视觉块的去噪标记。
将待处理网页划分为多个视觉块后,考虑到视觉块中包括多个文档元素,每个文档元素都可能存在多个维度的噪音标记,所以本申请实施例中基于多个维度的噪音标记,对每个视觉块进行噪音识别处理,具体为在基于多个维度的噪音标记的基础上确定视觉块的噪音比例值,同时确定视觉块的语义相关性以及外观特征,并综合噪音比例值、语义相关性以及外观特征这三个特征项来识别视觉块是否为噪音,从而得到视觉块的去噪标记。
在一些实施例中,参见图3K,图3J示出的步骤1042还可以通过以下步骤10421至步骤10424实现,下面具体说明。
在步骤10421中,确定视觉块中文档元素的第一总数量、以及具有多个维度的噪音标记的文档元素的第二总数量,并将第二总数量与第一总数量的比值确定为噪音比例值。
在一些实施例中,可以通过确定视觉块的噪音比例值,来确定视觉块是否为噪音。由于视觉块中包括多个文档元素,每个文档元素可能存在多个维度的噪音标记,也可能不存在任何噪音标记,所以确定噪音比例值则需要确定噪音文档元素(具有多个维度的噪音标记的文档元素)在视觉块的所有文档元素中的占比。本申请实施例中通过确定视觉块中文档元素的第一总数量、以及具有多个维度的噪音标记的文档元素的第二总数量,并将第二总数量与第一总数量的比值确定为噪音比例值。具体的,先视觉块中文档元素的第一总数量(例如为20),再统计具有多个维度的噪音标记的文档元素的第二总数量(例如为16),最后将第二总数量(例如为16)与第一总数量(例如为20)的比值确定为噪音比例值,即为80%。
在另外一些实施例中,当确定视觉块的噪音比例值之后,可以预设一个噪音比例阈值,当视觉块的噪音比例值超过噪音比例阈值时,可以直接确定视觉块为噪音。
在步骤10422中,确定视觉块的语义相关性。
在一些实施例中,还可以确定视觉块的语义相关性,来确定视觉块是否为噪音。语义相关性综合了网页内容的位置特征和网页标签权重。对网页内容的位置特征和网页标签权重进行聚类可以得到视觉块的语义相关性,同时确定噪音网页内容的语义相关性标准(值),当视觉块的语义相关性与噪音网页内容的语义相关性标准越接近,则确定视觉块越可能为噪音。
在一些实施例中,参见图3L,图3K示出的步骤10422还可以通过以下步骤104221至步骤104223实现,下面具体说明。
在步骤104221中,从待处理网页对应的结构树的节点中,确定出文档元素对应的第二目标节点。
由于确定视觉块的语义相关性,需要确定网页内容的位置特征和网页标签权重,所以通过视觉块中的文档元素定位到待处理网页结构树上对应的节点。所以本申请实施例中,针对视觉块中的每个文档元素执行以下处理:从待处理网页对应的结构树的节点中,确定出文档元素对应的第二目标节点。即从待处理网页对应的结构树的节点中,寻找包括文档元素的第二目标节点。
在步骤104222中,获取第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重。
承接上述实施例,确定视觉块中每个文档元素在结构树中的第二目标节点后,再获取第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重。
针对位置特征,首先针对每个文档元素,确定文档元素对应的第二目标节点在结构树中的深度,其中,深度为从结构树根节点(例如标签对应的节点)到当前第二目标节点的最短路径长度。然后确定第二目标节点在结构树中的兄弟节点列表中的位置,将位置与深度的比值作为第二目标节点的相对位置信息。
示例的,确定某个文档元素对应的第二目标节点在结构树中的深度为4,然后确定第二目标节点在结构树中的兄弟节点,例如第二目标节点的父节点有5个子节点,即第二目标节点有4个兄弟节点,而第二目标节点为父节点的第二个子节点,所以第二目标节点在结构树中的兄弟节点列表中的位置为2,最后将位置2与深度4的比值作为第二目标节点的相对位置信息,即0.5。
针对标签权重,则根据预先为结构树中每个节点分配的权重来确定。因为权重是根据节点在网页内容中的重要程度来设定,具体是根据节点对应的网页标签类型、网页标签的属性以及其他样式信息来计算得到的。节点的重要程度也决定了节点所包括的网页标签的重要程度,所以这里可以直接将第二目标节点的权重作为第二目标节点所包括的网页标签的标签权重。
在步骤104223中,对位置特征和标签权重进行聚类处理,得到视觉块的语义相关性。
确定第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重后,再对位置特征和标签权重进行聚类处理,得到视觉块的语义相关性。因为在视觉块中,两个文档元素之间越相近,则文档元素对应第二目标节点在结构树中的位置特征越相似(即两个文档元素之间越相近,说明对应的节点在结构树中是相邻的,可能属于兄弟节点),第二目标节点中网页标签对应的标签权重也越相近甚至是相同(即在结构树中兄弟节点分配的节点权重是相同的),所以可以将视觉块中所有文档元素对应的位置特征以及标签权重通过聚类手段进行聚类处理,并根据得到的聚类结果来确定视觉块的语义相关性指标。聚类处理可以采用一些无监督学习的聚类方法来实现,例如K-means聚类算法、DBSCAN聚类算法。
在一些实施例中,当确定视觉块的语义相关性之后,可以预先计算一些噪音网页内容的语义相关性,然后制定出一个噪音网页内容的语义相关性标准值,当视觉块的语义相关性对应的指标值与噪音网页内容的语义相关性标准值越接近,或者视觉块的语义相关性对应的指标值与语义相关性标准值的差异不大于差异阈值,则确定视觉块越有可能为噪音。
继续参见图3K,在步骤10423中,确定视觉块的外观特征,其中,外观特征包括视觉块的位置特征以及视觉块的属性特征。
在一些实施例中,要确定视觉块是否为噪音,还确定视觉块的外观特征,其中外观特征包括视觉块的位置特征以及视觉块的属性特征。针对视觉块的位置特征,可以确定视觉块在待处理网页中的位置,如视觉块在待处理网页的上、下、左、右四个方向上的边距,然后结合待处理网页的宽高,确定出视觉块的位置信息,例如可以是位置坐标,或者以上、下、左、右四个方向中的一个方向为标准,将视觉块在这个方向上的边距作为位置信息。针对属性特征,则可将视觉块中文档元素(文本段落)的字体大小、字体颜色、背景色等特征作为属性特征,再将这些属性特征映射为一个属性特征值。因为正常的网页内容一般字体大小都是相同的,字体颜色为标准的黑色、背景色为白色,而噪音网页内容为了吸引流量和与其他内容明显化,对应的文本可能具有各种不同的字体,字体颜色以及背景色都可能具有多种颜色。由此正常网页内容和噪音网页内容都可以将对应的属性特征映射为不同的属性特征值,作为视觉块的属性特征。所以可以将视觉块中文档元素(文本段落)的字体大小、字体颜色、背景色等特征作为属性特征,最后综合视觉块的位置特征(位置信息)和属性特征(属性特征值),得到视觉块的外观特征,例如可以将视觉块的位置特征(位置信息)和属性特征进行拼接,得到视觉块的外观特征。
需要说明的是,图3K所示的步骤10421、步骤10422、步骤10423的执行顺序不分先后,可以是串行执行也可以是并行执行的。在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。本申请实施例为了方便解释说明,所以针对不同的处理编排对应的步骤,但是不应视为对执行顺序的限定。
在步骤10424中,基于噪音比例值、语义相关性以及外观特征,对视觉块进行噪音识别处理,得到视觉块的去噪标记。
在分别确定视觉块的噪音比例值、语义相关性以及外观特征,再基于噪音比例值、语义相关性以及外观特征,对视觉块进行噪音识别处理,得到视觉块的去噪标记。即通过综合视觉块的噪音比例值、语义相关性以及外观特征这三个特征项,可以对视觉块进行一个综合的噪音识别,下面具体说明。
在一些实施例中,参见图3M,图3K示出的步骤10424还可以通过以下步骤104241至步骤104243实现,下面具体说明。
在步骤104241中,将噪音比例值、语义相关性指标以及外观特征进行拼接处理,得到视觉块的拼接特征。
首先针对每个视觉块,可以将噪音比例值、语义相关性以及外观特征进行拼接处理,得到视觉块的拼接特征,其中,拼接处理可以是直接进行物理拼接。例如可以将噪音比例值映射为一个特征向量的形式,同时将语义相关性以及外观特征也分别映射为特征向量的形式进行表示,接下来可以对三个特征向量进行线性变换出来,以统一三个特征向量的特征维度,并对统一特征维度的三个特征向量进行物理拼接,得到视觉块的拼接特征。
在步骤104242中,对拼接特征进行预测处理,得到视觉块属于噪音的概率。
承接上述实施例,确定每个视觉块的拼接特征后,再对拼接特征进行预测处理,得到视觉块属于噪音的概率。其中,预测处理可以调用常见的分类算法实现,例如支持向量机、朴素贝叶斯、或者决策树等。通过分类算法直接对拼接特征进行预测处理,从而将拼接特征映射为一个概率值,作为视觉块属于噪音的概率。
在步骤104243中,当概率大于第二概率阈值时,为视觉块构建去噪标记。
当确定每个视觉块属于噪音的概率之后,可以预设一个第二概率阈值,来确定视觉块是否为噪音。当概率大于第二概率阈值时,为视觉块构建去噪标记。即当视觉块属于噪音的概率大于第二概率阈值时,说明确定视觉块中的网页内容存在噪音,此时对视觉块构建去噪标记,以用于去噪。当视觉块属于噪音的概率小于第二概率阈值时,说明确定视觉块中的网页内容不存在噪音,为有效网页内容,此时无需对视觉块构建去噪标记,也即无需对视觉块进行去噪。
继续参见图3J,在步骤1043中,对待处理网页中具有去噪标记的视觉块进行去噪处理,得到去噪网页。
通过对每个视觉块进行噪音识别并构建去噪标记后,即可对待处理网页中具有去噪标记的视觉块进行去噪处理,得到去噪网页。当根据输入的关键词主题渲染出与关键词主题相关联的待处理网页时,就可以对待处理网页中具有去噪标记的视觉块进行去噪处理,例如可以是直接去除或替换噪音视觉块对应的噪音网页内容,也可以将这些噪音网页内容渲染之后直接进行屏蔽,提取出原始待处理网页中的有效网页内容,得到去噪网页后再进行渲染。由此实现了对待处理网页进行视觉块状粒度的去噪,为搜索引擎提供高质量的搜索内容,方便构建网页索引。
通过上述步骤104,在确定文档元素粒度的基础上对每个文档元素进行噪音识别,并添加噪音标记。继而在去噪过程中将文档元素粒度扩大到视觉块状粒度。在文档元素的噪音标记基础上,结合视觉块的噪音比例、语义相关性、外观特征来综合确定视觉块的去噪标记,在提高视觉块噪音的识别准确率,也提高了网页去噪的效率。
通过本申请实施例中,对待处理网页的网页内容进行划分,得到多个文档元素,为后续针对文本元素进行噪音识别提供基础,相较于通过文本密度进行粗粒度的网页内容分割,本申请实施例实现了对网页内容更细粒度的划分。接下来从文档元素粒度上对文档元素进行语义噪音识别、标签噪音识别、模板噪音识别等三个维度的噪音识别处理,相较于仅通过单方式来进行噪音识别,能有效提高文档元素的噪音识别准确率。此外,通过文本语义、噪音网页标签集合、噪音词典的设计,使得去噪方法具有很强的泛化性,能够广泛应用于各种不同的网页中,无需针对特征网页进行定制化去噪,还可以不断扩充和完善噪音网页标签集合以及噪音词典,降低了网页去噪的维度成本。最后,在确定文档元素粒度的基础上对每个文档元素进行噪音识别,并添加噪音标记。继而在去噪过程中将文档元素粒度扩大到视觉块状粒度,提高了网页去噪的效率。在文档元素的噪音标记基础上,结合视觉块的噪音比例、语义相关性、外观特征来综合确定视觉块的去噪标记,进一步提高视觉块噪音的识别准确率。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些通用搜索引擎、搜一搜等业务场景中,高质量的索引内容对搜索体验至关重要。然而搜索得到的HTML网页(以下简称网页)通常是鱼龙混杂的,包含了广告、引流、推荐、无意义符号等与网页主题不相关的内容。如果将这些包含不相关内容的原始网页的所有信息建立搜索引擎的索引,会减小搜索主题的有效正文内容(即网页有效正文内容)的权重,影响搜索引擎所得到的网页内容最终的排序结果。
相关技术中,一方面通过各种方法来识别网页内容的噪音并去噪,比如通过正则匹配提取网页的有效正文内容,但未考虑正文内容的语义,提取准确率不高。也有通过计算网页中各个区域的文本密度,将密度较低的区域视为噪音并去除。这种方法属于粗粒度的方式,容易将网页的有效正文内容误判为噪音。此外,还有通过视觉分割的方法对网页内容进行区域分割并对每个分割区域进行识别分类,但视觉分割未考虑到网页内容的位置信息和结构信息,分类准确率低。另一方面,大多数方法都仅局限于特定的网页,针对不同的网页内容需要定制不同的去噪方法,不具备通用性。
基于以上场景,本申请实施例提供一种网页处理方法(由网页去噪方法实现),构建了从原始网页至网页文本提取,对网页文本分句分段后进行页面噪音识别,最后去除网页噪音的解析系统流程。最终通过对原始网页进行噪音去除,提取出网页中有效正文内容,为搜索引擎提供高质量内容,以构建网页索引。
本申请实施例的网页去噪方法可以应用于大多数应用程序的具有搜索功能的入口或者网页搜索引擎中,如媒体、通信等应用程序的搜一搜功能入口中。如图4所示,左侧图是某通信应用程序中搜一搜的主要入口,中间为点击该入口进入后的主界面,右侧图为用户通过输入问题进行查询的网页外显结果,每一个查询结果和输入的问题都具有相关性,而一般将搜索结果自身的内容质量作为评估搜索结果好坏的依据,与输入问题越相关的搜索结果、以及内容质量越高的搜索结果理应排序靠前。因为部分高质量的网页正文内容会受到噪音分布的干扰,而使被检索到的搜索结果改变网页内容的排序,而影响根据搜索结果而构建的网页索引。示例的,如图5所示,在某应用程序中以输入问题“某城市city walk”为例,搜索之后得到如图5中的搜索结果,其中,501所示的“等你关注”和502所示的“阅读更多”即为在网页正文内容的搜索结果中出现网页噪音,这些网页噪音属于广告、引流、推荐信息等内容,与输入问题的主题“某城市city walk”不相关。因此,通过本申请实施例中提供的网页去噪方法,可以识别并去除网页内容中这些与输入问题的主题“某城市citywalk”不相关,属于广告、引流、推荐信息等内容。
参见图6,图6是本申请提供的页面噪音识别的示意图。如图6所示,页面噪音识别作为一个整体方案,包括语义噪音识别、噪音模板匹配,样式属性去噪等三个模块。其中,语义噪音识别一般用广告类、推荐类、文注类以及符号类等多种不同类型的网页内容。噪音模板匹配则是通过历史模板挖掘和正则模板生成的方法构建噪音模板,用于与网页内容进行匹配,以识别出噪音。而样式属性去噪则是利用网页内容的文字信号、样式信号、图片信号、页面分布信号这四类信号来分别提取网页内容的特征,从而利用特征来识别出网页内容的噪音。其中,网页内容的文字信号包括网页的字面文本、标点、段落字数,样式信号包括网页中文字字号、字色(字体颜色)、背景色、加粗文字、下划线文字、内容的超链(超链接),图片信号包括网页内容中图片宽高、光学字符识别(Optical Character Recognition,OCR)信息、图片格式以及可能存在的二维码信息,页面布局新型号包括网页内容中文章段落数、图文密度、段落分布、页面分块。通过比对网页内容与噪音内容的这四类信号的特征,可以识别网页内容是否为噪音内容。
根据图6中的页面噪音识别的整体方案,在一些实施例中,还可以根据整体方案构建出一种页面去噪多维度策略模型,具体参见图7,图7是本申请实施例提供的页面去噪多维度策略模型的示意图。首先根据网页内容的四类信号可以构建不同的策略模型。
具体的,根据文字信号中网页的字面文本,一方面可以根据网页的类型构建一些模板作为噪音匹配模板,其中,模板可以包括广告引导模板、推荐语模板、文注模板、符号模板以及白名单模板,这些模板可以针对网页内容中的部分特定内容进行噪音模板匹配,从而识别出部分特定内容是否噪音。另一方面可以训练并构建一种模式类识别模型,模式类识别模型可以使用神经网络模型实现。如图7所示,在模式类识别模型中,将网页的字面文本切分为多个文本段落输入到模型,表示为W
如图7所示,根据文字信号(包括字面文本、标点、段落字数)、样式信号(包括网页的文字字号、字色、背景色、超链)、页面分布信号(包括文章段落数、段落分布)这三类信号还可以构建文字块策略模型。具体的,在文字信号中,根据字面文本构建的模板和模式类识别模型,可以识别出部分文字噪音并标记,文字块策略模型中可以将网页内容中内含标记噪音的部分内容作为依据,并且根据一些视觉块的字面文本还可以确定字面文本在块内外是否命中术语(term hit),这些术语一般容易被识别为噪音。而文字信号中的标点,可以确定每段落的标点数。在样式信号中,根据字号、字色、背景色可以分别确定出与主体字号差异、与主体字色差异以及与主体背景色差异,而超链(即网页中的超链接)可以确定出超链占比,即占总链接的比例。在页面分布信号中,根据网页的段落分布可以确定网页内容是否位于结尾文注后、以及所处网页全文相对位置。根据文字信号、样式信号、页面分布信号确定出来的这些网页内容特征可以确定出策略,通过这些网页内容特征构建一个逻辑回归(Logistic,Regression,LR)模型作为文字块策略模型。
此外,根据图片信号(包括图片宽高、OCR信息、图片格式、二维码信息)和页面分布信号(包括文章段落数、段落分布)还可以构建图片策略模型。具体的,在图片信号中,根据图片宽高可以确定图片的特征,例如是否为扁条形、窄长形或者方形,或者确定图片是否过小(小于设定阈值)。图片格式可以确定图片是否为图形交换格式(Graphics InterchangeFormat,GIF)类型,而OCR信息可以直接对OCR文本进行噪音预测,例如预测OCR文本为噪音,基于二维码信息可以提取其中的二维码。在页面分布信号中,根据文章段落数和段落分布可以确定段落中的图片所在的全文相对位置,以及对图片的前后部分的内进行噪音预测,以识别出图片的前后序为噪音。类似的根据图片信号、页面分布信号确定出来的这些图片内容特征可以确定出策略,通过这些图片内容特征也可以构建一个逻辑回归(Logistic,Regression,LR)模型作为图片策略模型。
在图7中,文字信号中的字面文本所确定的模板,可以根据采集的噪音样本对这些模板扩充数据,不断对模板进行完善,并且这些模板可以泛化为模式类识别模型、而模型类识别模型可以泛化为文字块策略模型,即三者之间具有通用性可以根据不同的需求进行适配。同时通过人工标注数据可以不断对文字块策略模型进行优化,而图片策略模型也可以根据更多的模型扩充数据不断进行优化。通过页面去噪多维度策略模型,可以针对原始HTML网页内容进行多维度的噪音识别,并去除噪音。
参见图8,图8是本申请实施例提供的网页去噪方法的流程图,下面结合图8来具体说明本申请实施例提供的网页去噪方法。
在步骤801中,获取原始HTML网页。
在某应用程序的搜一搜入口或者网页搜索引擎中,当用户输入问题进行查询并显示网页外显结果后,从网页外显结果中获取原始HTML网页的文档,简称原始HTML网页。
在步骤802中,调用文档对象模型对原始HTML网页进行结构解析处理。
获取到原始HTML网页后,在调用文档对象模型(即DOM树模型)对原始HTML网页进行结果解析,将原始HTML网页的网页结构表示为树形结构,同时分析树形结构中各个节点的属性标签及属性信息。
具体的,首先利用DOM树模型对输入的原始HTML网页进行解析,使得原始HTML网页的网页结构被表示为一个树形结构。DOM树中的每个节点表示原始HTML网页中的一个元素(如标签、属性或文本)。解析的实现过程为:给定一个原始HTML网页,可以构建一个原始HTML网页对应的DOM树,简称为D。在构建DOM树的过程中,遍历原始HTML网页的所有元素,并为每个元素创建一个相应的节点作为文本节点。构建DOM树的方法如下公式(1):
D=f(H)(1)
上述公式(1)中,f()表示构建DOM树的函数。
在步803中,提取解析后的原始HTML网页中每个文本节点的网页内容。
基于构建的DOM树,分别提取原始HTML网页的DOM树中每个文本节点的文本内容作为初始正文,如果有图片内容则将图片作为媒体内容。这里可以通过遍历DOM树中的所有文本节点,提取遍历过程中每个文本节点的文本内容,然后将提取到的文本内容表示为一个文本集合Q=q
在步骤804中,对网页内容中的文本内容进行分段分句,并提取每个段落或句子的属性特征,并依次或同步转入步骤805、806和步骤807。
提取原始HTML网页的网页内容后,接下来对网页内容中的初始正文(文本集合Q)进行分段和分句处理。根据原始HTML网页中的标签和标点符号将文本集合Q中的每个文本内容t
P=g(Q),其中,P=p
上述公式(2)中,P表述段落划分所得到的段落集合,Q表述文本集合,p
通过以上步骤802至步骤804的处理过程,可以从获取的原始HTML网页H中提取出段落集合P,为后续的噪音识别和去噪处理提供基础。在执行完步骤804之后,依次或同步转入步骤805、806和步骤807。需要说明的是,步骤805、步骤806、步骤807,执行顺序不分先后,可以是串行执行也可以是并行执行的。在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。本申请实施例为了方便解释说明,所以针对不同的处理编排对应的步骤,但是不应视为对执行顺序的限定。
在步骤805中,对每个段落或句子进行语义噪音识别。
在执行完步骤804之后,可以转入执行步骤805。对于文本集合Q中的每个文本内容q
二分类器旨在识别和去除文本内容中的噪音内容。首先,通过步骤604将文本内容划分为段落,得到段落集合P,其中,P=p
这里可以将分类问题建模为一个二分类问题,其中分类结果R取值为0,1,其中,0表示噪音,1表示非噪音。为了估计出段落载体T
上述公式(3)中,P(T
接下来,使用训练数据集(通过人工标注,含有文本和html标签的文本数据),在训练数据集中,当载体是图片时,对应的文本内容为对图片进行光学字符识别所得到的内容和图片的上下文内容。先通过训练数据集估计似然概率P(T
通过求解这个最优化问题,在段落粒度上,可以识别出段落集合P里的所有噪音。给定文本集合Q中的文本内容q
而针对原始HTML网页中每个文本节点网页内容中的图片内容,本申请实施例使用预设的图像去噪器进行噪音标记。具体,使用光学字符识别技术提取图片中的文本内容,并结合图片上下文的语义、位置、尺寸、实际渲染宽高以及二维码标记等特征,训练一个图片分类器,作为图形去噪器。这个分类器可以识别出原始HTML网页中的横幅广告以及与网页初始正文无关的符号。给定一个图片m
在步骤806中,对原始HTML网页中文本节点的网页内容进行标签属性噪音识别。
在执行完步骤804之后,可以转入执行步骤806。标签属性噪音识别基于步骤802中得到的原始HT ML网页树形结构中各个节点的属性标签来实现,以对网页内容进行进一步的噪音标记。具体而言,首先获取DOM树中每个节点的标签属性信息,并根据预先收集的常见噪音标签进行识别。例如,当一个文本节点带有标签时,将其识别为广告噪音。类似地,还可以根据诸如(弹窗广告)或(赞助内容)等其他已知噪音标签,分别识别出弹窗噪音或赞助内容噪音。
设预先收集的网页内容中噪音标签集合为T
n
上述公式(5)中,I()为指示函数,用于指示满足条件时生成对应的取值,当条件满足时取值为1,否则取值为0。n
通过以上标签属性噪音识别方法,可以进一步识别和去除网页正文中的噪音内容,提高网页内容提取的准确性和干净度。同时,在实际业务场景中可以不断更新和扩充噪音标签集合T
在步骤807中,调用噪音模板对每个段落或句子进行噪音匹配识别(即模板噪音识别)。
在执行完步骤804之后,可以转入执行步骤807。
在一些业务场景中,还可以通过扩充后的历史噪音挖掘方法来识别噪音,通过调用预存储的历史数据模板,对当前网页内容进行模式匹配,以识别出其中的噪音并作噪音标记。针对某些应用软件中搜一搜的内容提供方(如公众号平台、小程序平台等)所提供的内容作为历史数据进行聚类分析。在这些内容的文章或者页面中,通常会有固定的信息(如每次文章开头的主体介绍、结尾的相关推荐等),这些信息对内容理解没有用。通过采用DBSCAN聚类模型对历史数据进行聚类分析,从而挖掘出固定的噪音模板。
下面结合图9来说明历史噪音挖掘过程,图9是本申请实施例提供的噪音模板挖掘的原理图。如图9所示,首先通过一些公众号收集历史文章数据,可以采集一些过滤封禁或者发文数过少的公众号账号,因为这些公众号所发出的历史文章一般都为噪音。针对这些公众号可以对其中的文章进行采样,例如每个月采集30篇文章,得到一个采样文章集。接下来利用指纹过滤重复文章,也即对采样文章集进行去重,指纹过滤的方法实质上是通过文本相似度来确定相同文本,可以基于每个文章构建一个指纹,作为文章的标识,指纹实质上是文本中的部分字符串。相同指纹的文章则认为是相同的文章。对采样文章集过滤重复文章后,得到文章集合。接下来对文章集合中的文章进行拆分得到段落集合,并对段落集合进行段落处理。其中,段落处理将段落集合中的段落分为文本和图片,对于图片处理成图像对应的图片资源(S ource,src)地址。对于文本,则进行文字归一化,如变更文字的大小写、文字字体的繁简、去标点。具体的,如英文字母大写处理成对应的小写,繁体字处理成对应的简体字、去除所有的标点符号。如此,每个段落都被处理成了归一化段落,得到归一化段落集合。在对归一化段落集合中的所有段落利用聚类算法进行聚合,得到候选模板(pattern)集合再过滤无效模板,得到最终模板集合,作为噪音模板集合,也即噪音词典。随着不断利用公众号的历史发出文章进行文章采样,可以对噪音模板集合中的模板扩充数据。
噪音模板集合构建以后,当有待识别文章需要识别噪音,则将待识别文章拆分成多个待识别段落,然后对每个待识别段落进行段落处理,也即将段落集合中的段落分为文本和图片,对于图片处理成图像对应的资源地址。对于文本,则进行文字归一化,具体为变更文字的大小写、文字字体的繁简、去标点。最终得到归一化段落,最后将归一化段落于噪音模板集合进行模板匹配,如果匹配成功则确定归一化段落为噪音,如此可以对待识别文本的每个归一化段落进行噪音识别。具体的,噪音模板集合为M,这里M=m
在上述过程中,计算语义相似度S(p
上述公式(6)中,其中
关于字符编辑距离,针对段落p
上述公式(7)中,其中
最后综合以上关于公共子串个数的相似度
上述公式(8)中,a是一个预设的权重参数,用于平衡两种相似度度量方法,
通过步骤807,对每个公众号账号的历史发出文章进行采样,挖掘出公众号账号下固定的某种模板模式,此类重复出现的模板可作为噪音词典,一旦其他文章中出现词典中的这些模板格式就识别为噪音,直接去除。
继续参见图8,在步骤808中,结合图文视觉块进行去噪。
通过上述步骤805、步骤806、步骤807的三个步骤,可以为网页内容中的文本内容的每个段落分别进行噪音识别并进行噪音标记,接下来则是去噪过程。在去噪过程中,将段落粒度放大到块状粒度,能够提高去噪的效率。首先根据视觉块中每个段落的噪音标记来确定视觉块是否为噪音。将网页内容划分为多个视觉块,每个视觉块包含一个或多个段落。设视觉块集合为B,其中,B=b
对于每个视觉块b
进一步的,再结合HTML标签和DOM树信息,分析视觉块b
具体地,对于相对位置,首先计算DOM树中每个文本节点在DOM树中的深度。给定一个文本节点n
对于权重,首先DOM树中的每个文本节点分配一个权重,以表示文本节点在网页内容中的重要程度。权重根据节点的标签类型、属性以及其他样式信息来计算。例如,可以为标题标签(如
、等)分配相对其他标签高的权重,而为一些辅助性标签(如、等)分配相对标签低的权重。具体的权重分配方法可以根据实际需求进行调整。对于每个视觉块b通过以上分析,针对每个视觉块b
h(b
上述公式(9)中,coord(b
综合判断函数的综合分析过程如下:
对于噪音比例r
对于坐标信息coord(b
对于语义相关性sem(b
综合以上信息,构建一个综合特征向量V
V
上述公式(10)中,V
接下来使用一个分类模型(例如可以是支持向量机)对综合特征向量V
因此,综合判断函数h(b
h(b
通过以上综合判断函数h(b
在步骤809中,输出去噪后的网页。
通过上述步骤808,将网页内容的每个视觉块b
本申请实施例通过构建从原始HTML网页至文本提取的解析系统,结合DOM树、文本语义、标签信息和位置信息等多方面因素实现了噪音的识别并进行噪音去除。一方面,通过对原始页面所示提取的网页正文内容进行分段分句,再对每个句段的噪音进行识别并去除,能够更精细化去除噪音,粒度细致,不会直接暴力去除块状网页内容,降低了误判有效正文内容为噪音的风险,另一方面,通过结合文本语义、网页标签属性、噪音模板等方式来综合识别以去除噪音,充分考虑了文本的语义信息,能够更准确地识别和去除与网页主题不相关的噪音内容。在文本语义的基础上既结合了网页标签信息,又考虑了页面布局,实现了多层次的噪音过滤,提高了噪音去除的准确率和召回率。
综上所述,本申请实施例提出了一种精细化、结合文本语义和多维过滤的网页噪音去除方法,通过从原始HTML网页中提取有效正文内容,为搜索引擎提供高质量的内容建立索引。这将有助于提升搜索引擎的搜索质量和用户体验。
通过网页分句分段后的细粒度去噪处理,能够更准确地识别和去除网页中的噪音内容,降低误判有效正文内容为噪音的风险,从而提升了去噪结果的质量,解决了现有技术中页面去噪粒度粗、准确率低的问题。此外,本申请实施例综合了文本语义和网页标签信息设计分类器,具备很强的泛化性。相较于现有技术中需要针对不同网页站点进行定制化去噪的方法,本申请实施例能够适应各种网页结构的原始网页,降低了维护成本。并且通过多维过滤和综合考虑页面布局等因素,进一步提升了去噪器的通用性,使其能够广泛应用于不同类型的网页。
下面继续说明本申请实施例提供的网页处理装置453的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的网页处理装置453中的软件模块可以包括:解析模块4531,用于对待处理网页进行网页解析处理,得到待处理网页的网页内容;划分模块4532,用于对网页内容进行划分处理,得到网页内容包括的多个文档元素;识别模块4533,用于对每个文档元素进行多个维度的噪音识别处理,得到文档元素的多个维度的噪音标记;去噪模块4534,用于基于多个维度的噪音标记,对待处理网页进行基于视觉块的去噪处理,得到去噪网页。
在一些实施例中,解析模块4531,还用于遍历待处理网页的多个网页结构元素,将遍历到的网页结构元素确定为一个节点;基于节点构建待处理网页的结构树;分别对结构树中的每个节点进行内容提取处理,得到待处理网页的网页内容。
在一些实施例中,划分模块4532,还用于基于网页内容中的符号标识,对网页内容进行划分处理,得到网页内容的多个句子;获取每个句子的位置坐标;将位置坐标相邻的句子组合为文档元素。
在一些实施例中,识别模块4533,还用于对每个文档元素进行语义噪音识别处理,得到文档元素的语义噪音标记;对每个文档元素进行标签噪音识别处理,得到文档元素的标签噪音标记;对每个文档元素进行模板噪音识别处理,得到文档元素的模板噪音标记。
在一些实施例中,识别模块4533,还用于对文档元素包括的文本进行语义特征提取处理,得到文档元素的文本特征;对文本特征进行噪音预测处理,得到文档元素属于噪音的概率;当概率大于第一概率阈值时,为文档元素构建语义噪音标记。
在一些实施例中,识别模块4533,还用于从待处理网页对应的结构树的节点中,确定出文档元素对应的第一目标节点;获取噪音标签集合,其中,标签噪音集合包括多个网页标签;当噪音标签集合包括第一目标节点的网页标签时,为第一目标节点对应的文档元素构建标签噪音标记。
在一些实施例中,识别模块4533,还用于获取噪音词典,其中,噪音词典包括至少一个噪音匹配模板;确定文档元素与噪音词典之间的相似度;当相似度大于相似度阈值时,为文档元素构建模板噪音标记。
在一些实施例中,识别模块4533,还用于获取噪音网页样本,并对噪音网页样本进行去重处理,得到噪音网页集合;从噪音网页集合中,确定出第一文档元素集合,其中,第一文档元素集合包括多个噪音文档元素;对第一文档元素集合包括的噪音文档元素进行归一化处理,得到第二文档元素集合;对第二文档元素集合中的噪音文档元素进行聚类处理,得到噪音词典。
在一些实施例中,识别模块4533,还用于确定文档元素对应的第一字符序列以及噪音词典对应的第二字符序列;基于第一字符序列与第二字符序列之间的公共子串个数,确定文档元素与噪音词典之间的第一相似度,其中,公共子串为第一字符序列与第二字符序列的共有连续字符;基于第一字符序列与第二字符序列之间的字符编辑距离,确定文档元素与噪音词典的第二相似度,其中,字符编辑距离为第一字符序列与第二字符序列互相转换时的单字符编辑操作次数;对第一相似度与第二相似度进行加权求和,得到文档元素与噪音词典的相似度。
在一些实施例中,去噪模块4534,还用于确定待处理网页的至少一个视觉块,其中,视觉块包括至少一个文档元素;基于多个维度的噪音标记,对每个视觉块进行噪音识别处理,得到视觉块的去噪标记;对待处理网页中具有去噪标记的视觉块进行去噪处理,得到去噪网页。
在一些实施例中,去噪模块4534,还用于针对每个视觉块执行以下处理:
确定视觉块中文档元素的第一总数量、以及具有多个维度的噪音标记的文档元素的第二总数量,并将第二总数量与第一总数量的比值确定为噪音比例值;确定视觉块的语义相关性;确定视觉块的外观特征,其中,外观特征包括视觉块的位置特征以及视觉块的属性特征;基于噪音比例值、语义相关性以及外观特征,对视觉块进行噪音识别处理,得到视觉块的去噪标记。
在一些实施例中,去噪模块4534,还用于针对视觉块中的每个文档元素执行以下处理:从待处理网页对应的结构树的节点中,确定出文档元素对应的第二目标节点;获取第二目标节点在结构树中的位置特征、以及第二目标节点中网页标签对应的标签权重;对位置特征和标签权重进行聚类处理,得到视觉块的语义相关性。
在一些实施例中,去噪模块4534,还用于将噪音比例值、语义相关性以及外观特征进行拼接处理,得到视觉块的拼接特征;对拼接特征进行预测处理,得到视觉块属于噪音的概率;当概率大于第二概率阈值时,为视觉块构建去噪标记。本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的网页处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令或者计算机程序,当计算机可执行指令或者计算机程序被处理器执行时,将引起处理器执行本申请实施例提供的网页处理方法,例如,如图3A至图3M示出的网页处理方法。
在一些实施例中,计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-R OM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper TextMarkup Language,HTML)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例,对待处理网页的网页内容进行划分,得到多个文档元素,为后续针对文本元素进行噪音识别提供基础,相较于通过文本密度进行粗粒度的网页内容分割,本申请实施例实现了对网页内容更细粒度的划分。接下来从文档元素粒度上对文档元素进行语义噪音识别、标签噪音识别、模板噪音识别等三个维度的噪音识别处理,相较于仅通过一种方式来进行噪音识别,能有效提高文档元素的噪音识别准确率。此外,通过文本语义、噪音网页标签集合、噪音词典的设计,使得去噪方法具有很强的泛化性,能够广泛应用于各种不同的网页中,无需针对特征网页进行定制化去噪,还可以不断扩充和完善噪音网页标签集合以及噪音词典,降低了网页去噪的维度成本。最后,在确定文档元素粒度的基础上对每个文档元素进行噪音识别,并添加噪音标记。继而在去噪过程中将文档元素粒度扩大到视觉块状粒度。在文档元素的噪音标记基础上,结合视觉块的噪音比例、语义相关性、外观特征来综合确定视觉块的去噪标记,在提高视觉块噪音的识别准确率,也提高了网页去噪的效率。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。