掌桥专利:专业的专利平台
掌桥专利
首页

确定网页质量的方法、装置、电子设备和计算机可读存储介质

文献发布时间:2023-06-19 11:52:33


确定网页质量的方法、装置、电子设备和计算机可读存储介质

技术领域

本公开涉及涉及互联网领域和人工智能领域,尤其涉及机器学习领域,具体地,涉及用于确定网页质量的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

在互联网数据挖掘领域,及时确定网页数据的质量是十分重要的。该技术可用于对海量网页数据进行垃圾清洗、筛选择优、搜索排序调权(低质打压/优质提权),并且在数据展现时还可以改善用户体验。传统的网页数据质量检测方式都是在浏览器展示完整页面后进行的,属于后验而非实时质量检测。因此,即便进行了网页数据质量检测,低质数据也会展现给用户或者传递给下游。

发明内容

本公开提供了一种用于确定网页质量的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的第一方面,提供了一种用于确定网页质量的方法。该方法可以包括基于从目标服务器获取的目标网页的页面文本信息,获取与页面文本信息中的展示元素相关联的用于渲染的配置信息。该方法还可以包括确定配置信息的特征数据。此外,该方法可以进一步包括基于特征数据,确定与配置信息的质量相关联的质量信息。

在本公开的第二方面中,提供了一种用于确定网页质量的装置,包括:配置信息获取模块,被配置为基于从目标服务器获取的目标网页的页面文本信息获取与页面文本信息中的展示元素相关联的用于渲染的配置信息;特征数据确定模块,被配置为确定配置信息的特征数据;以及质量信息确定模块,被配置为基于特征数据确定与配置信息的质量相关联的质量信息。

在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第五方面中,提供了一种计算机程序产品,计算机程序在被处理器执行时实现根据本公开的第一方面的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;

图2示出了根据本公开的实施例的详细示例环境的示意图;

图3A示出了根据本公开的实施例的确定网页质量的过程的流程图;

图3B和图3C示出了根据本公开的示例性配置信息;

图4示出了根据本公开的实施例的基于网页质量执行后续处理的详细过程的流程图;

图5示出了根据本公开的实施例的确定网页质量的装置的框图;以及

图6示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

应理解,当用户通过在诸如手机或计算机等的计算设备上设置的浏览器输入或点击要访问的目标网页时,浏览器会从维护目标网页的服务器上获取相应的网页数据。然而,目前很多网页中会包含影响用户体验的诸如广告的展示元素,甚至还包含涉嫌违法的展示元素。因此,通常会将包含上述展示元素的网页数据成为低质量网页数据。如上所述,对于诸如数据垃圾清洗、筛选择优、搜索排序调权、数据展现时对用户的体验改善等方面,对网页数据的质量进行检测是十分重要的。

传统的网页数据质量检测方式主要包括对基于爬虫抓取的静态页面或经渲染的动态页面的质量进行检测。然而,这两种检测方式均存在缺陷。例如,对静态页面进行质量检测会丢失目标网页的动态渲染信息,因此其检测结果通常是不全面的。又例如,对动态页面进行质量检测虽然虑及动态渲染信息,但在进行质量检测时,经渲染的动态页面已经展示给用户或传递至下游了。因此,传统的网页数据质量检测方式仍然需要改进。

如上文提及的,需要一种网页数据的质量检测方案,其能够在静态页面被渲染之前对目标网页的相关信息进行检测,从而实现页面数据质量的实时检测。

根据本公开的实施例,提出了一种网页质量确定方案。在该方案中,可以通过浏览器内核得到与动态资源对应的配置信息。该配置信息通畅是文本信息,因此可以将文本信息的特征数据输入训练好的质量预测模型,从而可以确定该配置信息的质量。如果该配置信息的质量较低,则不对与该配置信息相对应的展示元素进行渲染操作,并且不向用户展示该展示元素。以此方式,实现了网页质量检测,并可以自动地对网页的质量进行了优化,从而提升了用户体验。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,示例环境100中包含用户输入的目标网页110、计算设备120和经计算设备120确定的质量信息130。

在一些实施例中,用户输入的目标网页110可以是用户通过诸如手机、平台电脑、个人计算机等计算设备输入或点击的网页。作为示例,用户可以通过加载在手机上的浏览器应用输入要浏览的目标网页。

在一些实施例中,计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。

在计算设备120接收到用户输入的目标网页110之后,可以从目标服务器140处获取目标网页110的页面文本信息,诸如目标网页110的静态页面。应理解,“静态页面”通常是指实际存在的、无需经过服务器的编译而直接加载到浏览器上并显示出来的页面信息。静态页面通常可以是超文本标记语言(HTML)文本,其主要包含用于向用户展示的文本信息。至少处于优化显示效果的目的,静态页面通常会基于用于渲染的配置信息而被渲染为“动态页面”。应理解,“动态页面”的内容通常是依靠目标服务器140侧的渲染模块来生成的,该渲染模块例如可以是爪哇脚本(JS)引擎/层叠样式表(Css)解析模块。

计算设备120基于用户选择的目标网页110可以从目标服务器获取与目标网页110的页面文本信息中的展示元素相关联的用于渲染的配置信息。应理解,计算设备120上承载有浏览器内核,该浏览器内核上可以布置有用于预测质量得分的质量预测模型。因此,该配置信息的特征数据可以被应用至质量预测模型,从而可以确定该配置信息的质量得分,作为质量信息130。由此,本公开可以对页面文本信息中各展示元素的质量进行检测。

进一步地,在某些实施例中,当目标网页110的某个展示元素的用于渲染的配置信息的质量得分较低时,确定该展示元素可能劣化用户体验,因此在后续的渲染操作中不会对该展示元素进行渲染,且会对目标网页进行重新布局,以前取消该展示元素的展示。由此,本公开可以滤除低质量的展示元素,并节约用于渲染各展示元素的计算资源。

如上所述,本公开利用了经训练的质量预测模型来对配置信息的质量进行检测。下文将以机器学习模型为例参考图2对计算设备120中的模型的训练和使用进行描述。

图2示出了根据本公开的实施例的详细示例环境200的示意图。与图1类似地,示例环境200可以包含计算设备220、目标网页210和质量信息230。区别在于,示例环境200总体上可以包括模型训练系统260和模型应用系统270。作为示例,模型训练系统260和/或模型应用系统270可以在如图1所示的计算设备120或如图2所示的计算设备220中实现。应当理解,仅出于示例性的目的描述示例环境200的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

如前所述,对从目标服务器140处获取的目标网页210的用于渲染页面文本信息中的各展示元素的配置信息进行检测来确定相应配置信息的质量信息230的过程可以分为两个阶段:模型训练阶段和模型应用阶段。作为示例,在模型训练阶段中,模型训练系统260可以利用训练数据集250来训练用于检测网页质量的模型240。应理解,训练数据集250可以是多个参考特征数据(作为模型240的输入)以及相应的被标注的参考质量信息(作为模型240的输出)的组合。在模型应用阶段中,模型应用系统270可以接收经训练的模型240,从而由模型240基于目标网页210的用于渲染页面文本信息中的各展示元素的配置信息来确定用于渲染各展示元素的相应配置信息的质量信息230。

在其他实施例中,模型240可以被构建为学习网络。在一些实施例中,该学习网络可以包括多个网络,其中每个网络可以是一个多层神经网络,其可以由大量的神经元组成。通过训练过程,每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为模型240的参数。

模型240的训练过程可以以迭代方式来被执行,直至模型240的参数中的至少部分参数收敛或者直至达到预定迭代次数,由此获得最终的模型参数。

上文描述的技术方案仅用于示例,而非限制本发明。应理解,还可以按照其他方式和连接关系来布置各个网络。为了更清楚地解释本公开方案的原理,下文将参考图3A来更详细描述确定网页质量的过程。

图3A示出了根据本公开的实施例的确定网页质量的过程300的流程图。在某些实施例中,过程300可以在图1的计算设备120以及图2的计算设备220中实现。现参照图3A并结合图2描述根据本公开实施例的确定网页质量的过程300。为了便于理解,在下文描述中提及的具体实例均是示例性的,并不用于限定本公开的保护范围。

在302,计算设备220可以基于从目标服务器140获取的目标网页210的页面文本信息,获取与页面文本信息中的展示元素相关联的用于渲染的配置信息。应理解,渲染的操作可以由设置在目标服务器140处的相应渲染模块来进行操作,例如,可以基于配置信息确定展示元素的布置方式。展示元素是指部分页面文本信息在浏览器页面上的用于向用户展示的可视化元素。作为示例,展示元素可以是目标网页210的页面文本信息中用于表示某个产品的评分的数字,而用于渲染该展示元素的配置信息用于定义该数字的字号、颜色、位置等信息,从而优化目标网页210的显示效果。由于渲染操作通常直接影响用户体验,上述操作可以精准定位被检测对象,从而为后续的质量检测操作做准备。

在某些实施例中,用户可以通过设置在计算设备220上或者与计算设备220通信连接的网页浏览器来输入或点击目标网页210。基于用户输入的要访问的目标网页210,计算设备220可以从目标服务器140处获取页面文本信息,诸如目标网页110的静态页面。静态页面通常可以是超文本标记语言(HTML)文本,其主要包含用于向用户展示的文本信息。之后,计算设备220可以进一步基于页面文本信息中的展示元素获取用于渲染的脚本文件,作为配置信息。在某些实施例中,用于渲染的脚本文件可以是JS文件。与直接检测渲染后的页面数据相比,上述操作将被检测对象确定为渲染操作的配置信息,从而避免了后验检测,实现了对网页质量的实时检测。

在304,计算设备220可以确定配置信息的特征数据。在某些实施例中,为了确定配置信息的特征数据,计算设备220可以从配置信息中获取文本。作为示例,计算设备220可以获取JS文件的文本。进而,计算设备220可以对获取的文本进行向量化,并且基于向量化的文本确定特征数据。以此方式,可以将文本转换为机器学习模型可以识别的特征数据,从而提升了质量检测的效率。

在306,计算设备220可以基于特征数据,确定与配置信息的质量相关联的质量信息。作为示例,计算设备220可以基于特征数据确定配置信息的质量得分。应理解,确定质量得分的过程可以由人工完成。作为示例,工作人员可以基于JS文件或其特征数据对相应的配置信息进行打分。

在某些实施例中,为了及时、准确地确定质量信息,计算设备220可以将特征数据应用于预先训练好的用于质量预测的模型240以确定质量信息230。作为示例,模型240可以采用fasttext文本分类模型。此外,可以利用Softmax或LogSigmoid等公式进行质量打分。

应理解,模型240是将被设置的参考特征数据作为输入以及对应的经标注的参考质量信息作为输出来训练得到的。换言之,模型240是利用多组经标记的训练数据集250来训练得到的。作为示例,训练数据集250是通过工作人员对多个JS文件进行打分而得到的。

例如,“***.popup.js”文件是弹窗动态加载的响应(response)信息内容,通常被认为是低质量的配置信息,因此,工作人员可以将该文件的质量信息230确定为“低质量”,或者确定其质量得分为“30分(满分100分)”。由此,“***.popup.js”文件的如图3B中所示的文本作为模型240的输入、经标记的质量得分作为模型240的输出,从而实现了对模型240的训练。

又例如,“***.logo.js”文件是正常logo加载响应信息内容,通常被认为是高质量的配置信息,因此,工作人员可以将该文件的质量信息230确定为“高质量”,或者确定其质量得分为“90分(满分100分)”。由此,“***.logo.js”文件的如图3C中所示的文本作为模型240的输入、经标记的质量得分作为模型240的输出,从而实现了对模型240的训练。

通过如上方式利用训练好的模型来对网页质量进行实时监控,能够准确及时地确定目标网页210中的每个展示元素的质量。

还应理解,本公开及时检测目标网页的质量的意义在于,可以优化有序渲染操作和布局操作的过程。图4示出了根据本公开的实施例的基于网页质量执行后续处理的详细过程400的流程图。在某些实施例中,过程400可以在图1的计算设备120以及图2的计算设备220中实现。现参照图4并结合图2描述根据本公开实施例的过程400。为了便于理解,在下文描述中提及的具体实例均是示例性的,并不用于限定本公开的保护范围。

在402,计算设备220可以将上文中确定的质量得分与阈值质量得分进行比较。如果该质量得分低于阈值,则进入404。在404,计算设备220可以通过取消展示元素的展示,来重新布局目标网页210。也就是说,当确定某个展示元素的配置信息为低质量时,该展示元素将不被展示给用户,而计算设备220会对其空白部分进行重新布局。此外,如果该质量得分高于或等于阈值,则进入406。在406,计算设备220可以基于配置信息渲染该展示元素。

应理解,模型240基于特征数据确定质量得分的过程本质上是对质量等级的分类过程。因此,模型240既可以被训练为输出百分制、十分制的分类结果,也可以被训练为输出诸如具有“优、良、中、差”的四分类结果、具有“可展示”、“不可展示”的二分类结果等。因此,如果模型240输出的质量等级不满足预设的质量等级阈值时,该展示元素将不被展示给用户,而计算设备220会对其空白部分进行重新布局。

以此方式,本公开可以节省对低质量的展示元素进行渲染的计算资源,并且低质量的展示元素不会被展示被用户或者流入下游,从而显著改善了用户体验。

通过上述实施例,本公开能够在静态页面被渲染之前对目标网页的相关信息进行检测,从而实现页面数据质量的实时检测。此外,本公开的实施例可以替代人工检测,从而可以节省人力资源,避免发生漏检、误检的情况。

图5示出了根据本公开的实施例的确定网页质量的装置500的框图。如图5所示,装置500可以包括:配置信息获取模块502,被配置为基于从目标服务器获取的目标网页的页面文本信息获取与页面文本信息中的展示元素相关联的用于渲染的配置信息;特征数据确定模块504,被配置为确定配置信息的特征数据;以及质量信息确定模块506,被配置为基于特征数据确定与配置信息的质量相关联的质量信息。

在本公开的实施例中,渲染可以包括:基于配置信息确定展示元素的布置方式。

在本公开的实施例中,配置信息获取模块502可以包括:页面文本信息获取模块,被配置为基于用户输入的要访问的所述目标网页从所述目标服务器处获取所述页面文本信息;以及脚本文件获取模块,被配置为通过所述页面文本信息中的所述展示元素获取用于渲染的脚本文件,作为所述配置信息。

在本公开的实施例中,特征数据确定模块504可以进一步被配置为:从所述配置信息中获取文本;对获取的所述文本进行向量化;以及基于向量化的所述文本确定所述特征数据。

在本公开的实施例中,质量信息确定模块506可以包括:质量得分确定模块,被配置为基于所述特征数据确定所述配置信息的质量得分。

在本公开的实施例中,该装置500还可以包括:渲染模块,被配置为响应于所述质量得分高于或等于阈值质量得分,基于所述配置信息渲染所述展示元素;或者重新布局模块,被配置为响应于所述质量得分低于所述阈值质量得分,通过取消所述展示元素的展示,重新布局所述目标网页。

在本公开的实施例中,质量信息确定模块506进一步被配置为:将所述特征数据应用于质量预测模型以确定所述质量信息,所述质量预测模型是将被设置的参考特征数据作为输入以及对应的经标注的参考质量信息作为输出来训练得到的。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了能够实施本公开的多个实施例的计算设备600的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如过程300、400。例如,在一些实施例中,过程300、400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的过程300、400的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程300、400。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 确定网页质量的方法、装置、电子设备和计算机可读存储介质
  • 通话质量的确定方法、确定装置以及计算机可读存储介质
技术分类

06120113084136