掌桥专利:专业的专利平台
掌桥专利
首页

一种网站类型分类方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 09:29:07


一种网站类型分类方法、装置、计算机设备及存储介质

技术领域

本发明属于计算机技术领域,尤其涉及一种网站类型分类方法、装置、计 算机设备及存储介质。

背景技术

企业网站是企业在互联网上进行网络营销和形象宣传的平台,相当于企业 的网络名片,不但对企业的形象是一个良好的宣传,同时可以辅助企业的销售, 通过网络直接帮助企业实现产品的销售,企业可以利用网站来进行宣传、产品 资讯发布、招聘等,是企业通向互联网的平台和门户,是企业开展网络营销的 重要条件。

一般来说,企业网站比非企业网站在产品信息发布、销售、交易等方面的 管理会更为规范,因此其交易安全性更高一些。对于基本上都是通过线上进行 产品信息发布、销售、支付、交易等的外贸行业而言,能快速分类定位出一个 网站是否为企业网站有利于保障买卖双方交易安全性,降低交易风险。

然而,目前对于网站分类技术,国内外的研究并不广泛,且现有的网站分 类技术中基本上都是仅通过获取并分析网站的语言文本特征来进行分类,这种 分类方式所采用的分类特征单一,从而导致分类的精确率和召回率低,分类效 果差。

发明内容

本发明实施例的目的在于提供一种网站类型分类方法,旨在解决现有技术 中的网站分类方法的分类精确率和召回率低,分类效果差的问题。

本发明实施例是这样实现的,一种网站类型分类方法,包括如下步骤:

获取待分类网站的锚文本和非语言特征信息,所述非语言特征信息包括所 述待分类网站中的电话号码、邮箱、网址、地图或社交信息中的一种或其任意 组合;

根据朴素贝叶斯分类模型、锚文本逻辑回归分类模型或支持向量机分类模 型中的至少两个分类模型分别对所述锚文本进行处理,生成对应的锚文本分类 结果;根据逻辑回归分类模型对所述非语言特征信息进行处理,生成逻辑回归 分类结果;

根据所述锚文本分类结果和逻辑回归分类结果,确定所述待分类网站的网 站类型,所述网站类型包括企业网站和非企业网站。

本发明实施例的另一目的在于提供一种网站类型分类装置,包括:

信息获取单元,用于获取待分类网站的锚文本和非语言特征信息,所述非 语言特征信息包括所述待分类网站中的电话号码、邮箱、网址、地图或社交信 息中的一种或其任意组合;

分类处理单元,用于根据朴素贝叶斯分类模型、锚文本逻辑回归分类模型 或支持向量机分类模型中的至少两个分类模型分别对所述锚文本进行处理,生 成对应的锚文本分类结果;根据逻辑回归分类模型对所述非语言特征信息进行 处理,生成逻辑回归分类结果;以及

分类结果确定单元,用于根据所述锚文本分类结果和逻辑回归分类结果, 确定所述待分类网站的网站类型,所述网站类型包括企业网站和非企业网站。

本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器, 所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得 所述处理器执行上述网站类型分类方法的步骤。

本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机 可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所 述处理器执行上述网站类型分类方法的步骤。

本发明实施例提供的网站类型分类方法,在对网站进行分类时,除了获取 待分类网站的锚文本并采用多个分类模型进行分类,获得至少两个锚文本分类 结果之外,还获取待分类网站的非语言特征信息,采用逻辑回归分类模型进行 分类,获得逻辑回归分类结果,并根据获得的锚文本分类结果和逻辑回归分类 结果进一步确定待分类网站的分类结果,大大提高了网站类型的分类的精确率 和召回率,分类效果好。

附图说明

图1为本发明实施例提供的一种网站类型分类方法的流程图;

图2为本发明实施例提供的另一种网站类型分类方法的流程图;

图3为本发明实施例提供的步骤202中关于构建对锚文本进行处理的分类 模型的部分步骤流程图;

图4为本发明实施例提供的步骤202中关于构建用于对非语言特征信息进 行处理的分类模型的部分步骤流程图;

图5为本发明实施例提供的又一种网站类型分类方法的流程图;

图6为本发明实施例提供的再一种网站类型分类方法的流程图;

图7是本发明实施例提供的一种网站类型分类装置的结构示意图;

图8是本发明实施例提供的另一种网站类型分类装置的结构示意图;

图9是本发明实施例提供的一种信息获取单元的结构示意图;

图10是本发明实施例提供的一种分类结果确定单元的结构示意图;

图11是本发明实施例提供的一种计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。

本发明实施例提供的网站类型分类方法,通过获取待分类网站的锚文本和 非语言特征信息,并分别采用多个分类模型分别对锚文本和非语言特征信息进 行分类分析,生成对应的分类结果,并根据多个分类结果最终决定出待分类网 站的类型,大大提高了分类的精确率和召回率,分类效果好。

作为本发明的一个实施例,如图1所示,提供了一种网站类型分类方法, 具体包括如下步骤:

步骤S102,获取待分类网站的锚文本和非语言特征信息,所述非语言特征 信息包括所述待分类网站中的电话号码、邮箱、网址、地图或社交信息中的一 种或其任意组合。

在本发明实施例中,锚文本又称锚文本链接,是链接的一种形式。和超链 接类似,超链接的代码是锚文本,把关键词做一个链接,指向别的网页,这种 形式的链接就叫锚文本。锚文本又称锚文本链接,锚文本实际上是建立了文本 关键词与URL链接的关系。

社交信息通常是指通过网站发布的各种社交活动信息以及思想交流信息 等,例如,花艺网站上发布的花艺展会的文字、图片、视频等信息。

步骤S104,根据朴素贝叶斯分类模型、锚文本逻辑回归分类模型或支持向 量机分类模型中的至少两个分类模型分别对所述锚文本进行处理,生成对应的 锚文本分类结果;根据逻辑回归分类模型对所述非语言特征信息进行处理,生 成逻辑回归分类结果。

步骤S106,根据所述锚文本分类结果和逻辑回归分类结果,确定所述待分 类网站的网站类型,所述网站类型包括企业网站和非企业网站。

在本发明实施例中,根据网站分类标准可将网站大致分为大型门户网站、 行业网站、交易类网站、分类信息网站、论坛网站、政府网站、功能性网站、 娱乐性网站以及企业网站等九种网站类型,其中企业网站即本发明所述的企业 网站,其他类型网站即本发明所述的非企业网站。

本发明实施例提供的网站类型分类方法,在对网站进行分类时,除了获取 待分类网站的锚文本并采用多个分类模型进行分类,获得至少两个锚文本分类 结果之外,还获取待分类网站的非语言特征信息,采用逻辑回归分类模型进行 分类,获得逻辑回归分类结果,并根据获得的锚文本分类结果和逻辑回归分类 结果进一步确定待分类网站的分类结果,大大提高了网站类型的分类的精确率 和召回率,分类效果好。

作为本发明的一个实施例,如图2所示,提供了一种网站类型分类方法, 该方法与上述图1所述的网站类型分类方法的步骤流程的区别在于,在步骤 S102之前,还包括:

步骤S202,构建用于对锚文本进行处理的朴素贝叶斯分类模型、锚文本逻 辑回归分类模型和支持向量机分类模型,以及用于对非语言特征信息进行处理 的逻辑回归分类模型。

在本发明实施例中,步骤S202可以是在步骤S102之前,也可以是在步骤 S102与步骤S104之间。

参见图3,为便于描述,图中仅示出了与步骤S202中的“构建用于对锚文 本进行处理的朴素贝叶斯分类模型、锚文本逻辑回归分类模型和支持向量机分 类模型”部分相关的步骤流程,详述如下。

构建用于对锚文本进行处理的朴素贝叶斯分类模型、锚文本逻辑回归分类 模型和支持向量机分类模型的步骤,具体包括:

步骤S302,构建用于对锚文本进行处理的朴素贝叶斯分类框架模型、锚文 本逻辑回归分类框架模型和支持向量机分类框架模型。

在本发明实施例中,朴素贝叶斯分类框架模型可以借助开源的朴素贝叶斯 分类算法框架,例如,Matlab统计工具箱中自带的朴素贝叶斯框架。锚文本逻 辑回归分类框架模型可以借助开源的逻辑回归分类框架模型。支持向量机分类 框架模型可以借助开源的支持向量机分类框架。这几个分类模型框架均为本领 域技术人员所熟知的常规技术手段,在此不对具体的框架模型构建细节进行描 述。

步骤S304,获取企业和非企业网站链接集合以及所述网站链接集合中的每 个网站链接所对应的锚文本。

在本发明实施例中,获取企业网站链接集合

在本发明实施例中,若企业/非企业网站链接个数过少,则训练时特征可能 不够,进而使其拟合效果弱;若企业网站链接个数和非企业网站链接个数不平 均,则训练时特征往往会偏向某一方,造成模型对双方分类不公平的现象,为 使企业网站链接个数和非企业网站链接个数尽量达到多且平均,所述企业网站 链接的个数D

获取上述企业网站链接curl

步骤S306,用所述锚文本分别对用于对锚文本进行处理的朴素贝叶斯分类 框架模型、锚文本逻辑回归分类框架模型和支持向量机分类框架模型进行训练, 得到对应的朴素贝叶斯分类模型、锚文本逻辑回归分类模型或支持向量机分类 模型。

在本发明的一个实施例中,步骤S306具体包括:

对每个所述锚文本进行分词,并统计每个分词的词频,并根据统计结果将 每个网站所对应的锚文本转化为值为1或0或者为词频-逆文本频率权重的 One-Hot编码向量的数值化文本。

作为本发明的一个示例性实施例,现假设词典中共有词10个,且词典中词 已排序,分别为[首页、产品、描述、联系方式、挖掘机、轮胎、方向盘、备胎、 空调、一体机]。

现有某一网站所对应的锚文本集合[首页、产品描述、联系方式],根据词性 的不同将该锚文本集合进行分词,分词后为[首页、产品、描述、联系方式],统 计词频,按照词典根据其词出现与否赋值为1或0,转换为one-hot编码方式, 即‘首页’=[1,0,0,0,0,0,0,0,0,0],‘产品’=[0,1,0,0,0,0,0,0, 0,0],‘描述’=[0,0,1,0,0,0,0,0,0,0],‘联系方式’=[0,0,0,1,0, 0,0,0,0,0]。

作为本发明的另一个示例性实施例,现假设词典中共有词10个,且词典中 词已排序,分别为[首页、产品、描述、联系方式、挖掘机、轮胎、方向盘、备 胎、空调、一体机]。

现有某一网站所对应的锚文本集合[首页、产品描述、联系方式],根据词性 的不同将该锚文本集合进行分词,分词后为[首页、产品、描述、联系方式],统 计词频,按照词典根据其词出现与否赋值为TF-IDF值(词频-逆文本频率权重), 转换为one-hot编码方式。即‘首页’=[TF-IDF

用所述数值化文本分别对用于对锚文本进行处理的朴素贝叶斯分类框架模 型、锚文本逻辑回归分类框架模型和支持向量机分类框架模型进行训练。

用上述的每个企业网站链接所对应的锚文本以及每个非企业网站链接所对 应的锚文本对用于对锚文本进行处理的朴素贝叶斯分类框架模型、锚文本逻辑 回归分类框架模型和支持向量机分类框架模型进行训练,得到对应的朴素贝叶 斯分类模型、锚文本逻辑回归分类模型或支持向量机分类模型。

参见图4,为便于描述,图中仅示出了与步骤S202中的“所述构建用于对 非语言特征信息进行处理的逻辑回归分类模型”部分相关的步骤流程,详述如 下。

步骤S402,构建用于对非语言特征信息进行处理的逻辑回归分类框架模型。

在本发明实施例中,逻辑回归分类框架模型可以借助开源的逻辑回归分类 框架模型。该逻辑回归分类模型框架为本领域技术人员所熟知的常规技术手段, 在此不对具体的框架模型构建细节进行描述。

步骤S404,获取企业和非企业网站链接集合及所述网站链接集合中每个网 站链接所对应的非语言特征信息。

在本发明实施例中,获取企业和非企业网站链接集合的步骤流程与上述步 骤S304的方法相同。

获取企业和非企业网站链接集合中的每个网站链接所对应的非语言特征信 息。首先,判断企业网站链接curl

在本发明的一个示例性实施例中,企业网站链接1所对应的网站内容中存 在电话号码、邮箱、网址、地图和社交信息,则电话号码记录为1,邮箱记录为 1,网址记录为1,地图记录为1,社交信息记录为1,以这些属性特征构建的特 征向量为[1,1,1,1]。若企业网站链接1所对应的网站内容中存在电话号码、邮箱、 网址和地图,则电话号码记录为1,邮箱记录为1,网址记录为1,地图记录为 1,社交信息记录为0,以这些属性特征构建的特征向量为[1,1,1,0]。

同理,对于获取到的非企业网站链接nurl

在本发明的一个优选实施例中,在判断企业网站链接或非企业网站链接所 对应的网页内容中是否存在电话号码、邮箱、网址、地图和社交信息时,根据 预设的属性特征信息-网站类型的对应关系,确定电话号码、邮箱、网址、地图 和社交信息所对应的网站类型。例如,电话号码为区号+号码形式标记为企业网 站,电话号码为11位数字的则标记为非企业网站。

假设企业网站链接1所对应的网站内容中存在电话号码、邮箱、网址、地 图和社交信息,则电话号码记录为1,邮箱记录为1,网址记录为1,地图记录 为1,社交信息记录为1,以这些属性特征构建的特征向量为[1,1,1,1],那么可以 在构建该特征向量时,将每个属性特征的企业或非企业识别标记结果一并标记 到该特征向量中。比如说,电话号码的识别结果为企业网站,邮箱的识别结果 为非企业网站,网址的识别结果为企业网站,地图的识别结果为非企业网站, 社交信息的识别结果为企业网站,那么以这些属性特征构建的特征向量可表示 为[1

通过对上述非语言特征信息做网站类型标记,可以提高网站分类的精确率 和召回率,从而提高分类效果。

步骤S406,用所述非语言特征信息对所述逻辑回归分类框架模型进行训练, 得逻辑回归分类模型。

在本发明实施例中,用上述步骤S404所构建得到的特征向量对所述逻辑回 归分类框架模型进行训练,得逻辑回归分类模型。

在本发明实施例中,在训练得到上述用于对锚文本进行处理的朴素贝叶斯 分类模型、锚文本逻辑回归分类模型和支持向量机分类模型以及用于对非语言 特征信息进行处理的逻辑回归分类模型的过程中,可以采用K折校验的方式选 择最优模型。例如,在训练对对锚文本进行处理的朴素贝叶斯分类模型时,将 所有训练数据平均分为K组,取任意K-1组作为训练数据,剩下的1组作为测 试数据,以此训练模型,共训练K次,得到K个测试集精确度,取精确度最高 的作为最佳模型。

参见图5,作为本发明的一个实施例,提供了一种网站类型分类方法,与图 1所示的一种网站类型分类方法的流程步骤的区别在于,将步骤S106替换为步 骤S502。

步骤S502,根据所述锚文本分类结果和逻辑回归分类结果的数量,选择不 同的分类确定规则,并基于选定的分类确定规则确定所述待分类网站的网站类 型。

在本发明实施例中,所述分类确定规则有多种,例如,可以是基于少数服 从多数的投票规则,也可以是通过预先设定的分类确定规则与锚文本分类结果 和逻辑回归分类结果的数量的映射表,选择相应的分类确定规则。本发明通过 锚文本分类结果和逻辑回归分类结果的数量,选择不同的分类确定规则,最终 确定出待分类网站的网站类型,从而提高分类的精确率和召回率。

本发明对分类确定规则的方式不做具体的限制,凡是按照可行的分类确定 规则确定待分类网站的网站类型的方法,都属于本发明要求保护的范围之内。

参见图6,作为本发明的一个实施例,提供了一种网站类型分类方法,与图 5所示的一种网站类型分类方法的流程步骤的区别在于,步骤S502包括:

步骤S602,计算所述锚文本分类结果和逻辑回归分类结果的数量。

步骤S604,当所述锚文本分类结果和逻辑回归分类结果的数量为三个或者 为四个且其中有至少三个分类结果相同时,按照少数服从多数的投票规则,确 定所述待分类网站的网站类型。

在本发明的示例性实施例中,当锚文本分类结果为RES

表1

可以理解的,当锚文本分类结果和逻辑回归分类结果的数量为三个时,根 据每个分类结果按照少数服从多数的规则,确定相同结果数量最多的那个为待 分类网站的最终分类结果。

参照上述锚文本分类结果和逻辑回归分类结果的数量为三个时的示例,当 锚文本分类结果和逻辑回归分类结果的数量为四个,且其中至少有三个分类结 果相同时,根据每个分类结果按照少数服从多数的规则,确定相同结果数量最 多的那个为待分类网站的最终分类结果。

通过少数服从多数的分类确定规则确定待分类网站的最终分类结果,可以 提高分类的精确率和召回率。

步骤S606,当所述锚文本分类结果和逻辑回归分类结果的数量为四个,且 分类结果为两两相同时,确定所述待分类网站为企业网站。

在本发明的示例性实施例中,当锚文本分类结果为RES

表2

通过上述规则确定待分类网站的网站类型,可以提高网站分类的召回率。

下述为本发明装置实施例,可以用于执行本发明公开的方法实施例。对于 本发明装置的实施例中未披露的细节,请参照本发明的方法实施例。

图7是本发明实施例提供的一种网站类型分类装置700的结构示意图,为 了便于说明,仅示出了于本发明实施例相关的部分。该网站类型分类装置700 包括:

信息获取单元710,用于获取待分类网站的锚文本和非语言特征信息,所述 非语言特征信息包括所述待分类网站中的电话号码、邮箱、网址、地图或社交 信息中的一种或其任意组合;

分类处理单元720,用于根据朴素贝叶斯分类模型、锚文本逻辑回归分类模 型或支持向量机分类模型中的至少两个分类模型分别对所述锚文本进行处理, 生成对应的锚文本分类结果;根据逻辑回归分类模型对所述非语言特征信息进 行处理,生成逻辑回归分类结果;以及

分类结果确定单元730,用于根据所述锚文本分类结果和逻辑回归分类结 果,确定所述待分类网站的网站类型,所述网站类型包括企业网站和非企业网 站。

本发明实施例提供的网站类型分类装置,在对网站进行分类时,除了获取 待分类网站的锚文本并采用多个分类模型进行分类,获得至少两个锚文本分类 结果之外,还获取待分类网站的非语言特征信息,采用逻辑回归分类模型进行 分类,获得逻辑回归分类结果,并根据获得的锚文本分类结果和逻辑回归分类 结果进一步确定待分类网站的分类结果,大大提高了网站类型的分类的精确率 和召回率,分类效果好。

图8是本发明实施例提供的另一种网站类型分类装置700的结构示意图, 为了便于说明,仅示出了于本发明实施例相关的部分。

如图8所示,上述网站类型分类装置700还包括分类模型构建单元740。

分类模型构建单元740,被配置为构建用于对锚文本进行处理的朴素贝叶斯 分类模型、锚文本逻辑回归分类模型和支持向量机分类模型,以及用于对非语 言特征信息进行处理的逻辑回归分类模型。

图9是本发明实施例提供的一种风雷模型构建单元740的结构示意图,为 了便于说明,仅示出了于本发明实施例相关的部分。

如图9所示,上述分类模型构建单元740包括第一构建模块741和第二构 建模块742。

第一构建模块741,用于构建用于对锚文本进行处理的朴素贝叶斯分类框架 模型、锚文本逻辑回归分类框架模型和支持向量机分类框架模型;获取企业和 非企业网站链接集合以及所述网站链接集合中的每个网站链接所对应的锚文 本;用所述锚文本分别对用于对锚文本进行处理的朴素贝叶斯分类框架模型、 锚文本逻辑回归分类框架模型和支持向量机分类框架模型进行训练,得到对应 的朴素贝叶斯分类模型、锚文本逻辑回归分类模型或支持向量机分类模型。

第二构建模块742,用于构建用于对非语言特征信息进行处理的逻辑回归分 类框架模型;获取企业和非企业网站链接集合及所述网站链接集合中每个网站 链接所对应的非语言特征信息;用所述非语言特征信息对所述逻辑回归分类框 架模型进行训练,得逻辑回归分类模型。

在本发明的一个实施例中,上述第一构建模块741具体用于:构建用于对 锚文本进行处理的朴素贝叶斯分类框架模型、锚文本逻辑回归分类框架模型和 支持向量机分类框架模型;获取企业和非企业网站链接集合以及所述网站链接 集合中的每个网站链接所对应的锚文本;对每个所述锚文本进行分词,并统计 每个分词的词频,并根据统计结果将每个网站所对应的锚文本转化为值为1或0 或者为词频-逆文本频率权重的One-Hot编码向量的数值化文本;用所述数值化 文本分别对用于对锚文本进行处理的朴素贝叶斯分类框架模型、锚文本逻辑回 归分类框架模型和支持向量机分类框架模型进行训练。

在本发明的一个实施例中,上述第二构建模块742具体用于:构建用于对 非语言特征信息进行处理的逻辑回归分类框架模型;获取企业和非企业网站链 接集合及所述网站链接集合中每个网站链接所对应的非语言特征信息;将所述 非语言特征信息中的每个属性特征记录为其对应的布尔值,并构建非语言特征 信息的属性特征向量;用所述属性特征向量对所述逻辑回归分类框架模型进行 训练。

在本发明实施例中,上述分类结果确定单元730具体用于:根据所述锚文 本分类结果和逻辑回归分类结果的数量,选择不同的分类确定规则,并基于选 定的分类确定规则确定所述待分类网站的网站类型。

图10是本发明实施例提供的一种分类结果确定单元730的结构示意图,为 了便于说明,仅示出了于本发明实施例相关的部分。

如图10所示,分类结果确定单元730包括计算模块731、第一分类结果确 定模块732和第二分类结果确定模块733。

计算模块731,用于计算所述锚文本分类结果和逻辑回归分类结果的数量。

第一分类结果确定模块732,用于当所述锚文本分类结果和逻辑回归分类结 果的数量为三个或为四个,且其中有至少三个分类结果相同时,按照少数服从 多数的投票规则,确定所述待分类网站的网站类型。

第二分类结果确定模块733,用于当所述锚文本分类结果和逻辑回归分类结 果的数量为四个,且分类结果为两两相同时,确定所述待分类网站为企业网站。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关 该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图11示出了一个实施例中计算机设备的内部结构图。如图11所示,该计 算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接 口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该 计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该 计算机程序被处理器执行时,可使得处理器实现网站类型分类方法。该内存储 器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执 行网站类型分类方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显 示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠 标等。

本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。

在一个实施例中,本申请提供的网站类型分类装置可以实现为一种计算机 程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的 存储器中可存储组成该xx装置的各个程序模块,比如,图11所示的信息获取 单元710、分类处理单元720和分类结果确定单元730。各个程序模块构成的计 算机程序使得处理器执行本说明书中描述的本申请各个实施例的网站类型分类 方法中的步骤。

例如,图11所示的计算机设备可以通过如图11所示的网站类型分类装置 中的信息获取单元710执行步骤S102。计算机设备可通过分类处理单元720执 行步骤S104。计算机设备可通过分类结果确定单元730执行步骤S106。

在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处 理器执行所述计算机程序时实现以下步骤:

获取待分类网站的锚文本和非语言特征信息,所述非语言特征信息包括所 述待分类网站中的电话号码、邮箱、网址、地图或社交信息中的一种或其任意 组合;

根据朴素贝叶斯分类模型、锚文本逻辑回归分类模型或支持向量机分类模 型中的至少两个分类模型分别对所述锚文本进行处理,生成对应的锚文本分类 结果;根据逻辑回归分类模型对所述非语言特征信息进行处理,生成逻辑回归 分类结果;

根据所述锚文本分类结果和逻辑回归分类结果,确定所述待分类网站的网 站类型,所述网站类型包括企业网站和非企业网站。

在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上 存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:

获取待分类网站的锚文本和非语言特征信息,所述非语言特征信息包括所 述待分类网站中的电话号码、邮箱、网址、地图或社交信息中的一种或其任意 组合;

根据朴素贝叶斯分类模型、锚文本逻辑回归分类模型或支持向量机分类模 型中的至少两个分类模型分别对所述锚文本进行处理,生成对应的锚文本分类 结果;根据逻辑回归分类模型对所述非语言特征信息进行处理,生成逻辑回归 分类结果;

根据所述锚文本分类结果和逻辑回归分类结果,确定所述待分类网站的网 站类型,所述网站类型包括企业网站和非企业网站。

应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指 示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本 文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以 其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或 者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以 在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而 是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替 地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易 失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据 库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存 储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包 括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、 同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。

相关技术
  • 一种网站类型分类方法、装置、计算机设备及存储介质
  • 一种商场类型分类方法、装置、存储介质及电子设备
技术分类

06120112186103