掌桥专利:专业的专利平台
掌桥专利
首页

一种热点新闻抓取方法、装置及服务器

文献发布时间:2023-06-19 09:27:35


一种热点新闻抓取方法、装置及服务器

技术领域

本发明涉及数据挖掘技术领域,具体涉及一种热点新闻抓取方法、装置及服务器。

背景技术

新闻是指最新发生的,人们未知、欲知、应知的事实的报道。新点新闻是指互联网中的热门新闻。热点新闻挖掘是指利用算法技术识别互联网中的热门新闻,然后分发给用户,抢占用户需求。

热点新闻的挖掘与提供极大地方便了用户对新闻信息的获取。然而,在海量数据中,能准确地挖掘到需要的热点新闻十分困难,传统方法通常采用人工监控互联网站上的新闻来判断热点新闻,这种方式显然需要较大人力成本,且时效性较差,相应地也降低了用户获取热点新闻的效率。还有通过简单聚类算法技术,利用爬虫技术实时抓取各个站点新闻,并通过聚类技术对新闻做聚类,但由于爬虫抓取范围较大,所以导致抓取效率较低,针对性不高。

发明内容

针对现有技术存在的不足,本发明提供了一种热点新闻抓取方法、装置及服务器,其应用时,可以有针对性地抓取移动终端上相应应用程序的热点新闻,提高抓取效率。

第一方面,本发明提供一种热点新闻抓取方法,包括:

获取移动终端通知系统的通知服务类;

根据通知服务类抓取移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间;

判定通知实例对应的应用程序包名是否为目标应用程序包名;

当通知实例对应的应用程序包名与目标应用程序包名一致时,将通知实例与通知时间打包成格式数据包,并上传至服务器。

基于上述发明内容,通过获取移动终端通知系统的通知服务类,即可通过通知服务类很方便地抓取到移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间,移动终端上某些固定应用程序的通知实例即为相应的热点新闻,获取到其通知实例对应的应用程序包名即可判定其是否为目标应用程序,当判定对应应用程序包名为目标应用程序包名后就可以将其通知实例和通知时间单独提取出来,整理成格式数据包后上传至服务器进行及时的保存。通过这样的处理过程,可以有针对性地抓取移动终端上相应应用程序的热点新闻,提高抓取效率。

在一个可能的设计中,所述通知实例包含通知标题、通知内容及通知子内容,所述将通知实例与通知时间打包成格式数据包,包括:

汇总通知标题、通知内容、通知子内容及通知时间;

获取数据模板,将通知标题、通知内容、通知子内容及通知时间整理成JSON数据格式填入数据模板;

将填写完成的数据模板压缩为数据包,得到格式数据包。

在一个可能的设计中,所述方法还包括:将格式数据包进行密钥加密,并标记加密算法标识后上传至服务器。

在一个可能的设计中,所述方法还包括:

接收服务器反馈的数据传输结果,所述数据传输结果表征数据传输完成或数据传输失败;

在数据传输失败时,重新加密格式数据包并上传至服务器。

在一个可能的设计中,所述判定通知实例对应的应用程序包名是否为目标应用程序包名,包括:

获取预置目标应用程序包名来构建目标应用程序包名清单;

将通知实例对应的应用程序包名在目标应用程序包名清单中进行检索匹配,匹配成功即判定通知实例对应的应用程序包名为目标应用程序包名。

第二方面,本发明提供一种热点新闻抓取装置,包括:

获取单元,用于获取移动终端通知系统的通知服务类;

抓取单元,用于根据通知服务类抓取移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间;

判定单元,用于判定通知实例对应的应用程序包名是否为目标应用程序包名;

传送单元,用于在通知实例对应的应用程序包名与目标应用程序包名一致时,将通知实例与通知时间打包成格式数据包,并上传至服务器。

在一个可能的设计中,所述系统还包括:

加密单元,用于将格式数据包进行密钥加密,并标记加密算法标识。

在一个可能的设计中,所述判定单元包括:

构建子单元:用于获取预置目标应用程序包名来构建目标应用程序包名清单;

检索子单元:用于将通知实例对应的应用程序包名在目标应用程序包名清单中进行检索匹配,匹配成功即判定通知实例对应的应用程序包名为目标应用程序包名。

第三方面,本发明提供一种服务器,包括:

存储器,用于存储指令;

处理器,用于读取所述存储器中存储的指令,并根据指令执行上述第一方面中任意一种所述的方法。

第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行上述第一方面中任意一种所述的方法。

第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行上述第一方面中任意一种所述的方法。

本发明的有益效果为:

本发明通过获取移动终端通知系统的通知服务类,即可通过通知服务类很方便地抓取到移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间,移动终端上某些固定应用程序的通知实例即为相应的热点新闻,获取到其通知实例对应的应用程序包名即可判定其是否为目标应用程序,当判定对应应用程序包名为目标应用程序包名后就可以将其通知实例和通知时间单独提取出来,整理成格式数据包后上传至服务器进行及时的保存。通过这样的处理过程,可以有针对性地抓取移动终端上相应应用程序的热点新闻,提高抓取效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的方法流程示意图;

图2为本发明的装置结构示意图;

图3为本发明的服务器构成示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解,术语第一、第二等仅用于区分描述,而不能理解为指示或暗示相对重要性。尽管本文可以使用术语第一、第二等等来描述各种单元,这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。

应当理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。

应当理解,在本发明的描述中,术语“上”、“竖直”、“内”、“外”等指示的方位或位置关系,是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

应当理解,当将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,当将单元称作与另一个单元“直接相连”或“直接耦合”时,不存在中间单元。应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

本文使用的术语仅用于描述特定实施例,并且不意在限制本发明的示例实施例。如本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”、和/或“包含了”当在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实施例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。

实施例1:

本实施例提供了一种热点新闻抓取方法,如图1所示,包括以下步骤:

S101.获取移动终端通知系统的通知服务类。

具体实施时,可通过下载安装或者程序植入的方式,在移动终端保存并运行相应的抓取应用程序,通过抓取应用程序来获取移动终端通知系统的通知服务类,移动终端通知系统的通知服务类可用于在移动终端的通知栏中显示相应的通知信息,即包括通知实例、通知实例对应的应用程序包名和通知时间等。

S102.根据通知服务类抓取移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间。

具体实施时,可根据通知服务类来抓取移动终端通知栏中各应用程序的通知实例,以及通知实例对应的应用程序包名和通知时间,以便后续通过应用程序的筛选来获取需要的通知实例和通知时间。

S103.判定通知实例对应的应用程序包名是否为目标应用程序包名。

具体实施时,判定通知实例对应的应用程序包名是否为目标应用程序包名的过程可包括:

获取预置目标应用程序包名来构建目标应用程序包名清单,预置目标应用程序包名可根据实际情况选取所需的应用程序包名;

将通知实例对应的应用程序包名在目标应用程序包名清单中进行检索匹配,匹配成功即判定通知实例对应的应用程序包名为目标应用程序包名。

S104.当通知实例对应的应用程序包名与目标应用程序包名一致时,将通知实例与通知时间打包成格式数据包,并上传至服务器。

所述通知实例包含通知标题、通知内容及通知子内容,所述将通知实例与通知时间打包成格式数据包,包括:

汇总通知标题、通知内容、通知子内容及通知时间;

获取数据模板,将通知标题、通知内容、通知子内容及通知时间整理成JSON数据格式填入数据模板;

将填写完成的数据模板压缩为数据包,得到格式数据包;

将格式数据包进行密钥加密,并标记加密算法标识后上传至服务器。

JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。其采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。

将格式数据包进行密钥加密时,可选用相应的加密算法来进行加密,加密算法可选包括但不限于MD5算法、SHA1算法、HMAC算法、DES算法、3DES算法、AES算法、RSA算法和ECC算法中一种,每种加密算法对应有相应的识别标识,选取哪种加密算法即可在加密后的格式数据包上标记对应的识别标识即可,以便于服务器进行高效、安全地数据解密。

在将加密格式数据包上传服务器时,接收服务器反馈的数据传输结果,所述数据传输结果表征数据传输完成或数据传输失败;在数据传输失败时,可重新加密格式数据包并上传至服务器。

实施例2:

本实施例提供一种热点新闻抓取装置,如图2所示,包括:

获取单元,用于获取移动终端通知系统的通知服务类;

抓取单元,用于根据通知服务类抓取移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间;

判定单元,用于判定通知实例对应的应用程序包名是否为目标应用程序包名;

传送单元,用于在判定通知实例对应的应用程序包名为目标应用程序包名后,将通知实例与通知时间打包成格式数据包,并上传至服务器。

在一个可能的设计中,所述系统还包括:

加密单元,用于将格式数据包进行密钥加密,并标记加密算法标识。

在一个可能的设计中,所述判定单元包括:

构建子单元:用于获取预置目标应用程序包名来构建目标应用程序包名清单;

检索子单元:用于将通知实例对应的应用程序包名在目标应用程序包名清单中进行检索匹配,匹配成功即判定通知实例对应的应用程序包名为目标应用程序包名。

在一个可能的设计中,所述通知实例包含通知标题、通知内容及通知子内容,所述传送单元包括:

汇总子单元,用于汇总通知标题、通知内容、通知子内容及通知时间;

整理子单元,用于获取数据模板,将通知标题、通知内容、通知子内容及通知时间整理成JSON数据格式填入数据模板;

压缩子单元,用于将填写完成的数据模板压缩为数据包,得到格式数据包。

实施例3:

本实施例提供一种服务器,如图3所示,包括:

存储器,用于存储指令;

处理器,用于读取所述存储器中存储的指令,并根据指令执行实施例1中所述的热点新闻抓取方法。

所述存储器可以但不限于包括随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等;所述处理器可以但不限于包括单片机、ARM处理器等。

实施例4:

本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行实施例1中所述的热点新闻抓取方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

实施例5:

本实施例提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行实施例1中所述的热点新闻抓取方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤,而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照实施例的方法、装置、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

相关技术
  • 一种热点新闻抓取方法、装置及服务器
  • 一种热点新闻挖掘方法、装置及服务器
技术分类

06120112169367