掌桥专利:专业的专利平台
掌桥专利
首页

一种大数据海量数据快速检索方法

文献发布时间:2023-06-19 13:45:04



技术领域

本发明涉及大数据处理技术领域,具体为一种大数据海量数据快速检索方法。

背景技术

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱,大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点,企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。

信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段,狭义的信息检索仅指信息查询(Information Search),即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程,广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程,又称信息的存储与检索,一般情况下,信息检索指的就是广义的信息检索。

随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据,内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

大数据需要特殊的技术,以有效地处理经过一段时间内大量增长的的数据,数据量变得非常庞大后,关系型数据库查询的效率会变得很低,而且每来一个URL就启动一次数据库查询就太小题大做,太消耗内存了,因此需要在海量数据中快速检索的方法。

发明内容

鉴于现有技术中所存在的问题,本发明公开了一种大数据海量数据快速检索方法,采用的技术方案是,包括以下步骤:

步骤一,建立大数据海量数据存储系统,用以保存日益增长的大量数据;

步骤二,建立分布式数据库服务系统,用以分布的信息获取和计算以及对此进行的数据统一,代理负责向用户提供查询接口,并与其它代理进行互换,实现检索服务器之间的信息交换,且查询可以重定向,即如果一个索引数据库没有满足查询要求,它可以将查询请求发送到其它检索服务器上;

步骤三,创建海量数据索引云服务平台,将从网口连续抓取的数据包流按时间段切分,将按时间段切分得到的数据包流切分为多个数据块,每个数据块中包含若干个数据包,并记录所述数据块,所述记录是指在内存中记录数据块编号和数据块长度,供后续生成摘要数据使用;

步骤四,用户在网络终端输入数据关键词,产生检索请求发送到分布式数据节点,所述分布式数据节点接收数据关键词,通过历史词库识别出所述数据关键词包含原子关键词的数量,其中所述历史词库包括多个所述原子关键词和每个所述原子关键词的权重值,若所述检索关键词包含至少两个所述原子关键词,则将所述检索关键词作为组合关键词,根据所述组合关键词中所有所述原子关键词的权重值计算所述组合关键词的权重值;

步骤五,所述分布式数据节点将所述检索请求发送至网络中的其他所述分布式数据节点,所有所述分布式数据节点在所述海量数据索引云服务平台中同步进行并行检索并标记已检索数据索引;

步骤六,发现数据关键词相关联目标数据索引,所述分布式数据节点根据数据索引在所述数据存储系统中查询带有数据关键词的数据,所述分布式数据节点并行实现所述数据关键词的检索,将检索空间划分成多个子空间,然后通过任务调度在各子空间进行并行检索,最后汇总形成最终检索结果;

步骤七,所述分布式数据服务系统根据用户搜索习惯大数据筛选排序查询结果,将所述查询结果发回至所述网络终端上。作为本发明的一种优选技术方案,所述大数据海量数据存储系统包括服务器硬件存储与云端存储,所述云端存储在网络中去中心化分布设立,云存储是在云计算概念上延伸和衍生发展出来的一个新的概念,云计算是分布式处理、并行处理和网格计算的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户,存储管理可以实现自动化和智能化,所有的存储资源被整合到一起,客户看到的是单一存储空间,提高了存储效率,通过虚拟化技术解决了存储空间的浪费,可以自动重新分配数据,提高了存储空间的利用率,同时具备负载均衡、故障冗余功能,云存储能够实现规模效应和弹性扩展。

作为本发明的一种优选技术方案,所述分布式数据库服务系统包括若干个所述分布式数据节点且通过网络相互连通,分布式数据库系统是在集中式数据库系统的基础上发展起来的,是计算机技术和网络技术结合的产物,分布式数据库系统适合于单位分散的部门,允许各个部门将其常用的数据存储在本地,实施就地存放本地使用,从而提高响应速度,降低通信费用,分布式数据库系统与集中式数据库系统相比具有可扩展性。

作为本发明的一种优选技术方案,所述海量数据索引云服务平台基于云端算力进行索引建立与修改,大大加快数据的检索速度,保证数据库表中每一行数据的唯一性,加速表和表之间的连接,在使用分组和排序子句进行数据检索时。

作为本发明的一种优选技术方案,所述分布式数据节点进行并行查询并汇总信息至其中一部所述分布式数据节点之上。

作为本发明的一种优选技术方案,所述分布式数据节点设立检索条件,对已检索的所述数据索引建立已检索标记,所述分布式数据节点只对未标记的所述数据索引进行并行检索,检索信息扩大对网络的覆盖范围,网络数据增长速度比独立引擎索引网络数据的速度快很多,导致主流的独立搜索引擎对网络的覆盖范围逐步下降,而并行搜索引擎可以缓解该矛盾,提高信息检索的扩展性,使用并行搜索引擎检索网络信息比使用集中化的独立搜索引擎更容易得到扩展,并行检索可以同时使用多个搜索引擎,用户只需要提交一次查询就可以使用多个独立引擎,不必熟悉每个独立引擎的检索界面,且并行搜索引擎可以对检索结果进行排序和冗余处理,提高检索效率。

作为本发明的一种优选技术方案,多个所述分布式数据节点根据所述数据索引在所述数据存储系统中同步搜索所述数据关键词,并将所述数据关键词相关的信息汇总至所述网络终端最近的所述分布式数据节点上。

作为本发明的一种优选技术方案,所述分布式数据节点基于用户的搜索历史、浏览历史对所述查询结果进行权重分析并排序,将权重较高的所述查询结果排在前列。

作为本发明的一种优选技术方案,所述分布式数据节点建立对应所述网络终端的索引缓存。

本发明的有益效果:本发明通过建立大数据海量数据存储系统,用以存储日益增长的大数据,利用存储服务器与云端存储相结合,保证了大数据的数据安全,确保存储空间的可扩展,提升数据存放可靠性,通过建立分布式数据库服务系统,利用分布式数据节点对用户提交的数据关键词进行并行检索,极大提高检索速度,初步得到目标检索区域,通过根据初步反馈的检索结果再对海量数据进行进一步搜索,将检索结果基于用户网络使用习惯大数据进行筛选并排序,更加符合用户的需求。

具体实施方式

实施例1

本发明公开了一种大数据海量数据快速检索方法,采用的技术方案是,包括以下步骤:

步骤一,建立大数据海量数据存储系统,用以保存日益增长的大量数据;

步骤二,建立分布式数据库服务系统,用以分布的信息获取和计算以及对此进行的数据统一,代理负责向用户提供查询接口,并与其它代理进行互换,实现检索服务器之间的信息交换,且查询可以重定向,即如果一个索引数据库没有满足查询要求,它可以将查询请求发送到其它检索服务器上;

步骤三,创建海量数据索引云服务平台,将从网口连续抓取的数据包流按时间段切分,将按时间段切分得到的数据包流切分为多个数据块,每个数据块中包含若干个数据包,并记录所述数据块,所述记录是指在内存中记录数据块编号和数据块长度,供后续生成摘要数据使用;

步骤四,用户在网络终端输入数据关键词,产生检索请求发送到分布式数据节点,所述分布式数据节点接收数据关键词,通过历史词库识别出所述数据关键词包含原子关键词的数量,其中所述历史词库包括多个所述原子关键词和每个所述原子关键词的权重值,若所述检索关键词包含至少两个所述原子关键词,则将所述检索关键词作为组合关键词,根据所述组合关键词中所有所述原子关键词的权重值计算所述组合关键词的权重值;

步骤五,所述分布式数据节点将所述检索请求发送至网络中的其他所述分布式数据节点,所有所述分布式数据节点在所述海量数据索引云服务平台中同步进行并行检索并标记已检索数据索引;

步骤六,发现数据关键词相关联目标数据索引,所述分布式数据节点根据数据索引在所述数据存储系统中查询带有数据关键词的数据,所述分布式数据节点并行实现所述数据关键词的检索,将检索空间划分成多个子空间,然后通过任务调度在各子空间进行并行检索,最后汇总形成最终检索结果;

步骤七,所述分布式数据服务系统根据用户搜索习惯大数据筛选排序查询结果,将所述查询结果发回至所述网络终端上。

作为本发明的一种优选技术方案,所述大数据海量数据存储系统包括服务器硬件存储与云端存储,所述云端存储在网络中去中心化分布设立,云存储是在云计算概念上延伸和衍生发展出来的一个新的概念,云计算是分布式处理、并行处理和网格计算的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户,存储管理可以实现自动化和智能化,所有的存储资源被整合到一起,客户看到的是单一存储空间,提高了存储效率,通过虚拟化技术解决了存储空间的浪费,可以自动重新分配数据,提高了存储空间的利用率,同时具备负载均衡、故障冗余功能,云存储能够实现规模效应和弹性扩展,降低运营成本,避免资源浪费。

作为本发明的一种优选技术方案,所述分布式数据库服务系统包括若干个所述分布式数据节点且通过网络相互连通,分布式数据库系统是在集中式数据库系统的基础上发展起来的,是计算机技术和网络技术结合的产物,分布式数据库系统适合于单位分散的部门,允许各个部门将其常用的数据存储在本地,实施就地存放本地使用,从而提高响应速度,降低通信费用,分布式数据库系统与集中式数据库系统相比具有可扩展性,通过增加适当的数据冗余,提高系统的可靠性。

作为本发明的一种优选技术方案,所述海量数据索引云服务平台基于云端算力进行索引建立与修改,大大加快数据的检索速度,创建唯一性索引,保证数据库表中每一行数据的唯一性,加速表和表之间的连接,在使用分组和排序子句进行数据检索时,可以显著减少查询中分组和排序的时间。

作为本发明的一种优选技术方案,所述分布式数据节点进行并行查询并汇总信息至其中一部所述分布式数据节点之上。

作为本发明的一种优选技术方案,所述分布式数据节点设立检索条件,对已检索的所述数据索引建立已检索标记,所述分布式数据节点只对未标记的所述数据索引进行并行检索,检索信息扩大对网络的覆盖范围,网络数据增长速度比独立引擎索引网络数据的速度快很多,导致主流的独立搜索引擎对网络的覆盖范围逐步下降,而并行搜索引擎可以缓解该矛盾,提高信息检索的扩展性,使用并行搜索引擎检索网络信息比使用集中化的独立搜索引擎更容易得到扩展,并行检索可以同时使用多个搜索引擎,用户只需要提交一次查询就可以使用多个独立引擎,不必熟悉每个独立引擎的检索界面,且并行搜索引擎可以对检索结果进行排序和冗余处理,提高检索效率,有时并行搜索的检索速度低于单个独立搜索引擎,但并行检索可以获得较大的结果集,为用户提供更有效的检索信息。

作为本发明的一种优选技术方案,多个所述分布式数据节点根据所述数据索引在所述数据存储系统中同步搜索所述数据关键词,并将所述数据关键词相关的信息汇总至所述网络终端最近的所述分布式数据节点上,便于将检索结果快速发送至用户的网络终端。

作为本发明的一种优选技术方案,所述分布式数据节点基于用户的搜索历史、浏览历史对所述查询结果进行权重分析并排序,将权重较高的所述查询结果排在前列,提高检索结果的有效性和关联性,提升用户体验。

作为本发明的一种优选技术方案,所述分布式数据节点建立对应所述网络终端的索引缓存,便于再次读取使用。

上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

技术分类

06120113792709