掌桥专利:专业的专利平台
掌桥专利
首页

服务于大数据挖掘分析的数据筛选方法及数据分析服务器

文献发布时间:2023-06-19 11:02:01


服务于大数据挖掘分析的数据筛选方法及数据分析服务器

技术领域

本申请涉及大数据挖掘分析技术领域,特别涉及一种服务于大数据挖掘分析的数据筛选方法及数据分析服务器。

背景技术

大数据(Big Data)是信息技术高速发展过程中催生的产物,通俗而言,大数据的出现可以理解为技术人员保存数据的能力以及使用数据的能力得到提升的直接表现。大数据除了数据量的庞大之外,其数据价值也在被不断方法,也即大数据对应大价值。

现目前,随着新一代信息技术的应用落地,移动互联网(Mobile Internet)、物联网(Internet of Things,IOT)、社交网络(Social Network Service,SNS)、数字家庭(homenetwork)、电子商务(Electronic Commerce)等应用会不断产生大数据,这些大数据能够为我们后续的工作和生活提供非常有用的服务,因此,对大数据进行数据挖掘和分析是非常有必要的。

相关的大数据挖掘技术通常是从数据服务器或者业务平台上采集相关大数据然后进行数据挖掘,但是随着大数据规模的不断扩大,有相当一部分的大数据可能存在重复,这样可能造成针对一些重复的或者高度相似的大数据挖掘,从而降低数据挖掘效率,因此,如何实现对有价值的大数据的筛选以提高数据挖掘效率并满足实时的大数据挖掘业务需求,是现目前需要考虑的一个技术问题。

发明内容

为改善上述技术问题,本申请实施例提供了以下方案。

本申请实施例之一提供一种服务于大数据挖掘分析的数据筛选方法,包括:

接收数据筛选指示,其中,所述数据筛选指示用于指示筛选具有潜在价值的业务大数据;

响应于所述数据筛选指示,在目标云业务平台在第一业务处理时段内汇集的平台业务大数据中,采用时序区间大小为t的数据截取线程获取一段时序区间大小为t的在时序上不间断的数据流作为候选业务大数据,其中,所述第一业务处理时段的持续时长为预设时长值,t为正整数;

基于参考业务大数据判断所述候选业务大数据是否为具有潜在价值的业务大数据,其中,所述参考业务大数据为所述目标云业务平台在第二业务处理时段内汇集的平台业务大数据,所述第二业务处理时段的失效时刻不迟于所述第一业务处理时段的激活时刻,所述第二业务处理时段的持续时长大于等于所述预设时长值。

可选的,基于参考业务大数据判断所述候选业务大数据是否为具有潜在价值的业务大数据包括:

在所述候选业务大数据中的平台业务大数据在所述第一业务处理时段内的第一用户画像更新状态与所述参考业务大数据中的平台业务大数据在所述第二业务处理时段内的第二用户画像更新状态存在强相关的前提下,确定所述候选业务大数据不为具有潜在价值的业务大数据;

在所述候选业务大数据中的平台业务大数据在所述第一业务处理时段内的第一用户画像更新状态与所述参考业务大数据中的平台业务大数据在所述第二业务处理时段内的第二用户画像更新状态不存在强相关的前提下,确定所述候选业务大数据为具有潜在价值的业务大数据。

可选的,所述参考业务大数据为n个,其中,基于参考业务大数据判断所述候选业务大数据是否为具有潜在价值的业务大数据包括:

在所述候选业务大数据中的平台业务大数据在所述第一业务处理时段内的第一用户画像更新状态与至少m个所述参考业务大数据中的平台业务大数据在所述第二业务处理时段内的第二用户画像更新状态存在强相关的前提下,确定所述候选业务大数据不为具有潜在价值的业务大数据,其中,整数m为不大于整数n;

在所述第一用户画像更新状态不与至少m个所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态存在强相关的前提下,确定所述候选业务大数据为具有潜在价值的业务大数据。

可选的,按照如下方式判断所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态是否存在强相关:

获取所述候选业务大数据中t个第一有效业务时序节点的平台业务大数据,并获取所述参考业务大数据中t个第二有效业务时序节点的平台业务大数据,其中,所述第一业务处理时段为第一云业务激活周期内的业务处理时段,所述第二业务处理时段为第二云业务激活周期内的业务处理时段,所述第一有效业务时序节点在所述第一云业务激活周期内的时序位置信息与相应的一个所述第二有效业务时序节点在所述第二云业务激活周期内的时序位置信息相同,t为大于1的整数;

根据所述t个第一有效业务时序节点的平台业务大数据和所述t个第二有效业务时序节点的平台业务大数据确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态是否存在强相关。

可选的,根据所述t个第一有效业务时序节点的平台业务大数据和所述t个第二有效业务时序节点的平台业务大数据确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态是否存在强相关包括:

在t个第一用户画像数据集中画像类别相关度在第一相关度区间内的用户画像数据集的数目达到k个的前提下,确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态存在强相关,其中,所述第一用户画像数据集为第一图数据轨迹片段、第二图数据轨迹片段、第三图数据轨迹片段以及第四图数据轨迹片段组合成的用户画像数据集,所述第一图数据轨迹片段为第一图数据轨迹上第三有效业务时序节点与第四有效业务时序节点之间的图数据轨迹,所述第二图数据轨迹片段为所述第一图数据轨迹上所述第四有效业务时序节点与第二图数据轨迹上第五有效业务时序节点之间的图数据轨迹,所述第三图数据轨迹片段为所述第二图数据轨迹上所述第五有效业务时序节点与第六有效业务时序节点之间的图数据轨迹,所述第四图数据轨迹片段为所述第一图数据轨迹上所述第三有效业务时序节点与所述第二图数据轨迹上所述第六有效业务时序节点之间的图数据轨迹,所述第一图数据轨迹用于表示所述候选业务大数据中包括的所述第一云业务激活周期内多个有效业务时序节点上的平台业务大数据,所述第二图数据轨迹用于表示所述参考业务大数据中包括的所述第二云业务激活周期内多个有效业务时序节点上的平台业务大数据,所述t个第一有效业务时序节点包括不间断的所述第三有效业务时序节点和所述第四有效业务时序节点,所述t个第二有效业务时序节点包括不间断的所述第五有效业务时序节点和所述第六有效业务时序节点,所述第五有效业务时序节点在所述第二云业务激活周期的时序位置信息与所述第四有效业务时序节点在所述第一云业务激活周期内的时序位置信息相同,所述第六有效业务时序节点在所述第二云业务激活周期的时序位置信息与所述第三有效业务时序节点在所述第一云业务激活周期内的时序位置信息相同,整数k不大于整数t;

在所述t个第一用户画像数据集中画像类别相关度在所述第一相关度区间内的用户画像数据集的数目未达到k个的前提下,确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态不与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态存在强相关。

可选的,根据所述t个第一有效业务时序节点的平台业务大数据和所述t个第二有效业务时序节点的平台业务大数据确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态是否存在强相关包括:

在所述t个第一有效业务时序节点中第七有效业务时序节点的数目达到i个的前提下,确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态存在强相关,其中,所述第七有效业务时序节点的平台业务大数据与所述t个第二有效业务时序节点中的第八有效业务时序节点的平台业务大数据之间的画像类别相关度之差在第二相关度区间内,所述第八有效业务时序节点在所述第二云业务激活周期的时序位置信息与所述第七有效业务时序节点在所述第一云业务激活周期内的时序位置信息相同,整数i不大于整数t;

在所述t个第一有效业务时序节点中所述第七有效业务时序节点的数目未达到i个的前提下,确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态不存在强相关。

可选的,根据所述t个第一有效业务时序节点的平台业务大数据和所述t个第二有效业务时序节点的平台业务大数据确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态是否存在强相关包括:

在所述t个第一有效业务时序节点中存在不间断的第九有效业务时序节点的数目至少为i个的前提下,确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态不存在强相关,其中,所述第九有效业务时序节点的平台业务大数据与所述t个第二有效业务时序节点中的第八有效业务时序节点的平台业务大数据之间的画像类别相关度之差不在第二相关度区间内,所述第八有效业务时序节点在所述第二云业务激活周期的时序位置信息与所述第九有效业务时序节点在所述第一云业务激活周期内的时序位置信息相同,整数i不大于整数t;

在所述t个第一有效业务时序节点中存在不间断的第九有效业务时序节点的数目小于i个的前提下,确定所述候选业务大数据中的平台业务大数据的所述第一用户画像更新状态与所述参考业务大数据中的平台业务大数据的所述第二用户画像更新状态存在强相关;

其中,确定所述候选业务大数据为具有潜在价值的业务大数据包括:

确定所述候选业务大数据中位于不间断的所述第九有效业务时序节点上的平台业务大数据为具有潜在价值的业务大数据。

可选的,获取候选业务大数据包括:获取在第一云业务激活周期中所述第一业务处理时段内汇集的平台业务大数据为所述候选业务大数据,其中,所述第一业务处理时段的激活时刻在所述第一云业务激活周期内的时序位置信息与所述第二业务处理时段的激活时刻在第二云业务激活周期内的时序位置信息相同,所述第一业务处理时段的失效时刻在所述第一云业务激活周期内的时序位置信息与所述第二业务处理时段的失效时刻在所述第二云业务激活周期内的时序位置信息相同。

可选的,所述方法还包括:

响应目标服务终端发送的数据挖掘请求,基于预设的卷积神经网络对所述候选业务大数据进行数据挖掘,得到基于用户兴趣倾向的数据挖掘结果,并将所述数据挖掘结果反馈给所述目标服务终端;其中,所述目标服务终端为服务商平台对应的终端;

其中,响应目标服务终端发送的数据挖掘请求,基于预设的卷积神经网络对所述候选业务大数据进行数据挖掘,得到基于用户兴趣倾向的数据挖掘结果,包括:

基于所述数据挖掘请求中的业务需求标签获取所述候选业务大数据对应的待进行数据挖掘的数据特征内容,将所述待进行数据挖掘的数据特征内容输入到更新数据特征识别度解析模型中进行解析,得到当前数据特征识别度,所述更新数据特征识别度解析模型是将初始数据特征识别度解析模型进行迭代更新后得到的卷积神经网络模型;

从更新数据特征识别度对应的用户兴趣热度值区间中确定所述当前数据特征识别度对应的目标数据特征识别度对应的用户兴趣热度值区间,其中,所述更新数据特征识别度对应的用户兴趣热度值区间与关联数据特征识别度存在对应关系,所述关联数据特征识别度是根据与更新数据特征识别度对应的用户兴趣热度值区间关联的初始数据特征识别度对应的用户兴趣热度值区间的兴趣倾向标签确定的,所述更新数据特征识别度对应的用户兴趣热度值区间的配置策略是根据初始数据特征识别度的统计结果信息和更新数据特征识别度确定的,所述初始数据特征识别度是将预设数据特征内容样本输入所述初始数据特征识别度解析模型得到的,所述更新数据特征识别度是将所述预设数据特征内容样本输入所述更新数据特征识别度解析模型得到的;

根据所述对应关系确定所述目标数据特征识别度对应的用户兴趣热度值区间对应的目标关联数据特征识别度;

基于所述目标关联数据特征识别度与预设关联数据特征识别度对应的全局兴趣倾向内容集确定所述待进行数据挖掘的数据特征内容对应的基于用户兴趣倾向的数据挖掘结果。

本申请实施例之一提供一种数据分析服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行上述的方法。

在本发明实施例中,在获取到数据筛选指示时,可获取待数据筛选的候选业务大数据,候选业务大数据为目标云业务平台在第一业务处理时段内汇集的平台业务大数据,第一业务处理时段的持续时长为预设时长值;然后基于参考业务大数据判断候选业务大数据是否为具有潜在价值的业务大数据,参考业务大数据为目标云业务平台在第二业务处理时段内汇集的平台业务大数据,换言之,可通过分析候选业务大数据之前的业务大数据(即参考业务大数据),即可判别候选业务大数据是否为具有潜在价值的业务大数据,而不用获取过量的用于进行数据价值分析的参考业务大数据,且由于仅需对参考业务大数据和候选业务大数据进行处理,故不仅可以减少数据分析服务器的数据处理压力,还能够基于时序层面尽可能地提高筛选具有潜在价值的业务大数据的可信度和效率,可以解决相关技术中判断业务大数据是否为具有潜在价值的业务大数据的处理过程繁琐、准确性差且可信度低下的技术问题,进而达到提高针对具有潜在价值的业务大数据的判断和筛选的效率和可信度的技术效果。此外,由于在筛选具有潜在价值的业务大数据时是充分依据业务处理时段进行的,因而能够保证筛选出的具有潜在价值的业务大数据能够满足实时的大数据挖掘业务需求,为后续的大数据挖掘分析提供准确可靠的大数据原料。

在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。

附图说明

本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:

图1是根据本发明的一些实施例所示的一种示例性服务于大数据挖掘分析的数据筛选系统的框图;

图2是根据本发明的一些实施例所示的一种示例性服务于大数据挖掘分析的数据筛选方法和/或过程的流程图;

图3是根据本发明的一些实施例所示的一种示例性服务于大数据挖掘分析的数据筛选装置的框图;以及

图4是根据本发明的一些实施例所示的一种示例性数据分析服务器中硬件和软件组成的示意图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。

应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。

根据本发明实施例的一方面,提供了一种服务于大数据挖掘分析的数据筛选方法的方法实施例。

可选地,在本实施例中,上述服务于大数据挖掘分析的数据筛选方法可以应用于如图1所示的由数据分析服务器110和大数据业务设备120所构成的硬件环境中。如图1所示,数据分析服务器110通过通信网络与大数据业务设备120进行连接,可用于为大数据业务设备120或大数据业务设备120上安装的应用程序客户端提供各类大数据业务服务(如政企云业务服务、在线娱乐业务服务、电商购物业务服务等),可在数据分析服务器110上或独立于数据分析服务器110设置关系型数据库130,用于为数据分析服务器110提供数据存储服务,上述通信网络包括但不限于:广域网、城域网或局域网,大数据业务设备120并不限定于PC、手机、平板电脑等。

本发明实施例的服务于大数据挖掘分析的数据筛选方法可以由数据分析服务器110来执行。图2是根据本发明实施例的一种可选的服务于大数据挖掘分析的数据筛选方法的流程图,如图2所示,该方法可以包括以下步骤。

步骤S202,数据分析服务器接收数据筛选指示,数据筛选指示用于指示筛选具有潜在价值的业务大数据。

步骤S204,响应于数据筛选指示,数据分析服务器获取候选业务大数据,候选业务大数据为目标云业务平台在第一业务处理时段内汇集的平台业务大数据,第一业务处理时段的持续时长为预设时长值。

可选地,候选业务大数据的获取可以通过数据截取线程(比如数据爬虫)的形式获取,通过数据截取线程可以选择出固定时段内的业务大数据,如利用时序区间大小为t的数据截取线程,可以选择出一段时序区间大小为t的在时序上不间断的数据流。在数据截取线程的时序区间大小选定后,会维持不变,仅通过改变数据截取线程的起始时序位置信息,就可以选择出固定时段内的业务大数据。在本实施例中,时序区间大小可以理解为时段时长,比如,若t为10,可以理解为时段时长为10s,或者为10min,或者为10h。

上述平台业务大数据即在云业务平台运行过程中汇集的业务大数据,云业务平台的类型包括但不局限于企业服务云业务平台、在线购物云业务平台、科研云业务平台、工业互联网云业务平台、远程办公云业务平台等,以远程办公云业务平台为例,平台业务大数据可以为云业务平台中某个办公事项的业务操作数据、某个办公事项的服务反馈数据、在某个云业务平台业务环境中参与云业务平台的业务协作的业务操作数据、办公事项的业务交互热度等。

步骤S206,数据分析服务器基于参考业务大数据判断候选业务大数据是否为具有潜在价值的业务大数据,参考业务大数据为目标云业务平台在第二业务处理时段内汇集的平台业务大数据,第二业务处理时段的失效时刻不迟于第一业务处理时段的激活时刻,第二业务处理时段的持续时长大于等于预设时长值。

上述的候选业务大数据和参考业务大数据可以时序(Time series,事件序列)的形式记录,时间序列是指将同一业务大数据的数据内容(如上述的平台业务大数据)按其生成的时间先后顺序排列而成的数据流,通过采用时间序列的形式可以根据已有的历史业务大数据(参考业务大数据)对未来或现在的候选业务大数据进行判断,判断出其是否为具有潜在价值的数据。上述具有潜在价值的业务大数据是能够用于后续的大数据挖掘分析的业务大数据,具有潜在价值的业务大数据包含较多的用户画像信息和用户的潜在兴趣倾向信息,通过对具有潜在价值的业务大数据进行数据挖掘,能够更好地服务于用户和服务商。当然,在对具有潜在价值的业务大数据进行数据挖掘的过程中,需要确保用户的个体隐私,因此具有潜在价值的业务大数据不应当包含用户过于隐私的数据信息。

在上述实施例中,以本发明实施例的服务于大数据挖掘分析的数据筛选方法由数据分析服务器110来执行为例进行说明,本发明实施例的服务于大数据挖掘分析的数据筛选方法也可以由大数据业务设备120来执行,与上述方案不同之处在于执行主体由数据分析服务器110替换为了大数据业务设备120,还可以是由数据分析服务器110和大数据业务设备120共同执行,如大数据业务设备120将候选业务大数据提供给数据分析服务器110来判定其是否具有潜在价值的业务大数据,或数据分析服务器110将参考业务大数据提供给大数据业务设备120来判定候选业务大数据是否具有潜在价值的业务大数据。其中,大数据业务设备120执行本发明实施例的服务于大数据挖掘分析的数据筛选方法也可以是由安装在其上的应用程序客户端来执行,在此不作限定。

通过上述步骤S202至步骤S206,在获取到数据筛选指示时,可获取待数据筛选的候选业务大数据,候选业务大数据为目标云业务平台在第一业务处理时段内汇集的平台业务大数据,第一业务处理时段的持续时长为预设时长值;然后基于参考业务大数据判断候选业务大数据是否为具有潜在价值的业务大数据,参考业务大数据为目标云业务平台在第二业务处理时段内汇集的平台业务大数据,换言之,可通过分析候选业务大数据之前的业务大数据(即参考业务大数据),即可判别候选业务大数据是否为具有潜在价值的业务大数据,而不用获取过量的用于进行数据价值分析的参考业务大数据,且由于仅需对参考业务大数据和候选业务大数据进行处理,故不仅可以减少数据分析服务器的数据处理压力,还能够基于时序层面尽可能地提高筛选具有潜在价值的业务大数据的可信度和效率,可以解决相关技术中判断业务大数据是否为具有潜在价值的业务大数据的处理过程繁琐、准确性差且可信度低下的技术问题,进而达到提高针对具有潜在价值的业务大数据的判断和筛选的效率和可信度的技术效果。

可以理解的是,基于多维特征的聚类算法Kmeans或者其他的聚类算法是通过聚类的方式,将可以划为一类的业务大数据进行划分,而离群对象作为不符合要求的业务大数据被丢弃,这种方法通常是针对较大规模的业务大数据进行分析的方法,并且这些聚类算法处理的业务大数据通常都不是基于时间序列形成的(也即不是数据流),通俗而言,通过聚类算法处理的业务大数据是没有时间维度的。因此,通过常见的聚类算法来实现业务大数据聚类并筛选具有潜在价值的业务大数据具有非常大的运算量,这样会给数据分析服务器带来很多计算压力,可能导致数据分析服务器的运行速率边缓。基于此,本方案提出了一种在基于数据截取线程的时序区间大小作为业务大数据处理指标的前提下,采用画像类别相关度计算的方法来确定业务大数据在什么情况下可以被认定为具有潜在价值的业务大数据的方法,不仅可以减少数据分析服务器的数据处理压力,还能够基于时序层面尽可能地提高筛选具有潜在价值的业务大数据的可信度和效率,可以解决相关技术中判断业务大数据是否为具有潜在价值的业务大数据的处理过程繁琐、准确性差且可信度低下的技术问题,进而达到提高针对具有潜在价值的业务大数据的判断和筛选的效率和可信度的技术效果。下文结合图2所示的步骤进一步详述本申请的技术方案。

在步骤S202提供的技术方案中,各类APP、在线云业务平台等科技型服务产品通常都会记录业务用户或者办理者的业务行为数据或者业务反馈数据,这些数据会成为大数据挖掘方去衡量服务产品运行数据、用户侧业务数据的价值以及关联数据信息的重要依据,比如,在远程办公云业务平台中,大数据挖掘方会对包括业务操作数据、办公软件响应数据、办公网络状态数据等等数据进行分析,分析时可触发数据筛选指示,数据分析服务器110获取到触发的数据筛选指示,按照数据筛选指示的指示筛选具有潜在价值的业务大数据,从而发现具有潜在价值的业务大数据,从而为后续的大数据挖掘提供尽可能完整、可信的数据原料。

例如,某业务用户的业务操作数据对应的业务范围覆盖指数在过去t个小时内一直维持在index50左右。而在t+1时刻,业务操作数据对应的业务范围覆盖指数达到了index55。那么index55是否属于具有潜在价值的用户画像更新的情况,可通过本发明,鉴别该业务用户是否存在有价值的用户画像更新的情况。而有价值的用户画像更新指的是业务大数据序列能够用于提供更多的有价值的用户画像信息和,本申请提供的即一种可以筛选具有潜在价值的业务大数据并进行后续大数据业务挖掘的方案。

在步骤S204提供的技术方案中,响应于数据筛选指示,数据分析服务器110获取候选业务大数据,候选业务大数据为目标云业务平台在第一业务处理时段内汇集的平台业务大数据,第一业务处理时段的持续时长为预设时长值。

可选地,为了完整、准确地判断出候选业务大数据是否为具有潜在价值的业务大数据,候选业务大数据的时序区间大小可小于或等于参考业务大数据的时序区间大小,举例而言,可以确定不同的业务大数据采集周期,不同的业务大数据采集周期可以包括不同的时刻点,以一个业务大数据采集周期为1小时为例,每个业务大数据采集周期内可以有60分钟,又比如,为采集到的第15分钟到第45分钟之间的业务大数据,候选业务大数据的时序区间大小小于或等于参考业务大数据的时序区间大小,那么候选业务大数据在第一业务大数据采集周期period-1内的激活时刻应该大于等于参考业务大数据在第二业务大数据采集周期period-2内的激活时刻,如候选业务大数据的激活时刻为第15分钟或者第18分钟,候选业务大数据在第一业务大数据采集周期period-1内的失效时刻应该小于等于参考业务大数据在第二业务大数据采集周期period-2内的失效时刻,如候选业务大数据的失效时刻为第40分钟或者第45分钟。一般而言,业务大数据采集周期还可以是以天为单位,或者以周为单位,在一些特殊情况下可以以秒为单位,在此不作限定。

为了提高判断出候选业务大数据是否为具有潜在价值的业务大数据的效率,减少业务大数据判断所耗费的计算机资源,候选业务大数据的时序区间大小可设置为等于参考业务大数据的时序区间大小,这样,在获取候选业务大数据时,可获取在第一云业务激活周期cycle-1中第一业务处理时段内汇集的平台业务大数据为候选业务大数据,第一业务处理时段的激活时刻在第一云业务激活周期cycle-1内的时序位置信息与第二业务处理时段的激活时刻在第二云业务激活周期cycle-2内的时序位置信息相同,如同为第15分钟,第一业务处理时段的失效时刻在第一云业务激活周期cycle-1内的时序位置信息与第二业务处理时段的失效时刻在第二云业务激活周期cycle-2内的时序位置信息相同,如同为第45分钟。在本实施例中,时序位置信息可以理解为在某个时间段内,某个时刻对应的相对位置信息,比如以10秒这一时间段为例,第1秒对应的时序位置信息可以为1,第5秒对应的时序位置信息可以为5,当然,时序位置信息也可以通过其他方式进行表达,比如,以10秒这一时间段为例,第1秒对应的时序位置信息可以为10,第8秒对应的时序位置信息可以为3,也就是说,时序位置信息可以理解为相对时间的一个记录形式,在此不作限定。

获取候选业务大数据的方式可以用数据截取线程(比如数据爬虫s)获取,数据截取线程的时序区间大小可以为v,那么每次获取的业务大数据(也即候选业务大数据)的时序区间大小可为(s+2),可以从数据截取线程对应的起始时序位置信息向前多获取一个单位时序区间大小的业务大数据,并向后多获取一个单位时序区间大小的业务大数据。

相关技术中针对具有潜在价值的业务大数据,通常采用聚类算法等算法,在进行聚类后,将离群对象或者躁对象归为具有潜在价值的数据,通常这些算法都需要大量的业务大数据并且没有考虑时间因素在处理过程中的作用,而对于云业务平台而言,往往关注的业务大数据通常是最近的,且数据量比较少的业务大数据样本,而且这些业务大数据样本通常是与时间因素相关的,比如可以理解为具有时序特性或者时效特性的业务大数据,而采用本申请的技术方案,可以满足该需求。

在步骤S206提供的技术方案中,数据分析服务器120基于参考业务大数据判断候选业务大数据是否为具有潜在价值的业务大数据,参考业务大数据为目标云业务平台在第二业务处理时段内汇集的平台业务大数据,第二业务处理时段的失效时刻不迟于第一业务处理时段的激活时刻,第二业务处理时段的持续时长大于等于预设时长值。

在上述技术方案中,以参考业务大数据为一个为例,基于参考业务大数据判断候选业务大数据是否为具有潜在价值的业务大数据可包括如下两个方面:

其中一个方面,在候选业务大数据中的平台业务大数据在第一业务处理时段内的第一用户画像更新状态与参考业务大数据中的平台业务大数据在第二业务处理时段内的第二用户画像更新状态存在强相关的前提下,确定候选业务大数据不为具有潜在价值的业务大数据,此处的用户画像更新状态可以理解为用户画像更新趋势;

其中另一个方面,在候选业务大数据中的平台业务大数据在第一业务处理时段内的第一用户画像更新状态与参考业务大数据中的平台业务大数据在第二业务处理时段内的第二用户画像更新状态不存在强相关的前提下,确定候选业务大数据为具有潜在价值的业务大数据。

一般而言,强相关又称高度相关,即当一列变量变化时,与之相应的另一列变量增大(或减少)的可能性非常大。而在本实施例中,强相关可以理解为不同用户画像更新状态之间的匹配关系,如果不同用户画像更新状态之间存在强相关,表明它们之间的区别较小,可以视作类似的或者相同的用户画像更新状态,这样一来,这些用户画像更新状态对应的业务大数据之间的差异也就比较小,如果在后的业务大数据(也即候选业务大数据)与在先的业务大数据(也即参考业务大数据)之间的差异较小,那么可以理解为候选业务大数据和参考业务大数据几乎相同,由于之前可能已经对参考业务大数据进行了数据挖掘处理,后续如果继续对候选业务大数据进行数据挖掘处理,可能会造成重复挖掘。此外,如果候选业务大数据和参考业务大数据各自对应的用户画像更新状态之间不存在强相关,则表明候选业务大数据与参考业务大数据在一定程度上是不同的,如此,候选业务大数据可能具有挖掘潜质,在这一情况下,可以将候选业务大数据确定为具有潜在价值的业务大数据。可以理解,本实施例基于用户画像更新状态之间的强相关来判定候选业务大数据是否为具有潜在价值的业务大数据,能够基于时序层面考虑数据之间的相关性,也就是说,候选业务大数据和参考业务大数据在不存在强相关的情况下,也是至少存在一定相关性的,如此涉及,能够确保候选业务大数据对应的数据挖掘价值是和参考业务大数据相关联的,这样一来,能够确保后续进行数据业务挖掘时的全局匹配性。

在上述技术方案中,参考业务大数据可为多个,例如,参考业务大数据为n个,与前一实施例类似地,基于参考业务大数据判断候选业务大数据是否为具有潜在价值的业务大数据也可包括如下两个方面:

其中一个方面,在候选业务大数据中的平台业务大数据在第一业务处理时段内的第一用户画像更新状态与至少m个参考业务大数据中的平台业务大数据在第二业务处理时段内的第二用户画像更新状态存在强相关的前提下,换言之只要n个参考业务大数据中平台业务大数据的用户画像更新趋势与候选业务大数据的平台业务大数据的用户画像更新趋势存在强相关的数目达到m个,则可确定候选业务大数据不为具有潜在价值的业务大数据,整数m为不大于整数n;

其中另一个方面,在第一用户画像更新状态不与至少m个参考业务大数据中的平台业务大数据的第二用户画像更新状态存在强相关的前提下,换言之,若n个参考业务大数据中平台业务大数据的用户画像更新趋势与候选业务大数据的平台业务大数据的用户画像更新趋势均不存在强相关,或者与候选业务大数据的平台业务大数据的用户画像更新趋势存在强相关的参考业务大数据的数目小于m个,则可确定候选业务大数据为具有潜在价值的业务大数据。

在前述两种技术方案中,无论参考业务大数据的数目为一个还是多个,均存在判断候选业务大数据中的平台业务大数据在第一业务处理时段内的第一用户画像更新状态与参考业务大数据中的平台业务大数据在第二业务处理时段内的第二用户画像更新状态是否存在强相关这一步骤,在本申请的实施例中,提供了一种可选地实施方案,具体可包括如下步骤1-步骤2:

步骤1,获取候选业务大数据中t个第一有效业务时序节点的平台业务大数据,并获取参考业务大数据中t个第二有效业务时序节点的平台业务大数据,其中,第一业务处理时段为第一云业务激活周期内的业务处理时段,第二业务处理时段为第二云业务激活周期内的业务处理时段,第一有效业务时序节点在第一云业务激活周期内的时序位置信息与相应的一个第二有效业务时序节点在第二云业务激活周期内的时序位置信息相同,t为大于1的整数。

举例而言,一种可选的选取第一有效业务时序节点和第二有效业务时序节点的方式可以是等时间间隔选取,如每2个小时获取一个有效业务时序节点;另一种可选的选取第二有效业务时序节点的方式可以选取参考业务大数据的数据内容对应用户画像更新趋势发生频繁用户画像更新的节点,如由第一画像轨迹变为第二画像轨迹的节点,或由第二画像轨迹变为第一画像轨迹的节点,其中,第一画像轨迹和第二画像轨迹为不同的画像轨迹。

步骤2,根据t个第一有效业务时序节点的平台业务大数据和t个第二有效业务时序节点的平台业务大数据确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态是否存在强相关。

一般而言,业务用户的正常业务操作是基本不会导致用户画像更新的,能够影响候选业务大数据或参考业务大数据对应的用户画像更新的数据内容是由于业务用户数量的突变变化造成的数据内容的对应扩增或者丢失,换言之,不同周期内相同时序位置信息对应的业务大数据的数据内容之间的画像类别相关度之差应该符合上述对应扩增或者丢失的数据内容,也即应该在一定的相关度区间内(即下述的第二相关度区间),对于上述第一种有效业务时序节点的选取方式和上述第二种有效业务时序节点的选取方式,可以按照如下方式判断二者的用户画像更新趋势是否存在强相关:

在t个第一有效业务时序节点中第七有效业务时序节点的数目达到i个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态存在强相关,其中,第七有效业务时序节点的平台业务大数据与t个第二有效业务时序节点中的第八有效业务时序节点的平台业务大数据之间的画像类别相关度之差在第二相关度区间内,第八有效业务时序节点在第二云业务激活周期的时序位置信息与第七有效业务时序节点在第一云业务激活周期内的时序位置信息相同,整数i不大于整数t;

在t个第一有效业务时序节点中第七有效业务时序节点的数目未达到i个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态不存在强相关。

可选地,在上述实施例中,若连续出现多个第一有效业务时序节点的平台业务大数据与参考业务大数据点的平台业务大数据之间的画像类别相关度之差不在第二相关度区间内,则可进一步判定出候选业务大数据data1中具有潜在价值的业务大数据所在的时间范围为具有潜在价值的业务处理时段(即上述平台业务大数据与参考业务大数据的平台业务大数据之间的画像类别相关度之差不在第二相关度区间内的多个第一有效业务时序节点所在的业务处理时段)。

换言之,上述方式可以变换为:

在t个第一有效业务时序节点中存在不间断的第九有效业务时序节点的数目至少为i个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态不存在强相关,其中,第九有效业务时序节点的平台业务大数据与t个第二有效业务时序节点中的第八有效业务时序节点的平台业务大数据之间的画像类别相关度之差不在第二相关度区间内,第八有效业务时序节点在第二云业务激活周期的时序位置信息与第九有效业务时序节点在第一云业务激活周期内的时序位置信息相同,整数i不大于整数t;

在t个第一有效业务时序节点中存在不间断的第九有效业务时序节点的数目小于i个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态存在强相关。

采用上述方式,可以确定候选业务大数据中位于不间断的第九有效业务时序节点上的平台业务大数据为具有潜在价值的业务大数据。需要说明的是,当第二有效业务时序节点为存在画像状态更新突变的节点(比如可以理解为关键点)时,存在画像状态更新突变的节点(比如可以理解为关键点)更能够反应业务用户的业务操作行为对应的用户画像更新情况,因此,更加能够体现出平台业务大数据的用户画像更新趋势,如此,利用该技术来进行上述分析,能够使得分析结果更为准确和可信度。

可选地,在上述实施例中,是以不连续的多个时序节点来判断用户画像更新趋势是否存在强相关,虽然处理效率相对较高,运算速度相对较快,并且还能够确定一定的准确率,但是仍然存在一定的偶然性和运气成分,即刚好在采样时序节点存在强相关,而其余时序节点不存在强相关。为了克服该问题,考虑到不同周期内相同时序位置信息对应的业务大数据的数据内容之间的画像类别相关度之差应该符合上述对应扩增或者丢失的数据内容,那么对于多个连续的时序节点而言,其累计扩增或者丢失的数据内容对应的画像类别相关度之差也应该在一定相关度区间内(即第一相关度区间),故可以采用如下方式来判定,该方法适用于上述第一种有效业务时序节点的选取方式所对应的方案:

在t个第一用户画像数据集中画像类别相关度在第一相关度区间内的用户画像数据集的数目达到k个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态存在强相关,第一用户画像数据集为第一图数据轨迹片段、第二图数据轨迹片段、第三图数据轨迹片段以及第四图数据轨迹片段组合而构成的用户画像数据集,第一图数据轨迹片段p3p4为第一图数据轨迹上第三有效业务时序节点所在的节点p3与第四有效业务时序节点所在的节点p4之间的图数据轨迹,第二图数据轨迹片段p4p1为第一图数据轨迹上第四有效业务时序节点所在的节点p4与第二图数据轨迹上第五有效业务时序节点所在的节点p1之间的图数据轨迹,第三图数据轨迹片段p1p2为第二图数据轨迹上第五有效业务时序节点所在的节点p1与第六有效业务时序节点所在的节点p2之间的图数据轨迹,第四图数据轨迹片段p2p3为第一图数据轨迹上第三有效业务时序节点所在的节点p3与第二图数据轨迹上第六有效业务时序节点所在的节点p2之间的图数据轨迹,第一图数据轨迹L1用于表示候选业务大数据中第一云业务激活周期内多个有效业务时序节点上的平台业务大数据m,第二图数据轨迹L2用于表示参考业务大数据中第二云业务激活周期内多个有效业务时序节点上的平台业务大数据m,t个第一有效业务时序节点包括不间断的第三有效业务时序节点和第四有效业务时序节点,t个第二有效业务时序节点包括不间断的第五有效业务时序节点和第六有效业务时序节点,第五有效业务时序节点在第二云业务激活周期的时序位置信息与第四有效业务时序节点在第一云业务激活周期内的时序位置信息相同,第六有效业务时序节点在第二云业务激活周期的时序位置信息与第三有效业务时序节点在第一云业务激活周期内的时序位置信息相同,整数k不大于整数t;

在t个第一用户画像数据集中画像类别相关度在第一相关度区间内的用户画像数据集的数目未达到k个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态不与参考业务大数据中的平台业务大数据的第二用户画像更新状态存在强相关。

可选地,上述方式可以变换为:在t个第一用户画像数据集中第二用户画像数据集的连续数目达到k个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态不存在强相关,第二用户画像数据集为t个第一用户画像数据集中画像类别相关度不在第一相关度区间内的用户画像数据集;在t个第一用户画像数据集中第二用户画像数据集的连续数目未达到k个的前提下,确定候选业务大数据中的平台业务大数据的第一用户画像更新状态与参考业务大数据中的平台业务大数据的第二用户画像更新状态存在强相关。

采用上述方式,可以判定出具有潜在价值的业务大数据为位于不间断的第二用户画像数据集所对应的平台业务大数据。

采用本申请的技术方案,可以较为准确和可靠地确定具有潜在价值的的起始业务大数据和对应的时序信息(例如生成或者记录时间),该技术方案在实时处理时无需使用大规模的业务大数据,仅仅利用已生成的一段连续时间内业务大数据,以判断未来的业务大数据的是否为具有潜在价值的业务大数据,处理效率很高,且能够确保判定结果的可靠性,还能够确保筛选出的具有潜在价值的业务大数据与实际业务的高度匹配;利用本申请可以自由设置阈值(即上述的第一相关度区间或第二相关度区间),阈值U的大小,可以灵活满足各类业务大数据的潜在价值判定情况。

在一些选择性的实施例中,在判定出具有潜在价值的业务大数据之后,可以将具有潜在价值的业务大数据进行迁移存储,以便后续继续进行数据挖掘。在实际应用过程中,数据分析服务器120还可以作为数据挖掘服务器运行,其挖掘任务主要可以由服务商平台对应的终端指定,举例而言,在上述内容的基础上,该方法还可以包括数据挖掘部分对应的技术方案,具体如下:响应目标服务终端发送的数据挖掘请求,基于预设的卷积神经网络对所述候选业务大数据进行数据挖掘,得到基于用户兴趣倾向的数据挖掘结果,并将所述数据挖掘结果反馈给所述目标服务终端;其中,所述目标服务终端为服务商平台对应的终端。

可以理解,基于用户兴趣倾向的数据挖掘结果能够为服务商平台提供服务更新或者产品更新的依据,因此,为了确保数据挖掘结果的准确性和时效性,需要考虑业务大数据的识别度,从而便于在挖掘过程中进行合理的分类预测,为实现这一目的,响应目标服务终端发送的数据挖掘请求,基于预设的卷积神经网络对所述候选业务大数据进行数据挖掘,得到基于用户兴趣倾向的数据挖掘结果,进一步可以包括以下内容:基于所述数据挖掘请求中的业务需求标签获取所述候选业务大数据对应的待进行数据挖掘的数据特征内容,将所述待进行数据挖掘的数据特征内容输入到更新数据特征识别度解析模型中进行解析,得到当前数据特征识别度,所述更新数据特征识别度解析模型是将初始数据特征识别度解析模型进行迭代更新后得到的卷积神经网络模型;从更新数据特征识别度对应的用户兴趣热度值区间中确定所述当前数据特征识别度对应的目标数据特征识别度对应的用户兴趣热度值区间,其中,所述更新数据特征识别度对应的用户兴趣热度值区间与关联数据特征识别度存在对应关系,所述关联数据特征识别度是根据与更新数据特征识别度对应的用户兴趣热度值区间关联的初始数据特征识别度对应的用户兴趣热度值区间的兴趣倾向标签确定的,所述更新数据特征识别度对应的用户兴趣热度值区间的配置策略是根据初始数据特征识别度的统计结果信息和更新数据特征识别度确定的,所述初始数据特征识别度是将预设数据特征内容样本输入所述初始数据特征识别度解析模型得到的,所述更新数据特征识别度是将所述预设数据特征内容样本输入所述更新数据特征识别度解析模型得到的;根据所述对应关系确定所述目标数据特征识别度对应的用户兴趣热度值区间对应的目标关联数据特征识别度;基于所述目标关联数据特征识别度与预设关联数据特征识别度对应的全局兴趣倾向内容集确定所述待进行数据挖掘的数据特征内容对应的基于用户兴趣倾向的数据挖掘结果。如此一来,通过实施上述内容,能够利用数据特征识别度解析模型对数据特征内容进行解析,从而将不同的数据特征识别度考虑在内,这样能够将业务大数据的识别度考虑在内,从而便于在挖掘过程中进行合理的分类预测,进而确保数据挖掘结果的准确性和时效性。

可以理解,通过上述内容确定出的基于用户兴趣倾向的数据挖掘结果可以指导对应的服务商平台进行业务产品的更新,比如针对游戏产品,可以通过数据挖掘结果中的“想要更多游戏皮肤”进行不同的英雄的皮肤的更新,又比如,针对在线办公产品,可以通过数据挖掘结果中的“个体选中目标的整体替换需求”进行相关办公软件的优化。如此一来,能够确保得到的数据挖掘结果可以服务于用户以及服务商平台,尽最大可能发挥大数据的价值。

其次,针对上述服务于大数据挖掘分析的数据筛选方法,本发明实施例还提出了一种示例性的服务于大数据挖掘分析的数据筛选装置,如图3所示,服务于大数据挖掘分析的数据筛选装置30可以包括以下的功能模块。

接收模块31,用于接收数据筛选指示,其中,所述数据筛选指示用于指示筛选具有潜在价值的业务大数据。

获取模块32,用于响应于所述数据筛选指示,在目标云业务平台在第一业务处理时段内汇集的平台业务大数据中,采用时序区间大小为t的数据截取线程获取一段时序区间大小为t的在时序上不间断的数据流作为候选业务大数据,其中,所述第一业务处理时段的持续时长为预设时长值,t为正整数。

判断模块33,用于基于参考业务大数据判断所述候选业务大数据是否为具有潜在价值的业务大数据,其中,所述参考业务大数据为所述目标云业务平台在第二业务处理时段内汇集的平台业务大数据,所述第二业务处理时段的失效时刻不迟于所述第一业务处理时段的激活时刻,所述第二业务处理时段的持续时长大于等于所述预设时长值。

关于上述功能模块的描述可以参阅对图2所示的方法实施例的描述。

然后,在上述内容的基础上,关于服务于大数据挖掘分析的数据筛选系统还可以是如下架构:系统包括互相之间通信的数据分析服务器和云业务平台。进一步地,关于数据分析服务器和云业务平台形成的系统的描述如下。

一种服务于大数据挖掘分析的数据筛选系统,包括互相之间通信的数据分析服务器和云业务平台;

所述云业务平台在运行过程侯总汇集业务大户数据;

所述数据分析服务器接收数据筛选指示,其中,所述数据筛选指示用于指示筛选具有潜在价值的业务大数据;响应于所述数据筛选指示,在目标云业务平台在第一业务处理时段内汇集的平台业务大数据中,采用时序区间大小为t的数据截取线程获取一段时序区间大小为t的在时序上不间断的数据流作为候选业务大数据,其中,所述第一业务处理时段的持续时长为预设时长值,t为正整数;基于参考业务大数据判断所述候选业务大数据是否为具有潜在价值的业务大数据,其中,所述参考业务大数据为所述目标云业务平台在第二业务处理时段内汇集的平台业务大数据,所述第二业务处理时段的失效时刻不迟于所述第一业务处理时段的激活时刻,所述第二业务处理时段的持续时长大于等于所述预设时长值。

关于上述系统的描述可以参阅对图2所示的方法实施例的描述。

进一步地,请结合参阅图4,数据分析服务器110可以包括处理引擎111、网络模块112和存储器113,处理引擎111和存储器113通过网络模块112通信。

处理引擎111可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎111可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎111可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。

网络模块112可以促进信息和/或数据的交换。在一些实施例中,网络模块112可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块112可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块112可以包括至少一个网络接入点。例如,网络模块112可以包括有线或无线网路接入点,如基站和/或网路接入点。

存储器113可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器113用于存储程序,所述处理引擎111在接收到执行指令后,执行所述程序。

可以理解,图4所示的结构仅为示意,数据分析服务器110还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。

应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。

需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。

此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。

同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。

最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

相关技术
  • 服务于大数据挖掘分析的数据筛选方法及数据分析服务器
  • 服务于大数据挖掘分析的数据筛选方法及数据分析服务器
技术分类

06120112774265