基于大数据挖掘性能的云计算业务分析方法、装置及系统

文献发布时间：2023-06-19 16:03:19

技术领域

本申请涉及行为预测技术领域，具体涉及一种基于大数据挖掘性能的云计算业务分析方法、装置及系统。

背景技术

银行数据中可访问或搜索的业务，包括但不限于客户的交易数据、流水数据、记账数据、借款数据以及贷款数据等业务数据；在银行的业务系统中，部分数据为不常用数据，导致数据仓库的存储存在冗余，从而降低查询效率，同时，在客户数据查询时，需要对客户个体的数据进行遍历检索，进而进一步降低系统运行效率。因此，需要对客户所需要查询或访问的业务进行预测，从而实现存储资源的提前部署以提升效率。

现有技术中对于用户需要查询的业务的预测，往往通过根据用户的对各业务的查询情况进行统计，从而将用户查询次数多的优先展示供用户选择。

然而，现有技术中通过对用户所查询业务的查询次数进行统计后排序的方法，忽略了各类用户在使用习惯上的差异，且无法通过用户的前一次查询行为对用户后续的查询行为实现预测。

发明内容

针对上述技术问题，本发明提供了一种基于大数据挖掘性能的云计算业务分析方法、装置及系统，能针对不同用户进行具有针对性的查询业务的预测，同时能够被用户所查询的业务类型发生改变时，能够重新确定各业务间的关联性，进而进行存储资源的提前部署以提升效率。

第一方面，本发明实施例提出了一种基于大数据挖掘性能的云计算业务分析方法，包括：

根据用户对不同业务的历史查询情况，获得用户的查询特征值。

利用预设时长内访问的所有用户的查询特征值将用户聚类成多类，并按照查询次数的先后顺序，将同一类用户在各查询次数中查询频率最高的业务进行排序，以获得同一类用户的习惯业务序列。

根据同一类用户相邻查询次数的不同业务被查询的频率之差以及不同业务间的相关性，获得同一类用户在任一查询次数中任意两业务间的关联性。

根据用户的查询特征值，确定该用户的习惯业务序列，并判断当前所查询的业务与习惯业务序列中当前查询次数对应的业务是否一致。

若判断结果为是，则将习惯业务序列中下一个业务作为预测查询业务。若判断结果为否，将与当前查询业务关联性最大的业务作为预测查询业务。将预测查询业务提前放入供用户查询的缓存中。

在一个可行的实施例中，根据同一类用户相邻查询次数的不同业务被查询的频率之差以及不同业务间的相关性，获得同一类用户在任一查询次数中任意两业务间的关联性，包括：

其中，

可选的，所述方法还包括：

选取同一类用户中预设比例的用户作为代表用户，根据代表用户相邻查询次数的最高查询频率之差以及不同业务间的相关性，获得代表用户在进行任一查询次数下任意两业务间的关联性。

将代表用户在进行任一查询次数下任意两业务间的关联性，作为同一类用户在进行任一查询次数下任意两业务间的关联性。

本发明实施例中所得到的业务间的关联性与用户的类型以及用户的查询次数存在关系，由于现有技术中只考虑两个业务本身的相关性，而未考虑业务在被用户查询或访问之后，也会对该用户是否会继续查询该业务产生影响，因此本发明实施例中得到的业务间的关联性更具准确性，同时更加契合实际场景。

在一个可行的实施例中，根据用户对不同业务的历史查询情况，获得用户的查询特征值，包括：

对历史查询情况中同一查询次数下不同用户对各业务的查询次数进行第一PCA，将第一PCA的最大主成分作为第一最大主成分。

分别将不同用户对各业务的查询次数对第一最大主成分进行投影，分别获得各用户在同一查询次数下的第一查询特征值。

将各用户在各查询次数下的所述第一查询特征值进行第二PCA，将第二PCA的最大主成分方向作为第二最大主成分。

分别将各用户在各查询次数下的所述第一查询特征值对第二最大主成分进行投影，分别获得各用户的第二查询特征值，并将用户的第二查询特征值作为用户的查询特征值。

可选的，所述方法还包括：

当前所查询的业务与习惯业务序列中当前查询次数对应的业务一致时，将习惯业务序列中预测查询业务后预设数量个业务作为备选查询业务，将备选查询业务放入预测查询业务的缓存后。

这样，当用户下一次所查询的业务与所预测的业务不一致时，用户很有可能会访问备选查询业务中的业务，进而能够在预测失效的情况下提高效率。

可选的，所述方法还包括：

当前所查询的业务与习惯业务序列中当前查询次数对应的业务不一致时，将与预测查询业务关联性最大的预设数量个业务作为备选查询业务，将备选查询业务放入预测查询业务的缓存后。

这样，当用户下一次所查询的业务与所预测的业务不一致时，用户很有可能会访问备选查询业务中的业务，进而能够在预测失效的情况下提高效率。

可选的，根据用户对不同业务的历史查询情况，获得用户的查询特征值前，所述方法还包括：对用户对不同业务的历史查询情况进行数据清洗。

这样能够使得用户的查询情况的相关数据更具针对性和准确性。

可选的，利用预设时长内访问的所有用户的查询特征值将用户聚类成多类后，所述方法还包括：建立多个云数据仓库用于储存所有用户的查询数据，且同一个云数据仓库中存放同一类用户的查询数据。

第二方面，本发明实施例提出了一种基于大数据挖掘性能的云计算业务分析装置，包括：

用户查询特征值获取模块，用于根据用户对不同业务的历史查询情况，获得用户的查询特征值。

用户聚类模块，用于利用预设时长内访问的所有用户的查询特征值将用户聚类成多类。

习惯业务序列获取模块，用于按照查询次数的先后顺序，将同一类用户在各查询次数中查询频率最高的业务进行排序，以获得同一类用户的习惯业务序列。

关联性获取模块，用于根据同一类用户相邻查询次数的不同业务被查询的频率之差以及不同业务间的相关性，获得同一类用户在任一查询次数中任意两业务间的关联性。

判断模块，用于根据用户的查询特征值，确定该用户的习惯业务序列，并判断当前所查询的业务与习惯业务序列中当前查询次数对应的业务是否一致。

预测业务确定模块，若判断结果为是，则将习惯业务序列中下一个业务作为预测查询业务。若判断结果为否，将与当前查询业务关联性最大的业务作为预测查询业务。

缓存预调度模块，将预测查询业务提前放入供用户查询的缓存中。

第三方面，本发明实施例提出了一种基于大数据挖掘性能的云计算业务分析系统，包括：存储器和处理器，其特征在于，所述处理器执行所述存储器存储的计算机程序，以实现本发明实施例中基于大数据挖掘性能的云计算业务分析方法。

本发明提供了一种基于大数据挖掘性能的云计算业务分析方法、装置及系统，相比于现有技术，本发明实施例的有益效果至少包括：能够克服层次分析法的主观性，并能针对不同用户进行具有针对性的查询业务的预测，同时能够被用户所查询的业务类型发生改变时，能够重新确定各业务间的关联性，进而提前进行存储资源的提前部署以提升效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于大数据挖掘性能的云计算业务分析方法的流程示意图。

图2是本发明实施例中习惯业务序列的获取过程的示意图。

图3是本发明实施例提供的一种基于大数据挖掘性能的云计算业务分析装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征；在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明实施例提供了一种基于大数据挖掘性能的云计算业务分析方法，如图1所示，包括：

步骤S101、根据用户对不同业务的历史查询情况，获得用户的查询特征值。

步骤S102、利用预设时长内访问的所有用户的查询特征值将用户聚类成多类，并按照查询次数的先后顺序，将同一类用户在各查询次数中查询频率最高的业务进行排序，以获得同一类用户的习惯业务序列。

步骤S103、根据同一类用户相邻查询次数的不同业务被查询的频率之差以及不同业务间的相关性，获得同一类用户在任一查询次数中任意两业务间的关联性。

步骤S104、根据用户的查询特征值，确定该用户的习惯业务序列，并判断当前所查询的业务与习惯业务序列中当前查询次数对应的业务是否一致。

步骤S105、若判断结果为是，则将习惯业务序列中下一个业务作为预测查询业务。若判断结果为否，将与当前查询业务关联性最大的业务作为预测查询业务。将预测查询业务提前放入供用户查询的缓存中。

在银行的业务系统中，部分数据为不常用数据，导致数据仓库的存储存在冗余，从而降低查询效率，同时，在客户数据查询时，需要对客户个体的数据进行遍历检索，进而进一步降低系统运行效率。

银行数据中可访问或搜索的业务，包括但不限于客户的交易数据、流水数据、记账数据、借款数据、贷款数据等业务数据，同时实施者可根据具体实施场景，对客户能够访问或查询的的业务进行调整。

进一步的，步骤S101、根据用户对不同业务的历史查询情况，获得用户的查询特征值。具体包括：

本发明实施例中，将客户开始查询到结束查询的过程作为一个完整的查询过程，期间，用户存在对不同业务的多次查询及访问过程，将完整的查询过程中按照查询发生的先后顺序进行排序，得到不同查询次数下所查询的不同业务。

例如，在一段时间内，客户所访问的业务类型包括A、B、C和D四种，客户的对这四种业务访问或查询的先后顺序为ABABCDCA，即在本次查询过程中,客户首先访问业务A，随后访问业务B，其次访问业务A，并以此完成对业务的查询后，一段时间内不再进行业务查询。在该客户进行本次查询过程中，查询次数1对应的业务为A,查询次数2对应的业务为B，最后即查询次数为8时对应的业务为A。

可选的，可以对用户对不同业务的历史查询情况进行数据清洗，在数据清洗过程中，主要处理的是缺失值、异常值和重复值。所谓清洗，是对数据集通过丢弃、填充、替换、去重等操作，达到去除异常、纠正错误、补足缺失的目的。

这样能够使得用户的查询情况的相关数据更具针对性和准确性。

首先，对历史查询情况中同一查询次数下不同用户对各业务的查询次数进行第一PCA，将第一PCA的最大主成分作为第一最大主成分；分别将不同用户对各业务的查询次数对第一最大主成分进行投影，分别获得各用户在同一查询次数下的第一查询特征值。

其次，将各用户在各查询次数下的所述第一查询特征值进行第二PCA，将第二PCA的最大主成分方向作为第二最大主成分；分别将各用户在各查询次数下的所述第一查询特征值对第二最大主成分进行投影，分别获得各用户的第二查询特征值，并将用户的第二查询特征值作为用户的查询特征值。

如此，便于后续将具有相同查询习惯的客户归为一类，进而实现对客户的分类。

需要说明的是，PCA（Principal components analysis，主成分分析）是重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。其利用正交变换把一系列可能线性相关的变量转换为一组线性不相关的新变量，也称为主成分，从而利用新变量在更小的维度下展示数据的特征。

具体的，在空间上，PCA可以理解为把原始数据投射到一个新的坐标系统，第一主成分为第一坐标轴，它的含义代表了原始数据中多个变量经过某种变换得到的新变量的变化区间；第二成分为第二坐标轴，代表了原始数据中多个变量经过某种变换得到的第二个新变量的变化区间。这样我们把利用原始数据解释样品的差异转变为利用新变量解释样品的差异。

需要说明的是，这种投射方式会有很多，为了最大限度保留对原始数据的解释，一般会用最大方差理论或最小损失理论，使得第一主成分有着最大的方差或变异数。本实施例中最大主成分方向即第一主成分方向。

进一步的，步骤S102、利用预设时长内访问的所有用户的查询特征值将用户聚类成多类，并按照查询次数的先后顺序，将同一类用户在各查询次数中查询频率最高的业务进行排序，以获得同一类用户的习惯业务序列。具体包括：

需要说明的是，聚类即将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。聚类分析又称群分析，它是研究样品或指标分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

首先，利用预设时长内访问的所有用户的查询特征值将用户聚类成多类，作为一示例，本发明实施例中预设时长为2小时。

这样，能使得用户类别得到及时的更新，使得在客户需求或者业务类型发生变化的时候，及时实现对用户类型的更新，从而避免信息的过时。

具体的，在数据挖掘中，聚类也是很重要的一个概念。传统的聚类分析计算方法主要有划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法共五种。

需要说明的是，在收到客户真实的查询请求后，及时预测出客户将要访问的业务，能够实现提前部署，进而提高客户查询过程的效率。

可选的，可以建立多个云数据仓库用于存放所有用户的查询数据，且同一云数据仓库中存放同一类用户的查询数据。需要说明的是，数据仓库是从操作系统和外部数据源派生的集成历史数据的中央存储库，其中传统的数据仓库需要本地IT(InternetTechnology，信息技术)资源，例如服务器和软件来传递数据仓库功能。企业运行自己的本地数据仓库时，还必须有效地管理基础架构。

这样，能够使得所创建的数据库更具备针对性，在进行后续调度或存取过程中，减少调度所需要消耗的负载。

需要说明的是，对于云数据仓库，通过提供互联网接入的数据仓库功能，公共云提供商可帮助公司避开构建传统本地数据仓库所需的初始设置成本。此外，云中的这些企业数据仓库是完全托管的，因此服务提供商管理并承担提供所需数据仓库功能的责任，例如系统补丁和更新。

其次，按照查询次数的先后顺序，将同一类用户在各查询次数中查询频率最高的业务进行排序，以获得同一类用户的习惯业务序列。

图2示出了本发明实施例中习惯业务序列的获取过程的示意图，图2中表格部分为对同一类用户在不同访问次数中对各业务类型的访问次数的统计，图2中存在ABCD四种业务类型，分别选择各查询次数中查询频率最高的业务进行排序，在图2中得到的习惯业务序列为ACDCCB，本领域技术人员应该知道的是，在各访问次数中被查询频数与被查询频率有直接关系。

可选的，可以选择选取同一类用户中预设比例的用户作为代表用户，将代表用户的习惯业务序列作为该类用户的习惯业务序列，作为一个示例，本发明实施例中预设比例为30%。

可选的，可以获得同一类用户的习惯业务序列的最小周期，将习惯业务序列中最小周期内的序列重复排列后作为新的习惯业务序列。

这样，由于查询业务本身存在周期性，同时在一个完整的查询过程中用户也会存在往复查询的情况，获得整个习惯业务序列的最小周期，能够利用该新的习惯业务序列获得更长以及更具代表性的习惯业务序列。

进一步的，步骤S103、根据同一类用户相邻查询次数的不同业务被查询的频率之差以及不同业务间的相关性，获得同一类用户在任一查询次数中任意两业务间的关联性。具体包括：

其中，

具体的，任意两业务之间的相关性是通过层次分析法获得的，需要说明的是，层次分析法（AHP，analytic hierarchy process）是指将与决策总是有关的元素分解成目标、准则、方案等层次，在此基础之上进行定性和定量分析的决策方法。

需要说明的是，通过层次分析法能够获得两业务之间存在的相关性，同时由于该相关性存在主观性，故本发明实施例结合业务被查询的情况，获得能够避免主观性的业务间的关联性，同时，本发明实施例中所得到的业务间的关联性与用户的类型以及用户的查询次数存在关系，由于现有技术中只考虑两个业务本身的相关性，而未考虑业务在被用户查询或访问之后，也会对该用户是否会继续查询该业务产生影响，因此本发明实施例中得到的业务间的关联性更具准确性，同时更加契合实际场景。

进一步的，步骤S104、根据用户的查询特征值，确定该用户的习惯业务序列，并判断当前所查询的业务与习惯业务序列中当前查询次数对应的业务是否一致。具体包括：

当用户开始查询时，根据步骤S101中用户的查询特征值的获得方法，获得该用户的查询特征值，确定该用户所属的用户类型对应的习惯业务序列，并判断当前所查询的业务与习惯业务序列中当前查询次数对应的业务是否一致。

进一步的，步骤S105、若判断结果为是，则将习惯业务序列中下一个业务作为预测查询业务。若判断结果为否，将与当前查询业务关联性最大的业务作为预测查询业务。将预测查询业务提前放入供用户查询的缓存中。具体包括：

若步骤S104中判断结果为是，则将习惯业务序列中下一个业务作为预测查询业务，这样能够实现对用户的下一次所查询业务的预测，以便进行提前调度从而提高效率。

可选的，当前所查询的业务与习惯业务序列中当前查询次数对应的业务一致时，可将习惯业务序列中预测查询业务后预设数量个业务作为备选查询业务，将备选查询业务放入预测查询业务的缓存后。

这样，当用户下一次所查询的业务与所预测的业务不一致时，用户很有可能会访问备选查询业务中的业务，进而能够在预测失效的情况下提高效率。

若步骤S104中判断结果为否，将与当前查询业务关联性最大的业务作为预测查询业务，此时，用户暂时不按照习惯业务序列进行查询，通过将关联性最大的作为预测查询业务，这样，能够实现对用户的下一次所查询业务的预测，以便进行提前调度从而提高效率。

可选的，当前所查询的业务与习惯业务序列中当前查询次数对应的业务不一致时，将与预测查询业务关联性最大的预设数量个业务作为备选查询业务，将备选查询业务放入预测查询业务的缓存后。

这样，当用户下一次所查询的业务与所预测的业务不一致时，用户很有可能会访问备选查询业务中的业务，进而能够在预测失效的情况下提高效率。

本发明实施例提供了一种基于大数据挖掘性能的云计算业务分析装置，如图3所示，包括：

用户查询特征值获取模块201，用于根据用户对不同业务的历史查询情况，获得用户的查询特征值。

用户聚类模块202，用于利用预设时长内访问的所有用户的查询特征值将用户聚类成多类。

习惯业务序列获取模块203，用于按照查询次数的先后顺序，将同一类用户在各查询次数中查询频率最高的业务进行排序，以获得同一类用户的习惯业务序列。

关联性获取模块204，用于根据同一类用户相邻查询次数的不同业务被查询的频率之差以及不同业务间的相关性，获得同一类用户在任一查询次数中任意两业务间的关联性。

判断模块205，用于根据用户的查询特征值，确定该用户的习惯业务序列，并判断当前所查询的业务与习惯业务序列中当前查询次数对应的业务是否一致。

预测业务确定模块206，若判断结果为是，则将习惯业务序列中下一个业务作为预测查询业务。若判断结果为否，将与当前查询业务关联性最大的业务作为预测查询业务。

缓存预调度模块207，将预测查询业务提前放入供用户查询的缓存中。

其中，以上各模块的具体实现、相关说明及技术效果请参考具体实施方式中方法实施例部分。

基于与上述方法相同的发明构思，本实施例还提供了一种基于大数据挖掘性能的云计算业务分析系统，本实施例中基于大数据挖掘性能的云计算业务分析系统包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序，以实现如本发明实施例中基于大数据挖掘性能的云计算业务分析方法实施例中所描述的功能。

由于基于大数据挖掘性能的云计算业务分析方法实施例中已经对大数据的金融业务信息查询的方法进行了说明，此处不再赘述。

综上所述，本发明提供了一种基于大数据挖掘性能的云计算业务分析方法、装置及系统，相比于现有技术，本发明实施例的有益效果至少包括：能够克服层次分析法的主观性，并能针对不同用户进行具有针对性的查询业务的预测，同时能够被用户所查询的业务类型发生改变时，能够重新确定各业务间的关联性，进而提前进行存储资源的提前部署以提升效率。

本发明中涉及诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本发明的方法和系统中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

上述实施例仅仅是为清楚地说明所做的举例，并不构成对本发明的保护范围的限制。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无需也无法对所有的实施方式予以穷举。凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘浏;徐建娴;叶飞;
专利申请人：联通(江苏)产业互联网有限公司;