掌桥专利:专业的专利平台
掌桥专利
首页

一种面向云计算的工单大数据智能处理方法

文献发布时间:2024-04-18 20:01:23


一种面向云计算的工单大数据智能处理方法

技术领域

本发明属于云计算技术领域,更具体地,本发明涉及一种面向云计算的工单大数据智能处理方法。

背景技术

在当今数字经济浪潮推动下,数据作为一种新型资产已经成为保障企业正常运营,以及制定企业长远发展战略的关键。汽车金融行业的工单数据是定期存款、汽车贷款、保证金、债券等各个业务的一个或多个任务组成的工作任务计划,由上级部门下达任务并由一个或多个相关下级部门领受任务。工单数据处理是指对工单数据进行收集、记录、跟踪、存储、加工、变换、传输、统计、分析和挖掘的活动。工单数据处理是企业管理中的一个重要环节,可以有效地协调和管理金融机构各个部门之间的信息流通,提高工作效率,降低成本,提高服务质量。同时,帮助金融行业数据分析,提供决策支持,优化业务流程,提高企业竞争力。

汽车金融行业数据类型已经从传统单一结构化表单数据过渡到文本、语音、图形、图像等多种类型。在全球化布局及产业分布的背景下,金融行业工单数据呈现出来源广泛、种类繁多、结构多样、数据体量巨大、价值密度低、处理速度要求高和商业价值高等特点,因而急需研究面向金融行业多源异构工单大数据的处理技术。

云计算将计算任务分布在大量计算机组成的资源池上,使各种应用系统能够按需获取计算力、存储空间和信息服务,具有动态可扩展、按需部署、灵活性高、可靠性高、性价比高等特点,为工单大数据处理提供了良好的运行基础环境。在云计算场景下,为金融行业多源异构工单大数据处理按需分配资源具有以下挑战:

(1)工单数据处理任务建模的复杂性:工单数据处理任务的数据处理时间与云计算资源的类型和数量、处理数据的类型和数量、工单数据处理的工作流程等诸多因素都有着联系,难以建模这种复杂关系。(2)数据处理性能的动态性:云计算环境具有动态性,网络拥塞和抖动、网络拓扑结构变化、新工单到达等都会引起原有工单数据处理性能发生变化,因而工单数据处理任务的执行效率具有不确定性。(3)数据处理任务的异构性:不同类型工单具有不同的内部数据处理流程和依赖性,针对单个应用手动构建性能模型难以适用于其他工单数据处理任务,因而工单数据处理性能建模具有不可扩展性。

发明内容

本发明提供一种面向云计算的工单大数据智能处理方法,旨在改善上述问题中的至少一个。

本发明是这样实现的,一种面向云计算的工单大数据智能处理方法,所述方法包括如下步骤:

(1)确定当前待处理任务的资源使用模型;

(2)确定不同资源使用模型的探索空间;

(3)将当前待处理任务在对应的探索空间内进行搜索,输出执行时间均小于最大完成时间,且执行成本最低的最优云资源分配方案。

其中,资源使用模型包括:资源使用和输入数据集大小之间存在线性关系的线性型资源使用模式;资源使用和输入数据集大小之间没有明显的相关性的确定型资源使用模式;资源使用量和任务输入数据集大小之间没有线性相关性的不确定型资源使用模式。

进一步的,当前待处理任务的资源使用模型识别方法具体如下:

采用少量的样本数据离线训练线性回归模型;

计算不同类型任务的样本数据的线性相关性R

确定待处理任务的任务类型,读取任务类型对应的资源使用模型。

进一步的,基于线性相关性R

线性相关性R

进一步的,线性资源使用模式的探索空间确定方法具体如下:

确定待处理数据集中线性型资源使用模式的数据量大小x

其中,A为固定的云资源开销。

进一步的,确定型资源使用模式的探索空间确定方法具体如下:

对待处理数据集中的所有确定型资源使用模式的任务使用线性回归模型预测对应的资源使用数量,进而计算资源使用数量的平均值为

其中,A为为固定的云资源开销。

进一步的,不确定资源使用模式的探索空间不约束。

进一步的,最优云资源分配方案的搜索过程具体如下:

(1)读取搜索过程中云资源分配向量的初始值,将初始值作为待探索的云资源分配向量

(2)计算待探索的云资源分配向量

(2)计算云资源分配向量集合X

(3)当

(4)直至当前云资源分配向量与上一次云资源分配向量的成本差小于成本差阈值,则当前云资源分配向量即为最优的云资源分配方案。

进一步的,读取搜索过程中云资源分配向量的初始值的确定方法具体如下:

线性资源使用模式,搜索过程中的云资源分配向量的初始值为y

确定型资源使用模式,搜索过程中的云资源分配向量的初始值为

不确定资源使用模式,搜索过程中的云资源分配向量的初始值设为随机值y

本发明无需分析数据类型及任务处理逻辑以进行性能建模,适用于多种类型工单数据处理任务,具有较好的可扩展性;基于概率分布迭代式智能化探索最优云资源分配方案,能够智能化提高工单数据处理效率并减少云资源使用的成本开销;同时,通过判定工单数据处理任务类型设定初始值及探索空间以提高优化的执行效率。

附图说明

图1为本发明实施例提供的面向云计算的工单大数据智能处理方法流程图;

图2为本发明实施例提供的面向云计算的工单大数据智能处理系统的结构示意图。

具体实施方式

下面对照附图,通过对实施例的描述,对本发明的具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

本发明提出一种面向云计算环境的工单大数据智能处理方法,首先通过少量样本离线训练回归模型,进而确定待处理数据集中的待处理样本的资源使用模型,为线性、确定型或不确定的资源使用模型;对云资源分配方案的各维度资源进行编码形成向量,形式化描述云资源分配优化目标;根据任务资源使用类型初始化云资源分配方案并约束各类型任务的探索空间;搜集云计算平台上任务处理时间及产生的成本,以在线迭代自优化的方式调整云资源分配方案;当相邻方案改进小于阈值且取得足够采样,则找到最优资源分配方案并停止探索。

图1为本发明实施例提供的面向云计算的工单大数据智能处理方法流程图,该方法具体如下:

1、任务资源使用离线测试

在实验环境下单台个人计算机上完成任务资源使用测试,初步评估单位工单数据处理任务的资源需求,而不是对工单数据处理的整个执行流程建模,因而该单个计算机不需要与目标集群基础设施具有相同的资源类型以避免集群资源挤占。

从待处理数据集中选择n组样本数据集,样本数量使得实际任务处理过程执行5分钟后完成,为测量数据处理的实际资源占用提供足够时间。第i组样本数据集的数据量大小x

2、资源使用分类

在收集了不同类型任务的资源使用数据之后,需要对任务的资源使用进行分类,以加速探索给定任务的最佳资源分配方案,将任务资源使用划分为以下三种模式:

1)线性型资源使用模式:资源使用和输入数据集大小之间存在线性关系。例如,迭代任务一次性将整个数据集加载到内存中,并在整个执行过程中缓存,那么内存占用量就随数据集大小变化。

2)确定型资源使用模式:资源使用和输入数据集大小之间没有明显的相关性。例如,一次性执行任务不需要节点的内存容量,在分布式数据流任务的各个阶段之间将数据写入磁盘,随着输入数据集大小的增加内存使用保持不变

3)不确定型资源使用模式:资源使用量和任务输入数据集大小之间没有线性相关性。例如,迭代任务一次对整个数据集或大部分数据集进行操作,并以快于垃圾回收速度不断生成新的对象,因此内存使用随时间增加,但是由于定期垃圾回收,通常不会呈线性而是指数或对数增长。

根据样本数据集训练线性回归模型y=ax+b,样本数据集包括数据集大小和相应资源数量信息,其中,x是样本数据集的数据量,y为相应各类资源使用数量,a和b是可由训练得到的参数。构建每类任务的样本数据集,基于第j类任务的样本数据集I

任务资源使用分类判定如下:当R

之后基于在离线测试时判定的任务类型即可确定其对应完整工单数据集处理的任务类型,当然,为了避免出现新的任务类型,需要对新提交工单数据处理任务的资源使用模式进行分类。

3、云资源分配方案编码

将内核数量、内核CPU速度、内核RAM、磁盘空间、磁盘速度和网络带宽等特征值进行标准化和离散化。云资源分配方案

4、云资源分配优化目标定义

对每种云资源分配方案使用向量进行编码表示,迭代探索选择新的云资源分配方案,在资源使用模式的约束下,随机尝试五种初始资源分配方案,观察由此产生的成本开销,探索缩小的探索空间。对于剩余的未探索的探索空间,使用先前可用样本点估计后验分布。随后的每次迭代,使用估计改进函数选择下一个云资源分配方案。当估计改进函数不足以在比先前最佳云资源配置方案带来足够更小的成本开销,探索过程结束。对于给定的工单大数据处理任务,目标是探索最佳的云资源分配方案,以满足处理完成时间要求并最大限度地减少总执行成本,形式化表示为

数据处理任务完成时间

5、云资源分配方案探索初始化及探索空间约束

为了在完整数据集上执行数据处理任务,需要为其分配合理资源,通过约束任务资源使用模式可以减少探索空间,具体包括以下三类:对于线性资源需求,资源需求随输入数据集大小线性增长,将任务的资源需求与数据处理框架资源开销相加,可以估计得到任务对云资源的总需求;对于确定型资源需求,将优先探索空间限制为具有相对较低总资源,因为对于这些任务,额外的资源只会增加成本,而不会提高性能;对于不确定资源需求,不能限制探索空间,否则会导致得不到期望的资源数量。

假设数据处理软件的固定的云资源开销已知为A,根据判定的工单数据处理任务资源使用模式;

对于第一类线性资源使用模式,确定待处理数据集中线性型资源使用模式的数据量大小x

对于第二类确定型资源使用模式,对待处理数据集中的所有确定型资源使用模式的任务使用线性回归模型预测对应的资源使用数量,进而计算资源使用数量的平均值为y,将搜索过程中的云资源分配向量的初始值设为

对于第三类不确定资源使用模式,将搜索过程中的云资源分配向量的初始值设为随机值y

6、最优云资源分配方案的搜索

目标函数

使用高斯过程作为云资源分配向量x的总成本为

(1)读取搜索过程中云资源分配向量的初始值,将初始值作为待探索的云资源分配向量

(2)计算待探索的云资源分配向量

(2)计算云资源分配向量集合X

(3)当

(4)直至当两次相邻采集样本点的函数值

图2为本发明实施例提供的面向云计算的工单大数据智能处理系统的结构示意图,为了便于说明,仅示出与本发明实施例相关的部分。该系统包括:

任务资源评估器部署在离线测试环境,通过在个人计算机上执行少量工单数据样本的数据处理任务判断数据处理任务为线性、确定型或不确定资源需求类型;数据处理监测器搜集云计算平台上任务处理时间及产生的成本;云资源分配方案探索器根据得到的任务处理成本,所有最优的云资源分配向量;云资源分配器调用云计算平台的资源分配接口调整任务执行的各类资源。

本发明提供的面向云计算的工单大数据智能处理方法具有如下有益技术效果:

(1)采用非参数化智能优化探索方法探索工单大数据处理任务的云资源分配方案,无需预先定义大数据处理的性能模型进行训练,适用于工单大数据的复杂任务处理。与传统人工构建模型的方法相比,可以有效降低构建模型的难度和分配云资源的复杂性。估计每个候选云资源分配方案的任务执行完成时间和成本开销的置信区间,通过搜集更多实际运行中获得的样本数据改善置信区间,通过探索减少当前云资源调整的不确定性以接近最优解。

(2)利用来自先前运行时搜集的工单大数据任务完成时间和云资源分配的监测信息,在执行过程中动态迭代反馈式地更新集群资源分配,无需此前同样类型任务的执行记录作为参考,适用于工单大数据的异构任务类型。与传统参考同类数据处理任务历史执行记录的方法相比,可以适用于不具有先前执行记录的全新任务类型。

(3)在实验环境下开展小规模测试以发现工单大数据任务处理数量和资源需求的关系,限定各类任务资源分配方案的探索范围,通过减少探索空间来快速探索合适的资源分配方案,进而对资源分配方案进行优先排序,从而减少了运行时方案探索时间,降低了大范围探索云资源分配方案空间所带来的资源代价。

本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 一种植物观赏方法、装置、电子设备和存储介质
  • 一种题目搜索、批改方法、装置、电子设备和存储介质
  • 一种虚拟形象视频播放方法、装置、电子设备及存储介质
  • 一种匿名电子投票方法及装置、存储介质及电子设备
  • 基于环签名的匿名投票方法及装置、电子设备、存储介质
技术分类

06120116555663