掌桥专利:专业的专利平台
掌桥专利
首页

一种真实用户智能感知系统中用例的智能策略抓取方法

文献发布时间:2023-06-19 16:04:54



技术领域

本发明属于强化学习技术领域,特别涉及真实用户智能感知系统中基于强化学习的智能策略抓取方法。

背景技术

强化学习是是机器学习的范式和方法论之一,用于解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。当前,随着互联网、大数据等信息技术的迅猛发展,人们暴露在规模日益增长的大体量数据环境中,用户在面对海量信息时难以做出合适的决策。强化学习应用于多个领域,通过试错的方式学习最优策略,自适应地解决决策问题,是目前学术界关注的热点前沿。

证券类APP是经纪业务的端口,它承载了证券交易、产品销售、投顾咨询、投资者教育等等功能,换言之,功能对应着收入,券商应用的第一思维是把这些业务搬到互联网上去。因此券商APP形成了一定的门槛,这种门槛和普通金融类APP拉开明显的差异,使用户可以很快被吸引和转化,同时转化后又对用户产生长期的应用价值,持续保持应用黏性。在易用性方面要使用户无障碍和学习成本,减少转化损耗。在长期使用的过程中,对用户所关注的数据和再次选择提供帮助,使用户对该产品形成依赖,只要有投资需求,便对该产品产生倾向性。此外,云中心负责生成用例,用户通过分析自己的需求,向云端请求相应的用例。传统的用例抓取方法大都是人工抓取,大大增加了时间耗费,降低了用户的体验。为了给用户带来长期高质量的服务,如何实现精准、高效的策略抓取是工业界和学术界关注的热点。因此,设计一种真实用户智能感知系统中基于强化学习的智能策略抓取方法,以满足高效抓取用例的需求。

强化学习已经受到广泛应用。例如文献“胡鹤轩,尹苏明,胡强,张晔,胡震云,义崇政.基于强化学习算法的水库优化调度研究[J].水电能源科学,2022,40(01):73-77.”针对复杂现实环境下的水库优化调度问题,采用强化学习的Q-leaning算法,以哈希表作为核心数据结构,在逐步生成水库可行调度方案的同时,提出一种基于Q值优化的水库优化调度方案。文献“罗飞,白梦伟.基于强化学习的交通情景问题决策优化[J/OL].计算机应用:1-8,2022-03-20.”研究了在复杂的交通情境下如何高效做出决策的问题,通过应用优化的贝尔曼公式和快速Q学习机制、引入经验池技术和直接策略,提出基于强化学习的出租车路径规划决策方法和交通信号灯控制方法。随着用户请求的用例类型和数量的增加,将会对用例抓取带来挑战。

发明内容

解决的技术问题:本发明针对端云协同环境下测试机的用例请求,提供真实用户智能感知系统中基于强化学习的智能策略抓取方法,能够实现高效的用例抓取,提高用户的服务体验。

技术方案:

一种真实用户智能感知系统中用例的智能策略抓取方法,所述智能策略抓取方法包括以下步骤:

S1,分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量,对用例的异构性进行分析;

S2,结合用例的异构性,分析每个测试机已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制、已运行时间、存储空间限制,建立测试机用例需求模型,计算得到需要传输的用例类型和每个用例类型的数量;

S3,构建用例传输模型,对真实用户智能感知系统中的用例的端端传输和端云传输进行分析,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间;

S4,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式;

S5,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配。

进一步地,步骤S1中,所述真实用户智能感知系统的所有金融用例集合为

进一步地,步骤S2中,计算得到需要传输的用例信息的过程包括以下步骤:

S21,设场景中存在

S22,获取每个测试机

S23,对测试机

S24,结合测试机

S25,生成测试机

进一步地,步骤S3中,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间的过程包括以下步骤:

S31,假设用例请求

S32,根据下述公式计算云端和本地服务器之间的信道传输速率

式中,

S33,计算得到云端和本地服务器之间的用例传输耗费时间

式中,

进一步地,步骤S4中,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式的过程包括以下步骤:

S41,将本地服务器、云端、测试机组成的系统模型看做是强化学习中的环境,本地服务器根据测试机的用例需求制定分配策略,若缺少用例则向云端按需抓取,本地服务器是强化学习模型中的智能体,作为云端和测试机通信的中介;

S42,将时间T分成若干相等的时隙,在每个时隙

S421,定义初始状态:本地服务器已有的用例种类表示为集合

S422,假设本地服务器对于测试机

从云端抓取剩余用例的时间耗费为:

总奖励表示为:

在每次迭代时,记录获得的奖励,在下一次迭代过程中,将下一次获得的奖励与当前记录的奖励比较,当奖励逐渐变少,即时间耗费逐渐变低时,采取相应的策略;

S43,用τ表示当前获得的奖励,定义奖励的更新方法为:

式中,

当前奖励更新后,根据更新的奖励执行相应的动作,同时环境进入下一个状态,依次迭代,直至所有的测试机完成业务。

进一步地,步骤S5中,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配的过程包括以下步骤:

当多台测试机同时向本地服务器退还分配的用例,且本地服务器的存储超过了上限时,按照先借先还的原则,按顺序退还;未退还用例的测试机等待本地服务器对用例重新分配后,再进行退还操作。

有益效果:

本发明的真实用户智能感知系统中用例的智能策略抓取方法,在用例策略抓取前,通过分析云端生成的和本地已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制,建立测试机用例需求模型;在构建用例传输模型时,重点考虑端云和端端的用例传输,是强化学习中奖励更新的基础;在使用强化学习进行云端用例的策略抓取时,充分考虑了本地服务器已有的用例类型和数量,减少了用例传输的时间耗费。

附图说明

图1为本发明实施例的真实用户智能感知系统中用例的智能策略抓取方法流程图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。

图1为本发明实施例的真实用户智能感知系统中用例的智能策略抓取方法流程图。参见图1,该智能策略抓取方法包括以下步骤:

S1,分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量,对用例的异构性进行分析。

S2,结合用例的异构性,分析每个测试机已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制、已运行时间、存储空间限制,建立测试机用例需求模型,计算得到需要传输的用例类型和每个用例类型的数量。

S3,构建用例传输模型,对真实用户智能感知系统中的用例的端端传输和端云传输进行分析,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间。

S4,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式。

S5,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配。

本发明提出的真实用户智能感知系统中基于强化学习的智能策略抓取方法包括下述步骤,流程如图1所示:

步骤1:本地服务器存储了部分用例,用于向测试机及时分配所请求的用例。同时, 当测试机使用完毕后,本地服务器负责对用例回收,等待下一次用例分配和调度。用例可分 为多个种类,每个种类的用例分别完成测试机的部分请求。使用集合

值得注意的是,集合

进一步考虑本地服务器的存储有限性,对于其已存储的用例,考虑其在本地服务 器存储的数量,表示为

步骤2:测试机通过向本地服务器请求用例,进而完成用例使用需求。假设场景中 存在N台测试机,表示为集合

测试机通过请求用例来完成相应的业务,以测试机

式中,

步骤3:由于测试机完成具体业务需要向本地服务器请求用例调度,因此,需考虑用例的端对端传输。此外,若本地服务器不具备相应的用例,则需要向云端请求,因此,还需考虑用例的端到云传输。信道传输速率可表示为

式中,

假设用例请求

由于云到端和端到端的传输信道带宽不同,传输速率也不同,表示为:

式中,

因此,完成一次云到端用例传输需要耗费的时间为:

同理,完成一次端到端用例传输需要耗费的时间为:

步骤4:将本地服务器、云端、测试机组成的系统模型看做是强化学习中的环境Environment。本地服务器根据测试机的用例需求制定分配策略,若缺少用例则向云端按需抓取,因此本地服务器是强化学习模型中的智能体Agent,作为云端和测试机通信的中介。环境的状态State是测试机完成各自业务的情况,以及本地服务器在向测试机分配和向云端抓取用例之后尚存的用例种类及数量,当前状态决定了下一个动作是分配或抓取。动作Action是Agent本地服务器在每次迭代过程中采取的策略,包括为若干台测试机调度现有用例、从云端进行用例的抓取。奖励Reward是本地服务器在采取动作后,环境反馈的效益,本模型中,使用用例传输的时间耗费作为奖励。

在本模型中,将时间

定义初始状态:本地服务器已有的用例种类表示为集合

定义动作:在时隙

定义奖励:在本模型中,以传输用例的时间耗费作为奖励。对于迭代过程中的某一状态中采取的某一动作,以传输的所有用例耗费的时间作为评价本地分配用例或云端抓取用例策略的优劣。

例如在某一状态下,本地服务器决定向测试机

则剩余的用例需要在云端进行抓取,时间耗费为:

因此,总奖励可表示为:

在每次迭代时,需要记录获得的奖励,在下一次迭代过程中,将下一次获得的奖励与当前记录的奖励比较,只有当奖励逐渐变少,即时间耗费逐渐变低时,才会实际采取相应的策略。

定义奖励的更新方法:用τ表示当前获得的奖励,更新方法如下:

式中,

当前奖励更新后,根据更新的奖励执行相应的动作,同时环境进入下一个状态,依次迭代,直至所有的测试机完成业务。

步骤5:根据步骤4确定的强化学习策略,能使得测试机对本地服务器的用例充分利用。本地服务器通过向云端抓取测试机请求的用例并分配给测试机,在测试机通过本地服务器分配的用例完成业务后,所分配的用例需要及时退还给本地服务器,以便完成其他测试机的用例请求。若多台测试机同时向本地服务器退还分配的用例,进而导致本地服务器的存储超过了上限,需要按照先借先还的原则,按顺序退还。未退还用例的测试机需要等待本地服务器对用例重新分配后,在进行退还操作。于是,便得到真实用户智能感知系统中基于强化学习的智能策略抓取方法。

相关技术
  • 一种真实用户智能感知系统中用例的智能策略抓取方法
  • 在智能网络中实施用户定义的策略的方法和系统
技术分类

06120114690100