掌桥专利:专业的专利平台
掌桥专利
首页

一种基于相变存储器的资格迹计算器

文献发布时间:2023-06-19 13:29:16


一种基于相变存储器的资格迹计算器

技术领域

本发明属于新型计算技术领域,具体涉及一种基于相变存储器内在电导漂移效应的资格迹计算器。

背景技术

强化学习算法由于其优秀的性能,近年来得到众多科研人员的关注,它能够基于任务环境的奖惩从而生成解决问题的策略,通过多轮迭代生成的优化策略能够有效地完成众多领域内的复杂任务,而且不需要来自外界的指导或监督。经过不断优化的强化学习算法目前已经能够在自动驾驶、游戏对战等领域取得接近甚至超越人类水平的表现。强化学习算法强大的功能离不开一种有效且常用的机制——资格迹的支持,它能够以随时间衰减的方式记录下强化学习中智能体在一轮训练中经历的状态轨迹,并且基于这个轨迹的幅度指导不同状态对应的策略的更新幅度,从而加速最佳策略的形成,降低强化学习训练过程的代价并且提升最终的训练效果。

传统计算平台上实现的资格迹是通过计算大量的指数衰减函数得到的,这不仅需要进行大量的乘法运算,还需要频繁地在计算器和存储器之间进行数据搬运,能量消耗十分高昂,从而严重限制了复杂强化学习算法的实现。相变存储器是一类新型非易失型存储器,它依靠内部相变材料在晶态和非晶态之间显著的电导差异实现高速、高密度的数据存储,而不稳定的非晶态材料内部会自发地发生结构解体,生成电导更低的玻璃态,因此相变存储器的电导状态会随着时间发生衰减,被称为电导漂移。合理地利用相变存储器的电导漂移,就能够以存内计算的方式自动地实现资格迹的衰减机制,避免大量的数据搬运以及乘法运算,从而有效降低大型强化学习算法的开销。

发明内容

为了解决复杂强化学习算法中资格迹计算能量消耗太高昂的问题,本发明提供了一种基于相变存储器多值特性以及电导漂移特性的资格迹计算器,能够以存内计算的方式自发地实现资格迹的衰减,从而大幅降低了资格迹计算的能量消耗。利用相变存储器自发电导漂移效应,本发明能够自动地实现资格迹的衰减运算而不需要复杂的运算电路,有效降低了硬件开销;此外,资格迹的存储和运算都是相变存储器内完成的,避免了频繁的数据搬运,从而进一步降低了运算的能量消耗。因此与传统的资格迹实现方式相比,本发明在能量和硬件的开销上具有明显的优势。

本发明的资格迹计算器由两部分构成,参见图1,第一部分是可编程的相变存储器阵列,包括用于发生编程脉冲和读取器件电导的外围电路以及共地方式连接的相变存储器阵列单元;每个相变存储器阵列单元由一个相变存储器和一个晶体管组成,相变存储器的一端连接晶体管,另一端接地,由晶体管控制相变存储器与外围电路的通断;每个相变存储器以电导的形式存储一个对应的资格迹数据并自发进行衰减运算;第二部分是结果转换器,包括比较器和线性运算器,能够将从相变存储器阵列中读取出来的电导数据转化为资格迹数据,从而用于强化学习。

本资格迹计算器的原理是基于相变存储器自发的电导漂移来实现衰减计算,电导漂移的规律为:G(t)=G(t

优选的,所述结果转换器包括两个模拟比较器和一个线性运算器,从相变存储器阵列中读取的电导数据G首先被送入第一个模拟比较器与电导上限G

本发明提供了一种基于相变存储器电导漂移效应的资格迹计算器,首先利用相变存储器的多值特性,一个浮点型的资格迹数据就能够以电导的形式存储在一个存储器单元中,与传统的二值存储方式相比能够有效降低存储器单元的数量,实现高密度存储;然后利用相变存储器的电导漂移效应自发地实现随时间的衰减运算:G=G*(t/t

附图说明

图1为本发明基于相变存储器的资格迹计算器的结构示意图。

图2为本发明基于相变存储器的资格迹计算器的工作流程图。

图3为本发明中结果转换器对电导漂移效果调制的效果示意图。

具体实施方式

为了更加清楚地阐明本发明的目的、技术方案与优点,下面结合附图,进一步详细地说明本发明。此处的描述仅仅用以解释本发明,并不用于限定本发明。

本发明提供了一种基于相变存储器电导漂移效应的资格迹计算器,不仅能够实现资格迹数据在相变存储器中的高密度存储,还能够依靠其电导漂移效应自动地实现衰减运算。与传统的资格迹计算方式相比,本发明即降低了运算过程中的硬件开销,也避免了因数据来回搬运产生的高昂能量消耗。

图1为本发明的整体结构示意图,该资格迹计算器由两部分构成。第一部分为可编程的相变存储器阵列,如图1左侧所示,用于存储资格迹数据并进行自动的衰减运算。阵列中每个单元都由一个相变存储器和一个晶体管构成,每个相变存储器都以电导的形式存储一个对应的资格迹数据,而晶体管则用于控制相变存储器与外界连接的通断;相变存储器的一端连接晶体管,另一端接地。根据强化学习算法对资格迹数据进行更新:E(s,a)=1时,阵列外围的控制电路会打开相变存储器G(s,a)所在行的晶体管,并在对应的列上施加阶梯型的编程电流,这样编程电流就能施加在相变存储器G(s,a)上,从而小幅提升其电导。如图1中所示的信号施加方式能够对虚线框内的相变存储器进行编程,同时也不影响其他相变存储器。而在后续的衰减运算中,以电导形式存储在相变存储器中的资格迹数据会由于电导漂移效应自发地进行随时间的衰减:G=G*(t/t

本发明的第二部分是结果转换器,如图1右侧所示,用于将相变存储器阵列中读取的电导数据转换为范围为0~1的资格迹数据。这部分由两个模拟比较器和一个线性运算器构成,从存储器阵列中读取的电导数据G首先被送入第一个模拟比较器与电导上限G

图2是本发明基于相变存储器的资格迹计算器的流程图,其计算资格迹的过程主要包括如下步骤:

(1)根据强化学习算法中当前的状态和动作(s,a),在相变存储器阵列中选取对应的器件G(s,a),打开其单元的晶体管,并对相变存储器施加编程电流I_program,小幅提升其电导状态。

(2)将相变存储器阵列中的所有电导数据都读取出来送入结果转换器中。

(3)从当前的电导数据中选取一个G,将其与电导上限G

(4)将电导数据G与电导下限G

(5)对电导数据G进行线性变换:E=k(G-b),其中b=G

(6)输出资格迹E=1并进入步骤(8)。

(7)输出资格迹E=0并进入步骤(8)。

(8)判断是否所有电导数据都转化完成,如果是则进入步骤(9),否则返回步骤(3)。

(9)完成资格迹的计算。

由于相变存储器电导漂移的速率基本上是固定的,都以G=G*(t/t

图3为本发明中结果转换器对电导漂移效果调制的效果示意图,其中(a)表示经过结果转换器之前,本发明实现的资格迹衰减效果与传统的指数衰减效果的对比,其中虚线簇为电导漂移的效果(电导漂移系数取常见的相变存储器的范围:0.01~0.03),实线簇为指数衰减的效果(衰减的底数取强化学习中常用的范围:0.8~0.9)。通过对比可以看出,两种运算产生的衰减效果的差异比较明显,电导漂移实现的资格迹衰减与指数衰减相比速度比较缓慢,因此直接用于强化学习效果会不理想,因此对电导漂移的结果进行转换就必不可少。图3中(b)展示了电导漂移产生的衰减通过结果转换器的调节之后的效果,通过选取合适的参数k和b,电导漂移产生的衰减速度可以达到指数衰减的水平,这种类似的衰减方式也确保了本发明产生的资格迹能够用于强化学习中。

本发明提出了一种新的强化学习资格迹计算器,能够依靠相变存储器的电导漂移效应自动地实现衰减运算,与传统的资格迹计算方式相比,不仅不需要复杂的乘法运算器,有效地降低运算过程的硬件开销,而且资格迹数据的存储和衰减运算都在相变存储器内部进行,避免了因频繁搬运数据产生的巨大能量消耗。此外,通过对本发明中结果转换器中参数的调节,资格迹的衰减就能被调节到合适的速率,从而适用于不同的强化学习任务。本发明能够有效地突破传统计算机架构中存储墙对复杂强化学习算法的限制,对于推动强化学习以及其他人工智能的进一步发展有重要的意义。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

相关技术
  • 一种基于相变存储器的资格迹计算器
  • 基于资格迹和在线更新式的电力信息系统安全策略系统
技术分类

06120113694193