掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的器件自动设计方法、装置及存储介质

文献发布时间:2024-04-18 19:58:30


基于强化学习的器件自动设计方法、装置及存储介质

技术领域

本发明涉及微纳结构设计技术领域,尤其涉及一种基于强化学习的器件自动设计方法、装置及存储介质。

背景技术

二阶微分光学器件能够直接对光场进行二阶微分,可以快速高效的对光场进行计算,在光计算和光信息处理领域具有重要的地位,是前沿光学和微纳光学的热点。二阶微分微纳结构器件的超常光学性能是利用不同的纳米微元对光场的精确调控实现的,由于光场作用尺度小,这就要求复合微纳结构的设计异常精确,才能满足光场精确调控的要求。

现阶段,二阶微分微纳结构的设计主要是遍历不同尺寸微纳结构器件的透过率特性,从中挑选出满足二阶微分透过率特性的微纳结构。这样的设计方法需要大量的计算工作,整个过程耗时费力,还需要大量的人工辅助,此外,人工遍历计算的结果分辨率低,得到的微纳结构器件的透过率特性往往只是局部最优结果,无法得到全局最优结果,严重制约了二阶微分微纳结构器件的进一步发展。

发明内容

本发明所要解决的技术问题在于,提供一种基于强化学习的器件自动设计方法、装置及存储介质,能够通过强化学习的自主学习能力,高效准确地搜索到器件的最优结构布局。

为了解决上述技术问题,本发明第一方面公开了一种基于强化学习的器件自动设计方法,所述方法包括:

确定目标器件的初始尺寸参数值;所述初始尺寸参数值包括半径和高度;

将所述初始尺寸参数值输入至训练好的器件结构分析模型,得到所述目标器件的结构布局;

将所述结构布局确定为所述目标器件的最优结构布局输出。

可选的,所述器件结构分析模型通过如下方式被训练得到:

确定强化学习模型;

基于一个训练好的多层感知机神经网络模型,实现从微纳结构尺寸到透过率的直接映射;

利用强化学习模型中智能体对不同尺寸微纳结构的透过率特性进行探索,并获得奖励;

采用近端策略优化算法,通过最大化奖励的数值对所述器件结构分析模型进行训练;

在所述奖励达到预设最大值的情况下,得到训练好的器件结构分析模型。

可选的,所述确定强化学习模型,包括:

构造强化学习模型,实现所述智能体与环境相互作用以获得奖励的机制;所述智能体采用actor-critic模式,actor网络实现从状态到动作的映射,输入为所述智能体的状态,输出为所述智能体采取的动作,critic网络实现从状态到价值的映射,输入为所述智能体的状态,输出为状态的价值;

确定actor和critic网络的层数、神经元个数、学习率和优化器。

可选的,所述多层感知机神经网络模型通过如下方式被训练得到:

确定待设计二阶微分微纳结构光学器件基本参数的取值范围;所述基本参数包括纳米柱的尺寸;所述尺寸包括半径r和高度h;

构造初始的多层感知机神经网络模型,使得在输入基本参数的情况下,输出为对应的透过率随入射光角度的变化曲线τ

利用时域有限差分FDTD算法,计算得到不同尺寸二阶微分微纳结构光学器件的微纳结构单元的透过率特性随入射光夹角之间的关系τ

将各所述二阶微分微纳结构光学器件各自的尺寸与对应的微纳结构透过率随角度变化的曲线τ

将所述训练数据输入所述初始的多层感知机神经网络模型,通过最小化损失函数对多层感知机神经网络模型进行迭代训练;

在多层感知机神经网络模型在训练中满足预设条件的情况下,得到训练好的所述多层感知机神经网络模型。

可选的,所述奖励

其中,δ为单元透过率曲线和期望透过率曲线间的误差,δ=∑|τ

可选的,所述利用时域有限差分FDTD算法,计算得到不同尺寸二阶微分微纳结构光学器件的微纳结构单元的透过率特性随入射光夹角之间的关系τ

利用FDTD软件,计算角度α、半径r、高度h、波长λ组合条件下的透过率τ(α,r,h,λ);

重新排列数据,得到半径r,高度h,波长λ组合条件下对应的τ(α)。

本发明第二方面公开了一种基于强化学习的器件自动设计装置,所述装置包括:

确定模块,用于确定目标器件的初始尺寸参数值;所述初始尺寸参数值包括半径和高度;

输入模块,用于将所述初始尺寸参数值输入至训练好的器件结构分析模型,得到所述目标器件的结构布局;

输出模块,用于将所述结构布局确定为所述目标器件的最优结构布局输出。

本发明第三方面公开了另一种基于强化学习的器件自动设计装置,所述装置包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于强化学习的器件自动设计方法。

本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于强化学习的器件自动设计方法。

与现有技术相比,本发明实施例具有以下有益效果:

本发明实施例中,通过确定目标器件的初始尺寸参数值,将初始尺寸参数值输入至训练好的器件结构分析模型,从而得到目标器件的结构布局,将结构布局确定为目标器件的最优结构布局输出。可见,实施本发明能够通过强化学习的自主学习能力,高效准确地搜索到器件的最优结构布局。同时,本发明采用了神经网络的方法,作为代理模型,解决了从设计参数到微纳结构器件透过率特性的直接映射问题,避免了与第三方软件对接的接口复杂,计算效率低的问题;并且,本发明采用离散化处理方法,将微纳结构的表述参数离散化为智能体的离散状态,将状态到状态的改变离散化为有限的动作,很好的契合强化学习模型的要求;此外,本发明的强化学习的奖励设计中,除了考虑微纳结构器件的透过率随角度变化的透过率特性,还耦合考虑了透过率的效率,实现了透过率特性的多约束求解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于强化学习的器件自动设计方法的流程示意图;

图2为本发明的一种二阶微分微纳结构光学器件单元构成示意图;

图3为本发明的一种神经网络示意图;

图4为本发明的一种FDTD计算结果和神经网络预测结果比较图;

图5为本发明的一种强化学习模型训练的误差下降曲线图;

图6为本发明的一种强化学习模型自动设计的微纳结构的透过率特性曲线图;

图7为本发明的一种强化学习模型自动设计的微纳结构的透过率特性曲线与期望透过率曲线之间的比较图;

图8是本发明实施例公开的一种基于强化学习的器件自动设计装置的结构示意图;

图9是本发明实施例公开的另一种基于强化学习的器件自动设计装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

实施例一

请参阅图1,图1是本发明实施例公开的一种基于强化学习的器件自动设计方法的流程示意图。如图1所示,该方法可以包括:

步骤101、确定目标器件的初始尺寸参数值。

可选的,初始尺寸参数值包括半径和高度。

步骤102、将初始尺寸参数值输入至训练好的器件结构分析模型,得到目标器件的结构布局。

步骤103、将结构布局确定为目标器件的最优结构布局输出。

可选的,器件结构分析模型通过如下方式被训练得到:确定强化学习模型;基于一个训练好的多层感知机神经网络模型,实现从微纳结构尺寸到透过率的直接映射;利用强化学习模型中智能体对不同尺寸微纳结构的透过率特性进行探索,并获得奖励;采用近端策略优化算法,通过最大化奖励的数值对器件结构分析模型进行训练;在奖励达到预设最大值的情况下,得到训练好的器件结构分析模型。如此,给出了器件结构分析模型的训练过程。

可选的,确定强化学习模型,包括:构造强化学习模型,实现智能体与环境相互作用以获得奖励的机制;智能体采用actor-critic模式,actor网络实现从状态到动作的映射,输入为智能体的状态,输出为智能体采取的动作,critic网络实现从状态到价值的映射,输入为智能体的状态,输出为状态的价值;确定actor和critic网络的层数、神经元个数、学习率和优化器。如此,给出了利用强化学习模型获得奖励的原理。

可选的,多层感知机神经网络模型通过如下方式被训练得到:确定待设计二阶微分微纳结构光学器件基本参数的取值范围;基本参数包括纳米柱的尺寸;尺寸包括半径r和高度h;构造初始的多层感知机神经网络模型,使得在输入基本参数的情况下,输出为对应的透过率随入射光角度的变化曲线τ

可选的,奖励

其中,δ为单元透过率曲线和期望透过率曲线间的误差,δ=∑|τ

可选的,利用时域有限差分FDTD算法,计算得到不同尺寸二阶微分微纳结构光学器件的微纳结构单元的透过率特性随入射光夹角之间的关系τ

可选的,待设计二阶微分微纳结构光学器件基本参数的取值范围的确定方式如下:确定数值孔径;根据数值孔径、孔径、工作波段范围三者之间的关联关系,确定待设计二阶微分微纳结构光学器件基本参数的取值范围。如此,给出了取值范围的具体确定方式。

在一个具体的实施方式中,实施步骤如下:

步骤1:根据实际需求,确定二阶微分微纳器件的数值孔径NA,进而可以确定微纳器件的像元尺寸,即

步骤2:确定待设计二阶微分微纳结构光学器件基本参数的取值范围,入射光的角度取值范围可以为0-15deg,间距可以为1deg,共16组;纳米柱半径取值范围可以为80-120nm,间距为2nm,共21组;纳米柱高度取值范围可以为130-170nm,间距为2nm,共21组;波长范围可以为600-750nm,间隔为2nm,共76组;利用FDTD软件,根据样本空间的大小,计算角度、半径、高度、波长组合条件下的透过率τ(α,r,h,λ);重新排列数据,得到r,h,λ组合条件下对应的τ(a)。

步骤3:构造多层感知机神经网络模型,采用多层感知机结构,输入为半径r、高度h、波长λ,输出为对应的透过率随角度的变化曲线τ(α);神经网络的输入层可以为3,输出层为16,隐藏层为4层,神经元数为60个,例如图3所示的神经网络示意图;激活函数为sigmod激活函数,优化器采用Adam优化器,loss函数为MSE;学习率为指数衰减学习率,初值为1e-2,步数为50000步;多层感知机神经网络模型进行训练完成后,存储模型的权重和偏置用于后续透过率的快速预测,如图4所示,显示预测结果与实际结果吻合较好。

步骤4:构造强化学习模型,设计一个智能体与环境相互作用以获得奖励来实现微分微纳结构的自动设计;智能体的状态对应r,h,w三个维度,动作为离散动态,分别为r+,r-,h+,h-,w+,w-,当增加超过最大区间时,回到最小值,当减少超过最小区间时,变为最大值;智能体采用actor-critic模式,actor和critic的记忆结构都采用神经网络进行实现;actor网络实现从状态到动作的映射,输入为智能体的状态,输出为智能体采取的动作,网络采用全连接结构,隐藏层为2层,单元数为32个,激活函数为tanh;critic网络实现从状态到价值的映射,输入为智能体的状态,输出为状态的价值,网络采用全连接结构,隐藏层为2层,单元数分别为32个和64个,激活函数为tanh;actor和critic的学习率分别为1e-4和1e-4,优化算法采用adam优化器;采用近端策略优化(PPO)算法,训练智能体,训练次数500次,通过智能体与环境互动收集奖励,以达到奖励的最大化,从而实现最优微纳结构尺寸的预测。训练过程中,训练奖励曲线随迭代次数的变化情况如图5所示,训练结果如图6和图7所示,强化学习自动设计的微纳结构器件的透过率特性与期望透过率特性吻合较好。

步骤5:载入训练好的器件结构分析模型,随机给出目标器件的初始尺寸参数值,将尺寸参数值输入至训练好的器件结构分析模型,得到模型的输出结果,输出结果即满足设计要求的目标器件的最优结构布局。

本发明将二阶微分微纳光学器件所要满足的光学特性,编码为强化学习模型,实现智能体自动搜索最优结果。首先,将二阶微纳光学器件的参数编码为智能体状态空间,每组参数对应于智能体的一个状态,其次,编码动作空间,实现智能体状态到状态的转移遍历,再次,将二阶微分微纳光学器件所要满足的光学特性编码智能体和环境互动的奖励,与期望光学特性越吻合奖励越高,与期望光学特性越原理奖励越少,最后,利用近端策略优化算法对强化学习模型进行训练,模型收敛后,即可随机给定微纳光学器件的初值,智能体通过多次迭代后即可优化出满足要求的二阶微分微纳光学器件。

采用本公开实施例提供的基于强化学习的器件自动设计方法,通过确定目标器件的初始尺寸参数值,将初始尺寸参数值输入至训练好的器件结构分析模型,从而得到目标器件的结构布局,将结构布局确定为目标器件的最优结构布局输出。可见,实施本发明能够通过强化学习的自主学习能力,高效准确地搜索到器件的最优结构布局。同时,本发明采用了神经网络的方法,作为代理模型,解决了从设计参数到微纳结构器件透过率特性的直接映射问题,避免了与第三方软件对接的接口复杂,计算效率低的问题;并且,本发明采用离散化处理方法,将微纳结构的表述参数离散化为智能体的离散状态,将状态到状态的改变离散化为有限的动作,很好的契合强化学习模型的要求;此外,本发明的强化学习的奖励设计中,除了考虑微纳结构器件的透过率随角度变化的透过率特性,还耦合考虑了透过率的效率,实现了透过率特性的多约束求解。

实施例二

请参阅图8,图8是本发明实施例公开的一种基于强化学习的器件自动设计装置的结构示意图。如图8所示,该装置可以包括:

确定模块201,用于确定目标器件的初始尺寸参数值;初始尺寸参数值包括半径和高度;

输入模块202,用于将初始尺寸参数值输入至训练好的器件结构分析模型,得到目标器件的结构布局;

输出模块203,用于将结构布局确定为目标器件的最优结构布局输出。

采用本公开实施例提供的基于强化学习的器件自动设计装置,通过确定模块201、输入模块202、输出模块203三者之间的配合,能够通过强化学习的自主学习能力,高效准确地搜索到器件的最优结构布局。

实施例三

请参阅图9,图9是本发明实施例公开的另一种基于强化学习的器件自动设计装置的结构示意图。如图9所示,该装置可以包括:

存储有可执行程序代码的存储器301;

与存储器301耦合的处理器302;

处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一所描述的基于强化学习的器件自动设计方法中的步骤。

实施例四

本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行前述实施例所描述的基于强化学习的器件自动设计方法中的步骤。

以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

最后应说明的是:本发明实施例公开的一种基于强化学习的器件自动设计方法、装置及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

相关技术
  • 一种基于文本的元器件识别方法、系统、装置和存储介质
  • 一种基于图形的元器件识别方法、系统、装置和存储介质
  • 一种基于存储介质的固件自动升级方法及其存储介质
  • 基于大批量报告单的自动审核方法及装置、计算机可读存储介质
  • 基于语法转换的自动测试方法、装置及存储介质
  • 一种基于神经网络的室内灯具自动布局设计方法、装置、系统及存储介质
  • 一种基于神经网络的室内灯具自动布局设计方法、装置、系统及存储介质
技术分类

06120116499900