导航：首页> 计算；推算；计数>用于智能辅助驾驶的类脑情境学习模型构建与训练方法

用于智能辅助驾驶的类脑情境学习模型构建与训练方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及智能辅助驾驶技术领域，特别是涉及用于智能辅助驾驶的类脑情境学习模型构建与训练方法。

背景技术

智能驾驶是指机器帮助人进行驾驶，以及在特殊情况下取代人驾驶的技术。智能驾驶作为工业革命和信息化的重要产物，是战略性新兴产业的重要组成部分，是当今人工智能时代中的一个重要分支，可能将成为下一代智能终端。目前，无人驾驶的发展有两条路径，分别是以ADAS主导，和以人工智能主导的。L1-L3等级的智能驾驶系统主要以ADAS(高级驾驶辅助系统)为主导，其核心技术是自动控制系统。随着ADAS功能和技术的不断完善和发展，在基于丰富的整车制造经验，完善的配套服务体系下，智能驾驶已经可以做到高度自动化驾驶。

其中，ADAS功能需要依靠神经网络来进行实时运算和学习。与传统人工神经网络相比，脉冲神经网络更类似于生物神经元，并且由于基于事件的、异步处理的特性而具有更高的实现效率。然而，由于传统的监督学习方法的激活具有不可微的基于事件的性质，因此不能移植到脉冲神经网络上。

因此，急需一种能够将学习方法与脉冲神经网络相适配的网络模型。

发明内容

本发明的目的是提供一种用于智能辅助驾驶的类脑情境学习模型构建与训练方法，通过强化学习机制在情境学习的任务中学习刺激-反应之间的奖励关联，不仅能够节省成本，而且可以显著降低功耗。

为实现上述目的，本发明提供了如下方案：

第一方面，本发明提供一种用于智能辅助驾驶的类脑情境学习模型构建方法，包括：

采用LIF神经元模型构建脉冲神经网络的神经元；

采用状态函数方程设置所述神经元在不同状态下的膜电压；

采用基于赫布法则的STDP学习规则，在所述脉冲神经网络中引入突触模型；

基于控制器单元、突触横梁和所述突触模型，构建脉冲神经网络。

进一步地，所述LIF神经元模型具体为：

其中，τ

进一步地，所述状态函数方程具体为：

其中，

进一步地，所述采用基于赫布法则的STDP学习规则，在所述脉冲神经网络中引入突触模型，具体包括：

将所述基于赫布法则的STDP学习规则进行简化操作，得到简化后的STDP学习规则；所述简化操作包括保留时序关联的基础上缩减乘法器和指数型函数；

基于所述简化后的STDP学习规则，在所述脉冲神经网络中引入抑制型静态突触和兴奋型可塑性突触。

进一步地，所述简化后的STDP学习规则具体为：

其中，△W表示突触权值的修正量；W表示当前突触权值；Wmax、Wmin分别表示所设定的突触权值最大值和最小值；Δt为突触前和突触后的脉冲到达时间差。

进一步地，所述基于所述简化后的STDP学习规则，在所述脉冲神经网络中引入抑制型静态突触和兴奋型可塑性突触，具体为：

其中，Δt为突触前和突触后的脉冲到达时间差；τ

进一步地，所述基于控制器单元、突触横梁和所述突触模型，构建脉冲神经网络，具体包括：

基于所述突触横梁和所述突触模型，构建所述脉冲神经网络的神经元之间的连接关系；

基于所述控制器单元和突触交叉核心，构建脉冲神经网络；所述突触交叉核心为脉冲神经网络的神经元及神经元之间的连接关系构成的交叉网络。

进一步地，所述基于所述突触横梁和所述突触模型，构建所述脉冲神经网络的神经元之间的连接关系，具体包括：

采用突触横梁将脉冲神经网络中的所有神经元连接起来；

基于所述突触模型，构建脉冲神经网络中的WTA网络；所述脉冲神经网络包括输入层、隐藏层和输出层；所述隐藏层和输出层均为WTA网络；

在所述输入层、所述隐藏层和所述输出层中，将每一层的神经元与前一层的神经元通过兴奋型可塑性突触进行连接；

在所述隐藏层和所述输出层中，每层的胜出者通过抑制型静态突触与本层胜出者的邻近神经元连接。

进一步地，所述控制器单元包括调度器、行为模式块、回放模式块、历史序列模块和初始化突触模块；

所述调度器，分别与所述行为模式块、所述回放模式块和所述初始化突触模块连接，用于根据接收到的外界控制指令产生控制信号，并将所述控制信号发送给所述回放模式块和所述初始化突触模块；以及接收所述行为模式块的第一反馈信号和所述回放模式块的第二反馈信号，根据所述第一反馈信号和所述第二反馈信号对突触交叉核心进行控制；所述脉冲信号表征某一时刻的离散脉冲序列；

所述行为模式块，分别与所述调度器和所述历史序列模块连接，用于接收所述调度器的脉冲信号，并根据所述脉冲信号对神经元的行为阶段提供输入；用于向所述调度器发送第一反馈信号；以及用于将神经元的活动序列发送给所述历史序列模块；

所述回放模式块，与所述调度器和所述历史序列模块连接，用于接收所述调度器的脉冲信号和历史序列模块的第三反馈信号，并根据所述脉冲信号和所述第三反馈信号对神经元的回放阶段提供输入；以及用于向所述调度器发送第二反馈信号；

所述历史序列模块，与所述行为模式块和所述回放模式块连接，用于接收所述行为模式块的活动序列，并保存其中两个神经元目标时刻的活动序列；用于将保存的两个神经元目标时刻的活动序列的第三反馈信号发送给所述回放模式块；

所述初始化突触模块，分别与所述调度器与所述突触交叉核心连接，用于接收所述调度器的控制信号，并根据所述控制信号对突触交叉核心进行初始化权值操作。

进一步地，所述初始化突触模块采用线性反馈移位寄存器生成初始化权值；所述初始化权值为(W

第二方面，本发明提供一种用于智能辅助驾驶的类脑情境学习模型构建方法，包括：

构建样本数据集；所述样本数据集包括八个不同的三元组；所述三元组包括：上下文、位置和物品；

将所述样本数据集输入到基于脉冲神经网络的类脑情景学习模型中进行上下文相关任务强化学习训练，得到训练好的基于脉冲神经网络的类脑情景学习模型；所述上下文相关任务强化学习训练包括行为和回放两种模式。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明脉冲神经网络根据LIF神经元模型设置不同状态下的膜电压，并采用WTA网络模型和简化后的STDP学习规则，其神经元和突触都不使用指数或乘数等高成本函数，能够通过强化学习机制在情境学习的任务中学习刺激-反应之间的奖励关联，是一种基于强化学习算法的无乘数事件驱动的脉冲神经网络架构，可用于上下文相关的任务，本发明的脉冲神经网络不仅能够节省成本，而且可以显著降低功耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例用于智能辅助驾驶的类脑情境学习模型结构图；

图2本发明LIF神经元模型的状态转移图；

图3本发明LIF神经元不同状态下的膜电压说明图；

图4a为本发明三个初始权值不同的神经元的突触修正量在原始规则下对脉冲到达时差的变化对比图；

图4b为原始规则和简化后的STDP规则下的修正量对脉冲到达时差的变化对比图；

图5本发明的基脉冲神经网络的类脑情境学习模型搭建框架图；

图6为本发明在动物上下文相关任务强化学习实验中使用的刺激组合示意图；

图7为本发明在动物上下文相关任务强化学习实验中重播操作示意图；其中，(a)为重播被奖励的动作序列图：(b)为重播未被奖励的动作序列图；

图8为本发明被奖励的三层神经元放电时序显示图；其中，(a)为对应图7(a)的神经元放电情形图；(b)为对应图7(a)的神经元放电情形图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种用于智能辅助驾驶的类脑情景学习模型构建方法，通过强化学习机制在情境学习的任务中学习刺激-反应之间的奖励关联，不仅能够节省成本，而且可以显著降低功耗。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明通过构建基于脉冲神经网络的类脑情景学习模型，对动物的上下文相关任务中参与强化学习的海马网络进行建模。

本发明的脉冲神经网络模拟了海马体中的CA1区域，包含输入(感觉)层、隐藏(海马体)层和输出(运动)层，总共包括16个神经元(6个输入、8个隐藏和2个输出)，64个塑性兴奋性突触(6×8个输入层和隐藏层之间的突触，8×2个隐藏层和输出层之间的突触)、58个抑制性非塑性突触(56个为隐藏层，2个为输出层)和控制器单元。

其中，输入层包括6个神经元，并提供上下文-位置信息，自适应单向兴奋权值将所有这些输入神经元连接到所有的海马神经元(实线)；隐藏层包括8个海马神经元，它们之间有抑制性连接(虚线)，但没有自我抑制，大量的可塑性兴奋性突触将所有海马神经元与输出层神经元连接起来(实线)。输出层包括2个神经元，与海马体层类似，输出层的神经元自身也有抑制性连接。感觉层和输出层是WTA网络。

在构建基于脉冲神经网络的类脑情景学习模型中，将赫布法则(Hebbian)被用作基本的学习机制，通过脉冲时序依赖可塑性规则(spike-timing-dependent plasticity，STDP)结合活动回放进行建模。

上下文相关任务的学习方法是强化学习，其目的是检查训练过程中根据环境属性海马体主神经元产生的行为，并进行相应的奖励。最后通过经历一系列状态-行为来更新脉冲神经网络中的“代价函数”。在训练过程中包含两个阶段：行为阶段和重播阶段。

基于此，本发明实施例提供一种用于智能辅助驾驶的类脑情景学习模型构建方法，包括：

步骤100：采用LIF神经元模型构建脉冲神经网络的神经元。

所述步骤100具体为：

以带泄漏积分触发(leaky integrate-and-fire，LIF)神经元为基础，构建脉冲神经网络的神经元的核心。

所述LIF神经元模型具体为：

其中，τ

步骤200：采用状态函数方程设置所述神经元在不同状态下的膜电压。

所述步骤200具体为：

如图2-3所示，神经元的输出不同的核心取决于其采用的状态函数方程，因而在实际学习过程中，随着输入的不同，每次执行的都可能进入不同的状态、产生不同的膜电压输出。

所述状态函数方程具体为：

其中，

具体地，静息状态下，神经元不活跃，活动神经元近似看作没有，此状态膜电压设置为静息电位。

积分状态下，

等待状态下，

放电状态下，膜电位超出其阈值u

步骤300：采用基于赫布法则的STDP学习规则，在所述脉冲神经网络中引入突触模型。

所述步骤300具体为：

步骤301：将所述基于赫布法则的STDP学习规则进行简化操作，得到简化后的STDP学习规则；所述简化操作包括保留时序关联的基础上缩减乘法器和指数型函数。

其中，为了在硬件上实现突触模型，即实现数字突触，原始的学习规则需要做出相应调整。由于原始规则用到了较多的指数型函数和乘法器，需要使用较大面积的硅；同时，突触权值修正量与先前突触权重有较大的关系。因此，相应的适应规则需在保留时序关联的基础上缩减乘法器和指数型函数的使用。

所述简化后的STDP学习规则具体为：

其中，简化后的STDP学习规则与原始的STDP规则(W＝0.5)的脉冲到达时差的对比如图4b所示。

用于实现数字突触模型算法如下：每当调度器发送一个信号来启动学习阶段(Elearning＝1)，突触就有资格适应。每当突触符合学习条件(即调度器＝true)突触修正量就会由脉冲到达时间差计算出来。而在进入算法之前，初始化突触权值是必要步骤；模型中兴奋型可塑性突触的初始权值为(W

步骤302：基于所述简化后的STDP学习规则，在所述脉冲神经网络中引入抑制型静态突触和兴奋型可塑性突触。

具体地，突触模型是脉冲神经网络的另一个重要的组成部分。在神经网络中共有两种突触模型：抑制型静态突触和兴奋型可塑性突触；

第一类突触(抑制型静态突触)对膜电位提供负影响同时在神经元之间提供较强的横向抑制作用，其权值不会随着神经网络的运行而改变；

第二类突触(兴奋型可塑性突触)能够加强突触后神经元的模电压。这些突触的强度在重播模式下会依据STDP学习算法而被改变。

其中，可塑性突触的动态变化过程为权重的更新依据的是STDP规则。这一规则根据突触前和突触后的脉冲的到达时间时间差来改变权重。如果突触前的脉冲比突触后的脉冲提前到达几微秒的时间，那么突出的权重就会升高，这就导致了一个正的时间差，对应突触的长时程增强(long-term potentiation，LTP)；反之，就会导致负的时间差，对应于突触的长时程抑制(long-term depression，LTD)。

突触权值的改变具体计算公式为：

如图4a所示，三种初始值不同的神经元的突触权值修正量对脉冲到达时差的变化，增强幅值是抑制幅值的三倍。

步骤400：根据控制器单元、突触横梁和所述突触模型，构建基于脉冲神经网络的类脑情景学习模型。

所述步骤400具体为：

步骤401：基于所述突触横梁和所述突触模型，构建所述脉冲神经网络的神经元之间的连接关系。

具体地，如图5所示，所述步骤401具体包括：

A：采用突触横梁将脉冲神经网络中的所有神经元连接起来并排成一行；在突触横梁中，兴奋性可塑性突触和抑制性静态突触分别用灰色和黑色圆圈表示。

B：基于所述突触模型，构建脉冲神经网络中的赢家通吃(winner-take-all，WTA)网络；所述脉冲神经网络包括输入层、隐藏层和输出层；所述隐藏层和输出层均为WTA网络。

C：在所述输入层、所述隐藏层和所述输出层中，将每一层的神经元与前一层的神经元通过兴奋型可塑性突触进行连接，来放大其局部活动。

D：在所述隐藏层和所述输出层中，每层的胜出者通过抑制型静态突触与本层胜出者的邻近神经元连接。

步骤402：基于所述控制器单元和突触交叉核心，构建基于脉冲神经网络的类脑情景学习模型；所述突触交叉核心为脉冲神经网络的神经元及神经元之间的连接关系构成的交叉网络。

本发明基于控制器核心实现序列之间的管理；控制器单元负责控制系统的行为、状态序列、数据存储和为突触准备初始权值。

其中，所述控制器单元包括调度器、行为模式块、回放模式块、历史序列模块和初始化突触模块。

调度器模块控制网络序列；行为模式块控制行为阶段SNN的输入；回放模式块管理学习和回放阶段的网络参数；历史序列模块保存神经元活动序列；初始化突触模块为突触准备初始权值。

具体地，所述调度器分别与所述行为模式块、所述回放模式块和所述初始化突触模块连接，用于根据接收到的外界控制指令产生控制信号，并将所述控制信号发送给所述回放模式块和所述初始化突触模块；以及接收所述行为模式块的第一反馈信号和所述回放模式块的第二反馈信号，根据所述第一反馈信号和所述第二反馈信号对突触交叉核心进行控制；所述脉冲信号表征某一时刻的离散脉冲序列；

所述行为模式块分别与所述调度器和所述历史序列模块连接，用于接收所述调度器的脉冲信号，并根据所述脉冲信号对神经元的行为阶段提供输入；用于向所述调度器发送第一反馈信号；以及用于将神经元的活动序列发送给所述历史序列模块；

所述回放模式块与所述调度器和所述历史序列模块连接，用于接收所述调度器的脉冲信号和历史序列模块的第三反馈信号，并根据所述脉冲信号和所述第三反馈信号对神经元的回放阶段提供输入；以及用于向所述调度器发送第二反馈信号；

所述历史序列模块与所述行为模式块和所述回放模式块连接，用于接收所述行为模式块的活动序列，并保存其中两个神经元目标时刻的活动序列；用于将保存的两个神经元目标时刻的活动序列的第三反馈信号发送给所述回放模式块；

所述初始化突触模块分别与所述调度器与所述突触交叉核心连接，用于接收所述调度器的控制信号，并根据所述控制信号对突触交叉核心进行初始化权值操作。使用线性反馈移位寄存器(LFSR)块生成突触权值的所有初始的抑制和兴奋值。从所述调度器获得一个控制信号，并向突触交叉核心发送初始权值。

基于此，本发明还公开一种用于智能辅助驾驶的类脑情景学习模型训练方法，包括：

步骤A：构建样本数据集；所述样本数据集包括八个不同的三元组；所述三元组包括：上下文、位置和物品。

所述步骤A具体为：如图6所示，在实验中设置两个上下文A、B，每个上下文有两个位置(位置1和2)，因此产生4个空间位置A1、A2、B1、B2，例如A1指的是上下文A中的位置1；在每次试验中，将两个“罐”(项目X和Y)随机放置在两个不同的位置；在这些“罐”中填充不同材料，只让其中一个包含奖励，比如在上下文A中，项目X包含奖励，而在上下文B中，项目Y包含奖励；因此，在本实验的模型中由于项目X和Y的位置以及上下文，出现了八个不同的三元组：奖励组包括A1X、A2X、B1Y和B2Y，非奖励组包括A1Y、A2Y、B1X和B2X。(三元组A1X表示在语境A中，项目X位于位置1)。

步骤B：将所述样本数据集输入到基于脉冲神经网络的类脑情景学习模型中进行上下文相关任务强化学习训练，得到训练好的基于脉冲神经网络的类脑情景学习模型；所述上下文相关任务强化学习训练包括行为和回放两种模式。

所述步骤B具体为：实验开始时，所有的神经元都处于静息状态。初始化的突触核为可塑性突触提供随机的初始权值，同时通过对相应的的突触连接点赋较强的抑制值来构建WTA网络。网络的每次试验都由随机的输入刺激值开始，并被重复操作100次。

每次试验由两种不同的模式组成：行为模式和回放模式。如图7和图8所示。图7为本发明在动物上下文相关任务强化学习实验中重播操作示意图，说明了学习机制是如何对正向顺序和反向顺序进行工作的。图8为本发明被奖励的三层神经元放电时序显示图。

其中，图7(a)为重播被奖励的动作序列图，某三态组引发被奖励的动作“dig”时，第一层(对应图中1、5号神经元)、第二层(对应图中8号神经元)、第三层神经元顺次放电(对应图中15号神经元)。由LTP规则，这种神经元正向放电顺序可加强突触权值。

图7(b)为重播未被奖励的动作序列图，某三态组引发未被奖励的动作“dig”时，第三层(对应图中15号神经元)、第二层(对应图中10号神经元)、第一层神经元顺次放电(对应图中1、6号神经元)。由LTD规则，这种神经元反向放电顺序会削减突触权值。

图8(a)为对应图7(a)的神经元放电情形图，纵轴对应神经元序号，横轴表示放电时间，描述了突触前神经元放电先于突触后神经元放电的情况，即△t>0。

图8(b)对应图7(b)所示的神经元放电情形图，描述了突触前神经元放电晚于突触后神经元放电的情况，即△t<0。

当控制器单元接收到控制信号run便启动整个实验；接收到start trial信号时便启动单次试验。调度器则会接收来自神经元网络外层的脉冲信号。

在每次试验的初始，调度器启用行为模式；随后根据网络外层的脉冲从“dig”输出神经元获得事件后，调度器切换到回放模式。调度器还向多路选择器分配选择信号，在每个模式中向神经元提供输入电压。

网络的两种模式下的运行描述如下：

行为模式：网络从随机选择的三元组开始(每个三元组都有一个伴随的上下文、位置和物品的互补组合，例如A2Y是A1X的互补三元组)。受突触权值影响，行为阶段可包含三元组之间的多个动作(如果“move”输出神经元是活跃的)并最终以挖掘其中一个(如果“dig”输出神经元是活跃的)作为结束。在每一次move或dig之后，所有神经元的状态都会在历史序列中被采样。其目的是在行为阶段结束时，最多存储2个最新的历史动作序列(刺激-反应对)。

回放模式：调度器向可塑型突触发送控制信号E-learning使其具备学习的资格。回放单元根据获得的奖励和采样所得的动作序列为所有神经元提供合适的输入。序列在特定的时间窗口内重放。被奖励的动作序列按前向时序重放：根据STDP学习规则，这种回放增强了相关的突触，从而鼓励了被奖励的动作序列在未来被选择。未被奖励动作序列按逆向时序重播：根据STDP学习规则，这会抑制未被奖励的动作序列在未来被选择。

综上，本发明脉冲神经网络根据LIF神经元模型设置不同状态下的膜电压，并采用WTA网络模型和简化后的STDP学习规则，其神经元和突触都不使用指数或乘数等高成本函数，能够通过强化学习机制在情境学习的任务中学习刺激-反应之间的奖励关联，是一种基于强化学习算法的无乘数事件驱动的脉冲神经网络架构，可用于上下文相关的任务。

本发明首先在Xilinx Kintext-7FPGA设备上实现了所述脉冲神经网络，然后使用位于不同高度的闪烁LED来定义刺激三元组，再通过“感知网络层-海马体层-运动输出层”将网络连接到机器人车辆；车辆不仅可以区分不同的刺激三元组，而且能够学习项目和情境之间的奖励关联，独立于项目在环境中的位置，成功验证该网络在硬件上的性能。该网络架构实现了更高的效率，并且显著降低了成本，同时也促进了对硬件实现的使用强化学习算法的脉冲神经网络的研究。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨双鸣;周羿霏;唐馨怡;于改英;杨嘉禾;邹凯雯;
专利申请人：天津大学;

上一篇：改进多模型机制的神经网络输出后处理方法
下一篇：云仓选品方法、装置、电子设备及存储介质