掌桥专利:专业的专利平台
掌桥专利
首页

一种基于时间步长收缩的脉冲神经网络训练方法

文献发布时间:2024-04-18 20:02:40


一种基于时间步长收缩的脉冲神经网络训练方法

技术领域

本发明属于类脑计算和深度学习领域,具体涉及一种基于时间步长收缩的脉冲神经网络训练方法。

背景技术

基于人工神经网络(Artificial Neural Networks,ANN)的深度学习模型在图像识别、视频理解、自然语言处理等任务中取得了优异的效果,并在生活生产中得到了广泛应用。然而,深层ANN在训练和应用时需要大量的计算资源和能耗,难以在边缘端设备中部署。

脉冲神经网络(Spiking Neural Networks,SNN)模拟生物大脑的信息传输机制,使用非0即1的脉冲信号传递信息。当SNN在神经形态芯片上部署时,仅当在接收到值为1的脉冲时需执行加法运算,大幅降低了所需能耗。另外,脉冲神经元具有类似于生物神经元的内部动力学,随时间不断演化,因此SNN具有比ANN更优越的时间特征提取能力。

虽然SNN具有低功耗和高性能的优势,但其需要在多个时间步长内累积膜电势-产生脉冲进行训练和推理。多个时间步长需要多次前向传播过程,从而增大了SNN应用的延迟。为了提升SNN的实际可用性,在低延迟下(低时间步长)实现高性能的SNN仍需进一步探索。

发明内容

为实现低延迟、高性能的SNN,本发明提供了一种基于时间步长收缩的脉冲神经网络训练方法,将SNN划分为多个阶段,每个阶段的时间步长逐渐收缩,从而实现低延迟的全局推理;本发明通过非对称注意力机制对时间步长收缩前的信息进行转换,在降低时间步长的同时保留其有效特征信息,防止时间步长收缩导致性能退化。本发明所提出的技术问题是这样解决的:

一种基于时间步长收缩的脉冲神经网络训练方法,包括以下步骤:

步骤1,将具有任意结构的SNN划分为n个阶段,每个阶段i包含n

步骤2,输入信息经过第一个阶段的卷积层、批归一化层和脉冲神经元层编码为脉冲序列,在第一个阶段中以时间步长T

步骤3,将步骤2产生的第一阶段脉冲输出O

步骤4,将步骤3得到的时间尺度收缩后的信息I

步骤5,重复步骤3中的时间尺度收缩操作和步骤4中的前向传播操作,直到SNN的第n个阶段产生最终输出;

步骤6,将SNN产生的最终输出与训练数据的标签计算损失函数,计算SNN中的梯度信息并计算脉冲函数的代理梯度,使用随机梯度下降算法反向传播优化SNN中的参数。

本发明步骤3包括:

步骤3-1,对于维度为T

步骤3-2,对步骤3-1得到的通道-空间平均信息值

其中,

步骤3-3,计算特征O

其中⊙表示带有广播机制的点乘运算。

本发明提出了一种基于时间步长收缩的脉冲神经网络训练方法,有益效果在于:

本发明所提方法逐渐收缩SNN中各个阶段的时间步长,通过非对称注意力机制对阶段间的输出信息进行时间步长收缩并保留关键特征,避免了SNN的性能退化;与现有方法相比,本发明所提方法大幅降低了SNN推理所需的延迟,更适合部署于延迟敏感的场景。

附图说明

图1为本发明专利摘要附图及本发明方法的总流程图;

图2为本发明实施例的非对称注意力机制结构图;

图3为本发明实施例在训练过程中的准确率变化示意图;

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明所提方法的整体流程如图1所示,以CIFAR10-DVS数据集为输入数据,使用SNN识别输入的类别信息。使用Leaky Integrate-and-Fire(LIF)神经元模型作为本发明实施例中的脉冲神经元,SNN结构采用VGG-9架构,共包含8个3×3卷积层和一个全连接层。SNN划分为4个阶段,每个阶段均包含两个卷积层、批归一化层和LIF脉冲神经元层,第四个阶段额外包含有一个全连接层用于目标识别。四个阶段的时间步长分别设置为8、6、4和2,LIF脉冲神经元的初始放电阈值设置为1.0,使用随机梯度下降优化器对SNN迭代训练100次。本发明实施例中的图像识别具体构建步骤如下:

步骤1,将具有VGG-9的SNN划分为4个阶段,每个阶段均包含两个卷积层、批归一化层和LIF脉冲神经元层,第四个阶段额外包含有一个全连接层用于目标识别;

步骤2,CIFAR10-DVS数据集中的输入图像经过第一个阶段的卷积层、批归一化层和脉冲神经元层编码为脉冲序列,在第一个阶段中以时间步长8不断前向传播提取到的脉冲特征,产生第一个阶段的脉冲输出

步骤3,将步骤2产生的第一阶段脉冲输出O

步骤4,将步骤3得到的时间尺度收缩后的信息W

步骤5,重复步骤3中的时间尺度收缩操作和步骤4中的前向传播操作用于SNN的第三个阶段和第四个阶段,直到SNN的第四个阶段产生最终输出;

步骤6,将SNN产生的最终输出与训练数据的标签计算损失函数,计算SNN中的梯度信息并计算脉冲函数的代理梯度,使用随机梯度下降算法反向传播优化SNN中的参数。

本发明实施例中步骤3包括:

步骤3-1,对于维度为8×C

步骤3-2,对步骤3-1得到的通道-空间平均信息值

其中,

步骤3-3,计算特征O

其中⊙表示带有广播机制的点乘运算。

本发明通过非对称注意力机制转换不同阶段间数据的时间尺度,逐渐降低SNN各个阶段的时间步长,在保持性能的同时大幅降低了推理所需的延迟,提升了SNN模型的实时性。

本发明提供了一种基于时间步长收缩的脉冲神经网络训练方法,上述实施例使用的数据集、脉冲神经网络架构、脉冲神经元模型及具体使用的参数值等是结合本发明原理的特定实施方式,本发明的保护范围并不局限于这样的特定实施方式。

相关技术
  • 基于无监督学习时间编码的脉冲神经网络训练方法及系统
  • 具有竞争性奖励调节脉冲时间依赖的可塑性的人工神经网络及其训练方法
技术分类

06120116588297