导航：首页> 卷扬；提升；牵引>一种基于Albert模型的改进预测方法、系统及装置

一种基于Albert模型的改进预测方法、系统及装置

文献发布时间：2023-06-19 11:08:20

技术领域

本发明涉及任务预测领域，尤其涉及一种基于Albert模型的改进预测方法、系统及装置。

背景技术

过去几年，大规模预训练语言模型在自然语言处理的众多问题上都展现出了强大的效果。这些模型首先在海量无标签数据上进行预训练以掌握语言的基本知识；当需要应用至某个任务时，再利用与任务相关的有标签数据对模型进行微调。为了使这些模型能够在海量数据上学习到通用知识，模型的参数量通常很大，意味着在推理过程中所需的计算量也很大，导致预测时延较高。这个缺点限制了此类模型在一些对预测及时性有较高要求的场合的应用。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于Albert模型的改进预测方法、系统及装置，根据样本的任务难度控制需要经过的计算层数，减少计算量，从而降低预测时延。

本发明所采用的第一技术方案是：一种基于Albert模型的改进预测方法，包括以下步骤：

获取样本并将样本输入到Albert模型，经过词嵌入层将样本映射，得到第一层隐变量序列；

将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数；

根据各层停止分数和预设规则，判断是否进入预测结果计算阶段；

判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；

根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。

进一步，还包括微调步骤，其具体包括：

将预测结果和末尾权重分别与样本对应的标签计算损失值；

根据损失值对Albert模型进行参数更新。

进一步，所述将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数这一步骤，其具体还包括：

将第一层隐变量序列由底向上逐层经过多个Transformer层和门模块；

基于当前Transfomer层得到当前层的隐变量序列；

基于门模块得到当前层的停止分数；

所述当前层的隐变量序列作为下一Transformer层的输入和下一门模块的输入。

进一步，所述门模块包括池化层、隐藏层和输出层。

进一步，所述根据各层停止分数和预设规则，判断是否进入预测结果计算阶段这一步骤，其具体包括：

在计算完当前层隐变量序列和当前层停止分数；

将当前层停止分数与之前各层停止分数累加，得到累加停止分数；

将累加停止分数与预设阈值比较，判断到累加停止分数不小于预设阈值，进入预测结果计算阶段。

进一步，所述末尾权重的计算公式如下：

上式中，R表示末尾权重，N表示已通过的层数，S

进一步，所述根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果这一步骤，其具体包括：

根据各层隐变量序列、末尾权重、各层停止分数，计算最终输出隐变量；

将最终输出隐变量送入输出层，得到预测结果。

进一步，所述最终输出隐变量的计算公式如下：

上式中，H

本发明所采用的第二技术方案是：一种基于Albert模型的改进预测系统，包括：

映射模块，用于获取样本并将样本输入到Albert模型，经过词嵌入层将样本映射，得到第一层隐变量序列；

逐层输入模块，用于将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数；

判断模块，用于根据各层停止分数和预设规则，判断是否进入预测结果计算阶段；

末尾权重计算模块，用于判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；

预测模块，用于根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。

本发明所采用的第三技术方案是：一种基于Albert模型的改进预测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种基于Albert模型的改进预测方法。

本发明方法、系统及装置的有益效果是：本发明使大规模预训练模型可以根据输入样本的难易程度选择计算量，简单的样本消耗较少的计算量，困难的样本消耗较多的计算量，从而达到在保持模型预测准确率的同时，降低整体预测时延的效果。

附图说明

图1是本发明一种基于Albert模型的改进预测方法的步骤流程图；

图2是本发明一种基于Albert模型的改进预测系统的结构框图；

图3是本发明具体实施例本预测方法的结构流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图3，本发明提供了一种基于Albert模型的改进预测方法，该方法包括以下步骤：

获取样本并将样本输入到Albert模型，经过词嵌入层将样本映射，得到第一层隐变量序列；

将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数；

具体地，上一层隐变量序列H

根据各层停止分数和预设规则，判断是否进入预测结果计算阶段；

判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；

根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。

进一步作为本方法的优选实施例，还包括微调步骤，其具体包括：

将预测结果和末尾权重分别与样本对应的标签计算损失值；

根据损失值对Albert模型进行参数更新。

具体地，预测结果P将会和末尾权重R均会被用来计算损失值l，其中损失函数Loss根据任务的不同而不同：

l＝Loss(P，Y)+α·R

其中α为超参数，用以控制精度与计算量间的权衡关系，优化器将根据损失值更新模型参数，以此来训练模型。

进一步作为本方法的优选实施例，所述将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数这一步骤，其具体还包括：

将第一层隐变量序列由底向上逐层经过多个Transformer层和门模块；

基于当前Transfomer层得到当前层的隐变量序列；

基于门模块得到当前层的停止分数；

所述当前层的隐变量序列作为下一Transformer层的输入和下一门模块的输入。

进一步作为本方法优选实施例，所述门模块包括池化层、隐藏层和输出层。

具体地，门模块由一个池化层和两层神经网络组成。其中，池化层取隐变量序列的首个隐变量

其中：

ReLU(x)＝max(0，x)

上式中，(W

进一步作为本方法优选实施例，所述根据各层停止分数和预设规则，判断是否进入预测结果计算阶段这一步骤，其具体包括：

在计算完当前层隐变量序列和当前层停止分数；

将当前层停止分数与之前各层停止分数累加，得到累加停止分数；

将累加停止分数与预设阈值比较，判断到累加停止分数不小于预设阈值，进入预测结果计算阶段。

具体地，在计算完当前层的隐变量序列和停止分数后，模型将停止分数累加至初始值为0的累计停止分数S中：

S＝S+s

设当计算进行到第N层，即i＝N时，S≥1。此时，我们认为模型已经能够得到准确的预测，进入跳出阶段。

进一步作为本方法的优选实施例，所述末尾权重的计算公式如下：

上式中，R表示末尾权重，N表示已通过的层数，S

进一步作为本方法的优选实施例，所述根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果这一步骤，其具体包括：

根据各层隐变量序列、末尾权重、各层停止分数，计算最终输出隐变量；

将最终输出隐变量送入输出层，得到预测结果。

进一步作为本方法优选实施例，所述最终输出隐变量的计算公式如下：

上式中，H

具体地，预测结果P＝Output(H

本发明相比于现有技术可以减少计算量，缩短预测时延。我们设一层Transformer的运算量为c

在实际应用中，Transformer层需要对隐变量序列中做自注意力运算及高维度的非线性映射运算，而门模块仅仅对一个隐变量做两次维度较低的非线性映射，因此。可以得到：

其中，E(C

可见，我们的方法可以减少计算量，缩短预测时延。而效果取决于样本难度的分布，简单样本出现的概率越高，效果越明显。

如图2所示，一种基于Albert模型的改进预测系统，包括：

映射模块，用于获取样本并将样本输入到Albert模型，经过词嵌入层将样本映射，得到第一层隐变量序列；

逐层输入模块，用于将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数；

判断模块，用于根据各层停止分数和预设规则，判断是否进入预测结果计算阶段；

末尾权重计算模块，用于判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；

预测模块，用于根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种基于Albert模型的改进预测装置：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种基于Albert模型的改进预测方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：权小军;罗锐堃;
专利申请人：中山大学;

上一篇：应用于热电厂电力设备的安装维修平台
下一篇：一种具有智能分类保护功能的物流车