导航：首页> 计算；推算；计数>语言模型的预训练方法、装置、电子设备及存储介质

语言模型的预训练方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 19:30:30

技术领域

本公开涉及自然语言处理技术领域，尤其涉及一种语言模型的预训练方法、装置、电子设备及存储介质。

背景技术

目前，语言模型在自然语言处理任务上取得了显著的成效。语言模型在逐字生成文本片段时，上一个时刻预测的答案会作为当前时刻的输入，导致预训练模型没有充分利用训练数据以及语言模型过多关注输出端文本，过少地关注输入端，降低了语言模型的鲁棒性。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开提出一种语言模型的预训练方法，以实现根据随机数、第一数值以及原始字符串确定参考字符串，将掩码文本和参考字符串输入语言模型中，获取第i个位置的预测字符，进而根据第i个位置的原始字符和预测字符，对语言模型进行训练。由此，语言模型在逐字生成文本时，根据掩码文本和参考字符串，获取第i个位置的预测字符，上一时刻的预测字符不一定会作为当前时刻字符预测的输入，提高了语言模型的鲁棒性。

本公开第一方面实施例提出了一种语言模型的预训练方法，包括：获取训练语料，其中，所述训练语料包括：掩码文本以及所述掩码文本中掩码区域对应的原始字符串；针对所述掩码区域中的第i个位置，根据生成的随机数、第一数值以及所述原始字符串，确定参考字符串；其中，所述随机数小于或者等于第二数值，所述第一数值小于所述第二数值；i为大于1且小于或者等于所述原始字符串中字符数量的整数；将所述掩码文本以及所述参考字符串输入语言模型中，获取所述第i个位置的预测字符；根据所述原始字符串中所述第i个位置的原始字符以及所述预测字符，对所述语言模型的系数进行调整，实现训练。

本公开实施例的语言模型的预训练方法，通过获取训练语料，其中，所述训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串；针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于所述第二数值；i为大于1且小于或者等于所述原始字符串中字符数量的整数；将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符；根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。该方法根据随机数、第一数值以及原始字符串确定参考字符串，将掩码文本和参考字符串输入语言模型中，获取第i个位置的预测字符，进而根据第i个位置的原始字符和预测字符，对语言模型进行训练。由此，语言模型在逐字生成文本时，根据掩码文本和参考字符串，获取第i个位置的预测字符，上一时刻的预测字符不一定会作为当前时刻字符预测的输入，提高了语言模型的鲁棒性。

可选地，所述获取训练语料，包括：获取待处理的原始文本集；针对所述原始文本集中的每个原始文本，对所述原始文本中连续的多个字符进行掩码处理，得到掩码文本；将连续的所述多个字符组成的字符串，确定为所述掩码文本中掩码区域对应的原始字符串。

可选地，所述针对所述掩码区域中的第i个位置，根据生成的随机数、第一数值以及所述原始字符串，确定参考字符串，包括：判断生成的所述随机数是否小于所述第一数值；在生成的所述随机数小于所述第一数值时，将所述原始字符串中第i个位置之前的部分字符串作为所述参考字符串；在生成的所述随机数大于等于所述第一数值时，将所述部分字符串中的末尾字符替换为掩码字符，得到所述参考字符串。

可选地，所述将所述掩码文本以及所述参考字符串输入语言模型中，获取所述第i个位置的预测字符，包括：将所述掩码文本作为所述语言模型中编码层的输入，将所述参考字符串作为所述语言模型中解码层的输出，获取所述语言模型输出的字符；将所述语言模型输出的字符，确定为所述第i个位置的预测字符。

可选地，所述根据所述原始字符串中所述第i个位置的原始字符以及所述预测字符，对所述语言模型的系数进行调整，实现训练，包括：根据所述原始字符串中所述第i个位置的原始字符、所述第i个位置的预测字符、以及预设的损失函数，确定损失函数值；根据所述损失函数值对所述语言模型的系数进行调整，实现训练。

可选地，根据权利要求1所述的方法，其特征在于，所述第一数值，根据所述第二数值以及预设比例确定，其中，所述预设比例小于1。

本公开第二方面实施例提出了一种语言模型的预训练装置，包括：第一获取模块，用于获取训练语料，其中，所述训练语料包括：掩码文本以及所述掩码文本中掩码区域对应的原始字符串；确定模块，用于针对所述掩码区域中的第i个位置，根据生成的随机数、第一数值以及所述原始字符串，确定参考字符串；其中，所述随机数小于或者等于第二数值，所述第一数值小于所述第二数值；i为大于1且小于或者等于所述原始字符串中字符数量的整数；第二获取模块，用于将所述掩码文本以及所述参考字符串输入语言模型中，获取所述第i个位置的预测字符；训练模块，用于根据所述原始字符串中所述第i个位置的原始字符以及所述预测字符，对所述语言模型的系数进行调整，实现训练。

本公开实施例的语言模型的预训练装置，通过获取训练语料，其中，所述训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串；针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于所述第二数值；i为大于1且小于或者等于所述原始字符串中字符数量的整数；将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符；根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。该方法根据随机数、第一数值以及原始字符串确定参考字符串，将掩码文本和参考字符串输入语言模型中，获取第i个位置的预测字符，进而根据第i个位置的原始字符和预测字符，对语言模型进行训练。由此，解码器在逐字生成文本时，根据掩码文本和参考字符串，获取第i个位置的预测字符，上一时刻的预测字符不一定会作为当前时刻字符预测的输入，提高了语言模型的鲁棒性。

本公开第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面实施例提出的语言模型的预训练方法。

本公开第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面实施例提出的语言模型的预训练方法。

本公开第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行本公开第一方面实施例提出的语言模型的预训练方法。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例一所提供的语言模型的预训练方法的流程示意图；

图2为本公开实施例二所提供的语言模型的预训练方法的流程示意图；

图3为本公开实施例三所提供的语言模型的预训练方法的流程示意图；

图4为本公开实施例四所提供的语言模型的预训练方法的流程示意图；

图5为本公开实施例五所提供的语言模型的预训练装置的结构示意图；

图6是根据一示例性实施例示出的一种用于语言模型的预训练方法的电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参考附图描述本公开实施例的语言模型的预训练方法、装置、电子设备及存储介质。

图1为本公开实施例一所提供的语言模型的预训练方法的流程示意图，需要说明的是，该语言模型的预训练方法可应用于语言模型的预训练装置。该装置可被配置于电子设备中。其中，该电子设备可以是移动终端，例如，手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。

如图1所示，语言模型的预训练方法包括如下步骤：

步骤101，获取训练语料，其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串。

在本公开实施例中，可先获取待处理的原始文本集；接着，针对原始文本集中的每个原始文本，对原始文本中连续的多个字符进行掩码处理，得到掩码文本；进而，将连续的多个字符组成的字符串，确定为掩码文本中掩码区域对应的原始字符串。

也就是说，可通过网络下载或者用户上传获取一段单语文本，可将文本中的每个语句作为原始文本，可将所有的原始文本组成待处理的原始文本集，对原始文本集中的每个原始文本中连续的多个字符进行掩码处理，将掩码处理后的文本，作为掩码文本，对应的，原始文本中连续的多个字符可作为掩码文本中掩码区域对应的原始字符串。

比如，原始文本为“超市成交额同比增长超10倍”，对“成交额同比增长”进行掩码处理，掩码处理后得到的掩码文本为“超市[MASK]超10倍”，掩码区域对应的原始字符串为“成交额同比增长”。

步骤102，针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于第二数值；i为大于1且小于或者等于原始字符串中字符数量的整数。

进一步地，语言模型在逐字生成文本片段时，比如，对于掩码区域中的第i个位置，可先根据随机生成的随机数、第一数值以及原始字符串，确定参考字符串。其中，需要说明的是，随机数小于或等于第二数值，第一数值小于第二数值，i为大于1且小于或者等于原始字符串中字符数量的整数。

在本公开实施例中，第二数值可为1，对应的随机数的取值范围可为[0，1]，第一数值可根据第二数值和预设比例确定，其中，预设比例小于1，比如，第一数值可为预设比例。

步骤103，将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符。

进而，可将掩码文本以及参考字符串输入到语言模型中，将语言模型输出的字符作为第i个位置的预测字符。

步骤104，根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。

在本公开实施例中，可根据原始字符串中第i个位置的原始字符以及预测字符，结合损失函数，对语言模型的系数进行调整，进而实现语言模型的预训练。

综上，通过获取训练语料，其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串；其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串；针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于第二数值；i为大于1且小于或者等于原始字符串中字符数量的整数；将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符；根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。该方法根据随机数、第一数值以及原始字符串确定参考字符串，将掩码文本和参考字符串输入语言模型中，获取第i个位置的预测字符，进而根据第i个位置的原始字符和预测字符，对语言模型进行训练。由此，语言模型在逐字生成文本片段时，根据掩码文本和参考字符串，获取第i个位置的预测字符，上一时刻的预测字符不一定会作为当前时刻字符预测的输入，提高了语言模型的鲁棒性。

为了准确地确定参考字符串，如图2所示，图2为本公开实施例二所提供的语言模型的预训练方法的流程示意图，在本公开实施例中，可将随机数和第一数值进行比对，进而根据比对结果确定参考字符串。图2所示实施例可包括如下步骤：

步骤201，获取训练语料，其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串。

步骤202，判断生成的随机数是否小于第一数值。

可选地，将随机数与第一数值进行比对，根据比对结果判断生成的随机数是否小于第一数值。

步骤203，在生成的随机数小于第一数值时，将原始字符串中第i个位置之前的部分字符串作为参考字符串。

作为一种示例，根据随机数与第一数值的比对结果，确定生成的随机数小于第一数值时，可将原始字符串第i个位置之前的部分字符串作为参考字符串。

比如，原始字符串为“超市成交额同比增长超10倍”，原始字符串第i个位置之前的部分字符串为“超市成交额同比增长”，随机数小于第一数值时(如随机数为0.4，第一数值为0.5)，参考字符串为“超市成交额同比增长”。

步骤204，在生成的随机数大于等于第一数值时，将部分字符串中的末尾字符替换为掩码字符，得到参考字符串。

作为另一种示例，根据随机数与第一数值的比对结果，确定生成的随机数大于或等于第一数值时，可将部分字符串中的末尾字符替换为掩码字符，得到参考字符串。

比如，原始字符串为“超市成交额同比增长超10倍”，原始字符串第i个位置之前的部分字符串为“超市成交额同比增长”，随机数大于或等于第一数值时(如随机数为0.6，第一数值为0.5)，参考字符串为“超市成交额同比增[MASK]”。

步骤205，将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符。

步骤206，根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。

其中，需要说明的是，步骤201、205-206可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

为了准确地确定第i个位置的预测字符，如图3所示，图3为本公开实施例三所提供的语言模型的预训练方法的流程示意图，在本公开实施例中，可将掩码文本输入至语言模型的编码层中，将参考字符串作为语言模型中解码层的语言模型的输出，将语言模型输出的字符作为第i个位置的预测字符。图3所示实施例可包括如下步骤：

步骤301，获取训练语料，其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串。

步骤302，针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于第二数值；i为大于1且小于或者等于原始字符串中字符数量的整数。

步骤303，将掩码文本作为语言模型中编码层的输入，将参考字符串作为语言模型中解码层的输出，获取语言模型输出的字符。

在本公开实施例中，语言模型可为以Transformer为基本结构的模型，或者，也可以为其他结构的模型，比如为Transformer的变种结构的模型，语言模型可包括编码层和解码层，将掩码文本输入语言模型的编码层中，以参考字符串作为语言模型的解码层的输出，进而可获取语言模型输出的字符。

步骤304，将语言模型输出的字符，确定为第i个位置的预测字符。

进一步地，将语言模型输出的字符，作为第i个位置的预测字符。

步骤305，根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。

其中，需要说明的是，步骤301、305可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，将掩码文本作为语言模型中编码层的输入，将参考字符串作为语言模型中解码层的输出，获取语言模型输出的字符；将掩码文本作为语言模型中编码层的输入，将参考字符串作为语言模型中解码层的输出，获取语言模型输出的字符，将语言模型输出的字符，确定为第i个位置的预测字符。由此，可以准确地确定第i个位置的预测字符。

为了增强语言模型的鲁棒性，如图4所示，图4为本公开实施例四所提供的语言模型的预训练方法的流程示意图，在本公开实施例中，可根据原始字符串中第i个位置的原始字符以及预测字符，结合损失函数，对语言模型的系数进行调整，进而实现语言模型的预训练。图4所示实施例可包括如下步骤：

步骤401，获取训练语料，其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串。

步骤402，针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于第二数值；i为大于1且小于或者等于原始字符串中字符数量的整数。

步骤403，将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符。

步骤404，根据原始字符串中第i个位置的原始字符、第i个位置的预测字符、以及预设的损失函数，确定损失函数值。

在本公开实施例中，将掩码文本作为语言模型中编码层的输入，将参考字符串作为语言模型中解码层的输出，将获取语言模型输出的字符作为第i个位置的预测字符，其中，在随机数小于第一数值时，参考字符串为原始字符串中第i个位置之前的部分字符串，在随机数大于或等于第一数值时，参考字符为原始字符串中第i个位置之前的部分字符串的末尾字符替换为掩码字符的字符串，进而，根据原始字符串中第i个位置的原始字符、第i个位置的预测字符、以及预设的损失函数，确定损失函数值，可表现为如下公式：

其中，random为随机数，0.5为第一数值，x

步骤405，根据损失函数值对语言模型的系数进行调整，实现训练。

进一步地，根据损失函数值对语言模型的系数进行调整，实现训练，如，在损失函数值最小时对应的语言模型的系数作为预训练好的语言模型的系数。

其中，需要说明的是，步骤401-403可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，根据原始字符串中第i个位置的原始字符、第i个位置的预测字符、以及预设的损失函数，确定损失函数值；根据损失函数值对语言模型的系数进行调整，实现训练，由此，可使语言模型降低对解码层输出的依赖性，使解码层拥有降噪能力，增强了语言模型的鲁棒性。

本公开实施例的语言模型的预训练方法，通过获取训练语料，其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串；针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于第二数值；i为大于1且小于或者等于原始字符串中字符数量的整数；将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符；根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。该方法根据随机数、第一数值以及原始字符串确定参考字符串，将掩码文本和参考字符串输入语言模型中，获取第i个位置的预测字符，进而根据第i个位置的原始字符和预测字符，对语言模型进行训练。由此，语言模型在逐字生成文本时，根据掩码文本和参考字符串，获取第i个位置的预测字符，上一时刻的预测字符不一定会作为当前时刻字符预测的输入，提高了语言模型的鲁棒性。

为了实现上述实施例，本公开还提出一种语言模型的预训练装置，图5为本公开实施例五所提供的语言模型的预训练装置的结构示意图。

如图5所示，该语言模型的预训练装置500包括：第一获取模块510、确定模块520、第二获取模块530和训练模块540。

其中，第一获取模块510，用于获取训练语料，其中，训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串；确定模块520，用于针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于第二数值；i为大于1且小于或者等于原始字符串中字符数量的整数；第二获取模块530，用于将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符；训练模块540，用于根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。

作为本公开实施例的一种可能实现方式，第一获取模块，具体用于：获取待处理的原始文本集；针对原始文本集中的每个原始文本，对原始文本中连续的多个字符进行掩码处理，得到掩码文本；将连续的多个字符组成的字符串，确定为掩码文本中掩码区域对应的原始字符串。

作为本公开实施例的一种可能实现方式，确定模块，具体用于：判断生成的随机数是否小于第一数值；在生成的随机数小于第一数值时，将原始字符串中第i个位置之前的部分字符串作为参考字符串；在生成的随机数大于或等于第一数值时，将部分字符串中的末尾字符替换为掩码字符，得到参考字符串。

作为本公开实施例的一种可能实现方式，第二获取模块，具体用于：将掩码文本作为语言模型中编码层的输入，将参考字符串作为语言模型中解码层的输出，获取语言模型输出的字符；将语言模型输出的字符，确定为第i个位置的预测字符。

作为本公开实施例的一种可能实现方式，训练模块，具体用于：根据原始字符串中第i个位置的原始字符、第i个位置的预测字符、以及预设的损失函数，确定损失函数值；根据损失函数值对语言模型的系数进行调整，实现训练。

作为本公开实施例的一种可能实现方式，第一数值，根据第二数值以及预设比例确定，其中，预设比例小于1。

本公开实施例的语言模型的预训练装置，通过获取训练语料，其中，所述训练语料包括：掩码文本以及掩码文本中掩码区域对应的原始字符串；针对掩码区域中的第i个位置，根据生成的随机数、第一数值以及原始字符串，确定参考字符串；其中，随机数小于或者等于第二数值，第一数值小于所述第二数值；i为大于1且小于或者等于所述原始字符串中字符数量的整数；将掩码文本以及参考字符串输入语言模型中，获取第i个位置的预测字符；根据原始字符串中第i个位置的原始字符以及预测字符，对语言模型的系数进行调整，实现训练。该装置可实现根据随机数、第一数值以及原始字符串确定参考字符串，将掩码文本和参考字符串输入语言模型中，获取第i个位置的预测字符，进而根据第i个位置的原始字符和预测字符，对语言模型进行训练。由此，语言模型在逐字生成文本片段时，根据掩码文本和参考字符串，获取第i个位置的预测字符，上一时刻的预测字符不一定会作为当前时刻字符预测的输入，提高了语言模型的鲁棒性。

为了实现上述实施例，本公开还提出一种电子设备，如图6所示，图6是根据一示例性实施例示出的一种用于语言模型的预训练方法的电子设备的框图。

如图6所示，上述电子设备600包括：

存储器610及处理器620，连接不同组件(包括存储器610和处理器620)的总线630，存储器610存储有计算机程序，当处理器620执行所述程序时实现本公开实施例所述的语言模型的预训练方法。

总线630表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备600典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备600访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器610还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)640和/或高速缓存存储器650。电子设备600可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统660可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线630相连。存储器610可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块670的程序/实用工具680，可以存储在例如存储器610中，这样的程序模块670包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块670通常执行本公开所描述的实施例中的功能和/或方法。

电子设备600也可以与一个或多个外部设备690(例如键盘、指向设备、显示器691等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口692进行。并且，电子设备600还可以通过网络适配器693与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器693通过总线630与电子设备600的其它模块通信。应当明白，尽管图6中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器620通过运行存储在存储器610中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的语言模型的预训练方法的解释说明，此处不再赘述。

为了实现上述实施例，本公开还提出一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行图1至图4实施例所述的语言模型的预训练方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行图1至图4实施例所述的语言模型的预训练方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李浩然;
专利申请人：北京京东尚科信息技术有限公司;

上一篇：信息处理方法、装置、设备及存储介质
下一篇：PIM激酶抑制剂