导航：首页> 计算；推算；计数>通用语言模型的训练方法、使用方法、装置、设备和介质

通用语言模型的训练方法、使用方法、装置、设备和介质

文献发布时间：2024-04-18 19:59:31

技术领域

本申请涉及人工智能技术领域，特别涉及一种通用语言模型的训练方法、使用方法、装置、设备和介质。

背景技术

通用语言模型包括生成式的大语言模型(Large Language Model，LLM)。大语言模型是一种借助十亿量级以上的大规模文本语料训练得到的Transformer结构模型，具有优秀的对话理解和逻辑推理能力。大语言模型能够作为需要人类常识理解的复杂场景的决策组件，也能够通过对话生成的方式回复问题。因此，大语言模型已经被广泛应用于自然语言生成、问答系统等场景。

相关技术中，将输入数据输入至大语言模型中，该大语言模型可以基于该输入数据进行预测。例如，在智慧交通场景中，将当前车辆的交通数据输入至大语言模型中，则该大语言模型会给出该车辆下一步可以继续向左转的预测。

然而，相关技术的大语言模型无法对预测数据在场景中的可信度进行判定。

发明内容

本申请提供了一种通用语言模型的训练方法、使用方法、装置、设备和介质。所述技术方案如下：

根据本申请的一个方面，提供了一种通用语言模型的训练方法，所述方法包括：

获取至少一种模态的样本数据，所述至少一种模态的样本数据标注有标签信息，所述标签信息包括样本可信度，所述样本可信度用于表征基于所述至少一种模态的样本数据、在所述至少一种模态的样本数据所属的场景中做出预测的可信度；

将所述至少一种模态的样本数据输入通用语言模型，通过所述通用语言模型中的目标判定网络，得到所述至少一种模态的样本数据对应的预测信息，所述预测信息包括预测可信度，其中，所述通用语言模型是包括所述目标判定网络的语言模型，所述目标判定网络用于使所述通用语言模型具备基于场景进行可信度判定的能力；

基于所述预测信息和所述标签信息，确定训练损失；

基于所述训练损失，对所述通用语言模型的模型参数进行训练。

根据本申请的另一方面，提供了一种通用语言模型的使用方法，所述方法包括：

获取待处理的目标数据；

将所述目标数据输入通用语言模型，通过所述通用语言模型中的目标判定网络，得到所述目标数据对应的预测数据的可信度，所述可信度用于表征基于所述目标数据、在所述目标数据所属的目标场景中做出预测的可信度；

其中，所述通用语言模型是包括所述目标判定网络的语言模型，所述目标判定网络用于使所述通用语言模型具备基于场景进行可信度判定的能力。

根据本申请的另一方面，提供了一种通用语言模型的训练装置，所述装置包括：

获取模块，用于获取至少一种模态的样本数据，所述至少一种模态的样本数据标注有标签信息，所述标签信息包括样本可信度，所述样本可信度用于表征基于所述至少一种模态的样本数据、在所述至少一种模态的样本数据所属的场景中做出预测的可信度；

处理模块，用于将所述至少一种模态的样本数据输入通用语言模型，通过所述通用语言模型中的目标判定网络，得到所述至少一种模态的样本数据对应的预测信息，所述预测信息包括预测可信度，其中，所述通用语言模型是包括所述目标判定网络的语言模型，所述目标判定网络用于使所述通用语言模型具备基于场景进行可信度判定的能力；

训练模块，用于基于所述预测信息和所述标签信息，确定训练损失；以及，基于所述训练损失，对所述通用语言模型的模型参数进行训练。

根据本申请的另一方面，提供了一种通用语言模型的使用装置，所述装置包括：

获取模块，用于获取待处理的目标数据；

处理模块，用于将所述目标数据输入通用语言模型，通过所述通用语言模型中的目标判定网络，得到所述目标数据对应的预测数据的可信度，所述可信度用于表征基于所述目标数据、在所述目标数据所属的目标场景中做出预测的可信度；

其中，所述通用语言模型是包括所述目标判定网络的语言模型，所述目标判定网络用于使所述通用语言模型具备基于场景进行可信度判定的能力。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上所述的通用语言模型的训练方法，或，实现如上所述的通用语言模型的使用方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上所述的通用语言模型的训练方法，或，实现如上所述的通用语言模型的使用方法。

根据本申请的另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质中获取所述计算机指令，使得所述处理器加载并执行以实现如上所述的通用语言模型的训练方法，或，实现如上所述的通用语言模型的使用方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

一方面，本申请实施例提供了一种语言模型的训练方法，通过获取至少一种模态的样本数据，至少一种模态的样本数据标注有标签信息，标签信息包括样本可信度，样本可信度用于表征基于至少一种模态的样本数据、在至少一种模态的样本数据所属的场景中做出预测的可信度；将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到至少一种模态的样本数据对应的预测信息，预测信息包括预测可信度，其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力；基于预测信息和标签信息，确定训练损失；基于训练损失，对通用语言模型的模型参数进行训练。据此，在通用语言模型的训练阶段，通过通用语言模型中的目标判定网络，使得通用语言模型具备基于至少一种样本数据所在的场景进行可信度判定的能力，在通用语言模型的使用阶段，通过通用语言模型中的目标判定网络，能够得到预测数据在目标场景中的可信度，有利于用户根据该可信度进行后续决策，提升了在目标场景中进行数据推理、判定和决策的效率。

另一方面，本申请实施例提供了一种通用语言模型的使用方法，通过获取待处理的目标数据；将目标数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到目标数据对应的预测数据的可信度，可信度用于表征基于目标数据、在目标数据所属的目标场景中做出预测的可信度；其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力。据此，在通用语言模型的使用阶段，通过通用语言模型中的目标判定网络，能够得到预测数据在目标场景中的可信度，有利于用户根据该可信度进行后续决策，提升了在目标场景中进行数据推理、判定和决策的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一个示例性实施例提供的计算机系统的结构框图；

图2示出了一个示例性实施例提供的通用语言模型的示意图；

图3示出了一个示例性实施例提供的通用语言模型的训练方法的流程图；

图4示出了一个示例性实施例提供的通用语言模型的训练方法的流程图；

图5示出了一个示例性实施例提供的通用语言模型的训练方法的流程图；

图6示出了一个示例性实施例提供的双向上下文表征的掩码的示意图；

图7示出了一个示例性实施例提供的通用语言模型的训练方法的流程图；

图8示出了一个示例性实施例提供的通用语言模型的训练方法的流程图；

图9示出了一个示例性实施例提供的回答生成依赖的因果掩码的示意图；

图10示出了一个示例性实施例提供的图视结合的视觉嵌入的示意图；

图11示出了一个示例性实施例提供的通用语言模型的训练方法的流程图；

图12示出了一个示例性实施例提供的通用语言模型的使用方法的流程图；

图13示出了一个示例性实施例提供的通用语言模型的训练装置的框图；

图14示出了一个示例性实施例提供的通用语言模型的使用装置的框图；

图15示出了一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

需要进行说明的是，本申请在收集用户的相关数据(包括非人机交互场景的输入数据、以及人机交互场景中的对话数据，比如：样本数据、样本回答数据、目标数据等等)之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

首先，对本申请实施例中涉及的名词进行简单介绍：

大语言模型(Large Language Model，LLM)：是一种借助十亿量级以上的大规模文本语料训练得到的Transformer结构模型，具有优秀的对话理解和逻辑推理能力。大语言模型能够作为需要人类常识理解的复杂场景的决策组件，也能够通过对话生成的方式回复问题。被广泛应用于自然语言生成、问答系统等场景。

生成式预训练Transformer模型(Generative Pre-Trained Transformer，GPT)：是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型，是大语言模型的一种。它兼具“大规模”和“预训练”两种属性，可以在海量通用数据上进行预先训练，能大幅提升人工智能(Artificial Intelligence，AI)的泛化性、通用性、实用性。被广泛应用于自然语言生成、问答系统等场景。

预训练模型(Pre-Training Model，PTM)：也称基石模型、大模型，指具有大参量的深度神经网络(Deep Neural Network，DNN)，在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调(Fine Tune)、参数高效微调(Parameter-Efficient Fine-Tuning，PEFT)、提示微调(Prompt-Tuning)等技术，适用于下游任务。因此，预训练模型可以在小样本(Few-Shot)或零样本(Zero-Shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO、BERT、GPT)、视觉模型(Swin-Transformer，Vit，V-MOE)、语音模型(VALL-E)、多模态模型(Vibert、CLIP、Flamingo、Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(Artificial Intelligence Generated Content，AIGC)重要工具，也可以作为连接多个具体任务模型的通用接口。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

智慧交通系统(Intelligent Traffic System，ITS)：将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。

图1示出了本申请一个示例性实施例提供的计算机系统100的结构框图。该计算机系统100可以实现成为语言模型的训练方法和/或使用方法的系统架构。该计算机系统100包括：终端120和服务器140。

终端120可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、PC(PersonalComputer，个人计算机)、无人预定终端等电子设备。终端120中可以安装运行目标应用程序的客户端，该目标应用程序可以是用于通用语言模型的训练和/或使用的应用程序，也可以是提供有通用语言模型的训练和/或使用功能的其他应用程序，本申请对此不作限定。另外，本申请对该目标应用程序的形式不作限定，包括但不限于安装在终端120中的App(Application，应用程序)、小程序等，还可以是网页形式。

服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云计算服务的云服务器、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140可以是上述目标应用程序的后台服务器，用于为目标应用程序的客户端提供后台服务。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器140还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

终端120和服务器140之间可以通过网络进行通信，如有线或无线网络。

本申请实施例提供的通用语言模型的训练方法和/或使用方法，各步骤的执行主体可以是计算机设备，计算机设备是指具备数据计算、处理和存储能力的电子设备。以图1所示的方案实施环境为例，可以由终端120执行通用语言模型的训练方法和/或使用方法(如终端120中安装运行的目标应用程序的客户端执行通用语言模型的训练方法和/或使用方法)，也可以由服务器140执行通用语言模型的训练方法和/或使用方法，或由终端120和服务器140交互配合执行，本申请对此不作限定。

本领域技术人员可以知晓，上述终端120的数量可以更多或更少。比如上述终端可以仅为一个，或上述终端为几十个或几百个，或更多数量。本申请实施例对终端的数量和设备类型不加以限定。

然而，常规的通用语言模型多使用的是文本生成任务，这种文本生成任务无法在数据所属的目标场景中判定数据是否可以决策或判定出该决策在该目标场景中的可信度(置信度或概率)。并且，在互联网场景、智慧医疗场景、智慧交通场景、智慧驾驶场景中，除了基础对话数据，还包括了大量的图、视频信息，通用语言模型虽然也能够表现出对通用视觉元素的理解能力，但是对于专业的医疗诊断、交通驾驶决策、特殊领域商品推荐等存在非通用视觉元素的场景，通用语言模型的决策效果会受到很大影响。

本实施例在常规的通用语言模型的结构设计的基础上，设计了一种混合式大语言模型(Hybrid Pre-trained Transformer HPT)结构。其中，常规的通用语言模型包括大语言模型(Large Language Model，LLM)、生成式预训练Transformer模型(Generative Pre-Trained Transformer，GPT)。本实施例的混合式大语言模型能够进行目标场景中的可信度判定、以及根据提问数据(Prompt)生成回答数据的至少一种。此外，相对于纯文本生成任务的大语言模型，本实施例的混合式大语言模型还结合了多模态的图、视频表征的视觉大模型分支。

图2示出了本申请一个示例性实施例提供的通用语言模型的示意图。

图2中(1)所示为相关技术中的通用语言模型的示意图。在通用语言模型包含文本生成任务，通用语言模型提取提问数据对应的文本特征11(表示为[-100]*L)，基于文本特征生成提问数据对应的回答数据12。

图2中(2)所示为本实施例的通用语言模型的示意图。该通用语言模型包括目标判定网络23和回答生成网络24。与图2中(1)所示的不同之处为，该通用语言模型增加有目标判定网络23，该目标判定网络23能够综合输入数据的多模态的视觉特征21(表示为[-100]*L1)、文本特征22(表示为[-100]*L2)和分类特征(表示为)。其中，该分类特征是用于区分视觉特征21与文本特征22的一个预先设置的初始化随机特征，用于表征场景的嵌入，使得目标判定网络23能够根据输入数据进行双向的上下文表征，有效的理解和发掘所需要信息，进而推理出基于输入数据的预测数据在目标场景中的置信度。此外，该通用语言模型的回答生成网络24还能够生成输入数据对应的回答数据，该回答数据结合了输入数据的多模态信息以及目标场景中的可信度判定。

示例性的，在本实施例的通用语言模型的训练阶段，存在3种训练方式：1、仅对通用语言模型中的目标判定网络进行训练；2、仅对通用语言模型中的回答生成网络进行训练；3、对通用语言模型中的目标判定网络和回答生成网络同时进行训练；

与之相对应的，在本实施例的通用语言模型的使用阶段，存在3种使用方式：1、非人机交互场景，仅生成目标数据对应的预测数据在该目标数据所属的目标场景中的可信度，无需生成该预测数据；2、人机交互场景，仅生成目标数据对应的回答数据，此时该目标数据也称为提问数据，上述的预测数据可以是该回答数据；3、人机交互场景，生成目标数据对应的预测数据在该目标数据所属的目标场景中的可信度，同时也生成目标数据对应的回答数据。

示例性的，计算机设备执行的通用语言模型的训练方式1包括以下步骤：

1、计算机设备获取至少一种模态的样本数据，至少一种模态的样本数据标注有标签信息，标签信息包括样本可信度，样本可信度用于表征基于至少一种模态的样本数据、在至少一种模态的样本数据所属的场景中做出预测的可信度；

2、计算机设备将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到至少一种模态的样本数据对应的预测信息，预测信息包括预测可信度，其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力；

3、计算机设备基于预测信息和标签信息，确定训练损失，该训练损失是基于样本可信度与预测可信度得到的判定损失；

4、基于训练损失，对通用语言模型的模型参数进行训练。

相对应的，计算机设备执行的通用语言模型的使用方式1包括以下步骤：

1、计算机设备获取待处理的目标数据；

2、计算机设备将目标数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到目标数据对应的预测数据的可信度，可信度用于表征基于目标数据、在目标数据所属的目标场景中做出预测的可信度。

上述实施例中，通过通用语言模型中的目标判定网络，使得通用语言模型具备了基于场景进行可信度判定的能力，从而能够得到目标数据对应的预测数据在目标场景中的可信度。由于无需生成目标数据对应的预测数据，而仅需得到预测数据的可信度，因此，该通用语言模型能够在保留常规的通用语言模型的逻辑理解和推理性能的情况下，能够非自回归的输出目标场景的可信度，极大地提升了目标场景的推理、判定和决策效率。

示例性的，计算机设备执行的通用语言模型的训练方式2包括以下步骤：

1、计算机设备获取至少一种模态的样本数据，至少一种模态的样本数据标注有标签信息，标签信息包括至少一种模态的样本数据对应的样本回答数据；

2、计算机设备将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的回答生成网络，得到至少一种模态的样本数据对应的预测信息，预测信息包括预测回答数据，其中，通用语言模型是包括回答生成网络的语言模型，回答生成网络用于使通用语言模型具备生成回答数据的能力；

3、计算机设备基于预测信息和标签信息，确定训练损失，该训练损失是基于样本回答数据与预测回答数据得到的生成损失；

4、基于训练损失，对通用语言模型的模型参数进行训练。

相对应的，计算机设备执行的通用语言模型的使用方式2包括以下步骤：

1、计算机设备获取待处理的目标数据；

2、计算机设备将目标数据输入通用语言模型，通过通用语言模型中的回答生成网络，得到目标数据对应的回答数据。

上述实施例中，通过通用语言模型中的回答生成网络，使得通用语言模型具备了生成回答数据的能力，从而能够生成目标数据对应的回答数据。因此，该通用语言模型能够在保留常规的通用语言模型的逻辑理解和推理性能的情况下生成回答数据，提高了回答数据生成的准确度。

示例性的，计算机设备执行的通用语言模型的训练方式3包括以下步骤：

1、计算机设备获取至少一种模态的样本数据，至少一种模态的样本数据标注有标签信息，标签信息包括样本可信度，样本可信度用于表征基于至少一种模态的样本数据、在至少一种模态的样本数据所属的场景中做出预测的可信度，标签信息还包括至少一种模态的样本数据对应的样本回答数据；

2、计算机设备将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到至少一种模态的样本数据对应的预测信息，预测信息包括预测可信度；以及，通过通用语言模型中的回答生成网络，得到至少一种模态的样本数据对应的预测信息，预测信息包括预测回答数据，其中，通用语言模型是包括目标判定网络和回答生成网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力，回答生成网络用于使通用语言模型具备生成回答数据的能力；

3、计算机设备基于预测信息和标签信息，确定训练损失，该训练损失同时包括基于样本回答数据与预测回答数据得到的生成损失，以及基于样本可信度与预测可信度得到的判定损失，该训练损失也称为推理损失；

4、基于训练损失，对通用语言模型的模型参数进行训练。

相对应的，计算机设备执行的通用语言模型的使用方式3包括以下步骤：

1、计算机设备获取待处理的目标数据；

2、计算机设备将目标数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到目标数据对应的预测数据的可信度；以及，通过通用语言模型中的回答生成网络，得到目标数据对应的回答数据。

上述实施例中，通过通用语言模型中的目标判定网络，使得通用语言模型具备了基于场景进行可信度判定的能力，从而能够得到目标数据对应的预测数据在目标场景中的可信度。通过通用语言模型中的回答生成网络，使得通用语言模型具备了生成回答数据的能力，从而能够生成目标数据对应的回答数据。因此，该通用语言模型能够在保留常规的通用语言模型的逻辑理解和推理性能的情况下，能够非自回归的输出目标场景的可信度，极大地提升了目标场景的推理、判定和决策效率。而且，该通用语言模型还能够生成回答数据，有利于用户基于回答数据和可信度进行后续决策。

图3示出了本申请的一个示例性实施例提供的通用语言模型的训练方法的流程图，以该方法由计算机设备执行为例进行说明，该计算机设备可以是图1的终端120和/或服务器140。该方法包括步骤220、步骤240、步骤260和步骤280：

步骤220，获取至少一种模态的样本数据，至少一种模态的样本数据标注有标签信息，标签信息包括样本可信度，样本可信度用于表征基于至少一种模态的样本数据、在至少一种模态的样本数据所属的场景中做出预测的可信度。

样本数据是指本实施例的通用语言模型的训练阶段使用的数据。

模态是指样本数据的不同的信息来源或存在形式。

本实施例中，样本数据为至少一种模态。该至少一种模态可以是视觉模态(可进一步细分为图像模态和视频模态)、文本模态、音频模态、混合模态的至少一种。此外，在本实施例的通用语言模型的可以采用至少两种模态的样本数据进行训练，将在后续的实施例中进行说明。

可选地，至少一种模态的样本数据需要尽可能包含其所在的场景中的特性。例如，在商品推荐场景中，则至少一种模态的样本数据需要尽可能包括多样化的商品类型、商品名称、适用人群等；在智慧交通场景，则至少一种模态的样本数据需要涵盖尽可能多种类的街道、路况、车辆的信息。

标签信息是指样本数据的标注的信息。

可选地，计算机设备获取至少一种模态的样本数据，至少一种模态的样本数据标注有标签信息，该标签信息包括样本可信度，样本可信度用于表征基于至少一种模态的样本数据、在至少一种模态的样本数据所属的场景中做出预测的可信度。

步骤240，将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到至少一种模态的样本数据对应的预测信息，预测信息包括预测可信度，其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力。

本实施例的通用语言模型是指在生成式的大语言模型的基础上设计的语言模型，生成式的大语言模型可以是生成式预训练Transformer模型，已经被广泛应用于自然语言生成、问答系统等场景。

本实施例的通用语言模型是指在常规的通用语言模型中增加有目标判定网络的模型，也可以理解为，通用语言模型是包括目标判定网络的语言模型，该目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力。

例如，在智慧交通场景中，将当前车辆的交通数据(例如，当前位置、目的地、周围车况等)输入至本实施例的通用语言模型中，则该通用语言模型会给出该车辆下一步可以继续向左转的预测，并给出向左转的可信度，从而当前车辆的驾驶员可以根据该向左转的可信度，决策出下一步向左转或不向左转。

可信度是用于表征可信程度的参数，包括置信度或阈值的至少一种。

预测信息是指基于样本数据进行预测得到的信息。

可选地，计算机设备将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到至少一种模态的样本数据对应的预测信息，该预测信息包括预测可信度。该预测可信度是指语言模型在训练阶段时，基于至少一种模态的样本数据生成的预测数据的可信度。

步骤260，基于预测信息和标签信息，确定训练损失；

训练损失是指通用语言模型的训练阶段的损失。

可选地，计算机设备基于预测信息和标签信息，确定训练损失。

在一些实施例中，计算机设备基于预测可信度和样本可信度，得到判定损失，该判定损失用于表征场景拟合之间的差异。该判定损失可以是交叉熵损失。

在对通用语言模型中的目标判定网络进行训练时，训练损失仅包括判定损失。在对通用语言模型中的目标判定网络和回答生成网络同时进行训练时，训练损失除了判定损失之外还包括生成损失，生成损失的计算将在后续实施例中进行说明。

步骤280，基于训练损失，对通用语言模型的模型参数进行训练。

可选地，计算机设备基于训练损失，采用反向传播算法，对通用语言模型的模型参数进行训练。

综上所述，本申请实施例提供的通用语言模型的训练方法，通过获取至少一种模态的样本数据，至少一种模态的样本数据标注有标签信息，标签信息包括样本可信度，样本可信度用于表征基于至少一种模态的样本数据、在至少一种模态的样本数据所属的场景中做出预测的可信度；将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到至少一种模态的样本数据对应的预测信息，预测信息包括预测可信度，其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力；基于预测信息和标签信息，确定训练损失；基于训练损失，对通用语言模型的模型参数进行训练。据此，在通用语言模型的训练阶段，通过通用语言模型中的目标判定网络，使得通用语言模型具备基于至少一种样本数据所在的场景进行可信度判定的能力，在通用语言模型的使用阶段，通过通用语言模型中的目标判定网络，能够得到预测数据在目标场景中的可信度，有利于用户根据该可信度进行后续决策，提升了在目标场景中进行数据推理、判定和决策的效率。

图4示出了本申请一个示例性实施例提供的通用语言模型的训练方法的流程图。示例性的，目标判定网络包括依次级联的特征处理层和目标判定层。其中，特征处理层用于提取至少一种模态的样本数据对应的至少一种模态的样本特征，以及对至少一种模态的样本特征进行自注意力计算。目标判定层用于对可信度进行判定。则上述步骤240可选实现为步骤320和步骤340：

步骤320，将至少一种模态的样本数据输入通用语言模型，通过特征处理层，对至少一种模态的样本数据进行特征提取，得到至少一种模态的样本特征；以及，基于至少一种模态的样本特征和分类特征进行第一自注意力计算，得到至少一种模态的样本特征对应的样本注意力特征。

至少一种模态的样本特征是至少一种模态的样本数据经过特征提取后得到的特征。例如，至少一种模态是视觉模态，则至少一种模态的样本特征为视觉模态的样本视觉特征。或，至少一种模态是文本模态，则至少一种模态的样本特征为文本模态的样本文本特征。

第一自注意力计算是指采用第一自注意力函数进行自注意力处理的方式。

样本注意力特征是指经过第一自注意力计算后得到的特征。

在一些实施例中，通用语言模型的训练阶段的分类特征是用于区分至少一种模态的样本特征的初始化随机特征，分类特征用于表征场景的嵌入，分类特征可以表示为，具体可以参考图2中(2)所示的目标判定网络23中的。

示例性的，计算机设备将至少一种模态的样本数据输入通用语言模型，通过特征处理层，对至少一种模态的样本数据进行特征提取，得到至少一种模态的样本特征；以及，基于至少一种模态的样本特征和分类特征进行第一自注意力计算，得到至少一种模态的样本特征对应的样本注意力特征。

可选地，特征处理层具体包括特征提取层和第一自注意力处理层。其中，特征提取层用于对对至少一种模态的样本数据进行特征提取，第一自注意力处理层用于进行第一自注意力计算。

具体地，计算机设备将至少一种模态的样本数据输入通用语言模型，通过特征提取层对至少一种模态的样本数据进行特征提取，得到至少一种模态的样本特征；以及，通过第一自注意力处理层基于至少一种模态的样本特征和分类特征进行第一自注意力计算，得到至少一种模态的样本特征对应的样本注意力特征。

步骤340，通过目标判定层，对样本注意力特征进行判定，得到至少一种模态的样本数据对应的预测可信度；其中，分类特征是用于区分至少一种模态的样本特征的初始化随机特征，分类特征用于表征场景的嵌入。

在一些实施例中，目标判定层通过自回归网络进行实现。其中，自回归网络(Autoregressive Model)是一种经典的时间序列预测模型。自回归网络能够根据样本注意力特征输出其对应的可信度，揭示样本数据的内在规律和趋势，并可以应用于多种场景中，比如：数据预测、自然语言处理和气象预测等场景中。

可选地，计算机设备通过目标判定层，对样本注意力特征进行判定，得到至少一种模态的样本数据对应的预测可信度。其中，预测可信度是一个估计值，预测可信度用于表征通用语言模型在训练阶段时，基于至少一种模态的样本数据、在至少一种模态的样本数据所属的场景中做出预测的可信度。

在一些实施例中，可信度采用置信度这一参数进行表征，置信度的数值越大，则可信度越高。则样本可信度即为样本置信度，预测可信度即为预测置信度。

本实施例中，目标判定网络可以基于特征处理层和目标判定层实现在场景中的可信度判定，能够提高可信度判定的精度和处理效率。

图5示出了本申请一个示例性实施例提供的通用语言模型的训练方法的流程图。步骤320中的基于至少一种模态的样本特征和分类特征进行第一自注意力计算，得到至少一种模态的样本特征对应的样本注意力特征，可选具体实现为步骤322、步骤324和步骤326：

步骤322，基于至少一种模态的样本特征和分类特征，确定第一自注意力函数中的查询特征与键值。

第一自注意力函数为Attention函数，表示如下：

其中，Q表示查询特征(Query)，K表示键(Key)，V表示值(Value)，QKV可以分别采用矩阵进行表示，Softmax表示归一化处理，

具体地，第一自注意力函数用于将Q矩阵乘以K矩阵的转置，再除以缩放系数根号下

示例性的，计算机设备基于至少一种模态的样本特征和分类特征，确定第一自注意力函数中的查询特征与键值。具体地，计算机设备可以将至少一种模态的样本特征和分类特征进行随机排列，分别确定第一自注意力函数中的查询特征与键值。或，在至少一种模态的样本特征为至少两种模态的样本特征的情况下，计算机设备将分类特征放在不同模态的样本特征之间，以得到第一自注意力函数的查询特征与键值。例如，以至少两种模态为第一模态和第二模态为例，则查询特征与键值均为：第一模态的样本特征、分类特征、第二模态的样本特征的依序排列得到的特征。

步骤324，将第一掩码作为第一自注意力函数的掩码，第一掩码用于遮掩样本回答特征，且不遮掩至少一种模态的样本特征和分类特征，样本回答特征是指至少一种模态的样本数据对应的样本回答数据的特征。

第一掩码是指第一自注意力函数使用的掩码。

示例性的，计算机设备将第一掩码作为第一自注意力函数的掩码，第一掩码用于遮掩样本回答特征，且不遮掩至少一种模态的样本特征和分类特征，样本回答特征是指至少一种模态的样本数据对应的样本回答数据的特征。

步骤326，通过第一自注意力函数，对至少一种模态的样本特征和分类特征进行第一自注意力计算，得到至少一种模态的样本特征对应的样本注意力特征。

示例性的，计算机设备通过第一自注意力函数，对至少一种模态的样本特征和分类特征进行第一自注意力计算，得到至少一种模态的样本特征对应的样本注意力特征。

作为示例，以至少一种模态的样本数据为至少两种模态的样本数据为例，结合示意图对本实施例的自注意力处理进行说明。

图6示出了本申请一个示例性实施例提供的双向上下文表征的掩码的示意图。在图6中包括多个填充区域31和多个空白区域32，其中，填充区域31表示该区域未被遮掩，空白区域32表示该区域被遮掩。

具体地，至少一种模态为至少两种模态，至少两种模态包括视觉模态和文本模态，至少一种模态的样本特征包括视觉模态的样本视觉特征和文本模态的样本文本特征。则计算机设备基于样本视觉特征、分类特征以及样本文本特征，确定第一自注意力函数中的查询特征与键值。其中，图6中的纵列：样本视觉特征、分类特征、样本文本特征为第一自注意力计算时的Q值部分，图6中的横列：样本视觉特征、分类特征、样本文本特征为第一自注意力计算时的KV值，图6中的空白区域为第一掩码。

上述实施例的自注意力机制与目标判定设计，至少包括以下三点有益效果：1、对于输入的多种模态的样本数据对应的多种模态的样本特征，分类特征可以BERT(Bidirectional Encoder Representations from Transformers)的形式对多种模态样本特征进行双向的上下文表征，从而能够有效地理解和发掘所需要信息，进而推理出置信度；2、对于样本数据对应的样本回答数据，由于可信度的估计并不依赖于样本回答数据的描述形式，因此样本回答数据这一部分对可信度的判定结果的相关性被遮掩。3、同时，在通用语言模型的使用阶段，如果用户不查询判定或决策的具体原因，则本实施例的通用语言模型则可以实现非自回归式的目标判定，推理速度可以提升一倍以上，有效降低了算力成本，提升了推理速度。

图7示出了本申请一个示例性实施例提供的通用语言模型的训练方法的流程图。在人机交互场景中，将样本数据输入至通用语言模型，该样本模型还需要输出样本数据对应的预测回答数据。此时该样本数据也称为样本提问数据。则在训练阶段，至少一种模态的样本数据的标签信息还包括至少一种模态的样本数据对应的样本回答数据。则在步骤240之后、在步骤260之前，该方法还可选包括步骤420：

步骤420，通过通用语言模型中的回答生成网络，得到至少一种模态的样本数据对应的预测信息，预测信息还包括预测回答数据，其中，通用语言模型是还包括回答生成网络的语言模型，回答生成网络用于使通用语言模型具备生成回答数据的能力。

预测回答数据是训练阶段的通用语言模型所生成的至少一种模态的样本数据对应的回答数据。

本实施例的通用语言模型是指在常规的通用语言模型中还增加有回答生成网络的模型，也可以理解为，通用语言模型是包括目标判定网络以及回答生成网络的模型。

在一些实施例中，通用语言模型中包括依次级联的目标判定网络与回答生成网络，目标判定网络的输出端与回答生成网络的输入端连接。该回答生成网络用于使通用语言模型具备生成回答数据的能力。

示例性的，计算机设备将至少一种模态的样本数据输入通用语言模型，通过通用语言模型中的回答生成网络，得到至少一种模态的样本数据对应的预测信息，预测信息还包括预测回答数据，其中，通用语言模型是还包括回答生成网络的语言模型，回答生成网络用于使通用语言模型具备生成回答数据的能力。

上述实施例中，通用语言模型还包括回答生成网络，从而该通用语言模型能够生成样本数据对应的回答数据，在生成回答数据之后即可以在用户界面上显示给用户，则用户可以根据可信度和回答数据进行后续决策，有利于提高在目标场景中的决策效率。

在一些实施例中，请继续参阅图7，上述步骤420可选具体实现为步骤440：

步骤440，通过通用语言模型中的回答生成网络，对至少一种模态的样本数据对应的至少一种模态的样本特征、分类特征以及样本回答数据对应的样本回答特征进行第二自注意力计算，得到至少一种模态的样本数据对应的预测回答数据。

第二自注意力计算是指采用第二自注意力函数进行自注意力处理的方式。

示例性的，计算机设备通过语言模型中的回答生成网络，对至少一种模态的样本数据对应的至少一种模态的样本特征、分类特征以及样本回答数据对应的样本回答特征进行第二自注意力计算，得到至少一种模态的样本数据对应的预测回答数据。

图8示出了本申请一个示例性实施例提供的通用语言模型的训练方法的流程图。上述步骤440可选具体实现为步骤442、步骤444和步骤446：

步骤442，通过通用语言模型中的回答生成网络，基于至少一种模态的样本特征、分类特征和样本回答特征，确定第二自注意力函数中的查询特征与键值。

第二自注意力函数为Attention函数，表示如下：

其中，Q表示查询特征(Query)，K表示键(Key)，V表示值(Value)，QKV可以分别采用矩阵进行表示，Softmax表示归一化处理，

需要说明的是，对于第二自注意力函数，在通用语言模型的训练阶段，查询特征是指至少一种模态的样本数据对应的样本回答数据的样本回答特征，在通用语言模型的使用阶段，查询特征是指上一轮人机交互所预测出的历史回答数据对应的历史回答特征。

步骤444，将第二掩码作为第二自注意力函数的掩码，第二掩码用于遮掩样本回答特征，且不遮掩至少一种模态的样本特征、分类特征和历史回答数据对应的历史回答特征。

第二掩码是指第二自注意力函数使用的掩码。

示例性的，计算机设备将第二掩码作为第二自注意力函数的掩码，第二掩码用于遮掩样本回答特征，且不遮掩至少一种模态的样本特征、分类特征和历史回答数据对应的历史回答特征。

步骤446，通过第二自注意力函数，对至少一种模态的样本特征、分类特征和样本回答特征进行第二自注意力计算，得到至少一种模态的样本数据对应的预测回答数据。

示例性的，计算机设备通过第二自注意力函数，对至少一种模态的样本特征、分类特征和样本回答特征进行第二自注意力计算，得到至少一种模态的样本数据对应的预测回答数据。

作为示例，以至少一种模态的样本数据为至少两种模态的样本数据为例，结合示意图对本实施例的自注意力处理进行说明。

图9示出了本申请一个示例性实施例提供的回答生成依赖的因果掩码的示意图。在图9中包括第一类型的填充区域41、第二类型的填充区域42和空白区域43。其中，第一类型的填充区域41、第二类型的填充区域42表示该区域未被遮掩，空白区域43表示该区域被遮掩。

具体地，至少一种模态为至少两种模态，至少两种模态包括视觉模态和文本模态，至少一种模态的样本特征包括视觉模态的样本视觉特征和文本模态的样本文本特征。则计算机设备通过通用语言模型中的回答生成网络，将样本回答特征确定为第二自注意力函数中的查询特征；以及，基于样本视觉特征、分类特征以及样本文本特征，确定第二自注意力函数中的键值。

其中，图9中的纵列：样本视觉特征、分类特征、样本文本特征为第二自注意力计算时的KV值部分，图9中的横列：样本回答特征为第二自注意力计算时的Q值部分，需要说明的是，在通用语言模型的训练阶段，该Q值部分是指标签信息中的样本回答数据的样本回答特征，在通用语言模型的使用阶段，Q值部分是指上一轮人机交互所预测出的历史回答数据对应的历史回答特征。图9中的第二类型的填充区域42和空白区域43为第二掩码。

本实施例的自注意力机制与目标判定设计，至少包括以下两点有益效果：1、参考图2，回答生成网络在视觉特征、文本特征和分类特征的右侧，因此回答生成网络进行逻辑推理时需要结合所有的信息，查询时的相关性值不会被遮掩置零。2、与常见的因果解码器类似，回答生成网络在进行因果推理的训练阶段需要避免信息泄漏的情况出现，因此，在训练阶段，已经回答的结果在查询上下文信息时不可以提前感知未输出的结果，需要将样本回答数据进行遮掩，而历史回答数据不会遮掩。

在至少一种模态包括视觉模态的情况下，则至少一种模态的样本数据对应于视觉模态的样本视觉特征。由于常规的通用语言模型在大规模文本语料数据集预训练完成，在本实施例的通用语言模型的训练阶段，输入文本编码空间的视觉特征存在着显著的领域差异，同时，由于常规的多模态语言模型所处理的视觉模态大部分是为图像信息，而视频信息则容易被忽略。一般来说，常规的多模态语言模型采用浅层的transformer模块，并结合固定数量的查询特征Q值将视觉编码的图像信息映射成文本模态。对于视频信息，对视频进行抽帧时可能会导致时序信息丢失。因此，本实施例中对于样本视觉特征的处理，提出了一种图像与视频结合(图视结合)的视觉嵌入方法。

在一些实施例中，至少一种模态包括视觉模态，至少一种模态的样本数据包括样本视频数据，至少一种模态的样本特征包括样本视觉特征，通用语言模型中的特征处理层包括视觉摘要单元。具体地，步骤320中的将至少一种模态的样本数据输入通用语言模型，通过特征处理层，对至少一种模态的样本数据进行特征提取，得到至少一种模态的样本特征，可以具体实现为：

将样本视频数据输入通用语言模型，通过视觉摘要单元，对样本视频数据中的样本视频帧进行视觉摘要信息提取，得到样本视频数据的视觉摘要信息；将视觉摘要信息进行文本映射，得到样本映射特征；将样本视频帧对应的时序编码嵌入到样本映射特征中，得到样本嵌入特征；将样本嵌入特征进行池化(Pooling)处理，得到样本视觉特征。

视觉摘要信息是用于表征视频内容的信息。可选地，视觉摘要信息包括关键词、关键字、对视频内容的文本描述中的至少一种。

示例性的，计算机设备将样本视频数据输入通用语言模型，通过视觉摘要单元，复用相同参数对样本视频数据中的样本视频帧进行视觉摘要信息提取，得到样本视频数据的视觉摘要信息。使用查询编码器(Querying Transformer，Q-former)映射特征空间到文本编码空间，得到样本映射特征。通常，查询编码器的Q值设定为32，本实施例中为了更多的保留视频信息，将查询编码器的Q值设定为64。对于单个的样本视频帧，需要加上该样本视频帧对应的时序编码，以保留时序信息。则将样本视频帧对应的时序编码嵌入到样本映射特征中，得到样本嵌入特征。同时，采用广义平均池化(Generalized Mean Pooling，GemPooling)的方式将样本嵌入特征进行池化处理，得到样本视觉特征。据此，样本视觉特征嵌入至通用语言模型时依然是Q个查询特征，而不是n*Q，能够有效减少计算量。

作为示例，图10示出了本申请一个示例性实施例提供的图视结合的视觉嵌入的示意图。计算机设备将样本视频数据输入通用语言模型，通过视觉摘要单元，对样本视频数据进行抽帧，得到样本视频数据对应的多个样本视频帧51，以及，对样本视频数据中的样本视频帧51进行视觉摘要信息提取，得到样本视频数据的视觉摘要信息；将视觉摘要信息进行文本映射52，得到样本映射特征；将样本视频帧对应的时序编码(t1、t2…ti…tn)嵌入53到样本映射特征中，得到样本嵌入特征；将样本嵌入特征进行池化(Pooling)处理54，得到样本视觉特征。

上述实施例中，能够通过图像与视频结合的方式得到视觉模态的样本视觉特征，能够尽可能的保留视频中的时序信息、视频内容信息等，提高了样本视觉特征的特征精度。

图11示出了本申请一个示例性实施例提供的通用语言模型的训练方法的流程图。以通用语言模型包括目标判定网络和回答生成网络，且同时对目标判定网络和回答生成网络进行训练为例。则至少一种模态的样本数据需要进行全量标注。

示例性的，至少一种模态的样本数据的标签信息同时包括样本可信度和样本回答数据，预测信息同时包括预测可信度和预测回答数据，训练损失包括推理损失。则上述步骤260可选实现为步骤520、步骤540和步骤560：

步骤520，基于样本可信度与预测可信度，得到判定损失。

判定损失是指目标判定网络的损失。

可选地，判定损失用于表征目标判定网络进行场景拟合的差异。计算机设备基于样本可信度与预测可信度，得到判定损失。

步骤540，基于样本回答数据与预测回答数据，得到生成损失。

生成损失是指回答生成网络的损失。

可选地，生成损失用于表征回答生成网络进行回答推理的差异。计算机设备基于样本回答数据与预测回答数据，得到生成损失。

可选地，生成损失和判定损失分别为交叉熵损失。

步骤560，对判定损失和生成损失进行加权求和，确定推理损失；其中，判定损失用于表征场景拟合之间的差异，生成损失用于表征回答推理之间的差异。

判定损失和生成损失各自的权重是预先设置的。由于回答生成网络的逻辑推理任务相比于目标判定网络的可信度判定任务具有更高的难度，因此在通用语言模型的训练阶段，将生成损失的权重确定为判定损失的权重的N倍，N大于1。

可选地，基于判定损失和生成损失确定的推理损失也可以称为混合式任务微调阶段的训练损失，也可以称为第二阶段训练损失。

在一个示例中，将生成损失的权重确定为1，将判定损失的权重确定为0.5，则通用语言模型的推理损失表示如下：

其中，L

在一些实施例中，在至少一种模态的样本数据为至少两种模态的样本数据的情况下，还需要将各个模态的样本特征进行整合与对齐。则至少一种模态为至少两种模态，至少两种模态包括视觉模态和文本模态，至少一种模态的样本特征包括视觉模态的样本视觉特征和文本模态的样本文本特征，训练损失还包括对齐损失。则在步骤560之后，该方法还包括：

基于样本视觉特征和样本文本特征，确定用于将样本视觉特征与样本文本特征进行对齐的对齐损失，对齐损失包括对比损失、匹配损失和自回归损失的至少一种；其中，对比损失用于表征样本视觉特征与样本文本特征之间的差异，匹配损失用于表征样本视觉特征与样本文本特征之间的匹配度的差异，自回归损失用于表征基于样本视觉特征生成对应的样本文本特征的损失。

对齐损失是指将至少两种模态的样本特征进行对齐的损失。

可选地，对齐损失包括对比损失、匹配损失和自回归损失中的至少一种。对比损失用于表征样本视觉特征与样本文本特征之间的差异，即对比损失用于表示多模态的样本数据的视觉模态描述与文本模态描述之间的差异。匹配损失用于将样本视觉特征与对应的样本文本特征进行特征对齐，即匹配损失用于表征样本视觉特征与样本文本特征之间的匹配度的差异。自回归损失用于根据样本视觉特征生成正确的样本文本特征，即自回归损失用于表征基于样本视觉特征生成对应的样本文本特征的损失。

可选地，基于对齐损失确定的训练损失也可以称为多模态数据整合阶段的训练损失，也可以称为第一阶段训练损失。

示例性的，将对齐损失包括的对比损失、匹配损失和自回归损失中的至少一种相加，得到该对齐损失。则对齐损失表示如下：

其中，L

在一些实施例中，本实施例的通用语言模型包括两个训练阶段，分别是多模态的预训练模型整合阶段以及混合式任务微调阶段。第一阶段是指多模态的预训练模型整合阶段，第一阶段的训练损失是对齐损失，第二阶段是指混合式任务微调阶段，第二阶段的训练损失是推理损失。则训练损失包括对齐损失和推理损失中的至少一种。则步骤280可选实现为：基于对齐损失，对通用语言模型的模型参数进行第一阶段训练；基于推理损失，对第一训练结束的通用语言模型的模型参数进行第二阶段训练。在第二阶段训练结束后即可得到训练好的通用语言模型，该通用语言模型可以应用于后续的非人机交互场景或人机交互场景中。

上述实施例中，可以确定出通用语言模型对应的训练损失并基于该训练损失对通用语言模型的模型参数进行训练，既能够实现多模态的样本特征之间的对齐，也能够实现混合式任务(目标判定任务+回答生成任务)的模型参数微调，能够提高通用语言模型的精度。

图12示出了本申请的一个示例性实施例提供的通用语言模型的使用方法的流程图，以该方法由计算机设备执行为例进行说明，该计算机设备可以是图1的终端120和/或服务器140。该方法包括步骤620和步骤640：

步骤620，获取待处理的目标数据。

目标数据是指待输入至通用语言模型中的数据。

可选地，目标数据是指任一种模态的数据。例如，目标数据可以是文本数据也可以是视觉数据(图像数据、视频数据)中的至少一种。

示例性的，计算机设备获取待处理的目标数据。

步骤640，将目标数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到目标数据对应的预测数据的可信度，可信度用于表征基于目标数据、在目标数据所属的目标场景中做出预测的可信度；其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力。

通用语言模型是指采用前述的训练方法进行训练得到的模型。

目标场景是指目标数据对应的场景。例如，目标数据是当前车辆的交通数据，则目标场景是指智慧交通场景。或，目标数据是指医疗图像，则目标场景是智慧医疗场景。

可选地，可信度是指置信度或阈值的至少一种。可信度用于表征基于目标数据、在目标数据所属的目标场景中做出预测的可信度。

示例性的，计算机设备将目标数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到目标数据对应的预测数据的可信度；其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力。

可以理解的是，在通用语言模型的使用阶段，包括3种使用场景：1、在非人机交互场景中，将目标数据输入通用语言模型，仅需得到目标数据对应的预测数据的可信度，而无需生成该预测数据或在用户界面上显示该预测数据。2、在人机交互场景中，将目标数据输入通用语言模型，需要生成目标数据对应的预测数据。则此时目标数据也称为提问数据，预测数据也称为回答数据。3、在人机交互场景中，将目标数据输入通用语言模型，需要同时得到目标数据对应的预测数据的可信度，同时还需要生成该预测数据，以便在用户界面上显示该预测数据。

在上述使用场景2和使用场景3中，该方法还可以包括步骤660：

步骤660，通过通用语言模型中的回答生成网络，得到目标数据对应的回答数据；其中，通用语言模型是还包括回答生成网络的语言模型，回答生成网络用于使通用语言模型具备生成回答数据的能力。

示例性的，计算机设备将目标数据输入通用语言模型，通过通用语言模型中的回答生成网络，得到目标数据对应的回答数据；其中，通用语言模型是还包括回答生成网络的语言模型，回答生成网络用于使通用语言模型具备生成回答数据的能力。

本实施例的通用语言模型，还可以根据预先设置的目标可信度(目标置信度)做出相应的行为。例如，在智慧交通场景中，将当前车辆的交通数据输入至本实施例的通用语言模型中，则该通用语言模型会给出该车辆下一步可以继续向左转的预测，并给出向左转的置信度的数值为95。假设设置预测数据的置信度的数值大于90时才会使得该通用语言模型输出该预测数据，则此时通用语言模型会告知驾驶员下一步继续向左转。当向左转的置信度的数值为80时，则此时通用语言模型可以直接将该交通数据进行过滤，不输出预测数据。

需要说明的是，上述提供的一个或多个通用语言模型的使用方法的实施例中的具体限定和有益效果可以参见上文中对于通用语言模型的训练方法的具体限定和有益效果，在此不再赘述。

综上所述，本申请实施例提供了一种通用语言模型的使用方法，通过获取待处理的目标数据；将目标数据输入通用语言模型，通过通用语言模型中的目标判定网络，得到目标数据对应的预测数据的可信度，可信度用于表征基于目标数据、在目标数据所属的目标场景中做出预测的可信度；其中，通用语言模型是包括目标判定网络的语言模型，目标判定网络用于使通用语言模型具备基于场景进行可信度判定的能力。据此，在通用语言模型的使用阶段，通过通用语言模型中的目标判定网络，能够得到预测数据在目标场景中的可信度，有利于用户根据该可信度进行后续决策，提升了在目标场景中进行数据推理、判定和决策的效率。

以下实施例中对本申请实施例提供的通用语言模型进行整体说明。以下实施例中，将通用语言模型称为混合式大语言模型(Hybrid Pre-trained Transformer，HPT)。

(一)算法逻辑

(1)混合式大语言模型

在大语言模型的结构设计上，本实施例的混合式大语言模型的算法结构显著区分与常规的GPT架构，详见图2中的(2)所示。本实施例的混合式大语言模型包括目标判定网络和回答生成网络，在根据指定提示(Prompt)生成回答数据的同时，混合式大语言模型会进行目标场景的可信度判定(以下采用置信度来表示可信度)。相对于纯文本问答的图2中的(1)所示的大语言模型，本实施例的混合式大语言模型还结合了额外的图、视频表征的视觉大模型分支。

(1.1)双向上下文表征的目标场景判定

双向上下文表征的目标场景判定设计，可以参考图2中(2)所示的分割符左侧部分。本实施例中对目标场景的可信度判定需要结合数据的多模态输入中的图像、视频模态的视觉信息，场景书写的文本、场景语音转译文本以及提示信息中的转译文本等文本信息。

为了建模上下文关系，对自注意力的相关性掩码进行了设计，具体请参考图6所示的掩码。图6中的各个纵列为注意力机制计算时查询特征Q值的部分，横列为K键值部分，空白区域部分为掩码Mask。

这种掩码主要存在3种收益：

a.对于输入部分的所有各个模态，分类特征以BERT的形式对输入的数据进行双向的上下文表征，有效的理解和发掘所需要信息，进而推理出输入场景判定为目标的置信度；b.对于输出的问题答案，问题答案的场景是否属于目标场景，或做出预测的置信度并不依赖于描述的形式，因此回答部分对判定结果的相关性被遮掩；c.同时，在推理时，如果不查询判定或决策的具体原因，该混合式大语言模型则可以实现非自回归式的目标判定，推理速度可以提升一倍以上，有效降低了算力成本，提升了推理速度。

(1.2)目标及指令依赖的因果逻辑生成

目标及指令依赖的因果逻辑生成涉及，可以参考图2中(2)所示的分割符右侧部分，对场景的回答和解释除了结合目标场景输入的各个模态信息，同时针对判定行为给出的原因和解释直观上需要依赖于对场景的判定，即回答的结果与如何和判定结果都存在条件关系。

为了建模这种因果条件，本实施例在分隔符右侧查询时进行了设计，具体可以参考图9所示的掩码。图9中的各个纵列是回答的目标答案的文本嵌入，在注意力机制计算时需要在输入数据和已回答的结果上查询上下文信息。

这种掩码的设计主要存在2点原因：

a.问题回答部分在视觉嵌入，文本嵌入和目标判定的分类特征的右侧，因此进行逻辑推理时需要结合所有的信息，查询时的相关性值不会被遮掩置零。

b.与常规的因果解码器相同，在进行因果推理的训练时需要避免信息泄漏的情况出现，因此在训练时，已经回答的结果在查询上下文信息时不可以提前感知未输出的结果。

本实施例中，通过目标判定中的分类特征嵌入和自注意力掩码设计，本实施例的混合式大语言模型可以进行双向上下文表征的目标场景的判定，以及完成判定及指令依赖的因果逻辑生成混合任务。

(2)多模态大模型融合

由于大语言模型在大规模文本语料数据集预训练完成，而输入文本编码空间视觉大模型的特征表征存在着显著的领域差异，同时由于常规的多模态大模型处理的视觉模态为图像信息，而视频场景则被忽略，因此本实施例还设计了一种图像和视频结合(图视结合)的视觉嵌入方法，可以参考图10的示意图。

常规的多模态大语言模型采用浅层的Transformer模块结合固定数量的查询Q值，将视觉大模型编码的图像信息映射成文本模态。对于视频信息，抽帧会导致时序信息丢失。但主流的视觉大模型均使用海量图文对进行预训练。因此，本实施例设计了多模态视觉嵌入方法来解决这个问题。

a.对于输入的视频帧，复用同参数的视觉大模型进行视觉信息提取，并使用Q-former映射特征空间到文本编码空间。通常Q值设定为32，而在本专利中，为了更多的保留视频信息，则使用Q＝64查询视觉信息。

b.对于视觉个帧表示，加上该帧对应的时序编码，以使得时序信息可以保留。同时，时序嵌入后的表征采用Gem Pooling方式尽可能减少信息损失。这样视觉嵌入输入混合式大语言模型时是Q个查询特征，而不是n*Q，有效减少计算量。

(3)训练损失

本实施例设计的混合式大语言模型(混合式预训练多模态大语言模型)主要包括两个训练阶段：多模态预训练大模型整合阶段以及混合式任务微调阶段。

在多模态预训练大模型整合阶段，使用海量目标场景或相关场景图文对和视频文本对将各个模态表征对齐，该阶段的训练损失包括对比损失、匹配损失(视觉特征与对应文本特征对齐)和自回归损失(根据视觉特征生成正确的文本特征)。第一阶段的训练损失表示为：

在混合式任务微调阶段，训练损失包括采用二值交叉熵计算的判定损失，以及与大语言模型一致的交叉熵计算的生成损失。由于逻辑推理任务具有更高的难度，因此将生成损失的权重设置为判定损失的权重的两倍。

(4)数据设计

收集目标场景或相关场景下的图像约100w张，以及短视频10w个。该图像和视频集要尽可能包含目标场景的各种不同类别的数据且能体现目标场景的特性，比如：商品推荐场景，需要尽可能包括多样化的商品类型；交通驾驶场景，需要包括尽可能多种类的街道、路况、车辆的信息。这部分数据主要用于在多模态预训练大模型整合阶段的模态对齐。文本数据可以使用视频标题或开源的描述工具或其他大模型进行文本生成和清洗。对于混合式任务微调阶段，需要少量人工精细标注的数据1w+，数据需要标注有目标场景、属于该目标场景的原因的解释文本、在目标场景中的目标类型、属于该目标类型的原因的解释文本、在目标场景中的各种可能的预测数据对应的置信度。比如：在智慧医疗场景中，设置有医疗问答机器人，医疗问答机器人可以生成录制的医疗视频或拍摄的医疗图像可能属于哪种疾病，则训练时需要标注出录制的医疗视频或拍摄的医疗图像属于哪种疾病、以及属于该疾病的原因是什么。

(二)推理应用

根据实际的应用需求，可以设置不用的应用方式：

(1)直接应用

对于比较简单高效的应用，可以使用混合式大语言直接处理是否推荐、是否过滤信息、或是否做出某个决策。例如，在智慧交通场景中，将当前车辆的交通数据输入混合式大语言模型中，并设置只有在预测数据的置信度的数值大于95时才会生成该预测数据并显示给用户。假设混合式大语言模型确定，针对当前车辆的交通数据所生成的预测数据的置信度的数值均小于95，则该混合式大语言模型可以直接将该交通信息过滤掉，或不做出下一次的驾驶预测。据此，本实施例的混合式大语言模型可以有效提升推理速度，同时保留逻辑理解能力和精度。同时，该混合式大语言模型还可以根据设置的目标置信度做出相应的行为。

(2)作为下游任务的输入

对于更加复杂的任务，大模型生成的文本以及目标判定的置信度可以作为下游任务的输入。比如：在商品推荐场景中，将商品图像输入至混合式大语言模型中，则该混合式大语言模型可以基于该商品图像预测出各种其他商品、以及各种其他商品在商品推荐场景中的置信度、以及得到该置信度的原因并显示给用户，为后续的商品推荐任务提供推荐信息。在智慧医疗场景中，可以将医疗图像属于哪种疾病、以及属于该疾病的置信度，提供给医生、患者等作为参考，便于医生、患者进行后续医疗决策，除了可以有效提高人力效率，对于偏远地区患者远程诊病也带来了可能。

综上所述，本申请实施例提供的混合式大语言模型，能够在保留通过的大语言模型的逻辑理解和推理性能的情况下，能够非自回归的输出目标场景判定和决策的置信度得分，极大地提升了目标场景的推理、判定和决策效率。此外，还可以通过设置目标置信度，使得混合式大语言模型做出相应的决策，从而解决了通用的大语言模型无法根据目标置信度做出行为的问题。可以应用于对判定结果输出进行可解释分析、有效可行的分析数据解释场景中。

图13示出了本申请一个示例性实施例提供的通用语言模型的训练装置800的框图，该通用语言模型的训练装置800包括：

获取模块810，用于获取至少一种模态的样本数据，所述至少一种模态的样本数据标注有标签信息，所述标签信息包括样本可信度，所述样本可信度用于表征基于所述至少一种模态的样本数据、在所述至少一种模态的样本数据所属的场景中做出预测的可信度；

处理模块820，用于将所述至少一种模态的样本数据输入通用语言模型，通过所述通用语言模型中的目标判定网络，得到所述至少一种模态的样本数据对应的预测信息，所述预测信息包括预测可信度，其中，所述通用语言模型是包括所述目标判定网络的语言模型，所述目标判定网络用于使所述通用语言模型具备基于场景进行可信度判定的能力；

训练模块830，用于基于所述预测信息和所述标签信息，确定训练损失；以及，基于所述训练损失，对所述通用语言模型的模型参数进行训练。

在一些实施例中，所述目标判定网络包括依次级联的特征处理层和目标判定层；所述处理模块820，用于：

将所述至少一种模态的样本数据输入所述通用语言模型，通过所述特征处理层，对所述至少一种模态的样本数据进行特征提取，得到至少一种模态的样本特征；

以及，基于所述至少一种模态的样本特征和分类特征进行第一自注意力计算，得到所述至少一种模态的样本特征对应的样本注意力特征；

通过所述目标判定层，对所述样本注意力特征进行判定，得到所述至少一种模态的样本数据对应的所述预测可信度；

其中，所述分类特征是用于区分所述至少一种模态的样本特征的预先设置的初始化随机特征，所述分类特征用于表征场景的嵌入。

在一些实施例中，所述处理模块820，用于：

基于所述至少一种模态的样本特征和所述分类特征，确定第一自注意力函数中的查询特征与键值；

将第一掩码作为所述第一自注意力函数的掩码，所述第一掩码用于遮掩样本回答特征，且不遮掩所述至少一种模态的样本特征和所述分类特征，所述样本回答特征是指所述至少一种模态的样本数据对应的样本回答数据的特征；

通过所述第一自注意力函数，对所述至少一种模态的样本特征和所述分类特征进行第一自注意力计算，得到所述至少一种模态的样本特征对应的所述样本注意力特征。

在一些实施例中，所述至少一种模态为至少两种模态，所述至少两种模态包括视觉模态和文本模态，所述至少一种模态的样本特征包括所述视觉模态的样本视觉特征和所述文本模态的样本文本特征；

所述处理模块820，用于基于所述样本视觉特征、所述分类特征以及所述样本文本特征，确定所述第一自注意力函数中的所述查询特征与所述键值。

在一些实施例中，所述标签信息还包括所述至少一种模态的样本数据对应的样本回答数据；

所述处理模块820，还用于通过所述通用语言模型中的回答生成网络，得到所述至少一种模态的样本数据对应的预测信息，所述预测信息还包括预测回答数据，其中，所述通用语言模型是还包括所述回答生成网络的语言模型，所述回答生成网络用于使所述通用语言模型具备生成回答数据的能力。

在一些实施例中，所述处理模块820，用于通过所述通用语言模型中的所述回答生成网络，对所述至少一种模态的样本数据对应的至少一种模态的样本特征、分类特征以及所述样本回答数据对应的样本回答特征进行第二自注意力计算，得到所述至少一种模态的样本数据对应的所述预测回答数据。

在一些实施例中，所述处理模块820，用于：

通过所述通用语言模型中的所述回答生成网络，基于所述至少一种模态的样本特征、所述分类特征和所述样本回答特征，确定第二自注意力函数中的查询特征与键值；

将第二掩码作为所述第二自注意力函数的掩码，所述第二掩码用于遮掩所述样本回答特征，且不遮掩所述至少一种模态的样本特征、所述分类特征和历史回答数据对应的历史回答特征；

通过所述第二自注意力函数，对所述至少一种模态的样本特征、所述分类特征和所述样本回答特征进行第二自注意力计算，得到所述至少一种模态的样本数据对应的所述预测回答数据。

所述处理模块820，用于通过所述通用语言模型中的所述回答生成网络，将所述样本回答特征确定为所述第二自注意力函数中的所述查询特征；以及，基于所述样本视觉特征、所述分类特征以及所述样本文本特征，确定所述第二自注意力函数中的所述键值。

在一些实施例中，所述至少一种模态包括视觉模态，所述至少一种模态的样本数据包括样本视频数据，所述至少一种模态的样本特征包括样本视觉特征，所述特征处理层包括视觉摘要单元；所述处理模块820，用于：

将所述样本视频数据输入所述通用语言模型，通过所述视觉摘要单元，对所述样本视频数据中的样本视频帧进行视觉摘要信息提取，得到所述样本视频数据的视觉摘要信息；

将所述视觉摘要信息进行文本映射，得到样本映射特征；

将所述样本视频帧对应的时序编码嵌入到所述样本映射特征中，得到样本嵌入特征；

将所述样本嵌入特征进行池化处理，得到所述样本视觉特征。

在一些实施例中，所述标签信息包括样本可信度和样本回答数据，所述预测信息包括预测可信度和预测回答数据，所述训练损失包括推理损失；所述训练模块830，用于：

基于所述样本可信度与所述预测可信度，得到判定损失；

基于所述样本回答数据与所述预测回答数据，得到生成损失；

对所述判定损失和所述生成损失进行加权求和，确定所述推理损失；

其中，所述判定损失用于表征场景拟合之间的差异，所述生成损失用于表征回答推理之间的差异。

在一些实施例中，所述至少一种模态为至少两种模态，所述至少两种模态包括视觉模态和文本模态，所述至少一种模态的样本特征包括所述视觉模态的样本视觉特征和所述文本模态的样本文本特征，所述训练损失还包括对齐损失；

所述训练模块830，还用于基于所述样本视觉特征和所述样本文本特征，确定用于将所述样本视觉特征与所述样本文本特征进行对齐的对齐损失，所述对齐损失包括对比损失、匹配损失和自回归损失的至少一种；

其中，所述对比损失用于表征样本视觉特征与样本文本特征之间的差异，所述匹配损失用于表征所述样本视觉特征与所述样本文本特征之间的匹配度的差异，所述自回归损失用于表征基于所述样本视觉特征生成对应的所述样本文本特征的损失。

在一些实施例中，所述训练损失包括对齐损失和推理损失中的至少一种；所述训练模块830，用于：

基于所述对齐损失，对所述通用语言模型的模型参数进行第一阶段训练；

基于所述推理损失，对所述第一训练结束的通用语言模型的模型参数进行第二阶段训练。

图14示出了本申请一个示例性实施例提供的通用语言模型的使用装置900的框图，该通用语言模型的使用装置900包括：

获取模块910，用于获取待处理的目标数据；

处理模块920，用于将所述目标数据输入通用语言模型，通过所述通用语言模型中的目标判定网络，得到所述目标数据对应的预测数据的可信度，所述可信度用于表征基于所述目标数据、在所述目标数据所属的目标场景中做出预测的可信度；

其中，所述通用语言模型是包括所述目标判定网络的语言模型，所述目标判定网络用于使所述通用语言模型具备基于场景进行可信度判定的能力。

在一些实施例中，所述处理模块920，还用于通过所述通用语言模型中的回答生成网络，得到所述目标数据对应的回答数据；

其中，所述通用语言模型是还包括所述回答生成网络的语言模型，所述回答生成网络用于使所述通用语言模型具备生成回答数据的能力。

需要说明的是，上述提供的一个或多个通用语言模型的训练装置和/或使用装置的实施例中的具体限定可以参见上文中对于通用语言模型的训练方法和/或使用方法的限定，在此不再赘述。上述装置的各模块可全部或部分通过软件、硬件及其组合来实现，各模块可以以硬件形式内嵌或独立于计算机设备的处理器中，也可以以软件形式存储在计算机设备的存储器中，以便于处理器调用执行各模块对应的操作。

本申请实施例还提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有计算机程序；处理器，用于执行存储器中的计算机程序以实现上述各方法实施例提供的通用语言模型的训练方法和/或使用方法。

示例地，图15是本申请一个示例性实施例提供的计算机设备1000的结构框图。可选地，该计算机设备1000为服务器1000。

通常，服务器1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的通用语言模型的训练方法和/或使用方法。

在一些实施例中，服务器1000还可选包括有：输入接口1003和输出接口1004。处理器1001、存储器1002和输入接口1003、输出接口1004之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与输入接口1003、输出接口1004相连。输入接口1003、输出接口1004可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和输入接口1003、输出接口1004被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和输入接口1003、输出接口1004中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

本领域技术人员可以理解，图15中示出的结构并不构成对计算机设备1000的限定，可以包括比图示更多或更少的组件，或组合某些组件，或采用不同的组件布置。

在示例性实施例中，本申请提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当芯片在计算机设备上运行时，用于实现上述方法实施例提供的通用语言模型的训练方法和/或使用方法。

本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述方法实施例提供的通用语言模型的训练方法和/或使用方法。

本申请提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备的处理器加载并执行以实现上述方法实施例提供的通用语言模型的训练方法和/或使用方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的计算机可读存储介质可以是只读存储器，磁盘或光盘等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：腾讯科技(深圳)有限公司;

上一篇：基于体育场馆结构模型的照明控制数据处理方法及系统
下一篇：一种飞机机载健康管理系统通用故障严重等级诊断方法