掌桥专利:专业的专利平台
掌桥专利
首页

模型训练方法、装置及存储介质

文献发布时间:2024-04-18 20:02:18


模型训练方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种模型训练方法、装置及存储介质。

背景技术

为了帮助工作人员了解用户需求,往往需要对工作人员与用户之间通话的重点内容进行提取,形成内容摘要。

通用技术中主要是通过模型来生成内容摘要。然而,当前的模型主要输通过抽取式摘要技术或生成式摘要技术生成的摘要文本训练得到的,这两种方式生成的内容摘要准确度较低,从而导致模型的生成效果较差。

发明内容

本申请提供一种模型训练方法、装置及存储介质,能够提升模型的生成效果。

为达到上述目的,本申请采用如下技术方案:

第一方面,本申请提供一种模型训练方法,该方法包括:获取训练集;训练集包括多个原始文本、以及与多个原始文本一一对应的多个样本摘要文本;样本摘要文本与原始文本之间存在最大公共子序列;根据多个原始文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型;目标生成模型用于生成目标摘要文本。

一种可能的方式中,获取训练集,包括:获取多个原始文本;对多个原始文本中每个原始文本执行以下第一操作,得到与多个原始文本一一对应的多个样本摘要文本;第一操作包括:将原始文本划分为多个语句;根据第一预设方法,确定与多个语句一一对应的多个重要值;将多个语句中重要值从高到低的前n个语句,确定为候选语句,得到n个候选语句;根据预设词语集合,确定n个候选语句的关键词;将n个候选语句中关键词数量从多到少的前m个候选语句,确定为目标语句,得到m个目标语句;对m个摘要文本进行拼接,得到摘要文本;重要值用于表示语句的重要程度。

一种可能的方式中,根据多个原始文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型,包括:对原始文本进行编码处理,得到原始文本对应的特征向量;特征向量用于表示原始文本的语义特征;根据特征向量,生成至少一个候选结果向量,以及与至少一个候选结果向量一一对应的至少一个预测概率;预测概率用于表示候选结果向量对应的文本序列为期望的摘要文本的概率;候选结果向量用于表示生成器根据特征向量生成的摘要文本的语义特征;将预测概率大于其他预测概率的候选结果向量,确定为目标结果向量,并将目标结果向量转化为文本,得到第一摘要文本;计算第一摘要文本与原始文本对应的样本训练文本之间的损失值;在损失值大于预设损失阈值的情况下,对初始生成模型的参数进行调整;在损失值小于或等于预设损失阈值的情况下,将初始生成模型确定为目标生成模型。

一种可能的方式中,根据特征向量,生成至少一个候选结果向量,以及与至少一个候选结果向量一一对应的至少一个预测概率,包括:根据特征向量和第一向量序列,确定至少一个词向量,以及与至少一个词向量一一对应的至少一个词概率;第一向量序列用于表示已确定的词向量组合得到的向量序列;词概率用于表示词向量对应的词语为期望的摘要词的概率;将至少一个词向量,分别与第一向量序列进行组合,得到与至少一个词向量一一对应的至少一个第二向量序列,并根据第一向量序列的预测概率和至少一个词概率,确定至少一个第二向量序列的预测概率;在至少一个第二向量序列不符合预设条件的情况下,根据特征向量和至少一个第二向量序列,确定至少一个词向量;预设条件包括以下至少一项:序列长度大于或等于预设长度阈值、为第p次迭代过程中组合得到的向量序列;p为正整数;在至少一个第二向量序列符合预设条件的情况下,将至少一个第二向量序列,确定为候选结果向量。

一种可能的方式中,获取待生成文本;将待生成文本输入至目标生成模型中进行生成处理,得到与待生成文本对应的目标摘要文本。

一种可能的方式中,对多个原始文本进行掩码处理,得到与多个原始文本一一对应的多个掩码后文本;根据多个掩码后文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型。

一种可能的方式中,对多个原始文本中每个原始文本执行以下第二操作,得到与多个原始文本一一对应的多个样本摘要文本;第二操作包括:构建与原始文本对应的至少一个提示词;将原始文本和至少一个提示词输入至预设生成模型中,得到与原始文本对应的样本摘要文本。

第二方面,本申请提供一种模型训练装置,该装置包括:获取单元和训练单元;获取单元,用于获取数据集;训练集包括多个原始文本、以及与多个原始文本一一对应的多个样本摘要文本;样本摘要文本与原始文本之间存在最大公共子序列;训练单元,用于根据获取单元获取的多个原始文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型;目标生成模型用于生成目标摘要文本。

一种可能的方式中,获取单元,具体用于:获取多个原始文本;对多个原始文本中每个原始文本执行以下第一操作,得到与多个原始文本一一对应的多个样本摘要文本;第一操作包括:将原始文本划分为多个语句;根据第一预设方法,确定与多个语句一一对应的多个重要值;将多个语句中重要值从高到低的前n个语句,确定为候选语句,得到n个候选语句;根据预设词语集合,确定n个候选语句的关键词;将n个候选语句中关键词数量从多到少的前m个候选语句,确定为目标语句,得到m个目标语句;对m个摘要文本进行拼接,得到摘要文本;重要值用于表示语句的重要程度。

一种可能的方式中,训练单元,具体用于:对原始文本进行编码处理,得到原始文本对应的特征向量;特征向量用于表示原始文本的语义特征;根据特征向量,生成至少一个候选结果向量,以及与至少一个候选结果向量一一对应的至少一个预测概率;预测概率用于表示候选结果向量对应的文本序列为期望的摘要文本的概率;候选结果向量用于表示生成器根据特征向量生成的摘要文本的语义特征;将预测概率大于其他预测概率的候选结果向量,确定为目标结果向量,并将目标结果向量转化为文本,得到第一摘要文本;计算第一摘要文本与原始文本对应的样本训练文本之间的损失值;在损失值大于预设损失阈值的情况下,对初始生成模型的参数进行调整;在损失值小于或等于预设损失阈值的情况下,将初始生成模型确定为目标生成模型。

一种可能的方式中,训练单元,具体用于:根据特征向量和第一向量序列,确定至少一个词向量,以及与至少一个词向量一一对应的至少一个词概率;第一向量序列用于表示已确定的词向量组合得到的向量序列;词概率用于表示词向量对应的词语为期望的摘要词的概率;将至少一个词向量,分别与第一向量序列进行组合,得到与至少一个词向量一一对应的至少一个第二向量序列,并根据第一向量序列的预测概率和至少一个词概率,确定至少一个第二向量序列的预测概率;在至少一个第二向量序列不符合预设条件的情况下,根据特征向量和至少一个第二向量序列,确定至少一个词向量;预设条件包括以下至少一项:序列长度大于或等于预设长度阈值、为第p次迭代过程中组合得到的向量序列;p为正整数;在至少一个第二向量序列符合预设条件的情况下,将至少一个第二向量序列,确定为候选结果向量。

一种可能的方式中,装置还包括,生成单元;获取单元,还用于获取待生成文本;生成单元,用于将待生成文本输入至目标生成模型中进行生成处理,得到与待生成文本对应的目标摘要文本。

一种可能的方式中,装置还包括:处理单元;处理单元,用于对多个原始文本进行掩码处理,得到与多个原始文本一一对应的多个掩码后文本;训练单元,还用于根据多个掩码后文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型。

一种可能的方式中,获取单元,还用于对多个原始文本中每个原始文本执行以下第二操作,得到与多个原始文本一一对应的多个样本摘要文本;第二操作包括:构建与原始文本对应的至少一个提示词;将原始文本和至少一个提示词输入至预设生成模型中,得到与原始文本对应的样本摘要文本。

第三方面,本申请提供了一种模型训练装置,该装置包括:处理器和通信接口;通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的模型训练方法。

第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端上运行时,使得终端执行如第一方面和第一方面的任一种可能的实现方式中描述的模型训练方法。

第五方面,本申请实施例提供一种包含指令的计算机程序产品,当计算机程序产品在模型训练装置上运行时,使得模型训练装置执行如第一方面和第一方面的任一种可能的实现方式中所描述的模型训练方法。

第六方面,本申请实施例提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的模型训练方法。

具体的,本申请实施例中提供的芯片还包括存储器,用于存储计算机程序或指令。

在本申请中,上述模型训练装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

基于上述任一方面,本申请提供的技术方案至少带来以下有益效果:

能够获取包括多个原始文本,以及多个与原始文本具有最大公共子序列的样本摘要文本的训练集。最大公共子序列使得样本摘要文本和原始文本之间具有更高的语义一致性,能够更准确地传达了原始文本的信息,从而有助于模型更好地理解原文的意图和内容,避免了通用技术中样本摘要文本准确度较低的问题,可以提高模型的训练效果。

基于此,根据多个原始文本和多个样本摘要文本,对初始生成模型进行训练得到目标生成模型,生成的文本摘要更加准确,且能够更完整的体现原始文本中的重点信息。

附图说明

图1为本申请实施例提供的一种模型训练系统的结构示意图;

图2为本申请实施例提供的一种模型训练装置的硬件结构示意图;

图3为本申请实施例提供的一种模型训练方法的流程示意图;

图4为本申请实施例提供的另一种模型训练方法的流程示意图;

图5为本申请实施例提供的另一种模型训练方法的流程示意图;

图6为本申请实施例提供的另一种模型训练方法的流程示意图;

图7为本申请实施例提供的另一种模型训练方法的流程示意图;

图8为本申请实施例提供的另一种模型训练方法的流程示意图;

图9为本申请实施例提供的一种模型训练流程的示意图;

图10为本申请实施例提供的一种模型训练装置的结构示意图。

具体实施方式

下面结合附图对本申请实施例提供的模型训练方法及装置进行详细地描述。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。

此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

文本摘要技术是自然语言处理领域中一项基础且应用广泛的技术,其目标是将长篇文本压缩成简短、精炼的摘要,同时保留原文中的重要信息和要点。这种技术有助于用户快速理解文本内容,节省阅读时间,并在信息检索、文档汇总、摘要生成、搜索引擎结果展示等领域发挥重要作用。

目前,文本摘要技术主要分为抽取式和生成式两种。抽取式方法从原文中选择并提取关键句子、短语或段落,构成摘要,通常使用文本中的关键词、句子位置、句子长度等信息来选择摘要内容。生成式方法则使用自然语言生成技术来生成全新的文本,以表达原文的核心思想,通常需要深度学习模型,如循环神经网络(recurrent neural network,RNN)或变换器模型(generative pre-trained transformer,GPT)来生成摘要。此外,文本摘要技术也分为无监督摘要和有监督摘要两种,其中监督摘要的效果通常更好,但需要标注数据,而无监督摘要则不需要标注数据,相对简单。

随着技术的不断演进,目前最流行的建模方式是抽取式摘要与预训练模型的生成式摘要相结合。这种结合方式可以充分利用两种方法的优点,提高摘要的准确性和效率。在未来的发展中,文本摘要技术将继续演进,并发挥越来越重要的作用。

由于人人通话内容较长,并且在使用语音识别技术(Automatic SpeechRecognition,ASR)转录过程中可能会出现转录错误和噪声干扰的问题,这使得后续的文本阅读和通话内容审核变得困难。为了提高审核效率和核心内容理解效率,坐席人员需要耗费大量时间阅读通话内容文本,并从中提取核心问题进行处理。然而,由于通话内容文本中冗余信息过多、口语化严重,很难快速抓住核心信息和主要思想。这使得常规的生成摘要模型难以抽取核心信息,并且生成内容的可信度也较低。

针对上述现有技术的缺陷,本申请提供的模型训练方法,能够获取包括多个原始文本,以及多个与原始文本具有最大公共子序列的样本摘要文本的训练集。最大公共子序列使得样本摘要文本和原始文本之间具有更高的语义一致性,能够更准确地传达了原始文本的信息,从而有助于模型更好地理解原文的意图和内容,避免了通用技术中样本摘要文本准确度较低的问题,可以提高模型的训练效果。

基于此,根据多个原始文本和多个样本摘要文本,对初始生成模型进行训练得到目标生成模型,生成的文本摘要更加准确,且能够更完整的体现原始文本中的重点信息。

示例性的,如图1所示,为本申请实施例提供的一种模型训练系统100的结构示意图。模型训练系统100可以包括模型训练装置101和数据采集装置102。模型训练装置101与数据采集装置102之间可以建立通信连接。

在实际应用中,模型训练装置101可以与一个或多个数据采集装置102之间通信连接。

为了便于理解,本申请以一个模型训练装置101与一个数据采集装置102之间通信连接为例进行说明。

可选的,图1中的模型训练装置101和数据采集装置102可以是集成于同一个设备内的功能模块,也可以是两个相互独立设置的设备。本申请对此不作限制。

容易理解的是,当模型训练装置101和数据采集装置102是集成于同一个设备内的功能模块时,模型训练装置101和数据采集装置102之间的通信方式为设备内部模块之间的通信。这种情况下,二者之间的通信流程与“模型训练装置101和数据采集装置102相互独立设置的情况下,二者之间的通信流程”相同。

为了便于理解,本申请主要以模型训练装置101和数据采集装置102相互独立设置为例进行说明。

图1中的模型训练装置101可以配置初始生成模型。模型训练装置101可以接收到数据采集装置102发送的训练集,并基于训练集,对初始生成模型进行训练,得到目标生成模型。

可选地,图1中的模型训练装置101和数据采集装置102可以是终端,也可以是服务器,还可以是其他类型的电子设备。图1中所示仅为模型训练装置101和数据采集装置102的设备形态的一种示例,并不对其构成限定。

在模型训练装置101和数据采集装置102是终端的情况下,该终端可以是为指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。该终端可以经无线接入网(radio access network,RAN)与一个或多个核心网进行通信。该终端可以是移动终端,如具有移动终端的计算机,也可以是便携式、袖珍式、手持式、计算机内置的移动装置,它们与无线接入网交换语言和/或数据,例如,手机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant,PDA)。本申请对此不作任何限制。

在模型训练装置101和数据采集装置102是服务器的情况下,该服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本申请对此不作任何限制。

如图2所示,为本申请实施例提供的模型训练装置的一种硬件结构示意图。该模型训练装置包括处理器21,存储器22、通信接口23、总线24。处理器21,存储器22以及通信接口23之间可以通过总线24连接。

处理器21是模型训练装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器21可以是一个通用中央处理单元(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。

作为一种实施例,处理器21可以包括一个或多个CPU,例如图2中所示的CPU 0和CPU 1。

存储器22可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

一种可能的实现方式中,存储器22可以独立于处理器21存在,存储器22可以通过总线24与处理器21相连接,用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时,能够实现本申请下述实施例提供的模型训练方法。

另一种可能的实现方式中,存储器22也可以和处理器21集成在一起。

通信接口23,用于模型训练装置与其他设备通过通信网络连接,通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。通信接口23可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。

总线24,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component interconnect,PCI)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

需要指出的是,图2中示出的结构并不构成对模型训练装置的限定,除图2所示部件之外,该模型训练装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图3所示,为本申请实施例提供的一种模型训练方法的流程示意图。该模型训练方法可以应用于图1所示的模型训练系统100的模型训练装置101。该模型训练方法包括:S301-S302。

S301、模型训练装置获取训练集。

其中,训练集包括多个原始文本、以及与多个样本原始文本一一对应的多个样本摘要文本。

其中,样本摘要文本可以与原始文本之间存在最大公共子序列。

可选地,原始文本可根据实际需求设定。例如,原始文本可以是基于语音数据生成的语音文本,也可以是普通文本。本申请对此不做具体限制。

一种可能的方式中,模型训练装置可以获取多个原始文本。模型训练装置可以对多个原始文本中每个原始文本执行以下第一操作,得到与多个原始文本一一对应的多个样本摘要文本。模型训练装置获取训练集的具体实现方式,可参照下述S401-S402。此处不再赘述。

S302、模型训练装置根据多个原始文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型。

其中,初始生成模型用于表示基于seq2seq的预训练模型,包括Copy机制。

一种可能的方式中,预训练模型是一种在大量无标注数据上进行训练的深度学习模型,通常用于自然语言处理任务。预训练模型通过学习大量文本数据的内在结构和模式,在未经过特定任务标注的数据上进行训练,可以用于多种自然语言处理任务。

可选地,预训练模型可根据实际需求设定。例如,预训练模型可以是序列到序列模型(text-to-text transfer transformer,T5)。本申请对此不做具体限制。

一种可能的方式中,模型训练装置根据多个原始文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型的具体实现方式可参照下述S401-S402。本申请对此不做具体限制。

一种可能的方式中,模型训练装置可以获取与目标对象对应的目标文本。模型训练装置可以将目标文本输入至目标生成模型生成处理,得到与目标文本对应的目标摘要。

基于上述技术方案,本申请提供的模型训练方法,能够获取包括多个原始文本,以及多个与原始文本具有最大公共子序列的样本摘要文本的训练集。最大公共子序列使得样本摘要文本和原始文本之间具有更高的语义一致性,能够更准确地传达了原始文本的信息,从而有助于模型更好地理解原文的意图和内容,避免了通用技术中样本摘要文本准确度较低的问题,可以提高模型的训练效果。

基于此,根据多个原始文本和多个样本摘要文本,对初始生成模型进行训练得到的目标生成模型,生成的文本摘要更加准确,且能够更完整的体现原始文本中的重点信息。

一种实施例中,结合图3,在获取训练集时,如图4所示,本申请实施例提供的模型训练方法,还包括:S401-S402。

S401、模型训练装置获取多个原始文本。

一种可能的方式中,在原始文本是基于语音数据生成的通话文本时,模型训练装置获取多个原始文本的方式包括但不限于以下方式:

模型训练装置可以获取多个语音数据。模型训练装置可以对多个语音数据进行语音提取,得到与多个语音数据一一对应的多个语音文本。模型训练装置可以根据第二预设方法对多个语音文本进行预处理,得到与多个语音文本一一对应的多个原始文本。

可选地,语音数据可根据实际需求设定。例如,语音数据可以通话语音,也可以是会议语音。本申请对此不做具体限制。

一种可能的方式中,通过语音数据提取得到的语音文本往往存在着大量的方言,且存在数据文本较长、错别字和语句逻辑性差等问题。因此,需要对多个语音文本进行预处理,清洗多个训练文本中的无效数据。例如,清洗超过3次以上的语气叠词、统一语气词表达、清除无效标点符号等,并粘连错误的断句,得到与多个语音文本一一对应的多个原始文本。

可选地,第二预设方法可根据实际需求设定。例如,第二预设方法可以包括正则表达式规则,还可以包括语义清洗。本申请对此不做具体限制。

S402、模型训练装置对多个原始文本中每个原始文本执行以下第一操作,得到与多个原始文本一一对应的多个样本摘要文本。

其中,第一操作可以包括:根据第一预设方法,确定与多个语句一一对应的多个重要值。将多个语句中重要值从高到低的前n个语句,确定为候选语句,得到n个候选语句。根据预设词语集合,确定n个候选语句的关键词。将n个候选语句中关键词数量从多到少的前m个候选语句,确定为目标语句,得到m个目标语句。对m个摘要文本进行拼接,得到摘要文本。重要值可以用于表示语句的重要程度。n、m可以为正整数。n可以大于或等于m。

具体而言,模型训练装置将原始文本划分为多个语句。模型训练装置根据第一预设方法,确定与多个语句一一对应的多个重要值。模型训练装置可以将多个语句中重要值从高到低的前n个语句,确定为候选语句,得到n个候选语句。模型训练装置可以根据预设词语集合,确定n个候选语句的关键词。模型训练装置可以将n个候选语句中关键词数量从多到少的前m个候选语句,确定为目标语句,得到m个目标语句。模型训练装置可以对m个摘要文本进行拼接,得到摘要文本。重要值可以用于表示语句的重要程度。

可选地,第一预设方法可根据实际需求设定。例如,第一预设方法可以是匹配文本评估方法(recall-oriented understudy for gisting evaluation,ROUGE),也可以是词频-逆文档频次(term frequency-inversedocument frequency,TF-IDF)算法。本申请对此不做具体限制。

可选地,预设词语集合包括的词语可根据实际需求设定。本申请对此不做具体限制。

示例性的,模型训练装置可以根据ROUGE计算出每个句子的重要性和相似性,得到n个候选语句。模型训练装置可以根据预设词表集合,以及TextRank算确定n个候选语句中的关键词,从而将m个关键词较多的候选语句,确定为目标语句,模型训练装置可以对m个目标语句进行拼接,得到样本摘要文本。

一种可能的方式中,模型训练装置可以根据贪心算法,来逐步的从n个候选语句中确定目标语句,得到m个目标语句,以使得根据m个目标语句生成的样本摘要文本与原始文本之间的公共子序列最长。

具体而言,模型训练装置可以从n个候选语句中提取出第一个句子,该候选句子与原始文本之间的公共子序列最长,即该候选语句包含的关键词在剩下的候选语句中最多。模型训练和装置可以从原始文本中提取第m个句子,该m个句子与原始文本之间的公共子序列最长,即该候选语句包含的关键词在剩下的候选语句中最多。

示例性的,模型训练装置可以提取三分之一原始文本作为候选语句,并从多个候选语句中确定五分之一,将这五分之一的候选语句确定为目标语句,使得目标语句组成的样本摘要文本与原始文本之间的公共子序列最长。满足第一公式。第一公式:

其中,C[i,j]可以用于表示最大公共子序列。i可以用于表示样本摘要文本。j可以表示原始文本。

一种可能的方式中,模型训练装置可以对多个原始文本中每个原始文本执行以下第二操作,得到与多个原始文本一一对应的多个样本摘要文本;第二操作包括:构建与原始文本对应的至少一个提示词;

将原始文本和至少一个提示词输入至预设生成模型中,得到与原始文本对应的样本摘要文本。

可选地,预设生成模型可根据实际需求设定。例如,预设生成模型可以是语言大模型,也可以是其他能够生成文本摘要的模型。本申请对此不做具体限制。

可选地,提示词可根据实际需求设定。例如,提示词可以是“请总结以下内容。”本申请对此不做具体限制。

一种可能的方式中,提示词可以由工作人员编写,并配置在模型训练装置中。

基于此,模型训练装置可以从多方面获取样本摘要文本,从而使样本摘要文本更具有多样化,从而提升模型的训练效果。

基于上述技术方案,本申请提供的模型训练方法,在获取多个原始文本,能够对多个原始文本中每个原始文本执行以下第一操作,得到与多个原始文本一一对应的多个样本摘要文本。

基于此,本申请可以对原始文本执行第一操作,以得到与原始文本之间存在最大公共子序列的样本摘要文本,从而通过原始文本与样本摘要文本对初始生成模型进行训练,能够避免通用技术中样本摘要文本准确度较低的问题,从而提高模型的训练效果。

一种实施例中,结合图3,在通过多个训练数据对初始生成模型进行训练,得到目标生成模型时,如图5所示,本申请实施例提供的模型训练方法,还包括:S501-S506。

S501、模型训练装置对原始文本进行编码处理,得到原始文本对应的特征向量。

其中,特征向量用于表示原始文本的语义特征。

一种可能的方式中,初始训练模型可以配置有编码器。模型训练装置可以通过编码器对原始文本进行编码处理。

具体而言,初始训练模型配置的编码器可以将将原始文本转化为一种特征向量,这种特征向量可以表示原始文本中的语义信息。

示例性的,输入的原始文本可以是“我今天要去游泳”这句话,模型训练装置可以通过编码器对原始文本进行编码处理。经过编码器处理后,这段话中每个词都会被转化为一个特征向量。对于“我”,这个特征向量可能捕捉到它的代词性质。对于“今天”,这个特征向量可能捕捉到时间信息。对于“要”,这个特征向量可能捕捉到它的助动词性质。对于“游泳”,这个特征向量可能捕捉到它的动词性质和与水上活动相关的语义。

S502、模型训练装置根据特征向量,生成至少一个候选结果向量,以及与至少一个候选结果向量一一对应的至少一个预测概率。

其中,候选结果向量用于表示生成器根据特征向量生成的摘要文本的语义特征。

一种可能的方式中,初始训练模型可以配置有解码器。模型训练装置可以根据解码器对特征向量进行解码,以生成至少一个候选结果向量,以及与至少一个候选结果向量一一对应的至少一个预测概率。

具体实现方式可参照下述S601-S604。此处不在赘述。

S503、模型训练装置将预测概率大于其他预测概率的候选结果向量,确定为目标结果向量,并将目标结果向量转化为文本,得到第一摘要文本。

一种可能的方式中,模型训练装置可以将预测概率最大的候选结果向量确定为目标结果向量。

可选地,模型训练装置可以基于束搜索(beam search)确定概率最高的候选结果向量。本申请对此不做具体限制。

一种可能的方式中,模型训练装置可以将目标结果向量转化为文本,得到第一摘要文本。第一摘要文本可以用于表示初始生成模型根据原始文本生成的摘要文本。

S504、模型训练装置计算第一摘要文本与原始文本对应的样本训练文本之间的损失值。

一种可能的方式中,模型训练装置可以基于预设损失函数计算第一摘要文本与原始文本对应的样本训练文本之间的损失值。

可选地,预设损失函数可根据实际需求设定。例如,预设损失函数可以是交叉熵损失函数,也可以是负对数似然函数。本申请对此不做具体限制。

具体而言,模型训练装置可以将训练集的第一测试集输入至初始生成模型进行预测处理,得到与原始文本对应的第一摘要文本。并且,模型训练装置可以确定第一摘要文本与样本摘要文本之间的损失值。

可选地,第一测试集可以是训练集中任意数量的原始文本,以及与任意数量的原始文本一一对应的样本摘要文本。

S505、模型训练装置在损失值大于预设损失阈值的情况下,对初始生成模型的参数进行调整。

可以理解的是,损失值大于预设损失阈值时,可以表明初始生成模型的生成效果未满足预设需求,因此,需要初始生成模型中的参数进行调整。

基于此,当损失值大于预设损失阈值时,模型训练装置可以对初始生成模型中的参数进行调整,并基于训练集中的第二测试集对调整后的初始生成模型进行训练。

可选地,第二测试集也可以是训练集中任意数量的原始文本,以及与任意数量的原始文本一一对应的样本摘要文本。

可选地,预设损失阈值可以由工作人员根据实际需求合理设定。例如,预设损失阈值可以是0.1,也可以是0.15等。本申请对此不做具体限制。

S506、模型训练装置在损失值小于或等于预设损失阈值的情况下,将初始生成模型确定为目标生成模型。

可以理解的是,损失值小于或等于预设损失阈值时,可以表明初始生成模型的生成效果满足预设需求。

一种可能的方式中,在损失值小于或等于预设损失阈值时,模型训练装置将满足预设需求的初始生成模型确定为目标生成模型。

应理解,S505和S506相互对立,即模型训练装置可以在执行S504之后,根据具体情况去执行S505或S506。也就是说,模型训练装置在计算第一摘要文本与原始文本对应的样本训练文本之间的损失值之后,可以在损失值大于预设损失阈值的情况下,对初始生成模型的参数进行调整,或者在损失值小于或等于预设损失阈值的情况下,将初始生成模型确定为目标生成模型。

基于此,本申请能够将原始文本进行编码处理,得到与原始文本对应的特征向量,并将根据特征向量生成的至少一个候选结果向量中,预测概率最高的候选结果向量确定为目标结果向量,然后计算目标结果向量转化得到的第一摘要文本与样本摘要文本之间的损失值,以进一步根据损失值的大小,调整初始生成模型的参数,或者将初始生成模型确定为目标生成模型。避免了通用技术中样本摘要文本准确度较低的问题,可以提高模型的训练效果。

一种实施例中,如图6所示,在本申请实施例提供的模型训练方法,还包括:S601-S604。

S601、模型训练装置根据特征向量和第一向量序列,确定至少一个词向量,以及与至少一个词向量一一对应的至少一个词概率。

其中,第一向量序列可以用于表示已确定的词向量组合得到的向量序列。词概率可以用于表示词向量对应的词语为期望的摘要词的概率。

一种可能的方式中,模型训练装置可以根据特征向量的语义信息和第一向量序列的上下文信息,确定至少一个词向量,以及与至少一个词向量一一对应的至少一个词概率。

示例性的,第一向量序列可以是“今天去”对应的向量序列。模型训练装置可以根据特征向量中的语义信息,第一向量序列的上下文信息,确定的词向量为“游泳”、“游乐场”、“体育馆”对应的词向量,并确定这三个词向量的词概率“游泳”为10%、“游乐场”为80%,“体育馆”为5%。

一种可能的方式中,初始生成模型还可以包括复制(Copy)机制。模型训练装置可以根据特征向量的语义信息和第一向量序列的上下文信息,以及Copy机制,确定至少一个词向量,以及与至少一个词向量一一对应的至少一个词概率。

基于此,本申请提供的模型训练方法,能够通过Copy机制辅助生成至少一个词向量,从而避免模型在训练过程中出现词表外词(Out-of-Vocabulary,OOV)问题。

S602、模型训练装置将至少一个词向量,分别与第一向量序列进行组合,得到与至少一个词向量一一对应的至少一个第二向量序列,并根据第一向量序列的预测概率和至少一个词概率,确定至少一个第二向量序列的预测概率。

一种可能的方式中,模型训练装置可以将至少一个词向量,分别与第一向量序列进行组合,得到与至少一个词向量一一对应的至少一个第二向量序列。

示例性的,第一向量序列可以是“今天去”对应的向量序列。模型训练装置可以根据特征向量中的语义信息,第一向量序列的上下文信息,确定的词向量为“游泳”、“游乐场”、“体育馆”对应的词向量。模型训练装置可以将至少一个词向量,分别与第一向量序列进行组合,得到“今天去游泳”、“今天去游乐场”和“今天去体育馆”三个第二向量序列。

一种可能的方式中,模型训练装置可以配置有预设概率阈值。模型训练装置可以将至少一个词向量中词概率大于或等于预设概率阈值的词向量,与第一向量序列进行组合,得到第二向量序列,并根据第一向量序列的预测概率和至少一个词概率,确定第二向量序列的预测概率。

或者,在所有词概率小于预设概率阈值的情况下,将至少一个词向量中词概率最大的词向量,与第一向量序列进行组合,得到第二向量序列,并根据第一向量序列的预测概率和该词的词向量,确定第二向量序列的预测概率。

可选地,预测概率阈值可根据实际需求设定。例如,预测概率阈值可以是35%,也可以是45%。本申请对此不做具体限制。

基于此,模型训练装置不再将效率较低的词向量与第一向量序列进行组合,能够减少模型的计算量,提升模型的训练效率。

S603、模型训练装置在至少一个第二向量序列不符合预设条件的情况下,根据特征向量和至少一个第二向量序列,确定至少一个词向量。

其中,预设条件可以包括以下至少一项:序列长度大于或等于预设长度阈值、为第p次迭代过程中组合得到的向量序列。p可以为正整数。

可选地,预设长度阈值可根据实际需求设定。例如预设长度阈值可以是50,也可以是70。本申请对此不做具体限制。

可选地,p可以根据实际需求设定。例如,p可以为70,也可以为100。本申请对此不做具体限制。

具体而言,模型训练装置可以在第二向量序列的序列长度小于预设长度阈值,且不为第p次迭代过程中组合得到的向量序列的情况下,重新执行S601和S602。即模型训练装置可以在第二向量序列的序列长度小于预设长度阈值,且不为第p次迭代过程中组合得到的向量序列的情况下,根据特征向量和第二向量序列,确定至少一个词向量。

S604、模型训练装置在至少一个第二向量序列符合预设条件的情况下,将至少一个第二向量序列,确定为候选结果向量。具体而言,模型训练装置可以在第二向量序列的序列长度大于或等于预设长度阈值,或者为第p次迭代过程中组合得到的向量序列的情况下,将第二向量序列,确定为候选结果向量,停止输出词向量。

应理解,S603和S604相互对立,即模型训练装置可以在执行S602之后,根据具体情况去执行S603或S604。也就是说,模型训练装置在将至少一个词向量,分别与第一向量序列进行组合,得到与至少一个词向量一一对应的至少一个第二向量序列,并根据第一向量序列的预测概率和至少一个词概率,确定至少一个第二向量序列的预测概率之后,可以确定第二向量序列的序列长度,以及第二向量为第几次迭代组合成的向量序列。模型训练装置可以在至少一个第二向量序列不符合预设条件的情况下,根据特征向量和至少一个第二向量序列,确定至少一个词向量。模型训练装置可以在至少一个第二向量序列不符合预设条件的情况下,根据特征向量和至少一个第二向量序列,确定至少一个词向量。

基于此,本申请能够根据初始生成模型,逐词生成至少一个候选结果向量,每个候选结果向量可以代表不同的摘要输出,从而可以更好的表达原始文本中的语义特征。因此,本申请根据模型生成的摘要文本更加准确。

一种实施例中,如图7所示,本申请实施例提供的模型训练方法,还包括:S701-S702。

S701、模型训练装置获取待生成文本。

一种可能的方式中,模型训练装置可以配置有存储模块。存储模块中可以存储有工作人员配置的待生成文本。模型训练装置可以从配置的存储模块中读取待生成文本。

可选地,待生成文本可以根据实际需求设定。例如,待生成文本可以是从语音数据中提取的文本数据,也可以是其他类型的文本数据。本申请对此不做具体限制。

一种可能的方式中,在待生成文本是语音数据的情况下,模型训练装置可以从语音数据中提取文本数据。模型训练装置可以对文本数据进行预处理,得到待生成文本。

S702、模型训练装置将待生成文本输入至目标生成模型中进行生成处理,得到与待生成文本对应的目标摘要文本。

一种可能的方式中,模型训练装置可以待生成文本输入至目标生成模型中。目标生成模型可以基于待生成文本,生成与待生成文本对应的目标摘要文本。

具体而言,模型训练装置可以基于目标生成模型对待生成进行编码处理,得到待生成文不能对应的特征向量。模型训练装置可以基于目标生成装置根据特征向量,生成至少一个候选结果向量,以及与至少一个候选结果向量一一对应的至少一个预测概率。模型训练装置可以基于将预测概率大于其他预测概率的候选结果向量,确定为目标结果向量。模型训练装置可以基于将目标结果向量转化为目标摘要文本。

基于此,本申请能够通过训练得到的目标生成模型,生成与待生成文本对应的目标摘要文本。由于,目标生成模型是由多个原始文本和多个样本摘要文本,对初始生成模型进行训练得到,生成的文本摘要更加准确,且能够更完整的体现原始文本中的重点信息。

一种实时例中,如图8所示,本申请实施例提供的模型训练方法,还包括:S801-S802。

S801、模型训练装置对多个原始文本进行掩码处理,得到与多个原始文本一一对应的多个掩码后文本。

一种可能的方式中,掩码处理是一种处理文本数据的方法,通过对原始文本中的某些部分进行遮盖或替换,得到掩码后文本。

S802、模型训练装置根据多个掩码后文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型。

一种可能的方式中,模型训练装置可以通过初始生成模型对掩码后文本中掩码的部分进行预测。

一种可能的方式中,模型训练装置通过多个掩码后文本和多个摘要文本对初始生成模型进行训练,得到目标生成模型的方式,可以与模型训练装置通过多个原始文本和多个摘要文本对初始生成模型进行训练,得到目标生成模型的方式相同,可参照上述S302。此处不再赘述。

基于此,本申请提供的模型训练方法,能够根据掩码后文本对初始生成模型进行训练,从而能够提升模型的预测能力和泛化能力。

一种实施例中,如图9所示,为本申请提供的一种模型训练流程的示意图。

一种可能的方式中,模型训练装置可以获取文本数据。

可选地,文本数据可以包括语音文本,也可以包括其他类型的文本数据。

一种可能的方式中,模型训练装置可以对文本数据进行数据清洗,得到原始文本。

一种可能的方式中,模型训练装置可以对原始文本进行生成处理,得到训练集。

其中,训练集可以包括原始文本,以及与原始文本一一对应的样本摘要文本。

可选地,模型训练装置对原始文本进行生成处理的方法可根据实际需求设定。例如,可以根据语言大模型生成,也可以根据最大公共子序拼接的方法。本申请对此不做具体限制。

一种可能的方式中,模型训练装置可以将训练集输入至初始生成模型,对初始生成模型进行训练,得到目标生成模型。

一种可能的方式中,模型训练装置可以获取待生成文本。模型训练装置可以将待生成文本输入至目标生成模型中进行生成处理,得到与待生成文本对应的目标摘要文本。

示例性的,如图10所示,为本申请实施例提供的一种模型训练装置的结构示意图。模型训练装置用于执行本申请提供的模型训练方法。例如,上述图3、图4、图5、图6、图7和图8中的模型训练方法。模型训练装置可以包括:获取单元901、训练单元902、生成单元903和处理单元904。

一种可能的方式中,获取单元901,用于获取数据集。例如,获取单元901,用于执行图3中的步骤S301。

一种可能的方式中,训练单元902,用于根据获取单元获取的多个原始文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型。例如,训练单元902,用于执行图3中的步骤S302。

一种可能的方式中,获取单元901,具体用于:获取多个原始文本。对多个原始文本中每个原始文本执行以下第一操作,得到与多个原始文本一一对应的多个样本摘要文本。例如,获取单元901,具体用于执行图4中的步骤S401-S402。

一种可能的方式中,训练单元902,具体用于:对原始文本进行编码处理,得到原始文本对应的特征向量。根据特征向量,生成至少一个候选结果向量,以及与至少一个候选结果向量一一对应的至少一个预测概率。将预测概率大于其他预测概率的候选结果向量,确定为目标结果向量,并将目标结果向量转化为文本,得到第一摘要文本。计算第一摘要文本与原始文本对应的样本训练文本之间的损失值。在损失值大于预设损失阈值的情况下,对初始生成模型的参数进行调整。在损失值小于或等于预设损失阈值的情况下,将初始生成模型确定为目标生成模型。例如,训练单元902,具体用于执行图5中的步骤S501-S506。

一种可能的方式中,训练单元902,具体用于:根据特征向量和第一向量序列,确定至少一个词向量,以及与至少一个词向量一一对应的至少一个词概率。第一向量序列用于表示已确定的词向量组合得到的向量序列。将至少一个词向量,分别与第一向量序列进行组合,得到与至少一个词向量一一对应的至少一个第二向量序列,并根据第一向量序列的预测概率和至少一个词概率,确定至少一个第二向量序列的预测概率。在至少一个第二向量序列不符合预设条件的情况下,根据特征向量和至少一个第二向量序列,确定至少一个词向量。在至少一个第二向量序列符合预设条件的情况下,将至少一个第二向量序列,确定为候选结果向量。例如,训练单元902,具体用于执行图6中的步骤S601-S604。

一种可能的方式中,获取单元901,还用于获取待生成文本。例如,获取单元901,还用于执行图7中的步骤S701。

一种可能的方式中,生成单元903,用于将待生成文本输入至目标生成模型中进行生成处理,得到与待生成文本对应的目标摘要文本。例如,生成单元903,用于执行图7中的步骤S702。

一种可能的方式中,处理单元904,用于对多个原始文本进行掩码处理,得到与多个原始文本一一对应的多个掩码后文本。例如,处理单元904,用于执行图8中的步骤S801。

一种可能的方式中,训练单元902,还用于根据多个掩码后文本和多个样本摘要文本,对初始生成模型进行训练,得到目标生成模型。例如,训练单元902,还用于执行图8中的步骤S802。

一种可能的方式中,获取单元901,还用于对多个原始文本中每个原始文本执行以下第二操作,得到与多个原始文本一一对应的多个样本摘要文本。

此外,图10的模型训练装置的技术效果可以参考上述实施例的模型训练方法的技术效果,此处不再赘述。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述方法实施例中的模型训练方法。

本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得该计算机执行上述方法实施例所示的方法流程中的模型训练方法。

其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

由于本申请的实施例中的模型训练装置、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本申请实施例在此不再赘述。

以上,仅为本申请的具体实时方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

相关技术
  • 文本分类模型的训练方法、装置及可读存储介质
  • 机器学习模型训练方法、装置、存储介质和计算机设备
  • MR图像预测模型的训练方法、装置、设备及存储介质
  • CT图像预测模型的训练方法、装置、设备及存储介质
  • 语句输出、模型训练方法、装置、计算机设备及存储介质
  • 基于多工业模型的模型训练方法、装置、设备和存储介质
  • 模型训练方法、模型训练装置、终端设备及存储介质
技术分类

06120116580937