掌桥专利:专业的专利平台
掌桥专利
首页

文本处理模型的训练方法、文本处理方法及相关设备

文献发布时间:2023-06-19 19:38:38


文本处理模型的训练方法、文本处理方法及相关设备

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种文本处理模型的训练方法、文本处理方法及相关设备。

背景技术

数据增强是一种提升模型泛化能力和数据有效性的有效策略。在自然语言处理(Natural Language Processing,NLP)领域,数据增强的目的是在不改变语义的前提下扩充文本数据。

目前在NLP场景下,通常对样本文本中表示实体的词语替换为同义词或者表示相同类型实体的词语,得到对应的增强文本,然后利用样本文本及其对应的增强文本训练相应的文本处理模型。但是,这种方式得到的增强文本较为片面,甚至与样本文本的语义相去甚远,并不能很好地提升文本处理模型的训练效果,进而影响文本处理模型的准确性和泛化能力。

发明内容

本申请实施例的目的提供一种文本处理模型的训练方法、文本处理方法及相关设备,用于解决目前在文本处理模型的训练过程中获得的增强文本片面而导致训练出的文本处理模型的准确性和泛化能力不佳的问题。

为了实现上述目的,本申请实施例采用下述技术方案:

第一方面,本申请实施例提供一种文本处理模型的训练方法,包括:

获取用于训练文本处理模型的第一样本文本和所述第一样本文本对应的任务标签,所述任务标签用于表示所述第一样本文本在目标文本处理任务下对应的目标处理结果;

在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签,所述第一目标词语为表示实体的词语;

对所述第一目标词语进行掩码处理,得到所述第一样本文本对应的掩码文本;

通过目标语言模型对所述第一样本文本对应的掩码文本进行词语预测,得到所述第一目标词语对应的预测词语;

基于所述第一目标词语对应的预测词语,对所述第一样本文本进行数据增强处理,得到所述第一样本文本对应的增强文本;

基于所述第一样本文本、所述增强文本以及所述第一样本文本对应的任务标签,训练所述文本处理模型。

本申请实施例提供的文本处理模型的训练方法,利用目标语言模型的语义理解和词语预测能力,通过对用于训练文本处理模型的第一样本文本中表示实体的第一目标词语进行掩码处理,由目标语言模型基于掩码处理后所的掩码文本(也即目标词语的上下文)对第一目标词语进行语义理解后,对该掩码文本进行词语预测,也即预测第一目标词语所在位置处可能的词语,所得的预测词语更丰富,且能够较好地切合第一目标词语在其所属的第一样本文本中的语义;进一步,基于第一目标词语所在位置对应的预测词语,对第一样本文本进行数据增强处理,得到的增强文本更全面、且能够更好地切合第一样本文本的语义,在第一样本文本的基础上结合这类增强文本训练文本处理模型,有利于提升文本处理模型的训练效果,从而提高文本处理模型的准确性和泛化能力;在此基础上,通过在第一样本文本中第一目标词语所在位置前后分别增加实体标签,可以确保第一目标词语与实体标签相匹配,使得第一目标语言模型能够更加容易学习和掌握第一目标词语的边界信息,有利于目标语言模型更加准确地理解掩码文本的语义而能够更准确地对第一目标词语所在位置进行词语预测,得到的预测词语能够更好地切合第一目标词语在第一样本文本中的语义,从而有利于提高增强文本的全面性及其与第一样本文本的语义的切合度。

第二方面,本申请实施例提供一种文本处理方法,包括:

获取待处理文本;

通过文本处理模型对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;其中,所述文本处理模型为基于第一方面所述的训练方法训练得到。

本申请实施例提供的文本处理方法,由于本申请实施例的文本处理模型的训练方法训练得到的文本处理模型具有较高的准确性和较优的泛化能力,利用该文本处理模型对待处理文本进行处理,有利于提高文本处理准确性。

第三方面,本申请实施例提供一种文本处理模型的训练装置,包括:

获取单元,用于获取用于训练文本处理模型的第一样本文本和所述第一样本文本对应的任务标签,所述任务标签用于表示所述第一样本文本在目标文本处理任务下对应的目标处理结果;

文本处理单元,用于在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签,所述第一目标词语为表示实体的词语;

所述文本处理单元,还用于对所述第一目标词语进行掩码处理,得到所述第一样本文本对应的掩码文本;

预测单元,用于通过目标语言模型对所述第一样本文本对应的掩码文本进行词语预测,得到所述第一目标词语对应的预测词语;

数据增强单元,用于基于所述第一目标词语对应的预测词语,对所述第一样本文本进行数据增强处理,得到所述第一样本文本对应的增强文本;

训练单元,基于所述第一样本文本、所述增强文本以及所述第一样本文本对应的任务标签,训练用于执行目标文本处理任务的文本处理模型,其中,所述任务标签用于表示所述第一样本文本在所述目标文本处理任务下对应的目标处理结果。

第四方面,本申请实施例提供一种文本处理装置,包括:

获取单元,用于获取待处理文本;

任务执行单元,用于通过文本处理模型对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;其中,所述文本处理模型为基于第一方面所述的训练方法训练得到。

第五方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的方法。

第六方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法;或者,使得电子设备能够执行如第二方面所述的方法。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请的一个实施例提供的一种文本处理模型的训练方法的流程示意图;

图2为本申请的一个实施例提供的一种获得增强文本的流程示意图;

图3为本申请的一个实施例提供的一种语言模型的训练方法的流程示意图;

图4为本申请的一个实施例提供的一种语言模型的训练过程示意图;

图5为本申请的一个实施例提供的一种文本处理方法的流程示意图;

图6为本申请的一个实施例提供的一种文本处理模型的训练装置的结构示意图;

图7为本申请的一个实施例提供的一种文本处理装置的结构示意图;

图8为本申请的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。

如前文所述,目前在NLP场景下,通常对样本文本中表示实体的词语替换为同义词或者表示相同类型实体的词语,得到对应的增强文本,然后利用样本文本及其对应的增强文本训练相应的文本处理模型。但是,这种方式得到的增强文本较为片面,甚至与样本文本的语义相去甚远,并不能很好地提升文本处理模型的训练效果,进而影响文本处理模型的准确性和泛化能力。

有鉴于此,本申请实施例旨在提出一种文本处理模型的训练方法,利用目标语言模型的语义理解和词语预测能力,通过对用于训练文本处理模型的样本文本中表示实体的目标词语进行掩码处理,由目标语言模型基于掩码处理后所的掩码文本(也即目标词语的上下文)对第一目标词语进行语义理解后,对该掩码文本进行词语预测,也即预测第一目标词语所在位置处可能的词语,所得的预测词语更丰富,且能够较好地切合目标词语在其所属的样本文本中的语义;进一步,基于目标词语所在位置对应的预测词语,对样本文本进行数据增强处理,得到的增强文本更全面、且能够更好地切合样本文本的语义,在样本文本的基础上结合这类增强文本训练文本处理模型,有利于提升文本处理模型的训练效果,从而提高文本处理模型的准确性和泛化能力;在此基础上,通过在样本文本中目标词语所在位置前后分别增加实体标签,可以确保目标词语与实体标签相匹配,使得目标语言模型能够更加容易学习和掌握目标词语的边界信息,有利于目标语言模型更加准确地理解掩码文本的语义而能够更准确地对目标词语所在位置进行词语预测,得到的预测词语能够更好地切合目标词语在第一样本文本中的语义,从而有利于提高增强文本的全面性及其与样本文本的语义的切合度。

进一步,本申请实施例还提出一种文本处理方法,由于上述文本处理模型的训练方法训练得到的文本处理模型具有较高的准确性和较优的泛化能力,利用该文本处理模型对待处理文本进行处理,有利于提高文本处理准确性。

应理解,本申请实施例提出的文本处理模型的训练方法和文本处理方法,均可以由电子或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。

以下结合附图,详细说明本申请各实施例提供的技术方案。

请参见图1,为本申请的一个实施例提供的一种文本处理模型的训练方法的流程示意图,该方法可以包括如下步骤:

S102,获取用于训练文本处理模型的第一样本文本和第一样本文本对应的任务标签。

其中,第一样本文本对应的任务标签用于表示第一样本文本在目标文本处理任务下对应的目标处理结果。

本申请实施例的文本处理模型可应用于执行多种场景下的目标文本处理任务。目标文本处理任务具体可以例如包括但不限于:文本分类任务、命名实体识别(Named EntityRecognition,NER)任务、文本摘要生成任务、基于文本的阅读理解任务、智能应答任务、文本纠错等。

同一个第一样本文本在不同的目标文本处理任务下对应的任务标签不同。例如,若目标文本处理任务为文本分类任务,那么,第一样本文本对应的任务标签为第一样本文本所属的真实类别;又如,若目标文本处理任务为命名实体识别任务,那么,第一样本文本对应的任务标签为第一样本文本中表示实体的词语所在位置;再如,若目标文本处理任务为文本摘要生成,那么,第一样本文本对应的任务标签为第一样本文本的目标文本摘要,等等。

S104,在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签。

其中,第一目标词语为表示实体的词语。本申请实施例中所谓的实体是概念世界中的基本单元,是客观存在且又能相互区别的事物。实体可以是物理存在的事务,如一个具体的人、一本书、一个地点等,也可以是抽象的事物,比如一门课程、一场考试。具体而言,实体可以例如包括但不限于:人名、地名、时间、组织机构等。示例地,若第一样本文本为“订北京到上海的机票”,那么,其中表示实体的第一目标词语包括“北京”和“上海”。

在第一样本文本中增加的实体标签起到对第一样本文本中的第一目标词语进行标识的作用,以便在第一样本文本中对第一目标词语与其他不表示实体的词语进行区分,有利于目标语言模型学习和掌握第一目标词语的边界信息。

考虑到仅在第一样本文本中第一目标词语所在位置的一侧增加实体标签,容易导致第一目标词语与实体标签不匹配的问题,比如在第一样本文本第一目标词语所在位置之后增加实体标签,容易导致目标语言模型误将第一目标词语与其相邻的前一个或多个字符一起作为实体,或者在第一样本文本中第一目标词语所在位置之前增加实体标签,容易导致目标语言模型误将第一目标词语与其相邻的后一个或多个字符一起作为实体,进而影响词语预测准确性。为此,通过在第一样本文本中第一目标词语所在位置前后分别增加实体标签,可以确保目标词语与实体标签相匹配,使得目标语言模型能够更加容易学习和掌握目标词语的边界信息而学习到更加丰富的上下文信息,进而更加准确地进行词语预测。

实际应用中,每种实体具有对应的实体标签,比如时间对应的实体标签可以为“TIME”,目的地对应的实体标签可以“TO”,出发地对应的实体标签可以为“FROM”等,具体可根据实际需要进行设置,本申请实施例对此不作限定。在此情况下,在第一样本文本增加实体标签时,可基于第一目标词语所表示的实体,在第一目标词语所在位置前后分别增加其所表示的实体对应的实体标签。示例地,若第一样本文本为“订从北京到上海的机票”,那么,在该第一样本文本中增加实体标签之后可以得到“订从北京 上海的机票”。

进一步地,为了使在第一样本文本中增加的实体标签能够更加准确地表示第一目标词语的起始位置,以强化第一目标语言模型对目标词语的边界信息的理解,进而进一步增加目标语言模型对第一目标词语所在位置的上下文的学习和理解,在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签,包括:基于第一目标词语的字符顺序,在第一目标词语中每个字符所在位置前后分别增加每个字符对应的实体标签。

更为具体地,可以针对第一目标词语中的首个字符和非首个字符,分别采用不同的实体标签进行标注。示例地,如图2所示,仍以第一样本文本“订从北京到上海的机票”为例,在该第一样本文本中增加实体标签之后可以得到“订从的机票”,其中,实体标签表示第一目标词语的首个字符且第一目标词语表示的实体为出发地,实体标签表示第一目标词语的非首个字符且第一目标词语表示的实体为出发地,实体标签 表示第一目标词语的首个字符且第一目标词语表示的实体为目的地,实体标签表示第一目标词语的非首个字符且第一目标词语表示的实体为目的地。

本申请实施例中,第一样本文本中的第一目标词语及其对应的实体标签可以采用任意适当的方式确定,具体可根据实际需要进行选择,本申请实施例对此不作限定。

在一种可选的实现方式中,在上述S104之前,第一样本文本中的第一目标词语及其对应的实体标签可通过如下方式确定:将第一样本文本输入训练好的实体识别模型,得到实体识别结果,其中,实体识别结果包括第一样本文本中被识别为表示实体的候选词语和候选词语表示的实体类型;接着,基于候选词语在第一样本文本中的上下文信息,对实体识别结果进行正确性校验;进一步,若实体识别结果通过正确性校验,则将候选词语确定为第一目标词语,以及将候选词语表示的实体类型对应的实体标签,确定为第一目标词语对应的实体标签。

具体地,实体识别模型可以采用本领域常用的各种具有实体识别能力的模型。实体识别模型可以是基于第二样本文本及其对应的实体标注信息进行训练得到,其中,实体标志信息用于表示第二样本文本中表示实体的第二目标词语。

具体地,候选词语在第一样本文本中的上下文信息可以包括第一样本文本中与候选词语相关的词语,比如位于候选词语之前的词语、位于候选词语之后的词语等。

对实体识别结果进行正确性校验包括对候选词语的正确性校验和对候选词语表示的实体类型的正确性校验,其中,对候选词语的正确性校验是指校验候选词语是否为表示实体的词语,对候选词语表示的实体类型的正确性校验是指校验候选词语表示的实体类型是指正确。在对实体识别结果进行校验时,可采用本领域常用的各种语义解析手段,比如预先训练好的具有语义解析功能的语义解析模型等,结合候选词语在第一样本文本中的上下文信息,对候选词语进行语义解析,得到候选词语的语义信息,进一步基于候选词语的语义信息,基于候选词语的语义信息对候选词语进行正确性校验以及对候选词语表示的实体类型进行正确性校验。

示例地,以第一样本文本“订去重庆的机票”为例,若通过实体识别模型识别出的候选词语为“去重庆”及该候选词语表示的实体类型为“目的地”,结合该候选词语在第一样本文本中的上下文信息,对该候选词语进行语义解析,可以确定该候选词语的意图为去某个地点,进而可确定该候选词语表示的实体类型通过正确性校验;接着,可将预先设置的知识库中表示地点的词语与该候选词语进行一致性比对,若在知识库中未检索到与该候选词语一致的词语,则可确定该候选词语未通过正确性校验。

又如,以第一样本文本“订去今天的机票”为例,若通过实体识别模型识别出的候选词语为“今天”及该候选词语表示的实体类型为“目的地”,结合该候选词语在第一样本文本中的上下文信息,对该候选词语进行语义解析,可以确定该候选词语的意图为今天到达,进而可确定该候选词语表示的实体类型通过正确性校验;接着,可将预先设置的知识库中表示时间的词语与该候选词语进行一致性比对,若在知识库中检索到与该候选词语一致的词语“今天”,则确定该候选词语通过正确性校验。

为了避免将表示实体的词语相邻的字符作为一个整体而识别为表示实体的词语,比如将第一样本文本“订去重庆的机票”中的“去重庆”识别为表示实体的词语,在对实体识别结果进行正确性校验之后,若候选词语未通过正确性校验、候选词语表示的实体类型通过正确性校验,则基于候选词语表示的实体类型和上下文信息,对候选词语进行修正,得到第一目标词语,以及将候选词语表示的实体类型对应的实体标签,确定为第一目标词语对应的实体标签。

示例地,仍以第一样本文本“订去重庆的机票”为例,实体识别结果指示候选词语为“去重庆”,且该候选词语表示的实体类型为“目的地”,在该候选词语表示的实体类型通过正确性校验的情况下,通过对该候选词语在第一样本文本中的上下文信息进行语义解析,可以确定该候选词语误将与目的地“重庆”及其前一个表示动作的字符“去”作为一个整体,进而可将该候选词语修正为“重庆”后作为第一目标词语,并将实体类型“目的地”对应的实体标签作为第一目标词语对应的实体标签,进一步在该第一目标词语中每个字符所在位置前后分别增加第一目标词语对应的实体标签,得到“订去 的机票”。

为了避免将第一目标词语实际表示的实体类型误标记为其他实体类型,比如将“订去今天的机票”中的“今天”表示的实体类型“时间”误标记为“出发地”,从而影响后续文本增强结果的准确性,若候选词语通过正确性校验、候选词语表示的实体类型未通过正确性校验,则将候选词语确定为第一目标词语,以及基于候选词语及其在第一样本文本中的上下文信息,对候选词语表示的实体类型进行修正,并将修正后的实体类型对应的实体标签确定为第一目标词语对应的实体标签。

示例地,仍以第一样本文本“订去今天的机票”为例,实体识别结果指示词语“今天”表示的实体类型为“目的地”,但结合该词语及其上下文信息对第一样本文本进行语义解析,可以确定第一样本文本的意图为订今天的机票,进而可确定该词语表示的实体类型应为“时间”,由此可将该词语表示的实体类型修正为“时间”,并将“时间”这一实体类型的实体标签确定为该词语对应的实体标签,进一步在该词语中每个字符所在位置前后分别增加第一目标词语对应的实体标签,得到“订去今 的机票”。

可以理解的是,在利用实体识别模型对第一样本文本进行实体识别得到候选词语及其表示的实体类型之后,基于候选词语在第一样本文本中的上下文信息对实体识别结果进行正确性校验,在候选词语未通过正确性校验的情况下,基于候选词语表示的实体类型和上下文信息,对候选词语进行修正,得到第一目标词语,并将候选词语表示的实体类型对应的实体标签确定为第一目标词语对应的实体标签,可以避免将表示实体的词语相邻的字符作为一个整体而识别为表示实体的词语;在此基础上对第一目标词语进行掩码并在第一目标词语所在位置前后添加对应的实体标签,可以确保目标词语与实体标签相匹配,使得目标语言模型能够更加容易学习和掌握目标词语的边界信息,有利于目标语言模型更加准确地理解掩码文本的语义而能够更准确地对目标词语所在位置进行词语预测,得到的预测词语能够更好地切合目标词语在第一样本文本中的语义,从而有利于提高增强文本的全面性及其与样本文本的语义的切合度。

此外,在候选词语表示的实体类型未通过正确性校验的情况下,将候选词语确定为第一目标词语,以及基于候选词语及其在第一样本文本中的上下文信息,对候选词语表示的实体类型进行修正,并将修正后的实体类型对应的实体标签确定为第一目标词语对应的实体标签,可以避免将第一目标词语实际表示的实体类型误标记为其他实体类型,同样可以确保目标词语与实体标签相匹配,使得目标语言模型能够更加容易学习和掌握目标词语的边界信息,有利于目标语言模型更加准确地理解掩码文本的语义而能够更准确地对目标词语所在位置进行词语预测,得到的预测词语能够更好地切合目标词语在第一样本文本中的语义,从而有利于提高增强文本的全面性及其与样本文本的语义的切合度。

S106,对第一目标词语进行掩码处理,得到第一样本文本对应的掩码文本。

在对第一样本文本增加实体标签之后,可以对其第一目标词语进行掩码处理。本申请实施例中,可通过任意适当的方式对第一目标词语进行掩码处理。

可选地,可将第一目标词语替换为预设掩码字符,得到第一样本文本对应的掩码文本。其中,预设掩码字符可以根据实际需要进行设置,比如设置为[MASK]以便明显区别于第一样本文本中的字符,本申请实施例对预设掩码字符的形式不作限定。

实际应用中,可以将第一目标词语整体替换为一个预设掩码字符,或者也可以将第一目标词语中的每个字符均替换为一个预设掩码字符。示例地,如图2所示,对应增加了实体标签的第一样本字符“订从 上的机票”,可将第一目标词语的每个字符均替换为预设掩码字符[MASK],由此得到的掩码文本为“订从[MASK][MASK][MASK][MASK]的机票”。

可以理解的是,通过将第一目标词语替换为预设掩码字符,实现简单,有利于提高文本处理模型的训练效率。

本申请实施例在此示出了对第一目标词语进行掩码处理的部分具体实现方式。当然,应理解,对第一目标词语进行掩码处理也可以采用本领域常用的各种掩码技术手段实现,本申请实施例对此不作限定。

需要说明的是,上述S104和S106之间可以同时执行,也可以先后执行,比如先在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签,再对增加实体标签后的第一样本文本中的第一目标词语进行掩码处理,得到第一样本文本对应的掩码文本;又如,先对第一样本文本中的第一目标词语进行掩码处理,再对掩码处理后的第一样本文本中第一目标词语所在位置前后分别增加实体标签,得到第一样本文本对应的掩码文本。

S108,通过目标语言模型对第一样本文本对应的掩码文本进行词语预测,得到第一目标词语对应的预测词语。

本申请实施例中的目标语言模型具有语义理解和词语预测功能,通过将第一样本文本对应的掩码文本作为目标语言模型的输入,使得目标目标语言模型可以利用自身的语义理解能力,基于掩码文本中的实体标签从掩码文本中学习和理解第一目标词语的上下文信息,理解掩码文本的整个体语义,进而对掩码文本进行词语预测,得到第一目标词语对应的预测词语。

实际应用中,目标语言模型可以采用任意适当的、具有语义理解和词语预测功能的模型,例如包括但不限于:长短期记忆网络(Long Short-Term Memory,LSTM)、深层双向语言表示(Bidirectional Encoder Representation from Transformers,BERT)模型、ERNIE 模型等,具体可根据实际需要进行选择,本申请实施例对此不作限定。优选地,目标语言模型可以采用BERT模型,强调了不再像以往一样采用传统的单向语言模型或者将两个单向语言模型进行浅层拼接的方法进行语义理解和词语预测,而是采用新的掩码语言模型(Masked Language Model,MLM),相比于LSTM具有更强的特征提取能力,进而具有更准确的语义理解及词语预测能力。

目标语言模型可以是基于第二样本文本进行训练得到。目标语言模型的训练过程将在后文进行详细说明。

S110,基于第一目标词语对应的预测词语,对第一样本文本进行数据增强处理,得到第一样本文本对应的增强文本。

本申请实施例中,在得到第一目标词语对应的预测词语之后,可通过各种任意适当的方式对第一样本文本进行数据增强处理。

在一种可选的实现方式中,上述S110具体可实现为:将第一样本文本中的第一目标词语替换为第一目标词语对应的预测词语,得到第一样本文本对应的增强文本。

示例地,如图2所示,将掩码文本“订从[MASK][MASK][MASK][MASK]的机票”输入目标语言模型后,可得到第一目标词语“北京”对应的词语为“重庆”,第二目标词语“上海”对应的词语为“杭州”;进一步,将“北京”替换为“重庆”,并将“上海”替换为“杭州”,由此得到的增强文本为“订从的机票”。

需要说明的是,第一目标词语对应的预测词语的数量还可以为多个。在此情况下,对于第一目标词语对应的每个预测词语,使用该预测词语替换第一目标词语,由此可得到第一样本文本对应的多个增强文本。

本申请实施例在此示出了上述S110的一种具体实现方式。当然,应理解,上述S110也可以采用本领域常用的各种掩码技术手段实现,本申请实施例对此不作限定。

S112,基于第一样本文本、增强文本以及第一样本文本对应的任务标签,训练文本处理模型。

通过对第一样本文本进行数据增强处理得到对应的增强文本,有利于扩充训练文本处理模型所使用的样本数量和丰富度;由于第一样本文本对应的任务标签表示第一样本文本在目标文本处理任务下对应的目标处理结果,利用第一样本文本及其对应的增强文本和任务标签训练文本处理模型,不仅使得文本处理模型具有执行目标文本处理任务的能力,还有利于提升文本处理模型的训练效果,提高文本处理模型的准确性和泛化能力。

在一种可选的实现方式中,为进一步提高训练出的文本处理模型的准确性,上述S112 具体可以实现为:对文本处理模型进行多轮如下迭代训练直至满足第一预设训练停止条件:步骤A1,通过文本处理模型对第一样本文本及其对应的增强文本分别执行目标文本处理任务,得到第一样本文本及其增强文本各自对应的文本处理结果;步骤A2,基于第一样本文本对应的文本处理结果、增强文本对应的文本处理结果以及第一样本文本对应的任务标签,确定文本处理模型的处理损失;步骤A3,基于处理损失,调整文本处理模型的模型参数。

更为具体地,在上述步骤A3中,可采用方向传播算法,基于处理损失调整处理模型的模型参数。

其中,文本处理模型的模型参数可以包括文本处理模型中网络层的节点(如神经元) 的数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。

文本处理模型的处理损失可用于表示第一样本文本对应的文本处理结果与任务标签表示的目标处理结果之间的差异。实际应用中,由于第一样本文本与其对应的增强文本具有相似的语义,因而可将第一样本文本对应的任务标签作为增强文本对应的任务标签,基于第一样本文本对应的文本处理结果及其对应的任务标签、增强文本对应的文本处理结果及其对应的任务标签以及预设损失函数,确定文本处理模型的处理损失。其中,预设损失函数可以根据实际需要进行设置,例如交叉熵损失函数等,本申请实施例对此不作限定。

第一预设训练停止条件可以根据实际需要进行设置,本申请实施例对此不作限定。示例地,第一预设训练停止条件可以包括文本处理模型的模型损失小于预设损失阈值或者迭代训练次数达到预设次数等。

本申请实施例在此示出了上述S112的一种具体实现方式。当然,应理解,上述S112也可以采用其他的方式实现,本申请实施例对此不作限定。

需要说明的是,用于训练文本处理模型的第一样本文本的数量可以为多个,针对每一个第一样本文本,均可以通过上述S102至S110获得该第一样本文本对应的增强文本。相应地,在上述S112中,则基于所有第一样本文本、每个第一样本文本对应的增强文本以及每个第一样本文本对应的任务标签,训练文本处理模型。

另外,本申请实施例中的文本处理模型可以具有任意适当的架构,具体可根据实际需要进行选择,本申请实施例对此不作限定。

可选地,文本处理模型可以包括特征表示网络和任务处理网络,在上述S112中,特征表示网络用于对第一样本文本及其对应的增强文本分别进行特征提取并对提取的特征进行向量表示,得到第一样本文本及其对应的增强文本各自的表示向量,得到的表示向量即可准确表达对应的文本的语义,从而为下游的文本处理任务提供有力的数据支撑。

任务处理网络为与特征表示网络匹配的、用于执行下游的目标文本处理任务的网络。在上述S112中,任务处理网络用于基于第一样本文本的表示向量对第一样本文本执行目标文本处理任务,得到第一样本文本对应的文本处理结果,以及基于增强文本的表示向量对增强文本执行目标文本处理任务,得到增强文本对应的文本处理结果。

任务处理网络根据目标文本处理任务的不同而不同。例如,若目标文本处理任务为文本分类任务,那么,任务处理网络为具有文本分类能力的文本分类网络;若目标文本处理任务为文本摘要生成任务,那么,任务处理网络为具有文本摘要生成能力的文本生成模型,等等。

本申请的一个或多个实施例提供的文本处理模型的训练方法,利用目标语言模型的语义理解和词语预测能力,通过对用于训练文本处理模型的第一样本文本中表示实体的第一目标词语进行掩码处理,由目标语言模型基于掩码处理后所的掩码文本(也即目标词语的上下文)对第一目标词语进行语义理解后,对该掩码文本进行词语预测,也即预测第一目标词语所在位置处可能的词语,所得的预测词语更丰富,且能够较好地切合第一目标词语在其所属的第一样本文本中的语义;进一步,基于第一目标词语对应的预测词语,对第一样本文本进行数据增强处理,得到的增强文本更全面、且能够更好地切合第一样本文本的语义,在第一样本文本的基础上结合这类增强文本训练文本处理模型,有利于提升文本处理模型的训练效果,从而提高文本处理模型的准确性和泛化能力;在此基础上,通过在第一样本文本中第一目标词语所在位置前后分别增加实体标签,可以确保第一目标词语与实体标签相匹配,使得第一目标语言模型能够更加容易学习和掌握第一目标词语的边界信息,有利于目标语言模型更加准确地理解掩码文本的语义而能够更准确地对第一目标词语所在位置进行词语预测,得到的预测词语能够更好地切合第一目标词语在第一样本文本中的语义,从而有利于提高增强文本的全面性及其与第一样本文本的语义的切合度。

本申请实施例还提出一种语言模型的训练方法,该方法用于训练出具有较优的语义理解和词语预测能力的目标语言模型,以用于上述实施例的文本处理模型的训练方法。请参见图3,为本申请的一个实施例提供的一种语言模型的训练方法的流程示意图,该方法包括如下步骤:

S302,获取样本集。

其中,样本集包括多个第二样本文本。

S304,在第二样本文本i包含的第二目标词语所在位置前后分别增加实体标签。

其中,第二目标词语为表示实体的词语。第二样本文本i为样本集中的任一个第二样本文本,i为正整数。

在一种可选的实现方式中,上述S304具体可实现为:对于每个第二样本而言,基于该第二样本文本包含的第二目标词语的字符顺序,在该第二样本文本包含的第二目标词语中每个字符所在位置前后分别增加每个字符对应的实体标签。

需要说明的是,上述S304的具体实现方式与上述文本处理模型的训练方法中的步骤 S104的具体实现方式类似,具体可参见前文对S104的详细说明,不再赘述。

S306,对第二目标词语进行掩码处理,得到第二样本文本i对应的掩码文本。

需要说明的是,上述S306的具体实现方式与上述文本处理模型的训练方法中的步骤 S106的具体实现方式类似,具体可参见前文对S106的详细说明,不再赘述。

可以理解的是,通过在第二样本文本包含的第二目标词语中每个字符所在位置前后分别增加每个字符对应的实体标签,可以更加准确地表示第二目标词语的起始位置,以强化语言模型对第二目标词语的边界信息的理解,进而进一步增加语言模型对第二目标词语所在位置的上下文的学习和理解,有利于提高语言模型的预测准确性。

S308,通过待训练的语言模型,对第二样本文本i对应的掩码文本进行词语预测,得到第二目标词语对应的预测词语。

上述S308的具体实现方式与上述文本处理模型的训练方法中的步骤S108的具体实现方式类似,具体可参见前文对S108的详细说明,不再赘述。

S310,基于样本集中每个第二样本文本包含的第二目标词语以及第二目标词语对应的预测词语,调整待训练的语言模型的模型参数,以得到目标语言模型。

其中,语言模型的模型参数可以包括但不限于语言模型中各网络层的节点(如神经元)的数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。

在一种可选的实现方式中,对于每个第二样本文本而言,可将该第二样本文本中的第二目标词语替换为该第二目标词语所在位置对应的预测词语,得到该第二样本文本对应的增强文本;进一步,基于预设的损失函数、样本集中每个第二样本文本及其对应的增强文本进行相似度,确定语言模型的预测损失,并基于语言模型的预测损失,调整语言模型的模型参数,例如通过反向传播算法,基于语言模型的预测损失,调整语言模型的模型参数。其中,语言模型的预测损失用于表示样本集中的第二样本文本与其对应的增强文本之间的差异。

在另一种可选的实现方式中,考虑到第二样本文本包含的第二目标词语以及第二目标词语所在位置对应的预测词语之间的差异,能够反映出语言模型的预测能力,基于此,如图4所示,上述S310具体可实现为:基于第二样本文本i包含的第二目标词语以及第二目标词语对应的预测词语,确定第二样本文本i对应的预测条件概率,以及基于样本集中每个第二样本对应的预测条件概率,调整待训练的语言模型的模型参数。

其中,对于每个第二样本文本而言,该第二样本文本对应的预测条件概率用于表示该第二样本文本对应的增强文本与该第二样本文本相同的概率,也就是说,该第二样本文本对应的预测条件概率能够在一定程度上反映出该第二样本文本与其对应的增强文本之间的相似度;该第二样本文本对应的增强文本为将该第二样本文本包含的第二目标词语替换为第二目标词语所在位置对应的预测词语之后所得的文本。

更为具体地,在确定第二样本文本i对应的预测条件概率时,可利用本领域常用的各种适当的条件概率计算公式,基于第二样本文本i包含的第二目标词语k以及第二目标词语k对应的预测词语,确定第二目标词语k对应的预测条件概率,其中,第二目标词语k 为第二样本文本i包含的任一个第二目标词语,k为正整数,第二目标词语k对应的预测条件概率用于表示第二目标词语k所在位置对应的预测词语与第二目标词语k相同的概率;进一步,基于第二样本文本i包含的每个第二目标词语对应的预测条件概率,确定第二样本文本i对应的预测条件概率。

示例地,若第二样本文本i包含的第二目标词语的数量为一个,则将该第二目标词语对应的预测条件概率,确定为第二样本文本i对应的预测条件概率;若第二样本文本i包含的第二目标词语的数量为多个,则对第二样本文本i包含的多个第二目标词语分别对应的预测条件概率进行加权求和,得到第二样本文本i对应的预测条件概率,也即如下公式(1)所示:

logp

其中,logp

更为具体地,对于语言模型的模型参数的调整,可以利用反向传播算法,基于样本集中每个第二样本文本对应的预测条件概率,调整语言模型的模型参数。

可以理解的是,由于第二样本文本对应的预测条件概率能够在一定程度上反映第二样本文本与其对应的增强文本之间的相似度,通过计算样本集中每个第二样本文本对应的预测条件概率并基于此调整待训练的语言模型的模型参数,不仅有利于提高语言模型对第二样本文本的语义及第二样本文本中的第二目标词语的语义的学习和理解能力,尽可能地对被掩码后的第二样本文本进行重构,从而获得具有高预测准确性的目标语言模型,还可以减少计算开销,提高语言模型的训练效率。

本申请实施例在此示出了上述S310的部分具体实现方式。当然,应理解,上述S310也可以采用其他的方式实现,本申请实施例对此不作限定。

需要说明的是,上述过程仅为对语言模型的一次训练迭代过程,实际应用中,可能需要对语言模型进行多次迭代训练,因而可重复执行上述S302至S310多次,直至满足第二预设训练停止条件,由此完成对语言模型的训练,得到目标语言模型。其中,第二预设训练停止条件可以包括语言模型的预测损失小于预设损失阈值,或者第二样本文本对应的预测条件概率大于预设概率阈值,或者迭代训练次数达到预设次数等,具体可根据实际需要进行设置,本申请实施例对此不作限定。

本申请的一个或多个实施例提供的语言模型的训练方法,利用待训练的语言模型的语义理解和词语预测能力,通过对用于训练的第二样本文本中表示实体的第二目标词语进行掩码处理,由语言模型基于掩码处理后所的掩码文本(也即第二目标词语的上下文)进行语义理解后对第二目标词语所在位置进行词语预测,并基于第二样本文本包含的第二目标词语及第二目标词语所在位置对应的预测词语,调整语言模型的模型参数,有利于提高语言模型的语义理解和词语预测能力;在此基础上,通过在第二样本文本中第二目标词语所在位置前后分别增加实体标签,可以确保第二目标词语与实体标签相匹配,使得语言模型能够更加容易学习和掌握第二目标词语的边界信息,有利于提高语言模型的训练效果,得到的目标语言模型能够更加准确地理解掩码文本的语义,进而能够更准确地对目标词语所在位置进行词语预测。

本申请实施例还提出一种文本处理方法,能够基于上述文本处理模型的训练方法训练得到的文本处理模型,对待处理文本执行相应的文本处理任务。请参见图5,为本申请的一个实施例提供的一种文本处理方法的流程示意图,该方法可以包括如下步骤:

S502,获取待处理文本。

S504,通过文本处理模型对待处理文本执行目标文本处理任务,得到待处理文本对应的文本处理结果。

其中,目标文本处理任务可以例如包括但不限于如下任务中的至少一种:文本分类任务、命名实体识别任务、文本摘要生成任务、基于文本的阅读理解任务、智能应答任务、意图识别任务等。

待处理文本对应的文本处理结果根据目标文本处理任务的不同而不同。例如,若目标文本处理任务为文本分类任务,那么,待处理文本对应的文本处理结果为待处理文本的预测类别;又如,若目标文本处理任务为命名实体识别任务,那么,待处理文本对应的文本处理结果为待处理文本中表示实体的词语;再如,若目标文本处理任务为意图识别任务,那么,待处理文本对应的文本处理结果为待处理文本表达的意图,等等。

本申请实施例提供的文本处理方法,由于本申请实施例的文本处理模型的训练方法训练得到的文本处理模型具有较高的准确性和较优的泛化能力,利用该文本处理模型对待处理文本进行处理,有利于提高文本处理准确性。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

此外,与上述图1所示的文本处理模型的训练方法相对应地,本申请实施例还提供一种文本处理模型的训练装置。请参见图6,为本申请的一个实施例提供的一种文本处理模型的训练装置600的结构示意图,该装置600可以包括:

获取单元610,用于获取用于训练文本处理模型的第一样本文本和所述第一样本文本对应的任务标签,所述任务标签用于表示所述第一样本文本在目标文本处理任务下对应的目标处理结果;

文本处理单元620,用于在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签,所述第一目标词语为表示实体的词语;

所述文本处理单元620,还用于对所述第一目标词语进行掩码处理,得到所述第一样本文本对应的掩码文本;

预测单元630,用于通过目标语言模型对所述第一样本文本对应的掩码文本进行词语预测,得到所述第一目标词语对应的预测词语;

数据增强单元640,用于基于所述第一目标词语对应的预测词语,对所述第一样本文本进行数据增强处理,得到所述第一样本文本对应的增强文本;

训练单元650,基于所述第一样本文本、所述增强文本以及所述第一样本文本对应的任务标签,训练用于执行目标文本处理任务的文本处理模型,其中,所述任务标签用于表示所述第一样本文本在所述目标文本处理任务下对应的目标处理结果。

可选地,所述文本处理单元具体用于:

基于所述第一目标词语的字符顺序,在所述第一目标词语中每个字符所在位置前后分别增加该字符对应的实体标签。

可选地,所述数据增强单元具体用于:

将所述第一样本文本中的所述第一目标词语替换为所述第一目标词语对应的预测词语,得到所述第一样本文本对应的增强文本。

可选地,所述装置600还包括:

实体识别单元,用于在所述文本处理单元在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签之前,将所述第一样本文本输入训练好的实体识别模型,得到实体识别结果,其中,所述实体识别结果包括所述第一样本文本中被识别为表示实体的候选词语和所述候选词语表示的实体类型;

校验单元,用于基于所述候选词语在所述第一样本文本中的上下文信息,对所述实体识别结果进行正确性校验;

确定单元,用于若所述实体识别结果通过正确性校验,则将所述候选词语确定为所述第一目标词语,以及将所述候选词语表示的实体类型对应的实体标签,确定为所述第一目标词语对应的实体标签。

可选地,所述确定单元,还用于:

在所述校验单元基于所述候选词语在所述第一样本文本中的上下文信息,对所述实体识别结果进行正确性校验之后,若所述候选词语通过正确性校验、所述候选词语表示的实体类型未通过正确性校验,则将所述候选词语确定为所述第一目标词语,以及基于所述候选词语和所述上下文信息,对所述候选词语表示的实体类型进行修正,并将修正后的实体类型对应的实体标签确定为所述第一目标词语对应的实体标签;

若所述候选词语未通过正确性校验、所述候选词语表示的实体类型通过正确性校验,则基于所述候选实体表示的实体类型和所述上下文信息,对所述候选词语进行修正,得到所述第一目标词语,以及将所述候选词语表示的实体类型对应的实体标签,确定为所述第一目标词语对应的实体标签。

可选地,所述获取单元,还用于获取样本集,所述样本集包括多个第二样本文本;

所述文本处理单元,还用于在第二样本文本i包含的第二目标词语所在位置前后分别增加实体标签,所述第二样本文本i为所述多个第二样本文本中的任一个第二样本文本,所述第二目标词语为表示实体的词语;

所述文本处理单元,还用于对所述第二目标词语进行掩码处理,得到所述第二样本文本i对应的掩码文本;

所述预测单元,还用于通过待训练的语言模型,对所述第二样本文本i对应的掩码文本进行词语预测,得到所述第二目标词语对应的预测词语;

所述训练单元,还用于在通过目标语言模型对所述掩码文本中所述第一目标词语进行词语预测之前,基于所述样本集中每个第二样本文本包含的第二目标词语以及所述第二目标词语对应的预测词语,调整所述待训练的语言模型的模型参数,以得到所述目标语言模型。

可选地,所述文本处理单元,在第二样本文本i包含的第二目标词语所在位置前后分别增加实体标签,包括:

基于所述第二样本文本i包含的第二目标词语的字符顺序,在所述第二样本文本i包含的第二目标词语中每个字符所在位置前后分别增加该字符对应的实体标签。

可选地,所述训练单元,基于所述样本集中每个第二样本文本包含的第二目标词语以及所述第二目标词语对应的预测词语,调整所述待训练的语言模型的模型参数,包括:

基于所述第二样本文本i包含的第二目标词语以及所述第二目标词语对应的预测词语,确定所述第二样本文本i对应的预测条件概率;其中,所述第二样本文本i对应的预测条件概率用于表示所述第二样本文本i对应的增强文本与所述第二样本文本i相同的概率,所述第二样本文本i对应的增强文本为将所述第二样本文本i包含的第二目标词语替换为所述第二目标词语对应的预测词语之后所得的文本;

基于所述样本集中每个第二样本文本对应的预测条件概率,调整所述待训练的语言模型的模型参数。

可选地,所述训练单元,基于所述第二样本文本i包含的第二目标词语以及所述第二目标词语对应的预测词语,确定所述第二样本文本i对应的预测条件概率,包括:

若所述第二样本文本i包含多个第二目标词语,则基于所述第二样本文本i包含的第二目标词语k以及所述第二目标词语k对应的预测词语,确定所述第二目标词语k对应的预测条件概率;其中,所述第二目标词语k为所述多个第二目标词语中的任一个第二目标词语,所述第二目标词语k对应的预测条件概率用于表示所述第二目标词语k对应的预测词语与所述第二目标词语k相同的概率;

对所述第二样本文本i包含多个第二目标词语分别对应的预测条件概率进行加权求和,得到所述第二样本文本i对应的预测条件概率。

可选地,所述训练单元,基于所述第一样本文本、所述增强文本以及所述第一样本文本对应的任务标签,训练所述文本处理模型,包括:

对文本处理模型进行多轮如下迭代训练直至满足第一预设训练停止条件:

通过所述文本处理模型,对所述第一样本文本和所述增强文本分别执行所述目标文本处理任务,得到所述第一样本文本和所述增强文本分别对应的文本处理结果;

基于所述第一样本文本对应的文本处理结果、所述增强文本对应的文本处理结果以及所述第一样本文本对应的任务标签,确定所述文本处理模型的处理损失;

基于所述处理损失,调整所述文本处理模型的模型参数。

显然,本申请实施例提供的文本处理模型的训练装置能够作为图1所示的文本处理模型的训练方法的执行主体,例如图1所示的文本处理模型的训练方法中,步骤S102可由图6所示的文本处理模型的训练装置中的获取单元执行,步骤S104和S106可由图6所示的文本处理模型的训练装置中的文本处理单元执行,步骤S108可由图6所示的文本处理模型的训练装置中的预测单元执行,步骤S110可由图6所示的文本处理模型的训练装置中的数据增强单元执行;步骤S112可由图6所示的文本处理模型的训练装置中的训练单元执行。

根据本申请的另一个实施例,图6所示的文本处理模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,文本处理模型的训练装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。

根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的文本处理模型的训练装置,以及来实现本申请实施例的文本处理模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。

此外,与上述图5所示的文本处理方法相对应地,本申请实施例还提供一种文本处理装置。请参考图7,为本申请的一个实施例提供的一种文本处理装置的结构示意图,该装置700可以包括:

获取单元710,用于获取待处理文本;

任务执行单元720,用于通过文本处理模型对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;其中,所述文本处理模型为基于本申请实施例所述的文本处理模型的训练方法训练得到。

显然,本申请实施例提供的文本处理装置能够作为图5所示的文本处理方法的执行主体,例如图5所示的文本处理方法中,步骤S502可由图7所示的文本处理装置中的获取单元执行,步骤S504可由图7所示的文本处理装置中的任务执行单元执行。

根据本申请的另一个实施例,图7所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,文本处理装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。

根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的文本处理装置,以及来实现本申请实施例的文本处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。

图8是本申请的一个实施例电子设备的结构示意图。请参考图8,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是 ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本处理模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

获取用于训练文本处理模型的第一样本文本和所述第一样本文本对应的任务标签,所述任务标签用于表示所述第一样本文本在目标文本处理任务下对应的目标处理结果;

在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签,所述第一目标词语为表示实体的词语;

对所述第一目标词语进行掩码处理,得到所述第一样本文本对应的掩码文本;

通过目标语言模型对所述第一样本文本对应的掩码文本进行词语预测,得到所述第一目标词语对应的预测词语;

基于所述第一目标词语对应的预测词语,对所述第一样本文本进行数据增强处理,得到所述第一样本文本对应的增强文本;

基于所述第一样本文本、所述增强文本以及所述第一样本文本对应的任务标签,训练所述文本处理模型。

或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

获取待处理文本;

通过文本处理模型对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;其中,所述文本处理模型为基于本申请实施例所述的文本处理模型的训练方法训练得到。

上述如本申请图1所示实施例揭示的文本处理模型的训练装置执行的方法或者上述如本申请图5所示实施例揭示的文本处理装置执行的方法均可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器 (Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法,并实现文本处理模型的训练装置在图1所示实施例的功能,或者该电子设备还可执行图5的方法,并实现文本处理装置在图5所示实施例的功能,本申请实施例在此不再赘述。

当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:

获取用于训练文本处理模型的第一样本文本和所述第一样本文本对应的任务标签,所述任务标签用于表示所述第一样本文本在目标文本处理任务下对应的目标处理结果;

在第一样本文本包含的第一目标词语所在位置前后分别增加实体标签,所述第一目标词语为表示实体的词语;

对所述第一目标词语进行掩码处理,得到所述第一样本文本对应的掩码文本;

通过目标语言模型对所述第一样本文本对应的掩码文本进行词语预测,得到所述第一目标词语对应的预测词语;

基于所述第一目标词语对应的预测词语,对所述第一样本文本进行数据增强处理,得到所述第一样本文本对应的增强文本;

基于所述第一样本文本、所述增强文本以及所述第一样本文本对应的任务标签,训练所述文本处理模型。

或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图5所示实施例的方法,并具体用于执行以下操作:

获取待处理文本;

通过文本处理模型对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;其中,所述文本处理模型为基于本申请实施例所述的文本处理模型的训练方法训练得到。

总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

相关技术
  • 一种文本处理方法、装置以及相关设备
  • 一种文本处理方法、系统和一种用于文本处理的装置
  • 一种文本处理方法、系统和一种用于文本处理的装置
  • 文本处理方法、装置、设备、计算机设备和存储介质
  • 文本处理方法、装置、计算机可读存储介质和计算机设备
  • 文本处理模型的训练方法、文本处理方法及相关设备
  • 文本处理模型的训练方法、文本处理方法及相关设备
技术分类

06120115979456