掌桥专利:专业的专利平台
掌桥专利
首页

文本处理方法及装置

文献发布时间:2023-06-19 18:37:28


文本处理方法及装置

技术领域

本申请涉及人工智能技术领域,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。

背景技术

人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展,各种深度学习框架不断的涌现;TensorFlow、PyTorch等通用型深度学习框架,应用于自然语言处理、计算机视觉、语音处理等领域,以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。跨语言自动摘要技术的研究也成为了当下重要的方向,自动摘要是解决信息爆炸问题的关键技术,而跨语言自动摘要技术可以让用户快速浏览多国文献,实现用户可以快速了解不同国家和地区的信息。现有技术中,在实现跨语言自动摘要生成时,大多数是使用pipeline形式,即文本-翻译-摘要,或文本-摘要-翻译,或者使用强化学习模型等。但是上述方案不仅存在较大的误差,而且很少考虑多语言之间的信息交互对跨语言摘要技术带来的影响。因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。

根据本申请实施例的第一方面,提供了一种文本处理方法,包括:

获取对应源语种的待处理文本;

构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;

对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;

通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。

根据本申请实施例的第二方面,提供了一种文本处理装置,包括:

获取模块,被配置为获取对应源语种的待处理文本;

构建模块,被配置为构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;

融合模块,被配置为对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;

解码模块,被配置为通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。

根据本申请实施例的第三方面,提供了一种计算设备,包括:

存储器和处理器;

所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。

根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。

根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。

本申请提供的文本处理方法,为了能够提高跨语言的文本处理精准度,可以在获取到对应源语种的待处理文本后,构建待处理文本对应的源语种编码向量,之后从编码向量维度,将源语种编码向量转换为目标语种编码向量,从而可以有效的解决跨语言的向量映射问题;之后再对源语种编码向量和目标语种编码向量融合为融合向量,最后通过融合向量进行解码处理,即可得到对应目标语种的目标文本;实现通过在编码阶段进行转换的方式完成跨语言的映射,可以有效的保证文本处理精准度。

附图说明

图1是本申请一实施例提供的一种文本处理方法的结构示意图;

图2是本申请一实施例提供的一种文本处理方法的流程图;

图3是本申请一实施例提供的一种应用于摘要生成场景中的文本处理方法的处理流程图;

图4是本申请一实施例提供的一种文本处理装置的结构示意图;

图5是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。

首先,对本发明一个或多个实施例涉及的名词术语进行解释。

跨语言自动摘要:给定一种语言的文本文档(如中文),通过算法模型得到另一种语言的(如英文)摘要文本。

跨语言自动摘要pipeline:先将A语言文本翻译成B语言文本,然后在B语言文本上进行摘要;或者,先在A语言文本上进行摘要,然后将摘要好的文本翻译成B语言文本。

源语种:是指待处理文本默认对应的语种。

目标语种:是指不同于源语种的另一种语种,且目标语种和源语种对应的内容可以相互翻译。

待处理文本:是指需要提取摘要的文本,包括但不限于新闻、文章、小说等。

目标文本:是指通过对待处理文本进行摘要提取后,对应目标语种的摘要。

在本申请中,提供了一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。

实际应用中,随着互联网技术的发展,信息的爆炸增长已成为一种常态,进而促使互联网上海量数据包含了大量的冗余和无效信息,用户如何快速有效地从中挑选出自身需要的信息变得愈发重要。尤其是在信息互通性更强的当下,用户所需求的信息不仅限于母语,可能还需要其他语言的信息才能够满足需求。因此,在人工智能领域中跨语言技术的研究也是当下重要的方向。自动摘要是解决信息爆炸问题的关键技术,跨语言自动摘要技术可以让人们快速浏览多国文献,帮助用户快速的了解不同语言和地区的信息。同时,跨语言自动摘要方法研究对于跨境电商(辅助用户进行决策)、舆情分析(帮助分析人员过滤冗余信息)和内容推荐(为用户推荐外语新闻)等应用场景具有重要意义。因此,跨语言自动摘要技术具有重要的研究价值和应用价值。

现有技术中,为支持跨语言自动摘要技术的实现,大多数基于跨语言自动摘要pipeline形式实现,即文本-翻译-摘要,或文本-摘要-翻译。或者通过强化学习模型实现,即向模型输入文本,跨语言生成摘要;再或者通过构建词典实现,即每次生成一个概率最大的词,通过将词拼接生成摘要。但是,无论是pipeline形式,还是强化学习模型,再或者是构建词典,虽然能够实现跨语言的摘要生成,但是存在着误差传播大、不具备利用一种语言的文本直接生成目标语言摘要的能力,以及欠缺考虑多语言之间的信息交互对跨语言摘要技术带来的影响。因此亟需一种有效的方案以解决上述问题。

参见图1所示的结构示意图,本申请提供的文本处理方法,为了能够提高跨语言的文本处理精准度,可以在获取到对应源语种的待处理文本后,构建待处理文本对应的源语种编码向量,之后从编码向量维度,将源语种编码向量转换为目标语种编码向量,从而可以有效的解决跨语言的向量映射问题;之后再对源语种编码向量和目标语种编码向量融合为融合向量,最后通过融合向量进行解码处理,即可得到对应目标语种的目标文本;实现通过在编码阶段进行转换的方式完成跨语言的映射,可以有效的保证文本处理精准度。

图2出了根据本申请一实施例提供的一种文本处理方法的流程图,具体包括步骤S202至步骤S208:

步骤S202:获取对应源语种的待处理文本。

具体的,源语种具体是指待处理文本默认对应的语种,相应的,待处理文本具体是指需要进行摘要生成的文本,包括但不限于新闻、文章、论文、小说等。需要说明的是,本申请提供的文本处理方法可以应用于:针对用户上传的待处理文本进行跨语种摘要生成的场景,或者针对搜索引擎所对应的文本库中包含的全部待处理文本进行跨语种摘要生成的场景等。

本申请实施例的核心在于跨语种摘要生成,针对不同语言的跨语种摘要生成过程基本相同,下面对源语种为英文,目标语种为中文,对英文的待处理文本生成中文摘要的过程进行详细介绍。

实际应用中,随着技术和语言的互通,很多时候用户在搜索相关知识点、新闻等信息时,都可能会涉及到非母语之外的其他语言的文章,而非母语的文本对于用户来讲理解较为困难,且翻译也会消耗较多的时间,甚至在翻译后可能发现文本内容并不是自己需要的内容,很大程度会影响用户的体验。而为了能够支持用户可以快速了解文本内容是否属于自身需要的内容,可以先自动生成各个文本的摘要,且该摘要对应用户的母语,用于辅助用户了解文本内容,在明确文本属于其需要的文本后,再进行翻译或下载即可。而在此过程中,针对非母语的文本进行跨语种摘要生成(针对非母语的待处理文本对应生成母语的摘要)尤为重要。

基于此,在获取到对应源语种的待处理文本后,后续可以通过跨语种转换编码向量的方式,实现从源语种空间映射到目标语种空间,再进行解码,即可得到对应目标语种的目标文本,即待处理文本对应目标语种的摘要,进而有效的保证了摘要生成精准度。

进一步的,在对待处理文本进行处理前,为了能够降低冗余数据产生的干扰,可以对待处理文本进行预处理,在得到标准文本后再进行后续的摘要提取,本实施例中,具体实现如步骤S2022至步骤S2024:

步骤S2022,获取对应源语种的业务文本。

步骤S2024,通过对所述业务文本进行预处理,获得对应所述源语种的所述待处理文本。

具体的,对应源语种的业务文本具体是指还未进行预处理的文本,该文本中包含部分冗余信息,如标点符号、错别字、特殊字符等元素;相应的,对业务文本进行预处理,具体是指将业务文本中包含的冗余信息进行剔除处理的操作,用于降低冗余信息对后续生成摘要的准确度产生的影响。其中,预处理的过程包括但不限于数据清洗、分词、错误纠正和/或冗余字符剔除等处理。

基于此,当获取到对应源语种的业务文本后,为了能够进一步提高跨语种摘要生成的精准度,可以先对业务文本进行预处理,使得业务文本可以转换为不包含冗余信息的待处理文本。

综上,在进行摘要生成前,对业务文本进行预处理,可以使得业务文本转换为不受冗余信息影响的文本,从而有效的促进了后续生成摘要的精准度。

在此基础上,对业务文本进行预处理可以通过数据清洗和分词处理结合的方式实现,也就是说,通过清洗文本中的冗余信息,以及将文本分词处理为多个词单元组成的形式,能够方便在摘要生成阶段,逐字完成跨语种的生成处理操作,本实施例中,具体实现方式如下:

按照预设的文本清洗策略和分词处理策略对所述业务文本进行处理,获得对应所述源语种的标准文本;将所述标准文本作为对应所述源语种的所述待处理文本。

具体的,文本清洗策略具体是指对业务文本中的冗余信息进行清洗的策略,包括但不限于剔除特殊字符、错别字修正、字母大小写修正等;相应的,分词处理策略具体是指对清洗后的业务文本进行分词处理的策略,分词处理可以通过nltk工具或jieba工具等,在此不作限定。相应的,标准文本具体是指经过清洗和分词后,得到的由多个词单元组成的文本,且该文本语义表达与待处理文本语义表达相同。

基于此,在获取到对应源语种的业务文本后,可以先按照文本清洗策略对业务文本进行清洗处理,以剔除业务文本中的特殊字符、修正错别字和/或修正字母大小,以得到初始标准文本;之后再利用分词处理策略对初始标准文本进行分词处理,即通过分词工具对初始标准文本进行分词,从而可以得到由多个词单元组成的标准文本,且对应源语种,将其作为对应所述源语种的待处理文本即可,以方便后续以标准文本为基础进行跨语种的摘要生成。

举例说明,为支持用户输入中文关键词后,能够从中文和英文相关文本中提取到关联中文关键词的文本,且辅助用户了解文本内容,需要在先构建各个文本对应的摘要,且任意语种的文本都应该具有中文摘要,从而才能够方便用户阅读。基于此,在获取到对应英文的业务文本后,可以先对英文的业务文本进行清洗处理,即剔除英文的业务文本中冗余的字符,修正字母大小写,修正错误拼写单词,从而得到英文的初始标准文本;其次再利用jieba工具对英文的初始标准文本进行分词处理,以得到多个英文单词组成的标准文本,将其作为对应英文的待处理文本,方便后续以此为基础,生成英文业务文本对应的中文摘要。

综上,通过在预处理阶段,按照文本清洗策略和分词处理策略对业务文本进行处理,可以使得业务文本中减少冗余信息的干扰,且方便后续进行编码处理,从而有效的提高了跨语种的摘要生成精准度。

步骤S204,构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量。

具体的,在上述获取到对应源语种的待处理文本后,进一步的,为降低传播误差,提高跨语种的摘要生成精准度,可以先构建待处理文本对应的源语种编码向量,之后从编码向量维度,从源语种映射到目标语种,即:将源语种编码向量转换为目标语种编码向量,之后再进行后续的解码,实现在编码阶段完成跨语种的操作,可以降低先生成摘要再进行翻译,或者先翻译再进行生成摘要过程中,翻译所带来的误差。

其中,源语种编码向量具体是指对待处理文本进行编码处理后,得到的对应源语种的编码向量;相应的,目标语种编码向量具体是指将源语种编码向量进行转换后,得到的对应目标语种的编码向量;转换过程中,实则是将文本对应的语义向量从源语种空间映射到目标语种空间,从而实现在语义表达形式上进行语种切换,并不会对文本所对应的语义产生修改,以方便后续在此基础上再进行解码,即可得到更加准确的目标文本,即对应目标语种的摘要。

具体实施时,在将待处理文本对应的语义向量从源语种空间映射到目标语种空间,即:将源语种编码向量转换为目标语种编码向量的过程中,实则是从向量表征维度进行的转换;比如源语种为中文,目标语种为英文,“学校”在源语种空间中对应的语义向量为x,“school”在目标语种空间中对应的语义向量为y,在得到“学校”对应的语义向量x后,可以直接在目标语种空间中确定与语义向量x具有映射关系的语义向量y,并将语义向量y作为“学校”在目标语种空间中映射的目标语种编码向量。实现以向量为基础进行转换,可以降低翻译后生成摘要带来的误差。其中,源语种空间中语义向量与目标语种空间中的语义向量预先建立映射关系,以在使用时可以直接基于该映射关系进行转换。

进一步的,在构建源语种编码向量,且进行编码向量跨语种的转换时,为了能够保证编码精准度,以及编码和转换效率,可以通过目标语言模型实现,本实施例中,具体实现方式如步骤S2042至步骤S2044:

步骤S2042,将所述待处理文本输入至目标语言模型,通过所述目标语言模型中的编码层对所述待处理文本进行编码处理,获得所述源语种编码向量。

步骤S2044,通过所述目标语言模型中的映射器对所述源语种编码向量进行映射处理,获得所述目标语种编码向量。

具体的,目标语言模型可以实现生成源语种的待处理文本所对应的目标语种的目标文本,生成的目标文本即为对应目标语种的摘要;且目标语言模型包含编码层、解码层以及进行编码向量映射的映射器。相应的,映射器具体是指具有将源语种编码向量转换为目标语种编码向量的处理器,其用于维护源语种到目标语种的向量映射关系,且该映射关系可以进行优化。

基于此,在获取到对应源语种的待处理文本后,可以将对应源语种的待处理文本输入至目标语言模型,以通过目标语言模型中的编码层对待处理文本进行编码处理,以获得编码层输出的对应源语种的语义向量,即源语种编码向量,之后再通过目标语言模型中的映射器对源语种编码向量进行映射处理,即通过源语种编码向量从源语种空间映射到目标语种空间,以得到对应目标语种的语义向量,即目标语种编码向量,以用于后续进行摘要生成。

沿用上例,在获得对应英文的待处理文本后,可以将对应英文的待处理文本输入至训练好的目标语言模型(英文待处理文本-中文摘要),通过目标语言模型中的编码层(Encoder)对对应英文的待处理文本进行编码处理,获得对应英文的语义向量S1;之后再将对应英文的语义向量S1传递给映射器(Mapper),映射器会将语义向量S1从英文语言空间映射到中文语言空间,即:将对应英文的语义向量S1转换为对应中文的语义向量S2,以方便后续进行使用。

实际应用中,映射器在进行跨语种的编码向量转换时,实则是利用其维护的跨语种映射关系,将源语种编码向量的表达形式转换为目标语种编码向量的表达形式,以达到跨语种转换编码向量的目的。

综上,通过在编码阶段,将源语种编码向量转换为目标语种编码向量,可以有效的降低摘要生成前后进行翻译的传播误差,从而进一步提高了跨语种摘要生成的精准度,且跨语种的空间映射可以根据实际需求自定义,更进一步的提高了跨语种生成摘要的灵活性。

此外,为了能够保证目标语言模型具有较高的预测精准度,因此在使用前需要对目标语言模型进行充分的训练,本实施例中,目标语言模型的训练过程如步骤S2142至步骤S2148:

步骤S2142,获取对应所述源语种的初始样本,并通过初始语言模型中的编码层对所述初始样本进行处理,获得对应所述源语种的样本编码向量;

步骤S2144,通过所述初始语言模型中的映射器对所述样本编码向量进行处理,获得对应所述目标语种的样本映射向量;

步骤S2146,将所述样本映射向量和所述样本编码向量进行融合,并通过所述初始语言模型中的解码层对融合结果进行处理,获得对应所述目标语种的预测文本;

步骤S2148,根据所述初始样本对应的基准文本和所述预测文本,对所述初始语言模型进行调参,直至获得满足训练停止条件的所述目标语言模型。

具体的,初始样本具体是指用于训练初始语言模型的文本,且该文本对应的语种为源语种;相应的,样本编码向量具体是指对初始样本进行编码处理后,得到的对应源语种的语义向量;相应的,样本映射向量具体是指将样本编码向量,从源语种空间映射到目标语种空间后,得到初始样本对应目标语种的语义向量;相应的,预测样本具体是指对样本映射向量和样本编码向量进行融合后的融合结果进行解码处理,得到的初始样本对应目标语种的预测摘要;相应的,基准文本具体是指初始样本对应目标语种的真实摘要;相应的,训练停止条件具体是指停止训练模型的条件,包括但不限于损失值比较条件,即在初始语言模型的损失值小于预设损失值阈值的情况下,确定初始语言模型满足训练停止条件;或者迭代次数条件,即在初始语言模型的训练迭代次数超过预设迭代次数阈值的情况下,确定初始语言模型满足训练停止条件。

需要说明的是,在通过损失值比较条件对模型训练过程进行控制时,需要通过损失函数计算当前训练阶段的损失值,而损失函数的选择可以根据需求完成,比如选择交叉熵损失函数、对数损失函数、平方损失函数等。

基于此,为了能够使得目标语言模型具有更加精准的预测能力,可以在获取到对应源语种的初始样本后,通过初始语言模型中的编码层,对对应源语种的初始样本进行编码处理,以获得对应源语种的样本编码向量,之后再利用初始语言模型中的映射器,将对应源语种的样本编码向量,从源语种空间映射到目标语种空间,以得到对应目标语种的样本映射向量,此时说明已经得到了初始样本在目标语种空间中的语义向量。而为了进一步跨语种生成摘要的精准度,可以在解码前,对样本编码向量和样本映射向量进行融合,再利用解码层对融合结果进行解码,即可得到对应目标语种的预测文本;最后基于初始样本对应的基准文本和预测文本,对初始语言模型进行调参,直至获得满足训练停止条件的目标语言模型即可。

需要说明的是,在模型训练的过程中,为了能够保证模型具有较高的预测能力,可以在每次训练结束后,利用验证集对当前阶段的语言模型进行验证,以确定当前阶段语言模型的预测能力,预测能力不满足需求,则说明不满足训练停止条件,继续进行训练即可,直至获得满足训练停止条件的目标语言模型。

综上,通过在训练阶段利用初始样本对初始语言模型进行训练,可以使得初始语言模型具有跨语言生成摘要的能力,以方便在应用阶段可以快速且精准的完成跨语言生成摘要处理操作。

而在训练初始语言模型之前,为了能够降低训练周期,提高效率,以及降低样本需求量,可以先获取已有模型的参数对初始语言模型进行参数初始化,再进行后续的训练即可,本实施例中,具体实现如步骤S2242至步骤S2244:

步骤S2242,获取业务语言模型对应的业务模型参数;

步骤S2244,根据所述业务模型参数对所述初始语言模型的初始模型参数进行更新。

具体的,业务语言模型具体是指已经训练完成具有一定预测能力的模型,且其对应的模型参数中,部分参数可以复用到初始语言模型中,相应的,业务模型参数具体是指业务语言模型中能够被初始语言模型所利用的模型参数,比如编码层和解码层所对应的模型参数。

基于此,在对初始语言模型进行训练前,可以先获取现有的业务语言模型,并确定业务语言模型的业务模型参数,之后利用业务模型参数对初始语言模型的初始模型参数进行更新,即:初始化初始语言模型的参数,实现在后续训练阶段,可以在业务模型参数的基础上,加强训练初始语言模型。

实际应用中,考虑到不同的语言模型具有不同的预测能力,而该模型中的模型参数无法全部复用,因此为了能够从中选择满足初始语言模型对应的模型参数,可以先对初始语言模型中需要调整的模型参数类型进行整理,之后在业务语言模型中,选择与模型参数类型相关的模型参数作为业务模型参数,再按照类型关系对初始语言模型中的参数进行初始化,从而可以有效的降低模型训练周期。

综上,通过在模型训练前,采用现有的业务语言模型的参数对初始语言模型的参数进行初始化,可以使得初始语言模型从起始训练阶段就具备一定的预测能力,再以此为基础进行训练,可以有效的降低训练周期,且对样本需求量也会降低,从而提高模型训练效率。

步骤S206,对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量。

具体的,在上述获得对应目标语种的目标语种编码向量后,进一步的,当前阶段已经得到了对应源语种的源语种编码向量,以及对应目标语种的目标语种编码向量,为了能够提高跨语种生成摘要的精准度,可以在生成对应目标语种的目标文本前,融合对应源语种的语义向量和对应目标语种的语义向量,以实现在解码阶段,可以支持目标语种和源语种相互对齐,以提高摘要生成精准度。其中,融合向量具体是指源语种编码向量和目标语种编码向量进行融合后,得到的编码向量。

具体实施时,对源语种编码向量和目标语种编码向量进行融合时,即为对源语种编码向量和目标语种编码向量拼接,以根据拼接结果获得融合向量。此外,还可以采用逐个位相加的方式实现向量融合,即确定语种编码向量中包含的元素,以及目标语种编码向量中包含的元素,采用逐位相加的计算方式对两者进行融合,即可得到融合向量。

进一步的,由于融合向量中包含对应源语种的语义向量和对应目标语种的语义向量,因此在解码阶段,可以根据融合向量先生成对应源语种的第一文本,且第一文本的生成过程为逐字生成。再根据融合向量生成对应目标语种的第二文本,生成第二文本时可以对齐已经生成的第一文本,也就是说,在生成第二文本中的每个字单元时,可以向第一文本中具有对应关系的字单元进行对齐,从而实现最终生成的第二文本更加准确,提高对应目标语种的文本生成质量。

步骤S208,通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。

具体的,在得到融合向量后,进一步的,融合向量中记录有对应源语种的源语种编码向量,以及对应目标语种的目标语种编码向量,因此在进行解码处理时,将分别得到对应目标语种的解码向量,以及对应源语种的解码向量。而为支持跨语种的摘要生成,因此可以选择对应目标语种的解码向量进行转换,用于生成对应目标语种的目标文本,作为待处理文本在目标语种中的摘要。

进一步的,由于编码处理和映射处理是由语言模型中的编码层和映射器配合完成,因此解码前的融合以及解码处理也将通过语言模型完成,本实施例中,具体实现如步骤S2082至步骤S2084:

步骤S2082,在所述目标语言模型中对所述源语种编码向量和所述目标语种编码向量进行融合,获得所述融合向量;

步骤S2084,通过所述目标语言模型中的解码层对所述融合向量进行解码处理,根据解码处理结果生成对应所述目标语种的目标文本。

也就是说,在得到对应源语种的源语种编码向量,以及对应目标语种的目标语种编码向量后,可以在目标语言模型中,对源语种编码向量和目标语种编码向量进行融合,以得到融合两种语种语义向量的融合向量;之后再将融合向量输入至目标语言模型中的解码层进行解码处理,以根据解码处理结果得到对应目标语种的目标文本,实现跨语种生成待处理文本对应的摘要,以方便在实际应用场景中所使用。

而在此基础上,在通过目标语言模型生成待处理文本对应目标语种的目标文本时,为了能够进一步提高目标文本的生成精准度,可以采用先生成源语种初始文本,再以初始文本对齐的方式生成对应目标语种的目标文本,本实施例中,具体实现方式如步骤S2182至步骤S2184:

步骤S2182,通过所述目标语言模型中的解码层,对所述融合向量中的所述源语种编码向量进行解码处理,获得对应所述源语种的初始文本;

步骤S2184,通过所述目标语言模型中的解码层,按照对齐所述初始文本的处理策略对所述融合向量中的所述目标语种编码向量进行解码处理,获得对应所述目标语种的目标文本。

具体的,对应源语种的初始文本具体是指通过解码层对融合向量进行解码处理后,得到对应于源语种的摘要文本;相应的,对齐初始文本的处理策略具体是指将对应目标语种的目标文本生成阶段,对齐初始文本的策略,实现在生成目标文本时,可以结合初始文本完成纠正。

基于此,在将融合源语种编码向量和目标语种编码向量的融合向量,输入到目标语言模型中的解码层后,为了能够提高跨语言生成摘要的精准度,可以先利用解码层对融合向量中的源语种编码向量进行解码处理,以生成对应源语种的初始文本,即对应源语种的摘要;之后再利用目标语言模型中的解码层,对融合向量中的目标语种编码向量进行解码处理,且在此解码过程中,将对齐初始文本,以促使模型输出的目标文本具有更高的准确度。实际应用中,在融合向量是通过向量拼接的方式得到的场景中,可以将融合向量输入目标语言模型的解码层先生成对应源语种的摘要,再利用该解码层生成目标语种的摘要时,解码得到的目标语种的摘要对齐源语种的摘要,使得目标语种的摘要与源语种的摘要贴合度更高。

而在融合向量是通过向量相加的方式得到的场景中,为了能够在解码阶段得到对应目标语种的摘要,可以在解码前,先对融合向量中包含的每个元素进行元素拆分,且该拆分处理操作可以按照向量融合时的融合记录完成,即每个元素相加前的元素值与相加后再进行拆分时的元素值相等。以此拆分处理操作可以得到源语种编码向量和目标语种编码向量,此时再利用解码层对源语种编码向量进行解码处理,以生成对应源语种的初始文本,即对应源语种的摘要;之后再利用目标语言模型中的解码层,对拆分后得到的目标语种编码向量进行解码处理,且在此解码过程中,将对齐初始文本,以促使模型输出的目标文本具有更高的准确度。

实际应用中,在按照对齐初始文本处理策略,对融合向量中的目标语种编码向量进行解码处理时,是按照逐字生成目标文本的方式完成对齐处理;也就是说,在解码阶段,会先得到对应源语种的解码向量,之后将对应源语种的解码向量和融合向量中对应目标语种的目标语种编码向量,输入到解码层一同进行解码处理,用于从字单元粒度使解码处理结果可以对齐初始文本中的字单元所对应的向量表达,用于纠正目标文本中每个字单元的表达准确度,最后基于全部字单元组成的目标文本即可充分表征待处理文本对应目标语种的摘要,从而有效的保证了跨语种摘要生成的精准度。

沿用上例,在得到对应英文的语义向量S1和对应中文的语义向量S2后,可以将语义向量S1和语义向量S2进行向量拼接,得到融合向量;而在解码阶段,可以将融合向量输入到语言模型中的解码层(Deccoder)通过解码层对对应英文的语义向量S1进行解码处理,得到对应英文的解码向量S11,其中,解码向量S11即可生成待处理文本对应英文的摘要(逐字生成);之后再将解码向量S11和融合向量中的语义向量S2交由解码层进行解码处理,且在解码处理过程中,向英文的摘要进行对齐,以根据解码和对齐处理结果得到对应中文的解码向量S22,基于解码向量S22即可生成对应中文的摘要,并输出模型即可,以确定英文的业务文本对应的中文的摘要。可选地,在解码前,可以先对拼接后的融合向量进行拆分,得到语义向量S1及语义向量S2,再通过解码层对语义向量S1和语义向量S2进行解码处理,得到对应的解码向量。

具体实施时,解码层在进行解码处理时,实则是将对应整个待处理文本的编码向量经过计算处理,得到解码向量,通过模型的输出层对解码向量进行转换,即可得到目标文本。其中,解码过程即为从高维度向量表达转换为低维度向量表达的过程,通过低维向量来表达待处理文本的核心特征,以此即可得到概括性更高的摘要。

综上,通过采用先解码出初始文本,再解码出目标文本的方式,实现目标文本可以向初始文本进行对齐,实现对应目标语种的目标文本可以在被生成时,从语义层面和字层面都能够对齐源语种的初始文本,使得二者语义误差减小,进一步保证了跨语种摘要生成的精准度,从而实现向用户可以反馈具有较高准确度摘要,满足用户使用需求。

此外,考虑到不同的业务场景下,用户可能需要不同语种的目标文本,因此在进行目标文本选择时,可以响应于用户的请求完成,本实施例中,具体实现如步骤S2282至步骤S2284:

步骤S2282,通过对所述融合向量进行解码处理,获得对应所述源语种的第一文本,以及对应所述目标语种的第二文本;

步骤S2284,响应于跨语种选择请求,在对应所述源语种的第一文本和对应所述目标语种的第二文本中,选择所述第二文本作为所述目标文本。

具体的,第一文本具体是指通过对融合向量中的源语种编码向量进行解码处理后得到的摘要,其对应于源语种;相应的,第二文本具体是指对融合向量中的目标语种编码向量进行解码处理后得到的摘要,其对应于目标语种。相应的,跨语种选择请求具体是指针对第二文本提交的请求,用于向用户反馈不同于源语种的目标文本。

基于此,在通过对融合向量进行解码处理后,将得到对应源语种的第一文本,以及对应目标语种的第二文本,而基于用户提交的跨语种选择请求,确定用户需要选择对应目标语种的摘要,因此可以响应于跨语种选择请求在第一文本和第二文本中,选择对应目标语种的第二文本,作为跨语种选择请求的响应,以实现向用户进行反馈即可。同时,如果用户选择第一文本,则可以选择对应源语种的第一文本向用户进行反馈。

综上,通过响应于用户的跨语种选择请求,选择不同于源语种的目标语种对应的第二文本,作为目标文本,可以实现根据用户自定义的选择进行目标文本的反馈,提高用户选择的灵活性。

而在此基础上,考虑到目标语言模型在一段时间后,可能预测能力会有所降低,为了能够保证在任意时间节点,目标语言模型都具有较高的预测能力,可以采用边使用边优化的方式使用目标语言模型,本实施例中,具体实现如步骤S2382至步骤S2388:

步骤S2382,向提交所述跨语种选择请求的用户发送调整请求,所述调整请求中携带有对应所述目标语种的第二文本;

步骤S2384,接收所述用户响应于所述调整请求,针对对应所述目标语种的第二文本提交的文本调整指令;

步骤S2386,根据所述文本调整指令对对应所述目标语种的第二文本进行更新,获得对应所述目标语种的第三文本;

步骤S2388,根据对应所述目标语种的第三文本和所述待处理文本对所述目标语言模型进行优化。

具体的,调整请求具体是指邀请用户进行手动调整第二文本的请求,用于对第二文本进行校对;相应的,文本调整指令具体是指用户提交的调整第二文本的指令,通过文本调整指令可以明确用户调整的字单元或者词单元等,相应的,第三文本具体是指经过调整后,且对应目标语种的文本;相应的,对模型进行优化,具体是指进一步调整模型的参数,使得模型具有更好的预测能力。

基于此,当获取到响应于跨语种事件的第二文本后,为了能够提高目标语言模型的预测能力,可以通过邀请用户的方式完成对目标语言模型的优化。即:向提交跨语种选择请求的用户发送调整请求,用于邀请用户,并告知用户本次邀请的目的,且同时会在调整请求中携带有对应所述目标语种的第二文本。

当接收到用户响应于调整请求,针对对应目标语种的第二文本提交的文本调整指令的情况下,说明用户同意参加本次邀请,并针对对应目标语种的第二文本提交了文本调整指令,此时即可根据文本调整指令对对应目标语种的第二文本进行更新,用于将第二文本中生成不准确的地方进行了修正,以根据更新结果得到对应目标语种的第三文本;此时第三文本的内容说明更加准确。在此基础上,即可利用对应目标语种的第三文本和待处理文本对目标语言模型进行优化,以使得目标语言模型具有更好的预测能力。

沿用上例,在得到对应英文的摘要,以及对应中文的摘要后,可以响应于用户的选择请求向用户反馈对应中文的摘要;而为了能够提高语言模型的预测能力,可以向用户反馈调整请求,且调整请求中携带中文的摘要。当接收到用户针对中文的摘要提交的文本调整指令的情况下,说明中文的摘要生成不够准确,则可以响应于文本调整指令将中文的摘要,更新为中文的目标摘要,此时得到的目标摘要准确度更高,最后再利用中文的目标摘要和英文的待处理文本,对语言模型进行优化即可。

综上,通过以邀请用户的方式对目标语言模型进行优化,不仅可以提高目标语言模型的预测能力,还使得用户可以参与到模型优化阶段,进而可以利用有效的资源完成模型更新,以降低模型运维成本。

此外,在对应业务搜索场景下,为支持搜索时,可以向用户反馈满足其查询需求的摘要内容,则需要在得到搜索场景下涉及到的文本对应的摘要后,将其写入到文本库中,用于在查询阶段可以根据读取事件完成响应,本实施例中,具体实现如步骤S2482至步骤S2486:

步骤S2482,建立所述目标文本和所述待处理文本之间的跨语种关系,并根据所述跨语种关系将所述目标文本写入所述目标语种对应的文本库;

步骤S2484,在监听到关联所述目标语种的文本读取事件的情况下,确定所述文本读取事件对应的目标语种关键词;

步骤S2486,在所述文本库中读取设定数量与所述目标语种关键词匹配的目标业务文本,作为所述文本读取事件的响应。

具体的,跨语种关系具体是指目标文本与待处理文本之间的关系,用于表征目标语种的目标文本,是源语种的待处理文本的摘要;相应的,文本读取事件具体是指对应用户搜索请求的事件,该事件用于查询关联目标语种关键词的文本。相应的,目标语种关键词具体是指文本读取事件关联的关键词,且属于目标语种,用于查询关联目标语种关键词的文本。相应的,文本库具体是指用于存储跨语种关系,以及对应待处理文本的目标文本的数据库;相应的,目标业务文本具体是指文本库中,关联目标语种关键词的目标文本。

需要说明的是,目标语种关键词匹配的目标业务文本可以是一个或多个,且匹配关系的确定可以通过计算关联度实现,即计算目标语种关键词与文本库中包含的目标文本之间的关联度,选择关联度大于设定阈值的目标文本作为目标业务文本;或者选择关联度最大的目标文本作为目标业务文本。

基于此,在得到目标文本后,可以先建立目标文本和待处理文本之间的跨语种关系,之后根据该跨语种关系将目标文本写入对应目标语种对应的文本库;在应用阶段,若监听到关联目标语种的文本读取事件,说明当前时刻存在查询关联目标语种关键词的事件,则此时可以解析文本读取事件,以获得文本读取事件关联的目标语种关键词;之后再从文本库中读取设定数量与目标语种关键词匹配的目标业务文本,作为文本读取事件的响应即可。

实际应用中,考虑到在读取目标业务文本时,可能会获得对应目标语种关键词的多个目标业务文本,如果全部作为文本读取事件的响应,将会影响用户浏览体验,因此为了方便用户查阅,可以选择设定数量的目标业务文本,作为文本读取事件的响应。其中,设定数量可以根据实际需求进行设定。

综上,通过在文本库中持久化目标文本,实现在监听到文本读取事件后,可以快速的从文本库中匹配其相应的目标业务文本,以实现在较短的时间内响应文本读取事件,以提高用户的查阅体验。

而在此基础上,可以明确目标业务文本与待处理业务文本之间的关联度,且该关联度较高,因此可以以此为基础对目标语言模型的优化,本实施例中,具体实现如步骤S2582至步骤S2586:

步骤S2582,确定所述目标业务文本关联的待处理业务文本;

步骤S2584,基于所述目标业务文本和所述待处理业务文本构建目标样本对;

步骤S2586,利用所述目标样本对,对所述目标语言模型进行优化处理。

具体的,待处理业务文本具体是指目标业务文本关联的原始文本,且对应源语种;相应的,目标样本对是指具有关联关系的待处理业务文本和目标业务文本组成的样本对,其用于优化模型。基于此,在确定目标业务文本后,说明目标业务文本是满足当前业务场景的,进一步说明目标语言模型生成的目标业务文本具有一定的准确度,而在此基础上,为提高模型预测能力,可以先确定目标业务文本关联的待处理业务文本,之后根据目标业务文本和待处理业务文本构建目标样本对;再利用目标样本对,对目标语言模型进行优化处理即可。

沿用上例,在得到英文的业务文本关联的中文摘要后,可以建立英文的业务文本和中文的摘要之间的跨语种关系,并按照跨语种关系将中文的摘要写入中文对应的文本库。当监听到文本读取事件后,可以先确定对应中文的关键词,之后通过计算中文的关键词与文本库中,中文的摘要之间的关联度,选择设定数量的中文的摘要作为文本读取事件的响应,并向用户进行反馈即可。

进一步的,可以在设定数量的中文的摘要中,标记用户最后选择中文摘要作为目标中文摘要,并选择目标中文摘要关联的英文业务文本向用户反馈即可。在此基础上,还可以结合目标中文摘要和英文业务文本组成样本对,利用样本对对语言模型进行优化,以达到提高模型预测能力的目的。

更进一步的,在对语言模型进行优化时,实则是将样本对中的英文业务文本输入语言模型进行处理,可以得到语言模型输出的预测中文摘要,此时可以结合目标中文摘要和预测中文摘要对语言模型进行优化,以达到提高模型预测精度的目的。而在具体优化时,可以根据目标中文摘要和预测中文摘要计算损失值,之后根据损失值对语言模型进行参数调整,以根据参数调整结果得到预测精度高的语言模型使用。

本申请提供的文本处理方法,为了能够提高跨语言的文本处理精准度,可以在获取到对应源语种的待处理文本后,构建待处理文本对应的源语种编码向量,之后从编码向量维度,将源语种编码向量转换为目标语种编码向量,从而可以有效的解决跨语言的向量映射问题;之后再对源语种编码向量和目标语种编码向量融合为融合向量,最后通过融合向量进行解码处理,即可得到对应目标语种的目标文本;实现通过在编码阶段进行转换的方式完成跨语言的映射,可以有效的保证文本处理精准度。

下述结合附图3以本申请提供的文本处理方法在摘要生成场景中的应用为例,对所述文本处理方法进行进一步说明。其中,图3示出了本申请一实施例提供的一种应用于摘要生成场景中的文本处理方法的处理流程图,具体包括以下步骤:

步骤S302,获取对应源语种的待处理文本。

实际应用中,在进行跨语言的摘要提取时,本领域常用的技术是使用pipeline形式,即文本-翻译-摘要,或文本-摘要-翻译。或者使用强化学习模型,再或者构建概率词典,每次生成一个概率最大的词。但是在当今信息精准度要求较高的场景下,使用pipeline形式,会产生较大的误差传播。且很少考虑到多语言之间的信息交互对跨语言摘要技术带来的影响。因此亟需一种有效的方案以解决上述问题。

有鉴于此,本申请提供的文本处理方法,实现在进行摘要生成的过程中,可以直接在编码阶段将对应源语种的编码向量,通过预先训练好的映射器映射到对应目标语种的语言空间,从而得到对应目标语种的编码向量,在解码阶段通过融合对应源语种和目标语种的编码向量进行解码,可以生成对应两种语言的摘要,并且在生成对应目标语种的摘要文本时,可以向源语种的摘要文本进行对齐,从而有效的保证摘要生成的精准度,且能够满足跨语言摘要生成的需求,方便下游业务进行使用。

本实施例以源语种为中文,目标语种为英文,待处理文本为对应中文的足球相关的文章为例对文本处理方法进行说明;需要说明的是,该足球文章包含的文本内容较多,本实施例为方便描述仅与部分内容为基础对文本处理方法进行说明。

步骤S304,对待处理文本进行预处理,获得对应源语种的标准文本。

获取到的对应中文的待处理文本为{我是小编甲,本次向大家介绍足球运动员乙;乙,出生于A地,B国足球运动员,司职前锋,现效力于C国足球甲级联赛的D足球俱乐部......};为方便后续能够精准的从待处理文本中抽取对应英文的文本摘要,此时可以对待处理文本进行预处理,即对待处理文本进行数据清洗以及分词处理,以降低冗余数据产生的干扰。

基于此,通过对对应中文的待处理文本进行预处理,获得对应中文的第一标准文本{乙,出生于A地,B国足球运动员,司职前锋,现效力于C国足球甲级联赛的D足球俱乐部......},之后再对第一标准文本进行分词处理,得到对应源语种的第二标准文本{乙;出生于;A地;B国;足球运动员;司职;前锋;现;效力于;C国;足球;甲级联赛;的;D足球俱乐部;......},其中标准文本相比于待处理文本剔除冗余数据,被剔除的冗余数据与文本主线内容并不相关。

步骤S306,将对应源语种的标准文本输入至摘要提取模型,通过摘要提取模型中的编码层对标准文本进行编码处理,获得对应源语种的编码向量。

在得到对应中文的标准文本后,此时即可将预处理后的文本输入至摘要提取模型,可以先通过摘要提取模型中的编码层对标准文本进行编码处理,以根据编码处理结果得到对应中文的编码向量EV1。其中,编码向量EV1为标准文本映射到对应中文的语言空间后得到的编码向量。

步骤S308,将对应源语种的编码向量输入至摘要提取模型中的映射器进行映射处理,获得对应目标语种的编码向量。

在得到对应中文的编码向量EV1后,为了能够在后续生成对应英文的文本摘要,此时可以通过摘要提取模型中的映射器将编码向量EV1从中文的语言空间映射到英文的语言空间。也就是说,此过程可以从向量转换维度将对应中文的编码向量转换为对应英文的编码向量EV2,再以此为基础进行后续的解码即可得到对应英文的文本摘要。

步骤S310,将对应源语种的编码向量和对应目标语种的编码向量进行融合,得到编码融合向量。

步骤S312,将编码融合向量输入至摘要提取模型中的解码层进行解码处理,生成对应源语种的文本摘要以及对应目标语种的文本摘要。

在上述得到对应中文的编码向量EV1以及对应英文的编码向量EV2后,此时可以将对应中文的编码向量EV1以及对应英文的编码向量EV2进行合并,之后再将其输入至摘要提取模型中的解码层进行解码,因为编码融合向量中包含了对应中文和英文的编码向量,因此在进行解码处理时,可以获得对应中文的文本摘要,以及对应英文的文本摘要。并且在此过程中,将先生成对应中文的文本摘要,之后在生成对应英文的文本摘要时,可以向中文的文本摘要进行对齐,从而保证解码后得到的对应英文的文本摘要具有更高的精准度。基于此,经过解码处理,得到对应中文的文本摘要为TS1,对应英文的文本摘要为TS2。

步骤S314,基于用户的摘要提取请求,选择对应目标语种的文本摘要向用户进行反馈。

在得对应中文的文本摘要TS1和对应英文的文本摘要TS2后,为了能够方便用户使用,此时基于用户的摘要提取请求,确定用户需要将文本转换为英文才能够使用,因此此时可以向用户反馈对应英文的文本摘要TS2,以方便用户了解待处理文本的主要文本内容。

综上所述,实现在进行摘要生成的过程中,可以直接在编码阶段将对应源语种的编码向量,通过预先训练好的映射器映射到对应目标语种的语言空间,从而得到对应目标语种的编码向量,在解码阶段通过融合对应源语种和目标语种的编码向量进行解码,可以生成对应两种语言的摘要,并且在生成对应目标语种的摘要文本时,可以向源语种的摘要文本进行对齐,从而有效的保证摘要生成的精准度,且能够满足跨语言摘要生成的需求,方便下游业务进行使用。

与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图4示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图4所示,该装置包括:

获取模块402,被配置为获取对应源语种的待处理文本;

构建模块404,被配置为构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;

融合模块406,被配置为对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;

解码模块408,被配置为通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。

一个可选的实施例中,所述获取模块402进一步被配置为:

获取对应源语种的业务文本;通过对所述业务文本进行预处理,获得对应所述源语种的所述待处理文本。

一个可选的实施例中,所述构建模块404进一步被配置为:

将所述待处理文本输入至目标语言模型,通过所述目标语言模型中的编码层对所述待处理文本进行编码处理,获得所述源语种编码向量;通过所述目标语言模型中的映射器对所述源语种编码向量进行映射处理,获得所述目标语种编码向量。

一个可选的实施例中,所述融合模块406进一步被配置为:

在所述目标语言模型中对所述源语种编码向量和所述目标语种编码向量进行融合,获得所述融合向量;

其中,所述解码模块408进一步被配置为:

通过所述目标语言模型中的解码层对所述融合向量进行解码处理,根据解码处理结果生成对应所述目标语种的目标文本。

一个可选的实施例中,所述解码模块408进一步被配置为:

通过对所述融合向量进行解码处理,获得对应所述源语种的第一文本,以及对应所述目标语种的第二文本;响应于跨语种选择请求,在对应所述源语种的第一文本和对应所述目标语种的第二文本中,选择所述第二文本作为所述目标文本。

一个可选的实施例中,所述解码模块408进一步被配置为:

通过所述目标语言模型中的解码层,对所述融合向量中的所述源语种编码向量进行解码处理,获得对应所述源语种的初始文本;通过所述目标语言模型中的解码层,按照对齐所述初始文本的处理策略对所述融合向量中的所述目标语种编码向量进行解码处理,获得对应所述目标语种的目标文本。

一个可选的实施例中,所述装置还包括模型训练模块,所述模型训练模块被配置为:获取对应所述源语种的初始样本,并通过初始语言模型中的编码层对所述初始样本进行处理,获得对应所述源语种的样本编码向量;通过所述初始语言模型中的映射器对所述样本编码向量进行处理,获得对应所述目标语种的样本映射向量;将所述样本映射向量和所述样本编码向量进行融合,并通过所述初始语言模型中的解码层对融合结果进行处理,获得对应所述目标语种的预测文本;根据所述初始样本对应的基准文本和所述预测文本,对所述初始语言模型进行调参,直至获得满足训练停止条件的所述目标语言模型。

一个可选的实施例中,所述模型训练模块进一步被配置为:

获取业务语言模型对应的业务模型参数;根据所述业务模型参数对所述初始语言模型的初始模型参数进行更新。

一个可选的实施例中,所述装置,还包括:

匹配模块,被配置为建立所述目标文本和所述待处理文本之间的跨语种关系,并根据所述跨语种关系将所述目标文本写入所述目标语种对应的文本库;在监听到关联所述目标语种的文本读取事件的情况下,确定所述文本读取事件对应的目标语种关键词;在所述文本库中读取设定数量与所述目标语种关键词匹配的目标业务文本,作为所述文本读取事件的响应。

一个可选的实施例中,所述装置,还包括:

第一优化模块,被配置为确定所述目标业务文本关联的待处理业务文本;基于所述目标业务文本和所述待处理业务文本构建目标样本对;利用所述目标样本对,对所述目标语言模型进行优化处理。

一个可选的实施例中,所述获取模块402进一步被配置为:

按照预设的文本清洗策略和分词处理策略对所述业务文本进行处理,获得对应所述源语种的标准文本;将所述标准文本作为对应所述源语种的所述待处理文本。

一个可选的实施例中,所述装置,还包括:

第二优化模块,被配置为向提交所述跨语种选择请求的用户发送调整请求,所述调整请求中携带有对应所述目标语种的第二文本;接收所述用户响应于所述调整请求,针对对应所述目标语种的第二文本提交的文本调整指令;根据所述文本调整指令对对应所述目标语种的第二文本进行更新,获得对应所述目标语种的第三文本;根据对应所述目标语种的第三文本和所述待处理文本对所述目标语言模型进行优化。

本申请提供的文本处理装置,为了能够提高跨语言的文本处理精准度,可以在获取到对应源语种的待处理文本后,构建待处理文本对应的源语种编码向量,之后从编码向量维度,将源语种编码向量转换为目标语种编码向量,从而可以有效的解决跨语言的向量映射问题;之后再对源语种编码向量和目标语种编码向量融合为融合向量,最后通过融合向量进行解码处理,即可得到对应目标语种的目标文本;实现通过在编码阶段进行转换的方式完成跨语言的映射,可以有效的保证文本处理精准度。

上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图5示出了根据本申请一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。

计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本申请的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中,处理器520用于执行所述文本处理方法的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于文本处理方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文本或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

技术分类

06120115636146