掌桥专利:专业的专利平台
掌桥专利
首页

文本翻译校正方法、装置、系统、服务器及可读存储介质

文献发布时间:2023-06-19 10:19:37


文本翻译校正方法、装置、系统、服务器及可读存储介质

技术领域

本发明实施例涉及文本翻译处理技术领域,具体涉及一种文本翻译校正方法、装置、系统、服务器及可读存储介质。

背景技术

随着通信技术的发展,跨国工作、学习和娱乐交流越来越多,为了确保不同语种的用户之间的顺畅交流,通常需要借助翻译软件进行语言翻译。现目前,机器翻译的应用越来越广泛,机器翻译之后的校对工作,逐渐成为翻译工作的主要工作内容,翻译人员需要对照原始文件和翻译后的文件,并查找错误和修正翻译结果,这些查找、校对和修改工作非常耗费人力,而且对翻译人员的语言要求也很高,当翻译工作量较大时,可能会影响翻译工作的产能以及翻译结果的准确性。

发明内容

有鉴于此,本发明实施例提供了一种文本翻译校正方法、装置、系统、服务器及可读存储介质,能够通过反向的二次翻译实现对目标语言文本的多次迭代翻译校正,从而减少翻译人员的工作量,该方法不仅可以消化较大的翻译工作量,还能够确保翻译工作的产能以及翻译结果的准确性。

本发明实施例提供了一种文本翻译校正方法,应用于与智能终端通信的服务器,所述方法包括:采用训练好的第一机器翻译模型将所述智能终端上传的原始语言文本翻译为目标语言文本;采用训练好的第二机器翻译模型对所述目标语言文本进行翻译,得到所述目标语言文本对应的参考语言文本;其中,所述目标语言文本与所述原始语言文本为不同语种,所述目标语言文本的参考语言文本和所述原始语言文本为相同语种;根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正。

可选地,根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正,包括:

将所述原始语言文本和所述目标语言文本的参考语言文本进行比较,得到所述原始语言文本和所述目标语言文本的参考语言文本对应的比较结果;

判断所述比较结果是否满足设定条件;

在所述原始语言文本和所述目标语言文本的参考语言文本对应的比较结果不满足所述设定条件时,对所述目标语言文本进行校正得到校正语言文本;采用所述第二机器翻译模型对所述校正语言文本进行翻译,得到所述校正语言文本对应的参考语言文本;

将所述原始语言文本和所述校正语言文本的参考语言文本进行比较,得到所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果;

在所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果满足所述设定条件时,将所述校正语言文本进行输出。

可选地,将所述原始语言文本和所述目标语言文本的参考语言文本进行比较,得到所述原始语言文本和所述目标语言文本的参考语言文本对应的比较结果,包括:

提取所述原始语言文本的原始语言文本内容以及所述目标语言文本的参考语言文本的参考语言文本内容;生成所述原始语言文本的原始语言文本内容对应的原始内容语义信息,以及所述目标语言文本的参考语言文本的参考语言文本内容对应的参考内容语义信息;其中,所述原始内容语义信息和所述参考内容语义信息分别包括多个具有不同的语义解读方式的语义文本字段;

提取所述原始语言文本的原始语言文本内容在所述原始内容语义信息的任一语义文本字段的初始文本字段关联信息,将所述参考内容语义信息中具有最多的语义解读方式的语义文本字段确定为目标语义文本字段;

根据第一机器翻译模型和第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到初始文本字段翻译信息,并根据所述初始文本字段关联信息、所述初始文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息;

以所述初始文本字段翻译信息为参照信息在所述目标语义文本字段中获取文本隐藏语义信息,根据所述内容比较指示信息对应的文本内容比较顺序,将所述文本隐藏语义信息映射到所述初始文本字段关联信息所在语义文本字段,在所述初始文本字段关联信息所在语义文本字段中得到所述文本隐藏语义信息对应的隐藏语义翻译信息,并确定所述隐藏语义翻译信息的目标文本字段关联信息;

获取所述初始文本字段关联信息映射到所述目标语义文本字段中的文本翻译映射记录;根据所述隐藏语义翻译信息与所述文本翻译映射记录上的多个已翻译词语对应的词语语义差别之间的语义相似度,在所述参考内容语义信息中遍历所述目标文本字段关联信息对应的段落翻译内容,直至获取到的所述段落翻译内容所在语义文本字段的段落语义影响度与所述目标文本字段关联信息在所述原始内容语义信息中的段落语义影响度一致时,停止获取下一语义文本字段中的段落翻译内容,并生成所述目标文本字段关联信息与最后一次获取到的段落翻译内容之间的翻译校正比较结果。

可选地,

其中,所述生成所述原始语言文本的原始语言文本内容对应的原始内容语义信息,以及所述目标语言文本的参考语言文本的参考语言文本内容对应的参考内容语义信息,包括:

根据语义解读方式对应的解读方式使用记录生成所述原始语言文本的原始语言文本内容对应的所述原始内容语义信息,所述原始内容语义信息中任意相邻两个语义文本字段之间的语义解读信息用于确定所述语义解读方式对应的解读方式使用记录;

根据语义解读方式对应的解读方式使用记录生成所述目标语言文本的参考语言文本的参考语言文本内容对应的所述参考内容语义信息,所述参考内容语义信息中任意相邻两个语义文本字段之间的语义解读信息用于确定所述语义解读方式对应的解读方式使用记录;

其中,所述根据第一机器翻译模型和第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到初始文本字段翻译信息,并根据所述初始文本字段关联信息、所述初始文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息,包括:

根据所述第一机器翻译模型和所述第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到所述初始文本字段翻译信息;

在所述初始文本字段关联信息所在语义文本字段中获取文本字段标记信息,所述文本字段标记信息是以所述初始文本字段关联信息为热度字段信息的上下文对应的标记信息;

根据所述第一机器翻译模型和所述第二机器翻译模型将所述文本字段标记信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到关联文本字段翻译信息;

根据所述初始文本字段关联信息与所述文本字段标记信息之间的文本字段相对位置、所述初始文本字段翻译信息以及所述关联文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息;

其中,所述根据所述第一机器翻译模型和所述第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到所述初始文本字段翻译信息,包括:

根据所述第一机器翻译模型的待翻译文本提取记录、第二机器翻译模型的待翻译文本提取记录,将所述初始文本字段关联信息映射到所述目标语义文本字段对应的文本映射集中,得到初始字段映射信息;

根据所述原始语言文本的原始语言文本内容对应的语言类型标签和所述目标语言文本的参考语言文本的参考语言文本内容对应的语言类型标签之间的语种标签比较结果、语种标签关联结果,将所述初始字段映射信息转换到所述目标语言文本的参考语言文本的参考语言文本内容的语种标签对应的语种描述内容下,得到中间字段映射信息;

将所述中间字段映射信息映射到所述目标语言文本的参考语言文本的参考语言文本内容的语种标签对应的语种描述内容下具有语种选择记录的文本映射集中,得到中间文本字段翻译信息;

对所述中间文本字段翻译信息进行文本字段补全,并根据所述第一机器翻译模型将补全后的中间文本字段翻译信息映射到所述目标语义文本字段中,得到所述初始文本字段翻译信息。

可选地,对所述目标语言文本进行校正得到校正语言文本,包括:

获取所述目标语言文本的N个语言文本片段,所述N为正整数;

将每个语言文本片段划分为单词使用热度值不同的至少两个单词库;

从每个语言文本片段包括的至少两个单词库中确定待校正单词序列所处的单词库;

根据所述待校正单词序列在每个语言文本片段中所处的单词库,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词;

根据所述至少一个段落关键单词确定所述待校正单词序列对应的单词校正结果;通过所述单词校正结果,对所述目标语言文本对应的每个语言文本片段进行校正,得到所述校正语言文本;

其中,所述将每个语言文本片段划分为单词使用热度值不同的至少两个单词库,包括:按照预先设置的单词使用热度值与单词划分方式之间的映射关系,将每个语言文本片段划分为单词使用热度值不同的至少两个单词库;或者,通过统计预存的已校正的语言文本片段中的每个单词库的单词使用热度值和单词划分方式,确定单词使用热度值与单词划分方式之间的映射关系;根据确定的映射关系将每个语言文本片段划分为单词使用热度值不同的至少两个单词库;

其中,所述根据所述待校正单词序列在每个语言文本片段中所处的单词库,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词,包括:确定每个语言文本片段包括的待校正单词序列的单词词性分类信息;根据所述待校正单词序列在每个语言文本片段中所处的单词库,以及每个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词;

其中,所述至少两个单词库包括名词单词库和动词单词库,所述名词单词库的单词使用热度值高于所述动词单词库的单词使用热度值;所述根据所述待校正单词序列在每个语言文本片段中所处的单词库,以及每个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词,包括:

当所述待校正单词序列在所述N个语言文本片段包括的M个语言文本片段中处于所述名词单词库时,根据所述M个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述M个语言文本片段包括的待校正单词序列中,选择单词词性分类信息的分类总数最大的待校正单词序列作为第一候选待选择单词序列,所述M为小于N的正整数;

当所述待校正单词序列在所述N个语言文本片段包括的P个语言文本片段中处于所述动词单词库时,根据所述P个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述P个语言文本片段包括的待校正单词序列中,选择单词词性分类信息的分类总数最大的待校正单词序列作为第二候选待选择单词序列,所述P为小于N的正整数,且所述P与所述M之和等于所述N;

根据所述第一候选待选择单词序列的单词词性分类信息和所述第二候选待选择单词序列的单词词性分类信息,从所述第一候选待选择单词序列和所述第二候选待选择单词序列中选择至少一个段落关键单词。

可选地,所述方法还包括:

在所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果不满足所述设定条件时,对所述校正语言文本继续进行校正,直至所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果满足所述设定条件。

本发明实施例还提供了一种文本翻译校正装置,应用于与智能终端通信的服务器,所述装置包括:

第一翻译模块,用于采用训练好的第一机器翻译模型将所述智能终端上传的原始语言文本翻译为目标语言文本;

第二翻译模块,用于采用训练好的第二机器翻译模型对所述目标语言文本进行翻译,得到所述目标语言文本对应的参考语言文本;其中,所述目标语言文本与所述原始语言文本为不同语种,所述目标语言文本的参考语言文本和所述原始语言文本为相同语种;

翻译校正模块,用于根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正。

本发明实施例还提供了一种文本翻译校正系统,包括互相之间通信的服务器和智能终端;

所述智能终端用于:向所述服务器上传原始语言文本;

所述服务器用于:采用训练好的第一机器翻译模型将所述原始语言文本翻译为目标语言文本;采用训练好的第二机器翻译模型对所述目标语言文本进行翻译,得到所述目标语言文本对应的参考语言文本;其中,所述目标语言文本与所述原始语言文本为不同语种,所述目标语言文本的参考语言文本和所述原始语言文本为相同语种;根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正。

本发明实施例还提供了一种服务器,包括处理器、通信总线和存储器;所述处理器和所述存储器通过所述通信总线通信,所述处理器从所述存储器中读取计算机程序并运行,以实现上述的方法。

本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述的方法。

本发明实施例提供的文本翻译校正方法、装置、系统、服务器及可读存储介质具有以下技术效果:首先采用第一机器翻译模型对原始语言文本进行正向翻译得到目标语言文本,其次采用第二机器翻译模型对目标语言文本进行反向翻译得到参考语言文本,然后根据原始语言文本以及目标语言文本的参考语言文本,对目标语言文本进行翻译校正。由于原始语言文本和参考语言文本是相同语种的语言文本,因此可以将原始语言文本与参考语言文本进行比对,从而判断目标语言文本的翻译准确性,这样可以根据原始语言文本与参考语言文本实现对目标语言文本的多次迭代翻译校正,从而减少翻译人员的工作量,上述方案不仅可以消化较大的翻译工作量,还能够确保翻译工作的产能以及翻译结果的准确性。

在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种服务器的方框示意图。

图2为本发明实施例所提供的一种文本翻译校正方法的流程图。

图3为常见的翻译校对工作界面的示意图。

图4为本发明实施例所提供的翻译校对工作界面的示意图。

图5为本发明实施例所提供的一种文本翻译校正装置的框图。

图6为本发明实施例所提供的一种文本翻译校正系统的架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在本发明过程中对本发明做出的贡献。

基于上述研究,本发明实施例提供了一种文本翻译校正方法、装置、系统、服务器及可读存储介质。

图1示出了本发明实施例所提供的一种服务器10的方框示意图。本发明实施例中的服务器10可以为具有数据存储、传输、处理功能的服务端,如图1所示,服务器10包括:存储器11、处理器12、通信总线13和文本翻译校正装置20。

存储器11、处理器12和通信总线13之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有文本翻译校正装置20,所述文本翻译校正装置20包括至少一个可以软件或固件(firmware)的形式储存于所述存储器11中的软件功能模块,所述处理器12通过运行存储在存储器11内的软件程序以及模块,例如本发明实施例中的文本翻译校正装置20,从而执行各种功能应用以及数据处理,即实现本发明实施例中的文本翻译校正方法。

其中,所述存储器11可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。其中,存储器11用于存储程序,所述处理器12在接收到执行指令后,执行所述程序。

所述处理器12可能是一种集成电路芯片,具有数据的处理能力。上述的处理器12可以是通用处理器,包括中央处理器(CentralProcessingUnit,CPU)、网络处理器(NetworPProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

通信总线13用于通过网络生成服务器10与其他通信终端设备之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。

可以理解,图1所示的结构仅为示意,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例还提供了一种计算机用可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。

图2示出了本发明实施例所提供的一种文本翻译校正方法的流程图。所述方法有关的流程所定义的方法步骤应用于服务器10,可以由所述处理器12实现,所述方法包括以下步骤S21-步骤S23所描述的内容。

步骤S21,采用训练好的第一机器翻译模型将智能终端上传的原始语言文本翻译为目标语言文本。

例如,智能终端可以是智能手机、平板电脑、笔记本电脑或者其他能够进行即时通讯和文本消息发送的智能电子设备,在此不做限定。第一机器翻译模型可以是集成在服务器10中的机器翻译软件。原始语言文本可以理解为待翻译文本,例如中文“我有话要说”。目标语言文本可以理解为翻译文本,例如英文“I have something to say”。

步骤S22,采用训练好的第二机器翻译模型对所述目标语言文本进行翻译,得到所述目标语言文本对应的参考语言文本。

可以理解,所述目标语言文本与所述原始语言文本为不同语种,所述目标语言文本的参考语言文本和所述原始语言文本为相同语种。如图3所示,常见的翻译校对工作界面通常仅包括原始语言文本(原始内容)和目标语言文本(翻译内容),而对于目标语言文本的校正需要翻译人员进行逐一核实,这样会大大降低翻译工作效率。而图4则示出了本发明实施例所提供的翻译校对工作界面,图4所示的翻译校对工作界面在图3所示的翻译校对工作界面的基础上增设了参考语言文本(反翻译内容)的展示栏目,这样能够实现原始语言文本为和参考语言文本之间的比对。当然,原始语言文本为和参考语言文本之间的比对不仅可以通过人工比对,还可以通过服务器10基于人工智能技术进行比对。

步骤S23,根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正。

可以理解,可以通过将原始语言文本和参考语言文本进行比对,可以判断目标语言文本的翻译准确性,从而在原始语言文本和参考语言文本之间具有较大差异时,对目标语言文本进行校正,然后继续对校正语言文本进行反向翻译,直到原始语言文本和参考语言文本相同或者接近相同,这样能够确保文本翻译校正的准确性,此外,该方法可以基于服务器10进行智能化处理,从而减少翻译人员的工作量,上述方案不仅可以消化较大的翻译工作量,还能够确保翻译工作的产能以及翻译结果的准确性。

例如,在针对一些文本内容较多的论文、书籍的原始语言文本时,该方法能够快速、准确地实现文本的翻译和校正,无需翻译人员逐字逐行进行文本翻译校正。

在一些可能的实施例中,发明人发现,为了实现对目标语言文本的校正准确性,一般而言可能需要进行多次校正,为实现这一目的,步骤S23所描述的根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正,可以包括以下步骤S231-步骤S236所描述的内容。

步骤S231,将所述原始语言文本和所述目标语言文本的参考语言文本进行比较,得到所述原始语言文本和所述目标语言文本的参考语言文本对应的比较结果。

步骤S232,判断所述比较结果是否满足设定条件。

步骤S233,在所述原始语言文本和所述目标语言文本的参考语言文本对应的比较结果不满足所述设定条件时,对所述目标语言文本进行校正得到校正语言文本;采用所述第二机器翻译模型对所述校正语言文本进行翻译,得到所述校正语言文本对应的参考语言文本。

如图4所示,若原始语言文本为“今天你们都在啊”,而参考语言文本为“你们今天都来了”,则可以判定原始语言文本“今天你们都在啊”的目标语言文本“You’are all heretoday”的翻译是不准确的,在这个情况下,可以对目标语言文本进行校正得到校正语言文本,然后再次采用第二机器翻译模型对校正语言文本进行翻译,得到校正语言文本对应的参考语言文本。

步骤S234,将所述原始语言文本和所述校正语言文本的参考语言文本进行比较,得到所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果。

步骤S235,在所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果满足所述设定条件时,将所述校正语言文本进行输出。

可以理解,当比较结果满足设定条件时,将校正语言文本进行输出的方式可以是反馈给智能终端或、语音播报或者在图4所示的翻译校对工作界面上进行展示,再次不做限定。

步骤S236,在所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果不满足所述设定条件时,对所述校正语言文本继续进行校正,直至所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果满足所述设定条件。

可以理解,通过实施上述步骤S231-步骤S236,能够在所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果不满足所述设定条件时实现对目标语言文本或者校正语言文本的多次迭代校正,从而确保最终输出的校正语言文本的翻译准确性,此外,上述多次迭代校正是基于服务器10进行的,因此能够确保迭代校正的速率,从而提高翻译校正工作的产能。

在实际实施过程中发明人发现,为了确保翻译校正更加地贴合不同语种的用户的实际使用习惯,需要考虑文本的单词、语义以及段落之间的语言逻辑衔接问题,为实现这一目的,需要在进行原始语言文本以及参考语言文本的比较时考虑以上因素,为此,步骤S231所描述的将所述原始语言文本和所述目标语言文本的参考语言文本进行比较,得到所述原始语言文本和所述目标语言文本的参考语言文本对应的比较结果,可以包括以下步骤S2311-步骤S2315所描述的内容。

步骤S2311,提取所述原始语言文本的原始语言文本内容以及所述目标语言文本的参考语言文本的参考语言文本内容;生成所述原始语言文本的原始语言文本内容对应的原始内容语义信息,以及所述目标语言文本的参考语言文本的参考语言文本内容对应的参考内容语义信息;其中,所述原始内容语义信息和所述参考内容语义信息分别包括多个具有不同的语义解读方式的语义文本字段。

步骤S2312,提取所述原始语言文本的原始语言文本内容在所述原始内容语义信息的任一语义文本字段的初始文本字段关联信息,将所述参考内容语义信息中具有最多的语义解读方式的语义文本字段确定为目标语义文本字段。

步骤S2313,根据第一机器翻译模型和第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到初始文本字段翻译信息,并根据所述初始文本字段关联信息、所述初始文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息。

步骤S2314,以所述初始文本字段翻译信息为参照信息在所述目标语义文本字段中获取文本隐藏语义信息,根据所述内容比较指示信息对应的文本内容比较顺序,将所述文本隐藏语义信息映射到所述初始文本字段关联信息所在语义文本字段,在所述初始文本字段关联信息所在语义文本字段中得到所述文本隐藏语义信息对应的隐藏语义翻译信息,并确定所述隐藏语义翻译信息的目标文本字段关联信息。

步骤S2315,获取所述初始文本字段关联信息映射到所述目标语义文本字段中的文本翻译映射记录;根据所述隐藏语义翻译信息与所述文本翻译映射记录上的多个已翻译词语对应的词语语义差别之间的语义相似度,在所述参考内容语义信息中遍历所述目标文本字段关联信息对应的段落翻译内容,直至获取到的所述段落翻译内容所在语义文本字段的段落语义影响度与所述目标文本字段关联信息在所述原始内容语义信息中的段落语义影响度一致时,停止获取下一语义文本字段中的段落翻译内容,并生成所述目标文本字段关联信息与最后一次获取到的段落翻译内容之间的翻译校正比较结果。

在实际应用上述步骤S2311-步骤S2315所描述的内容时,能够考虑词语语义信息、段落语义信息、语义解读方式、语义文本字段以及隐藏语义信息等与不同语种的用户的实际使用习惯相关的参量,这样能够将文本的单词、语义以及段落之间的语言逻辑衔接问题考虑在内,如此,在进行原始语言文本以及参考语言文本的比较时通过考虑以上因素,能够确保比较结果最大程度地与实际的语言使用情况匹配,从而为后续的文本校正提供正确和可靠的校正指导依据。

进一步地,步骤S2311中,所述生成所述原始语言文本的原始语言文本内容对应的原始内容语义信息,以及所述目标语言文本的参考语言文本的参考语言文本内容对应的参考内容语义信息,可以包括:根据语义解读方式对应的解读方式使用记录生成所述原始语言文本的原始语言文本内容对应的所述原始内容语义信息,所述原始内容语义信息中任意相邻两个语义文本字段之间的语义解读信息用于确定所述语义解读方式对应的解读方式使用记录;根据语义解读方式对应的解读方式使用记录生成所述目标语言文本的参考语言文本的参考语言文本内容对应的所述参考内容语义信息,所述参考内容语义信息中任意相邻两个语义文本字段之间的语义解读信息用于确定所述语义解读方式对应的解读方式使用记录。

进一步地,步骤S2313所描述的根据第一机器翻译模型和第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到初始文本字段翻译信息,并根据所述初始文本字段关联信息、所述初始文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息,可以包括以下步骤S2313a-步骤S2313d所描述的内容。

步骤S2313a,根据所述第一机器翻译模型和所述第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到所述初始文本字段翻译信息。

步骤S2313b,在所述初始文本字段关联信息所在语义文本字段中获取文本字段标记信息,所述文本字段标记信息是以所述初始文本字段关联信息为热度字段信息的上下文对应的标记信息。

步骤S2313c,根据所述第一机器翻译模型和所述第二机器翻译模型将所述文本字段标记信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到关联文本字段翻译信息。

步骤S2313d,根据所述初始文本字段关联信息与所述文本字段标记信息之间的文本字段相对位置、所述初始文本字段翻译信息以及所述关联文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息。

更进一步地,步骤S2313a所描述的所述根据所述第一机器翻译模型和所述第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到所述初始文本字段翻译信息,可以包括以下步骤(1)-步骤(5)所描述的内容。

(1)根据所述第一机器翻译模型的待翻译文本提取记录、第二机器翻译模型的待翻译文本提取记录,将所述初始文本字段关联信息映射到所述目标语义文本字段对应的文本映射集中,得到初始字段映射信息。

(2)根据所述原始语言文本的原始语言文本内容对应的语言类型标签和所述目标语言文本的参考语言文本的参考语言文本内容对应的语言类型标签之间的语种标签比较结果、语种标签关联结果,将所述初始字段映射信息转换到所述目标语言文本的参考语言文本的参考语言文本内容的语种标签对应的语种描述内容下,得到中间字段映射信息。

(3)将所述中间字段映射信息映射到所述目标语言文本的参考语言文本的参考语言文本内容的语种标签对应的语种描述内容下具有语种选择记录的文本映射集中,得到中间文本字段翻译信息。

(4)对所述中间文本字段翻译信息进行文本字段补全,并根据所述第一机器翻译模型将补全后的中间文本字段翻译信息映射到所述目标语义文本字段中,得到所述初始文本字段翻译信息。

如此,基于上述步骤(1)-(4),能够实现对中间文本字段翻译信息的文本字段补全,从而确保初始文本字段翻译信息的完整性。

在实际实施过程中,为了确保校正效率,尽可能减少校正的次数,步骤S233所描述的对所述目标语言文本进行校正得到校正语言文本,进一步可以包括以下步骤S2331-步骤S2335所描述的内容。

步骤S2331,获取所述目标语言文本的N个语言文本片段,所述N为正整数。

步骤S2332,将每个语言文本片段划分为单词使用热度值不同的至少两个单词库。

步骤S2333,从每个语言文本片段包括的至少两个单词库中确定待校正单词序列所处的单词库。

步骤S2334,根据所述待校正单词序列在每个语言文本片段中所处的单词库,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词。

步骤S2335,根据所述至少一个段落关键单词确定所述待校正单词序列对应的单词校正结果;通过所述单词校正结果,对所述目标语言文本对应的每个语言文本片段进行校正,得到所述校正语言文本。

如此设计,基于上述步骤S2331-步骤S2335,能在对语言文本片段进行校正时考虑到单词的使用热度情况,从而避免选择一些冷门的单词进行校正而导致校正错误率的增加,如此,可以确保校正效率,尽可能减少校正的次数。

进一步地,步骤S2332所描述的将每个语言文本片段划分为单词使用热度值不同的至少两个单词库,包括:按照预先设置的单词使用热度值与单词划分方式之间的映射关系,将每个语言文本片段划分为单词使用热度值不同的至少两个单词库;或者,通过统计预存的已校正的语言文本片段中的每个单词库的单词使用热度值和单词划分方式,确定单词使用热度值与单词划分方式之间的映射关系;根据确定的映射关系将每个语言文本片段划分为单词使用热度值不同的至少两个单词库。

进一步地,步骤S2334所描述的根据所述待校正单词序列在每个语言文本片段中所处的单词库,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词,包括:步骤S23341,确定每个语言文本片段包括的待校正单词序列的单词词性分类信息;步骤S23342,根据所述待校正单词序列在每个语言文本片段中所处的单词库,以及每个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词。

更进一步地,所述至少两个单词库包括名词单词库和动词单词库,所述名词单词库的单词使用热度值高于所述动词单词库的单词使用热度值。在上述内容的基础上,步骤S23342中,所述根据所述待校正单词序列在每个语言文本片段中所处的单词库,以及每个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词,可以包括以下步骤S31-步骤S33所描述的内容。

步骤S31,当所述待校正单词序列在所述N个语言文本片段包括的M个语言文本片段中处于所述名词单词库时,根据所述M个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述M个语言文本片段包括的待校正单词序列中,选择单词词性分类信息的分类总数最大的待校正单词序列作为第一候选待选择单词序列,所述M为小于N的正整数。

步骤S32,当所述待校正单词序列在所述N个语言文本片段包括的P个语言文本片段中处于所述动词单词库时,根据所述P个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述P个语言文本片段包括的待校正单词序列中,选择单词词性分类信息的分类总数最大的待校正单词序列作为第二候选待选择单词序列,所述P为小于N的正整数,且所述P与所述M之和等于所述N。

步骤S33,根据所述第一候选待选择单词序列的单词词性分类信息和所述第二候选待选择单词序列的单词词性分类信息,从所述第一候选待选择单词序列和所述第二候选待选择单词序列中选择至少一个段落关键单词。

这样一来,可以根据单词词性分类信息确定出段落关键单词,从而确保段落关键词在段落中的影响程度尽可能是最大的,这样在后期进行校正时,能够提高校正的效率,避免多次进行校正。

基于上述同样的发明构思,还提供了如图5所示的文本翻译校正装置20,所述装置至少包括以下功能模块。

第一翻译模块21,用于采用训练好的第一机器翻译模型将所述智能终端上传的原始语言文本翻译为目标语言文本。

第二翻译模块22,用于采用训练好的第二机器翻译模型对所述目标语言文本进行翻译,得到所述目标语言文本对应的参考语言文本;其中,所述目标语言文本与所述原始语言文本为不同语种,所述目标语言文本的参考语言文本和所述原始语言文本为相同语种。

翻译校正模块23,用于根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正。

其中,关于上述第一翻译模块21、第二翻译模块22以及翻译校正模块23的描述可以参阅对图2所示的方法的描述,在此不做赘述。

进一步地,翻译校正模块23,可以用于:

判断所述比较结果是否满足设定条件;

在所述原始语言文本和所述目标语言文本的参考语言文本对应的比较结果不满足所述设定条件时,对所述目标语言文本进行校正得到校正语言文本;采用所述第二机器翻译模型对所述校正语言文本进行翻译,得到所述校正语言文本对应的参考语言文本;

将所述原始语言文本和所述校正语言文本的参考语言文本进行比较,得到所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果;

在所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果满足所述设定条件时,将所述校正语言文本进行输出。

进一步地,翻译校正模块23,可以用于:

提取所述原始语言文本的原始语言文本内容以及所述目标语言文本的参考语言文本的参考语言文本内容;生成所述原始语言文本的原始语言文本内容对应的原始内容语义信息,以及所述目标语言文本的参考语言文本的参考语言文本内容对应的参考内容语义信息;其中,所述原始内容语义信息和所述参考内容语义信息分别包括多个具有不同的语义解读方式的语义文本字段;

提取所述原始语言文本的原始语言文本内容在所述原始内容语义信息的任一语义文本字段的初始文本字段关联信息,将所述参考内容语义信息中具有最多的语义解读方式的语义文本字段确定为目标语义文本字段;

根据第一机器翻译模型和第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到初始文本字段翻译信息,并根据所述初始文本字段关联信息、所述初始文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息;

以所述初始文本字段翻译信息为参照信息在所述目标语义文本字段中获取文本隐藏语义信息,根据所述内容比较指示信息对应的文本内容比较顺序,将所述文本隐藏语义信息映射到所述初始文本字段关联信息所在语义文本字段,在所述初始文本字段关联信息所在语义文本字段中得到所述文本隐藏语义信息对应的隐藏语义翻译信息,并确定所述隐藏语义翻译信息的目标文本字段关联信息;

获取所述初始文本字段关联信息映射到所述目标语义文本字段中的文本翻译映射记录;根据所述隐藏语义翻译信息与所述文本翻译映射记录上的多个已翻译词语对应的词语语义差别之间的语义相似度,在所述参考内容语义信息中遍历所述目标文本字段关联信息对应的段落翻译内容,直至获取到的所述段落翻译内容所在语义文本字段的段落语义影响度与所述目标文本字段关联信息在所述原始内容语义信息中的段落语义影响度一致时,停止获取下一语义文本字段中的段落翻译内容,并生成所述目标文本字段关联信息与最后一次获取到的段落翻译内容之间的翻译校正比较结果。

进一步地,翻译校正模块23,可以用于:

根据语义解读方式对应的解读方式使用记录生成所述原始语言文本的原始语言文本内容对应的所述原始内容语义信息,所述原始内容语义信息中任意相邻两个语义文本字段之间的语义解读信息用于确定所述语义解读方式对应的解读方式使用记录;

根据语义解读方式对应的解读方式使用记录生成所述目标语言文本的参考语言文本的参考语言文本内容对应的所述参考内容语义信息,所述参考内容语义信息中任意相邻两个语义文本字段之间的语义解读信息用于确定所述语义解读方式对应的解读方式使用记录。

进一步地,翻译校正模块23,可以用于:

根据所述第一机器翻译模型和所述第二机器翻译模型将所述初始文本字段关联信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到所述初始文本字段翻译信息;

在所述初始文本字段关联信息所在语义文本字段中获取文本字段标记信息,所述文本字段标记信息是以所述初始文本字段关联信息为热度字段信息的上下文对应的标记信息;

根据所述第一机器翻译模型和所述第二机器翻译模型将所述文本字段标记信息映射到所述目标语义文本字段,在所述目标语义文本字段中得到关联文本字段翻译信息;

根据所述初始文本字段关联信息与所述文本字段标记信息之间的文本字段相对位置、所述初始文本字段翻译信息以及所述关联文本字段翻译信息,生成所述原始语言文本的原始语言文本内容和所述目标语言文本的参考语言文本的参考语言文本内容之间的内容比较指示信息。

进一步地,翻译校正模块23,可以用于:

根据所述第一机器翻译模型的待翻译文本提取记录、第二机器翻译模型的待翻译文本提取记录,将所述初始文本字段关联信息映射到所述目标语义文本字段对应的文本映射集中,得到初始字段映射信息;

根据所述原始语言文本的原始语言文本内容对应的语言类型标签和所述目标语言文本的参考语言文本的参考语言文本内容对应的语言类型标签之间的语种标签比较结果、语种标签关联结果,将所述初始字段映射信息转换到所述目标语言文本的参考语言文本的参考语言文本内容的语种标签对应的语种描述内容下,得到中间字段映射信息;

将所述中间字段映射信息映射到所述目标语言文本的参考语言文本的参考语言文本内容的语种标签对应的语种描述内容下具有语种选择记录的文本映射集中,得到中间文本字段翻译信息;

对所述中间文本字段翻译信息进行文本字段补全,并根据所述第一机器翻译模型将补全后的中间文本字段翻译信息映射到所述目标语义文本字段中,得到所述初始文本字段翻译信息。

进一步地,翻译校正模块23,可以用于:

获取所述目标语言文本的N个语言文本片段,所述N为正整数;

将每个语言文本片段划分为单词使用热度值不同的至少两个单词库;

从每个语言文本片段包括的至少两个单词库中确定待校正单词序列所处的单词库;

根据所述待校正单词序列在每个语言文本片段中所处的单词库,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词;

根据所述至少一个段落关键单词确定所述待校正单词序列对应的单词校正结果;通过所述单词校正结果,对所述目标语言文本对应的每个语言文本片段进行校正,得到所述校正语言文本;

其中,所述将每个语言文本片段划分为单词使用热度值不同的至少两个单词库,包括:按照预先设置的单词使用热度值与单词划分方式之间的映射关系,将每个语言文本片段划分为单词使用热度值不同的至少两个单词库;或者,通过统计预存的已校正的语言文本片段中的每个单词库的单词使用热度值和单词划分方式,确定单词使用热度值与单词划分方式之间的映射关系;根据确定的映射关系将每个语言文本片段划分为单词使用热度值不同的至少两个单词库;

其中,所述根据所述待校正单词序列在每个语言文本片段中所处的单词库,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词,包括:确定每个语言文本片段包括的待校正单词序列的单词词性分类信息;根据所述待校正单词序列在每个语言文本片段中所处的单词库,以及每个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词;

其中,所述至少两个单词库包括名词单词库和动词单词库,所述名词单词库的单词使用热度值高于所述动词单词库的单词使用热度值;所述根据所述待校正单词序列在每个语言文本片段中所处的单词库,以及每个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述N个语言文本片段包括的待校正单词序列中选择至少一个段落关键单词,包括:

当所述待校正单词序列在所述N个语言文本片段包括的M个语言文本片段中处于所述名词单词库时,根据所述M个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述M个语言文本片段包括的待校正单词序列中,选择单词词性分类信息的分类总数最大的待校正单词序列作为第一候选待选择单词序列,所述M为小于N的正整数;

当所述待校正单词序列在所述N个语言文本片段包括的P个语言文本片段中处于所述动词单词库时,根据所述P个语言文本片段包括的待校正单词序列的单词词性分类信息,从所述P个语言文本片段包括的待校正单词序列中,选择单词词性分类信息的分类总数最大的待校正单词序列作为第二候选待选择单词序列,所述P为小于N的正整数,且所述P与所述M之和等于所述N;

根据所述第一候选待选择单词序列的单词词性分类信息和所述第二候选待选择单词序列的单词词性分类信息,从所述第一候选待选择单词序列和所述第二候选待选择单词序列中选择至少一个段落关键单词。

进一步地,翻译校正模块23,还用于:

在所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果不满足所述设定条件时,对所述校正语言文本继续进行校正,直至所述原始语言文本和所述校正语言文本的参考语言文本对应的比较结果满足所述设定条件。

基于上述同样的发明构思,还提供了一种如图6所示的文本翻译校正系统60,包括互相之间通信的服务器10和智能终端30。

所述智能终端30用于:向所述服务器上传原始语言文本。

所述服务器10用于:采用训练好的第一机器翻译模型将所述原始语言文本翻译为目标语言文本;采用训练好的第二机器翻译模型对所述目标语言文本进行翻译,得到所述目标语言文本对应的参考语言文本;其中,所述目标语言文本与所述原始语言文本为不同语种,所述目标语言文本的参考语言文本和所述原始语言文本为相同语种;根据所述原始语言文本以及所述目标语言文本的参考语言文本,对所述目标语言文本进行翻译校正。

上述系统的进一步实施方式可以参阅对图2所示的方法的说明,因此在此不作更多说明。

在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器10,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 文本翻译校正方法、装置、系统、服务器及可读存储介质
  • 终端、服务提供装置和优惠券服务器、具有终端、服务提供装置和优惠券服务器的电子钱包系统、其控制方法、以及记录有计算机程序的非暂态计算机可读存储介质
技术分类

06120112501649