掌桥专利:专业的专利平台
掌桥专利
首页

一种多语种机器翻译方法、装置、存储介质及设备

文献发布时间:2023-06-19 10:58:46


一种多语种机器翻译方法、装置、存储介质及设备

技术领域

本申请涉及语言翻译技术领域,特别是一种多语种机器翻译方法、装置、存储介质及设备。

背景技术

当前的机器翻译模型大都只涉及两个语言的翻译,将输入待翻译语种文本经过通用编码器得到待翻译语种文本的文本特征表示,再把这个文本特征表示输入通用解码器,得到对应的目标翻译语种文本,但是显然,这个模型只能处理两个语言的翻译,无法处理其他语言的翻译,甚至目标翻译语种文本到待翻译语种文本的翻译都无法处理,这就导致机器翻译模型的应用价值低,重新训练一个新的语言翻译模型增加成本,降低了翻译效率。

发明内容

本发明利用语种池对待翻译语种以及目标翻译语种添加特殊标记,克服了过去一个机器翻译模型只能处理两个语言之间翻译的不足,实现多语种互译,提高机器翻译模型的应用价值,降低了翻译成本,提高了翻译效率。

为了解决上述问题,本发明采用的一个技术方案是:提供一种多语种机器翻译方法。其包括:确定包括多个语种的语种池,并对多个语种中的每一个语种设置特殊标记;利用语种池得到待翻译语种文本特殊标记,并根据待翻译语种文本以及待翻译语种文本特殊标记利用机器翻译模型的编码器得到待翻译语种文本的文本特征表示;以及利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本。

本发明采用的另一个技术方案是:提供一种多语种机器翻译装置,其包括:用于确定包括多个语种的语种池,并对多个语种中的每一个语种设置特殊标记的模块;用于利用语种池得到待翻译语种文本特殊标记,并根据待翻译语种文本以及待翻译语种文本特殊标记利用机器翻译模型的编码器得到待翻译语种文本的文本特征表示的模块;用于利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的模块。

在本发明的另一个技术方案中,提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案中的多语种机器翻译方法。

在本发明的另一技术方案中,提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中,处理器操作计算机指令以执行方案一中的多语种机器翻译方法。

本发明技术方案可以达到的有益效果是:利用语种池对待翻译语种以及目标翻译语种添加特殊标记,克服了过去一个机器翻译模型只能处理两个语言之间翻译的不足,实现多语种互译,提高机器翻译模型的应用价值,降低了翻译成本,提高了翻译效率。

附图说明

图1为本发明一种多语种机器翻译方法一个实施方式的示意图;

图2为本发明一种多语种机器翻译装置另一个实施方式的示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1所示为本发明一种多语种机器翻译方法一个实施方式的示意图。

在该具体实施方式中,本发明的多语种机器翻译方法包括:过程S101:确定包括多个语种的语种池,并对多个语种中的每一个语种设置特殊标记;过程S102:利用语种池得到待翻译语种文本特殊标记,并根据待翻译语种文本以及待翻译语种文本特殊标记利用机器翻译模型的编码器得到待翻译语种文本的文本特征表示;以及过程S103:利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本。

在图1所示的具体实施方式中,本发明的多语种机器翻译方法包括过程S101,确定包括多个语种的语种池,并对多个语种中的每一个语种设置特殊标记。

在本发明的一个具体实例中,上述确定包括多个语种的语种池,并对多个语种中的每一个语种设置特殊标记的过程包括,例如确定一个包括多个语种的语种池,里面含有n个语种,把这n个语种分别用特殊标记设置为[L1],[L2],……,[Ln]。

在图1所示的具体实施方式中,本发明的多语种机器翻译方法包括过程S102,利用语种池得到待翻译语种文本特殊标记,并根据待翻译语种文本以及待翻译语种文本特殊标记利用机器翻译模型的编码器得到待翻译语种文本的文本特征表示。

在本发明的一个具体实施例中,上述待翻译语种文本的文本特征表示包括待翻译语种文本的语义以及待翻译语种文本对应的语种。此过程以便于进一步利用解码器得到目标翻译语种文本。

在本发明的一个具体实例中,上述利用语种池得到待翻译语种文本特殊标记的过程包括,例如待翻译语种文本X为中文时,利用语种池匹配得到中文对应的特殊标记[L1],即待翻译语种文本特殊标记为[L1]。

在本发明的一个具体实例中,上述根据待翻译语种文本以及待翻译语种文本特殊标记利用机器翻译模型的编码器得到待翻译语种文本的文本特征表示的过程包括,例如将待翻译语种文本X与待翻译语种文本特殊标记[L1]输入到通用编码器,通用编码器根据其内部编码规则得到待翻译语种文本X的文本特征表示Z。

在图1所示的具体实施方式中,本发明的多语种机器翻译方法包括过程S103,利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本。

在本发明的一个具体实例中,上述利用语种池得到目标翻译语种特殊标记的过程包括,例如目标翻译语种为英文时,利用语种池匹配得到英文对应的特殊标记[L2],即目标翻译语种特殊标记为[L2]。

在本发明的一个具体实施例中,上述利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的过程包括,利用双语语料以及单语语料对机器翻译模型进行训练。此过程以半监督的方式进行机器翻译模型训练,机器翻译模型可以利用互联网上存在的大量的单语数据,如百度、谷歌以及各种社交媒体等网站中的数据,能够弥补现有技术中机器翻译模型训练所依赖的高质量双语平行语料不足的缺陷,进而提高了机器翻译模型的翻译精度。

在本发明的一个具体实施例中,上述利用双语语料以及单语语料对机器翻译模型进行训练的过程包括,首先利用单语语料对机器翻译模型进行训练,再利用双语语料对机器翻译模型进行训练。利用单语语料对机器翻译模型训练之后的机器翻译模型已经不完全依赖双语语料,此过程以半监督的方式进行机器翻译模型训练,提高了机器翻译模型利用海量数据的能力,进而提高了机器翻译模型的翻译精度。

在本发明的一个具体实例中,上述首先利用单语语料对机器翻译模型进行训练,再利用双语语料对机器翻译模型进行训练的过程包括,例如根据待翻译语种文本X的文本特征表示Z以及目标翻译语种特殊标记[L2],先利用中文单语语料以及英文单语语料对机器翻译模型进行训练,再利用中英文双语平行语料对机器翻译模型进行训练。

在本发明的一个具体实施例中,上述利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的过程包括,利用多语语料对机器翻译模型进行训练。此过程便于进一步得到目标翻译语种文本。

在本发明的一个具体实例中,上述利用多语语料对机器翻译模型进行训练的过程与上述利用双语语料以及单语语料对机器翻译模型进行训练的过程类似,此处不作赘述,但多语语料的数据相比双语语料以及单语语料少得多。

在本发明的一个具体实施例中,上述利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的过程包括,利用单语语料对机器翻译模型进行训练。此过程以便于当待翻译语种与目标翻译语种相同时进行翻译。

在本发明的一个具体实例中,上述利用单语语料对机器翻译模型进行训练的过程包括,实际是将待翻译语种文本进行复述得到目标翻译语种文本。

图2所示为本发明一种多语种机器翻译装置另一个实施方式的示意图。

在该具体实施方式中多语种机器翻译装置主要包括:模块201:用于确定包括多个语种的语种池,并对多个语种中的每一个语种设置特殊标记的模块;模块202:用于利用语种池得到待翻译语种文本特殊标记,并根据待翻译语种文本以及待翻译语种文本特殊标记利用机器翻译模型的编码器得到待翻译语种文本的文本特征表示的模块;以及模块203:用于利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的模块。

在本发明的一个具体实施例中,上述模块202用于利用语种池得到待翻译语种文本特殊标记,并根据待翻译语种文本以及待翻译语种文本特殊标记利用机器翻译模型的编码器得到待翻译语种文本的文本特征表示的模块的工作内容还包括,待翻译语种文本的文本特征表示包括待翻译语种文本的语义以及待翻译语种文本对应的语种。此过程以便于进一步利用解码器得到目标翻译语种文本。

在本发明的一个具体实施例中,上述模块203用于利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的模块的工作内容包括,利用双语语料以及单语语料对机器翻译模型进行训练。此过程以半监督的方式进行机器翻译模型训练,机器翻译模型可以利用互联网上存在的大量的单语数据,如百度、谷歌以及各种社交媒体等网站中的数据,能够弥补现有技术中机器翻译模型训练所依赖的高质量双语平行语料不足的缺陷,进而提高了机器翻译模型的翻译精度。

在本发明的一个具体实施例中,上述利用双语语料以及单语语料对机器翻译模型进行训练的过程包括,首先利用单语语料对机器翻译模型进行训练,再利用双语语料对机器翻译模型进行训练,利用单语语料对机器翻译模型训练之后的机器翻译模型已经不完全依赖双语语料,此过程以半监督的方式进行机器翻译模型训练,提高了机器翻译模型利用海量数据的能力,进而提高了机器翻译模型的翻译精度。

在本发明的一个具体实施例中,上述模块203用于利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的模块的工作内容包括,利用多语语料对机器翻译模型进行训练。此过程便于进一步得到目标翻译语种文本。

在本发明的一个具体实施例中,上述模块203用于利用语种池得到目标翻译语种特殊标记,并根据目标翻译语种特殊标记以及待翻译语种文本的文本特征表示利用机器翻译模型的解码器得到目标翻译语种文本的模块的工作内容包括,利用单语语料对机器翻译模型进行训练。此过程以便于当待翻译语种与目标翻译语种相同时进行翻译。

本发明提供的一种多语种机器翻译装置,可用于执行上述任一实施例描述的多语种机器翻译方法,其实现原理和技术效果类似,在此不再赘述。

在本发明的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其特征在于,计算机指令被操作以执行任一实施例描述的多语种机器翻译方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的多语种机器翻译方法。

在本申请所提供的实施方式中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 一种多语种机器翻译方法、装置、存储介质及设备
  • 多语种文本翻译方法、装置、计算机设备及存储介质
技术分类

06120112757899