掌桥专利:专业的专利平台
掌桥专利
首页

语句翻译方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 13:46:35


语句翻译方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域,特别涉及一种语句翻译方法、装置、计算机设备及存储介质。

背景技术

在全球化与信息时代的大背景下,翻译工作的意义重大。随着翻译工作量的日益增多,翻译模型应运而生。与人工翻译相比,翻译模型的效率更高,得到了更为广泛的应用。但是,随着人们对翻译准确率的需求越来越高,如何提高翻译模型的准确率成为了亟需解决的问题。

发明内容

本申请实施例提供了一种语句翻译方法、装置、计算机设备及存储介质,能够提高翻译模型的准确率。所述技术方案如下:

一方面,提供了一种语句翻译方法,所述方法包括:

基于翻译模型、第一样本语句及第二样本语句,获取第一预测结果,所述第一预测结果指示基于所述翻译模型将所述第一样本语句翻译成所述第二样本语句的可能性,所述第一样本语句与所述第二样本语句具有相同含义,且所述第一样本语句属于源语言,所述第二样本语句属于目标语言;

获取第三样本语句、第四样本语句及第一样本关系标签,所述第一样本关系标签指示所述第三样本语句与所述第四样本语句之间是否具有关联关系,所述第三样本语句与所述第四样本语句均属于所述源语言;

基于所述翻译模型、所述第三样本语句及所述第四样本语句,获取第一预测关系标签,所述第一预测关系标签指示所述第三样本语句与所述第四样本语句之间的预测关联关系;

基于所述第一预测结果、所述第一预测关系标签及所述第一样本关系标签,对所述翻译模型进行调整。

在一种可能实现方式中,所述基于所述第一预测概率及所述第一样本关系标签,获取第二损失值,包括:

响应于所述第一样本关系标签为第一正样本关系标签,基于所述第一预测概率,获取所述第二损失值,所述第一正样本关系标签指示所述第三样本语句与所述第四样本语句属于同一组对话,所述第一预测概率与所述第二损失值之间呈负相关关系;或者,

响应于所述第一样本关系标签为第一负样本关系标签,基于目标数值与所述第一预测概率之间的差值,获取所述第二损失值,所述第一负样本关系标签指示所述第三样本语句与所述第四样本语句不属于同一组对话,所述差值与所述第二损失值之间呈负相关关系。

在另一种可能实现方式中,所述基于所述第二预测概率及所述第一样本关系标签,获取第三损失值,包括:

响应于所述第一样本关系标签为第二正样本关系标签,基于所述第二预测概率,获取所述第三损失值,所述第二正样本关系标签指示所述第三样本语句与所述第四样本语句是由同一个对话者发出,所述第二预测概率与所述第三损失值之间呈负相关关系;或者,

响应于所述第一样本关系标签为第二负样本关系标签,基于目标数值与所述第二预测概率之间的差值,获取所述第三损失值,所述第二负样本关系标签指示所述第三样本语句与所述第四样本语句不是由同一个对话者发出,所述差值与所述第三损失值之间呈负相关关系。

在另一种可能实现方式中,所述基于所述翻译模型及所述第七编码特征,获取第一个翻译词语,包括:

基于所述翻译模型,对起始字符进行编码,得到所述起始字符对应的第八编码特征;

基于所述翻译模型,将所述第七编码特征及所述第八编码特征进行融合,得到融合特征;

基于所述翻译模型,对所述融合特征进行解码,得到第一个所述翻译词语。

在另一种可能实现方式中,所述基于所述翻译模型、所述第七编码特征及第一个所述翻译词语,获取下一个所述翻译词语,包括:

基于所述翻译模型,对所述起始字符及当前已得到的所述翻译词语进行编码,得到第九编码特征;

基于所述翻译模型,将所述第七编码特征及所述第九编码特征进行融合,得到融合特征;

基于所述翻译模型,对所述融合特征进行解码,得到下一个所述翻译词语。

另一方面,提供了一种语句翻译装置,所述装置包括:

获取模块,用于基于翻译模型、第一样本语句及第二样本语句,获取第一预测结果,所述第一预测结果指示基于所述翻译模型将所述第一样本语句翻译成所述第二样本语句的可能性,所述第一样本语句与所述第二样本语句具有相同含义,且所述第一样本语句属于源语言,所述第二样本语句属于目标语言;

所述获取模块,还用于获取第三样本语句、第四样本语句及第一样本关系标签,所述第一样本关系标签指示所述第三样本语句与所述第四样本语句之间是否具有关联关系,所述第三样本语句与所述第四样本语句均属于所述源语言;

所述获取模块,还用于基于所述翻译模型、所述第三样本语句及所述第四样本语句,获取第一预测关系标签,所述第一预测关系标签指示所述第三样本语句与所述第四样本语句之间的预测关联关系;

调整模块,用于基于所述第一预测结果、所述第一预测关系标签及所述第一样本关系标签,对所述翻译模型进行调整。

在一种可能实现方式中,所述获取模块,包括:

拼接单元,用于将所述第三样本语句与所述第四样本语句进行拼接,得到第一拼接语句;

编码单元,用于基于所述翻译模型,对所述第一拼接语句进行编码,得到第一编码特征,所述第一编码特征包括多个第一特征向量,第一个所述第一特征向量与位于所述第一拼接语句之前的起始字符对应,多个所述第一特征向量中除第一个所述第一特征向量以外的每个所述第一特征向量与一个第一词语对应,所述第一词语是指所述第一拼接语句中的词语,每个所述第一特征向量是由所述起始字符的词向量及多个所述第一词语的词向量加权融合得到的;

分类单元,用于对第一个所述第一特征向量进行分类,得到所述第一预测关系标签。

在另一种可能实现方式中,所述第一样本关系标签指示所述第三样本语句与所述第四样本语句是否属于同一组对话;所述分类单元,用于基于第一分类模型,对第一个所述第一特征向量进行分类,得到第一预测概率,所述第一预测概率指示所述第三样本语句与所述第四样本语句属于同一组对话的可能性;

所述调整模块,包括:

第一获取单元,用于基于所述第一预测结果,获取第一损失值;

所述第一获取单元,还用于基于所述第一预测概率及所述第一样本关系标签,获取第二损失值;

第一调整单元,用于基于所述第一损失值及所述第二损失值,对所述翻译模型及所述第一分类模型进行调整。

在另一种可能实现方式中,所述第一获取单元,用于响应于所述第一样本关系标签为第一正样本关系标签,基于所述第一预测概率,获取所述第二损失值,所述第一正样本关系标签指示所述第三样本语句与所述第四样本语句属于同一组对话,所述第一预测概率与所述第二损失值之间呈负相关关系;或者,响应于所述第一样本关系标签为第一负样本关系标签,基于目标数值与所述第一预测概率之间的差值,获取所述第二损失值,所述第一负样本关系标签指示所述第三样本语句与所述第四样本语句不属于同一组对话,所述差值与所述第二损失值之间呈负相关关系。

在另一种可能实现方式中,所述第三样本语句与所述第四样本语句属于同一组对话,所述第一样本关系标签指示所述第三样本语句与所述第四样本语句是否由同一个对话者发出;所述分类单元,用于基于第二分类模型,对第一个所述第一特征向量进行分类,得到第二预测概率,所述第二预测概率指示所述第三样本语句与所述第四样本语句由同一个对话者发出的可能性;

所述调整模块,包括:

第一获取单元,用于基于所述第一预测结果,获取第一损失值;

所述第一获取单元,还用于基于所述第二预测概率及所述第一样本关系标签,获取第三损失值;

第一调整单元,用于基于所述第一损失值及所述第三损失值,对所述翻译模型及所述第二分类模型进行调整。

在另一种可能实现方式中,所述第一获取单元,用于响应于所述第一样本关系标签为第二正样本关系标签,基于所述第二预测概率,获取所述第三损失值,所述第二正样本关系标签指示所述第三样本语句与所述第四样本语句是由同一个对话者发出,所述第二预测概率与所述第三损失值之间呈负相关关系;或者,响应于所述第一样本关系标签为第二负样本关系标签,基于目标数值与所述第二预测概率之间的差值,获取所述第三损失值,所述第二负样本关系标签指示所述第三样本语句与所述第四样本语句不是由同一个对话者发出,所述差值与所述第三损失值之间呈负相关关系。

在另一种可能实现方式中,所述编码单元,用于基于所述翻译模型中的特征提取子模型,对所述第一拼接语句进行特征提取,得到第二编码特征,所述第二编码特征包括多个词向量,多个所述词向量包括所述起始字符的词向量及多个所述第一词语的词向量;对于每个所述词向量:基于所述翻译模型中的编码子模型,对多个所述词向量进行加权融合,将加权融合后的向量与所述词向量进行融合,得到所述词向量对应的第一特征向量;将得到的多个所述第一特征向量构成所述第一编码特征。

在另一种可能实现方式中,所述获取模块,用于基于所述翻译模型,分别对所述第一样本语句及所述第二样本语句进行编码,得到所述第一样本语句对应的第三编码特征及所述第二样本语句对应的第四编码特征,所述第四编码特征包括每个第二词语对应的第二特征向量,所述第二词语是指所述第二样本语句中的词语,每个所述第二特征向量是由对应的第二词语及之前的第二词语的词向量加权融合得到的;基于所述翻译模型,将所述第三编码特征及所述第四编码特征进行融合,得到融合特征,所述融合特征包括每个所述第二词语对应的融合特征向量;基于所述翻译模型及所述融合特征,获取每个所述第二词语对应的第三预测概率,所述第三预测概率指示基于所述翻译模型将每个所述融合特征向量翻译成对应的第二词语的可能性。

在另一种可能实现方式中,所述装置还包括:

所述获取模块,还用于获取第一样本数据集,所述第一样本数据集包括具有相同含义的第一对话数据及第二对话数据,所述第一对话数据属于所述源语言,所述第二对话数据属于所述目标语言,所述第一对话数据和所述第二对话数据均是基于第三对话数据翻译得到,所述第三对话数据是由至少两个对话者分别以所述源语言和所述目标语言进行对话得到;

训练模块,用于基于所述第一样本数据集对所述翻译模型再次进行迭代训练。

在另一种可能实现方式中,所述训练模块,包括:

第二获取单元,用于从所述第一对话数据中获取第五样本语句以及与所述第五样本语句关联的第一关联语句、从所述第二对话数据中获取与所述第五样本语句具有相同含义的第六样本语句;

确定单元,用于从至少一个所述第一对话数据中,获取第七样本语句和第八样本语句,确定第二样本关系标签,所述第二样本关系标签指示所述第七样本语句与所述第八样本语句之间是否具有关联关系;

所述第二获取单元,还用于基于所述翻译模型、所述第五样本语句、所述第一关联语句及所述第六样本语句,获取第二预测结果,所述第二预测结果指示基于所述翻译模型将所述第五样本语句翻译成所述第六样本语句的可能性;

所述第二获取单元,还用于基于所述翻译模型、所述第七样本语句及所述第八样本语句,获取第二预测关系标签,所述第二预测关系标签指示所述第七样本语句与所述第八样本语句之间的预测关联关系;

第二调整单元,还用于基于所述第二预测结果、所述第二预测关系标签及所述第二样本关系标签,对所述翻译模型进行调整。

在另一种可能实现方式中,所述第二获取单元,用于将所述第五样本语句及所述第一关联语句进行拼接,得到第二拼接语句;基于所述翻译模型,分别对所述第二拼接语句及所述第六样本语句进行编码,得到所述第二拼接语句对应的第五编码特征及所述第六样本语句对应的第六编码特征,所述第六编码特征包括每个第三词语对应的第三特征向量,所述第三词语是指所述第六样本语句中的词语,每个所述第三特征向量是由对应的第三词语及之前的第三词语的词向量加权融合得到的;基于所述翻译模型,将所述第五编码特征及所述第六编码特征进行融合,得到融合特征,所述融合特征包括每个所述第三词语对应的融合特征向量;基于所述翻译模型及所述融合特征,获取每个所述第三词语对应的第四预测概率,所述第四预测概率指示基于所述翻译模型将每个所述融合特征向量翻译成对应的第三词语的可能性。

在另一种可能实现方式中,所述装置还包括:

所述获取模块,还用于获取第二样本数据集,所述第二样本数据集包括具有相同含义的第九样本语句及第十样本语句,所述第九样本语句属于源语言,所述第十样本语句属于目标语言;

训练模块,用于基于所述第二样本数据集对所述翻译模型进行迭代训练。

在另一种可能实现方式中,所述装置还包括:

所述获取模块,还用于基于所述翻译模型、目标语句及与所述目标语句关联的第二关联语句,获取所述目标语句对应的翻译语句,所述目标语句及所述第二关联语句均属于所述源语言,所述翻译语句属于所述目标语言。

在另一种可能实现方式中,所述获取模块,包括:

编码单元,用于基于所述翻译模型对所述目标语句及所述第二关联语句进行编码,得到第七编码特征;

第三获取单元,用于基于所述翻译模型及所述第七编码特征,获取第一个翻译词语;

所述第三获取单元,还用于基于所述翻译模型、所述第七编码特征及第一个所述翻译词语,获取下一个所述翻译词语,重复上述步骤,直至得到最后一个所述翻译词语;

构成单元,用于将得到的多个所述翻译词语构成所述翻译语句。

在另一种可能实现方式中,所述第三获取单元,用于基于所述翻译模型,对起始字符进行编码,得到所述起始字符对应的第八编码特征;基于所述翻译模型,将所述第七编码特征及所述第八编码特征进行融合,得到融合特征;基于所述翻译模型,对所述融合特征进行解码,得到第一个所述翻译词语。

在另一种可能实现方式中,所述第三获取单元,用于基于所述翻译模型,对所述起始字符及当前已得到的所述翻译词语进行编码,得到第九编码特征;基于所述翻译模型,将所述第七编码特征及所述第九编码特征进行融合,得到融合特征;基于所述翻译模型,对所述融合特征进行解码,得到下一个所述翻译词语。

另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的语句翻译方法中所执行的操作。

另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的语句翻译方法中所执行的操作。

再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的语句翻译方法中所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括:

本申请实施例提供的方法、装置、计算机设备及存储介质,在训练翻译模型时,基于具有相同含义、且分别属于不同语言的第一样本语句及第二样本语句来获取第一预测结果,第一预测结果指示基于翻译模型将第一样本语句翻译成第二样本语句的可能性,即第一预测结果能够反映出翻译模型的准确率,基于属于源语言的第三样本语句及第四样本语句来获取第一预测关系标签,第一预测关系标签指示第三样本语句与第四样本语句之间的预测关联关系,而第一样本关系标签指示第三样本语句与第四样本语句之间的真实关联关系,基于第一预测关系标签及第一样本关系标签,能够确定翻译模型对具有关联关系的语句的分析能力,基于第一预测结果、第一预测关系标签及第一样本关系标签来调整翻译模型,即在保证翻译模型具有翻译能力的情况下,提升翻译模型对具有关联关系的语句的分析能力,以便后续基于翻译模型对语句进行翻译时,能够结合翻译模型对具有关联关系的语句的分析能力,从而提升翻译模型的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据共享系统的结构示意图;

图2是本申请实施例提供的一种语句翻译方法的流程图;

图3是本申请实施例提供的一种语句翻译方法的流程图;

图4是本申请实施例提供的一种语句翻译方法的流程图;

图5是本申请实施例提供的一种语句翻译方法的流程图;

图6是本申请实施例提供的一种语句翻译方法的流程图;

图7是本申请实施例提供的一种语句翻译装置的结构示意图;

图8是本申请实施例提供的一种语句翻译装置的结构示意图;

图9是本申请实施例提供的一种终端的结构示意图;

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,能够将第一样本语句称为第二样本语句,且类似地,可将第二样本语句称为第一样本语句。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个词语包括3个词语,而每个是指这3个词语中的每一个词语,任一是指这3个词语中的任意一个词语,能够是第一个词语,或者,是第二个词语,或者,是第三个词语。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的方案,基于人工智能的自然语言处理、机器学习等技术,能够训练翻译模型,利用训练后的翻译模型,实现了语句翻译方法。

本申请实施例提供的语句翻译方法,能够应用于计算机设备中。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。

在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

可选地,用于训练翻译模型的样本语句、对话数据及样本关系标签均存储于该区块链系统中,翻译模型部署在该区块链系统中,区块链系统中的任一设备能够基于该翻译模型来完成翻译任务。

参见图1所示的数据共享系统,数据共享系统100是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点101,多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。

表1

本申请实施例提供的方法,可用于多种场景。

例如,在线翻译场景下:

服务器采用本申请实施例提供的语句翻译方法,对翻译模型进行训练,将训练完成的翻译模型部署在服务器中,终端基于用户标识登录翻译应用,该服务器为该翻译应用提供服务,终端基于该翻译应用向服务器发送待翻译的目标语句及与目标语句关联的关联语句,服务器接收该目标语句及该关联语句,基于翻译模型、目标语句及关联语句,翻译出该目标语句对应的翻译语句,向终端发送该翻译语句,终端基于该翻译应用接收并显示该翻译语句。

再例如,面对面对话场景下:

服务器采用本申请实施例提供的语句翻译方法,对翻译模型进行训练,将训练完成的翻译模型部署在服务器中,终端基于用户标识登录翻译应用,该服务器为该翻译应用提供服务,终端基于该翻译应用采集任一对话者发出的属于源语言的语音数据,将语音数据转换成属于源语言的第一文本信息,基于该翻译应用向服务器发送待翻译的第一文本信息,服务器接收该第一文本信息,从该第一文本信息中获取多个目标语句及每个目标语句的关联语句,对于每个目标语句,基于翻译模型、该目标语句及对应的关联语句,翻译出与该目标语句具有相同含义、且属于目标语言的翻译语句,将得到的多个翻译语句构成与该第一文本信息具有相同含义、且属于目标语言的第二文本信息,向终端发送该第二文本信息,终端基于该翻译应用接收该第二文本信息,将第二文本信息转换成属于目标语言的语音数据,播放转换后的语音数据,以使终端对应的对话者能够倾听播放的语音数据,从而实现了同声传译效果,以保证以不同语言交流的两个对话者之间能够进行对话。

图2是本申请实施例提供的一种语句翻译方法的流程图,该方法由计算机设备执行,如图2所示,该方法包括:

201、基于翻译模型、第一样本语句及第二样本语句,获取第一预测结果,第一预测结果指示基于翻译模型将第一样本语句翻译成第二样本语句的可能性,第一样本语句与第二样本语句具有相同含义,且第一样本语句属于源语言,第二样本语句属于目标语言。

在本申请实施例中,该源语言与该目标语言是不同的任意两种语言,例如,源语言为中文,目标语言为英文。翻译模型用于将属于源语言的语句翻译成属于目标语言的语句,第二样本语句即为将属于源语言的第一样本语句翻译成目标语言时得到的语句。该第一预测结果能够反映出该翻译模型的准确率,后续能够基于获取到的第一预测结果来调整翻译模型,以提升翻译模型的准确率。

202、获取第三样本语句、第四样本语句及第一样本关系标签,第一样本关系标签指示第三样本语句与第四样本语句之间是否具有关联关系,第三样本语句与第四样本语句均属于源语言。

在本申请实施例中,第三样本语句与第四样本语句之间可能具有关联关系,也可能不具有关联关系,第一样本关系标签是由人工基于第三样本语句及第四样本语句之间的关系设置的,或者,是采用其他方式确定的。

203、基于翻译模型、第三样本语句及第四样本语句,获取第一预测关系标签,第一预测关系标签指示第三样本语句与第四样本语句之间的预测关联关系。

其中,第一预测关系标签是基于翻译模型对第三样本语句及第四样本语句进行处理后得到的关系标签。

204、基于第一预测结果、第一预测关系标签及第一样本关系标签,对翻译模型进行调整。

第一预测结果及第一预测关系标签均是基于翻译模型得到的,第一预测结果能够反映出翻译模型的准确率,基于第一预测关系标签及第一样本关系标签,能够确定翻译模型对具有关联关系的语句的分析能力,基于第一预测结果、第一预测关系标签及第一样本关系标签,来调整翻译模型中的模型参数,即在保证翻译模型具有翻译能力的情况下,提升翻译模型对具有关联关系的语句的分析能力。

本申请实施例提供的方法,在训练翻译模型时,基于具有相同含义、且分别属于不同语言的第一样本语句及第二样本语句来获取第一预测结果,第一预测结果指示基于翻译模型将第一样本语句翻译成第二样本语句的可能性,即第一预测结果能够反映出翻译模型的准确率,基于属于源语言的第三样本语句及第四样本语句来获取第一预测关系标签,第一预测关系标签指示第三样本语句与第四样本语句之间的预测关联关系,而第一样本关系标签指示第三样本语句与第四样本语句之间的真实关联关系,基于第一预测关系标签及第一样本关系标签,能够确定翻译模型对具有关联关系的语句的分析能力,基于第一预测结果、第一预测关系标签及第一样本关系标签来调整翻译模型,即在保证翻译模型具有翻译能力的情况下,提升翻译模型对具有关联关系的语句的分析能力,以便后续基于翻译模型对语句进行翻译时,能够结合翻译模型对具有关联关系的语句的分析能力,从而提升翻译模型的准确率。

在上述图2所示实施例的基础上,本申请实施例还提供了如下实施例,对调整翻译模型的过程进行详细说明。

图3是本申请实施例提供的一种语句翻译方法的流程图,该方法由计算机设备执行,如图3所示,该方法包括:

301、基于翻译模型,对第一样本语句进行编码,得到第一样本语句对应的第三编码特征。

在本申请实施例中,第一样本语句与第二样本语句具有相同含义,且第一样本语句属于源语言,第二样本语句属于目标语言。基于该翻译模型、该第一样本语句及该第二样本语句,以确定基于该翻译模型翻译将该第一样本语句翻译成第二样本语句的可能性。该翻译模型为任意的网络模型,例如,该翻译模型为Transformer(一种网络模型),或者,RNN(Recurrent Neural Network,循环神经网络)。

其中,第一样本语句是属于源语言的任意的语句,例如,第一样本语句为属于中文的语句,如“今天下雨了”,该第三编码特征为第一样本语句编码得到的特征,用于表征该第一样本语句的含义。

在一种可能实现方式中,第三编码特征包括多个特征向量,该多个特征向量中的第一个特征向量与该第一样本语句之前的起始字符对应,多个特征向量中除第一个特征向量以外的每个特征向量与一个第四词语对应,该第四词语是指第一样本语句中的词语,每个特征向量是由起始字符的词向量及多个第四词语的词向量加权融合得到的。

其中,起始字符为任意的字符,在对第一样本语句进行处理时,在该第一样本语句之前添加起始字符,该起始字符指示位于该起始字符之后的词语是待处理的语句包含的词语,即该起始字符能够指示出语句的起始位置。在本申请实施例中,将第一样本语句中的词语成为第四词语,基于翻译模型对第一样本语句进行编码时,在第一样本语句之前添加一个起始字符,再对起始字符及第一样本语句进行编码,因此能够获取到起始字符对应的特征向量及每个第四词语对应的特征向量。

在一种可能实现方式中,该步骤301包括:基于翻译模型中的特征提取子模型,对第一样本语句进行特征提取,得到第一样本语句对应的编码特征,该第一样本语句对应的编码特征包括起始字符的词向量及每个第四词语的词向量,基于翻译模型中的编码子模型,对该第一样本语句对应的编码特征进行编码,得到该第三编码特征。

其中,特征提取子模型用于将任一词语转换成对应的词向量,例如,该特征提取子模型为词嵌入层,基于该词嵌入层,能够将任一词语映射为对应的词向量。该编码子模型用于对编码特征包含的多个词向量再次进行编码。该第一样本语句对应的编码特征,也即是该第一样本语句对应的词向量序列,该词向量序列包括起始字符的词向量及该第一样本语句包含的每个第四词语的词向量。

基于特征提取子模型,先获取第一样本语句中每个第四词语的词向量,再基于编码子模型对该第一样本语句对应的编码特征再次进行编码,以使得到的每个特征向量中融入了起始字符的词向量及每个第四词语的词向量,增强了起始字符及多个第四词语之间联系,从而提升了第三编码特征的准确性。

可选地,编码子模型包括多个编码层,基于编码子模型获取第三编码特征的过程包括:基于第一个编码层,对第一样本语句对应的编码特征进行编码,得到第一个编码特征,基于第二个编码层,对前一个编码层输出的编码特征再次进行编码,输出一个编码特征,重复上述步骤,直至得到最后一个编码层输出的该第三编码特征。

在本申请实施例中,第一个编码层的输入为特征提取子模型输出的第一样本语句对应的编码特征,也即是第一编码层的输入为词向量序列,第一个编码层的输出为编码特征,从第二个编码层开始,每个编码层的输入为前一个编码层输出的编码特征,输出为新的编码特征,最后一个编码层输出的即为该第三编码特征。例如,每个编码层输出的编码特征为隐状态序列,该隐状态序列包括起始字符对应的特征向量及每个第四词语对应的特征向量,最后一个编码层输出的隐状态序列即为该第三编码特征。

可选地,每个编码层包括自注意力子层和前馈网络子层,该自注意力子层用于将输入的编码特征中的向量进行加权融合,该前馈网络子层用于对加权融合后的编码特征进行特征变换。

例如,对于多个编码层中的任一编码层,输入该编码层的编码特征包括多个第一向量,则该编码层的处理过程包括:对于每个第一向量,基于该编码层中的自注意力子层,将该编码特征中多个第一向量进行加权融合,将加权融合后的向量与该第一向量进行融合,得到该第一向量更新后的向量,将多个第一向量更新后的向量构成该自注意力子层输出的编码特征;基于该前馈网络子层,对自注意力子层输出的编码特征进行特征变换,将特征变换后的特征与该自注意力子层输出的编码特征进行融合,得到该编码层输出的编码特征。

可选地,对于任一编码层中的自注意力子层,该自注意力子层中输入的编码特征、该自注意力子层输出的编码特征,满足以下关系:

d

其中,l用于表示编码子模型中的多个编码层的序号,l为大于0的整数;d

可选地,对于任一编码层中的前馈网络子层,该前馈网络子层中输入的编码特征、该前馈网络子层输出的编码特征,满足以下关系:

h

其中,l用于表示编码子模型中的多个编码层的序号,l为大于0的整数;h

302、基于翻译模型,对第二样本语句进行编码,得到第二样本语句对应的第四编码特征。

其中,第二样本语句属于目标语言,该第二样本语句相当于是将第一样本语句由源语言翻译成目标语言时得到的语句。该第四编码特征为第二样本语句编码得到的特征,用于表征该第二样本语句的含义。该第四编码特征包括每个第二词语对应的第二特征向量,第二词语是指第二样本语句中的词语,每个第二特征向量是由对应的第二词语及之前的第二词语的词向量加权融合得到的。例如,第二样本语句包括4个第二词语,第3个第二词语对应的第二特征向量是由第1个至第3个第二词语的词向量加权融合得到的,第4个第二词语对应的特征向量是由第1个至第4个第二词语的词向量加权融合得到的。在本申请实施例中,对于任一第二词语,该第二词语之前的第二词语即为该第二词语的前序词语,例如,第二样本语句包括4个第二词语,第2个第二词语的前序词语仅包括第1个第二词语,第3个第二词语的前序词语包括第1个第二词语和第2个第二词语。即每个第二特征向量是由对应的第二词语及对应的前序词语的词向量加权融合得到的。

在获取任一第二词语对应的特征向量时,仅基于该第二词语及该第二词语之前的第二词语的词向量来获取,而不会涉及到该第二词语之后的第二词语的词向量,实现了对该第二词语之后的词语进行掩码的效果。

在一种可能实现方式中,基于翻译模型对第二样本语句进行编码时,在第二样本语句之前添加一个起始字符,获取起始字符对应的第二特征向量及每个第二词语对应的第二特征向量,即该第四编码特征包括多个第二特征向量,该多个第二特征向量中的第一个第二特征向量与起始字符对应,多个第二特征向量中除第一个特征向量以外的每个第二特征向量与一个第二词语对应。

在一种可能实现方式中,该步骤302包括:基于翻译模型中的特征提取子模型,对第二样本语句进行特征提取,得到第二样本语句对应的编码特征,该第二样本语句对应的编码特征包括起始字符的词向量及每个第二词语的词向量,基于翻译模型中的解码子模型,对该第二样本语句对应的编码特征进行编码,得到该第四编码特征。

其中,基于特征提取子模型得到的第二样本语句对应的编码特征,也即是该第二样本语句对应的词向量序列,该词向量序列包括起始字符的词向量及每个第二词语的词向量。解码子模型用于对语句的编码特征再次进行编码,且在编码过程中,按照语句包含的词语的顺序,仅将任一词语及该词语之前的词语的词向量进行加权融合。

通过特征提取子模型,先获取第二样本语句中每个第二词语的词向量,再基于解码子模型对该第二样本语句对应的编码特征再次进行编码,以使得到的每个第二词语对应的特征向量中融入了对应的第二词语的词向量及对应的前序词语的词向量,增强每个第二词语与对应的前序词语之间的联系,从而提升了第四编码特征的准确性。

需要说明的是,本申请实施例是基于翻译模型对具有相同含义的第一样本语句及第二样本语句进行处理,来获取第三编码特征及第四编码特征的,而在另一实施例中,在执行步骤301之前,先获取第一样本语句及第二样本语句。

在一种可能实现方式中,获取第一样本语句及第二样本语句的方式包括:获取第三样本数据集,该第三样本数据集包括多对样本语句,每对样本语句具有相同含义,且每对样本语句包括属于源语言的语句及属于目标语言的语句,从第三样本数据集中选取任一对样本语句,得到该第一样本语句及第二样本语句。

其中,该第三样本数据集即为语句级的数据集,该第三样本数据集包括属于源语言和目标语言的语句对。

303、基于翻译模型,将第三编码特征及第四编码特征进行融合,得到融合特征,融合特征包括每个第二词语对应的融合特征向量。

其中,融合特征包括多个融合特征向量,每个融合特征向量与一个第二词语对应。该融合特征向量中融入了第三编码特征及第四编码特征,即该融合特征能够体现第一样本语句及第二样本语句之间的关系。

在一种可能实现方式中,该步骤303包括:基于翻译模型中的解码子模型,将第三编码特征及第四编码特征进行融合,得到融合特征。其中,该解码子模型用于将属于不同语言的样本语句的编码特征进行融合。

需要说明的是,本申请实施例是基于翻译模型来获取第四编码特征,并基于第四编码特征及第三编码特征来获取融合特征的,而在另一实施例中,翻译模型还包括解码子模型,解码子模型包括多个解码层,基于多个解码层、第二样本语句及第三编码特征来获取融合特征的。

在一种可能实现方式中,基于多个解码层、第二样本语句及第三编码特征获取融合特征的过程包括:基于翻译模型中的特征提取子模型,对第二样本语句进行特征提取,得到第二样本语句对应的编码特征,基于第一个解码层,对第二样本语句对应的编码特征进行编码,得到第一个编码特征;基于第一个解码层,将第一个编码特征与第三编码特征进行融合,得到第一个融合特征;基于第二个解码层,对前一个解码层输出的融合特征进行编码,得到第二个编码特征,基于第二个解码层,将第二个编码特征与第三编码特征进行融合,得到下一个融合特征,重复上述步骤,直至最后一个解码层输出最后一个融合特征。

其中,每个解码层输出的编码特征包括每个第二词语对应的特征向量,每个特征向量是由对应的第二词语及之前的第二词语所对应的向量加权融合得到的。基于多个解码层来获取融合特征的过程中,多个解码层获取编码特征的过程不同。

对于第一个解码层,该第一个解码层的输入为第二样本语句对应的编码特征,该第二样本语句对应的编码特征包括起始字符的词向量及多个第二词语的词向量。基于第一个编码层对第二样本语句对应的编码特征进行编码时,按照输入的编码特征中的多个词向量的顺序,依次获取每个词向量对应的加权后的特征向量。对于任一第二词语,仅基于第二词语的词向量及该第二词语之前的起始字符和第二词语的词向量,来获取该第二词语对应的特征向量,在获取到多个第二词语对应的特征向量后,将得到的多个第二词语对应的特征向量构成第一个编码特征。

对于除第一个解码层外的每个解码层,该解码层输入的是上一个解码层输出的融合特征,且融合特征包括多个特征向量。基于该编码层对输入的融合特征进行编码时,按照输入的融合特征中的多个特征向量的顺序,依次获取每个特征向量对应的加权后的特征向量。对于任一第二词语,仅基于第二词语对应的特征向量及该第二词语之前的起始字符和第二词语对应的特征向量,来获取该第二词语对应加权后的特征向量,在获取到多个第二词语对应加权后的特征向量后,将得到的多个第二词语对应加权后的特征向量构成该解码层输出的编码特征。

可选地,每个解码层输出的融合特征为隐状态序列,该隐状态序列包括起始字符对应的融合特征向量及每个第二词语对应的融合特征向量,最后一个解码层输出的隐状态序列即为上述步骤303中得到的融合特征。

可选地,每个解码层包括掩码自注意力子层、交叉注意力子层及前馈网络子层,该掩码自注意力子层用于按照输入的特征中的向量的顺序,依次将输入的特征中的向量进行加权融合;该交叉注意力子层用于将掩码自注意力子层输出的编码特征与第三编码特征进行融合;该前馈网络子层用于对交叉注意力子层输出的融合特征进行特征变换,输出变换后的融合特征。

例如,对于多个解码层中的任一解码层,输入该解码层的特征包括多个第二向量,即将该特征输入掩码自注意力子层,由该编码层中的掩码自注意力子层、交叉注意力子层及前馈网络子层进行处理,输出该解码层输出的融合特征。该解码层的处理过程包括:对于任一第二向量,基于该解码层中的掩码自注意力子层,对输入的特征中该第二向量及该第二向量之前的第二向量进行加权融合,将加权融合后的向量与该第二向量进行融合,得到该第二向量更新后的向量,将得到的多个第二向量更新后的向量构成该掩码自注意力子层输出编码特征;基于交叉注意力子层,将掩码自注意力子层输出的编码特征与第三编码特征进行加权融合,将加权融合后的特征与第四编码特征进行融合,输出融合特征;基于前馈网络子层,对交叉注意力子层输出的融合特征进行特征变换,将特征变换后的融合特征与交叉注意力子层输出的融合特征进行融合,输出得到的融合特征。

可选地,对于任一解码层中的掩码自注意力子层,该掩码自注意力子层中输入的特征、该掩码自注意力子层输出的编码特征,满足以下关系:

a

其中,l用于表示解码子模型中的多个解码层的序号,l为大于0的整数;a

可选地,对于任一解码层中的交叉注意力子层,该交叉注意力子层中输入的编码特征、该交叉注意力子层输出的融合特征,满足以下关系:

其中,l用于表示解码子模型中的多个解码层的序号,l为大于0的整数;z

可选地,对于任一解码层中的前馈网络子层,该前馈网络子层中输入的融合特征、前馈网络子层输出的转换后的融合特征,满足以下关系:

s

其中,l用于表示解码子模型中的多个解码层的序号,l为大于0的整数;s

304、基于翻译模型及融合特征,获取每个第二词语对应的第三预测概率,第三预测概率指示基于翻译模型将融合特征中的每个融合特征向量翻译成对应的第二词语的可能性。

其中,融合特征包括多个第二词语对应的融合特征向量,基于翻译模型及融合特征中的融合特征向量,将每个融合特征向量翻译为属于目标语言的词语,即可得到每个第二词语对应的第三预测概率。第三预测概率越大,表示将融合特征中的融合特征向量翻译成对应的第二词语的可能性越大,第三预测概率越小,表示将融合特征中的融合特征向量翻译成对应的第二词语的可能性越小。获取到的每个第二词语对应的第三预测概率,即为基于该翻译模型、第一样本语句及第二样本语句得到的第一预测结果,多个第二词语对应的第三预测概率能够体现出翻译模型的准确率。

在一种可能实现方式中,该步骤304包括:对于该融合特征中的任一融合特征向量,基于该翻译模型,将该融合特征向量与词语库中的多个词语的词向量进行对比,得到该多个词语对应的预测概率,从该多个词语对应的预测概率中,选取该融合特征向量对应的第二词语所对应的第三预测概率。

在本申请实施例中,翻译模型对应有词语库,该词语库包括的多个词语均属于目标语言,每个词语的词向量用于表征对应的词语。可选地,该词语库是由人工预先配置的。对于融合特征中的任一融合特征向量,通过将该融合特征向量与词语库中的每个词语的词向量进行比对,以确定将该融合特征向量翻译成每个词语的预测概率,从得到的多个概率中选取对应的第二词语所对应的第三预测概率。

可选地,获取多个词语对应的预测概率的过程包括:基于该翻译模型,确定该融合特征向量与词语库中每个词语的词向量之间的相似度,基于每个词语对应的相似度分别确定每个词语对应的预测概率。

其中,每个词语对应的预测概率与对应的相似度呈正相关关系。融合特征向量与词语的词向量之间的相似度,能够表示融合特征向量对应的翻译词语与该词语之间的相似程度,任一融合特征向量与任一词语之间的相似程度越大,表示将该融合特征向量翻译为该词语的可能性越大,即该词语对应的预测概率越大,任一融合特征向量与任一词语之间的相似程度越小,表示将该融合特征向量翻译为该词语的可能性越小,即该词语对应的预测概率越小。基于融合特征向量与词向量之间的相似度来确定词语对应的预测概率,以保证预测概率的准确性。

在一种可能实现方式中,翻译模型包括映射子模型,该步骤304包括:对于该融合特征中的任一融合特征向量,基于翻译模型中的映射子模型,对该融合特征向量进行映射,得到概率序列,该概率序列包括多个维度的概率,每个维度与词语库中的一个词语对应,将该融合特征向量对应的第二词语所对应的维度上的概率,确定为该融合特征向量对应的第二词语所对应的第三预测概率。

在本申请实施例中,翻译模型对应有词语库,该词语库包括的多个词语均属于目标语言,映射子模型用于将融合特征向量映射到词语库中的每个词语上,得到的概率序列即为词语库中多个词语对应的预测概率的概率分布。

可选地,基于映射子模型获取概率序列的过程,满足以下关系:

P(y

其中,y

需要说明的是,本申请实施例是基于翻译模型,采用先编码、再融合的方式,对第一样本语句及第二样本语句进行处理,来获取第一预测结果的,而在另一实施例中,无需执行步骤301-304,能够采取其他方式,基于翻译模型、第一样本语句及第二样本语句,获取第一预测结果,第一预测结果指示基于翻译模型将第一样本语句翻译成第二样本语句的可能性。

305、获取第三样本语句、第四样本语句及第一样本关系标签,第一样本关系标签指示第三样本语句与第四样本语句之间是否具有关联关系,第三样本语句与第四样本语句均属于源语言。

其中,第一样本关系标签能够以任意的形式表示,例如,第一样本关系标签以数值的形式来指示第三样本语句与第四样本语句之间是否具有关联关系,如,第一样本关系标签为1,表示第三样本语句与第四样本语句之间具有关联关系,第一样本关系标签为0,表示第三样本语句与第四样本语句之间具有关联关系。

在一种可能实现方式中,该步骤305包括:获取第四样本数据集,第四样本数据集包括至少一个对话数据,该对话数据属于源语言,从至少一个对话数据中获取第三样本语句及第四样本语句,确定第一样本关系标签。

在本申请实施例中,第四样本数据集中仅包括属于源语言的对话数据,即第四样本数据集为单语样本数据集。每个对话数据是由至少两个对话者以源语言进行对话得到的。该第三样本语句属于任一对话数据,该第四样本语句属于任一对话数据,该第三样本语句与该第四样本语句所属的对话数据可能相同,也可能不同。

例如,第三样本语句与第四样本语句之间具有关联关系,表示第三样本语句与第四样本语句属于同一对话数据;或者,表示第三样本语句与第四样本语句由同一对话者发出的,且第三样本语句与第四样本语句属于同一对话数据。第三样本语句与第四样本语句之间不具有关联关系,表示第三样本语句与第四样本语句不属于同一对话数据;或者,第三样本语句与第四样本语句属于同一对话数据,但第三样本语句与第四样本语句不是由同一对话者发出的。

306、将第三样本语句与第四样本语句进行拼接,得到第一拼接语句。

采用拼接的方式,将第三样本语句与第四样本语句拼接成一个长语句。

在一种可能实现方式中,获取第一拼接语句的过程包括:将第三样本语句拼接在第四样本语句之后,得到该第一拼接语句。

可选地,在拼接过程中,在第四样本语句及第三样本语句之间添加分隔符,即得到的第一拼接语句包括第四样本语句、分隔符及第三样本语句。

通过在第一拼接语句中添加分隔符,以便后续基于该分隔符能够将第一拼接语句中包含的第四样本语句及第三样本语句区分开。

307、基于翻译模型,对第一拼接语句进行编码,得到第一编码特征,第一编码特征包括多个第一特征向量,第一个第一特征向量与位于第一拼接语句之前的起始字符对应,多个第一特征向量中除第一个第一特征向量以外的每个第一特征向量与一个第一词语对应,第一词语是指第一拼接语句中的词语,每个第一特征向量是由起始字符的词向量及多个第一词语的词向量加权融合得到的。

在本申请实施例中,翻译模型对第一拼接语句进行编码时,会在第一拼接语句之前添加一个起始字符,以指示第一拼接语句的起始位置,并获取起始字符对应的特征向量及第一拼接语句中每个词语对应的特征向量。在第一编码特征中,每个第一词语对应的第一特征向量中融入了起始字符的词向量及多个第一词语的词向量,增强了多个第一词语之间的关联性,且起始字符对应的第一特征向量中也融入了多个第一词语的词向量,即该起始字符对应的第一特征向量中融入了第三样本语句包含的词语的词向量及第四样本语句包含的词语的词向量,该起始字符对应的特征向量中能够体现出第三样本语句及第四样本语句之间的联系。

在一种可能实现方式中,该步骤307包括:基于翻译模型中的特征提取子模型,对第一拼接语句进行特征提取,得到第二编码特征,第二编码特征包括多个词向量,多个词向量包括起始字符的词向量及多个第一词语的词向量;对于每个词向量:基于翻译模型中的编码子模型,对多个词向量进行加权融合,将加权融合后的向量与词向量进行融合,得到词向量对应的第一特征向量;将得到的多个第一特征向量构成第一编码特征。

通过将第一拼接语句中每个第一词语的词向量进行加权融合,以增强多个第一词语之间的关联性,从而提升第一编码特征的准确性。

可选地,在获取每个词向量对应的第一特征向量时,确定该词向量与多个词向量之间的相似度,对得到的多个相似度进行归一化处理,得到多个权重,每个权重与一个词向量对应,该多个权重之和为1,根据该多个权重,将多个词向量进行加权融合,将融合后的向量与该词向量进行融合,得到该词向量对应的第一特征向量。

在一种可能实现方式中,翻译模型包括编码子模型,编码子模型包括至少一个编码层,在特征提取子模型输出第二编码特征后,对于每个词向量:基于第一个编码层,对多个词向量进行加权融合,将加权融合后的向量与词向量进行融合,得到词向量对应的第一特征向量,将得到的多个第一特征向量构成第一编码特征。

在获取到第二编码特征后,基于编码子模型中的第一个编码层获取第一编码特征的过程,与上述步骤301中编码子模型包含的第一个编码层的处理过程同理,在此不再赘述。

308、对第一编码特征中的第一个第一特征向量进行分类,得到第一预测关系标签。

其中,第一编码特征中的第一个第一特征向量,即为起始字符对应的特征向量。第一预测关系标签指示第三样本语句与第四样本语句之间的预测关联关系,也即是基于翻译模型预测到的第三样本语句与第四样本语句之间的关联关系。由于第一编码特征中的第一个第一特征向量能够体现出第三样本语句及第四样本语句之间的联系,采用分类的方式来获取第一预测关系标签,以预测出第三样本语句及第四样本语句之间是否具有关联关系。

需要说明的是,本公开实施例是基于翻译模型先对第一拼接语句进行处理,再对得到的第一编码特征中的第一个第一特征向量进行分类,来获取第一预测关系标签的,而在另一实施例中,无需执行步骤306-308,能够采取其他方式,基于翻译模型、第三样本语句及第四样本语句,获取第一预测关系标签。

309、基于第二样本语句包含的第二词语对应的第三预测概率、第一预测关系标签及第一样本关系标签,对翻译模型进行调整。

在本申请实施例中,第二样本语句包含的每个第二词语对应的第三预测概率即为基于翻译模型获取到的第一预测结果,多个第二词语对应的第三预测概率能够体现出该翻译模型的准确率,第一预测关系标签指示基于翻译模型预测到的第三样本语句与第四样本语句之间的关联关系,第一样本关系标签指示第三样本语句与第四样本语句之间的真实关联关系,基于第一预测关系标签及第一样本关系标签,能够确定翻译模型对具有关联关系的语句之间的分析能力,基于第一预测结果、第一预测关系标签及第一样本关系标签,来调整翻译模型中的模型参数,即在保证翻译模型具有翻译能力的情况下,提升翻译模型对具有关联关系的语句的分析能力。

需要说明的是,本申请实施例是以第一预测结果为第二样本语句包含的第二词语对应的第三预测概率为例,基于第二样本语句包含的第二词语对应的第三预测概率、第一预测关系标签及第一样本关系标签,对翻译模型进行调整的,而在另一实施例中,还能够以其他方式来获取第一预测结果,基于第一预测结果、第一预测关系标签及第一样本关系标签,对翻译模型进行调整。

需要说明的是,本申请实施例仅是以对翻译模型的一次迭代来说明的,而在另一实施例中,按照上述步骤301-309,对翻译模型进行多次迭代,以提升翻译模型的准确性。

本申请实施例提供的方法,在训练翻译模型时,基于具有相同含义、且分别属于不同语言的第一样本语句及第二样本语句来获取第一预测结果,第一预测结果指示基于翻译模型将第一样本语句翻译成第二样本语句的可能性,即第一预测结果能够反映出翻译模型的准确率,基于属于源语言的第三样本语句及第四样本语句来获取第一预测关系标签,第一预测关系标签指示第三样本语句与第四样本语句之间的预测关联关系,而第一样本关系标签指示第三样本语句与第四样本语句之间的真实关联关系,基于第一预测关系标签及第一样本关系标签,能够确定翻译模型对具有关联关系的语句的分析能力,基于第一预测结果、第一预测关系标签及第一样本关系标签来调整翻译模型,即在保证翻译模型具有翻译能力的情况下,提升翻译模型对具有关联关系的语句的分析能力,以便后续基于翻译模型对语句进行翻译时,能够结合翻译模型对具有关联关系的语句的分析能力,从而提升翻译模型的准确率。

并且,在获取第一预测结果的过程中,获取用于表征属于源语言的第一样本语句的第三编码特征及用于表征属于目标语言的第二样本语句的第四编码特征,将第一样本语句的第三编码特征与第二样本语句的第四编码特征进行融合,使得到的融合特征体现出第一样本语句与第二样本语句之间的关系,基于该融合特征来获取第二样本语句中的每个第二词语对应的预测概率,每个第二词语对应的预测概率能够表示翻译模型翻译出对应的第二词语的可能性,即能够确定出了翻译模型的准确率,以便后续基于确定出的每个第二词语对应的预测概率来调整翻译模型,从而提升翻译模型的准确率。

并且,第二样本语句对应的第四编码特征中,每个第二词语对应的特征向量时,仅是基于该第二词语及该第二词语之前的第二词语的词向量来获取,而不会涉及到该第二词语之后的第二词语的词向量,实现了对该第二词语之后的词语进行掩码的效果,以保证后续翻译模型逐词翻译的过程中,能够结合已经翻译出的词语来翻译下一个词语,使得翻译出的词语之间具有关联性,从而提升翻译模型的准确性。

并且,通过将第三样本语句与第四样本语句进行拼接,并获取拼接后的拼接语句对应的第一编码特征,在第一编码特征中的每个特征向量是由起始字符与第一拼接语句中的每个词语的词向量融合得到,即起始字符对应的第一特征向量中融入了第一拼接语句中每个词语的词向量,能够体现出第三样本语句及第四样本语句之间的联系,因此,对起始字符对应的第一特征向量进行分类,得到第一预测关系标签,保证预测到的第一预测关系标签尽可能准确,以便后续基于该第一预测关系标签及第一样本关系标签来调整翻译模型,以提升翻译模型对具有关联关系的语句的分析能力。

在上述图3所示的实施例的基础上,计算机设备在获取到第二样本语句包含的每个第二词语对应的第三预测概率以及第一拼接语句的第一编码特征后,还能够结合分类模型来获取第一预测关系标签,并采用确定损失值的方式来调整翻译模型,即在上述步骤307之后,还能够采用以下两种方式来调整模型:

第一种方式包括以下步骤310-313:

310、基于第一分类模型,对第一编码特征中的第一个第一特征向量进行分类,得到第一预测概率,第一预测概率指示第三样本语句与第四样本语句属于同一组对话的可能性。

在本申请实施例中,该第一分类模型用于确定两个样本语句属于同一组对话的可能性,第一样本关系标签指示第三样本语句与第四样本语句是否属于同一组对话,第三样本语句与第四样本语句可能属于同一组对话,也可能不属于同一组对话。

例如,第三样本语句与第四样本语句均为同一第四对话数据中包含的语句,该第四对话数据是由至少两个对话者以源语言对话得到的,则第三样本语句与第四样本语句属于同一组对话。例如,第三样本语句与第四样本语句均属于第四对话数据,在第四对话数据中,第四样本语句为第三样本语句之前的至少一个语句,即第四样本语句为第三样本语句的上下文语句。

再例如,第三样本语句为一个对话数据中包含的语句,第四样本语句为另一个对话数据中包含的语句,且该两个对话数据均是由至少两个对话者以源语言对话得到的,则第三样本语句与第四样本语句不属于同一组对话。

由于第一编码特征中的第一个第一特征向量能够体现出第三样本语句及第四样本语句之间的联系,基于第一分类模型对第一编码特征中的第一个第一特征向量进行分类,以确定第三样本语句与第四样本语句属于同一组对话的可能性,即得到该第一预测概率。

311、基于多个第二词语对应的第三预测概率,获取第一损失值。

在本申请实施例中,第二样本语句中每个第二词语对应的第三预测概率即为基于翻译模型获取到的第一预测结果,每个第三预测概率表示翻译模型翻译出对应的第二词语的可能性。该第一损失值能够体现出翻译模型的准确率,通过获取第一损失值,以便后续通过第一损失值来调整翻译模型。

在一种可能实现方式中,该步骤311包括:将多个第二词语对应的第三预测概率之和的负值,确定为第一损失值。

在一种可能实现方式中,多个第二词语对应的第三预测概率、第一损失值满足以下关系:

其中,L

312、基于第一预测概率及第一样本关系标签,获取第二损失值。

由于第一样本关系标签指示第三样本语句与第四样本语句之间的真实关联关系,即指示第三样本语句与第四样本语句是否属于同一组对话,第一预测概率指示预测到的第三样本语句与第四样本语句属于同一组对话的可能性。基于第一预测概率及第一样本关系标签来获取第二损失值,以获取到的第二损失值表示出预测结果的准确率。

在一种可能实现方式中,第一样本关系标签包括第一正样本关系标签或第一负样本关系标签,第一正样本关系标签指示第三样本语句与第四样本语句属于同一组对话,第一负样本关系标签指示第三样本语句与第四样本语句不属于同一组对话。第一样本关系标签不同时,获取第二损失值的方式不同,也即是,获取第二损失值的过程包括以下两种方式:

第一种方式:响应于第一样本关系标签为第一正样本关系标签,基于第一预测概率,获取第二损失值,第一预测概率与第二损失值之间呈负相关关系。

其中,第一预测概率越大,第二损失值越小,第一预测概率越小,第二损失值越大。

可选地,响应于第一样本关系标签为第一正样本关系标签,第一预测概率、第二损失值满足以下关系:

其中,L

第二种方式:响应于第一样本关系标签为第一负样本关系标签,基于目标数值与第一预测概率之间的差值,获取第二损失值,该差值与第二损失值之间呈负相关关系。

其中,目标数值为任意的数值,例如,目标数值为1。该差值越大,第二损失值越小,该差值越小,第二损失值越大。

可选地,响应于第一样本关系标签为第一负样本关系标签,目标数值、第一预测概率、第二损失值满足以下关系:

其中,L

313、基于第一损失值及第二损失值,对翻译模型及第一分类模型进行调整。

其中,通过第一损失值及第二损失值,来调整翻译模型中的模型参数及第一分类模型中的模型参数,以提升翻译模型的准确率及第一分类模型的分类能力。

在一种可能实现方式中,该步骤313包括:确定第一损失值与第二损失值之和,基于确定的损失值之和,对翻译模型及第一分类模型进行调整。

在本申请实施例中,第三样本语句与第四样本语句可能属于同一组对话,也可能不属于同一组对话,属于同一组对话的样本语句之间具有连贯性,基于该第三样本语句及第四样本语句来训练翻译模型,以提升模型以对话连贯性角度来提升翻译模型对具有关联关系的语句的分析能力。

第二种方式包括以下步骤314-317:

314、基于第二分类模型,对第一个第一特征向量进行分类,得到第二预测概率,第二预测概率指示第三样本语句与第四样本语句由同一个对话者发出的可能性。

在本申请实施例中,该第二分类模型用于确定两个样本语句由同一个对话者发出的可能性,第一样本关系标签指示第三样本语句与第四样本语句是否由同一个对话者发出。第三样本语句与第四样本语句属于同一组对话,但第三样本语句与第四样本语句可能是由同一个对话者发出,也可能不是由同一个对话者发出。

例如,第三样本语句与第四样本语句均为同一第五对话数据中包含的语句,该第五对话数据是由至少两个对话者以源语言对话得到的,即第三样本语句与第四样本语句属于同一组对话。该第五对话数据包括对话者A和对话者B发出的语句,如果第三样本语句和第四样本语句均是由对话者A或对话者B发出的,则第三样本语句与第四样本语句石油同一个对话者发出;如果第三样本语句是由对话者A发出的,第四样本语句是由对话者B发出的,则第三样本语句与第四样本语句不是由同一个对话者发出。

可选地,在第三样本语句与第四样本语句是由同一个对话者发出的情况下,该第四样本语句为第三样本语句的上下文语句。例如,第三样本语句与第四样本语句均属于第五对话数据,在第五对话数据中,第五样本语句为第三样本语句之前的至少一个语句,即第四样本语句为第三样本语句的上下文语句。

由于第一编码特征中的第一个第一特征向量能够体现出第三样本语句及第四样本语句之间的联系,基于第二分类模型对第一编码特征中的第一个第一特征向量进行分类,以第三样本语句与第四样本语句由同一个对话者发出的可能性,即得到该第二预测概率。

315、基于第一预测结果,获取第一损失值。

该步骤与上述步骤311同理,在此不再赘述。

316、基于第二预测概率及第一样本关系标签,获取第三损失值。

由于第一样本关系标签指示第三样本语句与第四样本语句之间的真实关联关系,即指示第三样本语句与第四样本语句是否由同一对话者发出,第二预测概率指示预测到的第三样本语句与第四样本语句由同一对话者发出的可能性。基于第二预测概率及第一样本关系标签来获取第三损失值,以获取到的第三损失值表示出预测到的结果的准确率。

在一种可能实现方式中,第一样本关系标签包括第二正样本关系标签或第二负样本关系标签,第二正样本关系标签指示第三样本语句与第四样本语句是由同一个对话者发出,第二负样本关系标签指示第三样本语句与第四样本语句不是由同一个对话者发出,第一样本关系标签不同时,获取第三损失值的方式不同,也即是,获取第三损失值的过程包括以下两种方式:

第一种方式:响应于第一样本关系标签为第二正样本关系标签,基于第二预测概率,获取第三损失值,第二预测概率与第三损失值之间呈负相关关系。

其中,第二预测概率越大,第三损失值越小,第二预测概率越小,第三损失值越大。

第二种方式:响应于第一样本关系标签为第二负样本关系标签,基于目标数值与第二预测概率之间的差值,获取第三损失值,差值与第三损失值之间呈负相关关系。

其中,目标数值为任意的数值,例如,目标数值为1。该差值越大,第二损失值越小,该差值越小,第二损失值越大。

需要说明的是,获取第三损失值的过程,与上述步骤312中获取第二损失的过程同理,在此不再赘述。

317、基于第一损失值及第三损失值,对翻译模型及第二分类模型进行调整。

该步骤与上述步骤313同理,在此不再赘述。

在本申请实施例中,第三样本语句与第四样本语句属于同一组对话,可能是由同一对话者发出,也可能不是由同一对话者发出,同一对话者发出的语句能够体现出对话者表达的特点,基于该第三样本语句及第四样本语句来训练翻译模型,以提升模型以对话者表达的特点角度来提升翻译模型对具有关联关系的语句的分析能力。

需要说明的是,在本申请实施例中,仅是以第三样本语句及第四样本语句、第一样本关系标签来获取第二损失值或第三损失值的,在获取到第二损失值或第三损失值后,结合第一损失值来调整翻译模型和分类模型的,而在另一实施例中,无需执行上述步骤305,而是获取两组样本数据,第一组样本数据包括两个样本语句及对应的样本关系标签,第一组样本数据中的两个样本语句均属于源语言,第一组样本数据中的样本关系标签指示第一组样本数据中的两个样本语句是否属于同一组对话,第二组样本数据包括两个样本语句及对应的样本关系标签,第二组样本数据中的两个样本语句属于同一组对话,且均属于源语言,第二组样本数据中的样本关系标签指示第二组样本数据中的两个样本语句是否由同一个对话者发出。之后按照步骤306-307,分别对两组样本数据进行处理,得到第一组样本数据中两个样本语句的拼接语句所对应的编码特征,以及第二组样本数据中两个样本语句的拼接语句所对应的编码特征之后,按照步骤311来获取第一损失值,按照步骤310和312,基于第一分类模型及第一组样本数据对应的编码特征中的第一个特征向量,获取第四损失值,按照步骤314和315,基于第二分类模型及第二组样本数据对应的编码特征中的第一个特征向量,获取第五损失值,之后基于第一损失值、第四损失值、第五损失值对翻译模型、第一分类模型及第二分类模型进行调整。

在本申请实施例中,以对话连贯性和对话者表达特点两个角度,来获取样本语句,并基于获取到的样本数据训练翻译模型,实现了对翻译模型的多任务训练方法,以使训练后的模型能够以多种角度来提升对具有关联关系的语句的分析能力,以便后续基于翻译模型对语句进行翻译时,能够结合翻译模型对具有关联关系的语句的分析能力,从而提升翻译模型的准确率。

在一种可能实现方式中,在获取到第一损失值、第四损失值及第五损失值之后,确定第一损失值、第四损失值及第五损失值之和,基于确定的损失值之和,对翻译模型、第一分类模型及第二分类模型进行调整。

可选地,第一损失值、第四损失值、第五损失值及确定的损失值之和,满足以下关系:

其中,

需要说明的是,上述仅是以对翻译模型、第一分类模型及第二分类模型的一次迭代为例来说明的,而在另一实施例中,按照上述步骤,对翻译模型、第一分类模型及第二分类模型进行多次迭代,以提升翻译模型的准确性。

在一种可能实现方式中,获取第四样本数据集,第四样本数据集包括至少一个对话数据,该对话数据属于源语言,基于第四样本数据集,获取第一样本数据子集和第二样本数据子集,第一样本数据子集包括多组样本数据,每组样本数据包括两个样本语句及对应的样本关系标签,每组样本数据中的两个样本语句均属于源语言,每组样本数据中的样本关系标签指示该组样本数据中的两个样本语句是否属于同一组对话,第二样本数据子集包括多组样本数据,每组样本数据包括两个样本语句及对应的样本关系标签,每组样本数据中的两个样本语句属于同一组对话,且均属于源语言,每组样本数据中的样本关系标签指示该组样本数据中的两个样本语句是否由同一个对话者发出。

可选地,第一样本数据子集中的多组样本数据包括正样本数据及负样本数据,正样本数据是指包含的样本关系标签指示对应的两个样本语句属于同一组对话,负样本数据是指包含的样本关系标签指示对应的两个样本语句不属于同一组对话。

可选地,第二样本数据子集中的多组样本数据包括正样本数据及负样本数据,正样本数据是指包含的样本关系标签指示对应的两个样本语句是否由同一个对话者发出,负样本数据是指包含的样本关系标签指示对应的两个样本语句是否由同一个对话者发出。

按照上述方式对翻译模型、第一分类模型及第二分类模型进行迭代训练时,每次迭代从第一样本数据子集及第二样本数据子集中分别选取一组样本数据,利用选取的两组样本数据,按照上述方式,对翻译模型、第一分类模型及第二分类模型进行一次迭代训练。

基于上述图3所示的实施例,在训练翻译模型之后,还能够结合具有双语对话数据的样本数据集对翻译模型再次进行迭代训练,迭代训练过程详见下述实施例。

图4是本申请实施例提供的一种语句翻译方法的流程图,该方法由计算机设备执行,如图4所示,该方法包括:

401、获取第一样本数据集,第一样本数据集包括具有相同含义的第一对话数据及第二对话数据,第一对话数据属于源语言,第二对话数据属于目标语言,第一对话数据和第二对话数据均是基于第三对话数据翻译得到,第三对话数据是由至少两个对话者分别以源语言和目标语言进行对话得到。

其中,第一样本数据集包括属于源语言的第一对话数据及属于目标语言的第二对话数据,即该第一样本数据集为双语样本数据集。第三对话数据是由至少两个对话者分别以源语言和目标语言进行对话得到,即第三对话数据包含属于源语言的对话语句和属于目标语言的对话语句。在获取到第三对话数据后,对第三对话数据中的属于目标语言的语句进行翻译,翻译得到的语句属于源语言,将翻译得到的语句及第三对话数据中属于源语言的语句构成该第一对话数据;对第三对话数据中属于源语言的语句进行翻译,翻译得到的语句属于目标语言,将翻译得到的语句及第三对话数据中属于目标语言的语句构成该第二对话数据。

例如,对话者A以源语言对话,对话者B以目标语言对话,则对话者A与对话者B进行对话,得到该第三对话数据,如第三对话数据的语句序列表示为(X

在一种可能实现方式中,第一样本数据集包括多组对话数据,每组对话数据包括一个第一对话数据及具有相同含义的第二对话数据,不同组对话数据中的第一对话数据不同。

402、从第一对话数据中获取第五样本语句以及与第五样本语句关联的第一关联语句、从第二对话数据中获取与第五样本语句具有相同含义的第六样本语句。

在本申请实施例中,第五样本语句与第一关联语句具有关联关系,第五样本语句与第六样本语句具有相同含义,且第五样本语句与第一关联语句均属于源语言,第六样本语句属于目标语言。

在一种可能实现方式中,第五样本语句与第一关联语句属于同一第一对话数据。可选地,第一关联语句为第五样本语句的上下文语句。例如,在同一第一对话数据中,第一关联语句为第五样本语句之前的至少一个语句,即第一关联语句为第五样本语句的上下文语句。

在一种可能实现方式中,该步骤402包括:基于第一样本数据集,获取第三样本数据子集,该第三样本数据子集包括多组对话数据,每组对话数据包括一个第五样本语句、与该第五样本语句关联的第一关联语句及与该第五样本数具有相同含义的第六样本语句,从第三样本数据子集中选取任一组对话数据。

在本申请实施例中,第三样本数据子集是基于第一样本数据集中的第一对话数据及第二对话数据获取到的。通过获取第三样本数据子集,在对翻译模型进行训练时,从中选取任一组对话数据即可,无需再从第一对话数据及第二对话数据中获取,从而提高获取样本数据的效率。

403、从至少一个第一对话数据中,获取第七样本语句和第八样本语句,确定第二样本关系标签,第二样本关系标签指示第七样本语句与第八样本语句之间是否具有关联关系。

在本申请实施例中,第一样本数据集包括至少一个第一对话数据,每个第一对话数据属于源语言,第七样本语句和第八样本语句均是从一个第一对话数据中获取到的,第七样本语句和第二样本语句所属的第一对话数据可能相同也可能不同。

第七样本语句与第八样本语句可能具有关联关系,也可能不具有关联关系,该第二样本关系标签能够以任意的形式表示,例如,第二样本关系标签以数值的形式来指示第七样本语句与第八样本语句之间是否具有关联关系,如,第二样本关系标签为1,表示第七样本语句与第八样本语句之间具有关联关系,第二样本关系标签为0,表示第七样本语句与第八样本语句之间具有关联关系。可选地,该第二样本关系标签是由人工设置的。

例如,第七样本语句与第八样本语句之间具有关联关系,表示第七样本语句与第八样本语句属于同一第一对话数据;或者,表示第七样本语句与第八样本语句由同一对话者发出的,且第七样本语句与第八样本语句属于同一第一对话数据。第七样本语句与第八样本语句之间不具有关联关系,表示第七样本语句与第八样本语句不属于同一第一对话数据;或者,第七样本语句与第八样本语句属于同一第一对话数据,但第七样本语句与第八样本语句不是由同一对话者发出的。

在一种可能实现方式中,该步骤403包括:基于第一样本数据集,获取第四样本数据子集和第五样本数据子集,第四样本数据子集包括多组样本数据,每组样本数据包括两个样本语句及对应的样本关系标签,每组样本数据中的两个样本语句均属于源语言,每组样本数据中的样本关系标签指示该组样本数据中的两个样本语句是否属于同一组对话,第五样本数据子集包括多组样本数据,每组样本数据包括两个样本语句及对应的样本关系标签,每组样本数据中的两个样本语句属于同一组对话,且均属于源语言,每组样本数据中的样本关系标签指示该组样本数据中的两个样本语句是否由同一个对话者发出,从第四样本数据子集或第五样本数据子集中选取任一组样本数据。

在本申请实施例中,第四样本数据子集和第五样本数据子集均是基于第一样本数据集中的至少一个第一对话数据获取到的。通过获取第四样本数据子集和第五样本数据子集,在对翻译模型进行训练时,从第四样本数据子集或第五样本数据子集中选取任一组对话数据即可,无需再从第一对话数据获取,从而提高获取样本数据的效率。

可选地,第四样本数据子集中的多组样本数据包括正样本数据及负样本数据,正样本数据是指包含的样本关系标签指示对应的两个样本语句属于同一组对话,负样本数据是指包含的样本关系标签指示对应的两个样本语句不属于同一组对话。

例如,对于第四样本数据子集中的任一正样本数据包括属于源语言的样本语句A和样本语句B,样本语句A和样本语句B均属于同一对话数据,如,该对话数据的语句序列标识为(X

可选地,第五样本数据子集中的多组样本数据包括正样本数据及负样本数据,正样本数据是指包含的样本关系标签指示对应的两个样本语句是否由同一个对话者发出,负样本数据是指包含的样本关系标签指示对应的两个样本语句是否由同一个对话者发出。

例如,对于第五样本数据子集中的任一正样本数据包括属于源语言的样本语句A和样本语句B,样本语句A和样本语句B均属于同一对话数据,且是由同一个对话者发出,如,该对话数据的语句序列标识为(X

404、基于翻译模型、第五样本语句、第一关联语句及第六样本语句,获取第二预测结果,第二预测结果指示基于翻译模型将第五样本语句翻译成第六样本语句的可能性。

其中,该第二预测结果能够反映出该翻译模型的准确率。由于第一关联语句与第五样本语句之间具有关联关系,第一关联语句所表达的含义与第五样本语句所表达的含义可能存在关联,基于第一关联语句所表达的含义,能够帮助翻译模型将第五样本语句翻译成第六样本语句,因此结合第五样本语句、第一关联语句及第六样本语句来获取第二预测结果,以提升得到的预测结果的准确率。

在一种可能实现方式中,该步骤404包括:

4041、将第五样本语句及第一关联语句进行拼接,得到第二拼接语句。

采用拼接的方式,将第五样本语句与第一关联语句拼接成一个长语句。

在一种可能实现方式中,获取第二拼接语句的过程包括:将第五样本语句拼接在第一关联语句之后,得到该第二拼接语句。

可选地,在拼接过程中,在第一关联语句及第五样本语句之间添加分隔符,即得到的第二拼接语句包括第一关联语句、分隔符及第五样本语句。通过在第二拼接语句中添加分隔符,以便后续基于该分隔符能够将第二拼接语句中包含的第一关联语句及第五样本语句区分开。

4042、基于翻译模型,对第二拼接语句进行编码,得到第二拼接语句对应的第五编码特征。

在一种可能实现方式中,第五编码特征包括多个特征向量,该多个特征向量中的第一个特征向量与该第二拼接语句之前的起始字符对应,多个特征向量中除第一个特征向量以外的每个特征向量与一个第五词语对应,该第五词语是指第二拼接语句中的词语,每个特征向量是由起始字符的词向量及多个第五词语的词向量加权融合得到的。

在一种可能实现方式中,该步骤4042包括:基于翻译模型中的特征提取子模型,对第二拼接语句进行特征提取,得到第二拼接语句对应的编码特征,该第二拼接语句对应的编码特征包括起始字符的词向量及每个第四词语的词向量,基于翻译模型中的编码子模型,对该第二拼接语句对应的编码特征进行编码,得到该第五编码特征。

可选地,编码子模型包括多个编码层,基于编码子模型获取第五编码特征的过程包括:基于第一个编码层,对第二拼接语句对应的编码特征进行编码,得到第一个编码特征,基于第二个编码层,对前一个编码层输出的编码特征再次进行编码,输出一个编码特征,重复上述步骤,直至得到最后一个编码层输出该第五编码特征。

可选地,基于多个编码层来获取第五编码特征的过程中,仅第一个编码层对第二拼接语句中的每个词语对应的向量进行加权融合,从第二个编码层开始,仅对第二拼接语句中的第五样本语句中的词语对应的向量进行加权融合,第一关联语句中的词语对应的向量不再变化。

可选地,每个编码层包括自注意力子层和前馈网络子层,该自注意力子层用于将输入的编码特征中的向量进行加权融合,该前馈网络子层用于对加权融合后的编码特征进行特征变换。

例如,对于多个编码层中的第一个编码层,输入第一个编码层的编码特征包括多个词向量,该多个词向量包括起始字符的词向量及每个第四词语的词向量,则第一个编码层的处理过程包括:对于每个词向量,基于该编码层中的自注意力子层,将该编码特征中多个词向量进行加权融合,将加权融合后的向量与该词向量进行融合,得到该词向量更新后的特征向量,将多个词向量更新后的特征向量构成该自注意力子层输出的编码特征;基于该前馈网络子层,对自注意力子层输出的编码特征进行特征变换,将特征变换后的特征与该自注意力子层输出的编码特征进行融合,得到该编码层输出的编码特征。

对于多个编码层中除第一个编码层以外的任一编码层,输入该编码层的编码特征包括多个第一向量,则该编码层的处理过程包括:确定该多个第一向量中第五样本语句中的词语对应的第一向量,对于第五样本语句中的任一词语对应的第一向量,基于该编码层中的自注意力子层,将第五样本语句中的词语对应的第一向量进行加权融合,将加权融合后的向量与该词语对应的第一向量进行融合,得到该词语对应的更新后的特征向量,将第五样本语句中多个词语对应的更新后的特征向量及第一关联语句中每个词语对应的第一向量,构成该自注意力子层输出的编码特征;基于该前馈网络子层,对自注意力子层输出的编码特征进行特征变换,将特征变换后的特征与该自注意力子层输出的编码特征进行融合,得到该编码层输出的编码特征。

从第二个编码层开始,仅对第二拼接语句中的第五样本语句中的词语对应的向量进行加权融合,第一关联语句中的词语对应的向量不再变化,按照上述编码,最后一个编码层输出第五编码特征。

可选地,第二拼接语句中第一关联语句在第五样本语句之前,且第一关联语句与第五关联语句之间具有间隔符,则编码层将输入的特征中间隔符之后的向量,确定为第五样本语句中的词语对应的向量。

需要说明的是,该步骤4042与上述步骤301同理,在此不再赘述。

4043、基于翻译模型,对第六样本语句进行编码,得到第六样本语句对应的第六编码特征,第六编码特征包括每个第三词语对应的第三特征向量,第三词语是指第六样本语句中的词语,每个第三特征向量是由对应的第三词语及之前的第三词语的词向量加权融合得到的。

该步骤4043与上述步骤302同理,在此不再赘述。

4044、基于翻译模型,将第五编码特征及第六编码特征进行融合,得到融合特征,融合特征包括每个第三词语对应的融合特征向量。

该过程与上述步骤303同理,在此不再赘述。

需要说明的是,本申请实施例是基于翻译模型来获取第六编码特征,并基于第五编码特征及第六编码特征来获取融合特征的,而在另一实施例中,翻译模型还包括解码子模型,解码子模型包括多个解码层,基于多个解码层、第六样本语句及第五编码特征来获取融合特征的。

在一种可能实现方式中,基于多个解码层、第六样本语句及第五编码特征获取融合特征的过程包括:基于翻译模型中的特征提取子模型,对第六样本语句进行特征提取,得到第六样本语句对应的编码特征,基于第一个解码层,对第六样本语句对应的编码特征进行编码,得到第一个编码特征;基于第一个解码层,将第一个编码特征与第五编码特征进行融合,得到第一个融合特征;基于第二个解码层,对前一个解码层输出的融合特征进行编码,得到第二个编码特征,基于第二个解码层,将第二个编码特征与第五编码特征进行融合,得到下一个融合特征,重复上述步骤,直至最后一个解码层输出最后一个融合特征。

可选地,每个解码层包括掩码自注意力子层、交叉注意力子层及前馈网络子层,该掩码自注意力子层用于按照输入的特征中的向量的顺序,依次将输入的特征中的向量进行加权融合;该交叉注意力子层用于将掩码自注意力子层输出的编码特征与第五编码特征进行融合;该前馈网络子层用于对交叉注意力子层输出的融合特征进行特征变换,输出变换后的融合特征。

可选地,交叉注意力子层的处理过程包括:基于交叉注意力子层,确定第五样本语句中的每个词语在第五编码特征中对应的第三向量,对于任一第三向量,基于交叉注意力自层,将多个第三向量与掩码自注意力子层输出的编码特征进行加权融合,将加权融合后的特征与第三向量进行融合,得到该第三向量融合后的向量,基于多个第三向量对应的融合后的向量及第五编码特征中除第三向量外的第四向量,构成初始融合特征,将初始融合特征与掩码自注意力子层输出的编码特征进行融合,得到融合特征。

在本申请实施例中,在交叉注意力子层对掩码自注意力子层输出的编码特征及第五编码特征进行融合时,仅对第五样本语句中的每个词语在第五编码特征中对应的特征向量进行加权融合,不会对第一关联语句中的每个词语在第五编码特征中的特征向量进行加权融合。

4045、基于翻译模型及融合特征,获取每个第三词语对应的第四预测概率,第四预测概率指示基于翻译模型将每个融合特征向量翻译成对应的第三词语的可能性。

该步骤与上述步骤304同理,在此不再赘述。

405、基于翻译模型、第七样本语句及第八样本语句,获取第二预测关系标签,第二预测关系标签指示第七样本语句与第八样本语句之间的预测关联关系。

其中,第二预测关系标签是基于翻译模型对第七样本语句及第八样本语句进行处理后,基于处理结果预测到的关系标签。

在一种可能实现方式中,该步骤405包括:将第七样本语句与第八样本语句进行拼接,得到第三拼接语句,基于翻译模型,对第三拼接语句进行编码,得到第三拼接语句的编码特征,编码特征包括多个特征向量,第一个特征向量与位于第三拼接语句之前的起始字符对应,多个特征向量中除第一个特征向量以外的每个特征向量与一个词语对应,该词语是指第三拼接语句中的词语,每个特征向量是由起始字符的词向量及多个词语的词向量加权融合得到的,对第三拼接语句的编码特征中的第一个特征向量进行分类,得到第二预测关系标签。

该步骤与上述步骤306-308同理,在此不再赘述。

406、基于第二预测结果、第二预测关系标签及第二样本关系标签,对翻译模型进行调整。

该步骤与上述步骤309同理,在此不再赘述。

在本申请实施例中,第二预测结果即为第六样本语句包含的每个词语对应的预测概率,即多个词语对应的预测概率能够体现出该翻译模型的准确率,并且,第二预测结果是结合第五样本语句及与第五样本语句关联的第一关联语句得到的,因此,第二预测结果中也能够体现出翻译模型对具有关联关系的语句的分析能力。基于第一预测关系标签及第一样本关系标签,能够确定翻译模型对具有关联关系的语句的分析能力,基于第一预测结果、第一预测关系标签及第一样本关系标签,来调整翻译模型中的模型参数,即在保证翻译模型具有翻译能力的情况下,提升翻译模型对具有关联关系的语句的分析能力。

需要说明的是,本公开实施例是从第一样本数据集中获取样本语句,以获取到的样本语句来训练翻译模型的,而在另一实施例中,无需执行步骤402-406,能够采取其他方式,基于第一样本数据集对翻译模型再次进行迭代训练。

需要说明的是,上述仅是以对翻译模型的一次迭代为例来说明的,而在另一实施例中,按照上述步骤401-406,对翻译模型进行多次迭代,以提升翻译模型的准确性。

本申请实施例提供的方法,第二预测结果能够体现出该翻译模型的准确率,第二预测结果是结合第五样本语句及与第五样本语句关联的第一关联语句得到的,因此,第二预测结果中也能够体现出翻译模型对具有关联关系的语句的分析能力。基于第一预测关系标签及第一样本关系标签,能够确定翻译模型对具有关联关系的语句的分析能力,基于第一预测结果、第一预测关系标签及第一样本关系标签,来调整翻译模型中的模型参数,即在保证翻译模型具有翻译能力的情况下,提升翻译模型对具有关联关系的语句的分析能力。

需要说明的是,在图3所示的实施例的基础上,第二预测关系标签能够基于分类模型得到,例如,如果第七样本语句、第八样本语句及第二样本关系标签是从第四样本数据子集中获取的,则第二预测关系标签是基于第三分类模型得到的;如果第七样本语句、第八样本语句及第二样本关系标签是从第五样本数据子集中获取的,则第二预测关系标签是基于第四分类模型得到的。则在执行步骤406时,基于第二预测结果、第二预测关系标签及第二样本关系标签,对翻译模型进行调整,以及对第三分类模型或第四分类模型进行调整。

在图3所示的实施例的基础上,从第三样本数据子集中选取一组对话数据、从第四样本数据子集和第五样本数据子集中分别选取一组样本数据,利用选取的对话数据及样本数据,按照上述步骤311,基于第二预测结果确定第六损失值,按照上述步骤310及312,基于第四样本数据子集中选取的样本数据及第三分类模型来获取第七损失值,按照上述步骤314及步骤317,基于第五样本数据子集中选取的样本数据集及第四分类模型来获取第八损失值,基于第六损失值、第七损失值及第八损失值,对翻译模型、第三分类模型及第四分类模型进行调整。

在一种可能实现方式中,在获取到第六损失值、第七损失值及第八损失值之后,确定第六损失值、第七损失值及第八损失值之和,基于确定的损失值之和,对翻译模型、第三分类模型及第四分类模型进行调整。

可选地,第六损失值、第七损失值、第八损失值及确定的损失值之和,满足以下关系:

其中,

基于图3所示的实施例,按照上述步骤301-309训练翻译模型之前,还能够先基于第二样本数据集对翻译模型进行迭代训练,以使迭代训练后的翻译模型具有初步的翻译能力。基于第二样本数据集对翻译模型进行迭代训练的过程,详见下述实施例。

图5是本申请实施例提供的一种语句翻译方法的流程图,该方法由计算机设备执行,如图5所示,该方法包括:

501、获取第二样本数据集,第二样本数据集包括具有相同含义的第九样本语句及第十样本语句,第九样本语句属于源语言,第十样本语句属于目标语言。

在本申请实施例中,第二样本数据集为语句级的样本数据集,第二样本数据集包括具有相同含义的、且分别属于源语言和目标语言的第九样本语句及第十样本语句。

502、基于第二样本数据集对翻译模型进行迭代训练。

通过第二样本数据集中的属于源语言和目标语言的样本语句对翻译模型进行迭代训练,以提升翻译模型的翻译能力。

在一种可能实现方式中,该步骤502包括:基于翻译模型,对第九样本语句进行编码,得到第九样本语句对应的编码特征,基于翻译模型,对第十样本语句进行编码,得到第十样本语句对应的编码特征,基于翻译模型,将第九样本语句对应的编码特征及第十样本语句对应的编码特征进行融合,得到融合特征,融合特征包括第十样本语句包含的每个词语对应的融合特征向量,基于翻译模型及融合特征,获取第十样本语句包含的每个词语对应的预测概率,预测概率指示基于翻译模型将融合特征中的每个融合特征向量翻译成对应的词语的可能性,基于第十样本语句包含的每个词语对应的预测概率,获取损失值,基于该损失值,对翻译模型进行调整。

该步骤与上述步骤301-304及步骤311同理,在此不再赘述。

本申请实施例提供的方法,第二样本数据集作为语句级的样本数据集,包括属于源语言的第九样本语句及属于目标语言的第十样本语句,且第九样本语句与第十样本语句具有相同含义,因此,基于第二样本数据集中的样本语句对翻译模型进行训练,以使训练后的翻译模型具备翻译能力,提升了翻译模型的准确率。

需要说明的是,本申请仅是以上述多个实施例分别进行说明的,而在另一实施例中,上述多个实施例能够任意结合,例如,图3、图4及图5所示的实施例结合,按照图5所示的实施例,基于语句级的样本数据集对翻译模型进行训练,以使翻译模型具备翻译能力;再按照图3所示的实施例,基于语句级的样本数据集及单语样本数据集对翻译模型进行训练,在保证翻译模型具备翻译能力的情况下,提升翻译模型具有关联关系的语句的分析能力,以使翻译模型对语句进行翻译时,能够结合翻译模型对具有关联关系的语句的分析能力,从而提升翻译模型的准确率;再按照图4所示的实施例,基于双语样本数据集对翻译模型进行训练,进一步提升翻译模型的准确率。

本申请实施例提供的方式,实现了一种连续学习方法,采用不同的样本数据集,以多个训练阶段对翻译模型进行训练,使翻译模型在各个训练阶段的过度的更加平滑,能够逐渐提升翻译模型的准确率,以便后续基于翻译模型对对话语句进行翻译时,能够提升翻译模型的翻译质量。

基于上述图2至图5所示的实施例,在训练翻译模型之后,能够基于训练后的翻译模型能够完成翻译任务,翻译过程详见下述实施例。

图6是本申请实施例提供的一种语句翻译方法的流程图,该方法由计算机设备执行,如图6所示,该方法包括:

601、基于翻译模型对目标语句及与目标语句关联的第二关联语句进行编码,得到第七编码特征。

其中,目标语句及第二关联语句均属于源语言,目标语句与第二关联语句具有关联关系,例如,第二关联语句为目标语句的上下文语句。

在一种可能实现方式中,步骤601包括:将目标语句与第二关联语句进行拼接,得到拼接语句,基于翻译模型,对拼接语句进行编码,得到第七编码特征。

该步骤与上述步骤4041-4042同理,在此不再赘述。

602、基于翻译模型,对起始字符进行编码,得到起始字符对应的第八编码特征。

在本申请实施例中,起始字符为任意的字符,该起始字符指示翻译语句的起始位置。基于翻译模型对目标语句进行翻译时,是依次翻译出属于目标语言的词语,将翻译出的词语构成与目标语句具有相同含义、且属于目标语言的语句。在对目标语句进行翻译时,当前需要翻译出属于目标语言的第一个词语时,仅对起始字符进行编码,以便后续基于起始字符对应的第八编码特征翻译出属于目标语言的第一个词语。

603、基于翻译模型,将第七编码特征及第八编码特征进行融合,得到融合特征。

该步骤602-604与上述步骤302-303同理,在此不再赘述。

604、基于翻译模型,对融合特征进行解码,得到第一个翻译词语。

其中,融合特征用于表示第一个翻译词语。基于翻译模型对融合特征进行解码,以确定属于目标语言的可能性最大的词语,作为该翻译词语。

在一种可能实现方式中,该步骤604包括:基于该翻译模型,将该融合特征与词语库中的多个词语的词向量进行对比,得到该多个词语对应的预测概率,从该多个词语对应的预测概率中,选取最大预测概率对应的词语作为该第一个翻译词语。

在本申请实施例中,翻译模型对应有词语库,该词语库包括的多个词语均属于目标语言,每个词语的词向量用于表征对应的词语。通过将该融合特征与词语库中的每个词语的词向量进行比对,以确定将该融合特征向量翻译成每个词语的预测概率,即确定了将该融合特征翻译成每个词语的可能性,从多个词语中选取可能性最大的词语作为翻译词语。

在一种可能实现方式中,翻译模型包括映射子模型,该步骤304包括:基于翻译模型中的映射子模型,对该融合特征进行映射,得到概率序列,该概率序列包括多个维度的概率,每个维度与词语库中的一个词语对应,将最大预测概率对应的词语作为该第一个翻译词语。

需要说明的是,本申请实施例是利用起始字符,采用编码再融合方式来获取第一个翻译词语,而在另一实施例中,无需执行步骤602-604,能够采取其他方式,基于翻译模型及第七编码特征,获取第一个翻译词语。

605、基于翻译模型,对起始字符及当前已得到的翻译词语进行编码,得到第九编码特征。

在本申请实施例中,采用逐词翻译的方式来获取目标语句对应的翻译语句的,在翻译过程中,在翻译下一个翻译词语时,需要利用起始字符及当前已得到的翻译词语来进行翻译,因此,对起始字符及当前已得到的翻译词语进行编码,即得到的第九编码特征能够表征出起始字符及当前已得到的翻译词语所代表的含义。

606、基于翻译模型,将第七编码特征及第九编码特征进行融合,得到融合特征。

607、基于翻译模型,对融合特征进行解码,得到下一个翻译词语。

在本申请实施例中,基于翻译模型将目标语句翻译成属于目标语言的语句的过程中,依次翻译出属于目标语言的每个翻译词语,且在获取每个翻译词语的过程中,利用当前已得到的翻译词语来翻译出下一个词语。

该步骤605-607与上述步骤602-604同理,在此不再赘述。

需要说明的是,本申请实施例是利用起始字符,采用编码再融合方式来获取下一个翻译词语,而在另一实施例中,无需执行步骤605-607,能够采取其他方式,基于翻译模型、第七编码特征及第一个翻译词语,获取下一个翻译词语。

608、重复上述步骤605-607,直至得到最后一个翻译词语。

在本申请实施例中,每执行上述步骤605-607一次,得到一个翻译词语,重复执行多次,即可得到多个翻译词语,如果当前得到的翻译词语为停止字符,则不再重复执行上述步骤605-607,或者,如果重复执行次数超过阈值,则不再重复执行上述步骤605-607。

609、将得到的多个翻译词语构成翻译语句。

其中,该翻译语句属于目标语言,且该翻译语句与目标语句具有相同含义。

需要说明的是,本申请实施例是以逐词翻译的方式来获取翻译语句的,而在另一实施例中,无需执行步骤601-609,能够采取其他方式,基于翻译模型、目标语句及与目标语句关联的第二关联语句,获取目标语句对应的翻译语句,目标语句及第二关联语句均属于源语言,翻译语句属于目标语言。

本申请实施例提供的方法,基于翻译模型,利用与目标语句关联的第二关联语句来对目标语句进行翻译,能够结合翻译模型对具有关联关系的语句的分析能力,提升得到的翻译语句的准确率。并且,采用逐词翻译的方式来获取目标语句对应的翻译语句,在翻译过程中结合当前已经翻译出的词语,以保证翻译出的词语之间具有关联性,从而保证得到的翻译语句的准确率。

图7是本申请实施例提供的一种语句翻译装置的结构示意图,如图7所示,该装置包括:

获取模块701,用于基于翻译模型、第一样本语句及第二样本语句,获取第一预测结果,第一预测结果指示基于翻译模型将第一样本语句翻译成第二样本语句的可能性,第一样本语句与第二样本语句具有相同含义,且第一样本语句属于源语言,第二样本语句属于目标语言;

获取模块701,还用于获取第三样本语句、第四样本语句及第一样本关系标签,第一样本关系标签指示第三样本语句与第四样本语句之间是否具有关联关系,第三样本语句与第四样本语句均属于源语言;

获取模块701,还用于基于翻译模型、第三样本语句及第四样本语句,获取第一预测关系标签,第一预测关系标签指示第三样本语句与第四样本语句之间的预测关联关系;

调整模块702,用于基于第一预测结果、第一预测关系标签及第一样本关系标签,对翻译模型进行调整。

在一种可能实现方式中,如图8所示,获取模块701,包括:

拼接单元7011,用于将第三样本语句与第四样本语句进行拼接,得到第一拼接语句;

编码单元7012,用于基于翻译模型,对第一拼接语句进行编码,得到第一编码特征,第一编码特征包括多个第一特征向量,第一个第一特征向量与位于第一拼接语句之前的起始字符对应,多个第一特征向量中除第一个第一特征向量以外的每个第一特征向量与一个第一词语对应,第一词语是指第一拼接语句中的词语,每个第一特征向量是由起始字符的词向量及多个第一词语的词向量加权融合得到的;

分类单元7013,用于对第一个第一特征向量进行分类,得到第一预测关系标签。

在另一种可能实现方式中,第一样本关系标签指示第三样本语句与第四样本语句是否属于同一组对话;分类单元7013,用于基于第一分类模型,对第一个第一特征向量进行分类,得到第一预测概率,第一预测概率指示第三样本语句与第四样本语句属于同一组对话的可能性;

如图8所示,调整模块702,包括:

第一获取单元7021,用于基于第一预测结果,获取第一损失值;

第一获取单元7021,还用于基于第一预测概率及第一样本关系标签,获取第二损失值;

第一调整单元7022,用于基于第一损失值及第二损失值,对翻译模型及第一分类模型进行调整。

在另一种可能实现方式中,第一获取单元7021,用于响应于第一样本关系标签为第一正样本关系标签,基于第一预测概率,获取第二损失值,第一正样本关系标签指示第三样本语句与第四样本语句属于同一组对话,第一预测概率与第二损失值之间呈负相关关系;或者,响应于第一样本关系标签为第一负样本关系标签,基于目标数值与第一预测概率之间的差值,获取第二损失值,第一负样本关系标签指示第三样本语句与第四样本语句不属于同一组对话,差值与第二损失值之间呈负相关关系。

在另一种可能实现方式中,第三样本语句与第四样本语句属于同一组对话,第一样本关系标签指示第三样本语句与第四样本语句是否由同一个对话者发出;分类单元7013,用于基于第二分类模型,对第一个第一特征向量进行分类,得到第二预测概率,第二预测概率指示第三样本语句与第四样本语句由同一个对话者发出的可能性;

如图8所示,调整模块702,包括:

第一获取单元7021,用于基于第一预测结果,获取第一损失值;

第一获取单元7021,还用于基于第二预测概率及第一样本关系标签,获取第三损失值;

第一调整单元7022,用于基于第一损失值及第三损失值,对翻译模型及第二分类模型进行调整。

在另一种可能实现方式中,第一获取单元7021,用于响应于第一样本关系标签为第二正样本关系标签,基于第二预测概率,获取第三损失值,第二正样本关系标签指示第三样本语句与第四样本语句是由同一个对话者发出,第二预测概率与第三损失值之间呈负相关关系;或者,响应于第一样本关系标签为第二负样本关系标签,基于目标数值与第二预测概率之间的差值,获取第三损失值,第二负样本关系标签指示第三样本语句与第四样本语句不是由同一个对话者发出,差值与第三损失值之间呈负相关关系。

在另一种可能实现方式中,编码单元7012,用于基于翻译模型中的特征提取子模型,对第一拼接语句进行特征提取,得到第二编码特征,第二编码特征包括多个词向量,多个词向量包括起始字符的词向量及多个第一词语的词向量;对于每个词向量:基于翻译模型中的编码子模型,对多个词向量进行加权融合,将加权融合后的向量与词向量进行融合,得到词向量对应的第一特征向量;将得到的多个第一特征向量构成第一编码特征。

在另一种可能实现方式中,获取模块701,用于基于翻译模型,分别对第一样本语句及第二样本语句进行编码,得到第一样本语句对应的第三编码特征及第二样本语句对应的第四编码特征,第四编码特征包括每个第二词语对应的第二特征向量,第二词语是指第二样本语句中的词语,每个第二特征向量是由对应的第二词语及之前的第二词语的词向量加权融合得到的;基于翻译模型,将第三编码特征及第四编码特征进行融合,得到融合特征,融合特征包括每个第二词语对应的融合特征向量;基于翻译模型及融合特征,获取每个第二词语对应的第三预测概率,第三预测概率指示基于翻译模型将每个融合特征向量翻译成对应的第二词语的可能性。

在另一种可能实现方式中,如图8所示,装置还包括:

获取模块701,还用于获取第一样本数据集,第一样本数据集包括具有相同含义的第一对话数据及第二对话数据,第一对话数据属于源语言,第二对话数据属于目标语言,第一对话数据和第二对话数据均是基于第三对话数据翻译得到,第三对话数据是由至少两个对话者分别以源语言和目标语言进行对话得到;

训练模块703,用于基于第一样本数据集对翻译模型再次进行迭代训练。

在另一种可能实现方式中,如图8所示,训练模块703,包括:

第二获取单元7031,用于从第一对话数据中获取第五样本语句以及与第五样本语句关联的第一关联语句、从第二对话数据中获取与第五样本语句具有相同含义的第六样本语句;

确定单元7032,用于从至少一个第一对话数据中,获取第七样本语句和第八样本语句,确定第二样本关系标签,第二样本关系标签指示第七样本语句与第八样本语句之间是否具有关联关系;

第二获取单元7031,还用于基于翻译模型、第五样本语句、第一关联语句及第六样本语句,获取第二预测结果,第二预测结果指示基于翻译模型将第五样本语句翻译成第六样本语句的可能性;

第二获取单元7031,还用于基于翻译模型、第七样本语句及第八样本语句,获取第二预测关系标签,第二预测关系标签指示第七样本语句与第八样本语句之间的预测关联关系;

第二调整单元7033,还用于基于第二预测结果、第二预测关系标签及第二样本关系标签,对翻译模型进行调整。

在另一种可能实现方式中,第二获取单元7031,用于将第五样本语句及第一关联语句进行拼接,得到第二拼接语句;基于翻译模型,分别对第二拼接语句及第六样本语句进行编码,得到第二拼接语句对应的第五编码特征及第六样本语句对应的第六编码特征,第六编码特征包括每个第三词语对应的第三特征向量,第三词语是指第六样本语句中的词语,每个第三特征向量是由对应的第三词语及之前的第三词语的词向量加权融合得到的;基于翻译模型,将第五编码特征及第六编码特征进行融合,得到融合特征,融合特征包括每个第三词语对应的融合特征向量;基于翻译模型及融合特征,获取每个第三词语对应的第四预测概率,第四预测概率指示基于翻译模型将每个融合特征向量翻译成对应的第三词语的可能性。

在另一种可能实现方式中,如图8所示,装置还包括:

获取模块701,还用于获取第二样本数据集,第二样本数据集包括具有相同含义的第九样本语句及第十样本语句,第九样本语句属于源语言,第十样本语句属于目标语言;

训练模块703,用于基于第二样本数据集对翻译模型进行迭代训练。

在另一种可能实现方式中,如图8所示,装置还包括:

获取模块701,还用于基于翻译模型、目标语句及与目标语句关联的第二关联语句,获取目标语句对应的翻译语句,目标语句及第二关联语句均属于源语言,翻译语句属于目标语言。

在另一种可能实现方式中,如图8所示,获取模块701,包括:

编码单元7012,用于基于翻译模型对目标语句及第二关联语句进行编码,得到第七编码特征;

第三获取单元7014,用于基于翻译模型及第七编码特征,获取第一个翻译词语;

第三获取单元7014,还用于基于翻译模型、第七编码特征及第一个翻译词语,获取下一个翻译词语,重复上述步骤,直至得到最后一个翻译词语;

构成单元7015,用于将得到的多个翻译词语构成翻译语句。

在另一种可能实现方式中,第三获取单元7014,用于基于翻译模型,对起始字符进行编码,得到起始字符对应的第八编码特征;基于翻译模型,将第七编码特征及第八编码特征进行融合,得到融合特征;基于翻译模型,对融合特征进行解码,得到第一个翻译词语。

在另一种可能实现方式中,第三获取单元7014,用于基于翻译模型,对起始字符及当前已得到的翻译词语进行编码,得到第九编码特征;基于翻译模型,将第七编码特征及第九编码特征进行融合,得到融合特征;基于翻译模型,对融合特征进行解码,得到下一个翻译词语。

需要说明的是:上述实施例提供的语句翻译装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语句翻译装置与语句翻译方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的语句翻译方法中所执行的操作。

可选地,计算机设备提供为终端。图9示出了本申请一个示例性实施例提供的终端900的结构框图。该终端900可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端900包括有:处理器901和存储器902。

处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器901所执行以实现本申请中方法实施例提供的语句翻译方法。

在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置在终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置在终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。

接近传感器916,也称距离传感器,设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

可选地,计算机设备提供为服务器。图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1001和一个或一个以上的存储器1002,其中,存储器1002中存储有至少一条计算机程序,至少一条计算机程序由处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的语句翻译方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备实现如上述实施例的语句翻译方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120113807355