文本翻译方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 12:22:51

技术领域

本公开的实施例涉及翻译技术领域，具体涉及文本翻译方法、装置、电子设备和存储介质。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机计算能力的提升和多语言信息的爆发式增长，机器翻译技术开始为普通用户提供实时便捷的翻译服务。

然而，现有的机器翻译技术，对特定场景下的某些词语(例如人名、特定实体词等)的翻译出错率比较高。例如，某个人的姓名为“X 攀登”，在翻译引擎进行中英翻译时，可能会按照字面意思翻译成“X Climbing”，造成翻译错误。

因此，有必要提出一种新的进行机器翻译的技术方案。

发明内容

本公开的实施例提出了文本翻译方法、装置、电子设备和存储介质。

第一方面，本公开提供了一种文本翻译方法，包括：

获取一连续语音数据对应的目标识别文本和热词，其中，上述热词与上述连续语音数据相关联；

根据上述连续语音数据的场景信息，确定上述热词的热词译文；

基于上述热词译文，对上述目标识别文本进行翻译。

在一些可选的实施方式中，上述连续语音数据为音视频会议中发言用户的连续语音数据。

在一些可选的实施方式中，上述连续语音数据通过单次调用自动语音识别服务获得。

在一些可选的实施方式中，上述连续语音数据对应的热词，包括上述音视频会议的人员姓名和/或高频词。

在一些可选的实施方式中，上述连续语音数据的场景信息，包括上述音视频会议的会议描述信息、会议人员信息和/或会议转录信息。

在一些可选的实施方式中，上述根据上述连续语音数据的场景信息，确定上述热词的热词译文，包括：

根据上述音视频会议的会议人员信息，确定上述音视频会议的人员姓名的热词译文；和/或

根据上述音视频会议的会议描述信息或者会议转录信息，确定上述音视频会议的高频词的热词译文。

在一些可选的实施方式中，上述基于上述热词译文，对上述目标识别文本进行翻译，包括：

对于上述连续语音数据对应的每个热词，在上述目标识别文本中查找与该热词一致的目标词语；

响应于查找到，将该热词对应的热词译文确定为上述目标词语对应的目标译文。

在一些可选的实施方式中，上述热词译文存储在内存中。

第二方面，本公开提供了一种文本翻译装置，包括：

获取单元，用于获取一连续语音数据对应的目标识别文本和热词，其中，上述热词与上述连续语音数据相关联；

确定单元，用于根据上述连续语音数据的场景信息，确定上述热词的热词译文；

翻译单元，用于基于上述热词译文，对上述目标识别文本进行翻译。

在一些可选的实施方式中，上述连续语音数据为音视频会议中发言用户的连续语音数据。

在一些可选的实施方式中，上述连续语音数据通过单次调用自动语音识别服务获得。

在一些可选的实施方式中，上述连续语音数据对应的热词，包括上述音视频会议的人员姓名和/或高频词。

在一些可选的实施方式中，上述连续语音数据的场景信息，包括上述音视频会议的会议描述信息、会议人员信息和/或会议转录信息。

在一些可选的实施方式中，上述确定单元进一步用于：

根据上述音视频会议的会议人员信息，确定上述音视频会议的人员姓名的热词译文；和/或

根据上述音视频会议的会议描述信息或者会议转录信息，确定上述音视频会议的高频词的热词译文。

在一些可选的实施方式中，上述翻译单元进一步用于：

对于上述连续语音数据对应的每个热词，在上述目标识别文本中查找与该热词一致的目标词语；

响应于查找到，将该热词对应的热词译文确定为上述目标词语对应的目标译文。

在一些可选的实施方式中，上述热词译文存储在内存中。

第三方面，本公开提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如本公开第一方面任一实施方式描述的方法。

第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，上述计算机程序被一个或多个处理器执行时实现如本公开第一方面任一实施方式描述的方法。

本公开的实施例提供的文本翻译方法、装置、电子设备和存储介质，根据连续语音数据的场景信息确定热词的热词译文，在此基础上对目标识别文本进行翻译，能够结合连续语音数据的场景信息，合理准确地确定目标识别文本的正确译文，有利于提升翻译结果的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。附图仅用于示出具体实施方式的目的，而并不认为是对本发明的限制。在附图中：

图1是根据本公开的翻译系统的一个实施例的系统架构图；

图2是根据本公开的文本翻译方法的一个实施例的流程图；

图3是根据本公开的文本翻译方法的一个例子的示意图；

图4是根据本公开的文本翻译装置的一个实施例的结构示意图；

图5是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的文本翻译方法、装置、终端设备和存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105 交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如语音交互类应用、视频会议类应用、短视频社交类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有麦克风和扬声器的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来翻译服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、 102、103上采集的音频信号提供处理服务的后台服务器。后台服务器可以对接收到的音频信号等进行相应处理。

在一些情况下，本公开所提供的文本翻译方法可以由终端设备 101、102、103和服务器105共同执行，例如，“根据连续语音数据的场景信息，确定热词的热词译文”的步骤可以由服务器105执行，“基于热词译文，对目标识别文本进行翻译”的步骤可以由终端设备101、 102、103执行。本公开对此不做限定。相应地，文本翻译装置也可以分别设置于终端设备101、102、103和服务器105中。

在一些情况下，本公开所提供的文本翻译方法可以由终端设备 101、102、103执行，相应地，文本翻译装置也可以设置于终端设备 101、102、103中，这时，系统架构100也可以不包括服务器105。

在一些情况下，本公开所提供的文本翻译方法可以由服务器105 执行，相应地，文本翻译装置也可以设置于服务器105中，这时，系统架构100也可以不包括终端设备101、102、103。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的文本翻译方法的一个实施例的流程200，应用于图1中的终端设备或服务器，该流程200包括以下步骤：

步骤201，获取一连续语音数据对应的目标识别文本和热词，其中，热词与连续语音数据相关联。

在本实施例中，连续语音数据可以是一个连续不断的语音段落，还可以是多个间隔较小的语音段落形成的整体。例如，若干个相互间隔小于5秒的语音段落，可以形成一连续语音数据。

在一个例子中，连续语音数据可以是音视频会议中发言用户的连续语音数据。这里，发言用户的连续语音数据可以是该用户单独发言时形成的连续不断的语音段落，也可以是由该用户在与其他用户交谈时形成的多个间隔较小的语音段落所组成的整体。

在本实施例中，目标识别文本是待翻译的文本。目标识别文本可以通过语音识别技术对连续语音数据进行识别得到。上述语音识别技术可以利用语言模式识别以及自主学习技术，对各类业务生成的声音信号做集中的分析处理，实现高效的语音转写文字服务。其中，语音识别可以包含特征提取、模式匹配和参考模型库三个基本部分，分为学习和训练两个阶段。首先对识别内容的特征参数进行训练，得到参考模板，再将测试模板与存在的参考模板通过识别决策进行匹配，获得最佳匹配的参考模板就构成了语音识别的结果。

在一个例子中，可以对音视频会议的连续语音数据进行语音识别，得到语音识别文本并将其作为目标识别文本。这里，目标识别文本可以是会议的字幕文本，也可以是会议的会议记录文本。

在本实施例中，热词为与目标识别文本的来源场景相关的词语。例如，当目标识别文本的来源场景为会议场景时，目标识别文本对应的热词可以是参会人姓名、会议标题中的词语、会议字幕中的词语、会议记录中的词语等等。又例如，当目标识别文本的来源场景为讲座场景时，目标识别文本对应的热词可以是讲座人的姓名、讲座名称中的词语等。

在本实施例中，热词可以对应于任何语言，例如汉语或者英语等，本公开对此不做限定。

在一个例子中，连续语音数据对应的热词，可以包括音视频会议的人员姓名和/或高频词。其中，音视频会议的人员姓名，例如是音视频会议的参会人姓名以及参会人的电子通讯录中的姓名等。音视频会议的高频词，可以是音视频会议中实际出现频率较高的词语，也可以是音视频会议中可能出现概率较高的词语，可以是会议标题、会议字幕或者会议记录中的词语，例如为“投资”、“VC(Visual Conference，视频会议)”等。

在音视频会议的例子中，一场音视频会议可能对应多个连续语音数据，每个连续语音数据均具有相应的热词集合。

在一个例子中，可以通过调用预设的自动语音识别服务，将语音数据转换为识别文本。本实施例中文本翻译方法的执行主体可以与自动语音识别服务引擎建立会话。在语音数据连续不断产生和传输的情况下，执行主体和自动语音识别服务引擎之间的会话始终保持。如果语音数据中断超过一定的时长，则执行主体和自动语音识别服务引擎之间的会话断开。容易理解，执行主体和自动语音识别服务引擎之间建立一次会话，即为执行主体对自动语音识别服务进行一次调用，相应地会形成一段连续语音数据并得到对应的目标识别文本。

执行主体还可以通过调用预设的热词服务，获得该连续语音数据对应的热词。

步骤202，根据连续语音数据的场景信息，确定热词的热词译文。

在本实施例中，场景信息为与连续语音数据的来源场景相关的信息。在连续语音数据来源于音视频会议时，相关的场景信息可以包括会议描述信息(例如会议标题或者会议简介等)、会议人员信息(例如参会用户的用户信息等)、会议转录信息(例如本次会议的会议记录或者会议字幕)等。

在本实施例中，可以根据连续语音数据的场景信息，确定热词的热词译文。

可以根据音视频会议的会议人员信息，确定音视频会议的人员姓名的热词译文。例如对于热词“X攀登”，可以根据参会人信息判断其为参会人姓名。如果该用户的用户信息中存在英文名例如“Leo”，则可将热词“X攀登”的热词译文确定为“Leo”；如果相关的用户信息中不存在英文名，则可根据姓名翻译规则确定相应的热词译文为“Pandeng X”，而非“XClimbing”。

可以根据音视频会议的会议描述信息或者会议转录信息，确定音视频会议的高频词的热词译文。对于热词“VC”，可以根据会议描述信息(例如会议标题中包含“视频会议”)确定其翻译为“视频会议 (Visual Conference)”，而非通常情况下的翻译“风险投资(Venture Capital)”。

在一个例子中，可以将热词对应的热词译文存储在内存中。例如可以将每个热词和相应的热词译文形成翻译词表，将该翻译词表存储在内存中。通过上述方式，一方面可以减少对执行主体本地存储空间的占用，另一方面有利于提高对热词译文的访问速度，进而提高翻译速度。

在一个例子中，对于每个通过单次调用自动语音识别服务形成的连续语音数据，可以形成相应的翻译词表，以便对相应的目标识别文本进行翻译。在音视频会议进行的过程中，执行主体会对自动语音识别服务进行多次调用，每次调用均会形成相应的翻译词表，用于对相应的目标识别文本进行翻译。随着音视频会议的进行，翻译词表可能会发生变化，即翻译词表(包含热词和热词译文)具有实时性和动态性。对于某次调用自动语音识别服务所形成的连续语音数据，可以利用该次调用自动语音识别服务形成的翻译词表对其进行翻译。相对于采用固定的翻译词表，上述方式使得翻译所依据的信息具有针对性，有利于提高翻译结果的准确度。

举例来说，假设第一位发言用户围绕“视频会议”发言，通过单次调用自动语音识别服务形成了第一连续语音数据；第二位发言用户围绕“风投”发言，通过单次调用自动语音识别服务形成了第二连续语音数据。假设第一连续语音数据和第二连续语音数据对应的热词均包括“VC”，由于两位发言用户的发言内容不同，该热词的热词译文也会不同。对于第一连续语音数据，可以确定热词“VC”的热词译文为“视频会议”，而对于第二连续语音数据，可以确定热词“VC”的热词译文为“风投”。对于第一连续语音数据和第二连续语音数据，分别利用相应的翻译词表进行翻译，可以得到与其具体内容相符的翻译结果。而如果采用固定的翻译词表，针对不同连续语音数据对应的热词只能得出相同的翻译结果，无法实现上述效果。

步骤203，基于热词译文，对目标识别文本进行翻译。

在一个例子中，步骤203可以按照如下方式实施：对于连续语音数据对应的每个热词，在目标识别文本中查找与该热词一致的目标词语。响应于查找到，将该热词对应的热词译文确定为目标词语对应的目标译文。

本公开的实施例提供的文本翻译方法，根据连续语音数据的场景信息确定热词的热词译文，在此基础上对目标识别文本进行翻译，能够结合连续语音数据的场景信息，合理准确地确定目标识别文本的正确译文，有利于提升翻译结果的准确度。

在一个例子中，上述文本翻译方法还可以包括以下步骤：对于目标识别文本中目标词语以外的内容，根据预设翻译算法确定相应的译文。如图3所示，对于目标识别文本中的目标词语，可以将热词对应的热词译文确定为目标词语对应的目标译文。对于目标识别文本中目标词语以外的内容，可以根据预设翻译算法确定相应的译文。可见，本公开提供的文本翻译方法可以与现有的文本翻译方法结合使用，在满足通用性翻译任务的同时提高场景相关词语翻译的准确度，从而弥补现有文本翻译方法的不足。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种文本翻译装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种终端设备中。

如图4所示，本实施例的文本翻译装置400包括：获取单元401、确定单元402和翻译单元403。其中，获取单元401，获取单元，用于获取一连续语音数据对应的目标识别文本和热词，其中，热词与连续语音数据相关联。确定单元402，用于根据连续语音数据的场景信息，确定热词的热词译文。翻译单元403，用于基于热词译文，对目标识别文本进行翻译。

在本实施例中，文本翻译装置400的获取单元401、确定单元402 和翻译单元403的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在一些可选的实施方式中，上述连续语音数据可以为音视频会议中发言用户的连续语音数据。

在一些可选的实施方式中，上述连续语音数据可以通过单次调用自动语音识别服务获得。

在一些可选的实施方式中，上述连续语音数据对应的热词，可以包括上述音视频会议的人员姓名和/或高频词。

在一些可选的实施方式中，上述连续语音数据的场景信息，可以包括上述音视频会议的会议描述信息、会议人员信息和/或会议转录信息。

在一些可选的实施方式中，上述确定单元402可以进一步用于：根据上述音视频会议的会议人员信息，确定上述音视频会议的人员姓名的热词译文；和/或根据上述音视频会议的会议描述信息或者会议转录信息，确定上述音视频会议的高频词的热词译文。

在一些可选的实施方式中，上述翻译单元403可以进一步用于：对于上述连续语音数据对应的每个热词，在上述目标识别文本中查找与该热词一致的目标词语；响应于查找到，将该热词对应的热词译文确定为上述目标词语对应的目标译文。

在一些可选的实施方式中，上述热词译文可以存储在内存中。

需要说明的是，本公开的实施例提供的文本翻译装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开的终端设备的计算机系统500的结构示意图。图5示出的计算机系统500仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502 中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有计算机系统500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许计算机系统500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备的计算机系统500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、 RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备实现如图2所示的实施例及其可选实施方式示出的文本翻译方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，热词获取单元还可以被描述为“用于获取一连续语音数据对应的目标识别文本和热词的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐文铭;韩晓;杜春赛;陈可蓉;杨晶生;
专利申请人：北京字跳网络技术有限公司;

上一篇：一种具备归纳功能的晾晒衣架及其控制方法
下一篇：LED闪光灯