掌桥专利:专业的专利平台
掌桥专利
首页

基于文本信息及针对即时通讯文本信息的翻译方法及装置

文献发布时间:2023-06-19 09:24:30


基于文本信息及针对即时通讯文本信息的翻译方法及装置

技术领域

本申请涉及计算机技术领域,具体涉及一种基于文本信息的翻译方法和装置。本申请同时涉及一种针对即时通讯文本信息的翻译方法和装置,以及计算机存储介质和电子设备。

背景技术

随时计算机技术和互联网技术的发展,通信手段由原来的电话、短信、邮件等发展到现有最为重要的即时通信方式,即时通信方式能够即时或实时发送和接收互联网消息等的业务。如今的即时通信方式以不再是功能单一的聊天工具,其已经发展成集交流、资讯、娱乐、搜索、电子商务、办公协作和企业客户服务等为一体的综合化信息交流平台。

随着通信方式的发展,为缓解不用语言之间的交流障碍,以及在通过通信平台进行语言学习的语言障碍,针对实时通信方式的沟通翻译应用而生。其目的在于将通过文本翻译成需要翻译的语言类型。

目前基于机器学习的机器翻译已经成功应用在很多通信方式的翻译场景中,实时沟通翻译也同样的使用机器翻译的方式。然而,采用机器翻译的方式,对于不同企业内部的特定实现名称翻译时,会存在翻译不准确的情况,例如:用同一名称指代不同事物对象,在不同的应用环境下同一名称指代事物对象的含义有所区别,机器翻译只能按照常规的翻译方式进行翻译,故造成翻译准确度差且对特定的事物名词机器翻译识别性差。

发明内容

本申请提供一种基于文本信息的翻译方法,以解决现有技术中翻译准确度差的问题。

本申请提供一种基于文本信息的翻译方法,包括:

获取待翻译的文本信息;

结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息;其中,实体数据信息为用于描述事物对象名称的数据信息,非实体数据信息为用于描述非事物对象名称的数据信息;

分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

在一些实施例中,所述结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,包括:

结合预先定制的实体数据信息集合对文本信息进行分词处理,获得针对文本信息的分词结果;

根据分词结果,确定文本信息中的实体数据信息和非实体数据信息。

在一些实施例中,所述结合预先定制的实体数据信息集合对文本信息进行分词处理,获得针对文本信息的分词结果,包括:

结合预先定制的实体数据信息集合,采用匹配算法,对文本信息进行分词处理,获得候选切分路径;

在候选切分路径范围内,选择满足分词要求的切分路径;

根据切分路径对应的切分结果,获得针对文本信息的分词结果。

在一些实施例中,所述根据分词结果,确定文本信息中的实体数据信息和非实体数据信息,包括:

将分词结果中,与预先定制的实体数据信息集合中相同的词确定为文本信息中的实体数据信息;

将分词结果中,与预先定制的实体数据信息集合中不同的词确定为文本信息中的非实体数据信息。

在一些实施例中,还包括:

当确定的文本信息中的实体数据信息包括至少两个相同的实体数据信息时,将至少两个相同的实体数据信息确定为候选实体数据信息;

分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果;

根据确定结果,将指代事物对象名称的数据信息的候选实体数据信息,确定为实体数据信息或非实体数据信息。

在一些实施例中,所述分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果,包括:

利用神经网络,分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果。

在一些实施例中,所述分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息,包括:

对实体数据信息采用设定的实体翻译方式进行翻译,获得翻译实体数据信息;

对非实体数据信息采用机器翻译方式进行翻译,获得非翻译实体数据信息。

在一些实施例中,所述对实体数据信息采用设定的实体翻译方式进行翻译,获得翻译实体数据信息,包括:

根据设定的汉字转拼音的实体翻译方式进行翻译,获得翻译实体数据信息。

在一些实施例中,所述对实体数据信息采用设定的实体翻译方式进行翻译,获得翻译实体数据信息,包括:

判断实体数据信息是否为描述特定事物对象的数据信息,若是,则采用预先设定翻译文本数据信息,对特定事物对象的数据信息进行翻译,获得翻译实体数据信息。

在一些实施例中,还包括:

预先定制描述事物对象名称的实体数据信息集合。

在一些实施例中,还包括:

输出生成的对应于文本信息的翻译文本信息。

本申请还提供一种基于文本信息的翻译装置,包括:

获取单元,用于获取待翻译的文本信息;

确定单元,用于结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,实体数据信息为用于描述事物对象名称的数据信息,非实体数据信息为用于描述非事物对象名称的数据信息;

翻译单元,用于别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

生成单元,用于根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

本申请还提供一种针对即时通讯文本信息的翻译方法,包括:

基于即时通讯平台获取当前接收的文本信息;

结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,所述实体数据信息为用于描述事物对象名称的数据信息,实体数据信息集合为用于描述事物对象名称的数据信息的集合,非实体数据信息为用于描述非事物对象名称的数据信息;

分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

本申请还提供一种针对即时通信文本信息的翻译装置,包括:

获取单元,用于基于即时通讯平台获取当前接收的文本信息;

确定单元,用于结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,所述实体数据信息为用于描述事物对象名称的数据信息,实体数据信息集合为用于描述事物对象名称的数据信息的集合,非实体数据信息为用于描述非事物对象名称的数据信息;

翻译单元,用于分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

生成单元,用于根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;

所述程序在被读取执行时,执行如上所述的基于文本信息的翻译方法的步骤;或者执行如上所述的针对即时通讯文本信息的翻译方法的步骤。

本申请还提供一种电子设备,包括:

处理器;

存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如上所述的基于文本信息的翻译方法的步骤;或者执行如上所述的针对即时通讯文本信息的翻译方法的步骤。

与现有技术相比,本申请具有以下优点:

本申请提供的一种基于文本信息的翻译方法,通过获取待翻译的文本信息;结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,实体数据信息为用于描述事物对象名称的数据信息,非实体数据信息为用于描述非事物对象名称的数据信息;分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。从而能够将文本信息与预先定制的实体数据信息集合进行结合获得文本信息中实体数据信息,并根据实体数据信息的翻译方式完成翻译,从而避免针对实体数据信息机器翻译翻译准确度差的问题。

附图说明

图1是本申请提供的一种基于文本信息的翻译方法实施例的流程图;

图2是本申请提供的一种基于文本信息的翻译方法实施例中根据RNN确定候选实体数据信息的示意图;

图3是本申请提供的一种基于文本信息的翻译装置实施例的结构示意图;

图4是本申请提供的一种针对即时通讯文本信息的翻译方法实施例的流程图;

图5是本申请提供的一种针对即时通讯文本信息的翻译装置实施例的结构视图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种”、“第一”、和“第二”等,并非对数量上的限定或先后顺序上的限定,而是用来将同一类型的信息彼此区分。

根据本申请在背景技术中的描述,可以了解,本申请提供的一种基于文本信息的翻译方法是基于即时通信翻译场景下提出的一种解决翻译准确差的技术方案,但是,本申请提供的翻译方法并不限于该种即时通信的应用场景,因为,在对文本进行翻译过程存在针对用同一名称指代不同事物对象,且该事物对象名称在不同的应用环境下具有不同指代含义的情况下,均可以采用本申请提供的翻译方法,因此,本申请的翻译方法并不受限于即时通信的应用场景,例如邮件,微博等具有数据交互并存在翻译需求的场景下,或者不依赖与任何交互平台仅存在翻译需求场景下均可提高针对文本信息翻译准确度。下面将详细介绍本申请提供的基于文本信息的翻译方法具体内容。

请参考图1所示,图1是本申请提供的一种基于文本信息的翻译方法实施例的流程图,该翻译方法包括:

步骤S101:获取待翻译的文本信息;

所述步骤S101中的待翻译的文本信息,在本实施例中,可以理解为中文文本信息,当然也可以是其他语言类型的文本信息。获取待翻译的文本信息具体实现过程可以是,基于可通过文本信息进行交互的沟通平台获取当前接收到的文本信息,将当前接收到的文本信息确定为待翻译的文本信息。

步骤S102:结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,实体数据信息为用于描述事物对象名称的数据信息,非实体数据信息为用于描述非事物对象名称的数据信息;

所述步骤S102中用于描述事物对象名称的数据信息在本实施例中可以包括采用同一名称描述不同事物对象,其中事物对象在不同的语境下具有不同的含义,例如:事物对象A的名称为AAA,AAA在不同的语境下可以是指代具体行为的动词也可以是指代具体事物的名词。当然也可以存在其他语境区分。

客观存在并可相互区别的事物称之为实体。实体可以是具体的事、物,也可以是抽象的概念或联系。实体是客观世界中存在的且可互相区分的事物。为便于理解,在本实施例中,可以将所述实体理解为产品名称信息或企业名称信息等,或者企业中一些特定名称信息。与实体信息相反的称之为非实体。

实体数据信息集合在本实施例中可以看做是一个针对实体的实体词典,因此,本申请还可以包括:

预先定制描述事物对象名称的实体数据信息集合。也就是,将针对具体特定的实体事物对象名称聚合在一起作为实体数据信息集合,该集合中包括特定的实体事物对象名称。

上述是步骤S102中的涉及的一些概念进行的解释,对于步骤S102的具体实现过程可以包括:

步骤S102-1:结合预先定制的实体数据信息集合对文本信息进行分词处理,获得针对文本信息的分词结果;

所述步骤S102-1中得分词处理可以理解为对文本信息进行切分处理,将文本信息切分为单独词的形式,当然,切分文本信息时,需要结合预先定制的实体数据信息集合,即预先定制的实体词典进行文本信息的切分。因此,所述步骤S102-1的具体实现过程可以包括:

步骤S102-1-11:结合预先定制的实体数据信息集合,采用匹配算法,对文本信息进行分词处理,获得候选切分路径;

现有分词的匹配算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。由于分词方法为现有技术,此处仅进行笼统介绍,不再详细阐述。

其中,常用的基于字符串匹配分词方法有如下几种:

(1)正向最大匹配法(从左到右的方向);

(2)逆向最大匹配法(从右到左的方向);

(3)最小切分(每一句中切出的词数最小);

(4)双向最大匹配(进行从左到右、从右到左两次扫描)。

基于理解的分词方法是通过计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。

基于统计的分词方法是在给定大量已经分词的文本的前提下,利用机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。

在本实施例中,可以采用最大正向匹配法对文本信息进行分词处理,获得候选切分路径。

步骤S102-1-12:在候选切分路径范围内,选择满足分词要求的切分路径;

所述步骤S102-1-12的具体实现方式可以是,在候选切分路劲范围内,选择概率最高的切分路劲作为满足分词要求的切分路径。

所谓切分路劲可以是指词和词之间切分的切分信息,或者词和字之间切分的切分信息。

切分路径的概率值可以通过序列标注方式进行计算,即:在分词过程中对每个字或词进行打标签(标签可以分为四类:B-词的开始,E-词的结束,M-词的中间,S-单字成词)。举例而言:“你|今天|饿了么”对应的标签序列可以是“SBEBME”,这是一种切分路径,实际上可以具有多个切分路径。对应不同的切分路径可以获得每个标签的概率,将路径上的每个标签的概率相乘即可获得切分路径的概率,在切分的切分路径范围内选择概率值最高的路径作为最终的切分结果,该切分结果对应的切分路径为概率最高的切分路劲。

步骤S102-1-13:根据切分路径对应的切分结果,获得针对文本信息的分词结果。

为便于理解步骤S102-1-13,举例说明,例如:预先定制的实体数据集合中包括AAA,对于文本信息为“你好,你用过AAA吗”?切分后可以是:你/好/你/用过/A/A/A/吗/?;也可以:你好/你/用过/A/A/A/吗/?;也可以是:你好/你/用过/A/A/A/吗/?等切分结果。由于在切分时,结合了预先定制的实体数据信息集合,其中AAA为预先定制的实体数据信息集合中预先设定的词(即:定制词),因此,可以获得最大概率的切分结果是:你好/你/用过/AAA/吗/?,进而获得分词结果为:你好/你/用过/AAA/吗/?。

步骤S102-2:根据分词结果,确定文本信息中的实体数据信息和非实体数据信息。

所述步骤S102-2的具体实现过程可以包括:

步骤S102-2-11:将分词结果中,与预先定制的实体数据信息集合中相同的词确定为文本信息中的实体数据信息;

所述步骤S102-2-11中如果分词结果中包括与预先定制的实体数据信息结合中相同的内容或名称,则将分词结果中的词确定为文本信息中的实体数据信息,例如:预先定制的实体数据集合中包括AAA,分词结果中包括AAA,则将文本信息中的AAA确定为文本信息中的实体数据信息。

步骤S102-2-12:将分词结果中,与预先定制的实体数据信息结合中不同的词确定为文本信息中的非实体数据信息。

所述步骤S102-2-12中的非实体数据信息可以沿用步骤S102-2-11中的举例,非实体数据信息可以包括:你好,你,吗。

对于文本信息中存在至少两个相同的实体数据信息的情况,然而可能指代的含义却不同时,此时需要将相同的实体数据信息确定为候选实体数据信息,在候选实体数据信息中确定出真实的指代实体数据信息的词,例如:文本信息为你好,你AAA(动词)吗?我们用AAA(名称)吧。其中AAA描述事物对象的数据信息(可以理解为实体数据信息),在不同的语境下其充当的角色不同,例如:动词和名词,因此,需要针对文本信息确定的候选实体数据信息中,确定出指代事物对象名称的数据信息,因此,本实施例还包括:

步骤S10a:当确定的文本信息中的实体数据信息包括至少两个相同的实体数据信息时,将至少两个相同的实体数据信息确定为候选实体数据信息;

步骤S10b:分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果;

步骤S10c:根据确定结果,将指代事物对象名称的数据信息的候选实体数据信息,确定为实体数据信息或非实体数据信息。

沿用上例,候选实体数据信息中,即:你好/你/AAA/吗?我们/用/AAA/吧,两个AAA为候选实体数据信息,要针对两个AAA确定出真实的指代事物对象名称的数据信息,进而步骤S10b包括:

步骤S10b-1:利用神经网络,分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果。

请参考图2所示,神经网络可以选用CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)等。在本实施例中,选用RNN神经网络,所述RNN神经网络在确定候选实体数据信息中是否为指代事务对象名称的数据信息的具体过程可以是:

将两个候选实体数据信息对应的分词结果(X_1,……,X_i,……,X_n)分别输入到所述RNN网络模型中,即:将分词结果后的词向量输入至所述RNN网络模型中,例如:你好/你/AAA/吗?我们/用/AAA/吧。将“你好”、“你”、“AAA”、“吗”和“?”的词向量输入至所述RNN网络模型,由于AAA是候选实体数据信息,因此可以根据AAA的上下文获得RNN网络模型的输出值,即将候选实体数据信息前的词向量、候选实体数据信息词向量和候选实体数据信息后的词向量拼接,获得拼接后词向量值。所述RNN网络模型预先训练好实体数据信息的输出值,例如:输出至大于或等于0.5为实体数据信息,小于0.5为非实体数据信息。因此,采用RNN网络模型在获得拼接后的词向量值,若其大于或等于0.5则输出为1,说明AAA为实体数据信息,若小于0.5则输出为0,说明AAA为非实体数据信息。

需要说明的是,输入至所述RNN网络模型中的词向量可以是相邻候选实体数据信息的上下分词,沿用上例:可以是“你”的词向量、“AAA”的词向量和“吗”词向量,“用”的词向量、“AAA”的词向量和“吧”的词向量;而无需将所有分词均输入至RNN网络模型中。

步骤S103:分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

所述步骤S103具体实现过程可以包括:

步骤S103-1:对实体数据信息采用设定的实体翻译方式进行翻译,获得翻译实体数据信息;

所述步骤S103-1中设定的实体翻译方式可以是汉字转拼音的实体翻译方式,因此所述步骤S103-1的具体实现过程可以是:

根据设定的汉字转拼音的实体翻译方式进行翻译,获得翻译实体数据信息。

在定制的实体数据信息中,还可以包括一些描述特定事物对象的数据信息,该些特定事物对象可以是特定的产品名称之类,对于该些特定视图对象数据信息可以预先设定其对应的翻译文本数据信息,在翻译时直接通过预先设定的翻译文本数据信息进行翻译即可,因此所述步骤S103-1的具体实现过程还可以包括:

判断实体数据信息是否为描述特定事物对象的数据信息,若是,则采用预先设定翻译文本数据信息,对特定事物对象的数据信息进行翻译,获得翻译实体数据信息。

步骤S103-2:对非实体数据信息采用机器翻译方式进行翻译,获得非翻译实体数据信息。

所述步骤S103-2中机器翻译可以是基于Self-Attention的端到端神经网络翻译模型进行翻译,其是利用大规模的中英平行语料进行训练获得。

步骤S104:根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

所述步骤S104的具体实现过程是,将翻译实体数据信息和翻译非实体数据信息,根据文本信息所对应的位置进行合并,生成对应于文本信息的翻译文本信息。

基于上述内容,本实施例中还可以包括:

输出生成的对应于文本信息的翻译文本信息。具体地,可以将生成的对应于文本信息的翻译文本信息输出至对应于文本信息的位置区域。

以上是本申请提供的一种基于本文信息的翻译方法实施例的描述,与前述提供的一种基于文本信息的翻译方法实施例相对应,本申请还公开一种基于文本信息的翻译装置实施例,请参看图3,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图3所示,图3是本申请提供的一种基于文本信息的翻译装置实施例的结构示意图,该翻译装置包括:

获取单元301,用于获取待翻译的文本信息;

确定单元302,用于结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,实体数据信息为用于描述事物对象名称的数据信息,非实体数据信息为用于描述非事物对象名称的数据信息;

所述确定单元302包括:

分词处理子单元,用于结合预先定制的实体数据信息集合对文本信息进行分词处理,获得针对文本信息的分词结果;

确定子单元,用于根据分词结果,确定文本信息中的实体数据信息和非实体数据信息。

所述分词处理子单元包括:

路劲获得子单元,用于结合预先定制的实体数据信息集合,采用匹配算法,对文本信息进行分词处理,获得候选切分路径;

选择子单元,用于在候选切分路径范围内,选择满足分词要求的切分路径;

分词结果获得子单元,用于根据切分路径对应的切分结果,获得针对文本信息的分词结果。

所述确定子单元包括:

实体确定子单元,用于将分词结果中,与预先定制的实体数据信息集合中相同的词确定为文本信息中的实体数据信息;

非实体确定子单元,用于将分词结果中,与预先定制的实体数据信息集合中不同的词确定为文本信息中的非实体数据信息。

对于文本信息中存在至少两个相同的实体数据信息的情况,然而可能指代的含义却不同时,此时需要将相同的实体数据信息确定为候选实体数据信息,在候选实体数据信息中确定出真实的指代实体数据信息的词,因此,还包括:

候选确定单元,用于当确定的文本信息中的实体数据信息包括至少两个相同的实体数据信息时,将至少两个相同的实体数据信息确定为候选实体数据信息;

结果确定单元,用于分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果;

信息确定单元,用于根据确定结果,将指代事物对象名称的数据信息的候选实体数据信息,确定为实体数据信息或非实体数据信息。

所述结果确定单元具体用于利用神经网络,分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果。

翻译单元303,用于别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

所述翻译单元303包括:

实体翻译子单元,用于对实体数据信息采用设定的实体翻译方式进行翻译,获得翻译实体数据信息;

非实体翻译子单元,用于对非实体数据信息采用机器翻译方式进行翻译,获得非翻译实体数据信息。

所述实体翻译子单元具体用于根据设定的汉字转拼音的实体翻译方式进行翻译,获得翻译实体数据信息。

所述实体翻译子单元包括:

判断子单元,用于判断实体数据信息是否为描述特定事物对象的数据信息,若是,则采用预先设定翻译文本数据信息,对特定事物对象的数据信息进行翻译,获得翻译实体数据信息。

基于上述内容,本实施例中还可以包括:

预先定制单元,用于预先定制描述事物对象名称的实体数据信息集合。

为将生成的翻译文本信息进行输出,本实施例中还可以包括:

输出单元,用于输出生成的对应于文本信息的翻译文本信息。具体地,可以将生成的对应于文本信息的翻译文本信息输出至对应于文本信息的位置区域。

生成单元304,用于根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

还包括输出单元,用于输出生成的对应于文本信息的翻译文本信息。具体地,可以将生成的对应于文本信息的翻译文本信息输出至对应于文本信息的位置区域。

由于本申请提供的一种基于文本信息的翻译装置与上述提供的一种基于文本信息的翻译方法相对应,因此,对翻译装置的描述较为概要,具体内容可以参考翻译方法中的各个步骤内容,此处不再重复赘述。

结合本申请在背景技术中的描述,因此本申请还提供一种针对即时通讯文本信息的翻译方法,请参考图4所示,图4是本申请提供的一种针对即时通讯文本信息的翻译方法实施例的流程图。该翻译方法包括:

步骤S401:基于即时通讯平台获取当前接收的文本信息;

所述步骤S401中的即时通讯平台可以理解为能够即时发送和接收互联网消息的平台。基于即时通讯平台获取当前接收的文本信息可以是接收平台上当前接收的文本信息。

步骤S402:结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,所述实体数据信息为用于描述事物对象名称的数据信息,实体数据信息集合为用于描述事物对象名称的数据信息的集合,非实体数据信息为用于描述非事物对象名称的数据信息。

所述步骤S402的具体实现过程可以参考上述步骤S102的内容,此处不再赘述。

步骤S3403:分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

同样的,所述步骤S403的具体实现过程可以参考上述步骤S103的内容,此处也不再赘述。

步骤S404:根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

同样的,所述步骤S404的具体实现过程可以参考上述步骤S104的内容,此处不再赘述。

基于上述内容,本实施例中还可以包括:

输出生成的对应于文本信息的翻译文本信息。具体地,可以将生成的对应于文本信息的翻译文本信息输出至对应于文本信息的位置区域。

基于上述提供的一种针对即时通讯文本信息的翻译方法实施例的描述过程,相对于一种针对即时通讯文本信息的翻译方法实施例,本申请还提供一种针对即时通讯文本信息的翻译装置实施例,如图5所示,图5是本申请提供的一种针对即时通讯文本信息的翻译装置实施例的结构视图。该装置包括:

获取单元501,用于基于即时通讯平台获取当前接收的文本信息;

确定单元502,用于结合预先定制的实体数据信息集合对文本信息进行分析,确定文本信息中的实体数据信息和非实体数据信息,其中,所述实体数据信息为用于描述事物对象名称的数据信息,实体数据信息集合为用于描述事物对象名称的数据信息的集合,非实体数据信息为用于描述非事物对象名称的数据信息;

所述确定单元502包括:

分词处理子单元,用于结合预先定制的实体数据信息集合对文本信息进行分词处理,获得针对文本信息的分词结果;

确定子单元,用于根据分词结果,确定文本信息中的实体数据信息和非实体数据信息。

所述分词处理子单元包括:

路劲获得子单元,用于结合预先定制的实体数据信息集合,采用匹配算法,对文本信息进行分词处理,获得候选切分路径;

选择子单元,用于在候选切分路径范围内,选择满足分词要求的切分路径;

分词结果获得子单元,用于根据切分路径对应的切分结果,获得针对文本信息的分词结果。

所述确定子单元包括:

实体确定子单元,用于将分词结果中,与预先定制的实体数据信息集合中相同的词确定为文本信息中的实体数据信息;

非实体确定子单元,用于将分词结果中,与预先定制的实体数据信息集合中不同的词确定为文本信息中的非实体数据信息。

对于文本信息中存在至少两个相同的实体数据信息的情况,然而可能指代的含义却不同时,此时需要将相同的实体数据信息确定为候选实体数据信息,在候选实体数据信息中确定出真实的指代实体数据信息的词,因此,还包括:

候选确定单元,用于当确定的文本信息中的实体数据信息包括至少两个相同的实体数据信息时,将至少两个相同的实体数据信息确定为候选实体数据信息;

结果确定单元,用于分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果;

信息确定单元,用于根据确定结果,将指代事物对象名称的数据信息的候选实体数据信息,确定为实体数据信息或非实体数据信息。

所述结果确定单元具体用于利用神经网络,分别确定候选实体数据信息在文本信息中是否为指代事物对象名称的数据信息,获得确定结果。

翻译单元503,用于分别对实体数据信息和非实体数据信息进行翻译,获得翻译实体数据信息和翻译非实体数据信息;

所述翻译单元503包括:

实体翻译子单元,用于对实体数据信息采用设定的实体翻译方式进行翻译,获得翻译实体数据信息;

非实体翻译子单元,用于对非实体数据信息采用机器翻译方式进行翻译,获得非翻译实体数据信息。

所述实体翻译子单元具体用于根据设定的汉字转拼音的实体翻译方式进行翻译,获得翻译实体数据信息。

所述实体翻译子单元包括:

判断子单元,用于判断实体数据信息是否为描述特定事物对象的数据信息,若是,则采用预先设定翻译文本数据信息,对特定事物对象的数据信息进行翻译,获得翻译实体数据信息。

基于上述内容,本实施例中还可以包括:

预先定制单元,用于预先定制描述事物对象名称的实体数据信息集合。

为将生成的翻译文本信息进行输出,本实施例中还可以包括:

输出单元,用于输出生成的对应于文本信息的翻译文本信息。具体地,可以将生成的对应于文本信息的翻译文本信息输出至对应于文本信息的位置区域。

生成单元504,用于根据翻译实体数据信息和翻译非实体数据信息,生成对应于文本信息的翻译文本信息。

还包括:

输出单元,输出生成的对应于文本信息的翻译文本信息。具体地,可以将生成的对应于文本信息的翻译文本信息输出至对应于文本信息的位置区域。

基于上述内容,本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;

所述程序在被读取执行时,执行如上所述的基于文本信息的翻译方法的步骤;或者执行如上所述的针对即时通讯文本信息的翻译方法的步骤。

基于上述内容,本申请还提供一种电子设备,包括:

处理器;

存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如上所述的基于文本信息的翻译方法的步骤;或者执行如上所述的针对即时通讯文本信息的翻译方法的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

相关技术
  • 基于文本信息及针对即时通讯文本信息的翻译方法及装置
  • 一种文本信息的翻译方法、装置、电子设备和存储介质
技术分类

06120112158169