掌桥专利:专业的专利平台
掌桥专利
首页

双语语料的生成方法、文本处理系统和字幕文件处理方法

文献发布时间:2023-06-19 09:51:02


双语语料的生成方法、文本处理系统和字幕文件处理方法

技术领域

本申请涉及计算机技术领域,具体涉及一种双语语料的生成方法,本申请还涉及一种双语语料的生成装置、电子设备和存储设备。本申请还涉及一种文本处理系统以及一种字幕文件处理方法。

背景技术

随着计算机技术和人工智能的发展,机器翻译得到了迅速地发展。双语平行语料数据是训练机器翻译模型的重要的基础元素。平行语料的来源众多,其中字幕就是其中一种重要来源。字幕文件有着质量高,持续生产等优点,字幕文件分为单语字幕文件和双语混合字幕文件两类,其中单语字幕文件即每个字幕文件里面只包含了一种自然语言。而双语混合字幕文件即一个字幕文件里面会包含两种语言,比如国内引进的大多数国外影视上映时会提供中英之类的双语字幕。

现有技术下,通常采用单语字幕文件作为平行语料的来源,使用时间轴重合信息、影视的时长、用户对字幕的打分、字幕上传的时间等结构性信息,对单语字幕文件进行字幕文件的对齐,找出匹配的字幕文本对。但是采用单语字幕文件作为平行语料的来源存在一些问题,例如,采用两行中文和英文显示较长的句子,由于中文和英文的语序不相同,第一行中文与第一行英文并不一定完全匹配,导致抽取出的语料质量不高。

因此,现有技术下的采用单语字幕文件抽取平行语料的方法存在抽取出的语料质量不高的问题。

发明内容

本申请提供一种双语语料的生成方法、装置、电子设备以及存储设备,以解决现有的采用单语字幕文件抽取平行语料的方法存在抽取出的语料质量不高的问题。

本申请提供一种双语语料的生成方法,包括:

获得双语混合字幕文件;所述双语混合字幕文件包含第一语言字幕文本和第二语言字幕文本;

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

可选的,所述根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本,包括:

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对;其中,所述字幕文本对包括第一语言字幕文本文件和第二语言字幕文本文件。

可选的,所述获得双语混合字幕文件,包括:

获得原始字幕文件;

从所述原始字幕文件中筛选出双语混合字幕文件。

可选的,所述从所述原始字幕文件中筛选出双语混合字幕文件,包括:

如果原始字幕文件包含两种得分值大于或等于预设的语言得分阈值的语言信息;

则将原始字幕文件作为双语混合字幕文件。

可选的,还包括:

对所述原始字幕文件进行预处理,获得预处理后的字幕文件;

所述从所述原始字幕文件中筛选出双语混合字幕文件,包括:

从所述预处理后的字幕文件中筛选出双语混合字幕文件。

可选的,所述对原始字幕文件进行预处理,包括以下至少一种处理:

清除原始字幕文件中包含的杂质数据;

对所述原始字幕文件的文本进行语种识别;

获取原始字幕文件的文件名;

对原始字幕文件中包含的文本进行繁简体转换;

删除不符合预设语向的原始字幕文件。

可选的,所述根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对,包括:

对所述双语混合字幕文件进行分行处理,针对所述双语混合字幕文件中的每个行文本生成一个行记录;

根据所述行记录中的行文本的语种信息,对所述行记录中的行文本进行合并处理;

对合并后的行文本进行排序处理,生成对齐的字幕文本对。

可选的,所述根据所述行记录中行文本的语种信息,对行记录中的行文本进行合并处理,包括:

根据所述行记录中的行文本的语种信息,将属于同一个双语混合字幕文件的第一语言的行记录中的行文本存储在第一数组中;

根据所述行记录中行文本的语种信息,将属于同一个双语混合字幕文件的第二语言的行记录中的行文本存储在第二数组中。

可选的,所述对合并后的行文本进行排序处理,生成对齐的文本对,包括:

分别对所述第一数组中的行文本和第二数组中的行文本按照行文本的行号进行排序;

根据排序后的第一数组生成第一语言字幕文本文件,以及根据排序后的第二数组生成第二语言字幕文本文件;

将所述第一语言字幕文本文件和所述第二语言字幕文本文件组合生成对齐的文本对。

可选的,还包括:根据所述行记录中的行文本的内容,确定所述行记录中的行文本所属的语种。

可选的,所述根据所述行记录中的行文本的内容,确定所述行记录中的行文本所属的语种,包括:

根据所述行记录中的行文本的内容,获得所述行文本包含的内容所属的语种;

将所述行文本包含内容所属的语种中得分最高的语种作为所述行记录中的行文本的语种。

可选的,行记录的信息,包括:

所述行记录所属的双语混合字幕文件的标识信息;

行文本信息;

所述行记录的行号信息。

可选的,所述根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料,包括:

从所述对齐的字幕文本中抽取出句对;

判断所述句对包含的两个句子的时间轴信息的差距是否大于时间轴差距阈值,若是,删除所述句对。

可选的,还包括:

若否,计算所述句对包含的两个句子的相似度,将相似度大于预设的相似度阈值的句对作为双语语料。

本申请还提供一种双语语料的生成装置,包括:

双语混合字幕文件获得单元,用于获得双语混合字幕文件;所述双语混合字幕文件包含第一语言的文本和第二语言的文本;

对齐的字幕文本生成单元,用于根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

双语语料生成单元,用于根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

本申请还提供一种电子设备,包括:

处理器;以及

存储器,用于存储双语语料的生成方法的程序,该设备通电并通过所述处理器运行该双语语料的生成方法的程序后,执行下述步骤:

获得双语混合字幕文件;所述双语混合字幕文件包含第一语言字幕文本和第二语言字幕文本;

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

本申请另外提供一种存储设备,存储有双语语料的生成方法的程序,该程序被处理器运行,执行下述步骤:

获得双语混合字幕文件;所述双语混合字幕文件包含第一语言字幕文本和第二语言字幕文本;

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

与现有技术相比,本申请具有以下优点:

本申请提供一种双语语料的生成方法、装置、电子设备以及存储设备,根据双语混合字幕文件,生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本,并从对齐的字幕文本中抽取句对,实现了从双语混合字幕文件中获得双语语料,解决了“一对一”、“一对多”、“多对一”以及“多对多”的语料对齐场景,而且生成的双语语料比从单语字幕文件中获得的双语语料质量更高。

附图说明

图1是本申请第一实施例提供的一种双语语料的生成方法的流程图。

图2是本申请第一实施例提供的一种根据所述双语混合字幕文件生成对齐的文本对的流程图。

图3是采用本申请第一实施例的方法从原始字幕文件生成双语语料的一个示例。

图4是本申请第二实施例提供的一种双语语料的生成装置的示意图。

图5是本申请第三实施例提供的一种电子设备的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。

本申请第一实施例提供一种双语语料的生成方法,以下结合图1进行说明。

如图1所示,在步骤S101中,获得双语混合字幕文件;所述双语混合字幕文件包含第一语言字幕文本和第二语言字幕文本。

所述双语混合字幕文件,指包含两种语言文本的字幕文件,例如,一个字幕文件中包含英文和中文两种语言,英文为第一语言,中文为第二语言,则这个字幕文件可以称为双语混合字幕文件。中英文双语混合字幕文件的格式一般为在同一时间轴下具有一行中文文本、一行英文文本。下面为一个双语混合字幕文件的例子:

1

00:00:06,673-->00:00:09,541

《狗狗才是X》

"Y is the one with the tail."

2

00:00:10,777-->00:00:12,844

啊我好想看这个

God,I want to see this.

3

00:00:12,880-->00:00:14,246

找到了想要的吗路易斯

Finding everything okay,louis?

...

104

00:04:22,896-->00:04:24,829

呃是我我在杰西卡睡的那边床底

Uh,it's just...I found some tapes

105

00:04:24,865-->00:04:26,965

找到了一些影碟

Under jessica's side of the bed.

106

00:04:27,868-->00:04:29,134

都是半裸男演的

Shirtless-men tapes.

其中,数字1、2、3...106表示行号;行号的下一行为时间轴信息,例如:00:00:06,673-->00:00:09,541;时间轴信息的下一行为中文文本,例如:《狗狗才是X》;中文文本的下一行为与中文文本对应的英文文本,例如:"Y is the one with the tail."。其中,Y为X的英文译文。

所述获得双语混合字幕文件,包括:

获得原始字幕文件;

从所述原始字幕文件中筛选出双语混合字幕文件。

所述原始字幕文件为输入到双语语料生成平台的字幕文件。由于原始字幕文件不仅包括双语混合字幕文件,还包括单语字幕文件,因此,需要从大量的原始字幕文件中(例如,数百万个原始字幕文件)筛选出双语混合字幕文件。

具体的,从所述原始字幕文件中筛选出双语混合字幕文件,包括:

确定原始字幕文件包含的语言信息;

如果原始字幕文件包含两种得分值大于或等于预设的语言得分阈值的语言信息;

则将原始字幕文件作为双语混合字幕文件。

例如,原始字幕文件包含的各个语言的得分总和为100分,假设预设的语言得分阈值为30分,如果某个原始字幕文件包含的中文和英文两种语言的得分均大于30分,则可以将此原始字幕文件作为双语混合字幕文件。

为了使从双语混合字幕文件中提取出的双语语料更加准确,本申请第一实施例还可以包括:对原始字幕文件进行预处理,获得预处理后的字幕文件。

所述从所述原始字幕文件中筛选出双语混合字幕文件,包括:

从所述预处理后的字幕文件中筛选出双语混合字幕文件。

对原始字幕文件进行预处理,包括:清除原始字幕文件中包含的杂质数据,例如“说话人”、“字幕来源”、“时间轴”等非重要信息;对原始字幕文件的文本进行语种识别,其中,语种识别,指对于一段文本,识别出该文本的语言;获取原始字幕文件的文件名;对原始字幕文件中包含的文本进行繁简体转换;删除不符合预设语向的原始字幕文件,例如,如果平台不支持日文到中文的原始字幕文件,则删除包含日文和中文两种语言的原始字幕文件;获取原始字幕文件的文件标识信息等。

仍沿用上面的例子,对原始字幕文件进行预处理后,得到预处理后的字幕文件如下所示:

《狗狗才是X》

"Y is the one with the tail."

啊我好想看这个

God,I want to see this.

找到了想要的吗路易斯

Finding everything okay,louis?

...

呃是我我在杰西卡睡的那边床底

Uh,it's just...I found some tapes

找到了一些影碟

Under jessica's side of the bed.

都是半裸男演的

Shirtless-men tapes.

其中,Y为X的英文译文。

如图1所示,在步骤S102中,根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本。

所述根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本,包括:

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对;其中,所述字幕文本对包括第一语言字幕文本文件和第二语言字幕文本文件。

所述对齐的字幕文本对,可以指根据同一个双语混合字幕文件生成的两个不同语言的字幕文本文件。例如,一个双语混合字幕文件包含中文文本和英文文本,则对齐的字幕文本对可以包含一个中文字幕文本文件和一个英文字幕文本文件,上述两个文件均由同一个双语混合字幕文件生成。

对齐的字幕文本的对齐粒度可以包括:短句、长句、段落。即对齐的字幕文本可以按照短句对齐、长句对齐或段落对齐的方式对齐。

下面结合图2介绍根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对的过程,请参见步骤S102-1至步骤S102-3。

如图2所示,在步骤S102-1中,对所述双语混合字幕文件进行分行处理,针对所述双语混合字幕文件中的每个行文本生成一个行记录。

行记录的信息,可以包括:行记录所属的双语混合字幕文件的标识信息;行文本信息;行记录的行号信息。

作为一种实施方式,在对双语混合字幕文件进行分行处理,生成行记录时,可以使用MapReduce进行Map操作,将双语混合字幕文件进行分行处理,并以行文本所在的双语混合字幕文件的文件标识信息作为主键,并生成行记录的行号信息(即行记录的行文本在双语混合字幕文件中的行号信息)。生成的行记录的格式可以包括:uid(行文本所在的双语混合字幕文件的文件标识信息)、行记录的行号、行文本、媒体号、字幕文件名等字段。

仍沿用上述例子,对所述双语混合字幕文件进行分行处理后的结果:

1.《狗狗才是X》

2."Y is the one with the tail."

3.啊我好想看这个

4.God,I want to see this.

5.找到了想要的吗路易斯

6.Finding everything okay,louis?

7.呃是我我在杰西卡睡的那边床底

8.Uh,it's just...I found some tapes

9.找到了一些影碟

10.Under jessica's side of the bed.

11.都是半裸男演的

12.Shirtless-men tapes.

如图2所示,在步骤S102-2中,根据所述行记录中的行文本的语种信息,对所述行记录中的行文本进行合并处理。

所述根据所述行记录中的行文本的语种信息,对行记录中的行文本进行合并处理,包括:

根据所述行记录中的行文本的语种信息,将属于同一个双语混合字幕文件的第一语言的行记录中的行文本存储在第一数组中;

根据所述行记录中的行文本的语种信息,将属于同一个双语混合字幕文件的第二语言的行记录中的行文本存储在第二数组中。

由于在map阶段生成的主键是行文本所在的双语混合字幕文件的文件标识信息,因此reduce阶段每个reducer会处理相同文件标识信息的行,可以使用数组存储两种语言各自对应的行文本以及行文本对应的行号,待同一文件标识信息下的所有行文本处理完毕后,根据行号对数组中的行文本进行排序,生成对齐的文本对。

作为一种实施方式,本申请第一实施例还可以包括:根据所述行记录中的行文本的内容,确定所述行记录中的行文本所属的语种。

所述根据所述行记录中的行文本的内容,确定所述行记录中的行文本所属的语种,包括:

根据所述行记录中的行文本的内容,获得所述行文本包含的内容所属的语种;

将所述行文本包含内容所属的语种中得分最高的语种作为所述行记录中的行文本的语种。

例如,如果获得行文本包含的语种为中文和其他语言,中文的得分最高,则确定行记录中行文本的语种为中文。

仍沿用前面的例子,确定出行记录中的行文本的语种信息,如下所示:

1.《狗狗才是X》-->语种是中文

2."Y is the one with the tail."-->语种是英文

3.啊我好想看这个-->语种是中文

4.God,I want to see this.-->语种是英文

5.找到了想要的吗路易斯-->语种是中文

6.Finding everything okay,louis?-->语种是英文

7.呃是我我在杰西卡睡的那边床底-->语种是中文

8.Uh,it's just...I found some tapes-->语种是英文

9.找到了一些影碟-->语种是中文

10.Under jessica's side of the bed.-->语种是英文

11.都是半裸男演的-->语种是中文

12.Shirtless-men tapes.-->语种是英文

在确定出行记录中的行文本的语种信息后,根据行记录中的行文本的语种信息,对行记录中的行文本进行合并处理。

如图2所示,在步骤S102-3中,对合并后的行文本进行排序处理,生成对齐的字幕文本对。

所述对合并后的行文本进行排序处理,生成对齐的文本对,包括:

分别对所述第一数组中的行文本和第二数组中的行文本按照行文本的行号进行排序;

根据排序后的第一数组生成第一语言字幕文本文件,以及根据排序后的第二数组生成第二语言字幕文本文件;

将所述第一语言字幕文本文件和所述第二语言字幕文本文件组合生成对齐的文本对。

由于采用MapReduce机制存入数组中的行文本一般情况下是无序的,因此需要根据行号对数组中的行文本进行排序,生成对齐的文本对。对数组中的行文本进行排序后,可以根据排序后的第一数组生成第一语言字幕文本文件,根据排序后的第二数组生成第二语言字幕文本文件,两个文本文件构成对齐的文本对。

仍沿用前面的例子,生成对齐的文本对如下所示:

中文篇章(第一语言字幕文本文件):

《狗狗才是X》

啊我好想看这个

找到了想要的吗路易斯

呃是我我在杰西卡睡的那边床底

找到了一些影碟

都是半裸男演的

英文篇章(第二语言字幕文本文件):

"Y is the one with the tail."

God,I want to see this.

Finding everything okay,louis?

Uh,it's just...I found some tapes

Under jessica's side of the bed.

Shirtless-men tapes.

如图1所示,在步骤S103中,根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

所述根据对齐的字幕文本进行句对抽取,包括根据对齐的文本对进行句对抽取。

所述根据对齐的文本对进行句对抽取,指从对齐的文本对包含的两个字幕文本文件中抽取对齐的句子,即分别从第一语言字幕文本文件和第二语言字幕文本文件中抽取次序相同的句子,将抽取出的两个次序相同的句子组成一个句对。例如,从第一语言字幕文本文件中抽取第一句,从第二语言字幕文本文件中也抽取第一句,上述两句话构成一个句对。

所述双语语料,指使用两种不同语言撰写、相互间具有翻译关系的文本。

仍沿用前面的例子,抽取出的句对如下所示:

句对一:《狗狗才是X》"Y is the one with the tail."

句对二:啊我好想看这个God,I want to see this.

句对三:找到了想要的吗路易斯Finding everything okay,louis?

句对四:呃是我我在杰西卡睡的那边床底找到了一些影碟都是半裸男演的Uh,it's just...I found some tapes Under jessica's side of the bed.Shirtless-mentapes.

所述根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料,包括:

从所述对齐的字幕文本中抽取出句对;

判断所述句对包含的两个句子的时间轴信息的差距是否大于时间轴差距阈值,若是,删除所述句对;

若否,计算所述句对包含的两个句子的相似度,将相似度大于预设的相似度阈值的句对作为双语语料。

由于如果将抽取出的句对直接作为双语语料在某些情况下不是十分准确,因此为了提高双语语料的质量,可以结合时间轴信息等结构性信息进行句对的过滤,保证双语语料为对齐的句对。

下面结合图3介绍采用本申请第一实施例的方法从原始字幕文件生成双语语料的一个示例。如图3所示,在步骤S301中,对原始字幕文件进行字幕预处理(包括:去除字幕无效内容,文本语言识别,文件名获取,中文繁体转换为中卫简体、语向过滤);在步骤S302中,进行混合字幕对齐操作,生成文本对,包括下述子步骤:双语混合字幕筛选、双语混合字幕分行处理、识别每行语言、根据语言对行文本进行合并、生成文本对(subtitlepair1...subtitle pair n);在步骤S303中,进行句对齐处理,包括:句对抽取、句对过滤、句对打分几个子步骤,通过步骤S301-S303,生成双语语料。

至此,完成了对本申请第一实施例的介绍,本申请第一实施例提出一种使用MapReduce的大数据处理方案,结合nlp(自然语言处理)以及结构化信息的对齐方法,进行双语混合字幕文件的双语语料抽取。本申请第一实施例根据双语混合字幕文件,得到对齐的字幕文本,并从对齐的字幕文本中抽取句对,并对句对过滤后作为双语语料,实现了从双语混合字幕文件中获得双语语料,解决了“一对一”、“一对多”、“多对一”以及“多对多”的语料对齐场景,而且生成的双语语料比从单语字幕文件中获得的双语语料质量更高。

与本申请第一实施例提供的一种双语语料的生成方法相对应的,本申请第二实施例还提供了一种双语语料的生成装置。

如图4所示,所述双语语料的生成装置,包括:

双语混合字幕文件获得单元401,用于获得双语混合字幕文件;所述双语混合字幕文件包含第一语言的文本和第二语言的文本;

对齐的字幕文本生成单元402,用于根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

双语语料生成单元403,用于根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

可选的,所述对齐的字幕文本生成单元,具体用于:

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对;其中,所述字幕文本对包括第一语言字幕文本文件和第二语言字幕文本文件。

可选的,所述双语混合字幕文件获得单元,具体用于:

获得原始字幕文件;

从所述原始字幕文件中筛选出双语混合字幕文件。

可选的,所述双语混合字幕文件获得单元,具体用于:

如果原始字幕文件包含两种得分值大于或等于预设的语言得分阈值的语言信息;

则将原始字幕文件作为双语混合字幕文件。

可选的,所述装置还包括:

预处理单元,用于对所述原始字幕文件进行预处理,获得预处理后的字幕文件;

所述双语混合字幕文件获得单元,具体用于:

从所述预处理后的字幕文件中筛选出双语混合字幕文件。

可选的,所述预处理单元,具体用于:

清除原始字幕文件中包含的杂质数据;

对所述原始字幕文件的文本进行语种识别;

获取原始字幕文件的文件名;

对原始字幕文件中包含的文本进行繁简体转换;

删除不符合预设语向的原始字幕文件。

可选的,所述对齐的字幕文本生成单元,具体用于:

对所述双语混合字幕文件进行分行处理,针对所述双语混合字幕文件中的每个行文本生成一个行记录;

根据所述行记录中的行文本的语种信息,对所述行记录中的行文本进行合并处理;

对合并后的行文本进行排序处理,生成对齐的字幕文本对。

可选的,所述对齐的字幕文本生成单元,具体用于:

根据所述行记录中的行文本的语种信息,将属于同一个双语混合字幕文件的第一语言的行记录中的行文本存储在第一数组中;

根据所述行记录中行文本的语种信息,将属于同一个双语混合字幕文件的第二语言的行记录中的行文本存储在第二数组中。

可选的,所述对齐的字幕文本生成单元,具体用于:

分别对所述第一数组中的行文本和第二数组中的行文本按照行文本的行号进行排序;

根据排序后的第一数组生成第一语言字幕文本文件,以及根据排序后的第二数组生成第二语言字幕文本文件;

将所述第一语言字幕文本文件和所述第二语言字幕文本文件组合生成对齐的文本对。

可选的,所述装置还包括:语种确定单元,用于根据所述行记录中的行文本的内容,确定所述行记录中的行文本所属的语种。

可选的,所述语种确定单元,具体用于:

根据所述行记录中的行文本的内容,获得所述行文本包含的内容所属的语种;

将所述行文本包含内容所属的语种中得分最高的语种作为所述行记录中的行文本的语种。

可选的,行记录的信息,包括:

所述行记录所属的双语混合字幕文件的标识信息;

行文本信息;

所述行记录的行号信息。

可选的,所述双语语料生成单元,具体用于:

从所述对齐的字幕文本中抽取出句对;

判断所述句对包含的两个句子的时间轴信息的差距是否大于时间轴差距阈值,若是,删除所述句对。

可选的,所述双语语料生成单元,还用于:

若否,计算所述句对包含的两个句子的相似度,将相似度大于预设的相似度阈值的句对作为双语语料。

需要说明的是,对于本申请第二实施例提供的装置的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。

与本申请第一实施例提供的一种双语语料的生成方法相对应的,本申请第三实施例还提供了一种电子设备。

如图5所示,所述电子设备,包括:

处理器501;以及

存储器502,用于存储双语语料的生成方法的程序,该设备通电并通过所述处理器运行该双语语料的生成方法的程序后,执行下述步骤:

获得双语混合字幕文件;所述双语混合字幕文件包含第一语言字幕文本和第二语言字幕文本;

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

可选的,所述根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本,包括:

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对;其中,所述字幕文本对包括第一语言字幕文本文件和第二语言字幕文本文件。

可选的,所述获得双语混合字幕文件,包括:

获得原始字幕文件;

从所述原始字幕文件中筛选出双语混合字幕文件。

可选的,所述从所述原始字幕文件中筛选出双语混合字幕文件,包括

如果原始字幕文件包含两种得分值大于或等于预设的语言得分阈值的语言信息;

则将原始字幕文件作为双语混合字幕文件。

可选的,所述电子设备还执行下述步骤:

对所述原始字幕文件进行预处理,获得预处理后的字幕文件;

所述从所述原始字幕文件中筛选出双语混合字幕文件,包括:

从所述预处理后的字幕文件中筛选出双语混合字幕文件。

可选的,所述对原始字幕文件进行预处理,包括以下至少一种处理:

清除原始字幕文件中包含的杂质数据;

对所述原始字幕文件的文本进行语种识别;

获取原始字幕文件的文件名;

对原始字幕文件中包含的文本进行繁简体转换;

删除不符合预设语向的原始字幕文件。

可选的,所述根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对,包括:

对所述双语混合字幕文件进行分行处理,针对所述双语混合字幕文件中的每个行文本生成一个行记录;

根据所述行记录中的行文本的语种信息,对所述行记录中的行文本进行合并处理;

对合并后的行文本进行排序处理,生成对齐的字幕文本对。

可选的,所述根据所述行记录中行文本的语种信息,对行记录中的行文本进行合并处理,包括:

根据所述行记录中的行文本的语种信息,将属于同一个双语混合字幕文件的第一语言的行记录中的行文本存储在第一数组中;

根据所述行记录中行文本的语种信息,将属于同一个双语混合字幕文件的第二语言的行记录中的行文本存储在第二数组中。

可选的,所述对合并后的行文本进行排序处理,生成对齐的文本对,包括:

分别对所述第一数组中的行文本和第二数组中的行文本按照行文本的行号进行排序;

根据排序后的第一数组生成第一语言字幕文本文件,以及根据排序后的第二数组生成第二语言字幕文本文件;

将所述第一语言字幕文本文件和所述第二语言字幕文本文件组合生成对齐的文本对。

可选的,所述电子设备还执行下述步骤:根据所述行记录中的行文本的内容,确定所述行记录中的行文本所属的语种。

可选的,所述根据所述行记录中的行文本的内容,确定所述行记录中的行文本所属的语种,包括:

根据所述行记录中的行文本的内容,获得所述行文本包含的内容所属的语种;

将所述行文本包含内容所属的语种中得分最高的语种作为所述行记录中的行文本的语种。

可选的,行记录的信息,包括:

所述行记录所属的双语混合字幕文件的标识信息;

行文本信息;

所述行记录的行号信息。

可选的,所述根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料,包括:

从所述对齐的字幕文本中抽取出句对;

判断所述句对包含的两个句子的时间轴信息的差距是否大于时间轴差距阈值,若是,删除所述句对。

可选的,所述电子设备还执行下述操作:

若否,计算所述句对包含的两个句子的相似度,将相似度大于预设的相似度阈值的句对作为双语语料。

需要说明的是,对于本申请第三实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。

与本申请第一实施例提供的一种双语语料的生成方法相对应的,本申请第四实施例还提供了一种存储设备,存储有双语语料的生成方法的程序,该程序被处理器运行,执行下述步骤:

获得双语混合字幕文件;所述双语混合字幕文件包含第一语言字幕文本和第二语言字幕文本;

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料。

需要说明的是,对于本申请第四实施例提供的存储设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。

本申请第五实施例提供一种文本处理系统,包括:字幕文件预处理模块、双语混合字幕文件筛选模块、字幕文本对生成模块、双语语料生成模块。

所述字幕文件预处理模块,用于对原始字幕文件进行预处理,获得预处理后的字幕文件。

所述对原始字幕文件进行预处理,包括:清除原始字幕文件中包含的杂质数据,例如“说话人”、“字幕来源”、“时间轴”等非重要信息;对原始字幕文件的文本进行语种识别,其中,语种识别,指对于一段文本,识别出该文本的语言;获取原始字幕文件的文件名;对原始字幕文件中包含的文本进行繁简体转换;删除不符合预设语向的原始字幕文件,例如,如果平台不支持日文到中文的原始字幕文件,则删除包含日文和中文两种语言的原始字幕文件;获取原始字幕文件的文件标识信息等。

所述双语混合字幕文件筛选模块,用于从预处理后的字幕文件中筛选出双语混合字幕文件。

所述字幕文本对生成模块,用于根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对。

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本对的具体实施方式,可以参见本申请第一实施例的相关描述。

所述双语语料生成模块,用于根据所述对齐的字幕文本对进行句对抽取,并将抽取出的句对作为双语语料。

所述双语语料生成模块具体用于:

从所述对齐的字幕文本对中抽取出句对;

判断所述句对包含的两个句子的时间轴信息的差距是否大于时间轴差距阈值,若是,删除所述句对;

若否,计算所述句对包含的两个句子的相似度,将相似度大于预设的相似度阈值的句对作为双语语料。

需要说明的是,对于本申请第五实施例提供的文本处理系统的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。

本申请第六实施例提供一种字幕文件处理方法,包括:

获得客户端发送的双语混合字幕文件;所述双语混合字幕文件包含第一语言字幕文本和第二语言字幕文本;

根据所述双语混合字幕文件生成第一语言字幕文本和第二语言字幕文本对齐的字幕文本;

根据所述对齐的字幕文本进行句对抽取,并将抽取出的句对作为双语语料;

将所述双语语料返回给客户端。

所述客户端,可以为播放电影或电视节目的客户端,还可以为用于智能翻译的客户端,通过本申请第六实施例提供一种的字幕文件处理方法对客户端发送的双语混合字幕文件进行处理,使客户端获得质量较高的对齐的双语语料。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

相关技术
  • 双语语料的生成方法、文本处理系统和字幕文件处理方法
  • 语料质量评估模型生成方法和双语句对互译质量评估方法
技术分类

06120112320610