掌桥专利:专业的专利平台
掌桥专利
首页

单网页内双语文本段落对齐方法、系统、设备及介质

文献发布时间:2023-06-19 19:27:02


单网页内双语文本段落对齐方法、系统、设备及介质

技术领域

本发明属于自然语言处理中双语语料构建领域,更具体地,涉及一种单网页内双语文本段落对齐方法、系统、设备及介质。

背景技术

双语语料(或平行语料)给出了一种语言(即源语言)文本的另外一种语言(即目标语言)的翻译,它是基于机器学习方法的机器翻译、跨语言信息检索以及众多多语语言处理任务的数据基础。人工创建双语语料虽然语料质量较高,但代价昂贵,规模相对有限。通过Web可以利用程序抓取网页,经过清理、对齐和过滤等手段构建规模大得多且类型丰富的双语语料。

目前,从抓取的Web网页中获得对齐句子或段落的基本思路是:首先,在网页间进行文档对齐,对齐的文档互为翻译文档;然后,在对齐文档的句子间进行句子或段落对齐,对齐的句子或段落互为翻译。句子对齐有以下几种方法:基于原文和译文句子长度分布的对齐、基于双语词典的句子对齐、基于句子嵌入的句子对齐以及混合长度和词典的句子对齐。

目前,网页的抓取在搜索引擎领域已经得到很好的解决,研究人员也对单语网页间的网页对齐(例如中文网页和英文网页之间的对齐)以及干净双语文本间的句子和段落对齐进行了较多的研究。但是,在互联网上有一类外语语言学习网站,例如英语学习网站,这类网站上除了有大量中英文混杂的英语学习网页(这类双语网页可能有可以对齐的文本,也可能没有可以对齐的文本)外,还包括一些单语网页。现有的单语网页间的对齐和干净双语文本间的对齐方法,不能对这种有噪音的单个双语网页进行英汉文本段落对齐。

发明内容

针对现有技术的缺陷和改进需求,本发明提供了一种单网页内双语文本段落对齐方法、系统、设备及介质,其目的在于从有噪音的单个双语网页中识别和对齐双语文本段落,并提高识别及对齐的查全率和查准率。

为实现上述目的,按照本发明的一个方面,提供了一种单网页内双语文本段落对齐方法,包括:S1,解析网页,以从所述网页中提取可见文本,对提取到的文本依次进行清理和段落划分,得到文本段落列表;S2,根据设定过滤条件,对所述文本段落列表中的段落进行过滤;S3,计算过滤后的段落中第一语言段落数与第二语言段落数之间的比值,根据所述比值与设定比值范围的关系,判断所述网页是否为双语网页;S4,当所述网页为双语网页时,对所述网页中过滤后的段落进行双语文本段落对齐。

更进一步地,所述S1包括:S11,解析网页,以从所述网页中提取可见文本;S12,对提取到的文本中的HTML转义符号进行去转义处理,并将提取到的连续空格和连续空行分别相应压缩为单空格和单空行;S13,对去转义处理后的文本进行段落划分,得到初始文本段落列表;S14,对于所述初始文本段落列表中的每一双语段落,将所述双语段落划分为第一语言子段落和第二语言子段落;S15,将所述初始文本段落列表中的单语段落、所述第一语言子段落和所述第二语言子段落按顺序添加到新的列表中,作为所述文本段落列表。

有益效果:针对网页中内容和格式上的噪音,通过分析、清理和转换网页,从可能混合双语段落的网页中到干净的、只包含一种语言的文本段落列表,为后续双语网页判定奠定基础,从而提高了文本段落对齐的查准率。

更进一步地,所述S11包括:利用HTML解析器解析网页,得到所述网页的DOM树;遍历所述DOM树,根据设定的可见文本标签集合提取可见文本,并保留提取的空行。

更进一步地,当所述双语段落为单句文本时,所述S14包括:从起始字符开始,寻找第一个双语切换词条,并根据所述双语切换词条将所述双语段落划分为第一语言子段落和第二语言子段落。

更进一步地,当所述双语段落为多句文本时,所述S14包括:从起始字符开始,寻找第一个双语切换句子,并根据所述双语切换句子将所述双语段落划分为第一语言子段落和第二语言子段落。

有益效果:针对双语互译文本位置和长度不定的问题,通过文本的双语切换标志将双语段落切分为两个分别包含不同单一语言的子段落,单语段落保持不变,提高了文本段落对齐的查全率和查准率。

更进一步地,所述S2包括:将所述文本段落列表中满足所述设定过滤条件的段落过滤掉;所述设定过滤条件包括以下条件中的一种及以上:段落的字符长度小于第一设定阈值;段落的词条长度小于第二设定阈值;段落中第一语言和第二语言之外的字符数占比超过第三设定阈值;段落符合URL字符串模式;段落中的字符为第一语言和第二语言之外的语言;段落为第一语言段落,且段落中第二语言字符数占比超过第四设定阈值;段落为第二语言段落,且段落中第一语言字符数占比超过所述第四设定阈值。

有益效果:针对网页文本的灵活性和多样性等特点,采用多种启发性规则在段落对齐前对段落进行过滤,排除非文本段落和非双语网页,缩小对齐段落范围,进一步提高双语文本段落对齐的查准率。

更进一步地,所述S4包括:S41,将所述网页中过滤后的段落分为第一语言段落子列表和第二语言段落子列表;S42,利用设定对齐阈值,寻找所述第一语言段落子列表和所述第二语言段落子列表中的锚点段落;S43,对所述第一语言段落子列表和所述第二语言段落子列表中锚点段落之后的段落依次进行比较对齐。

有益效果:考虑到网页内对齐段落的不交叉、清理过滤后不同语言段落一对一对齐的特点,先通过高对齐阈值确定对齐的锚点段落,再进行顺序对齐,既可以提高对齐速度,也可以提高对齐精度。

按照本发明的另一个方面,提供了一种单网页内双语文本段落对齐系统,包括:解析提取模块,用于解析网页,以从所述网页中提取可见文本,对提取到的文本依次进行清理和段落划分,得到文本段落列表;过滤模块,用于根据设定过滤条件,对所述文本段落列表中的段落进行过滤;判断模块,用于计算过滤后的段落中第一语言段落数与第二语言段落数之间的比值,根据所述比值与设定比值范围的关系,判断所述网页是否为双语网页;对齐模块,用于在所述网页为双语网页时,对所述网页中过滤后的段落进行双语文本段落对齐。

按照本发明的另一个方面,提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如上所述的单网页内双语文本段落对齐方法。

按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的单网页内双语文本段落对齐方法。

总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:提供一种单网页内双语文本段落对齐方法,考虑到网页格式多样性和HTML代码特点,对网页提取文本进行清理和规范得到规范化的文本,针对网页中可能存在的段落内双语句子翻译,通过段落内子段落切分分离它们,提高段落对齐的查全率;在段落对齐之前,通过基于接口的灵活配置的过滤排除非双语网页、非文本段落和不可能对齐的段落,缩小对齐范围,提高段落对齐的查准率;基于接口的文本相似性打分可扩展定制,并提供缺省实现;根据文本翻译的顺序和不交叉性,通过较高的对齐阈值先对齐第一个段落,再往后对齐,提高了对齐的效率和准确率。

附图说明

图1为本发明实施例提供的单网页内双语文本段落对齐方法的流程图;

图2为本发明实施例提供的单网页内双语文本段落对齐系统的框图;

图3为本发明实施例提供的电子设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的单网页内双语文本段落对齐方法的流程图。参阅图1,方法包括操作S1-操作S4。

操作S1,解析网页,以从网页中提取可见文本,对提取到的文本依次进行清理和段落划分,得到文本段落列表。

根据本发明的实施例,操作S1包括子操作S11-子操作S15。

在子操作S11中,解析网页,以从网页中提取可见文本。

根据本发明的实施例,子操作S11包括:利用HTML解析器解析网页,得到网页的DOM树;遍历DOM树,根据设定的可见文本标签集合提取可见文本,并保留提取的空行。

具体地,通过网页HTML代码中HTML元素间的层次包含关系建立DOM树,DOM树中父节点对应元素包括子节点对应元素。对DOM树进行宽度优先遍历,从事先定义的可见HTML元素(缺省包括标题元素H1、H2、H3和H4、段落元素P、块元素DIV、跨度元素SPAN、列表元素LI等,可以根据网页特点配置调整)中提取文本,保留提取文本中的空行和空格。

在子操作S12中,对提取到的文本中的HTML转义符号进行去转义处理,并将提取到的连续空格和连续空行分别相应压缩为单空格和单空行。

具体地,对提取到的文本中转义的HTML符号实体(包括实体编号和实体名称)进行去转义,采用Unicode NFC对文本进行规范化,对规范化文本采用正则表达式匹配和替换多个连续空格为单个空格、多个连续空行为单个空行。

在子操作S13中,对去转义处理后的文本进行段落划分,得到初始文本段落列表。

具体地,根据文本中换行符对文本进行段落划分,每个换行符表示一个段落的结束,然后,去掉长度为0或只包含空白的空白段落,得到初始文本段落列表L1。

在子操作S14中,对于初始文本段落列表中的每一双语段落,将双语段落划分为第一语言子段落和第二语言子段落。例如第一语言为中文,第二语言为英文;或者第一语言为中文,第二语言为日文等等。

当双语段落为单句文本时,子操作S14包括:从起始字符开始,寻找第一个双语切换词条,并根据双语切换词条将双语段落划分为第一语言子段落和第二语言子段落。

当双语段落为多句文本时,子操作S14包括:从起始字符开始,寻找第一个双语切换句子,并根据双语切换句子将双语段落划分为第一语言子段落和第二语言子段落。

本实施例中,例如采用一个可插拔的语言判定接口判断语言种类,以文本作为输入,返回最可能的语言编码(英文、中文或其他)。以双语言为英文和中文为例,其通过一个英文符号集和中文符号集统计文本中英文符号和中文符号比例,当比例大于给定阈值时判定为对应语言,否则判定为其他语言。

在子操作S15中,将初始文本段落列表中的单语段落、第一语言子段落和第二语言子段落按顺序添加到新的列表中,作为文本段落列表。

子操作S14和子操作S15的具体如下。初始化候选段落列表L2,并对初始文本段落列表L1中的每个段落p进行如下处理:根据双语句子结束符对段落p进行断句,得到句子列表S;当句子列表S的长度为1时,从左到右寻找第一个双语切换词条t(t之后文本语言发生变换),如果t存在,则据此将段落p划分为两部分,得到两个子段落,并加入到候选段落列表L2,如果t不存在,则直接将段落p加入到候选段落列表L2;当句子列表S的长度大于1时,从左到右寻找第一个双语切换句子s(s之后文本语言发生变换),如果s存在,则据此将段落p划分为两部分,得到两个子段落,并加入到候选段落列表L2,如果s不存在,则直接将段落p加入到候选段落列表L2。最终得到的候选段落列表L2即为文本段落列表。

操作S2,根据设定过滤条件,对文本段落列表中的段落进行过滤。

根据本发明的实施例,操作S2中,将文本段落列表中满足设定过滤条件的段落过滤掉。设定过滤条件包括以下条件中的一种及以上:段落的字符长度小于第一设定阈值(例如为缺省6);段落的词条长度小于第二设定阈值(例如为缺省2);段落中第一语言和第二语言之外的字符数占比超过第三设定阈值(例如为缺省0.2);段落符合URL字符串模式;段落中的字符为第一语言和第二语言之外的语言;段落为第一语言段落,且段落中第二语言字符数占比超过第四设定阈值(例如为缺省0.3);段落为第二语言段落,且段落中第一语言字符数占比超过第四设定阈值。

操作S3,计算过滤后的段落中第一语言段落数与第二语言段落数之间的比值,根据比值与设定比值范围的关系,判断网页是否为双语网页。

过滤完后段落列表长度非空,且第一语言段落数与第二语言段落数之间的比值在设定比值范围内时,相应的网页才为双语网页,相应过滤后的段落列表才能进入下一步处理。以第一语言为英文,第二语言为中文为例,设定比值范围优选为缺省0.3-0.7。

操作S4,当网页为双语网页时,对网页中过滤后的段落进行双语文本段落对齐。

根据本发明的实施例,操作S4包括:子操作S41-子操作S43。

在子操作S41中,将网页中过滤后的段落分为第一语言段落子列表和第二语言段落子列表。

具体地,初始化空的第一语言段落子列表和第二语言段落子列表,顺序扫描过滤后的文本段落列表,将第一语言段落和第二语言段落分别添加到第一语言段落子列表和第二语言段落子列表末尾。

在子操作S42中,利用设定对齐阈值,寻找第一语言段落子列表和第二语言段落子列表中的锚点段落。

具体地,按顺序分别从两个子列表中各选取一段落,利用打分器Scorer对选取的两个段落进行打分,得到这两个段落之间互为翻译可能性分值,当第一次得到高于设定对齐阈值的分值时,表明当前选取的两个段落之间对齐,且这两个段落为锚点段落。

本实施例中,例如通过一个可插拔的实现打分接口的打分器实现上述打分操作,打分接口以第一语言段落和第二语言段落作为输入,返回一个它们互为翻译的可能性分数。实现打分接口的缺省打分器可以基于一个双语词典实现,基于双语词典匹配的单词数的比例作为互为翻译的可能性分数返回。

在子操作S43中,对第一语言段落子列表和第二语言段落子列表中锚点段落之后的段落依次进行比较对齐,直至两个段落子列表都扫描完成。

图2为本发明实施例提供的单网页内双语文本段落对齐系统的框图。参阅图2,该单网页内双语文本段落对齐系统200包括解析提取模块210、过滤模块220、判断模块230以及对齐模块240。

解析提取模块210例如执行操作S1,用于解析网页,以从网页中提取可见文本,对提取到的文本依次进行清理和段落划分,得到文本段落列表。

过滤模块220例如执行操作S2,用于根据设定过滤条件,对文本段落列表中的段落进行过滤。

判断模块230例如执行操作S3,用于计算过滤后的段落中第一语言段落数与第二语言段落数之间的比值,根据比值与设定比值范围的关系,判断网页是否为双语网页。

对齐模块240例如执行操作S4,用于在网页为双语网页时,对网页中过滤后的段落进行双语文本段落对齐。

单网页内双语文本段落对齐系统200用于执行上述图1所示实施例中的单网页内双语文本段落对齐方法。本实施例未尽之细节,请参阅前述图1所示实施例中的单网页内双语文本段落对齐方法,此处不再赘述。

本公开的实施例还示出了一种电子设备,如图3所示,电子设备300包括处理器310、可读存储介质320。该电子设备300可以执行上面图1中描述的单网页内双语文本段落对齐方法。

具体地,处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器310还可以包括用于缓存用途的板载存储器。处理器310可以是用于执行参考图1描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

可读存储介质320,例如可以是能够包含存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。

可读存储介质320可以包括计算机程序321,该计算机程序321可以包括代码/计算机可执行指令,其在由处理器310执行时使得处理器310执行例如上面结合图1所描述的方法流程及其任何变形。

计算机程序321可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序321中的代码可以包括一个或多个程序模块,例如包括321A、模块321B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器310执行时,使得处理器310可以执行例如上面结合图1所描述的方法流程及其任何变形。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现图1所示的单网页内双语文本段落对齐方法。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 网页下拉的刷新显示方法、存储介质、电子设备及系统
  • 网页中拖拽组件定位方法、存储介质、电子设备及系统
  • 用于HTML5网页的测试方法、系统、设备以及介质
  • 可视化网页编辑方法、系统、设备及存储介质
  • 报价系统网页加载方法、装置、计算机设备和存储介质
  • 双语对齐的方法、装置、电子设备及可读存储介质
  • 双语语料句对齐方法、装置、可读存储介质和计算机设备
技术分类

06120115916492