基于XML文档的索引词提取方法、装置、终端及介质

文献发布时间：2024-04-18 20:01:55

【技术领域】

本发明涉及出版设计技术领域，尤其涉及一种基于XML文档的索引词提取方法、装置、终端及介质。

【背景技术】

百科全书、工具书、说明书等需要查询检索功能的书籍，在人工排版或自动排版时通常需制作索引。为了提升排版效率，可使用版面功能模块(Baike Typesetting，百科排版的主服务模块)的InDesign(功能扩展)排版软件进行自动排版，用于导入XML(eXtensibleMarkup Language，可扩展标记语言)并展开排版，解决文字、图片、版面布局等格式。而使用InDesign排版软件的索引功能，主题(索引词)的创建及引用的标注方式较为繁琐，不能生成索引词所在页面的区域位置信息，导致索引词的提取效率不高且不便于检索。

鉴于此，实有必要提供一种基于XML文档的索引词提取方法、装置、终端及介质以克服上述缺陷。

【发明内容】

本发明的目的是提供一种基于XML文档的索引词提取方法、装置、终端及介质，旨在解决目前现有排版方式的索引词的提取效率不高的问题。可以生成索引词所在页面区域位置信息，便于更精确的检索。

为了实现上述目的，本发明第一方面提供一种基于XML文档的索引词提取方法，包括：

步骤S10：获取预先配置的所要提取的至少一个标签名称，组成配置表；

步骤S20：创建空白的索引词清单；

步骤S30：从XML文档的根节点开始读取标签；

步骤S40：判断当前标签的名称是否存在于所述配置表内，若结果为是，则读取当前标签的内容；若结果为否，则忽略当前标签并读取下一标签；

步骤S50：在读取当前标签的内容时，同时读取当前标签所在的页面并计算所在区域，生成页码标识；其中，页面被预先划分为多个区域；

步骤S60：将当前标签内容及对应的页码标识作为一行文本追加到所述索引词清单的末尾，然后读取下一标签。

在一个优选实施方式中，还包括步骤：

判断所述XML文档是否标签遍历结束，若结果为是，则存储所述索引词清单到文件；若结果为否，则读取下一标签。

在一个优选实施方式中，所述步骤S30包括:

读取XML文档，然后读入XML结构树。

在一个优选实施方式中，页面被预先划分为多个区域具体包括：

将页面通过若干个纵横交错的分隔线划分为多个宫格，并将每个宫格与一个字母一一对应进行编号。

在一个优选实施方式中，所述页码标识包括标签所在页面的页码及所在宫格对应的字母编号。

本发明第二方面还提供一种基于XML文档的索引词提取装置，包括：

标签配置模块，用于获取预先配置的所要提取的至少一个标签名称，组成配置表；

清单创建模块，用于创建空白的索引词清单；

标签读取模块，用于从XML文档的根节点开始读取标签；

标签判断模块，用于判断当前标签的名称是否存在于所述配置表内，若结果为是，则读取当前标签的内容；若结果为否，则忽略当前标签并读取下一标签；

标识生成模块，用于在读取当前标签的内容时，同时读取当前标签所在的页面并计算所在区域，生成页码标识；其中，页面被预先划分为多个区域；

索引追加模块，用于将当前标签内容及对应的页码标识作为一行文本追加到所述索引词清单的末尾，然后读取下一标签。

本发明第三方面提供一种终端，所述终端包括存储器、处理器以及存储在所述存储器的计算机程序，所述计算机程序被所述处理器执行时实现如上述实施方式任一项所述的基于XML文档的索引词提取方法的各个步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施方式任一项所述的基于XML文档的索引词提取方法的各个步骤。

本发明第五方面提供一种计算机程序产品，包括计算机程序或者指令，所述计算机程序或者指令在被处理执行时实现如上述实施方式任一项所述的基于XML文档的索引词提取方法的各个步骤。

本发明提供的基于XML文档的索引词提取方法、装置、终端及介质，基于现有的XML文档的标签，在读取当前标签的内容时，同时读取当前标签所在的页面并计算所在区域并生成页码标识，将当前标签内容及对应的页码标识作为一行文本追加到索引词清单的末尾，不用另外去创建索引、标记引，提取效率高，可以生成索引词所在页面区域位置信息，便于后续更精确的检索。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的基于XML文档的索引词提取方法的流程图；

图2为图1所示方法的步骤S50中的页面划分示意图；

图3为本发明提供的基于XML文档的索引词提取装置的框架图。

【具体实施方式】

为了使本发明的目的、技术方案和有益技术效果更加清晰明白，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并不是为了限定本发明。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例一

在本发明的实施例中，提供一种基于XML文档的索引词提取方法，基于现有的XML文档的标签生成索引词，不用另外去创建索引、标记引，同时能够生成索引词所在页面区域位置信息。

需要先说明的是，具有XML结构的InDesign文档，即页面上的每个内容都与XML标签相关联，这种文档一般内容平台导出数据通过自动化排版系统自动生成。

如图1所示，基于XML文档的索引词提取方法包括步骤S10-S60。

步骤S10：获取预先配置的所要提取的至少一个标签名称，组成配置表。

其中，需要先确定标签系统结构，哪些标签数据需要呈现，哪些是索引/参见标签，标签内容包括条目名称、定性描述、正文、推荐阅读、条目作者；标签结构包括标签对应的段落样式、字符样式、对象样式、表格样式。预先配置要提取的标签名称(可以是一个，也可以是多个)。

步骤S20：创建空白的索引词清单(list)。

步骤S30：从XML文档的根节点开始读取标签。

具体的，步骤S30包括:读取原始的XML文档，然后读入XML结构树。

步骤S40：判断当前标签的名称是否存在于配置表内，若结果为是，则读取当前标签的内容；若结果为否，则忽略当前标签并读取下一标签。

步骤S50：在读取当前标签的内容时，同时读取当前标签所在的页面并计算所在区域，生成页码标识；其中，页面被预先划分为多个区域。

具体的，页面被预先划分为多个区域具体包括：将页面通过若干个纵横交错的分隔线划分为多个宫格，并将每个宫格与一个字母一一对应进行编号。所述页码标识包括标签所在页面的页码及所在宫格对应的字母编号。如图2所示，可将页面划分为三列二行的六宫格区域，然后从上到下、从左到右的将每个宫格依次编号为a、b、c、d、e、f。

举例来说，若是当前标签所在的页面为36页，且该标签位于该页面的d区域，那么该标签的页码标识则为36d。

步骤S60：将当前标签内容及对应的页码标识作为一行文本追加到索引词清单的末尾，然后读取下一标签。

进一步的，本方法还包括步骤：判断XML文档是否标签遍历结束，若结果为是，则存储索引词清单到文件；若结果为否，则读取下一标签，然后重复上述步骤，直至所有的标签均被判断完成。

因此，本发明采用了从标签直接提取索引的方法，具有更高的索引生成效率；同时获取了索引词更精确的位置，对查询检索有重要意义。

实施例二

本发明还提供一种基于XML文档的索引词提取装置100，基于现有的XML文档的标签生成索引词，不用另外去创建索引、标记引，同时能够生成索引词所在页面区域位置信息。需要说明的是，基于XML文档的索引词提取装置100的实现原理及具体实施方式与上述的基于XML文档的索引词提取方法相一致，故以下不再赘述。

如图3所示，基于XML文档的索引词提取装置100包括：

标签配置模块10，用于获取预先配置的所要提取的至少一个标签名称，组成配置表；

清单创建模块20，用于创建空白的索引词清单(list)；

标签读取模块30，用于从XML文档的根节点开始读取标签；

标签判断模块40，用于判断当前标签的名称是否存在于配置表内，若结果为是，则读取当前标签的内容；若结果为否，则忽略当前标签并读取下一标签；

标识生成模块50，用于在读取当前标签的内容时，同时读取当前标签所在的页面并计算所在区域，生成页码标识；其中，页面被预先划分为多个区域；

索引追加模块60，用于将当前标签内容及对应的页码标识作为一行文本追加到索引词清单的末尾，然后读取下一标签。

实施例三

本发明提供一种终端，所述终端包括存储器、处理器以及存储在所述存储器的计算机程序，所述计算机程序被所述处理器执行时实现如上述实施方式任一项所述的基于XML文档的索引词提取方法的各个步骤。

实施例四

本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施方式任一项所述的基于XML文档的索引词提取方法的各个步骤。

实施例五

本发明提供一种计算机程序产品，包括计算机程序或者指令，所述计算机程序或者指令在被处理执行时实现如上述实施方式任一项所述的基于XML文档的索引词提取方法的各个步骤。

综上所述，本发明提供的基于XML文档的索引词提取方法、装置、终端及介质，基于现有的XML文档的标签，在读取当前标签的内容时，同时读取当前标签所在的页面并计算所在区域并生成页码标识，将当前标签内容及对应的页码标识作为一行文本追加到索引词清单的末尾，不用另外去创建索引、标记引，提取效率高，可以生成索引词所在页面区域位置信息，便于后续更精确的检索。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统或装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的系统或装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，系统或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本发明并不仅仅限于说明书和实施方式中所描述，因此对于熟悉领域的人员而言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：雅昌文化(集团)有限公司;北京雅昌艺术印刷有限公司;上海雅昌艺术印刷有限公司;