word文本素材分级目录生成方法、装置及设备

文献发布时间：2023-06-19 09:57:26

技术领域

本发明涉及人工智能技术领域，具体涉及一种word文本素材分级目录生成方法、装置及设备。

背景技术

目前政府，电视台等机构因常年累月积压各种Word文本，因人员更替和文本未结构化梳理，导致大量的Word文本内容无法在使用时快速查找，如政府需要撰写一片关于国家领导的文稿，需要查询之前早期的Word文本，需要话费大量的时间去遍历查询早期“红头”word文件，费时费力，撰写效率不高。

当前主流都是采用人工查询编辑，重新分类方式进行处理，效率不高。

发明内容

有鉴于此，提供一种word文本素材分级目录生成方法、装置及设备，以解决相关技术中的问题。

本发明采用如下技术方案：

第一方面，本发明实施例提供了一种word文本素材分级目录生成方法，该方法包括：

获取word文件；

通过预训练的标签识别模型，识别所述word文件的的标签；

将所述word文件存储在所述标签对应的树状图文件夹内；其中，所述树状图文件夹为基于历史word文件提取的标签生成的。

可选的，当所述word文件需要存储进多个树状图文件夹内时；

选取一个树状图文件夹存储所述word文件的本体，其他的树状图文件夹存储所述word文件的指针文件。

可选的，所述预训练的标签识别模型包括：外部标题检测标签模型，内部标题检测规则模型，首端文本检测规则模型；

所述外部标题检测标签模型用于检测所述word文件的外部标题，得到标签；

所述内部标题检测标签模型用于检测所述word文件的外内部标题，得到标签；

所述首端文本检测标签模型用于检测所述word文件的首端文本，得到标签。

可选的，所述标签包括：时间标签、地区标签、人物标签。

可选的，选择标签即建立树状图文件夹的的方法包括：

提取预设数量的本领域word文件，通过NLP自然语音分词技术，设置时间，地区，省/州，市/县，人物所有建立标签；

根据得到时间，地区，人物自动生成文件夹“树状结构”集合，得到树状图文件夹。

可选的，还包括：

用户通过标题检索，标签检索，和文件夹架构对处理后的word文件进行查找；

用户对word文件和树状图文件夹进行管理。

可选的，所述获取word文件，包括：

定期自动扫描获取word文件；

和/或，获取用户上传的word文件。

第二方面，本申请实施例提供一种word文本素材分级目录生成装置，其特征在于，包括：

获取模块，用于获取word文件；

识别模块，用于通过预训练的标签识别模型，识别所述word文件的的标签；

存储模块，用于将所述word文件存储在所述标签对应的树状图文件夹内；其中，所述树状图文件夹为基于历史word文件提取的标签生成的。

第三方面，本申请提供word文本素材分级目录生成设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行本申请第一方面所述的word文本素材分级目录生成；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

第四方面，本申请实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请第一方面所述的word文本素材分级目录生成方法中各个步骤。

本发明采用以上技术方案，本申请提供的方案中，首先获取word文件；通过预训练的标签识别模型，识别所述word文件的的标签；将所述word文件存储在所述标签对应的树状图文件夹内；其中，所述树状图文件夹为基于历史word文件提取的标签生成的。如此设置，通过电脑等智能设备执行本申请提供的方法以实现对于word文件的分类存储，以便于后期的查找。如此，提高了对于word文件的分类存储的速度，同时，分类存储的方式提高了查询早期“红头”word文件的效率，进而提高撰写效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种word文本素材分级目录生成方法的流程图；

图2是本发明实施例提供的一种word文本素材分级目录生成方法的流程图；

图3是本发明实施例提供的一种word文本素材分级目录生成装置的结构示意图；

图4是本发明实施例提供的一种word文本素材分级目录生成设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

首先对本发明实施例的应用场景进行说明，目前政府，电视台等机构因常年累月积压各种Word文本，因人员更替和文本未结构化梳理，导致大量的Word文本内容无法在使用时快速查找，如政府需要撰写一片关于国家领导的文稿，需要查询之前早期的Word文本，需要话费大量的时间去遍历查询早期“红头”word文件，费时费力，撰写效率不高。当前主流都是采用人工查询编辑，重新分类方式进行处理，效率不高。本申请针对这一问题提出了对应的解决方案。

实施例

图1为本发明实施例提供的一种word文本素材分级目录生成方法的流程图，该方法可以由本发明实施例提供的word文本素材分级目录生成设备来执行。参考图1，该方法具体可以包括如下步骤：

S101、获取word文件；

需要说明的是，获取word文件的方式有多种；其中，获取word文件的方式可以包括如下两种；

一种是：定期自动扫描获取word文件；具体的，建立一个文件自动扫描任务，定期扫描海量早期文件夹内文件，自动扫描进入“Word文件管理系统

另一种是：获取用户上传的word文件。具体的，可以采用谷歌浏览器插件方式，提供浏览器插件方式的工具系统，通过增加在谷歌浏览器“拓展工具包”方式，不侵入政府和电视台业务系统，点击伴随“图标”，快速将本地文件上传到“Word文件管理系统”，提供浏览器提供伴随式服务。当然也可以采用其他的浏览器，或者单独的APP。

S102、通过预训练的标签识别模型，识别所述word文件的的标签；

具体的，所述预训练的标签识别模型包括：外部标题检测标签模型，内部标题检测规则模型，首端文本检测规则模型。

所述外部标题检测标签模型用于检测所述word文件的外部标题，得到标签；

所述内部标题检测标签模型用于检测所述word文件的外内部标题，得到标签；

所述首端文本检测标签模型用于检测所述word文件的首端文本，得到标签。

具体的，标签可以包括：时间标签、地区标签、人物标签

如此设置，可以对word文件进行全方位的检测得到word文件的标签。需要说明的是，本申请提供的方案中，各个检测标签模型可以是通过预先设置得到的，可以是，通过NLP自然语音分词技术，设置检测时间，地区，省/州，市/县，人物作为标签。当然，在实际应用中，可以基于现有的需求对其作进一步的设置，使得各个检测标签模型可以基于实际需求识别标签。

S103、将所述文件存储在所述标签对应的树状图文件夹内；其中，所述树状图文件夹为基于历史word文件提取的标签生成的。；

在实际应用中，同一个文件存在多个标签，例如同一个文件是郑某和王某共同完成，所以在树状图文件夹中对应郑某的文件夹和对应王某的文件夹均需要对该文件进行存储，此时面对需要一份word文件存储在多个文件夹内的情况，发明人提出了如下解决办法：一个文件多个标签，文件只存储在一个标签内，当前文件所属的其他标签内文件以NAS存储指针方式，只存储一个指针文件，避免出现一个文件多次存储，节省存储空间。即：当所述word文件需要存储进多个树状图文件夹内时；选取一个树状图文件夹存储所述word文件的本体，其他的树状图文件夹存储所述word文件的指针文件。如此设置可以避免同一个文件在多个树状图文件夹内存储的情况。

需要说明的是，本申请提供的方案基于背景技术中的场景，解决的问题主要是，目前政府，电视台等机构因常年累月积压各种Word文本，因人员更替和文本未结构化梳理，导致大量的Word文本内容无法在使用时快速查找，所以基于该需求，本申请提供的方案中：选择标签即建立树状图文件夹的的方法包括：

提取预设数量的本领域word文件，通过NLP自然语音分词技术，设置时间，地区，省/州，市/县，人物所有建立标签；

根据得到时间，地区，人物自动生成文件夹“树状结构”集合，得到树状图文件夹。

基于时间、地区、人物建立的标签和树状图文件夹贴合政府，电视台等机构的实际需求，可以帮助工作人员迅速找出需要的文件。

进一步的，为了使得工作人员可以更好的使用本申请提供的方案中的树状图文件夹，本申请提供的方案还包括：

用户可以通过标题检索，标签检索，和文件夹架构对处理后的word文件进行查找；

用户对word文件和树状图文件夹进行管理。

综上所述：本申请提供的方案中，可以通过电脑等智能设备执行本申请提供的方法以实现对于word文件的分类存储，以便于后期的查找。如此，提高了对于word文件的分类存储的速度，同时，分类存储的方式提高了查询早期“红头”word文件的效率，进而提高撰写效率。

图2为本发明实施例提供的一种word文本素材分级目录生成方法的流程图，该方法可以由本发明实施例提供的word文本素材分级目录生成设备来执行。参考图2，该方法具体可以包括如下步骤：

S201、打开浏览器，打开“设置-拓展工具”，将“word文件处理系统”拓展插件包安装在浏览器内。

需要说明的是，“word文件处理系统”拓展插件包是用于运行本申请提供方法的译者插件包，浏览器安装所述插件包后可以执行本申请提供的技术方案。

S202、点击“图标”进入系统；

需要说明的是，浏览器安装“word文件处理系统”拓展插件包后，浏览器右下角生成“word文件处理系统”图标，点击该图标便可以进入“word文件处理系统”。

S203、手动上传word文件或者自动扫描word文件进入系统。

S204、通过预训练的标签识别模型，识别所述word文件的的标签；

S205、将所述文件存储在所述标签对应的树状图文件夹内。

具体的：S204和S205包括：1)分别对外部标题，内部标题，首端文字根据模型检测关键词标签；2)标签检测完成后，文件根据标签库，并在系统页面展示在“树状结构”文件夹内；3)一个文件多个标签，文件只存储在一个标签内，当前文件所属的其他标签内文件以NAS存储指针方式，只存储一个指针文件，避免出现一个文件多次存储，节省存储空间。

其中，标签库设置和系统文件夹生成包括：1)提取2000篇政府或电视台Word文稿，通过NLP自然语音分词技术，设置时间，地区，省/州，市/县，人物所有建立标签库；2)根据得到时间，地区，人物自动生成文件夹“树状结构”集合。

进一步的，系统还提供：1)用户中心：角色管理，用户结构增删改查；2)文件管理：文件存储入库，统一注册。根据标题和标签在提供内查找；3)文件夹管理：树状结构输出文件夹，便于根据文进夹层级结构查找。

图3为本发明实施例提供的一种word文本素材分级目录生成装置的结构图，参考图3，该word文本素材分级目录生成装置，包括：

获取模块31，用于获取word文件；

识别模块32，用于通过预训练的标签识别模型，识别所述word文件的的标签；

存储模块33，用于将所述word文件存储在所述标签对应的树状图文件夹内；其中，所述树状图文件夹为基于历史word文件提取的标签生成的。

如此本申请提供的方法以实现对于word文件的分类存储，以便于后期的查找。如此，提高了对于word文件的分类存储的速度，同时，分类存储的方式提高了查询早期“红头”word文件的效率，进而提高撰写效率。

图4为本发明实施例提供的一种word文本素材分级目录生成设备的结构图，参考图4，该word文本素材分级目录生成设备，包括：

处理器41，以及与所述处理器相连接的存储器42；

所述存储器42用于存储计算机程序，所述计算机程序至少用于执行如本申请任一实施例所述的word文本素材分级目录生成方法；获取word文件；通过预训练的标签识别模型，识别所述word文件的的标签；将所述word文件存储在所述标签对应的树状图文件夹内；其中，所述树状图文件夹为基于历史word文件提取的标签生成的。

所述处理器用于调用并执行所述存储器中的所述计算机程序。word文本素材分级目录生成方法至少包括：。

关于上述实施例中的word文本素材分级目录生成方法的具体实施方式，已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请任一实施例所述的word文本素材分级目录生成方法中各个步骤。word文本素材分级目录生成方法至少包括：获取word文件；通过预训练的标签识别模型，识别所述word文件的的标签；将所述word文件存储在所述标签对应的树状图文件夹内；其中，所述树状图文件夹为基于历史word文件提取的标签生成的。

关于上述实施例中的word文本素材分级目录生成方法的具体实施方式，已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王雷;
专利申请人：广州欢网科技有限责任公司;

上一篇：一种微纳米化天然贝壳钙素粉的制备方法及用途
下一篇：一种渐变约束的燃煤机组热值校正方法