掌桥专利:专业的专利平台
掌桥专利
首页

数据检测方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 11:45:49


数据检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域,具体涉及一种数据检测方法、装置、计算机设备和存储介质。

背景技术

当前在企业内部,系统开发往往涉及专业的软件工程和专业的过程管理,而其中对于软件质量的保证往往需要依赖于撰写优良的需求文档。通常企业会花费一定的人力、物力成本去检查、监视这些需求文档是否符合行业或者集团内部的文档QA(QUALITYASSURANCE,质量保证)标准。现有对于需求文档的质量检测方式是由企业设置过程管理这一职能单位,依靠大量人力对需求文档的内容进行人工检查。然而,这种基于人工检查需求文档的方式需要占用大量的人力资源和花费大量的时间,容易造成需求文档的检测效率较低,且人工检测会出现较高的错误率高,进而影响了生成的文档检测结果的准确性。

发明内容

本申请的主要目的为提供一种数据检测方法、装置、计算机设备和存储介质,旨在解决现有的人工检查需求文档的方式需要占用大量的人力资源和花费大量的时间,容易造成需求文档的检测效率较低,且人工检测会出现较高的错误率高,进而影响了生成的文档检测结果的准确性的技术问题。

本申请提出一种数据检测方法,所述方法包括步骤:

获取待检测的需求文档;

基于预设的检查清单对所述需求文档中的文档对象进行匹配处理,生成与所述需求文档对应的锚点容器;

基于所述锚点容器对所述需求文档进行区域划分处理,得到对应的多个文档区块;其中,所述文档区块的区块类型包括区块内部为表格型数据的表格型区块、区块内部为文本型数据的段落型区块与区块内部为图片型数据的图片型区块;

获取指定文档区块,并调用与所述指定文档区块的区块类型对应的指定检测算法对所述指定文档区块进行自动化检测处理,生成对应的指定检测结果;其中,所述指定文档区块为所有所述文档区块中的任意一个区块;

获取与各所述文档区块分别对应的检测结果,并基于所有所述检测结果生成与所述需求文档对应的检测结果报告。

可选地,所述基于预设的检查清单对所述需求文档中的文档对象进行匹配处理,生成与所述需求文档对应的锚点容器的步骤,包括:

逐行遍历所述需求文档的文档对象,获取每一行的对象内容;

将各所述对象内容分别与所述检查清单中包含的所有锚点信息进行匹配处理,得到对应的多个匹配结果;其中,所述匹配结果的结果内容为匹配成功或匹配失败;

从所有所述匹配结果中筛选出结果内容为匹配成功的指定匹配结果,并获取与各所述指定匹配结果分别对应的指定对象内容与指定锚点信息;获取所述指定对象内容在所述需求文档中的地址信息,并基于所述地址信息生成与所述指定锚点信息对应的指定锚点地址信息;

创建原始锚点容器;

将所述指定锚点地址信息与所述指定锚点信息对应存储于所述原始锚点容器内,生成与所述需求文档对应的所述锚点容器。

可选地,所述基于所述锚点容器对所述需求文档进行区域划分处理,得到对应的多个文档区块的步骤,包括:

获取所述锚点容器内存储的所有锚点地址信息;

基于所述锚点地址信息对所述需求文档进行查询处理,从所述需求文档中查找出与各所述锚点地址信息分别相同的目标行号信息;

将每两个相邻的所述目标行号信息作为划分端点,对所述需求文档进行区域划分处理,得到对应的多个文档内容区域;

将所述文档内容区域作为所述文档区块。

可选地,所述调用与所述指定文档区块的区块类型对应的指定检测算法对所述指定文档区块进行自动化检测处理,生成对应的指定检测结果的步骤,包括:

从所述锚点容器中获取与所述指定文档区块对应的目标锚点信息;

基于所述目标锚点信息,判断所述指定文档区块的区块类型是否属于所述表格型区块;

若所述指定文档区块的区块类型属于所述表格型区块,获取所述表格型区块中的指定表格对象;

对所述指定表格对象进行遍历处理,获取目标行的第一个单元格对应的第一数据;其中,所述目标行为所述指定表格对象包含的所有行中的任意一行;

判断所述第一数据的标题是否包含第一目标内容;

若所述第一数据的标题包含所述第一目标内容,获取所述目标行的第二个单元格对应的第二数据;

判断所述第二数据是否为第一预设值;

若所述第二数据不为所述第一预设值,判断所述第二数据是否包含第一目标字段;

若所述第二数据不包含所述第一目标字段,判断所述第二数据是否包含第二目标内容;

若所述第二数据包含所述第二目标内容,则判定所述表格型区块校验通过,并生成校验通过的第一检测结果。

可选地,所述基于所述目标锚点信息,判断所述指定文档区块的区块类型是否属于所述表格型区块的步骤之后,包括:

若所述指定文档区块的区块类型不属于所述表格型区块,基于所述目标锚点信息判断所述指定文档区块的区块类型是否属于所述段落型区块;

若所述指定文档区块的区块类型属于所述段落型区块,对所述段落型区块中的每行文本进行拼接处理,得到处理后的目标段落对象;

判断所述目标段落对象是否为第二预设值;

若所述目标段落对象不为所述第二预设值,判断所述目标段落对象是否包含第二目标字段;

若所述目标段落对象不包含所述第二目标字段,判断所述目标段落对象是否包含第三目标字段;

若所述目标段落对象包含所述第三目标字段,判定所述段落型区块校验通过,并生成校验通过的第二检测结果。

可选地,所述基于所述目标锚点信息,判断所述指定文档区块的区块类型是否属于所述表格型区块的步骤之后,包括:

若所述指定文档区块的区块类型不属于所述表格型区块,基于所述目标锚点信息判断所述指定文档区块的区块类型是否属于所述图片型区块;

若所述指定文档区块的区块类型属于所述图片型区块,获取所述图片型区块中每行图片的图片数量;

将各所述图片数量填充至预设容器内,得到目标图片容器;

计算所述目标图片容器的图片总数量,判断所述图片总数量是否小于预设数量;

若所述目标图片容器内的图片总数量不小于所述预设数量,判定所述图片型区块校验通过,并生成校验通过的的第三检测结果。

可选地,所述获取待检测的需求文档的步骤,包括:

获取待检测的文件夹路径,并判断所述文件夹路径是否为空;

若所述文件夹路径不为空,遍历与所述文件夹路径对应的所有文档,从所有文档中筛选出属于指定文件格式的第一文档;

判断所述第一文档中是否存在临时文件;

若所述第一文档中存在所述临时文件,从第一文档中剔除所述临时文件,得到第二文档;

获取所有所述第二文档的文件名,并基于所述文件名从所有所述第二文件中筛选出包含有指定文件名称的第三文档;

将所述第三文档作为所述需求文档,并调用预设工具获取所述需求文档。

本申请还提供一种数据检测装置,包括:

获取模块,用于获取待检测的需求文档;

第一生成模块,用于基于预设的检查清单对所述需求文档中的文档对象进行匹配处理,生成与所述需求文档对应的锚点容器;

第一处理模块,用于基于所述锚点容器对所述需求文档进行区域划分处理,得到对应的多个文档区块;其中,所述文档区块的区块类型包括区块内部为表格型数据的表格型区块、区块内部为文本型数据的段落型区块与区块内部为图片型数据的图片型区块;

第二处理模块,用于获取指定文档区块,并调用与所述指定文档区块的区块类型对应的指定检测算法对所述指定文档区块进行自动化检测处理,生成对应的指定检测结果;其中,所述指定文档区块为所有所述文档区块中的任意一个区块;

第二生成模块,用于获取与各所述文档区块分别对应的检测结果,并基于所有所述检测结果生成与所述需求文档对应的检测结果报告。

本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中提供的数据检测方法、装置、计算机设备和存储介质,具有以下有益效果:

不同于现有的人工检查需求文档的处理方式,本申请中提供的数据检测方法、装置、计算机设备和存储介质,在获取到待检测的需求文档后,会基于预设的检查清单生成与所述需求文档对应的锚点容器,之后基于所述锚点容器对需求文档内的文档对象进行文档划分处理来得到对应的多个文档区块,后续再调用与每一个文档区块分别对应的检测算法来智能对每一个文档区块进行自动化检测处理,生成每一个文档区块的检测结果,最后再基于上述检测结果生成与所述需求文档对应的检测结果报告,以实现对于需求文档的自动化检测。由于整个对于需求文档的数据检测过程是自动化进行的,无需人工参与,从而可以节省大量的人力资源和花费时间,有效地降低了需求文档的检测成本,提高了需求文档的检测结果报告的生成效率,保证了生成的检测结果报告的准确性。

附图说明

图1是本申请一实施例的数据检测方法的流程示意图;

图2是本申请一实施例的数据检测装置的结构示意图;

图3是本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

参照图1,本申请一实施例的数据检测方法,包括:

S1:获取待检测的需求文档;

S2:基于预设的检查清单对所述需求文档中的文档对象进行匹配处理,生成与所述需求文档对应的锚点容器;

S3:基于所述锚点容器对所述需求文档进行区域划分处理,得到对应的多个文档区块;其中,所述文档区块的区块类型包括区块内部为表格型数据的表格型区块、区块内部为文本型数据的段落型区块与区块内部为图片型数据的图片型区块;

S4:获取指定文档区块,并调用与所述指定文档区块的区块类型对应的指定检测算法对所述指定文档区块进行自动化检测处理,生成对应的指定检测结果;其中,所述指定文档区块为所有所述文档区块中的任意一个区块;

S5:获取与各所述文档区块分别对应的检测结果,并基于所有所述检测结果生成与所述需求文档对应的检测结果报告。

如上述步骤S1至S5所述,本方法实施例的执行主体为一种数据检测装置。在实际应用中,上述数据检测装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的数据检测装置,能够自动进行对于需求文档的数据检测过程,从而可以节省大量的人力资源和花费时间,有效地降低了需求文档的检测成本,提高了需求文档的检测结果报告的生成效率与准确性。具体地,首先获取待检测的需求文档。其中,上述需求文档是指具备检测需求的文档,可基于预先设定的文件格式与文件名称从所有的候选文档中筛选出该需求文档。然后基于预设的检查清单对上述需求文档中的文档对象进行匹配处理,生成与上述需求文档对应的锚点容器。其中,锚点容器的具体生成过程可包括:先将需求文档中每一行的对象内容分别与上述检查清单中包含的所有锚点信息进行匹配处理,得到对应的多个匹配结果;再从所有匹配结果中筛选出匹配成功的指定匹配结果,并从所有上述锚点信息中筛选出与上述指定匹配结果对应的指定锚点信息,以及从所有上述文档对象中筛选出与上述指定匹配结果对应的指定对象内容;基于上述指定对象内容在上述需求文档中的地址信息生成与各上述指定锚点信息分别对应的指定锚点地址信息;最终将上述指定锚点地址信息与上述指定锚点信息一一对应地存储于预创建的原始锚点容器内,进而生成上述锚点容器。

之后基于上述锚点容器对上述需求文档进行区域划分处理,得到对应的多个文档区块。其中,上述需求文档为由人工基于预先设置的需求文档模板进行撰写生成的,故需求文档内的内容信息相对结构化,其整体上可以分为若干个文档区块,且各文档区块之间不存在重复区块。上述文档区块的区块类型具体可包括表格型区块、段落型区块与图片型区块,表格型区块的区块内部为表格型数据,段落型区块的区块内部为文本型数据,图片型区块的区块内部为图片型数据。另外,可先获取锚点容器内存储的所有锚点信息,并基于上述锚点地址信息对上述需求文档进行查询处理,从上述需求文档中查找出与各上述锚点地址信息分别相同的目标行号信息,进而将每两个相邻的目标行号信息作为划分端点,对上述需求文档进行区域划分处理,以得到对应的多个文档区块。在得到了上述文档区块后,获取指定文档区块,并调用与上述指定文档区块的区块类型对应的指定检测算法对上述指定文档区块进行自动化检测处理,生成对应的指定检测结果。其中,上述指定文档区块为所有上述文档区块中的任意一个区块。另外,对于不同类型的文档区块会预先设置有对应的检测算法,通过调用与指定文档区块的类型对应的指定检测算法来对指定文档区块进行自动化检测处理,从而可以准确地生成与指定文档区块对应的指定检测结果。最后获取与各上述文档区块分别对应的检测结果,并基于所有上述检测结果生成与上述需求文档对应的检测结果报告。其中,可预先设置有一个报告模板,对于上述结果模板的模板类型不作具体限定,例如可为Excel。且该报告模板的输出结构至少可包括检测区块、检测结果。另外,在得到了上述检测结果后,可同时获取与各检测结果分别对应的区块信息,进而将所有上述区块信息与所有上述检测结果填充至上述报告模板内的相应位置处,以生成与上述需求文档对应的检测结果报告,使得可通过查阅该检测结果报告来清楚明了地得到关于需求文档的文档检测结果。

不同于现有的人工检查需求文档的处理方式,本实施例在获取到待检测的需求文档后,会基于预设的检查清单生成与上述需求文档对应的锚点容器,之后基于上述锚点容器对需求文档内的文档对象进行文档划分处理来得到对应的多个文档区块,后续再调用与每一个文档区块分别对应的检测算法来智能对每一个文档区块进行自动化检测处理,生成每一个文档区块的检测结果,最后再基于上述检测结果生成与上述需求文档对应的检测结果报告,以实现对于需求文档的自动化检测。由于整个对于需求文档的数据检测过程是自动化进行的,无需人工参与,从而可以节省大量的人力资源和花费时间,有效地降低了需求文档的检测成本,提高了需求文档的检测结果报告的生成效率,保证了生成的检测结果报告的准确性。

进一步地,本申请一实施例中,上述步骤S2,包括:

S200:逐行遍历所述需求文档的文档对象,获取每一行的对象内容;

S201:将各所述对象内容分别与所述检查清单中包含的所有锚点信息进行匹配处理,得到对应的多个匹配结果;其中,所述匹配结果的结果内容为匹配成功或匹配失败;

S202:从所有所述匹配结果中筛选出结果内容为匹配成功的指定匹配结果,并获取与各所述指定匹配结果分别对应的指定对象内容与指定锚点信息;

S203:获取所述指定对象内容在所述需求文档中的地址信息,并基于所述地址信息生成与所述指定锚点信息对应的指定锚点地址信息;

S204:创建原始锚点容器;

S205:将所述指定锚点地址信息与所述指定锚点信息对应存储于所述原始锚点容器内,生成与所述需求文档对应的所述锚点容器。

如上述步骤S200至S205所述,上述基于预设的检查清单对上述需求文档中的文档对象进行匹配处理,生成与上述需求文档对应的锚点容器的步骤,具体可包括:首先逐行遍历上述需求文档的文档对象,获取每一行的对象内容。然后将各上述对象内容分别与上述检查清单中包含的所有锚点信息进行匹配处理,得到对应的多个匹配结果;其中,上述匹配结果的结果内容为匹配成功或匹配失败。其中,上述检查清单内包含有预先放置的多个锚点信息,也可将该锚点信息称为标准关键词,该锚点信息具体为用于对预设的需求文档模板进行区块划分的标准关键词,该标准关键词的具体内容可根据实际需求,如根据需求文档的检测需求进行设置。举例地,上述标准关键词可包括需求背景、需求范围、业务流程图、交互设计、架构及安全评审方案结果,等等。之后从所有上述匹配结果中筛选出结果内容为匹配成功的指定匹配结果,并获取与各上述指定匹配结果分别对应的指定对象内容与指定锚点信息。后续获取上述指定对象内容在上述需求文档中的地址信息,并基于上述地址信息生成与上述指定锚点信息对应的指定锚点地址信息。其中,上述指定锚点地址信息与上述地址信息属于相同的信息。可通过p=doc.Paragraph[i]的方式逐行遍历需求文档的文档对象,p为需求文档中的任意一行,doc.Paragraph为需求文档,迭代计数器i对应于文档对象在上述需求文档中的地址信息或行号信息,如果当前任意一行p的对象内容与检查清单中的指定锚点信息为相同的数据,则当前的迭代计数器i就表示该对象内容以及该指定锚点信息在需求文档内的地址。另外,通过从检查清单中包含的所有锚点信息中查找出与需求信息中的文档对象相同的所有指定锚点信息,则后续可基于该所有指定锚点信息从需求文档中筛选出需要进行数据检测的文档区块。最后创建原始锚点容器,并将上述指定锚点地址信息与上述指定锚点信息对应存储于上述原始锚点容器内,生成与上述需求文档对应的上述锚点容器。其中,在遍历上述需求文档的文档对象的过程中,可通过将检查清单中出现的与需求文档中的文档对象具有匹配关系(相同)的所有指定锚点信息存入预创建的原始锚点容器内,以及将与上述匹配关系对应的目标对象内容在上述需求文档中的各地址信息作为与各上述指定锚点信息分别对应的指定锚点地址信息同时存储于该原始锚点容器内,以生成所需的上述锚点容器。本实施例通过基于预设的检查清单生成与上述需求文档对应的锚点容器,使得后续能够使用该锚点容器对需求文档进行区域划分处理以得到对应的多个文档区块,进而按照与各文档区块对应的检查算法对各个文档区块进行自动化检测处理来生成对应的检测结果,有利于基于该检测结果来实现快捷准确地生成与需求文档对应的检测结果报告,以完成对于需求文档的质量检测。

进一步地,本申请一实施例中,上述步骤S3,包括:

S300:获取所述锚点容器内存储的所有锚点地址信息;

S301:基于所述锚点地址信息对所述需求文档进行查询处理,从所述需求文档中查找出与各所述锚点地址信息分别相同的目标行号信息;

S302:将每两个相邻的所述目标行号信息作为划分端点,对所述需求文档进行区域划分处理,得到对应的多个文档内容区域;

S304:将所述文档内容区域作为所述文档区块。

如上述步骤S300至S303所述,上述基于上述锚点容器对上述需求文档进行区域划分处理,得到对应的多个文档区块的步骤,具体可包括:首先获取上述锚点容器内存储的所有锚点地址信息。其中,上述所有锚点地址信息与锚点容器内存储的与需求文档的文档对象相同的所有特定锚点信息具有对应关系,具体是指上述特定指定锚点信息在上述需求文档中的地址信息或行号信息。然后基于上述锚点地址信息对上述需求文档进行查询处理,从上述需求文档中查找出与各上述锚点地址信息分别相同的目标行号信息。之后将每两个相邻的目标行号信息作为划分端点,对上述需求文档进行区域划分处理,得到对应的多个文档内容区域。其中,基于需求文档中任意的两个目标行号信息可以构建出一个区块,该区块对应着在需求文档内有处理意义的检测区块,该检测区块内包含的描述信息内容即为需求文档内需要进行数据检测校验的有意义的内容部分。最后将上述文档内容区域作为上述文档区块。本实施例通过基于上述锚点容器对需求文档内进行区域划分处理以得到对应的多个文档区块,有利于后续按照与各文档区块对应的检查算法对各个文档区块进行自动化检测处理来生成对应的检测结果,进而可基于该检测结果实现快捷准确地生成与需求文档对应的检测结果报告,以完成对于需求文档的质量检测。

进一步地,本申请一实施例中,上述步骤S4,包括:

S400:从所述锚点容器中获取与所述指定文档区块对应的目标锚点信息;

S401:基于所述目标锚点信息,判断所述指定文档区块的区块类型是否属于所述表格型区块;

S402:若所述指定文档区块的区块类型属于所述表格型区块,获取所述表格型区块中的指定表格对象;

S403:对所述指定表格对象进行遍历处理,获取目标行的第一个单元格对应的第一数据;其中,所述目标行为所述指定表格对象包含的所有行中的任意一行;

S404:判断所述第一数据的标题是否包含第一目标内容;

S405:若所述第一数据的标题包含所述第一目标内容,获取所述目标行的第二个单元格对应的第二数据;

S406:判断所述第二数据是否为第一预设值;

S407:若所述第二数据不为所述第一预设值,判断所述第二数据是否包含第一目标字段;

S408:若所述第二数据不包含所述第一目标字段,判断所述第二数据是否包含第二目标内容;

S409:若所述第二数据包含所述第二目标内容,则判定所述表格型区块校验通过,并生成校验通过的第一检测结果。

如上述步骤S400至S409所述,上述调用与上述指定文档区块的区块类型对应的指定检测算法对上述指定文档区块进行自动化检测处理,生成对应的指定检测结果的步骤,具体可包括:首先从上述锚点容器中获取与上述指定文档区块对应的目标锚点信息。然后基于上述目标锚点信息,判断上述指定文档区块的区块类型是否属于上述表格型区块。其中,上述目标锚点信息对应着划分指定文档区块的上下边界的关键词。预先设置有关键词-区块类型映射表,可根据该目标锚点信息对上述关键词-区块类型映射表进行查询处理,以确定出与文档区块对应的区块类型。举例地,关键词-区块类型映射表内可存储有以下内容:需求背景与需求范围对应于段落型区块;业务流程图与交互设计对应于图片型区块;交互设计与架构及安全评审方案结果对应于表格型区块。另外,对于指定文档区块的区块类型的判断顺序不作具体限定,可根据实际需求进行相应设置。具体的,除了本申请实施例中提出的先判断指定文档区块的区块类型是否为表格型区块,再同时判断区块类型是否为段落型区块或图片型区块的判断顺序,还可以为先判断指定文档区块的区块类型是否为表格型区块,再判断区块类型是否为段落型区块,后续再判断区块类型是否为图片型区块的判断顺序。或者还可以为先判断指定文档区块的区块类型是否为表格型区块,再判断区块类型是否为图片型区块,后续再判断区块类型是否为段落型区块的判断顺序。如果上述指定文档区块的区块类型属于上述表格型区块,则获取上述表格型区块中的指定表格对象。之后对上述指定表格对象进行遍历处理,获取目标行的第一个单元格对应的第一数据。其中,上述目标行为上述指定表格对象包含的所有行中的任意一行。并判断上述第一数据的标题是否包含第一目标内容。其中,对于上述第一目标内容所包含的具体内容不作限定,可根据实际需求进行设置,例如第一目标内容可为UI改造或US清单。另外,若上述第一数据的标题不包含第一目标内容,则直接生成校验不通过的检测结果。如果第一数据的标题包含上述第一目标内容,则获取上述目标行的第二个单元格对应的第二数据,并判断上述第二数据是否为第一预设值。其中,对于上述第一预设值所包含的具体内容不作限定,可根据实际需求进行设置,例如第一预设值可为空值或blank。另外,若第二数据为第一预设值,则直接生成校验不通过的检测结果。如果上述第二数据不为上述第一预设值,则判断上述第二数据是否包含第一目标字段。其中,对于上述第一目标字段所包含的具体内容不作限定,可根据实际需求进行设置,例如第一目标字段可为“TODO”字段。另外,若第二数据包含上述第一目标字段,则直接生成校验不通过的检测结果。如果上述第二数据不包含上述第一目标字段,则判断上述第二数据是否包含第二目标内容。其中,对于上述第二目标内容所包含的具体内容不作限定,可根据实际需求进行设置,例如第二目标内容可为“US”开头或“无/不涉及”字段。如果上述第二数据包含上述第二目标内容,则判定上述表格型区块校验通过,并生成校验通过的第一检测结果。另外,若第二数据不包含上述第二目标内容,则直接生成校验不通过的检测结果。本实施例当判别出指定文档区块的区块类型属于表格型区块时,会智能地基于与表格型区块对应的检测算法来对指定文档区块进行准确的校验处理并生成相应的检测结果,有利于后续基于该检测结果与需求文档中其余文档区块的检测结果来快速准确地生成与需求文档对应的检测结果报告,进而完成对于需求文档的质量检测。

进一步地,本申请一实施例中,上述步骤S401之后,包括:

S4010:若所述指定文档区块的区块类型不属于所述表格型区块,基于所述目标锚点信息判断所述指定文档区块的区块类型是否属于所述段落型区块;

S4011:若所述指定文档区块的区块类型属于所述段落型区块,对所述段落型区块中的每行文本进行拼接处理,得到处理后的目标段落对象;

S4012:判断所述目标段落对象是否为第二预设值;

S4013:若所述目标段落对象不为所述第二预设值,判断所述目标段落对象是否包含第二目标字段;

S4014:若所述目标段落对象不包含所述第二目标字段,判断所述目标段落对象是否包含第三目标字段;

S4015:若所述目标段落对象包含所述第三目标字段,判定所述段落型区块校验通过,并生成校验通过的第二检测结果。

如上述步骤S4010至S4015所述,上述指定文档区块的区块类型除了属于表格型区块,还可以属于段落型区块,且对于段落型区块的检测处理不同于表格型区块的检测处理。具体地,上述基于上述目标锚点信息,判断上述指定文档区块的区块类型是否属于上述表格型区块的步骤之后,还可包括:如果上述指定文档区块的区块类型不属于上述表格型区块,则基于上述目标锚点信息判断上述指定文档区块的区块类型是否属于段落型区块。如果上述指定文档区块的区块类型属于上述段落型区块,则对上述段落型区块中的每行文本进行拼接处理,得到处理后的目标段落对象。然后判断上述目标段落对象是否为第二预设值。其中,对于上述第二预设值所包含的具体内容不作限定,可根据实际需求进行设置,例如第二预设值可为空值或blank。如果上述目标段落对象不为上述第二预设值,则判断上述目标段落对象是否包含第二目标字段。其中,对于上述第二目标字段所包含的具体内容不作限定,可根据实际需求进行设置,例如第二目标字段可为“TODO”字段。另外,若上述目标段落对象不包含上述第二目标字段,则直接生成校验不通过的检测结果。如果上述目标段落对象不包含上述第二目标字段,则判断上述目标段落对象是否包含第三目标字段。其中,上述第二目标字段所包含的具体内容不作限定,可根据实际需求进行设置,例如第二目标字段可为“无/不涉及”字段。另外,若上述目标段落对象不包含上述第三目标字段,则直接生成校验不通过的检测结果。如果上述目标段落对象包含上述第三目标字段,判定上述段落型区块校验通过,并生成校验通过的第二检测结果。本实施例当判别出指定文档区块的区块类型属于段落型区块时,会智能地基于与段落型区块对应的检测算法来对指定文档区块进行准确的校验处理并生成相应的检测结果,有利于后续基于该检测结果与需求文档中其余文档区块的检测结果来快速准确地生成与需求文档对应的检测结果报告,进而完成对于需求文档的质量检测。

进一步地,本申请一实施例中,上述步骤S401之后,包括:

S4020:若所述指定文档区块的区块类型不属于所述表格型区块,基于所述目标锚点信息判断所述指定文档区块的区块类型是否属于所述图片型区块;

S4021:若所述指定文档区块的区块类型属于所述图片型区块,获取所述图片型区块中每行图片的图片数量;

S4022:将各所述图片数量填充至预设容器内,得到目标图片容器;

S4023:计算所述目标图片容器的图片总数量,判断所述图片总数量是否小于预设数量;

S4024:若所述目标图片容器内的图片总数量不小于所述预设数量,判定所述图片型区块校验通过,并生成校验通过的的第三检测结果。

如上述步骤S4020至S4024所述,上述指定文档区块的区块类型除了属于表格型区块或段落型区块,还可以属于图片型区块,且对于图片型区块的检测处理不同于表格型区块或段落型区块的检测处理。具体地,上述基于上述目标锚点信息,判断上述指定文档区块的区块类型是否属于上述表格型区块的步骤之后,还可包括:如果上述指定文档区块的区块类型不属于上述表格型区块,则基于上述目标锚点信息判断上述指定文档区块的区块类型是否属于上述图片型区块。如果上述指定文档区块的区块类型属于上述图片型区块,则获取上述图片型区块中每行图片的图片数量。然后将各上述图片数量填充至预设容器内,得到目标图片容器。之后计算上述目标图片容器的图片总数量,并判断上述图片总数量是否小于预设数量。其中,对于上述预设数量不作具体限定,可根据实际的检测需求进行设置,例如可设为1。如果上述目标图片容器内的图片总数量不小于上述预设数量,判定上述图片型区块校验通过,并生成校验通过的的第三检测结果。另外,若上述目标图片容器内的图片总数量小于上述预设数量,则直接生成校验不通过的检测结果。本实施例当判别出指定文档区块的区块类型属于图片型区块时,会智能地基于与图片型区块对应的检测算法来对指定文档区块进行准确的校验处理并生成相应的检测结果,有利于后续基于该检测结果与需求文档中其余文档区块的检测结果来快速准确地生成与需求文档对应的检测结果报告,进而完成对于需求文档的质量检测。

进一步地,本申请一实施例中,上述步骤S1,包括:

S100:获取待检测的文件夹路径,并判断所述文件夹路径是否为空;

S101:若所述文件夹路径不为空,遍历与所述文件夹路径对应的所有文档,从所有文档中筛选出属于指定文件格式的第一文档;

S102:判断所述第一文档中是否存在临时文件;

S103:若所述第一文档中存在所述临时文件,从第一文档中剔除所述临时文件,得到第二文档;

S104:获取所有所述第二文档的文件名,并基于所述文件名从所有所述第二文件中筛选出包含有指定文件名称的第三文档;

S105:将所述第三文档作为所述需求文档,并调用预设工具获取所述需求文档。

如上述步骤S100至S105所述,上述获取待检测的需求文档的步骤,具体可包括:首先获取待检测的文件夹路径,并判断上述文件夹路径是否为空。如果上述文件夹路径不为空,遍历与上述文件夹路径对应的所有文档,从所有文档中筛选出属于指定文件格式的第一文档。其中,对于上述指定文件格式不作具体限定,可根据实际需求进行设置,例如该指定文件格式可为docx。然后判断上述第一文档中是否存在临时文件。其中,对临时文件的格式不作限定,例如临时文件为包含有“-”字符的文件。若上述第一文档中存在上述临时文件,从第一文档中剔除上述临时文件,得到第二文档。之后获取所有上述第二文档的文件名,并基于上述文件名从所有上述第二文件中筛选出包含有指定文件名称的第三文档。其中,对于上述指定文件名称不作具体限定,可根据实际需求进行设置,例如该指定文件名称可为需求文档。最后将上述第三文档作为上述需求文档,并调用预设工具获取上述需求文档。其中,上述预设工具可为word app,可先基于win32corn client来实现对于word app的调用,进而利用word app来实现获取并启动该需求文档,以使得在需求文档启动后能够从需求文档中获取得到相应的表格对象、文本对象以及图片对象等数据。本实施例通过从所有文档中筛选出需要进行数据检测处理的需求文档,使得后续只会对满足检测需求的需求文档进行检测处理,而不会对所有文档均进行检测处理,有利于提高数据检测处理的精确性与效率,降低无用功耗的产生,提高生成检测结果的生成速度。另外,在得到了上述需求文档后,有利于后续能够基于预设的检查清单对上述需求文档中的文档对象进行匹配处理,以实现快速生成与上述需求文档对应的锚点容器。

本申请实施例中的数据检测方法还可以应用于区块链领域,如将上述检测结果等数据存储于区块链上。通过使用区块链来对上述检测结果进行存储和管理,能够有效地保证上述检测结果的安全性与不可篡改性。

上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。

参照图2,本申请一实施例中还提供了一种数据检测装置,包括:

获取模块1,用于获取待检测的需求文档;

第一生成模块2,用于基于预设的检查清单对所述需求文档中的文档对象进行匹配处理,生成与所述需求文档对应的锚点容器;

第一处理模块3,用于基于所述锚点容器对所述需求文档进行区域划分处理,得到对应的多个文档区块;其中,所述文档区块的区块类型包括区块内部为表格型数据的表格型区块、区块内部为文本型数据的段落型区块与区块内部为图片型数据的图片型区块;

第二处理模块4,用于获取指定文档区块,并调用与所述指定文档区块的区块类型对应的指定检测算法对所述指定文档区块进行自动化检测处理,生成对应的指定检测结果;其中,所述指定文档区块为所有所述文档区块中的任意一个区块;

第二生成模块5,用于获取与各所述文档区块分别对应的检测结果,并基于所有所述检测结果生成与所述需求文档对应的检测结果报告。

本实施例中,上述数据检测装置中的获取模块1、第一生成模块2、第一处理模块3、第二处理模块4与第二生成模块5的功能和作用的实现过程具体详见上述数据检测方法中对应步骤S1至S5的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第一生成模块2,包括:

第一获取单元,用于逐行遍历所述需求文档的文档对象,获取每一行的对象内容;

匹配单元,用于将各所述对象内容分别与所述检查清单中包含的所有锚点信息进行匹配处理,得到对应的多个匹配结果;其中,所述匹配结果的结果内容为匹配成功或匹配失败;

筛选单元,用于从所有所述匹配结果中筛选出结果内容为匹配成功的指定匹配结果,并获取与各所述指定匹配结果分别对应的指定对象内容与指定锚点信息;

第二获取单元,用于获取所述指定对象内容在所述需求文档中的地址信息,并基于所述地址信息生成与所述指定锚点信息对应的指定锚点地址信息;

创建单元,用于创建原始锚点容器;

存储单元,用于将所述指定锚点地址信息与所述指定锚点信息对应存储于所述原始锚点容器内,生成与所述需求文档对应的所述锚点容器。

本实施例中,上述数据检测装置中的第一获取单元、匹配单元、筛选单元、第二获取单元、创建单元与存储单元的功能和作用的实现过程具体详见上述数据检测方法中对应步骤S200至S205的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第一处理模块3,包括:

第三获取单元,用于获取所述锚点容器内存储的所有锚点地址信息;

查找单元,用于基于所述锚点地址信息对所述需求文档进行查询处理,从所述需求文档中查找出与各所述锚点地址信息分别相同的目标行号信息;

划分单元,用于将每两个相邻的所述目标行号信息作为划分端点,对所述需求文档进行区域划分处理,得到对应的多个文档内容区域;

第一确定单元,用于将所述文档内容区域作为所述文档区块。

本实施例中,上述数据检测装置中的第三获取单元、查找单元、划分单元与第一确定单元的功能和作用的实现过程具体详见上述数据检测方法中对应步骤S300至S303的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第二处理模块4,包括:

第四获取单元,用于从所述锚点容器中获取与所述指定文档区块对应的目标锚点信息;

第一判断单元,用于基于所述目标锚点信息,判断所述指定文档区块的区块类型是否属于所述表格型区块;

第五获取单元,用于若所述指定文档区块的区块类型属于所述表格型区块,获取所述表格型区块中的指定表格对象;

第六获取单元,用于对所述指定表格对象进行遍历处理,获取目标行的第一个单元格对应的第一数据;其中,所述目标行为所述指定表格对象包含的所有行中的任意一行;

第二判断单元,用于判断所述第一数据的标题是否包含第一目标内容;

第七获取单元,用于若所述第一数据的标题包含所述第一目标内容,获取所述目标行的第二个单元格对应的第二数据;

第三判断单元,用于判断所述第二数据是否为第一预设值;

第四判断单元,用于若所述第二数据不为所述第一预设值,判断所述第二数据是否包含第一目标字段;

第五判断单元,用于若所述第二数据不包含所述第一目标字段,判断所述第二数据是否包含第二目标内容;

第一生成单元,用于若所述第二数据包含所述第二目标内容,则判定所述表格型区块校验通过,并生成校验通过的第一检测结果。

本实施例中,上述数据检测装置中的第四获取单元、第一判断单元、第五获取单元、第六获取单元、第七获取单元、第三判断单元、第四判断单元、第五判断单元与第一生成单元的功能和作用的实现过程具体详见上述数据检测方法中对应步骤S400至S409的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第二处理模块4,包括:

第五判断单元,用于若所述指定文档区块的区块类型不属于所述表格型区块,基于所述目标锚点信息判断所述指定文档区块的区块类型是否属于所述段落型区块;

处理单元,用于若所述指定文档区块的区块类型属于所述段落型区块,对所述段落型区块中的每行文本进行拼接处理,得到处理后的目标段落对象;

第六判断单元,用于判断所述目标段落对象是否为第二预设值;

第七判断单元,用于若所述目标段落对象不为所述第二预设值,判断所述目标段落对象是否包含第二目标字段;

第八判断单元,用于若所述目标段落对象不包含所述第二目标字段,判断所述目标段落对象是否包含第三目标字段;

第二生成单元,用于若所述目标段落对象包含所述第三目标字段,判定所述段落型区块校验通过,并生成校验通过的第二检测结果。

本实施例中,上述数据检测装置中的第五判断单元、处理单元、第六判断单元、第七判断单元、第八判断单元与第二生成单元的功能和作用的实现过程具体详见上述数据检测方法中对应步骤S4010至S4015的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第二处理模块4,包括:

第九判断单元,用于若所述指定文档区块的区块类型不属于所述表格型区块,基于所述目标锚点信息判断所述指定文档区块的区块类型是否属于所述图片型区块;

第八获取单元,用于若所述指定文档区块的区块类型属于所述图片型区块,获取所述图片型区块中每行图片的图片数量;

填充单元,用于将各所述图片数量填充至预设容器内,得到目标图片容器;

第十判断单元,用于计算所述目标图片容器的图片总数量,判断所述图片总数量是否小于预设数量;

第三生成单元,用于若所述目标图片容器内的图片总数量不小于所述预设数量,判定所述图片型区块校验通过,并生成校验通过的的第三检测结果。

本实施例中,上述数据检测装置中的第九判断单元、第八获取单元、填充单元、第十判断单元与第三生成单元的功能和作用的实现过程具体详见上述数据检测方法中对应步骤S4020至S4024的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述获取模块1,包括:

第九获取单元,用于获取待检测的文件夹路径,并判断所述文件夹路径是否为空;

筛选单元,用于若所述文件夹路径不为空,遍历与所述文件夹路径对应的所有文档,从所有文档中筛选出属于指定文件格式的第一文档;

第十一判断单元,用于判断所述第一文档中是否存在临时文件;

剔除单元,用于若所述第一文档中存在所述临时文件,从第一文档中剔除所述临时文件,得到第二文档;

第十获取单元,用于获取所有所述第二文档的文件名,并基于所述文件名从所有所述第二文件中筛选出包含有指定文件名称的第三文档;

第二确定单元,用于将所述第三文档作为所述需求文档,并调用预设工具获取所述需求文档。

本实施例中,上述数据检测装置中的第九获取单元、筛选单元、第十一判断单元、剔除单元、第十获取单元与第二确定单元的功能和作用的实现过程具体详见上述数据检测方法中对应步骤S100至S105的实现过程,在此不再赘述。

参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储需求文档、检查清单、锚点容器、文档区块、指定检测算法、指定检测结果以及检测结果报告。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种数据检测方法。

上述处理器执行上述数据检测方法的步骤:

获取待检测的需求文档;

基于预设的检查清单对所述需求文档中的文档对象进行匹配处理,生成与所述需求文档对应的锚点容器;

基于所述锚点容器对所述需求文档进行区域划分处理,得到对应的多个文档区块;其中,所述文档区块的区块类型包括区块内部为表格型数据的表格型区块、区块内部为文本型数据的段落型区块与区块内部为图片型数据的图片型区块;

获取指定文档区块,并调用与所述指定文档区块的区块类型对应的指定检测算法对所述指定文档区块进行自动化检测处理,生成对应的指定检测结果;其中,所述指定文档区块为所有所述文档区块中的任意一个区块;

获取与各所述文档区块分别对应的检测结果,并基于所有所述检测结果生成与所述需求文档对应的检测结果报告。

本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种数据检测方法,具体为:

获取待检测的需求文档;

基于预设的检查清单对所述需求文档中的文档对象进行匹配处理,生成与所述需求文档对应的锚点容器;

基于所述锚点容器对所述需求文档进行区域划分处理,得到对应的多个文档区块;其中,所述文档区块的区块类型包括区块内部为表格型数据的表格型区块、区块内部为文本型数据的段落型区块与区块内部为图片型数据的图片型区块;

获取指定文档区块,并调用与所述指定文档区块的区块类型对应的指定检测算法对所述指定文档区块进行自动化检测处理,生成对应的指定检测结果;其中,所述指定文档区块为所有所述文档区块中的任意一个区块;

获取与各所述文档区块分别对应的检测结果,并基于所有所述检测结果生成与所述需求文档对应的检测结果报告。

综上所述,不同于现有的人工检查需求文档的处理方式,本申请实施例中提供的数据检测方法、装置、计算机设备和存储介质,在获取到待检测的需求文档后,会基于预设的检查清单生成与所述需求文档对应的锚点容器,之后基于所述锚点容器对需求文档内的文档对象进行文档划分处理来得到对应的多个文档区块,后续再调用与每一个文档区块分别对应的检测算法来智能对每一个文档区块进行自动化检测处理,生成每一个文档区块的检测结果,最后再基于上述检测结果生成与所述需求文档对应的检测结果报告,以实现对于需求文档的自动化检测。由于整个对于需求文档的数据检测过程是自动化进行的,无需人工参与,从而可以节省大量的人力资源和花费时间,有效地降低了需求文档的检测成本,提高了需求文档的检测结果报告的生成效率,保证了生成的检测结果报告的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 数据异常检测方法、装置、计算机可读存储介质和计算机设备
  • 恶意加密数据检测方法、装置、计算机设备和存储介质
技术分类

06120113047515