一种软件需求文档解析方法、设备及介质

文献发布时间：2024-04-18 19:58:21

技术领域

本申请涉及文档解析领域，尤其涉及一种软件需求文档解析方法、设备及介质。

背景技术

在软件开发过程中，需求文档扮演着关键的角色，它为开发团队提供了项目的基础和共享的理解。然而，随着软件项目的规模和复杂性增加，解析需求文档变得越来越具有挑战性。手动解析需求文档不仅耗时，而且容易出现错误和误解，可能导致开发过程中的存文档在解析的困惑与偏差。

解析需求文档中的页面需求和功能需求是软件开发过程中的重要一环。页面需求描述了用户界面的外观、布局和交互方式，而功能需求则规定了系统所需实现的功能和行为。然而，传统的解析方法往往需要人工划分和提取这些需求，这在大型项目中是一个繁琐且容易出错的过程。

发明内容

本申请实施例提供了一种软件需求文档解析方法、设备及介质，用于解决如下技术问题：现有需求文档中的信息解析存在内容上的偏差，且人工解析提取存在复杂与繁琐的问题，难以对需求文档进行高效率以及高准确性的解析。

本申请实施例采用下述技术方案：

一方面，本申请实施例提供了一种软件需求文档解析方法，包括：对需求文档进行有关文本信息以及图像信息的版面分析，得到版面区域信息；其中，所述版面区域信息包括：页面需求信息以及功能需求信息；通过预设的卷积神经网络，对所述页面需求信息中的多个元素进行分类以及定位，得到基于所述页面需求信息的第一关键信息；对所述功能需求信息进行有关词语序列的文本解析，得到基于所述功能需求信息的第二关键信息；基于所述第一关键信息以及所述第二关键信息，对所述需求文档进行版面识别训练，得到综合需求模型；通过所述综合需求模型，对待解析的需求文档进行需求定义，生成对应的软件开发参数信息。

本申请实施例通过结合了版面分析技术、计算机视觉技术和自然语言处理技术，实现了对需求文档的智能化解析。同时还具有高效性、准确性和自动化的特点，能够大幅提升解析效率和减少人为错误的产生。通过生成的页面需求模型和功能需求模型，再将页面需求模型和功能需求模型组合为综合需求模型，然后对待解析的需求文档进行需求定义，为软件开发团队提供了清晰的需求定义和设计指导，有助于提高软件开发的质量和效率。

在一种可行的实施方式中，对需求文档进行有关文本信息以及图像信息的版面分析，得到版面区域信息，具体包括：通过预设的图像处理算法，对所述需求文档进行全文扫描，得到全文版面图像；基于图像特征识别框，对所述全文版面图像进行特征识别，并将识别出的图像特征进行统一标记，得到图像标记特征；通过预设的OCR识别技术，将所述全文版面图像中的文本特征进行图像区域的识别与标记，得到第一标记区域；根据所述需求文档的主体特征，对所述全文版面图像进行有关文档内容属性的区域划分，并标记出第二标记区域；其中，所述主体特征包括所述需求文档的文档布局特征、文档标题特征以及文档重点标记特征；所述文档内容属性包括所述需求文档的正文属性、标题属性、表格属性以及图片属性；基于所述第一标记区域与所述第二标记区域，对所述图像标记特征进行有关版面区域划分归类，确定出所述版面区域信息。

在一种可行的实施方式中，基于所述第一标记区域与所述第二标记区域，对所述图像标记特征进行有关版面区域划分归类，确定出所述版面区域信息，具体包括：对所述第一标记区域与所述图像标记区域进行图像区域特征匹配，并将符合特征匹配的区域确定为功能需求区域；对所述第二标记区域与所述图像标记区域进行图像区域特征匹配，并将符合特征匹配的区域确定为功能需求区域确定为页面需求区域；根据所述功能需求区域以及所述页面需求区域，对所述全文版面图像进行有关版面区域划分，得到所述版面区域信息。

在一种可行的实施方式中，通过预设的卷积神经网络，对所述页面需求信息中的多个元素进行分类以及定位，得到基于所述页面需求信息的第一关键信息，具体包括：基于预设的图像目标检测技术，对所述页面需求信息进行有关多个元素属性的特征识别，得到元素特征；其中，所述元素特征包括：页面模板类型特征、图标类型特征、文字嵌入特征以及表格样式特征；通过所述卷积神经网络，对已识别后的页面需求信息中的多个元素进行特征定位，得到定位信息；根据所述定位信息，并通过所述元素特征，对所述多个元素进行同类别元素的分类学习训练，得到深度学习后的卷积神经网络；基于所述深度学习后的卷积神经网络，对待识别的页面需求信息进行各个元素的定位与分类，确定出基于所述页面需求信息的第一关键信息。

在一种可行的实施方式中，基于在所述深度学习后的卷积神经网络，对待识别的页面需求信息进行各个元素的定位与分类之后，具体包括：通过OCR识别技术，将待识别的页面需求信息中的文字嵌入特征进行文本转化，得到可编辑的文字文本特征；基于所述深度学习后的卷积神经网络，对所述文字文本特征进行定位，并将定位后的文字文本特征确定为所述第一关键信息；其中，所述第一关键信息包括定位后的文字文本特征信息以及各个元素的定位与分类信息。

在一种可行的实施方式中，对所述功能需求信息进行有关词语序列的文本解析，得到基于所述功能需求信息的第二关键信息，具体包括：通过预设的自然语言处理技术，对所述功能需求信息中的连续文本进行分词划分，得到词语语序；对所述词语语序进行文本词语类型的识别与分类，得到词语类型信息；其中，所述词语类型信息包括：管理数据信息、查询数据信息以及应用数据信息；基于命名实体识别技术，对所述词语类型信息进行文本实体识别，得到具体实体信息；其中，所述具体实体信息包括：日期信息、人名信息、地点信息以及需求解释信息；对所述词语语序进行依存句法分析，确定出所述功能需求信息的语法结构与依赖关系信息；基于所述词语语序、所述词语类型信息、所述具体实体信息以及所述语法结构与依赖关系信息，对所述功能需求信息进行关键信息的提取，得到所述第二关键信息；其中，所述第二关键信息包括：字段名称信息、功能类型信息、字段长度信息、业务规则信息以及依赖关系信息。

在一种可行的实施方式中，基于所述第一关键信息以及所述第二关键信息，对所述需求文档进行版面识别训练，得到综合需求模型，具体包括：基于所述第一关键信息，对所述需求文档进行有关页面模板的生成训练，得到页面需求模型；基于所述第一关键信息，对所述需求文档进行有关功能模板的生成训练，得到功能需求模型；将所述页面需求模型与所述功能需求模型进行有关需求文档的同一关联处理，确定出所述综合需求模型。

在一种可行的实施方式中，所述页面模板包括：页面类型要素、图标类型要素、文字文本特征要素以及表格样式要素；所述功能需求模型包括：词语语序要素、词语类型要素、具体实体要素、语法结构要素以及依赖关系要素。

第二方面，本申请实施例还提供了一种软件需求文档解析设备，所述设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有能够被所述至少一个处理器执行的指令，以使所述至少一个处理器能够执行上述任一实施方式所述的一种软件需求文档解析方法。

第三方面，本申请实施例还提供了一种非易失性计算机存储介质，其特征在于，所述存储介质为非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有至少一个程序，每个所述程序包括指令，所述指令当被终端执行时，使所述终端执行上述任一实施方式所述的一种软件需求文档解析方法。

本申请提供了一种软件需求文档解析方法、设备及介质，与现有技术相比，本申请实施例具有以下的有益技术效果：

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请实施例提供的一种软件需求文档解析方法流程图；

图2为本申请实施例提供的一种软件需求文档解析方法框图；

图3为本申请实施例提供的一种有关图标识别的页面需求解析效果；

图4为本申请实施例提供的一种软件需求文档解析设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请实施例提供了一种软件需求文档解析方法，如图1所示，软件需求文档解析方法具体包括步骤S101-S105：

需要说明的是在软件开发中，需求文档起着桥梁的作用，为开发团队提供了对项目目标、功能和约束的共同理解。然而，需求文档往往存在复杂的版面结构和大量的信息，手动解析耗时且容易出错。因此，本发明的目标是提供一种需求文档自动化的解析方法，以提高需求文档解析效率和准确性。

S101、对需求文档进行有关文本信息以及图像信息的版面分析，得到版面区域信息。其中，版面区域信息包括：页面需求信息以及功能需求信息。

具体地，首先通过预设的图像处理算法，对需求文档进行全文扫描，得到全文版面图像。然后基于图像特征识别框，对全文版面图像进行特征识别，并将识别出的图像特征进行统一标记，得到图像标记特征。

进一步地，通过预设的OCR识别技术，将全文版面图像中的文本特征进行图像区域的识别与标记，得到第一标记区域。根据需求文档的主体特征，对全文版面图像进行有关文档内容属性的区域划分，并标记出第二标记区域。其中，主体特征包括需求文档的文档布局特征、文档标题特征以及文档重点标记特征。文档内容属性包括需求文档的正文属性、标题属性、表格属性以及图片属性。

进一步地，基于第一标记区域与第二标记区域，对图像标记特征进行有关版面区域划分归类，确定出版面区域信息。

其中，需要先对第一标记区域与图像标记区域进行图像区域特征匹配，并将符合特征匹配的区域确定为功能需求区域。然后对第二标记区域与图像标记区域进行图像区域特征匹配，并将符合特征匹配的区域确定为功能需求区域确定为页面需求区域。最后根据功能需求区域以及页面需求区域，对全文版面图像进行有关版面区域划分，得到版面区域信息。

在一个实施例中，图2为本申请实施例提供的一种软件需求文档解析方法框图，如图2所示，首先利用版面分析技术，对需求文档进行智能划分。版面分析是将文本图像划分为不同版面区域的过程，通过应用深度学习与图像处理算法相结合，识别需求文档中全文版面图像的布局特征、标题特征、标识特征等特征。然后对全文版面图像中的文本特征进行图像区域的识别与标记，以及对全文版面图像进行有关文档内容属性的区域划分标记，基于标记出的第一标记区域与第二标记区域，系统将需求文档划分为正文、标题、表格、图片等十个类别的区域，并通过OCR识别提取出每个区域中的文字，将符合特征匹配的区域确定为功能需求区域确定为页面需求区域，并自动分离与确定出了页面需求信息和功能需求信息。这种自动版面区域的划分，不仅节省了人工划分的时间和劳动成本，还能减少由于误解或错误划分而导致的问题。

S102、通过预设的卷积神经网络，对页面需求信息中的多个元素进行分类以及定位，得到基于页面需求信息的第一关键信息。

具体地，基于预设的图像目标检测技术，对页面需求信息进行有关多个元素属性的特征识别，得到元素特征。其中，元素特征包括：页面模板类型特征、图标类型特征、文字嵌入特征以及表格样式特征。

进一步地，通过卷积神经网络，对已识别后的页面需求信息中的多个元素进行特征定位，得到定位信息。

进一步地，根据定位信息，并通过元素特征，对多个元素进行同类别元素的分类学习训练，得到深度学习后的卷积神经网络。

进一步地，基于深度学习后的卷积神经网络，对待识别的页面需求信息进行各个元素的定位与分类，确定出基于页面需求信息的第一关键信息。

其中，在深度学习后的卷积神经网络，对待识别的页面需求信息进行各个元素的定位与分类之后，还包括了：通过OCR识别技术，将待识别的页面需求信息中的文字嵌入特征进行文本转化，得到可编辑的文字文本特征。基于深度学习后的卷积神经网络，对文字文本特征进行定位，并将定位后的文字文本特征确定为第一关键信息。第一关键信息包括定位后的文字文本特征信息以及各个元素的定位与分类信息。

在一个实施例中，如图2所示，对于页面需求信息部分，采用了计算机视觉技术、目标检测技术和OCR技术。图像分类和目标检测技术能够识别页面设计图中的各个元素特征，如页面类型模板特征、图标特征、文字特征和表格样式特征等。图3为本申请实施例提供的一种有关图标识别的页面需求解析效果，如图3所示，即图中为识别出的各个图标的匹配度。然后再通过应用深度学习模型和卷积神经网络，对已识别后的页面需求信息中的多个元素进行特征定位，之后基于元素特征，对多个元素进行同类别元素的分类学习训练，得到深度学习后的卷积神经网络，来实现对待识别的页面需求信息进行各个元素的定位与分类，确定出了第一关键信息。同时，OCR技术还能够将将待识别的页面需求信息中的文字文本转换为可编辑的文本，进一步提取出了页面需求信息的关键信息。

S103、对功能需求信息进行有关词语序列的文本解析，得到基于功能需求信息的第二关键信息。

具体地，通过预设的自然语言处理技术，对功能需求信息中的连续文本进行分词划分，得到词语语序。

进一步地，对词语语序进行文本词语类型的识别与分类，得到词语类型信息。其中，词语类型信息包括：管理数据信息、查询数据信息以及应用数据信息。

进一步地，基于命名实体识别技术，对词语类型信息进行文本实体识别，得到具体实体信息。其中，具体实体信息包括：日期信息、人名信息、地点信息以及需求解释信息。

同时，对词语语序进行依存句法分析，确定出功能需求信息的语法结构与依赖关系信息。

进一步地，基于词语语序、词语类型信息、具体实体信息以及语法结构与依赖关系信息，对功能需求信息进行关键信息的提取，得到第二关键信息。其中，第二关键信息包括：字段名称信息、功能类型信息、字段长度信息、业务规则信息以及依赖关系信息。

在一个实施例中，如图2所示，对于功能需求信息部分，采用自然语言处理技术进行文本解析。分词技术能够将连续的文本划分为词语序列，为后续的文本处理和分析提供基础。文本分类技术能够识别功能需求文本的类型，例如用户管理、数据查询等。命名实体识别技术能够识别文本中的具体实体，如日期、人名、地点等。依存句法分析技术能够分析句子中的语法结构和依赖关系。通过结合这些自然语言处理技术，能够从功能需求信息的文本中提取字段名称、类型、长度、业务规则、依赖关系等关键信息。然后基于词语语序、词语类型信息、具体实体信息以及语法结构与依赖关系信息，对功能需求信息进行关键信息的提取，从而得到基于功能信息部分的第二关键信息。

S104、基于第一关键信息以及第二关键信息，对需求文档进行版面识别训练，得到综合需求模型。

具体地，基于第一关键信息，对需求文档进行有关页面模板的生成训练，得到页面需求模型。同时，基于第一关键信息，对需求文档进行有关功能模板的生成训练，得到功能需求模型。最后将页面需求模型与功能需求模型进行有关需求文档的同一关联处理，确定出综合需求模型。

其中，页面模板包括：页面类型要素、图标类型要素、文字文本特征要素以及表格样式要素。功能需求模型包括：词语语序要素、词语类型要素、具体实体要素、语法结构要素以及依赖关系要素。

在一个实施例中，通过对页面模板以及功能需求模型中各个要素的识别与定位训练，生成对应的页面需求模型以及功能需求模型。再利用页面需求模型以及功能需求模型的组合关联，即综合需求模型，能够为后续的页面开发和设计提供参考，同时还能够为后续的软件开发等工作提供准确的需求定义和分析。

S105、通过综合需求模型，对待解析的需求文档进行需求定义，生成对应的软件开发参数信息。

具体地，基于综合需求模型，实现了对需求文档的自动解析和信息提取，从而提高解析的效率和准确性。同时利用图像分类、目标检测、OCR、分词、文本分类等技术的结合，还为软件开发团队提供了更好的工具和方法，生成了对应的软件开发参数信息，更有利与对待识别的需求文档进行自动化的解析。

在一个实施例中，本申请实施例还具有了：

1、高效性：采用自动化的方式解析需求文档，节省了大量的人工划分和信息提取时间，大幅提高了解析效率。

2.准确性：借助计算机视觉和自然语言处理技术，系统能够准确地提取页面需求设计图和功能需求文本中的关键信息，避免了人为解析过程中的误解和错误。

3.自动化：本发明方法能够自动划分页面需求和功能需求，并生成相应的需求模型，减少了人工干预的需求建模过程，提高了自动化程度。

另外，本申请实施例还提供了一种软件需求文档解析设备，如图4所示，软件需求文档解析设备400具体包括：

至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有能够被至少一个处理器401执行的指令，以使至少一个处理器401能够执行：

对需求文档进行有关文本信息以及图像信息的版面分析，得到版面区域信息；其中，版面区域信息包括：页面需求信息以及功能需求信息；

通过预设的卷积神经网络，对页面需求信息中的多个元素进行分类以及定位，得到基于页面需求信息的第一关键信息；

对功能需求信息进行有关词语序列的文本解析，得到基于功能需求信息的第二关键信息；

基于第一关键信息以及第二关键信息，对需求文档进行版面识别训练，得到综合需求模型；

通过综合需求模型，对待解析的需求文档进行需求定义，生成对应的软件开发参数信息。

本申请提供了一种软件需求文档解析方法、设备及介质，通过结合了版面分析技术、计算机视觉技术和自然语言处理技术，实现了对需求文档的智能化解析。同时还具有高效性、准确性和自动化的特点，能够大幅提升解析效率和减少人为错误的产生。通过生成的页面需求模型和功能需求模型，再将页面需求模型和功能需求模型组合为综合需求模型，然后对待解析的需求文档进行需求定义，为软件开发团队提供了清晰的需求定义和设计指导，有助于提高软件开发的质量和效率。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：浪潮通用软件有限公司;