掌桥专利:专业的专利平台
掌桥专利
首页

一种非结构化数据标记方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:02:28


一种非结构化数据标记方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种非结构化数据标记方法、装置、设备及存储介质。

背景技术

在电力安全规程中存在多种多样的数据,按照结构形式划分有结构化数据和非结构化数据。他们有着不同的价值,其中结构化数据容易直接通过统计分析或者作为后续基础数据进行使用,而非结构化数据往往需要进行复杂的预处理,而且需要针对特定应用场景进行不同处理。

目前,存在较为成熟且普适化的处理手段对电力安全规程中的结构化数据进行多种自适应的数据处理,但是对于非结构化数据而言,缺乏系统化,标准化的处理手段,提升非结构化数据描述的准确性,导致后续基于非结构化数据的价值挖掘可靠性较低。

发明内容

本申请提供了一种非结构化数据标记方法、装置、设备及存储介质,用于缓解现有技术缺乏针对非结构化数据的统一且标准化处理手段,导致基于非结构化数据的价值挖掘操作可靠性较低的技术问题。

有鉴于此,本申请第一方面提供了一种非结构化数据标记方法,包括:

通过预置切分技术对目标非结构化数据文件进行切分处理,得到不同的非结构化数据片段和对应的切分位置;

根据预置分类卷积神经网络和所述非结构化数据片段进行分类操作,得到不同的非结构化数据序列;

利用预置循环神经网络对所述非结构化数据序列进行标记,得到目标标记序列,所述目标标记序列包括目标标签、目标属性和所述切分位置。

优选地,所述预置切分技术包括预置分词器、预置图像分割法、预置音频分割法和预置视频分割法;相应的,所述通过预置切分技术对目标非结构化数据文件进行切分处理,得到不同的非结构化数据片段和对应的切分位置,包括:

采用预置分词器对目标非结构化数据文件中的文本内容进行切分,得到文本数据片段和对应的文本片段起始点;

采用预置图像分割法对目标非结构化数据文件中的图像文件进行切分,得到图像数据片段和对应图像矩形框的关键坐标点;

采用预置音频分割法对目标非结构化数据文件中的音频内容进行切分,得到音频数据片段和对应的音频片段起始点;

采用预置视频分割法对目标非结构化数据文件中的视频内容进行切分,得到视频数据片段和对应的视频片段起始点;

所述切分位置包括所述文本片段起始点、所述图像矩形框的关键坐标点、所述音频片段起始点和所述视频片段起始点。

优选地,所述通过预置切分技术对目标非结构化数据文件进行切分处理,得到不同的非结构化数据片段和对应的切分位置,之前还包括:

对所述目标非结构化数据文件进行预处理操作,所述预处理操作包括去噪处理和去冗余数据处理。

优选地,所述预置分类卷积神经网络的配置过程为:

将切分处理后的历史非结构化数据文件输入预置初始卷积神经网络中进行预训练;

采用预置测试集进行测试操作,并将测试准确率符合预置条件的所述预置初始卷积神经网络作为预置分类卷积神经网络。

本申请第二方面提供了一种非结构化数据标记装置,包括:

切分模块,用于通过预置切分技术对目标非结构化数据文件进行切分处理,得到不同的非结构化数据片段和对应的切分位置;

分类模块,用于根据预置分类卷积神经网络和所述非结构化数据片段进行分类操作,得到不同的非结构化数据序列;

标记模块,用于利用预置循环神经网络对所述非结构化数据序列进行标记,得到目标标记序列,所述目标标记序列包括目标标签、目标属性和所述切分位置。

优选地,所述预置切分技术包括预置分词器、预置图像分割法、预置音频分割法和预置视频分割法;相应的,所述切分模块,包括:

文本切分子模块,用于第一采用预置分词器对目标非结构化数据文件中的文本内容进行切分,得到文本数据片段和对应的文本片段起始点;

图像切分子模块,用于采用预置图像分割法对目标非结构化数据文件中的图像文件进行切分,得到图像数据片段和对应图像矩形框的关键坐标点;

音频切分子模块,用于采用预置音频分割法对目标非结构化数据文件中的音频内容进行切分,得到音频数据片段和对应的音频片段起始点;

视频切分子模块,用于采用预置视频分割法对目标非结构化数据文件中的视频内容进行切分,得到视频数据片段和对应的视频片段起始点;

所述切分位置包括所述文本片段起始点、所述图像矩形框的关键坐标点、所述音频片段起始点和所述视频片段起始点。

优选地,还包括:

预处理模块,用于对所述目标非结构化数据文件进行预处理操作,所述预处理操作包括去噪处理和去冗余数据处理。

优选地,所述预置分类卷积神经网络的配置过程为:

将切分处理后的历史非结构化数据文件输入预置初始卷积神经网络中进行预训练;

采用预置测试集进行测试操作,并将测试准确率符合预置条件的所述预置初始卷积神经网络作为预置分类卷积神经网络。

本申请第三方面提供了一种非结构化数据标记设备,所述设备包括处理器以及存储器;

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行第一方面所述的非结构化数据标记方法。

本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的非结构化数据标记方法。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请中,提供了一种非结构化数据标记方法,包括:通过预置切分技术对目标非结构化数据文件进行切分处理,得到不同的非结构化数据片段和对应的切分位置;根据预置分类卷积神经网络和非结构化数据片段进行分类操作,得到不同的非结构化数据序列;利用预置循环神经网络对非结构化数据序列进行标记,得到目标标记序列,目标标记序列包括目标标签、目标属性和切分位置。

本申请提供的非结构化数据标记方法中,通过预置切分技术对目标非结构化数据文件进行切分,可以获取多种不同结构形式的数据片段,通过神经网络分类又可以整体梳理所有的数据类型,从而便于后续的标记操作,标记后序列带有标签、属性和位置信息。统一进行标记处理后,能够在非结构化数据的使用过程中提供清晰明确的信息指示,有利于提升后续的数据分析的准确度。因此,本申请能够缓解现有技术缺乏针对非结构化数据的统一且标准化处理手段,导致基于非结构化数据的价值挖掘操作可靠性较低的技术问题。

附图说明

图1为本申请实施例提供的一种非结构化数据标记方法的流程示意图;

图2为本申请实施例提供的一种非结构化数据标记装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为了便于理解,请参阅图1,本申请提供的一种非结构化数据标记方法的实施例,包括:

步骤101、通过预置切分技术对目标非结构化数据文件进行切分处理,得到不同的非结构化数据片段和对应的切分位置。

数据以结构形式划分包括结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

非结构化数据文件是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

本实施例中采用预置切分技术对目标非结构化数据文件进行切分处理就是为了将文件中的不同结构形式的数据区分开来,得到不同的非结构化数据片段;切分的目的就是为了方便将不同结构的数据分开来进行数据处理。切分过程中需要对每个数据片段在原始目标非结构化数据文件中的具体位置进行记录,便于后续数据分析处理。

进一步地,预置切分技术包括预置分词器、预置图像分割法、预置音频分割法和预置视频分割法;相应的,步骤101,包括:

采用预置分词器对目标非结构化数据文件中的文本内容进行切分,得到文本数据片段和对应的文本片段起始点;

采用预置图像分割法对目标非结构化数据文件中的图像文件进行切分,得到图像数据片段和对应图像矩形框的关键坐标点;

采用预置音频分割法对目标非结构化数据文件中的音频内容进行切分,得到音频数据片段和对应的音频片段起始点;

采用预置视频分割法对目标非结构化数据文件中的视频内容进行切分,得到视频数据片段和对应的视频片段起始点;

切分位置包括文本片段起始点、图像矩形框的关键坐标点、音频片段起始点和视频片段起始点。

电力安全规程数据通常包含大量非结构化数据,具体可以归类为文本类型非结构化数据、图像类型非结构化数据、音频类型非结构化数据、视频类型非结构化数据以及其他类型非结构化数据。其他类型非结构化数据可以通过包括但不限定于特定的文件读取格式或者特定的转化方法,转化成上述的各种类型的数据,接着再对这几类基本的非结构化数据进行处理。

可以理解的是,上述切分位置都是指切分后的数据片段在目标非结构化数据文件中的位置点。图像则对应与矩阵关键坐标点,例如矩形的左上角和右下角两个点。预置切分技术可以根据实际情况选择,不作具体限定,例如预置音频分割法可以是基于距离的音频分割法、基于模型选择的音频分割法或者多种技术的混合音频分割法。视频的分割主要是时间序列的分割,可以选择光流法。

进一步地,步骤101,之前还包括:

对目标非结构化数据文件进行预处理操作,预处理操作包括去噪处理和去冗余数据处理。

预处理操作是为了提升数据的质量,使得后续的数据处理更加准确可靠。除了去噪和去冗余数据之外,还可以根据需要进行其他预处理操作,在此不作赘述。

步骤102、根据预置分类卷积神经网络和非结构化数据片段进行分类操作,得到不同的非结构化数据序列。

非结构化数据片段首先需要转换为数据序列,具体方法不作限定;然后才能输入预置分类卷积神经网络中进行分类,完成分类后可以得到不同类别的非结构化数据序列。分类类别主要是指文本、图像、音频、视频等。

进一步地,预置分类卷积神经网络的配置过程为:

将切分处理后的历史非结构化数据文件输入预置初始卷积神经网络中进行预训练;

采用预置测试集进行测试操作,并将测试准确率符合预置条件的预置初始卷积神经网络作为预置分类卷积神经网络。

采用卷积神经网络进行分类可以较好的适应多种不同结构形式的数据分析需求,因为卷积神经网络具有较强的自适应性。卷积神经网络在正式进行分类前需要对齐进行针对性的分类预训练操作,采用大批量的历史非结构化数据文件进行相同的切分处理,然后进行分类操作;通过测试集进行网络测试就能够掌握网络的优良程度,达到一定的预置条件,例如达到预置测试准确率,则表明网络训练完成,可以直接用于分类。

步骤103、利用预置循环神经网络对非结构化数据序列进行标记,得到目标标记序列,目标标记序列包括目标标签、目标属性和切分位置。

循环神经网络也称作递归神经网络,具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有一定优势。引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

本实施例中采用预置循环神经网络对非结构化数据序列进行标记,定义非结构化数据序列为x=(x

本申请实施例提供的非结构化数据标记方法中,通过预置切分技术对目标非结构化数据文件进行切分,可以获取多种不同结构形式的数据片段,通过神经网络分类又可以整体梳理所有的数据类型,从而便于后续的标记操作,标记后序列带有标签、属性和位置信息。统一进行标记处理后,能够在非结构化数据的使用过程中提供清晰明确的信息指示,有利于提升后续的数据分析的准确度。因此,本申请实施例能够缓解现有技术缺乏针对非结构化数据的统一且标准化处理手段,导致基于非结构化数据的价值挖掘操作可靠性较低的技术问题。

以上为本申请提供的一种非结构化数据标记方法的一个实施例,以下为本申请提供的一种非结构化数据标记装置的一个实施例。

为了便于理解,请参阅图2,本申请提供了一种非结构化数据标记装置的实施例,包括:

切分模块201,用于通过预置切分技术对目标非结构化数据文件进行切分处理,得到不同的非结构化数据片段和对应的切分位置;

分类模块202,用于根据预置分类卷积神经网络和非结构化数据片段进行分类操作,得到不同的非结构化数据序列;

标记模块203,用于利用预置循环神经网络对非结构化数据序列进行标记,得到目标标记序列,目标标记序列包括目标标签、目标属性和切分位置。

进一步地,预置切分技术包括预置分词器、预置图像分割法、预置音频分割法和预置视频分割法;相应的,切分模块201,包括:

文本切分子模块2011,用于第一采用预置分词器对目标非结构化数据文件中的文本内容进行切分,得到文本数据片段和对应的文本片段起始点;

图像切分子模块2012,用于采用预置图像分割法对目标非结构化数据文件中的图像文件进行切分,得到图像数据片段和对应图像矩形框的关键坐标点;

音频切分子模块2013,用于采用预置音频分割法对目标非结构化数据文件中的音频内容进行切分,得到音频数据片段和对应的音频片段起始点;

视频切分子模块2014,用于采用预置视频分割法对目标非结构化数据文件中的视频内容进行切分,得到视频数据片段和对应的视频片段起始点;

切分位置包括文本片段起始点、图像矩形框的关键坐标点、音频片段起始点和视频片段起始点。

进一步地,还包括:

预处理模块204,用于对目标非结构化数据文件进行预处理操作,预处理操作包括去噪处理和去冗余数据处理。

进一步地,预置分类卷积神经网络的配置过程为:

将切分处理后的历史非结构化数据文件输入预置初始卷积神经网络中进行预训练;

采用预置测试集进行测试操作,并将测试准确率符合预置条件的预置初始卷积神经网络作为预置分类卷积神经网络。

本申请实施例提供的非结构化数据标记方法中,通过预置切分技术对目标非结构化数据文件进行切分,可以获取多种不同结构形式的数据片段,通过神经网络分类又可以整体梳理所有的数据类型,从而便于后续的标记操作,标记后序列带有标签、属性和位置信息。统一进行标记处理后,能够在非结构化数据的使用过程中提供清晰明确的信息指示,有利于提升后续的数据分析的准确度。因此,本申请实施例能够缓解现有技术缺乏针对非结构化数据的统一且标准化处理手段,导致基于非结构化数据的价值挖掘操作可靠性较低的技术问题。

上为本申请提供的一种非结构化数据标记装置的一个实施例,以下为本申请提供的一种非结构化数据标记设备的一个实施例

本申请还提供了一种非结构化数据标记设备,设备包括处理器以及存储器;

存储器用于存储程序代码,并将程序代码传输给处理器;

处理器用于根据程序代码中的指令执行上述方法实施例中的非结构化数据标记方法。

本申请还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行上述方法实施例中的非结构化数据标记方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种非结构化数据标记方法、装置、设备及存储介质
  • 非结构化数据存储方法、装置、计算机设备和存储介质
技术分类

06120113148477