掌桥专利:专业的专利平台
掌桥专利
首页

面向多源数据的数据清洗方法

文献发布时间:2024-04-18 19:59:31


面向多源数据的数据清洗方法

技术领域

本发明涉及数据治理技术领域,具体涉及一种面向多源数据的数据清洗方法。

背景技术

在军事应用中,多源侦察数据具有多手段、各异性、周期性、批量性等特点,如海军近远海航行中收集和获取的各类天基、空基、地基、船基和其他侦察数据,它们的文件命名、文件来源、数据内容、数据格式各异,数据采集方式和原理等各不相同,有些数据甚至只有图像文件加不规范文件命名等,给数据的存储和使用分析带来诸多不便,严重影响数据的应用效率。

目前,在军事应用中,数据主要包括天基、空基、地基、船基数据或其他侦察数据。其中:

(1)天基数据主要是各类遥感卫星探测到的近远海各类目标(舰船、飞机、航母、驱护等)的遥感影像数据或数据产品,根据探测手段包括可见光探测数据、SAR探测数据、多光谱探测数据、红外探测数据、电子侦查探测数据等,探测手段不同,获取的数据信息内容不同,作用也不同。同一探测手段还分不同的工作模式,模式不同,作用也不同;根据卫星高度可以分为低轨卫星探测数据、高轨卫星探测数据、地球静止轨道探测数据、太阳同步轨道探测数据等;根据遥感数据的传输到用户单位的时延,可以分为实时数据、准实时数据和事后数据;卫星数据下传地面站后,经过不同处理获得不同级别的数据,可以分为一级产品、二级产品、三级产品等。

(2)空基信息主要包括以侦查监视飞机和无人机等平台节点为主题采集的目标图形及数据等。

(3)地基数据主要包括利用部署在地面的雷达等传感器采集的目标数据。

(4)其他侦察手段获取的侦察数据。

目前在面对军事多源侦察数据的治理时,现有清洗技术对于结构化数据治理有很好的效果;对于非结构化数据,由于数据源格式各异,规律很少,存在处理效率低、处理效果有限等问题,无法满足用户标准化存储和快熟使用提取情报的要求。尤其是在军事应用中,获取的各类侦察信息需要快速处理,以便迅速作出决断,这更对数据处理手段提出了更高的要求。

发明内容

有鉴于此,本发明旨在提出一种面向多源数据的数据清洗方法,解决目前在军事应用中多源数据处理效率低、处理效果有限的问题,提高数据存储和利用效率。

本发明实施例提供一种面向多源数据的数据清洗方法,所述方法包括:

S100,预处理历史数据;

S200,根据预处理后的历史数据,构建历史数据属性结构;

S300,根据所述历史数据属性结构,构建历史数据边端关系及相应的知识图谱关系网;

S400,通过人工智能学习方法对所述历史数据边端关系进行学习,得到学习模型及相应的数据存储规则;

S500,通过所述学习模型清洗数据,筛选出所述学习模型无法清洗的新数据;

S600,逐级提取所述新数据中的文件及数据信息;

S700,通过人工智能学习方法对所述新数据中提取的文件及数据信息进行学习和分类,并按照所述数据存储规则进行分类存储;

S800,当任一分类中的新数据积累预定量后,通过人工智能学习方法对当前分类的新数据进行学习训练,并将学习结果更新至所述学习模型和所述知识图谱关系网;

S900,根据更新后的所述学习模型清洗数据。

进一步地,步骤S100中:

所述预处理历史数据包括脏数据去重、缺失项补充和异常值修正。

进一步地,步骤S200中:

根据预定目标及预定属性,构建预定任务需求的所述历史数据属性结构,所述预定目标及预定属性包括目标国别、目标型号、目标名称、目标位置、目标属性、目标运行状态、数据存储规则、数据坐标。

进一步地,步骤S300中:

根据预定任务需求的所述历史数据属性结构,构建预定任务需求的所述历史数据边端关系及相应的知识图谱关系网。

进一步地,步骤S400中:

积累预定量的所述历史数据边端关系后,再通过人工智能学习方法对所述历史数据边端关系进行学习。

进一步地,步骤S500中:

所述清洗数据包括缺失值清洗、格式内容清洗、逻辑错误清洗和非需求数据清洗。

进一步地,步骤S600中:

所述文件及数据信息包括数据文件名、数据文件属性和数据元信息文件。

进一步地,所述历史数据和所述新数据为天基数据、空基数据、地基数据或船基数据。

本发明实施例的面向多源数据的数据清洗方法,通过构建统一的数据标准,构建不同元素与数据对象间边端的关系,利用人工智能方法学习各类边端关系,指导数据应用,可有效提高数据存储和利用效率,且构建的目标知识图谱关系网可供用户后续使用时快速提炼情报信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的面向多源数据的数据清洗方法的流程示意图;

图2为本发明实施例的面向多源数据的数据清洗方法的原理示意图;

图3为本发明实施例的面向多源数据的数据清洗方法的数据清洗原理示意图。

具体实施方式

此说明书实施方式的描述应与相应的附图相结合,附图应作为完整的说明书的一部分。在附图中,实施例的形状或是厚度可扩大,并以简化或是方便标示。再者,附图中各结构的部分将以分别描述进行说明,值得注意的是,图中未示出或未通过文字进行说明的元件,为所属技术领域中的普通技术人员所知的形式。

此处实施例的描述,有关方向和方位的任何参考,均仅是为了便于描述,而不能理解为对本发明保护范围的任何限制。以下对于优选实施方式的说明会涉及到特征的组合,这些特征可能独立存在或者组合存在,本发明并不特别地限定于优选的实施方式。本发明的范围由权利要求书所界定。

如图1和图2所示,是本发明实施例的面向多源数据的数据清洗方法的流程示意图。本发明实施例的面向多源数据的数据清洗方法包括:

S100,预处理历史数据。

在本实施例中,对接收/获取的多源侦查数据,按来源、时间标签等分类入库,并开展数据预处理工作。对于接入的结构化探测数据,根据数据接口建立数据库表,将数据入库。对于接入的半结构化探测数据和非结构化探测数据,根据数据分析模型,先提取数据描述信息,生成数据元信息文件并入库,其中一项元信息包括数据文件路径,将非结构化数据存储的路径记录下来。对输入数据库中的多远侦查数据开展查重、异常值踢去和缺失项补全等处理。

S200,根据预处理后的历史数据,构建历史数据属性结构。

在本实施例中,对历史数据进行分析,针对用户特定任务需求(主要关注某类目标某些属性,如目标国别、目标型号、目标名称、目标位置、目标属性、目标运行状态、数据存储规则、数据坐标等),构建数据层面面向特定用户的数据属性结构。

针对用户特定任务,对入库的历史数据开展分析,利用数据抽取模型对各数据提取数据属性信息,逐个生成用户特定任务数据属性信息。此处数据属性为数据本身层面的。

如针对舰船目标,其属性信息主要有目标类型、目标的国别、目标类型、目标型号、目标位置(经纬度信息、所处海域)、目标运动状态(运动速度、运动方向)、数据存储规则/形式(TIFF、JPEG、文本)、数据坐标(WGS84、CJW2000)等。

S300,根据所述历史数据属性结构,构建历史数据边端关系及相应的知识图谱关系网。

在本实施例中,根据S200中对历史数据的分析结果并结合用户需求,构建面向用户使用的数据属性结构,构建数据边端关系,并搭建知识图谱关系网。其中,端即终端,表示各类数据;边即边缘,负责数据分析和推理;边端关系的构建,为后续云边端的发展应用做准备。

针对用户特定任务,逐级分层分类分析多源历史侦查数据,构建目标数据(端)与数据分析推理(边)间的属性关系,即边端关系,并利用现有信息构建知识图谱关系,方便后续数据来源分析及应用。

知识图谱关系的建立,也可通过语义的方式进行提取,构建实体和关系;通过人工进行检验验证。

S400,通过人工智能学习方法对所述历史数据边端关系进行学习,得到学习模型及相应的数据存储规则。

在本实施例中,积累预定量的所述历史数据边端关系后,再通过人工智能学习方法对所述历史数据边端关系进行学习。

利用人工智能的卷积神经网络(Convolutional Neural Network,CNN)开展边端关系学习,构建网络模型和损失函数,求取最优权重系数。

S500,通过所述学习模型清洗数据,筛选出所述学习模型无法清洗的新数据。

在本实施例中,清洗数据包括缺失值清洗、格式内容清洗、逻辑错误清洗和非需求数据清洗。

S600,逐级提取所述新数据中的文件及数据信息。

在本实施例中,文件及数据信息包括数据文件名、数据文件属性和数据元信息文件。

S700,通过人工智能学习方法对所述新数据中提取的文件及数据信息进行学习和分类,并按照所述数据存储规则进行分类存储,并完善目标数据边端关系。

S800,当任一分类中的新数据积累预定量后,通过人工智能学习方法对当前分类的新数据进行学习训练,并将学习结果更新至所述学习模型和所述知识图谱关系网。

S900,根据更新后的所述学习模型清洗数据。

本发明实施例的数据清洗方法面向的数据包括天基数据、空基数据、地基数据、船基数据或其他侦察数据。其中:

(1)天基数据主要是各类遥感卫星探测到的近远海各类目标(舰船、飞机、航母、驱护等)的遥感影像数据或数据产品,根据探测手段包括可见光探测数据、SAR探测数据、多光谱探测数据、红外探测数据、电子侦查探测数据等,探测手段不同,获取的数据信息内容不同,作用也不同。同一探测手段还分不同的工作模式,模式不同,作用也不同;根据卫星高度可以分为低轨卫星探测数据、高轨卫星探测数据、地球静止轨道探测数据、太阳同步轨道探测数据等;根据遥感数据的传输到用户单位的时延,可以分为实时数据、准实时数据和事后数据;卫星数据下传地面站后,经过不同处理获得不同级别的数据,可以分为一级产品、二级产品、三级产品等。

(2)空基信息主要包括以侦查监视飞机和无人机等平台节点为主题采集的目标图形及数据等。

(3)地基数据主要包括利用部署在地面的雷达等传感器采集的目标数据。

(4)其他侦察手段获取的侦察数据。

上述数据由于来源各异,文件命名、数据组织形式等都没有统一的标准;探测原理各不相同,数据传输时延不一,数据连续性和批量化也因数而异。同时,数据结构多样包含多种结构化数据,如固定格式情报数据、报文数据,按照固定的标准模板/格式输出;非结构化数据如搜集的各类临散数据、天基原始数据等;和半结构化数据,如天基数据一级及以上产品一般都包含元信息文件、TIFF文件、拇指图、浏览图,检测后的情报信息一般包含目标信息及切片图像等。

因此,针对海军近远海航行及其他军事应用中接收获取的各类多源侦察数据,采用本发明实施例的数据清洗方法可以有效地对上述数据进行清洗,通过构建统一的数据标准,构建不同元素与数据对象间边端的关系,利用人工智能方法学习海量多源数据中典型目标如舰船、飞机等构建边端关系,指导数据应用,搭建知识图谱,可有效提高数据存储和利用效率,且构建的目标知识图谱关系网可供用户后续使用时快速提炼情报信息。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种B柱加强件总成结构
  • 由柱以及梁构成的结构体的加强结构以及加强部件
  • 一种B柱加强板结构、B柱及乘用车
  • 一种B柱加强板结构、B柱及乘用车
技术分类

06120116517606