导航：首页> 测量；测试>一种工程信息安全管理系统

一种工程信息安全管理系统

文献发布时间：2023-06-19 16:09:34

技术领域

本发明涉及工程管理的领域，尤其是涉及一种工程信息安全管理系统。

背景技术

目前，在工程项目管理过程中，工程项目的信息通常是通过平面图来表达的，工程进度等信息需要每天在现场记录，并以施工报告的形式显示。管理方法相对落后，使管理者无法及时了解施工信息和直观了解施工情况。

发明内容

本发明的目的是：解决管理模式相对落后的问题，使管理者不能及时了解施工信息，直观了解施工情况。

为了达到上述目的，本发明的技术方案提供了一种工程信息安全管理系统，包括控制模块，电连接控制模块输入端的登录模块、工程成本管理模块、项目查询模块、工程信息管理模块、以及数据采集模块，电连接控制模块输出端的可视化信息展示模块，还设有与控制模块双向连接的数据处理模块和无线通讯模块。

通过采用以上技术方案，便于管理人员及时了解施工信息，更直观地了解施工情况，便于及时处理问题，达到更好的管理效果。

优选的，数据采集模块用于导入工程信息数据源，采用分布式采集；数据采集模块还对数据进行转换，在数据处理过程中统一按照UTF-8编码规则进行转换。

优选的，数据采集模块对数据进行转换的步骤如下：

自动化转换，接入数据非UTF-8格式时在数据采集解决添加变化转换处理过程；

导入数据转换，用户导入数据默认按UTF-8格式进行转换。

优选的，数据处理模块对数据进行清洗，针对接入数据源配置技术元数据，在规则配置中选择技术元数据进行规则定制，支持所有接入数据源的规则定制。

通过采用以上技术方案，有利于确保数据处理过程中不遗漏。

优选的，数据处理模块还用于数据脱敏。

优选的，数据处理模块的数据脱敏包括以下步骤：

获取数据库的dump文件；

从dump文件中提取待脱敏的数据，并将待脱敏的数据存储至预设的数据队列中；

识别数据队列中的待脱敏的数据的敏感类型；

根据待脱敏的数据的敏感类型，确定对应的脱敏规则；

根据对应的脱敏规则，对待脱敏的数据进行脱敏处理，并对脱敏处理后的数据进行存储。

优选的，数据脱敏步骤还包括：

将待脱敏的数据输入预设的数据结构分类模型，识别待脱敏数据的数据结构；

结合与数据结构对应的预设敏感分类模型，识别待脱敏的数据的敏感类型。

通过采用以上技术方案，可以高效、准确地对数据进行脱敏，有效保护敏感数据，防止核心数据泄露。

优选的，数据处理模块采用以下数据清洗步骤：

从异构数据源中选定待清洗的数据源，其中异构数据源包括文本文件和数据库数据；

编辑数据清洗规则；

执行数据清洗。

综上所述，本发明包括以下有益技术效果：

1.便于管理人员及时了解施工信息，更直观地了解施工情况，便于及时处理问题，达到更好的管理效果；

2.根据预算数据库中存储的预算信息，对项目成本进行修改，方便管理人员了解和处理项目财务，合理采购，使项目预算越来越准确；

3.实现数据脱敏，可以高效、准确地对数据进行脱敏，有效保护敏感数据，防止核心数据泄露，脱敏数据不影响用户业务系统。

附图说明

图1是本发明中数据处理模块的数据脱敏方法的示意图；

图2是本发明中数据脱敏步骤S2的示意图；

图3是本发明中数据脱敏步骤S24的示意图；

图4是本发明中数据脱敏步骤S3的示意图；

图5是本发明中数据脱敏步骤S32的示意图；

图6是本发明中数据脱敏步骤S4的示意图。

具体实施方式

以下结合附图1对本发明作进一步详细说明。

本发明实施例公开一种工程信息安全管理系统，包括控制模块，控制模块的输入端电连接有登录模块、工程成本管理模块、工程信息管理模块、项目查询模块、以及数据采集模块，控制模块的输出端电连接有可视化信息展示模块，控制模块还通过无线分别与数据处理模块和无线通讯模块进行双向连接。

数据采集模块可以导入数据源，支持用户定义的数据表、字段和分隔符，采用分布式采集，提供异常数据的存储和查看；数据采集模块还可以使用UTF-8编码规则转换数据。在数据处理过程中，数据可以按照UTF-8编码规则进行转换。

数据采集模块转换数据的步骤包括：

自动转换：当访问的数据不是UTF-8格式时，在数据采集阶段增加代码转换处理流程；

导入数据转换：用户导入的数据默认转换为UTF-8格式。

数据处理模块可以清理数据，为访问数据源配置技术元数据，在规则配置中选择技术元数据进行规则定制，确保数据处理过程中不遗漏，支持所有访问数据源的规则定制。

数据处理模块还用于数据合并和重复数据消除，包括以下步骤：

重复数据消除：为存储在分布式文件系统(HDFS)中的重复数据消除开发通用MapReduce程序，以支持结构化和非结构化重复数据消除；

数据合并：支持内部和外部关系的组合，以及数据行和列的合并。

数据处理模块，还用于数据去噪；对于结构化数据，它支持二维数据表，即字符串类型的文件或消息数据；对于非结构化数据，支持XML和JSON格式的数据。

数据处理模块，也用于数据脱敏。数据脱敏是为了确保生产数据在非生产环境中更安全，但它不同于纯数据加密。数据加密可以将数据库中有意义的字符加密后转换成无意义的字符，而脱敏是通过某种算法将数据转换成另一种样式，这种样式是可读的，与技术元数据的类型相同。

本发明实施例提供了一种数据脱敏方法，该方法可由数据处理模块执行。该方法包括：

数据脱敏步骤S1，获取数据库的dump文件。

dump文件是数据库中进程的内存映像，它存储访问数据库的程序及其执行状态，即dump文件中的数据信息包括数据访问请求信息和回复信息。数据库中的数据通常以表的形式存储，由记录号表示，列由字段名表示，每个记录都有自己的ID。访问请求信息包括SQL语句指令，它通常指定数据库中表的访问范围；回复信息是数据库根据请求信息回复相应的数据。

数据库的dump文件是指用户使用的数据库中的dump文件。数据库的转储文件由用户提供，也就是说，dump文件可以由用户数据库管理系统本身提供的工具直接生成，也可以通过export命令直接导出dump文件。可以理解的是，脱敏前的dump文件可以通过通信传输或手动复制到数据脱敏装置。数据信息通过dump文件存储，存储传输效率高，便于后续脱敏处理。

数据脱敏步骤S2，从dump文件中提取待脱敏的数据，并将待脱敏的数据存储至预设的数据队列中。

需要脱敏的数据是指数据库访问和回复中涉及的敏感数据，包括表中写入的数据和数据库回复的相应表中的数据。由于dump文件中的数据信息包括数据访问请求信息(包括SQL语句)和回复信息(表中的记录或字段)，因此首先需要从访问请求信息和回复信息中提取涉及的敏感数据，作为要脱敏的数据。将要脱敏的数据存储在预设的数据队列中以进行脱敏处理。

数据脱敏步骤S3：识别数据队列中的待脱敏的数据的敏感类型。

敏感类型包括身份证号码、手机号、地址、姓名、邮件等，可根据用户需求自行定义，可以理解，基于数据的敏感数据通常是结构化数据，例如身份证号码和手机号码。在脱敏处理中，根据敏感类型设置脱敏规则。在确定脱敏规则之前，应确定需要脱敏的敏感数据类型，以满足用户的需求。其中，识别待脱敏数据的敏感类型可以通过训练的分类算法或其组合变形来实现。分类算法可以是现有的文本分类算法，如TextCNN算法或softmax分类算法。

数据脱敏步骤S4：根据待脱敏的数据的敏感类型，确定对应的脱敏规则。

在确定要脱敏的数据的敏感类型后，可以根据经验或需要设置相应的脱敏规则。脱敏规则包括替换、失效(用特殊符号替换真值或部分真值)、屏蔽、无序、平均值等，以隐藏真实数据并脱敏真实数据。可以理解的是，用户可以根据实际需要确定相应的脱敏规则。

数据脱敏步骤S5：根据对应的脱敏规则，对待脱敏的数据进行脱敏处理，并对脱敏处理后的数据进行存储。

在确定脱敏规则后，根据脱敏规则对脱敏数据进行脱敏，并存储脱敏数据以便于后续应用。在一些实施例中，该方法存储脱敏数据，具体而言，脱敏数据可以封装到转储文件中。数据信息通过转储文件存储，具有较高的存储和传输效率。

数据脱敏步骤S2进一步包括：

数据脱敏步骤S21：读取dump文件中的数据信息，并对数据信息进行修饰符去除处理。

修饰符包括数据对象编号、数据文件编号、数据文件中的块编号和块中的行号。从数据信息中删除修饰符，即删除修饰符，以方便SQL语句的解析，提高SQL解析的速度。

数据脱敏步骤S22：对修饰符去除处理后的数据信息进行SQL解析，获取数据信息中的操作指令。

SQL解析是指对数据信息中的SQL语句进行拆分和标识，从而解析操作指令。操作指令可以是数据信息中的SQL语法。数据信息中SQL语句的语法可以通过一些现有的SQL语法分析软件或SQL语法分析方法进行分析，获得操作指令。通常，操作说明包括创建表、修改表、删除表、修改字段、查询数据等访问操作

访问操作可分为两种类型：一种是引用、管理、读取和修改数据库中现有的数据对象，另一种是向数据库中添加新数据，如创建表、添加记录等。

数据脱敏步骤S23：根据操作指令，提取与操作指令对应的数据对象，并将数据对象作为待脱敏的数据。

数据对象指操作指令操作的数据，如执行select语句指令查询表A字段1的语句，则表A和字段1是select语句指令对应的数据对象。操作指令对应于操作指令操作的数据，因此可以通过操作指令获得操作指令对应的数据对象。

数据脱敏步骤S24：将待脱敏的数据存储至预设的数据队列中。

数据队列是一个特殊的线性表，删除线性表的头部，插入线性表的尾部。获取要脱敏的数据后，将其插入数据队列尾部进行脱敏，并从队列头部删除脱敏数据。这样，需要脱敏的数据可以同时提取和脱敏，即多线程处理，可以高效地实现敏感信息的脱敏。

在一些实施例中，预设的数据队列为多个，数据脱敏步骤S24进一步包括：

数据脱敏步骤S241：根据所述操作指令的类别，将所述待脱敏的数据分类。

操作说明可根据功能进行分类。例如，它们可以分为四类：添加、删除、修改和查询。因此，需要脱敏的数据也可以分为四类：添加、删除、修改和查询。因为每一种需要脱敏的数据都有其自身的特点，例如，可以直接删除drop操作指令对应的数据对象，而无需脱敏或相应的脱敏判断。

对于select操作指令对应的数据对象，进一步判断select操作指令查询的数据是否需要脱敏。因此，应根据操作说明的类别对需要脱敏的数据进行分类，以便于后续的脱敏处理，提高脱敏速度。

数据脱敏步骤S242：每一类待脱敏的数据分别存储至对应的数据队列中。

每种需要脱敏的数据分别存储在相应的数据队列中，可以对多个数据队列进行脱敏、并行扫描处理和多线程处理，高效实现敏感信息的脱敏。

在一些实施例中，数据脱敏步骤S3进一步包括：

数据脱敏步骤S31：将待脱敏的数据输入预设的数据结构分类模型，识别待脱敏数据的数据结构。

因为基于敏感类型的数据通常是结构化数据，并且具有一定的结构规则，例如，手机号码是11位数字，以1开头。如果要脱敏的数据是11位数字，以1开头，则可能是手机号码。

数据结构分类模型可以识别待脱敏数据的数据结构，从而粗略判断待脱敏数据，节省识别敏感类型的时间，提高识别效率。可以理解，可以通过判断文本长度(len)、数据类型(整数或字符串等)、第一个字符等的组合来编写数据结构分类模型。

数据脱敏步骤S32：结合与所述数据结构对应的预设敏感分类模型，识别所述待脱敏的数据的敏感类型。

在对待处理敏感数据进行粗略判断后，可以确定待处理敏感数据的数据结构，每个数据结构都有相应的敏感分类模型。将敏感类型的多分类问题转化为多个二值分类问题，减少了循环判断次数，提高了识别效率。

在一些实施例中，所述步骤S32进一步包括：

数据脱敏步骤S321：根据所述待脱敏数据的数据结构，按照预设的数据结构与敏感分类模型的对应关系，确定与所述数据结构对应的预设敏感分类模型。

由于待脱敏数据的数据结构与敏感分类模型一一对应，根据待脱敏数据的数据结构以及预置数据结构与敏感分类模型的对应关系，可以确定与数据结构对应的预置敏感分类模型。可以理解的是，数据结构和预设的敏感分类模型可以根据用户的需求和脱敏数据的用户进行设置。

数据脱敏步骤S322：将待脱敏的数据输入预设敏感分类模型，识别所述待脱敏的数据的敏感类型。

在确定敏感分类模型后，将要脱敏的数据输入到预设的敏感分类模型中，以便识别要脱敏的数据的敏感类型。可以理解，预设的敏感分类模型可以编写一种文本操作语言，例如正则表达式，它可以过滤或识别符合特定结构(规则)的文本。

通过上述方法，将敏感类型的多分类问题转化为多个二元分类问题，进一步简化了识别模型。一方面，循环判断次数减少；另一方面，简化的识别模型可以提高识别效率，并且比多分类模型具有更高的准确率。

在一些实施例中，所述步骤S4进一步包括：

数据脱敏步骤S41：预设与各敏感类型分别对应的脱敏规则，敏感类型对应于脱敏规则，脱敏规则可根据需要设置。

数据脱敏步骤S42：根据待脱敏的数据的敏感类型，确定对应的脱敏规则。

在确定要脱敏的数据的敏感类型后，可以根据敏感类型和脱敏规则之间的映射关系来确定相应的脱敏规则。根据相应的脱敏规则，对需要脱敏的数据进行相应的替换、屏蔽等脱敏处理，从而隐藏真实数据，保护数据安全。

通过上述方法，首先从dump文件中高效地获取需要脱敏的数据，然后确定敏感类型和相应的脱敏规则，实现数据脱敏，可以高效、准确地对数据进行脱敏，有效保护敏感数据，防止核心数据泄露，脱敏数据不影响用户业务系统。

另一实施例提供一种数据清洗方法，包括：

通过图形化界面从异构数据源中选定待清洗的数据源；其中，异构数据源包括文本文件和数据库数据。

在这一步中，异构数据源是HDFS文件系统，要清理的数据源必须在清理之前载入HDFS文件系统。文本文件是用户的普通数据文件，可以通过图形界面直接上传到HDFS文件系统。数据库数据是用户的关系数据库。关系数据库中的数据需要由sqoop组件提取，然后保存到HDFS文件系统。Sqoop组件是一个大数据开源工具，用于HDFS文件系统和关系数据库之间的数据提取和数据转换。

通过图形化界面编辑数据清洗规则。

在这一步中，数据清洗服务平台上预置了一些常用的清洗模板。用户只需通过图形界面在下拉列表中选择相应的清洗模板，然后配置个性化清洗规则，简化了清洗规则的配置工作。

通过图形化界面执行数据清洗。

配置清洗规则后，在这一步中，只要通过图形界面点击执行，数据清洗服务平台就会自动将用户配置的清洗规则翻译成spark脚本，然后发送给spark引擎进行操作。Sparkengine负责在Hadoop集群上运行数据清理，完成数据清理。

该数据清洗方法能够实现对不同数据源的融合清洗，同时，用户通过在图形化界面上简单操作即可实现对数据的清洗，无需掌握数据清洗工具的开发和使用方法，降低了大数据应用服务的技术门槛，提升了用户对大数据服务的体验。

以上均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王鑫伟;辛文旗;牛锋;刘雷;张震东;杨鑫;
专利申请人：中建五局安装工程有限公司;