导航：首页> 计算；推算；计数>基于动态访问控制策略的大数据安全运维管控方法及系统

基于动态访问控制策略的大数据安全运维管控方法及系统

文献发布时间：2023-06-19 13:26:15

技术领域

本发明涉及网络技术与安全领域，更具体地，涉及一种基于动态访问控制策略的大数据安全运维管控方法及系统。

背景技术

目前的大数据平台的运维操作控制主要是通过“接口机-代理服务-平台组件”方式进行的，因大数据接口机是公用的平台，通常同一类角色人员都拥有同样的权限账号，这就会造成多人共享账号无法追责的问题。此外，当数据从大数据平台下载/导出时，会落到接口机上，数据将无法被知晓其后续的流转，很有可能被直接下载到用户终端上，极大地造成了数据泄漏风险。当前的技术在进行大数据组件运维时，无法跟踪定位具体的操作人，在实时运维操作时无法进行管控，数据落到接口机后无法进行后续跟踪及管控。

随着业务系统对大数据平台的依赖，大数据平台运维及内部用户的安全和数据安全的管控力度已经无法满足要求，因此希望提供一种新的大数据安全运维管控方法及系统来克服现有技术中的以下问题：

1)无法精准定位操作人员的操作：仅通过接口机的账号授权管理，存在多个责任人使用同一大数据平台账号访问大数据集群的情况，导致追责时无法追踪到单个责任人；

2)无法实时进行操作管控：接口机连接大数据平台组件是通过代理的方式进行的，操作命令无法在代理服务调用之前进行实时管控；以及

3)存在数据泄露风险：数据到接口机后，这些数据将无法被知晓其后续的流转，很有可能被直接下载到用户终端上，极大地造成了数据泄漏风险。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

针对以上问题，本发明旨在通过多模块的虚拟终端以及访问控制策略的动态调整，实现对大数据运维人员账号的身份识别以及数据流转到接口机后的精确追踪以及相应数据的实时闭环管控。

根据本发明的一个方面，提供了一种用于大数据平台的安全运维管控的方法，所述方法包括：

接收来自用户的针对大数据平台的访问请求；

响应于接收到的访问请求，匹配已有的固定访问控制策略，并给出固定策略处置结果；

响应于所述固定策略处置结果为放行，对所述访问请求进行动态访问控制策略处置，并给出动态策略处置结果；以及

根据所述动态策略处置结果，放行或阻止所述访问请求。

根据本发明的进一步实施例，对所述访问请求进行动态访问控制策略处置进一步包括：

将所述访问请求的行为与和所述用户相关联的行为基线相比较；以及

如果与所述行为基线的偏离超过预定阈值，则给出阻止所述访问请求的动态策略处置结果。

根据本发明的进一步实施例，所述行为基线是通过记录并学习用户在一定时间范围内的历史行为记录而得到的。

根据本发明的进一步实施例，所述方法还包括：

接收来自用户的数据文件下载请求；

从所述大数据平台下载所请求的数据文件；

对下载的数据文件添加追踪信息；以及

将添加了追踪信息的数据文件返回给用户。

根据本发明的进一步实施例，对下载的数据文件添加追踪信息进一步包括：

将当前登录者的身份及当前行为信息构造成水印字符串；

对所述水印字符串进行加密，生成水印码；以及

将所述水印码添加到下载的数据文件中的特定位置。

根据本发明的进一步实施例，所述方法还包括：

接收来自用户的待追踪责任人的文件；

对文件格式进行解析，并提取其中包含的追踪信息；以及

返回提取到的追踪信息中包含的数据文件责任人信息。

根据本发明的另一方面，提供了一种用于大数据平台的安全运维管控的系统，所述系统包括：

大数据平台代理模块，所述大数据平台代理模块被配置成实现大数据平台客户端的代理；以及

安全数据中心，所述安全数据中心被配置成：响应于检测到下载的数据文件是需要保护的文件，将所述数据文件保存到安全数据中心。

根据本发明的进一步实施例所述大数据平台代理模块被配置成实现WebTerminal来提供所述大数据平台客户端的Shell虚拟终端，供用户通过web浏览器访问和使用所述大数据平台客户端。

根据本发明的进一步实施例所述大数据平台基于Docker架构，并且所述大数据平台客户端是DockerClient。

根据本发明的进一步实施例所述大数据平台代理模块被配置成执行本发明所提供的方法。

与现有技术中的方案相比，本发明所提供的基于动态访问控制策略的大数据安全运维管控方法及系统至少具有以下优点：

1、大数据运维操作管控更加精确：改进后的方法，通过强制用户只使用自己的账号访问大数据平台组件，解决了多人共享账号无法追责的问题；通过操作命令的解析、敏感操作的匹配以及金库模式的接入，实现了操作命令的实时管控；

2、大数据运维操作管控更加全面：通过安全数据中心的建设，使大数据管控平台拥有了专属数据文件存放及流转的中心，满足了数据文件后续流转的管控要求；以及

3、大数据运维操作管控平台的资源利用更加高效：改进后的方法，利用了容器没有管理程序的额外开销的特点，与底层共享操作系统，性能更加优良，系统负载更低，在同等条件下可以运行更多的应用实例，可以更充分地利用系统资源。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例的大数据平台运维管控系统的示例架构图。

图2是根据本发明的一个实施例的基于动态访问控制策略的安全运维管控方法的示例流程图。

图3是根据本发明的一个实施例的用于数据下载跟踪的方法的示例流程图。

图4是根据本发明的一个实施例的用于追踪数据文件责任人的方法的示例流程图。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

如之前所提到的，目前的大数据平台的运维操作控制主要是通过“接口机-代理服务-平台组件”方式进行的。为了便于解说，以下将以基于Docker架构的大数据平台为例来描述本发明的改进的大数据安全运维管控方法及系统。

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的平台上，例如Windows、Linux或Mac。Docker使用客户端-服务器(C/S)架构模式，使用远程API来管理和创建Docker容器。一个完整的Docker有以下几个部分组成：DockerClient客户端(对应于“接口机”)、Docker Daemon服务端(对应于“代理服务”)、Docker Image镜像、以及DockerContainer容器(对应于“平台组件”)。Docker容器通过Docker镜像来创建。容器完全使用沙箱机制，相互之间不会有任何接口。

基于这一架构，操作人员在安装了Docker客户端的接口机上登录用户账号来配置或操作容器，这进而导致了如背景技术部分中提到的诸多问题，例如无法精准定位操作人员的操作、无法实时进行操作管控、以及存在数据泄露风险等。

为此，本发明提供了一种新的大数据安全运维管控方法及系统。图1示出了根据本发明的一个实施例的大数据平台运维管控系统的示例架构图。如图1中所示，系统100包括大数据平台代理模块101(以下简称“代理模块”)，并且可选地，包括安全数据中心102。

代理模块101被配置成实现平台客户端(例如DockerClient)的代理。在一个实施例中，代理模块101被配置成实现Web Terminal(Web服务端)来提供Docker客户端的Shell虚拟终端，供操作人员可通过web浏览器来访问和使用Docker客户端，使得操作人员不必改变操作习惯。与此同时，代理模块101可实现访问控制策略动态调整、对操作人员执行的操作命令进行记录和控制、以及对通过操作台访问的敏感信息采取同样的保护措施。

作为一个示例，代理模块101可通过以下方法来进行大数据平台运维的安全控制：

1、实现容器的Web Terminal

代理模块101可通过Web Terminal页面模拟运维操作界面。这可包括：

WebSocket连接请求的发送；

监听键盘输入、窗口变化事件以及WebSocket返回的stream；

将远端的stdout，stderr输出到本地终端的标准输出和标准错误。

2、调用Docker Daemon API返回Shell虚拟终端

代理模块101可通过远程调用Docker Daemon API实现与容器的数据交换。这可包括：

开启Docker Daemon远程连接设置；

创建容器的Exec方法进入Docker；

调用execStart接口，接收返回HTTP的stream。

3、访问控制策略动态调整

代理模块101可对历史访问行为按目标数据、操作账号、角色、终端(客户端)、动作、时间范围、浏览器类型等多个维度进行学习，形成目标数据、账号、角色、终端的行为基线。在新的访问发起时，以当前行为匹配的固定访问控制策略为初始值，根据基线比对结果和当前行为的上下文对策略进行动态调整，最终决定本次行为的处置结果。

4、命令转发控制

代理模块101可提供大数据组件hdfs、hive、hbase操作转发控制。

命令转发可包括以下步骤：

1)对组件的请求进行拦截，解析请求中包含的账号、IP、操作、目标数据、时间等信息；

2)根据认证和访问控制策略对本次请求进行认证和鉴权，同时记录日志；

3)认证和鉴权通过的请求转发到目标组件，未通过的请求，会直接生成拒绝的响应报文并返回给客户端；

4)接收目标组件的响应数据，并对数据进行处理(脱敏、加密等)；

5)重新组装响应报文并返回给客户端；

5、数据下载跟踪

代理模块101可通过Web Terminal提供数据下载功能，并对下载的数据进行跟踪，明确数据的下载责任人。

安全数据中心102可被配置成提供针对数据文件的安全防护平台，提供文件的安全存放和管理。更具体地，安全数据中心102可用于至少针对需频繁获取数据文件或需涉及敏感数据访问的用户，为其提供一个专属个人私有的文件流转以及安全防护平台。

图2是根据本发明的一个实施例的基于动态访问控制策略的安全运维管控方法200的示例流程图。在本发明的实施例中，方法200可以由图1中所描述的大数据安全运维管控系统100中的代理模块101来执行。如图2中所示，方法200开始于步骤202，接收针对大数据平台的访问请求。如之前提到的，访问请求可以是用户(或操作人员)通过浏览器访问模拟运维操作界面来发起的。

在步骤204，响应于接收到的访问请求，匹配已有的固定访问控制策略，并给出固定策略处置结果。固定访问控制策略可包括例如用户的操作账号、操作终端、数据访问范围、动作执行权限等等。此处的所谓“固定”指的是该访问控制策略是静态的，与后文要描述的“动态”策略相对，即该访问控制策略自被制定以后就遵照该策略中规定的各项访问控制标准执行，不随用户的历史行为或其他因素而改变。作为一个示例，匹配已有的固定访问控制策略可进一步包括在系统中查询是否有与该访问请求相匹配的固定访问控制策略，例如可基于该访问请求说请求执行的具体行为来在系统中查询是否有匹配的策略。如果未找到匹配的策略，则方法前进至步骤210，阻止本次访问行为。如果找到匹配的策略，则进一步确定该访问请求是否符合该匹配策略的放行条件，如果不符合放行条件，则方法前进至步骤210，阻止本次访问行为。如果符合放行条件，则方法前进至步骤206。

在步骤206，对所述访问请求进行动态访问控制策略处置，并给出动态策略处置结果。如之前提到的，系统可持续记录用户的历史行为，例如可按目标数据、操作账号、角色、终端(客户端)、动作、时间范围、浏览器类型等多个维度使用聚类算法来记录，并进行学习，得出目标数据、账号、角色、终端的行为基线。基于行为基线，可进一步形成业务风险模型。例如，如果当前行为与行为基线偏离达到一定阈值，判定为存在风险。作为一个示例，可选择3个月的历史数据作为学习数据。

作为一个示例，对于当前访问请求，响应于固定策略处置结果为放行，将初始值设定为1。随后，将当前访问请求涉及的行为的目标数据、操作账号、角色、终端、动作、时间范围、浏览器类型等信息与各维度基线进行比对，每有一个维度在基线范围外(偏离)，则将初始值减掉偏离值*权重。

附加地，还可将当前行为与本次会话中的前序行为进行关联，若本次会话中的行为过程符合已知业务风险模型，则将初始值减掉风险值*权重。如果匹配多个风险，则进行多次计算。

将最终值与预先设定的可放行阈值进行比对，如果高与或等于可放行阈值，则给出放行本次行为的处置结果，否则给出阻断本次行为的处置结果。

其中D

当步骤206处的动态访问控制策略处置给出的动态策略处置结果是阻断，则方法前进至步骤210，阻止本次访问行为。如果动态策略处置结果是放行，则方法前进至步骤208，放行本次访问行为。

附加地，每一次的处置结果可被输入现有的业务风险模型，以进行迭代和完善，例如可将V

图3是根据本发明的一个实施例的用于数据下载跟踪的方法300的示例流程图。在本发明的实施例中，方法300可以由图1中所描述的大数据安全运维管控系统100中的代理模块101来执行。如图3中所示，方法300开始于步骤302，接收来自用户的数据文件下载请求。作为一个示例，数据文件下载请求可以是用户(即操作人员)通过浏览器访问模拟运维操作界面来发起的。操作人员登录Web Terminal时，使用代表其个人身份的账号。

在步骤304，从大数据平台下载所请求的数据文件。更具体地，代理模块101可根据接收到的数据文件下载请求，构造发送给平台的下载请求，例如将与操作人员登录的账号或身份转换成对应的平台账号，并将下载请求发送给大数据平台的服务器端的代理，例如Docker Daemon，随后由Docker Daemon获取所请求的数据文件后发送回代理模块101。

在步骤306，对下载的数据文件添加追踪信息。作为一个非限制性示例，追踪信息可以是水印。例如，代理模块101可将当前登录者的身份账号信息和下载的目标数据信息及动作时间、客户端地址等用户身份及当前行为信息构造(例如通过拼接)成水印字符串。通过代理模块101内置的加密算法对水印字符串进行加密，生成最终的水印码。随后，将水印码添加到下载的数据文件中的特定位置，不影响文件本身数据的可见性。可选地，代理模块101可先对下载的数据文件的格式进行解析，如果下载的原始数据文件格式是纯文本格式的文件，则将其转换成例如PDF格式或其他支持添加诸如水印之类的追踪信息的文件格式。

随后，在步骤308，将添加了追踪信息的数据文件返回给用户。例如，加了水印的数据文件可通过浏览器返回给用户，供其下载到本地。

优选地，为了进一步提高数据文件流转的安全性以及满足数据文件流转的管控要求，数据文件可被设置为不能够下载到本地，而只能够被下载到安全数据中心102中。为此，代理模块101可被进一步配置成监控各个stream流，并判断该stream流是否为文件。如果是文件，则启动相应的子例程，使得该文件被默认或只被允许下载到安全数据中心102中。在一个可选实施例中，可不对所有的数据文件或所有的用户执行这一操作，替代地，仅对关键敏感数据或者需频繁获取敏感数据的用户来执行这一操作。例如，对于不具有访问和下载敏感数据权限的用户，其下载的数据可被允许下载到本地，而如果数据本身是敏感数据或者用户是权限较高、日常操作中频繁接触敏感数据的，这种情况下，下载的数据会被保存到安全数据中心102。

可以理解的是，图3所描述的数据文件下载跟踪方法是图2所描述的大数据平台安全运维方法的一种特定场景。换言之，图2所描述的过程是普遍的访问请求过程，即无论对于大数据平台有任何访问，都需要通过图2的方法流程来实现。如果该访问请求进一步涉及数据文件的下载，则图3的数据文件下载跟踪方法可被触发，以在数据文件中加入追踪信息。

图4是根据本发明的一个实施例的用于对追踪数据文件责任人的方法400的示例流程图。在本发明的实施例中，方法400可以由图1中所描述的大数据安全运维管控系统100中的代理模块101来执行。如图4中所示，方法400开始于步骤402，接收来自用户(例如想要查询或确定某个数据文件的责任人的用户)的待追踪责任人的文件。与之前类似的，该文件可以是由用户经由浏览器通过发起追踪数据文件责任人的会话或任务，并上传具体的数据文件来发送给后台的代理模块101的。

在步骤404，对文件格式进行解析，并提取其中包含的追踪信息。与图3中描述的数据文件下载的过程相对应，数据文件的原始格式可能是各种不同格式，通过转换成PDF格式并添加追踪信息而得到最终的下载文件。因此，通过文件格式解析可以将找到并提取出该文件中所包含的水印码。随后，再对水印码进行解密，得到原始水印信息，即例如图3中所描述的用于生成水印字符串的登录者的身份账号信息和下载的目标数据信息及动作时间、客户端地址。

在步骤406，返回提取到的追踪信息中包含的数据文件责任人信息。在一个示例中，该责任人信息可经由浏览器返回给用户，并且在浏览器中展示该信息。

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张继东;袁海;吴天昊;
专利申请人：天翼智慧家庭科技有限公司;

上一篇：文档识别方法、工程词库构建方法、电子设备及存储介质
下一篇：基于GAN的还原有损压缩视频文件的系统和方法