掌桥专利:专业的专利平台
掌桥专利
首页

基于浏览器技术的应用数据分析方法、系统和电子设备

文献发布时间:2023-06-19 11:14:36


基于浏览器技术的应用数据分析方法、系统和电子设备

技术领域

本发明特别涉及一种基于浏览器技术的应用数据分析方法。

背景技术

随着近年来大数据、云计算、AI等技术的不断发展和普及,越 来越多的企业拥有了海量的用户数据,其中不乏用户的隐私和敏感信 息,比如身份信息、财务信息、位置信息等,这些信息一旦泄露,将 会给用户造成重大危害。然而,近几年的数据保护现状却不容乐观, 无论是国内还是国外,每年都会发生多起重大的企业用户数据泄露事 件。

此外,例如专利申请CN106033511A、CN112104655A中提出了 一些数据安全保护方法,但是都不是基于浏览器系统的数据安全保 护,需要改变当前的应用系统架构和用户使用习惯,不能够实现快速 部署,很难对用户数据实现全面、高效和细致的安全管控。

发明内容

为了解决现有技术的不足,本发明提供了如下发明内容:

本发明第一方面提供了一种基于浏览器技术的应用数据分析的 方法,包括:从服务器端获取配置信息;获取页面文本并记录用户行 为;

将获取信息与所述配置信息进行匹配并获取匹配结果;加密传输所述 匹配结果到服务器,以供服务器进行解密、存储、分析、展示所述匹 配结果。

较佳的,所述从服务器端获取配置信息之后还包括:对访问权限 进行准入认证。

较佳的,所述对访问权限进行准入认证包括:阻止非授权人员和 非授权IP地址访问。

较佳的,所述获取页面文本并记录用户行为包括:根据配置策略, 利用正则表达式以及HTML节点选择器处理,从所述页面文本中进 行匹配,解析出和数据分析相关的结果。

较佳的,根据配置策略,利用正则表达式以及HTML节点选择 器处理,从所述页面文本中进行匹配,解析出和数据分析相关的结果 包括:对于配置策略中认定为需修改或阻断的内容利用正则表达式、 HTML节点选择器处理识别数据,并在浏览器页面上实现内容变更或 阻断。

较佳的,所述内容根据实际应用场景不同可自由配置;所述自由 配置包括设置为用户手机号、身份证号和银行卡号。

较佳的,所述获取信息包括:获取手机号、身份证号、用户账号 权限、通过浏览器中接收到的鼠标、键盘操作以及记录用户行为信息;

较佳的,所述用户账号权限包括:用户名和工号;所述记录用户 行为信息包括:用户访问网页行为和点击行为。

较佳的,所述加密传输所述匹配结果到服务器,以供服务器进行 解密、存储、分析、展示所述匹配结果包括:敏感信息类型、敏感信 息数量、页面地址、页面标题以及与数据分析相关的信息到服务器。

较佳的,所述加密传输所述匹配结果到服务器,以供服务器进行 解密、存储、分析、展示所述匹配结果包括:应用数据分析所述服务 端对获取的用户、IP地址、时间、监控结果信息解密后,进行应用数 据安全分析及数据使用溯源。

较佳的,所述进行应用数据安全分析及数据使用溯源包括:进行 网页访问分析,敏感数据访问页面及访问量分析,网页访问和敏感数 据访问的实时数据分析,违规访问的网页和访问量分析,终端在线情 况分析以及访问历史查询;

较佳的,所述网页访问分析包括:所有访问分析、按用户分析以 及按站点分析;所述访问量分析包括:所有访问量分析、按用户访问 量分析以及按站点访问量分析。

本发明第二方面提供一种基于浏览器技术的应用数据分析的系 统,包括:配置信息获取模块,用于从服务器端获取配置信息;用户 行为信息获取模块,用于获取页面文本并记录用户行为;信息匹配模 块,用于将获取信息与配置项匹配并获取匹配结果;加密传输模块, 用于加密传输所述匹配结果到服务器,以供服务器进行解密、存储、 分析、展示所述匹配结果。

本发明第三方面提供了一种存储器,存储有多条指令,所述指令 用于实现上述第一方面的方法。

本发明第四方面提供了一种电子设备,包括处理器和与所述处理 器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处 理器加载并执行,以使所述处理器能够执行上述第一方面的方法。

本发明的有益效果是:本发明将企业应用系统中的用户数据识别 环节放置到企业员工访问数据的浏览器中,并将识别得到的数据传输 至应用数据分析系统服务端进行具体分析;不需要通过网关或应用系 统本身的服务端进行识别和分析,从而降低了改造的人力、时间成本 以及资金的投入。

附图说明

图1为本发明实施例一提供的一种基于浏览器技术的应用数据 分析的方法流程示意图;

图2为本发明实施例一提供的方法的数据传输架构图;

图3为本发明实施例一提供的方法的硬件部署架构图;

图4为本发明实施例一提供的方法的应用系统总览示意图;

图5为本发明实施例一提供的方法的站点访问统计页面示意图;

图6为本发明实施例一提供的方法的访问历史查询页面示意图;

图7为本发明实施例一提供的方法的监控历史查询示意图;

图8为本发明实施例一提供的方法的报表页面示意图;

图9为本发明实施例二提供的一种基于浏览器技术的应用数据 分析的系统的结构示意图。

具体实施方式

为了更好的理解上述技术方案,下面将结合说明书附图以及具体 的实施方式对上述技术方案做详细的说明。

实施例一

本发明提供的方法可以在如下的终端环境中实施,该终端可以包 括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中 存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施 例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和 线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的 指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执 行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory,RAM),也 可以包括只读存储器(Read-Only Memory)。存储器可用于存储指令、 程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外,本领域技术人员可以理解,上述终端的结构并不构成 对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件, 或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传 感器、音频电路、电源等部件,在此不再赘述。

请参照图1所示,本发明提供了一种基于浏览器技术的应用数据 分析的方法,包括:S1、从服务器端获取配置信息;S2、获取页面文 本并记录用户行为;S3、将获取信息与所述配置信息进行匹配并获取 匹配结果;S4、加密传输所述匹配结果到服务器,以供服务器进行解 密、存储、分析以及展示所述匹配结果。

所述从服务器端获取配置信息之后还包括:对访问权限进行准入 认证。

所述对访问权限进行准入认证包括:阻止非授权人员和非授权IP 地址访问。

所述获取页面文本并记录用户行为包括:根据配置策略,利用正 则表达式以及HTML节点选择器处理,从所述页面文本中进行匹配, 解析出和数据分析相关的结果。

根据配置策略,利用正则表达式以及HTML节点选择器处理, 从所述页面文本中进行匹配,解析出和数据分析相关的结果包括:对 于配置策略中认定为需修改或阻断的内容利用正则表达式、HTML节 点选择器处理识别数据,并在浏览器页面上实现内容变更或阻断。

所述内容根据实际应用场景不同可自由配置;所述自由配置包括 设置为用户手机号、身份证号和银行卡号,在实际应用中可以配置成 任何字段。

所述获取信息包括:获取手机号、身份证号、用户账号权限、通 过浏览器中接收到的鼠标、键盘操作以及记录用户行为信息;

所述用户账号权限包括:用户名和工号;所述记录用户行为信息 包括:用户访问网页行为和点击行为。

所述加密传输所述匹配结果到服务器,以供服务器进行解密、存 储、分析、展示所述匹配结果包括:敏感信息类型、敏感信息数量、 页面地址、页面标题以及与数据分析相关的信息到服务器。

所述加密传输所述匹配结果到服务器,以供服务器进行解密、存 储、分析、展示所述匹配结果包括:应用数据分析所述服务端对获取 的用户、IP地址、时间、监控结果信息解密后,进行应用数据安全分 析及数据使用溯源。

所述进行应用数据安全分析及数据使用溯源包括:进行网页访问 分析,敏感数据访问页面及访问量分析,网页访问和敏感数据访问的 实时数据分析,违规访问的网页和访问量分析,终端在线情况分析以 及访问历史查询;

所述网页访问分析包括:所有访问、按用户分析以及按站点分析; 所述访问量分析包括:所有访问、按用户分析以及按站点分析。

本发明更加具体的实施细节如下:

当前,企业员工使用的企业内部系统多为B/S架构,即通过浏览 器访问企业内部系统。然而,由于这些系统之间的开发语言、架构不 同,以及部分系统为外采系统等原因,企业难以统一地进行用户数据 使用的监测和管理,不利于实现企业应用的数据安全和数据管理工 作。

为了解决这一问题,我们就需要一款产品,能够识别企业应用系 统中用户数据的展示和使用情况,发现未经处理的用户隐私和敏感信 息,并获取员工对各应用系统的数据访问情况,实现数据的安全可控。

企业内部系统数据安全防护技术现状,在当前的企业内部系统 中,为了监测用户敏感数据被访问的情况,一般采用在应用系统内分 析的方式,或部署网关数据安全硬件设备统一分析的方式。

应用系统内分析,当我们使用应用系统内分析的方式时,一般采 用日志记录的形式,但是这种方式存在很多缺点,例如:

需要对所有包含用户数据的应用进行改造,添加日志记录,此时 牵扯的业务复杂,改造的人力和时间成本较大。

由于各系统间的日志数据非常分散,因此需要将日志格式统一, 并同步至统一日志中心或大数据平台中,进行数据分析,此时日志集 中收集又进一步扩大了成本。

企业内部往往存在一定数量的老旧系统和外采系统(尤其是人 力、财务类系统),存在改造困难甚至无法改造的问题,这部分系统 将会造成一定程度的数据遗漏,产生数据盲区。

网关部署硬件设备分析,为了解决中心化分析、全系统覆盖以及 改造时间长的问题,部分企业选择了网关部署硬件设备进行分析的方 式,这种方式类似于数据库审计设备的部署方式,不过这种方式也存 在一定的缺点,例如:由于需要在网关部署硬件设备,因此会变更网 络结构,以及采购硬件设备,改造的资金投入成本较高。

如果需要阻断功能,往往无法采用旁路部署的模式,而是需要串 联在网络中,此时可能会出现性能瓶颈,造成网络延时、丢包等风险, 影响应用系统的正常使用。为了确保设备的可用性,可能需要主备形 式部署,进一步增加资金投入。

对于使用HTTPS加密传输协议的应用系统,无法识别出明文数 据。而HTTPS传输敏感数据,又是当前主流或期望的传输方式,这 样一来,就可能无法获得有效数据。

基于浏览器技术的应用数据分析系统,为了解决上述方案中存在 的这些缺点,更好地应对企业应用系统相关的数据安全风险,确保在 云原生、居家办公等越来越灵活和分散的场景下,最小化安全实施和 管理的成本,我们将对企业应用系统的用户端(即浏览器)进行安全 防护和监测。

通过浏览器端监测用户对企业内部应用系统数据使用情况的方 案,我们可以快速部署实现,并且不影响当前的应用系统架构和用户 使用习惯,从而达成对用户数据最全面、及时和细致的安全管控目标, 解决了围绕数据、用户、权限、行为等众多复杂性、全局性的安全痛 点和难点。

请参照图2所示,图2所示为本方案的基础架构图,我们可以通 过在数据交付层的浏览器端部署数据安全管控工具,监测甚至阻断用 户访问数据处理层中的业务系统中存储的敏感数据。

本方案使用浏览器技术,将企业应用系统中的用户数据识别环节 放置到企业员工访问数据的工具(即浏览器)中,并将识别得到的数 据传输至应用数据分析系统服务端进行具体分析;而不再是通过网关 或应用系统本身的服务端进行识别和分析,从而降低了改造的人力、 时间成本以及资金投入。

本方案的具体实现步骤如下:

1)浏览器定期从应用数据分析系统服务端获取数据分析监控项 规则等配置信息。

2)当企业员工通过浏览器访问企业内部应用系统时,对访问权 限进行准入认证,阻止非授权人员、IP地址访问。

3)企业员工访问企业内部应用系统时,浏览器将会获取页面内 容。

4)浏览器根据配置策略,利用正则表达式、HTML节点选择器 等处理方法,从网页文本中进行匹配,解析出和数据分析相关的结果, 包括敏感信息访问情况(如,手机号、身份证号等个人敏感信息的访 问数量)、用户账号权限(如,用户名、工号)等信息;通过浏览器 中接收到的鼠标、键盘等操作,记录用户行为信息(如,访问网页行 为、点击行为等)。

5)对于配置策略中认定为需修改或阻断的内容(该内容根据实 际应用场景不同可自由配置,如,设置为用户手机号、身份证号等个 人敏感信息),利用正则表达式、HTML节点选择器等处理方法识别 数据,并在浏览器页面上实现内容变更或阻断。

6)对于配置策略中认定为需要分析的内容,浏览器将会把上述 步骤中获得的与数据分析相关的监控结果进行加密,传输给应用数据 分析系统服务端。需要注意的是,此处并不会传输敏感数据本身,而 是敏感信息类型、敏感信息数量、页面地址、页面标题等与数据分析 相关的信息。

7)应用数据分析系统服务端对获取的用户、IP地址、时间、监 控结果等信息解密后,进行应用数据安全分析及数据使用溯源,包括: 网页访问分析(可分为所有访问、按用户分析、按站点分析等),敏 感数据访问页面及访问量分析(可分为所有访问、按用户分析、按站 点分析等),网页访问和敏感数据访问的实时数据,违规访问的网页 和访问量分析,终端在线情况分析,访问历史查询等。

技术特点,根据上节所述的实现方案,可以看出,基于浏览器的 应用数据分析方案,相较于应用系统内分析和网关部署硬件设备分析 两种方案来说,具有下述优点:

无需对企业内部应用系统进行任何改造。数据分析相关日志由浏 览器端统一收集和同步,无需应用系统额外添加日志。这种方式,既 能够大幅降低改造成本,又可以确保数据的完整性、准确性和一致性。

无需对企业网络进行任何改造。本方案仅需部署数据分析服务 端,无需在网关中串联硬件设备,不会由于设备单点故障等原因产生 性能瓶颈,造成用户访问困难。

仅需在员工终端部署浏览器。通过企业桌面运维人员将浏览器端 写入操作系统初始化部署镜像中,即可完成部署,大大降低了改造成 本。此外,由于使用了定制化的浏览器,能够保持与Chrome浏览器 一致的用户使用体验,具有良好的普适性。

可以有效识别HTTPS加密传输流量。由于本方案使用的是浏览 器识别用户可见文本的方式,因此无论是HTTP流量,还是HTTPS 加密传输流量,都可以有效识别,避免遗漏关键数据。

具有访问权限准入认证。本方案可以对用户访问企业内部系统进 行准入认证,抵御非授权人员非法访问行为。

识别规则丰富、灵活。本方案默认情况下,为手机号、证件号码、 银行卡号等个人敏感信息设计了丰富的识别规则,并且支持自定义策 略和规则,可以全面、精准识别个人敏感信息。

实时识别、修改与阻断敏感数据的访问。可以对员工在浏览器端 访问的敏感数据进行实时识别,并根据规则进行监控数据传送、实时 修改或阻断浏览器中敏感数据的显示,从而实现安全事件的快速应急 响应。

统一的监控数据分析服务。由于本方案将最终的监控结果数据统 一传输至应用数据分析系统服务端,可以有效解决数据分散问题,实 现实时的统一数据分析。

系统实现案例,企业内部应用系统中存在很多涉及到外部用户的 敏感信息,尤其是客服、电销等类型的系统,因此企业需要对员工访 问这些内部系统中敏感信息的情况进行监控,防范数据泄露风险。

在本案例中,部署在员工电脑终端上的浏览器,首先从应用数据 分析系统服务端获取监控规则配置信息(如,页面中未脱敏的数据格 式和报警阈值),然后根据员工浏览器中访问页面的内容,匹配这些 规则,获取员工访问敏感信息情况的数据,将监控结果加密后传输给 应用数据分析系统服务端。服务端解密监控数据后,进行数据汇总、 分析和展示。

请参照图3所示,为本方案在某企业内部部署的架构图。从图中 可以看出,为了部署本方案,我们只需要部署用户浏览器端工具及数 据分析服务端,并确保两端联通即可。

本系统当前主要包括如下两类功能,一类功能是数据的分析与展 示,另一类功能是系统及识别规则的配置管理。其中,针对数据的分 析与展示,主要包括系统总览、站点访问统计、访问历史查询、监控 历史查询等几部分;而配置管理主要包括版本管理、系统配置、站点 管理、监控策略管理、报表管理等几部分。

请参照图4所示,在系统总览页面中,我们可以看到系统的汇总 信息,包括:当前应用系统的数量以及访问量,当前在线终端数,重 点关注敏感数据的实时访问情况,各系统的敏感数据实时访问情况, 违规使用数据的用户、应用系统访问情况,数据访问量TOP用户和 应用系统等,这些数据将形成一个展示大屏,可以直观地看到各系统、 用户的访问与违规情况。

请参照图5所示,在站点访问统计页面中,我们可以查询一段时 间内,网站(按域名统计或按URL统计)的访问数据和监控到存在 敏感信息的页面的数据,图5是站点访问统计页面,在历史查询功能 中,我们可以查询访问历史和监控历史。这两种历史查询功能基本一 致,只是分别对应于网站的全部访问信息,和存在敏感数据的网站访 问信息。

请参照图6所示,在进行访问历史查询时,我们除了可以选择时 间段以外,还可以通过用户名、IP、访问的URL地址以及标题信息, 进行模糊匹配。查询结果中,除了包含上述条件的完整信息外,还会 包含父页面的信息,此字段主要针对于存在上层框架或单页面显示等 非常规页面的场景,能够更加准确地定位页面。

在监控历史查询中,除了访问历史查询功能中的查询条件外,我 们还可以选择敏感信息数量的匹配情况,并在查询结果中查看常见的 手机号、身份证号、银行卡号以及已脱敏数据的页面显示数量。

请参照图7所示,图7是监控历史查询页面,在额外信息中,我 们可以看到显示有页面md5值等信息,计算该md5值的主要目的是 为了避免页面存在自动刷新功能时,大量发送重复无用数据的问题。

在配置管理相关页面中,我们可以配置当前的上线版本,客户端 接收到版本变更请求后,将会重新获取最新监控策略。另外,我们还 可以配置监控网址的黑白名单等管理项。

本发明的其中一个实施例中具有严格的隔离机制,在本发明的一 个实施例中的浏览器具备隔离机制,在一个策略数据库里,指定允许 的域名,例如可以用*.baidu.com或www.baidu.com等方式指定,分 析脚本就只能在这些域名下进行分析。能够兼容不同网站开发框架, 无论是网页嵌套了多层iframe框架,还是单页面系统,本发明中一个 实施例的技术方案都能确保数据采集的完整性和准确性。

在策略管理中,我们可以配置一些常见的监控策略,如手机号、 身份证号、银行卡号等,这里一般采用正则表达式的配置方式。除此 之外,我们还可以配置这些策略是仅监控,还是替换或阻断显示,进 一步增强了系统的灵活性。

另外,针对需要通过页面元素获取用户名的情况,我们也可以在 策略管理中进行配置,此时除了正则表达式外,我们还可以使用 HTML节点选择器的方式获取数据。

请参照图8所示,图8是报表页面图。最后,在报告管理中,我 们可以为一段时间内,某种或多种类型敏感数据的监控情况,生成报 告,供安全或审计部门分析,部署该系统后,我们既可以知道哪些系 统的页面敏感信息展示还处于不合规的状态,又能够及时地发现并阻 断员工异常访问敏感数据的情况,为企业内部的数据安全建设起到了 至关重要的作用。

数据安全建设是一个体系化、系统化的工程,基于浏览器技术的 应用数据分析系统是一款能够实现企业级数据安全管理的平台工具, 该系统以业界独创的方式,通过在业务系统中直接对用户数据进行安 全管控,能够全面、实时地回答企业拥有哪些用户数据、在哪些业务 系统中被如何使用,以及被哪些用户在哪些地方使用等核心问题,从 而与当前主流的在网络层和应用系统层解决数据安全的理念和产品 有着根本性的差别,可以为企业数据安全建设带来了巨大的收益。

总体而言,基于浏览器技术的应用数据分析系统是目前一款业界 独创的,并在企业内部得到了实际应用的数据安全产品,并且除了为 信息安全部门提供了技术抓手外,也为内审、内控、合规等业务部门 的日常工作提供了有力的管理手段。该产品通过独特的安全理念和防 护技术,对任何类型、规模的企业和数据使用场景都能够适用。通过 在浏览器端进行数据安全管理,从而实现低成本、优体验、快速部 署、运营便捷的解决方案,填补了国内数据安全领域的一项重要空白。 基于浏览器技术的应用数据分析系统既是企业数据安全的重要管理 和合规工具,也是企业发挥数据价值、提升产品能力的技术平台,具 有良好的应用前景和安全价值。

实施例二

请参照图9所示,本发明实施例提供一种基于浏览器技术的应用 数据分析的系统M,包括:配置信息获取模块M1,用于从服务器端 获取配置信息;用户行为信息获取模块M2,用于获取页面文本并记 录用户行为;信息匹配模块M3,用于将获取信息与配置项匹配并获取匹配结果;加密传输模块M4,用于加密传输所述匹配结果到服务 器,以供服务器进行解密、存储、分析、展示所述匹配结果。

本发明实施例提供的系统可通过上述实施例一提供的方法实现, 具体的实现方法可参见实施例一中的描述,在此不再赘述。

本发明还提供了一种存储器,存储有多条指令,所述指令用于实 现如实施例一所述的方法。

本发明还提供了一种电子设备,包括处理器和与所述处理器连接 的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加 载并执行,以使所述处理器能够执行如实施例一所述的方法。

本发明的有益效果是:本发明将企业应用系统中的用户数据识别 环节放置到企业员工访问数据的浏览器中,并将识别得到的数据传输 至应用数据分析系统服务端进行具体分析;不需要通过网关或应用系 统本身的服务端进行识别和分析,从而降低了改造的人力、时间成本 以及资金的投入。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。 所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围 的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种 改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些 修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明 也意图包含这些改动和变型在内。

相关技术
  • 基于浏览器技术的应用数据分析方法、系统和电子设备
  • 基于浏览器的应用支持方法、系统、存储介质及电子设备
技术分类

06120112854334