一种大数据环境下网络用户信任度评估模型构建方法

文献发布时间：2023-06-19 11:57:35

技术领域

本发明涉及信息安全技术领域，具体涉及一种大数据环境下网络用户信任度评估模型构建方法。

背景技术

目前，基于开放互联网络环境下的电子商务、云计算、普适计算、移动计算、物联网等新型网络应用逐渐成为一种主流应用模式。网络用户的数量也急剧增加，同一用户享受多个网络服务提供商提供服务的情况已成为常态。在这种新型网络模式中，网络服务提供商所处的地域、管理模式、安全管控要求、安全策略可能完全不同。传统安全管控手段和用户准入机制，例如(ACL)访问控制列表，或者PKI公钥、密钥方式，在面对数量庞大的网络用户时显得力不从心，暴露出许多问题，不能同时满足不同区域、不同管理体系下网络服务提供商的差异需求。因此，如何在开放的互联网中建立和维护网络用户与众多服务提供商之间的信任关系，并以此实现它们之间的访问授权，是当前各种新型网络应用所面临的共同问题。

“信任管理”和“信任协商”等思想的出现，为开放网络环境下信任度评估和用户准入问题，提供了新的解决思路。网络用户信任度评估是网络信任管理中最基础的内容，也是最重要的内容。能否寻找到一种安全，快捷，普适性强的网络用户信任度评估方法，建立网络用户与不同管理域、不同体系中服务提供商的信任关系是解决开放网络环境下信任问题的重点。近年来，国内外许多学者对网络用户信任度评估问题做出了研究，也提出了不少信任度评估模型，当纵观这些评价模型方法，这些模型中存在以下三点不足：

(1)目前的网络用户信任度评估模型中仅将网络用户的交易数据和交易反馈信息作为评估证据，证据来源单一，忽视了其他证据来源。事实上，网络主体可能为了自身利益，在网络交易进行前、中、后实施一些网络操作行为，而这些操作行为可能会危害网络安全或者破坏电子商务交易的公平性，是不可信行为，而这种不可信行为在交易反馈信息中无法体现。其次，目前信任评估模型没能实际解决共谋及恶意评价等行为造成的证据不可靠问题，共谋及恶意评价等行为的存在，可能直接导致信任评估结果的错误。

(2)网络证据间冲突性在网络用户信任度评估中普遍存在，当前信任度评估模型在面对冲突证据时处理方法不够合理，许多模型存在回避冲突证据的现象，有些模型虽然提出了一些方法来应对冲突证据，但是依然存在不足，比如有些模型不能明确阐述相关参数的物理意义、有些模型对评估所用数据有很苛刻的要求等等。

(3)现有信任度评估模型面对大规模网络证据数据时的伸缩性不够理想。现有评估模型在设计时未考虑面对大规模网络证据的情况，随着互联网规模的扩大和业务的发展，用户数量和产品种类越来越多，网络证据规模也爆炸式地增长，现有单机式架构的信任评估模型处理能力有限，存在计算效率低的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种大数据环境下网络用户信任度评估模型构建方法。

(二)技术方案

为了解决上述技术问题，本发明提供了一种大数据环境下网络用户信任度评估模型构建方法，包括以下步骤：

步骤一、将网络中采集到的网络日志上传至Hadoop平台；

步骤二、通过Hadoop集群中的HDFS存储框架将日志文件分段后发送给各个计算节点；

步骤三、各计算节点通过HADOOP架构中的MAP函数，选取日志中的用户信息及特定用户行为信息，包括网络交易信息、网络社区活动信息和网络攻击信息，组成键值对，作为网络证据；

步骤四、通过调用Hadoop平台中的Shuffing函数整理网络证据，按照用户名将网络证据归类后发送到Hadoop平台中Reduce端；

步骤五、Reduce端收到map函数信息后，基于设计的网络证据归一化处理算法将网络证据转化为带权值的基本信任分配函数，然后基于改进D-S证据理论算法计算网络用户信任度；

步骤六、将网络用户信任度计算结果存储在HDFS上。

优选地，所述网络证据的定义包括：

电子商务交易证据的定义：

电子商务交易证据是将网络主体参与在线交易所产生的交易记录作为证据，网络主体包括商品买家和卖家，将电子商务交易证据的结构定义为：

电子商务交易证据(证据类型、交易时间、交易金额、交易结果、交易评价)；

网络社区活动类证据的定义：

网络社区活动也是一种网络行为，网络主体在网络社区中的表现，直接体现其信任度，网络社区活动包括论坛发帖、微博互动、在线问答、参与公众号；将网络社区活动证据的结构定义如下：

网络社区证据(证据类型、时间、精华、点击量、回复量、禁言、删帖)对

一条网络社区活动证据的产生，首先要分辨网络主体的身份，若为发帖者，当帖子被设为精华、点击量超过一个阈值、回复量超过一个阈值、删帖、禁言时、分别产生一条正面或附件的证据，当网络主体身份为浏览者时，仅仅在禁言时，产生一条负面证据，负面证据的权值根据所在帖子点击量和回复量进行相应的配置；

网络攻击行为证据的定义：

网络攻击行为是指在网络技术层面上对网站或其他网络主体进行入侵或破坏的行为；基于安全审计技术来分析和发现网络攻击行为证据，将安全审计结果中网络主体的入侵或攻击数据作为网络攻击证据，将网络攻击行为证据的结构定义如下：

网络攻击证据(证据类型、时间)。

优选地，步骤五中设计的改进D-S证据理论算法内容包括：

定义识别框架：

定义，假定现有一个命题需要判定，对于该命题判定结果的所有可能答案的完备集合用Θ表示，且Θ中的所有元素都是两两互斥的，其值是数值或非数值，且命题的答案只能取Θ中的一个元素，则称Θ为该问题的识别框架，识别框架Θ表示为：

Θ＝{θ

其中，θ

定义基本信任分配函数：

定义，如果函数m满足下列条件的映射：

则称m是2

其中，

设A、B为不同的命题，当有证据支持一命题A时，证据对命题A赋予的基本信任分配函数m(A)＞0，此时称A为焦元，如果焦元A中只有一个元素，A为单元焦元，如果焦元A中包含F个元素，则称A为F元焦元，A中包含元素的个数，称为焦元的基，若A为多元焦元，基本信任分配函数的取值与焦元中元素的个数无关，即基本信任分配函数m(A,B)与m(A)或m(B)没有任何大小关系，m(A)可能大于m(A,B)，如果焦元A＝Θ.则m(A)表示对全集的信任程度，但不能表示对Θ中任何一子集的信任程度；

定义信任函数：

定义，信任函数Bel(A)满足：

如果m(A)＞0，则称A为信任函数Bel的焦元，表示全部证据对A发生的信任值；

定义似然函数

定义，如果对识别框架Θ的任一子集A有：

则Pl(A)定义为A的似然函数，似然函数也被称为下限函数，表示所有证据对命题A为真的怀疑值，似然函数有如下关系：

A的不确定性由u(A)＝Pl(A)-Bel(A)决定；

定义D-S证据合成规则：

定义，假设m

公式(1)中：

由公式(1)知道，D-S证据合成规则实质上是对基本信任分配函数做正交运算，记为m＝m

设计改进D-S证据理论算法：

基于曼哈顿算法计算证据间相似度，处理证据间冲突，设计一种适用于网络证据融合的改进冲突处理算法：

定义，平面空间中两点i,j坐标分别为(X

多维空间中两向量的曼哈顿距离表示为：

基于曼哈顿距离定义网络证据间相似度：

假定识别框架Θ下的两个网络证据E

则改进的D-S证据理论算法包括以下步骤：

分别计算两两证据的相似系数d

将相似度矩阵B

按照每条证据的权重crd

对修正后的证据m

优选地，步骤五中设计的网络证据归一化处理算法包括以下步骤：

首先对网络证据进行预处理；

其次，基于预处理后的网络证据进行基本信任分配函数的构造和权值分配。

优选地，对网络证据进行预处理包括对电子商务交易证据的预处理：

对于任意一条电子商务交易证据进行预处理后的数据结构为

Evi(Cla，Ide，T，Val，Res,Ase)，并且规定：证据类型变量Cla＝1；网络主体身份变量Ide；时间变量T在线交易发生的时间；交易价值变量Val；交易结果变量，成功，失败；交易评价变量Ase，记录交易评价。

优选地，对网络证据进行预处理包括对网络社区类业务反馈证据的预处理：

对于任意一条网络社区类业务反馈证据进行预处理后的数据结构为：Evi(Cla，Eve，T，No，Pos)，并且规定：证据类型变量Cla＝2；事件变量{1,2,3,4,5}，1表明当前证据指向的网络主体的主页被浏览，2表明原发贴被浏览，3表明被管理员删帖，4表明被管理员禁止发帖，5设置精华帖；时间变量T；No变量表示主页或发帖被浏览的次数；Pos变量表示帖子回复的数量。

优选地，对网络证据进行预处理包括对网络攻击行为证据的预处理：

对于任意一条网络攻击行为证据进行预处理后的数据结构为

Evi(Cla，T)，并且规定：证据类型变量Cla＝3；时间变量T，行为发生的时间。

优选地，进行基本信任分配函数的构造和权值分配包含以下步骤：

首先构造基本形式的基本信任分配函数：

对于一个网络用户用存在“信任”和“不信任”两种评价，“信任”使用t表示，“不信任”使用d表示，则网络用户信用情况的识别框架定义为：

Θ＝{信任，不信任}，简写为Θ＝{t,d}

识别框架为：2

对于一条网络证据，由基本信任分配函数的定义知道m{φ}＝0；m{t}表达了本条网络证据对该用户判定为信任的支持程度；m{d}表达了本条网络证据对该用户判定为不信任的支持程度；m{Θ}表达了本条网络证据对无法判定该用户可信度的支持程度；

因此，构造基本信任分配函数的基本形式为：

m{T,D,Θ}，其中，T＝{t},D＝{d}，T+D+Θ＝1

其次针对不同网络证据设计带权重基本信任分配函数。

优选地，针对不同网络证据设计带权重基本信任分配函数如下：

表1电子商务类证据带权基本信任分配函数

表2网络社区类证据带权基本信任分配函数

网络攻击行为证据的带权重基本信任分配函数为：m(0,1,0)。

本发明还提供了一种所述方法在信息安全技术领域中的应用。

(三)有益效果

本发明基于Hadoop并行计算平台构建信任度评估模型，能够有效应对大规模网络数据；将电子商务交易数据、网络社区活动数据和网络操作行为数据作为证据来源，扩展了证据源，突破了传统信任度评估模型只依据交易反馈证据进行信任度评估造成证据不完备的缺陷；将改进的D-S证据理论与Hadoop并行计算平台相结合，很好地解决了网络证据间冲突问题，能够快速计算网络用户信任度。

附图说明

图1为本发明的基于HADOOP的网络用户信任度计算模型结构图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供的一种大数据环境下网络用户信任度评估模型构建方法流程为：

步骤1、定义与拓展网络证据，内容包括：

1.1电子商务交易证据的定义：

电子商务交易反馈证据是将网络主体参与在线交易所产生的交易记录作为证据。网络主体包括商品买家和卖家。电子商务交易反馈证据是最普遍的一种网络证据，目前大多数信任度评估模型都基于该类证据。究其原因，电子商务交易在网络活动中所占的比重较大；电子商务交易反馈证据可以较直接地反应网络主体的信任度，而且易于获取。

本发明将电子商务交易证据的结构定义为：

电子商务交易证据(证据类型、交易时间、交易金额、交易结果、交易评价)

1.2网络社区活动类证据的定义：

网络社区活动也是一种重要的网络行为，网络主体在网络社区中的表现，可以直接体现其信任度。现阶段网络社区活动主要包括，论坛发帖、微博互动、在线问答、参与公众号等等。本发明将网络社区活动证据的结构定义如下：

网络社区证据(证据类型、时间、精华、点击量、回复量、禁言、删帖)对

一条网络社区活动证据的产生，首先要分辨网络主体的身份，若为发帖者，当帖子被设为精华、点击量超过一个阈值、回复量超过一个阈值、删帖、禁言时、分别产生一条正面或附件的证据。当网络主体身份为浏览者时，仅仅在禁言时，产生一条负面证据，负面证据的权值根据所在帖子点击量和回复量进行相应的配置。

1.3网络攻击行为证据的定义：

网络攻击行为是指在网络技术层面上对网站或其他网络主体进行入侵或破坏的行为。诸如sniffer嗅探攻击、0day漏洞、ARP欺骗、DNS欺骗等。本发明关注于网络主体过去的行为，而不像防火墙、入侵检测系统那样对网络进行实时保护，所以本发明基于安全审计技术来分析和发现网络攻击行为证据。安全审计系统可以对网络中各种设备和系统进行集中的审计，发现入侵行为及安全隐患。本发明将安全审计结果中网络主体的入侵或攻击数据作为网络攻击证据。本发明将网络攻击行为证据的结构定义如下：

网络攻击证据(证据类型、时间)

网络攻击行为是一种严重的不诚信行为，不论网络主体出于何种目的进行攻击都应该大幅降低其信任度。一旦在安全审计数据中发现网络主体存在入侵或攻击行为，便产生一条网络攻击证据。

步骤2、设计改进D-S证据理论算法用于处理网络证据冲突，内容包括：

2.1D-S证据理论：

D-S证据理论中使用识别框架、基本信任分配函数、焦元、众信度函数、似然函数等概念来描述不确定性，将证据转化为基本信任分配函数，并通过合成规则对基本信任分配函数进行融合，实现对命题的判定。

2.1.1识别框架

定义，假定现有一个命题需要判定，对于该命题判定结果的所有可能答案的完备集合用Θ表示，且Θ中的所有元素都是两两互斥的，其值可以是数值也可以是非数值，且命题的答案只能取Θ中的某一个元素，则称Θ为该问题的识别框架,识别框架Θ可表示为：

Θ＝{θ

其中，θ

2.1.2基本信任分配函数

定义，如果函数m满足下列条件的映射：

则称m是2

其中，

设A、B为不同的命题，当有证据支持某一命题A时，证据对命题A赋予的基本信任分配函数m(A)＞0，此时称A为焦元，如果焦元A中只有一个元素，A为单元焦元，如果焦元A中包含F个元素，则称A为F元焦元，A中包含元素的个数，称为焦元的基，若A为多元焦元，基本信任分配函数的取值与焦元中元素的个数无关，即基本信任分配函数m(A,B)与m(A)或m(B)没有任何大小关系，m(A)可能大于m(A,B)，如果焦元A＝Θ.则m(A)表示对全集的信任程度，但不能表示对Θ中任何一子集的信任程度；

2.1.3信任函数

定义，信任函数Bel(A)满足：

如果m(A)＞0，则称A为信任函数Bel的焦元，表示全部证据对A发生的信任值。

2.1.4似然函数

定义，如果对识别框架Θ的任一子集A有：

则Pl(A)定义为A的似然函数，似然函数也被称为下限函数，表示所有证据对命题A为真的怀疑值，似然函数有如下关系：

A的不确定性由：

u(A)＝Pl(A)-Bel(A)决定；

2.1.5D-S证据合成规则

在D-S证据理论中使用信任函数表示对命题的信任程度，使用似然函数表示对命题的怀疑程度，信任函数和似然函数都是通过基本信任分配函数定义的，由此看出基本信任分配函数是命题判断所依据的基础。在命题判定过程中，首先将证据转化为相应的基本信任分配函数，由于证据间存在差异，转化得到的基本信任分配函数也不完全相同，为了对命题进行判定，需要将两个或多个不同的基本信任分配函数融合成新的信任函数或似然函数，因此学者Dempster提出了一种基于正交和运算的合成方法，该方法被称为Dempster-Shafer证据合成规则，简称为D-S证据合成规则。

两个证据的合成:

定义，假设m

公式(1)中：

由以上公式可知，D-S证据合成规则实质上是对基本信任分配函数做正交运算，通常记为

2.2改进D-S证据理论算法：

由于证据间冲突的存在，D-S证据理论在处理高冲突证据时会失效。此时D-S证据理论中的冲突系数K→1，得到的信任度融合结果往往与实际情况相悖。针对D-S证据理论在面对冲突证据时出现的问题，本发明基于曼哈顿算法计算证据间相似度，处理证据间冲突，设计一套适用于网络证据融合的改进冲突处理算法。由于网络用户数量巨大，本发明改进的D-S证据理论算法在保证准确性的前提下尽可能降低算法的时间复杂度以保证高效计算。

定义，平面空间中两点i,j坐标分别为(X

多维空间中两向量的曼哈顿距离可表示为：

基于曼哈顿距离定义网络证据间相似度：

假定识别框架

改进的D-S证据理论算法步骤如下：

1.分别计算两两证据的相似系数d

2.将相似度矩阵B

3.按照每条证据的权重crd

4.对修正后的证据m

本发明改进的D-S证据合成规则基于曼哈顿距离实现，能够有效处理K值冲突，算法中去除了复杂的乘方和开方运算，使用减法运算证据间距离，降低了算法的时间复杂度低。算法最后使用D-S证据理论计算，所以满足极化性，在处理网络证据时能够保证用户信任度增长的一致性。

步骤3、设计网络证据归一化处理算法，内容包括：

3.1网络证据的预处理

从不同证据源获得的证据存在不同的表达方式，电子商务证据为网站日志，网络社区证据为自然语言和网络日志相结合的数据结构，网络操作行为证据数据多为审计日志文件。对证据进行预处理就是将不同结构的证据转变为用数学语言表达的可以直接参与计算的形式。

3.1.1电子商务交易证据的预处理

对于任意一条电子商务交易证据进行预处理后的数据结构为

Evi(Cla，Ide，T，Val，Res,Ase)，并且规定：证据类型变量Cla＝1；网络主体身份变量Ide；时间变量T在线交易发生的时间；交易价值变量Val；交易结果变量，成功，失败；交易评价变量Ase,记录交易评价。

3.1.2网络社区类业务反馈证据的预处理

3.1.3网络攻击行为证据的预处理

对于任意一条网络攻击行为证据进行预处理后的数据结构为

Evi(Cla，T)，并且规定：证据类型变量Cla＝3；时间变量T，行为发生的时间。

3.2基本信任分配函数的构造和权值分配

3.2.1基本信任分配函数的构造

原始证据进行预处理后得到统一格式的网络证据，再将网络证据对应转化为基本信任分配函数后进行计算，对于一个网络用户用存在“信任”和“不信任”两种评价。“信任”使用t表示，“不信任”使用d表示，则网络用户信用情况的识别框架可以定义为：

Θ＝{信任，不信任}，简写为Θ＝{t,d}

识别框架为：2

对于一条网络证据，由基本信任分配函数的定义可知m{φ}＝0；m{t}表达了本条证据对该用户判定为信任的支持程度；m{d}表达了本条证据对该用户判定为不信任的支持程度；m{Θ}表达了本条证据对无法判定该用户可信度的支持程度。

因此，本发明构造的基本信任分配函数的基本形式为：

m{T,D,Θ}，其中，T＝{t},D＝{d}，T+D+Θ＝1

3.2.2构造带权重的基本信任分配函数

不同类型的网络证据和同一类型不同属性的网络证据对网络用户的信任度影响程度不同，应根据网络证据的不同类型和不同属性为其赋予一个合理的权重。合理的权重能够使信用度评价更准确，获得更高的用户区分度，证据权重的设计应该根据用户数量，网络安全的侧重点加以区别；本发明针对网络证据的带权重基本信任分配函数设计如下：

电子商务交易证据的带权重基本信任分配函数：

表1电子商务类证据带权基本信任分配函数网络社区活动类证据的带权重基本信任分配函数：

表2网络社区类证据带权基本信任分配函数

网络攻击行为证据的带权重基本信任分配函数：本发明只记录具有危害性的网络攻击行为，所以网络攻击行为证据的带权重基本信任分配函数为：m(0,1,0)。

步骤4、构建基于HADOOP平台的网络用户信用度评价模型，内容如下：

Hadoop是目前成熟的并行计算平台，其存储框架被命名为HDFS，计算框架被命名为Map Reduce。本发明获取的网络证据是通过采集网络日志获得，随着网络规模的扩大，服务的增加，用户的增长，网络日志文件非常庞大。日志文件甚至会达到TB级别的。基于传统的单机关系数据库在归一化处理这些日志文件时显得力不从心，运算时间长，难以满足要求。为了提高效率，本发明将改进的D-S证据理论算法与HADOOP并行计算平台相结合，快速处理海量日志文件，并计算网络用户信用度。计算模型如图1所示，构建模型的步骤包括：

步骤一、将网络中采集到的网络日志上传至Hadoop平台；

步骤二、通过Hadoop集群中的HDFS存储框架将日志文件分段后发送给各个计算节点；

步骤四、通过调用Hadoop平台中的Shuffing函数整理网络证据，按照用户名将网络证据归类后发送到Hadoop平台中Reduce端；

步骤五、Reduce端收到map函数信息后，基于步骤3设计的网络证据归一化处理算法将网络证据转化为带权值的基本信任分配函数，然后基于步骤2设计的改进D-S证据理论计算网络用户信任度；

步骤六、将网络用户信任度计算结果存储在HDFS上。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨亦松;海然;单联强;任雨霞;
专利申请人：北京计算机技术及应用研究所;

上一篇：一种多色光照明三维粒子成像系统及方法
下一篇：烟酰胺单核苷酸及其在抗肿瘤药物心肌损伤中的保护应用