一种基于知识图谱的用户身份识别和关系识别方法

文献发布时间：2024-04-18 19:58:21

技术领域

本发明提出基于知识图谱的用户身份识别和关系识别方法，属于基于知识的模式的计算机系统(G06N5/041)领域。

背景技术

在城市高度发展的今天，手机的人均占有率和使用频率居高不下，手机服务涉及的范围也愈加全面。其中手机服务的基石即为移动通信技术，移动通信技术的发展不但改变了人们传统的生活和工作方式，亦大大影响了人们的观念和思维方式。电信企业之间的竞争推进了移动业务的创新和服务质量的提高。手持设备通信在人们的生活中占据了愈加重要的地位，与人们的生活相关性亦越来越强。

手机通话数据中包含了社交信息和时空信息，通过对手机通话数据进行分析,可有效掌握用户的行为特点、社会角色、社交网络、用户之间的真实关系等特征，据此服务提供商便可针对不同用户群体、用户个体进行精准营销，完成较人性化的消费推荐。安全部门也可据此对个人行为进行取证和分析。

通过对手机通话数据进行分析，不仅能够刻画一个用户的特征，也可以帮助运营商调整商业策略，为通信设施的搭建以及调整提供辅助性信息。由于手机用户的通话记录中既包含人类活动的时空信息也包含用户之间的社交关系信息，其对人类行为分析及理解有着重要的价值，采用传统机器学习和模式识别的方法从大规模通话记录中检测用户行为模式和用户之间的关系是比较困难且费时的，并且其结果缺乏解释性的证据，分析人员难以对结果进行合理的解释。

对于通话数据，用图结构可以较好地建模用户与用户之间的通话情况，知识图谱作为一种可以揭示实体间关系的语义网络，不仅可以对通话数据进行有效存储和建模，还可以通过知识图谱的构建和基于知识图谱的嵌入进行信息挖掘，有效解决传统机器学习方法中检测用户属性和行为模式困难且费时的难点，实现高效地基于知识图谱的实体预测和关系预测，从而解决用户身份识别和关系推断的需求。

发明内容

(一)发明目的

本发明的目的是基于知识图谱，研究具有实用性的用户身份识别和关系识别的方案，能够根据用户信息表、校园用户信息表、用户通话记录表、用户应用使用记录表等表格中的字段字段，针对家长子女、老师学生、同事、外卖等不同场景，筛选和各场景下实体及关系高度相关的字段，构建相应的知识图谱，对图结构形式的通信数据进行建模并解决用户身份识别和关系识别的实际问题。整个方案由两部分组成：各场景知识图谱的构建和在对应的知识图谱中进行推理。

(二)技术方案

为解决上述问题，本发明的识别方案的步骤如下：

步骤1、数据准备。数据的格式为一般的数据表，对于每个数据表，根据其性质记录了一些相关的数据字段，每个数据字段与序号一一对应，其实际的含义需要对照数据维表确认，数据维表中包含了表格的类型(日表或月表)、字段中文名、字段英文名、字段类型、字段描述及样例数据，维表与数据表配合使用，就能够具体得知每个表格记录的内容及实际用途。结合每个场景需要的信息，可以筛选出各个场景需要的数据表及字段。

步骤2、针对特定场景构建相应的知识图谱。本发明涉及到的场景有，家长子女、老师学生、同事和外卖员，其中各个场景需要使用的数据不尽相同，因此需要根据每个场景的特征构建相应的知识图谱，知识图谱的构建可分为以下4个阶段：

(1)筛选各个场景需要的数据表。由于总体数据量较大，表格类型较多且关系复杂，将所有表格关联在一起形成完备的知识图谱会导致逻辑极其复杂且查询效率低、代价大。所以要根据每个场景的需求，选择必要的数据表和数据字段，使知识图谱的规模尽可能小。家长子女场景需要的是和家庭相关的数据、通话数据及用户的基本信息；老师学生场景需要的是和校园相关的数据、用户的基本信息及和地理位置相关的数据；同事场景需要的是群组相关的数据、通话数据及和地理位置相关的数据；外卖员场景需要的是用户使用手机应用相关的数据及通话业务量相关的数据。

(2)实体的构建。根据筛选出的各场景下的数据表，首先需要构建实体属性。家长子女场景下构造USER实体，其主键为用户移动号码。老师学生场景下构造USER实体，其主键为用户标识。同事场景下构造USER实体和GROUP实体，其中USER实体主键为用户移动号码，GROUP实体主键为群组ID。外卖员场景构建USER实体和APP实体，其中USER实体主键为用户移动号码，APP实体主键为统一应用编码。

(3)关系的构建。实体之间需要通过关系相互关联，从而推理出实体间的联系。家长子女场景下构造CALLS关系，通过通话双方的移动号码进行关联，记录关系两端实体的“当月通话次数”和“当月累计通话分钟数”。教师学生场景仅仅需要识别实体是否为教师身份或学生身份即可，因此不需要构建关系。同事场景下构造CALLS关系和BELONG关系，其中CALLS关系通过通话双方的移动号码进行关联，记录关系两端实体的“当月通话次数”和“当月累计通话分钟数”，BELONG关系则建立USER到GROUP的索引。外卖员场景下构造USES关系，将用户和应用进行关联，记录用户使用应用的次数，即“使用次数”。

(4)将数据表导入图数据库。在完成实体和关系的构建后，将数据表按照前述格式导入到图数据库中，即完成各场景知识图谱的构建。

根据所述图数据库节点集和所述生成节点关系集得到各个场景的有向图G(V,E)，其中V为数据库节点集，E为节点关系集。

步骤3、对待识别身份及关系节点集中的每个实体建立初试值为0的实体标识位E

步骤4、操作知识图谱对用户身份和用户间关系进行识别。对于实体集V{v

经过上述步骤，使用对应场景的数据库，即可筛选出满足限制条件的用户实体或实体对。

(三)有益效果

本发明的优点和积极效果在于使用运营商收集记录的用户日常通话记录信息就能够方便地推理出用户的身份及用户之间的关系，服务提供商可以更加精准地掌握用户的行为特点，针对不同用户群体、用户个体进行精准营销，完成较为人性化的消费推荐。同时，本发明提出的方法可扩展性较强，其流程适用于各类实体及关系识别，有效解决了传统机器学习方法中检测用户属性和行为模式困难且费时的难点，对各领域有一定借鉴意义。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明提出的用户身份和关系识别方法的整体结构图；

图2为本发明中家长子女场景的知识图谱示意图；

图3为本发明中老师学生场景的知识图谱示意图；

图4为本发明中同事场景的知识图谱示意图；

图5为本发明中外卖员场景的知识图谱示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。附图1为本发明提出的识别方法的整体结构图。

步骤1、数据准备。本发明使用的数据来自移动公司，使用移动公司在北京地区一个月的数据作为支撑，根据原始数据表中字段与维表相对应，获得表中各字段的实际含义。数据表的规模与北京地区用户的数量有关，由于用户类型及活跃度的差异，各表中的条目无法一一对应，但仍可以通过一些公有属性将不同表进行关联，如用户标识，用户电话号码，实体之间的关系也可以通过公有属性对来进行建立。

步骤2、针对特定场景构建相应的知识图谱。家长子女、老师学生、同事和外卖员中每个场景都需要构建相应的知识图谱，附图2-5为各场景构建的知识图谱示意图。

(1)家长子女(附图2)。家长子女场景下，知识图谱的实体和关系如图所示，其中USER实体表示所有用户，其包含“用户移动号码”、“地市编码”、“年龄”、“身份证出生地”、“婚姻状况”和“小家庭ID”属性，以“用户移动号码”为主键。实体间通过CALLS关系相互关联，记录用户间的“当月通话次数”和“当月累计通话分钟数”。

(2)老师学生(附图3)。老师同事场景下，知识图谱的实体如图所示，其中USER实体表示所有用户，其包含“用户标识”、“是否是校园本网学生用户”、“校园本网学生用户所属学校标识”、“是否是校园区域本网用户”、“校园区域本网用户所属学校标识”、“身份证出生日期”、“职业编码”、“教育程度编码”、“校园层次”和“婚姻状况”属性，以“用户标识”为主键。

(3)同事(附图4)。同事场景下，知识图谱的实体和关系如图所示，其中USER实体表示所有用户，其包含“白天月常驻地-纬度”、“白天月常驻地-经度”、“用户标识”和“是否集团用户”属性，以“用户标识”为主键；GROUP实体表示所有在群组中的用户，其中包含“群组标识”、“群组名称”和“用户标识”属性，以“用户标识”为主键。USER实体间通过CALLS关系相互关联，记录用户间的“当月通话次数”和“当月累计通话分钟数”；USER和GROUP之间通过BELONG关系相互关联，表示用户是否属于某群组。

(4)外卖员(附图5)。外卖员场景下，知识图谱的实体和关系如图所示，其中USER实体表示所有用户，其包含“用户移动号码”、“主叫通话次数”和“被叫通话次数”属性；APP实体表示所有APP，其包含“统一应用编码”和“统一应用类型编码”属性。USER和APP之间通过USES关系相互关联，表示用户是否使用过特定应用，其记录了“使用次数”。

将步骤1中准备的数据按照上述方式导入图数据库，即完成知识图谱的构建。

步骤3、遍历图数据库中每一实体v

(1)家长子女。通过查找小家庭ID一致的用户，并限制其年龄相差在20岁至40岁之间，以此作为筛选条件。对于用户v

其中M代表婚姻状态，1表示已婚，为0表示未婚；F代表小家庭ID，A代表年龄。r

(2)教师学生。对于教师而言，筛选职业编码为教师身份的即可精准确定为教师身份的用户。对学生而言，由于没有学生对应的职业编码，需要根据“是否是校园本网学生用户”进行确定。用如下公式计算用户v

其中，O代表职业编码，其值06表示用户职业为教师，09表示用户职业为其他；A代表年龄，S代表是否为校园网学生用户，S为1时表示是校园网学生用户。E

(3)同事。通过查找属于同一个群组的用户，且限制当月累计通话次数和当月累计通话分钟数达到一定阈值，以此作为筛选条件。对用户v

其中，G代表是否为群组用户，G为1时表示是群组用户；GID代表群组ID。r

(4)外卖员。通过查找使用美团骑手、美团众包等APP的用户，并且限制主被叫比例和当月累计通话次数，以此作为筛选条件。对于用户v

其中，C代表主叫呼叫次数，CE代表被叫呼叫次数，P代表是否使用了对应类型的APP，E

步骤4、操作知识图谱对用户身份和用户间关系进行识别。对于实体集V{v

由于对每个v

经实际运行，本发明提出的方法能较好地根据移动公司的数据对用户的身份及用户间的关系进行识别，且有良好的可拓展性，除上述提到4类场景外可方便地迁移到其他场景，有一定的实际应用意义。

上述实施例只为说明本申请的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本申请的内容并据以实施，并不能以此限制本申请的保护范围。凡如本申请精神实质所做的等效变换或修饰，都应涵盖在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京流深数据科技有限公司;

上一篇：读卡机及其控制器以及权限管理方法
下一篇：一种基于激光位移测量的工件打磨自动定位方法及装置