一种基于信令数据的人口分析方法及相关产品

文献发布时间：2024-04-18 19:58:21

技术领域

本申请涉及大数据技术领域，特别涉及一种基于信令数据的人口分析方法及相关产品。

背景技术

当前有多家运营商提供通信服务，在对区域人口进行计算的时候，需要通过对所有运营商的多种数据进行联合建模分析才行。这样会导致分析的成本过高。目前在基于运营商的通信信令数据人口计算时，计算简单、数据源单一而且准确度难以保证，导致区域人口的计算结果准确度不够，无法实现由单一运营商人口统计到全量人口的计算。

发明内容

有鉴于此，本申请实施例提供了一种基于信令数据的人口分析方法及相关产品，旨在实现由单一运营商人口统计到全量人口的扩样计算，同时提高人口分析的准确性。

第一方面，本申请实施例提供了一种基于信令数据的人口分析方法，所述方法包括：

获取信令数据并对所述信令数据进行数据清洗，所述信令数据为统计区域内的单一运营商的信令数据；

构建用于进行人口分析的数据指标，所述数据指标用于确定设备用户及人口的类型，所述设备用户为所述信令数据对应的主体，所述人口的类型是基于设备用户的类型确定的；

对所述信令数据进行去重操作得到目标数据，基于所述数据指标确定所述目标数据中的目标人口数据；

利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数；

基于所述目标人口数据及所述目标扩样系数确定所述统计区域内的全部所述目标人口数据，以完成人口分析。

可选的，所述利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数，包括：

利用扩样系数计算模型基于夜间关机回溯算法，识别由于夜间关机使得信令位置无法识别到的设备用户的用户位置，根据所述用户位置确定统计区域的用户数量，基于所述用户数量确定第一扩样系数；

和/或，

利用扩样系数计算模型基于非活跃设备的活跃度确定统计区域内非活跃设备对应的用户数量，根据非活跃设备对应的用户数量确定第二扩样系数；

和/或，

利用扩样系数计算模型根据用户之间的通联关系进行计算得到统计区域内他网用户的数量，基于所述他网用户的数量确定第三扩样系数，所述他网用户为除所述单一运营商外的其他运营商的用户，所述通联关系为用户之间的通讯联系的关系；

和，

利用扩样系数计算模型还原非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数；

和，

利用扩样系数计算模型根据预期重复计算的用户数量的评估，计算确定第五扩样系数，所述第五扩样系数用于补偿修正重复计算的用户数量。

可选的，所述构建用于进行人口分析的数据指标，包括：

基于所述信令数据确定用户的信令位置；

当确定所述信令位置属于所述统计区域时，基于所述信令数据确定所述用户在所述统计领域内的停留时长；

根据所述停留时长及所述信令位置构建用于进行人口分析的数据指标。

可选的，所述利用扩样系数计算模型基于夜间关机回溯算法，识别由于夜间关机使得信令位置无法识别到的设备用户的用户位置，包括：

基于夜间关机回溯算法识别用户设备的夜间关机状态，对所述夜间关机状态的用户设备的关机位置进行回溯，所述用户设备的位置与所述用户的位置具有一致性；

基于所述用户设备的关机位置的回溯结果确定所述用户位置。

可选的，所述基于非活跃设备的活跃度确定统计区域内非活跃设备对应的用户数量，

根据非活跃设备对应的用户数量确定第二扩样系数，包括：

获取所述统计区域内的单一运营商包括的用户目标维度数据；

基于所述用户目标维度数据计算得到所述非活跃设备的活跃度；

利用所述非活跃设备的活跃度及所述目标人口数据得到统计区域内非活跃设备对应的用户数量，根据非活跃设备对应的用户数量确定第二扩样系数。

可选的，所述利用扩样系数计算模型根据用户之间的通联关系进行计算得到统计区域内他网用户的数量，基于所述他网用户的数量确定第三扩样系数，包括：

获取所述用户的语音信令数据，所述语音信令数据包括用户之间的通联关系；

基于所述语音信令数据中的用户间的通联关系筛选统计区域内的他网用户，并得到所述他网用户的数量，基于所述他网用户的数量确定第三扩样系数。

可选的，所述利用扩样系数计算模型还原非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数，包括：

将目标年龄范围的用户确定为非设备用户，并对所述非设备用户进行统计；

根据统计结果确定所述非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数。

第二方面，本申请实施例提供了一种基于信令数据的人口分析装置，所述装置包括：获取模块、构建模块、确定模块、计算模块及分析模块；

所述获取模块，用于获取信令数据并对所述信令数据进行数据清洗，所述信令数据为统计区域内的单一运营商的信令数据；

所述构建模块，用于构建用于进行人口分析的数据指标，所述数据指标用于确定设备用户及人口的类型，所述设备用户为所述信令数据对应的主体，所述人口的类型是基于设备用户的类型确定的；

所述确定模块，用于对所述信令数据进行去重操作得到目标数据，基于所述数据指标确定所述目标数据中的目标人口数据；

所述计算模块，用于利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数；

所述分析模块，用于基于所述目标人口数据及所述目标扩样系数确定所述统计区域内的全部所述目标人口数据，以完成人口分析。

第三方面，本申请提供了一种电子设备，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行实现第一方面所述方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面任一项所述方法。

本申请提供了一种基于信令数据的人口分析方法、装置、电子设备及存储介质，在执行所述方法时，首先获取信令数据并对所述信令数据进行数据清洗，所述信令数据为统计区域内的单一运营商的信令数据，然后构建用于进行人口分析的数据指标，所述数据指标用于确定设备用户及人口的类型，对所述信令数据进行去重操作得到目标数据，基于所述数据指标确定所述目标数据中的目标人口数据，利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数。最后基于所述目标人口数据及所述目标扩样系数确定所述统计区域内的全部所述目标人口数据，以完成人口分析。如此，通过进行数据清洗能够获得有效数据，避免后续处理过程中浪费算力资源。通过构建用于人口分析的数据指标能够便于分析统计出指定类型的人口数据，如常住人口。同时数据指标的构建方式可以根据实际情况及应用场景进行调整，适应性和灵活性强。通过对信令数据进行去重操作，能够保证信令数据对应的用户不会被重复统计，进而提高人口分析的准确性。通过利用扩样系数计算模型能够得到多个扩样系数，进而基于单一运营商的数据利用扩样系数进行多层次的扩样计算，充分考虑了各种情况下的数据源，在一定限度内能够实现由单一运营商人口统计到全量人口的扩样计算。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于信令数据的人口分析方法的流程图；

图2为本申请实施例提供的一种获得目标扩样系数的方法的流程图；

图3为本申请实施例提供的一种基于信令数据的人口分析装置的结构示意图；

图4为本申请实施例提供的一种基于信令数据的人口分析的流程图；

图5为本申请实施例提供的一种数据扩样的层次图；

图6为本申请实施例提供的一种夜间关机回溯算法的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着智能手机及大数据处理技术的不断发展，手机通信信令数据得到了广泛的应用。手机通信信令具备样本覆盖较全、时空信息精度高、连续性强的特点。因此，可以将运营商的通信信令数据经过大数据技术转化为与现行人口统计调查制度的范围、分类和计算标准一致的数据。紧扣现行人口统计制度，有效对接运营商大数据，构建科学、有效的常住人口生产模型。

当前我国有多家运营商提供通信服务，在对区域人口进行计算的时候，需要通过对所有运营商的多种数据进行联合建模分析才行。这样会导致分析的成本过高。目前在基于运营商的通信信令数据人口计算时，都会采用单一运营商的数据进行计算。在计算结果的基础上，通过扩样系数完成整个区域人口的计算。因此，扩样系数的确定成为基于运营商的通信信令数据人口计算的关键点。

在对于相关技术的研究中发现，相关技术的扩样系数的计算，采用的源数据为用户信令轨迹数据，主要是通过不同运营商市场份额占比或将人口进行分类（如常住人口、流动人口），然后通过官方的统计数据进行扩样系数（官方常住人口/统计常住人口）确定。而这些技术方案的扩样系数计算简单、数据源单一而且准确度难以保证，导致区域人口的计算结果准确度不够。

基于此，本申请提出了一种基于信令数据的人口分析方法、装置、电子设备及存储介质。能够经过多层次的扩样算法，实现由单一运营商人口统计到全量人口的扩样计算。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请下文的实施例中可能涉及的若干个名词术语进行解释。

信令数据：手机的信令数据指的是手机在使用过程中产生的一系列信息，包括手机的位置、通话记录、短信记录、上网记录等。这些数据是通过手机与基站之间的通信而产生的，可以用来分析用户的行为和移动趋势。

图1为本申请实施例提供的一种基于信令数据的人口分析方法的流程图，参见图1所示，本申请实施例提供的一种基于信令数据的人口分析方法包括：

S11：获取信令数据并对所述信令数据进行数据清洗，所述信令数据为统计区域内的单一运营商的信令数据。

上述提到了对信令数据进行数据清洗，数据清洗顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除；把缺失部分补充完整，并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。通过对数据进行清洗能够保证数据的有效性，进而使得后续的人口分析能够更加准确。

上述提到的信令数据指的是统计区域内的单一运营商，可以理解的是在某一统计区域内可以包括多个运营商，当存在多个运营商时仅需获取其中一个运营商的信令数据。通过本申请提出的基于信令数据的人口分析方法能够根据其中一个运营商的信令数据完成该统计区域的人口分析。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

S12：构建用于进行人口分析的数据指标，所述数据指标用于确定设备用户及人口的类型，所述设备用户为所述信令数据对应的主体，所述人口的类型是基于设备用户的类型确定的。

步骤S12提到“构建用于进行人口分析的数据指标”，具体的方法可以为：首先基于所述信令数据确定用户的信令位置。然后当确定所述信令位置属于所述统计区域时，基于所述信令数据确定所述用户在所述统计领域内的停留时长。最后根据所述停留时长及所述信令位置构建用于进行人口分析的数据指标。

具体而言，用于进行人口分析的数据指标可以包括但不限于以下内容：手机用户、有效用户、稳定用户、第一常住人口（以月为单位）及第二常住人口（以年为单位）。数据指标用于确定设备用户及人口的类型，设备用户为所述信令数据对应的主体，人口的类型是基于设备用户的类型确定的。

其中上述数据指标的区分方法可以根据用户的信令数据的位置以及停留时长确定，具体的数据指标的构建方式中，可以通过设置时长阈值进行不同数据指标的标准的确定。举例而言，在统计区域内停留时长超过时长阈值的可以确定为有效用户，在统计区域内周期性停留时长超过时长阈值的可以确定为稳定用户。具体的数据指标的构建可以由本领域技术人员根据实际情况及应用场景进行设定具体的构建标准，在此不作限定。

具体的构建过程中首先需要根据信令数据确定用户的信令位置，通过确定用户的信令位置可以得知用户是否位于统计区域内。当确定信令位置属于统计区域时，基于信令数据确定用户在统计领域内的停留时长，根据用户的停留时长可以划分出不同的数据指标的构建标准。

通过上述构建数据指标的方法能够根据用户的信令位置确定用户的所在位置，进而能够确定出属于统计区域的用户，进而根据信令数据确定用户在统计区域内的停留时长，根据用户的不同的停留时长能够确定出不同的用户的数据指标的构建标准，根据该构建标准能够完成数据指标的构建。

S13：对所述信令数据进行去重操作得到目标数据，基于所述数据指标确定所述目标数据中的目标人口数据。

进行去重操作的目的在于，在现实中存在一个用户对应多个号码，进而对应多个信令数据的情况。在这种情况下对于拥有多个信令数据的用户会出现重复统计的情况，故需要对此类数据进行去重操作。将完成去重操作后的数据记为目标人口数据。

具体的进行去除操作的方法可以但不限于以下方法：利用剔重模型或一人多号识别模型进行。上述提到的剔重模型可以用于将物联网卡数据、特殊传输号码数据从常住人口（年）中剔除，保障用户的有效性。一人多号识别模型可以用于构建手机用户特征向量模型，通过特征向量拟合算法识别一人多号用户，结合机器学习算法对特征向量拟合中的各项参数进行设定，通过特征向量间偏差来推算不同手机用户之间的重合度，实现对多卡用户进行剔重，从而减少人口统计误差。构建的主要特征向量包含：终端、用户工作基站、用户居住基站、栅格拉链轨迹、开户证件。

S14：利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数。

步骤S14中提到“利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数”，图2为本申请实施例提供的一种获得目标扩样系数的方法的流程图，如图2所示，该方法可以为：

S141：利用扩样系数计算模型基于夜间关机回溯算法，识别由于夜间关机使得信令位置无法识别到的设备用户的用户位置，根据所述用户位置确定统计区域的用户数量，基于所述用户数量确定第一扩样系数。

计算第一扩样系数的目的在于还原在统计区域内使用行为不规律的设备对应的用户，使用行为不规律可以指的是用户设备为关机状态。具体而言上述提到的目标人口数据获取的时段可以为每日21：00至次日7：00，为解决夜间关机导致常住地无法识别的活跃设备，需要通过夜间关机回溯算法识别出该部分设备用户，计算出第一扩样系数。

手机用户在夜间处于关机状态时，会导致关机期间用户位置信令缺失，影响用户位置计算，特别是影响用户居住工作地计算。因此需要识别用户夜间关机状态及关机位置，进行关机位置回溯，确保用户夜间位置计算的完整性。

步骤S141中提出：“利用扩样系数计算模型基于夜间关机回溯算法，识别由于夜间关机使得信令位置无法识别到的设备用户的用户位置”，具体的过程可以为：首先基于夜间关机回溯算法识别用户设备的夜间关机状态，对所述夜间关机状态的用户设备的关机位置进行回溯，所述用户设备的位置与所述用户的位置具有一致性。然后基于所述用户设备的关机位置的回溯结果确定所述用户位置。

具体而言，可以通过夜间关机回溯算法识别用户设备的夜间关机状态，用户的关机行为识别可以通过设置关机时间阈值，若用户未收到任何信令数据的时间超过关机时间阈值，则识别该用户存在关机行为。然后需要对用户设备的关机位置进行回溯，以便确定该用户设备的位置是否位于统计区域，根据用户设备位置可以确定出用户对应的位置，原因在于一般情况下用户设备与用户的位置是一致的。通过对用户的位置进行回溯可以确定出用户是否位于统计区域内，进而确定出此类用户的数量。上述提到的关机时间阈值可以由本领域技术人员根据实际情况及应用场景进行自由设定，举例而言可以为1小时，2小时等，在此不作限定。

通过上述提到的对关机用户识别方法，利用夜间关机回溯算法能够确定出具有关机行为的用户设备，然后可以对该用户设备的关机位置进行回溯，通过对关机位置的回溯能够确定出该用户设备的所在位置是否属于统计区域，进而确定该设备的用户是否属于统计区域。

S142：利用扩样系数计算模型基于非活跃设备的活跃度确定统计区域内非活跃设备对应的用户数量，根据非活跃设备对应的用户数量确定第二扩样系数。

计算第二扩样系数的目的在于还原一部分非活跃设备。对该设备进行还原的原因在于：非活跃设备使用频率较低，难以通过捕捉规律性时空轨迹实现人口特征识别。

步骤S142中提到“基于非活跃设备的活跃度确定统计区域内非活跃设备对应的用户数量，根据非活跃设备对应的用户数量确定第二扩样系数”，具体的实现方法可以为：首先获取所述统计区域内的单一运营商包括的用户目标维度数据。然后基于所述用户目标维度数据计算得到所述非活跃设备的活跃度。最后利用所述非活跃设备的活跃度及所述目标人口数据得到统计区域内非活跃设备对应的用户数量，根据非活跃设备对应的用户数量确定第二扩样系数。

上述提到的目标维度数据可以包括但不限于以下数据：用户轨迹数据、语音话单数据、短信话单数据、流量话单数据及用户消费数据等。上述提到的非活跃设备的活跃度可以理解为是判断是否属于非活跃设备的活跃度阈值或是一个活跃度的范围，举例而言，当设备的活跃度符合非活跃设备的活跃度，则认定该设备为非活跃设备。同时非活跃设备的活跃度与用户目标维度数据具有关联关系，需要基于采用维度权重系数算法，根据用户在计算时间序列内的各个用户目标维度数据的活跃度，计算出用户的活跃度系数，如系数在定义的阈值区间内，则认为该用户属于非活跃设备的目标人口数据，本实施例中的目标人口数据可以理解为是常驻人口数据。

通过上述计算第二扩样系数的方法，能够通过获取到的单一运营商的用户目标维度数据，根据用户目标维度数据计算出非活跃设备的活跃度，进而能够确定出在该统计区域内的非活跃设备的数量，进而确定出对应的用户数量，根据该用户数量能狗经过计算确定出第二扩样系数。

S143：利用扩样系数计算模型根据用户之间的通联关系进行计算得到统计区域内他网用户的数量，基于所述他网用户的数量确定第三扩样系数。

上述他网用户为除所述单一运营商外的其他运营商的用户，上述通联关系为用户之间的通讯联系的关系。

步骤S143中提到“利用扩样系数计算模型根据用户之间的通联关系进行计算得到统计区域内他网用户的数量，基于所述他网用户的数量确定第三扩样系数”，具体的实现方法可以为：首先获取所述用户的语音信令数据，所述语音信令数据包括用户之间的通联关系。然后基于所述语音信令数据中的用户间的通联关系筛选统计区域内的他网用户，并得到所述他网用户的数量，基于所述他网用户的数量确定第三扩样系数。

计算第三扩样系数的目的在于实现由单一运营商到他网数据的扩样，通过用户间的通联关系进行计算。计算时间序列长度>=1年（此为示例），基于用户的语音信令数据，统计分析统计区域中的他网用户。

S144：利用扩样系数计算模型还原非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数。

步骤S144中提到“利用扩样系数计算模型还原非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数”，具体的实现方法可以为：首先将目标年龄范围的用户确定为非设备用户，并对所述非设备用户进行统计。然后根据统计结果确定所述非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数。

这一系数旨在还原相当一部分非移动通信设备用户。如婴幼儿、小学生等因其习惯与能力限制无法使用手机的用户。当前此系数只能依据现有人口数据，依据统计区域人口年龄占比进行数据的反补。

S145：利用扩样系数计算模型根据预期重复计算的用户数量的评估，计算确定第五扩样系数，所述第五扩样系数用于补偿修正重复计算的用户数量。

随着电子产品设备的发展，儿童手表这一类型的设备对应的用户数量在逐步提升，因运营商注册号卡年龄限制，往往由儿童父母进行代办。在第三扩样系数进行的扩样中，已经将低龄儿童进行了扩样，由此会导致重复计算。需要通过补偿修正扩样系数就行修正。因此系数与统计区域由很强的相关性，所以需要根据统计区域进行独立计算。通过用户的终端品牌、型号等数据挖掘识别出儿童手表用户。计算出统计区域的儿童手表用户数量，进而确定第五扩样系数。

S15：基于所述目标人口数据及所述目标扩样系数确定所述统计区域内的全部所述目标人口数据，以完成人口分析。

在本实施例中提出了一种基于信令数据的人口分析方法，该方法首先获取信令数据并对所述信令数据进行数据清洗，所述信令数据为统计区域内的单一运营商的信令数据，然后构建用于进行人口分析的数据指标，所述数据指标用于确定设备用户及人口的类型，对所述信令数据进行去重操作得到目标数据，基于所述数据指标确定所述目标数据中的目标人口数据，利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数。最后基于所述目标人口数据及所述目标扩样系数确定所述统计区域内的全部所述目标人口数据，以完成人口分析。如此，通过进行数据清洗能够获得有效数据，避免后续处理过程中浪费算力资源。通过构建用于人口分析的数据指标能够便于分析统计出指定类型的人口数据，如常住人口。同时数据指标的构建方式可以根据实际情况及应用场景进行调整，适应性和灵活性强。通过对信令数据进行去重操作，能够保证信令数据对应的用户不会被重复统计，进而提高人口分析的准确性。通过利用扩样系数计算模型能够得到多个扩样系数，进而基于单一运营商的数据利用扩样系数进行多层次的扩样计算，充分考虑了各种情况下的数据源，在一定限度内能够实现由单一运营商人口统计到全量人口的扩样计算。

图3为本申请实施例提供的一种基于信令数据的人口分析装置的结构示意图，如图3所示，一种基于信令数据的人口分析装置具体包括：获取模块100、构建模块200、确定模块300、计算模块400及分析模块500；

所述获取模块100，用于获取信令数据并对所述信令数据进行数据清洗，所述信令数据为统计区域内的单一运营商的信令数据；

所述构建模块200，用于构建用于进行人口分析的数据指标，所述数据指标用于确定设备用户及人口的类型，所述设备用户为所述信令数据对应的主体，所述人口的类型是基于设备用户的类型确定的；

所述确定模块300，用于对所述信令数据进行去重操作得到目标数据，基于所述数据指标确定所述目标数据中的目标人口数据；

所述计算模块400，用于利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数；

所述分析模块500，用于基于所述目标人口数据及所述目标扩样系数确定所述统计区域内的全部所述目标人口数据，以完成人口分析。

在可以的实现方式中，所述计算模块400，具体用于：

和/或，

利用扩样系数计算模型基于非活跃设备的活跃度确定统计区域内非活跃设备对应的用户数量，根据非活跃设备对应的用户数量确定第二扩样系数；

和/或，

和，

利用扩样系数计算模型还原非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数；

和，

利用扩样系数计算模型根据预期重复计算的用户数量的评估，计算确定第五扩样系数，所述第五扩样系数用于补偿修正重复计算的用户数量。

在可以的实现方式中，所述构建模块200，具体用于：

基于所述信令数据确定用户的信令位置；

当确定所述信令位置属于所述统计区域时，基于所述信令数据确定所述用户在所述统计领域内的停留时长；

根据所述停留时长及所述信令位置构建用于进行人口分析的数据指标。

在可以的实现方式中，所述计算模块400，具体用于：

基于所述用户设备的关机位置的回溯结果确定所述用户位置。

在可以的实现方式中，所述计算模块400，具体用于：

获取所述统计区域内的单一运营商包括的用户目标维度数据；

基于所述用户目标维度数据计算得到所述非活跃设备的活跃度；

利用所述非活跃设备的活跃度及所述目标人口数据得到统计区域内非活跃设备对应的用户数量，根据非活跃设备对应的用户数量确定第二扩样系数。

在可以的实现方式中，所述计算模块400，具体用于：

获取所述用户的语音信令数据，所述语音信令数据包括用户之间的通联关系；

基于所述语音信令数据中的用户间的通联关系筛选统计区域内的他网用户，并得到所述他网用户的数量，基于所述他网用户的数量确定第三扩样系数。

在可以的实现方式中，所述计算模块400，具体用于：

将目标年龄范围的用户确定为非设备用户，并对所述非设备用户进行统计；

根据统计结果确定所述非设备用户的数量，基于所述非设备用户的数量确定第四扩样系数。

在本实施例中提出了一种基于信令数据的人口分析装置，该装置包括：获取模块、构建模块、确定模块、计算模块及分析模块。其中获取模块用于获取信令数据并对所述信令数据进行数据清洗，所述信令数据为统计区域内的单一运营商的信令数据；构建模块用于构建用于进行人口分析的数据指标；确定模块用于对所述信令数据进行去重操作得到目标数据，基于所述数据指标确定所述目标数据中的目标人口数据；计算模块用于利用扩样系数计算模型进行两个或两个以上扩样系数的计算得到目标扩样系数；分析模块用于基于所述目标人口数据及所述目标扩样系数确定所述统计区域内的全部所述目标人口数据，以完成人口分析。如此，通过进行数据清洗能够获得有效数据，避免后续处理过程中浪费算力资源。通过构建用于人口分析的数据指标能够便于分析统计出指定类型的人口数据，如常住人口。同时数据指标的构建方式可以根据实际情况及应用场景进行调整，适应性和灵活性强。通过对信令数据进行去重操作，能够保证信令数据对应的用户不会被重复统计，进而提高人口分析的准确性。通过利用扩样系数计算模型能够得到多个扩样系数，进而基于单一运营商的数据利用扩样系数进行多层次的扩样计算，充分考虑了各种情况下的数据源，在一定限度内能够实现由单一运营商人口统计到全量人口的扩样计算。

本申请实施例还提出了一种应用场景下的一种基于信令数据的人口分析方法，图4为本申请实施例提供的一种基于信令数据的人口分析的流程图，如图4所示，具体而言：

整体实现可以分为4个步骤，以下为具体阐述：

步骤1：数据预处理，这一步主要是对轨迹信令数据进行清洗，保证计算数据的有效性

步骤2：指标体系构建：基于运营商大数据，严格按照现行人口统计制度方法、原则和相关规定，构建了科学、有效的人口统计分析指标体系，建立了手机用户与常住人口的对应关系，实现将手机运营商的用户数量按现行统计制度规定转化为现行人口统计数量。构建如下分析指标体系：

手机用户：统计区域内，当日至少捕捉到一条信令位置的用户，去重后汇总计算得到当日手机用户。

有效用户：24小时内在统计区域驻留10小时以上的用户数。

稳定用户：统计周期内在统计区域停留指定时长的用户。

常住人口(月)：以月为单位，满足以下条件：

①满足稳定用户的前提下，即一个月内有15（2月份为14）天及以上，每天在统计区域停留10小时及以上；

②每日21:00至次日07:00之间停留时长最长的区域为日居住地，累计在统计区域居住天数是统计周期天数一半及以上的用户为统计区域的居住用户；

常住人口(年)：近12个月内，满足在统计区域常住月数>=6的用户为统计区域常住人口；

步骤3：常住人口分析：包含剔重模型和一人多号识别模型。

剔重模型：将物联网卡数据、特殊传输号码数据从常住人口（年）中剔除，保障用户的有效性。

一人多号识别模型：构建手机用户特征向量模型，通过特征向量拟合算法识别一人多号用户，结合机器学习算法对特征向量拟合中的各项参数进行设定，通过特征向量间偏差来推算不同手机用户之间的重合度，实现对多卡用户进行剔重，从而减少人口统计误差。构建的主要特征向量包含：终端、用户工作基站、用户居住基站、栅格拉链轨迹、开户证件。

将步骤3的结果数据记为S

步骤4：人口扩样系数算法

从单一运营商的统计区域常住人口（年）到统计区域的常住人口计算，本申请设计了4个层次的扩样，涵盖5个S值、4个K值、一个λ值。图5为本申请实施例提供的一种数据扩样的层次图，如图5所示，通过对步骤3中的S

其中，

（1）夜间非活跃设备扩样系数K1的获取

这一步扩样旨在还原相当一部分使用行为不规律的设备用户，在计算S

手机用户在夜间处于关机状态时，会导致关机期间用户位置信令缺失，影响用户位置计算，特别是影响用户居住工作地计算。因此需要识别用户夜间关机状态及关机位置，进行关机位置回溯，确保用户夜间位置计算的完整性。图6为本申请实施例提供的一种夜间关机回溯算法的示意图，如图6所示：

Imsi是写在sim卡上的一个号码，无线网络用imsi标识一个终端，imsi在一个网络里是唯一的，不能重复。Imsi对应一个手机号码msisdn，就是我们常说的手机号码，基于imsi对应的基站位置能够确定出用户位置。图中的号码可以表示标识为imsi，Cell用于表示基站，基站1为cell1,基站2为cell2……基站n为celln。在本申请中需要利用基站探针对用户对应所在的基站进行确定，如图所示，当前基于基站探针确定出该用户关机时基站为cell5，开机时基站为cellx。当关机前的最后一个基站与开机后的第一个基站重合（即cell5=cellx），同时关机时间小于回溯时间阈值时，则将用户的位置、关机时间进行回溯，时间累计到cellx上，计算得到集合Nr1{imsi,1,(t1,cell1), (t2,cell2), (t3,cell3),(t4,cell4), (t5+t6+t7,cell5),(t7,cell7), (t8,cell8), (t9,cell9,0), (tn,celln,0),(…,…)}；否则（即cell5≠cellx时），关机时间段位置则为未知状态，进行舍弃计算（将t6时段进行舍弃）得到集合Nr2{imsi,(t1,cell1), (t2,cell2), (t3,cell3), (t4,cell4), (t5,cell5),(t7,cell7), (t8,cell8), (t9,cell9,0), (tn,celln,0),(…,…)}，以完成对用户位置序列的优化处理。

该算法的流程包括：

1）在单位时间内，针对同一用户，按照基站进入时间进行排序，获得用户基站集合N{imsi,(t1,cell1), (t2,cell2), (t3,cell3), (t4,cell4), (t5,cell5), (t7,cellx), (tn,celln),(…,…)}；

2）计算每个基站的驻留时长：设定进入当前基站时间为Tin，离开当前基站时间为Tout，基站驻留时长Ti=Tout-Tin，单位为秒；

3）关机行为识别：关机时间阈值Tg（比如：1小时），如果用户在超过Tg时间未收到任何信令数据，则标识为用户存在关机行为；

4）关机前后基站数据计算：对识别为关机行为的用户，计算关机前的最后一个基站记为cell_x，开机后的第一个基站记为cell_y；

5）回溯时间阈值设定：设定回溯时间阈值Tc，如果在Tc范围内，则认为可以将关机时间段内的时间、位置进行回溯；

6）开关机位置判断：对cell_x、cell_y，Tg、Tc进行判断，如果cell_x=cell_y&Tg<=Tc（当关机前的最后一个基站与开机后的第一个基站重合，同时关机时间小于回溯时间阈值），则将用户的位置、关机时间进行回溯，时间累计到cellx上，计算得到集合Nr1{imsi,1,(t1,cell1), (t2,cell2), (t3,cell3), (t4,cell4), (t5+t6+t7,cell5),(t7,cell7),(t8,cell8), (t9,cell9,0), (tn,celln,0),(…,…)}；否则，关机时间段位置则为未知状态，进行舍弃计算得到集合Nr2{imsi,(t1,cell1), (t2,cell2), (t3,cell3), (t4,cell4), (t5,cell5),(t7,cell7), (t8,cell8), (t9,cell9,0), (tn,celln,0),(…,…)}；可以理解的是，上述提到的t1、t2、t3……tn即为步骤2）中提到的Ti，表示在该基站的驻留时长。

通过夜间关机回溯算法，计算出常住统计时间段非活跃用户，按照常住用户的统计口径计算出统计区域的夜间关机常住用户数，记为U

K1 = S

（2）独立运营商活跃用户扩样系数K2的获取

这一步扩样旨在还原一部分非活跃设备，因其使用频率较低，难以通过捕捉规律性时空轨迹实现人口特征识别。需要利用运营商多源数据，包含用户轨迹数据、语音话单数据、短信话单数据、流量话单数据、用户消费数据，综合计算活跃度超低用户。计算时间序列长度>=1年。采用维度权重系数算法，根据用户在计算时间序列内的各个维度活跃度，计算出用户的活跃度系数，如系数在定义的阈值区间内，则认为该用户属于非活跃设备常住用户。

设定统计时间序列内用户5个维度向量及对应的活跃系数向量为：

用户轨迹向量Ug=(G1,G2,…Gi),活跃系数向量γ

用户语音向量Uc=(C1,C2,…Ci), 活跃系数向量γ

用户短信向量Us=(S1,S2,…Si), 活跃系数向量γ

用户流量向量Ud=(D1,D2,…Di), 活跃系数向量γ

用户消费向量Um=(M1,M2,…Mi), 活跃系数向量γ

维度权重向量W=(W1,W2,W3,W4,W5);

则非活跃设备活跃度P计算如公式1所示：

（公式1）

则K2的计算公式如公式2所示：

（公式2）

其中

n为统计区域内非活跃设备总数；

P为统计区域内的非活跃设备活跃度；

Q为统计区域内的活跃阈值区间=[q

（3）所有运营商扩样系数K3的获取

这一步旨在实现由单一运营商到三网数据的扩样。通过用户间的通联关系进行计算。计算时间序列长度>=1年，基于用户的语音信令数据，统计分析统计区域中的他网用户。

设定本网常住用户的通联集合S

（公式3）

其中，S

T表示统计区域内、计算时间序列内与移动常住用户通联的第一他网剔重用户数；

U表示统计区域内、计算时间序列内与移动常住用户通联的第二他网剔重用户数。

（4）常住人口反补扩样系数K4的获取

这一系数旨在还原相当一部分非移动通信设备用户。如婴幼儿、小学生等因其习惯与能力限制无法使用手机的用户。当前此系数可以依据全国人口普查数据获得，依据统计区域人口年龄占比进行数据的反补。如统计区域i的0~18岁人口占比为r，则K4的计算公式如下：

K4 = 1–r

（5）补偿修正扩样系数λi的获取

随着电子产品设备的发展，儿童手表用户数量在逐步提升，因运营商注册号卡年龄限制，往往由儿童父母进行代办。在常住人口反补扩样系数K4扩样中，以将低龄儿童进行了扩样，导致了重复计算。需要通过补偿修正扩样系数就行修正。因此系数与统计区域由很强的相关性，所以需要根据统计区域进行独立计算。通过用户的终端品牌、型号等数据挖掘识别出儿童手表用户。计算出统计区域i的儿童手表用户数量为X

其中，C

（6）统计区域常住人口计算

设定基于独立运营商计算的统计区域i的常住人口（年）=S

则扩样后的统计区域i的常住人口C

其中：

通过上述方法能够实现由单一运营商人口统计到全量人口的扩样计算。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本申请实施例还提供了对应的设备以及计算机可读存储介质，用于实现本申请实施例提供的方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本申请任一实施例所述的一种基于信令数据的人口分析方法。

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京艾瑞数智科技有限公司;

上一篇：一种谷物冷却输送装置
下一篇：一种分立器件DFN封装的组焊封装生产线和封装工艺