导航：首页> 医学或兽医学；卫生学>数据分析方法和数据分析装置

数据分析方法和数据分析装置

文献发布时间：2024-01-17 01:15:20

技术领域

本发明涉及数据处理方法，具体涉及一种数据分析方法和数据分析装置。

背景技术

在日常生活中，随时可能发生事件。某一项事件的发生往往是多种因素共同作用的结果，不同的因素对事件的发生(也即，目标)具有不同的影响，但在现有技术中，很难对各因素的影响程度进行量化。

发明内容

有鉴于此,本发明实施例的目的在于提供一种数据分析方法和数据分析装置，用于对量化各因素对目标的影响程度，并根据因素对目标的影响程度确定出目标因素，以促进事件的发生或避免事件的发生。

根据本发明实施例的第一方面，提供一种数据分析方法，所述方法包括：

获取信息集合，所述信息集合包括多个对象分别在各影响因素下的属性信息；

根据所述信息集合确定候选影响因素，并确定各候选影响因素对目标的影响度参数，所述候选影响因素为与所述目标具有因果关系的所述影响因素；

根据所述影响度参数从所述候选影响因素中确定出目标因素。

优选地，所述根据所述信息集合确定候选影响因素包括：

根据所述信息集合生成因果图，所述因果图用于表征各所述影响因素以及所述目标间的因果关系；

根据所述因果图将与所述目标具有因果关系的所述影响因素确定为所述候选影响因素。

优选地，所述影响因素包括直接影响因素和间接影响因素，所述影响度参数包括直接影响度参数和间接影响度参数。

优选地，所述确定各候选影响因素对目标的影响度参数包括：

分别确定各所述直接影响因素、对应的所述间接影响因素和所述目标的关系函数；

根据所述关系函数确定所述直接影响度参数和所述间接影响度参数。

优选地，所述分别确定各所述直接影响因素、对应的所述间接影响因素和所述目标的关系函数包括：

通过预定的函数构建方式，以所述直接影响因素和/或所述间接影响因素为自变量，并以所述目标为因变量构建所述关系函数；或者

通过所述函数构建方式，以所述间接影响因素为自变量，以对应的所述直接影响因素为因变量构建所述关系函数。

优选地，所述预定的函数构建方式包括线性回归、贝叶斯回归和逻辑回归中的至少一项。

优选地，所述根据所述影响度参数从所述候选影响因素中确定出目标因素包括：

将所述影响度参数满足预定影响度条件的所述候选影响因素确定为所述目标因素。

优选地，所述对象为用户，所述目标为用户留存率。

根据本发明实施例的第二方面，提供一种数据分析装置，所述装置包括：

信息获取单元，用于获取信息集合，所述信息集合包括多个对象分别在各影响因素下的属性信息；

参数确定单元，用于根据所述信息集合确定与所述目标具有因果关系的候选影响因素，并确定各候选影响因素对目标的影响度参数，所述候选影响因素为与所述目标具有因果关系的所述影响因素；

目标因素确定单元，用于根据所述影响度参数从所述候选影响因素中确定出目标因素。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

根据本发明实施例的第四方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

根据本发明实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，其中，该计算机程序/指令被处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例在获取多个用户分别在各影响因素下的属性信息作为信息集合后，根据信息集合确定与用户留存率具有因果关系的影响因素，然后确定出与用户留存率具有因果关系的各影响因素的影响度参数，从而根据影响度参数从候选影响因素中确定出目标因素。本发明实施例可以量化各因素对目标的影响程度，并根据因素对目标的影响程度确定出目标因素，以促进事件的发生或避免事件的发生。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的硬件系统架构的示意图；

图2是本发明第一实施例的数据分析方法的流程图；

图3是本发明实施例的因果图的结构示意图；

图4是本发明实施例的因果图的部分结构示意图；

图5是本发明第二实施例的数据分析装置的示意图；

图6是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

某一项事件的发生往往是多种因素共同作用的结果，但并不是所有的因素都会导致事件的发生，也就是说，并非所有因素都与事件的发生具有因果关系。例如，夏季海滩上冰激凌的销量与防晒霜的销量存在正相关的关系，但即使海滩上停止了冰激凌的销售，对防晒霜的销量影响也很小，因此冰激凌的销量与防晒霜的销量并不具有因果关系。

同时，不同的因素对事件的发生(也即，目标)具有不同的影响，但在现有技术中，很难对各因素的影响程度进行量化。例如，对于网约车APP，在以用户留存率为目标时，网约车司机的接单响应速度(也即，从用户发布网约车订单到有网约车司机接受该网约车订单的时长)、网约车司机的评价、网约车平台的收费情况等因素均会对用户留存率产生影响，但很难确定在上述因素中，究竟哪个因素或哪些因素对用户留存率的影响较大，而哪些因素对用户留存率较小。因此，在后续过程中，很难根据因素对目标的影响程度对因素进行及时干预，以促进事件的发生，或抑制事件的发生。

以实际应用场景为网约车应用场景为例进行说明。图1是本发明实施例的硬件系统架构的示意图。图1所示的系统包括至少一个用户终端11、至少一个服务器12(也即，预定网约车APP的服务器)和至少一个服务终端13，本实施例以一个用户终端11、一个服务器12和一个服务终端13为例进行说明。终端11、服务器12和服务终端13可以通过网络建立通信连接。

在本发明实施例中，用户可以通过用户终端11注册成为预定网约车APP(应用)的注册用户，并通过预定网约车APP发布网约车订单。服务器12可以获取到用户发布的网约车订单，并通过现有的方式，例如指定分配、按距离随机分配等方式将网约车订单分配给持有服务终端13的网约车司机，以使得网约车司机可以为用户提供服务。为了监管网约车司机在处理网约车订单的整个服务流程，服务器12可以在得到用户授权的情况下获取到整个服务流程内产生的、与网约车订单相关的数据，这部分数据包括用户终端11上传的数据以及服务终端13上传的数据，并将这部分数据存储在数据库(图1中未示出)中。

在进行数据分析的过程中，服务器12可以获取多个用户分别在各影响因素下的属性信息作为信息集合，并根据信息集合确定与用户留存率具有因果关系的影响因素，然后确定出与用户留存率具有因果关系的各影响因素的影响度参数，从而根据影响度参数从候选影响因素中确定出目标因素。

下面通过方法实施例对本发明实施例的数据分析方法进行说明。图2是本发明第一实施例的数据分析方法的流程图。如图2所示，本实施例的方法包括如下步骤：

步骤S100，获取信息集合。

在本实施例中，信息集合包括多个对象分别在各影响因素下的属性信息，影响因素也即与目标具有相关性的因素。对象可以为日常生活中的事物，例如可以为人、出租车、鸟类、树木等。可选地，信息集合也可以包括目标对应的取值。目标对应的取值可以表征事件发生的概率，例如，在目标为用户留存率时，目标对应的取值可以表征用户留存率为30％。

在一种可选的实现方式中，在确定对象和目标后，服务器可以通过相关性分析的方式，例如计算因素与目标的相关系数(也即，皮尔逊相关系数)确定与目标具有相关性的因素作为影响因素。因素与目标的相关性可能随着时间的变化发生改变，因此可选地，可以按照预定周期获取信息集合。

例如，在确定对象为人，目标为预定APP(例如，预定的网约车APP)的用户留存率后，可以在经过用户授权的情况下获取该网约车APP的网约车平台的注册用户在预定周期(例如，一周)内的历史订单数据，并确定历史订单数据中分别在网约车司机的接单响应速度、接驾时长、接驾距离以及可接受网约车订单的网约车司机的数量、等待人数、网约车司机的评分、以及在该周期内乘坐公共交通的人数等因素下的属性信息，然后将与目标的皮尔逊相关系数大于第一阈值(例如，大于0.1)的因素确定为影响因素。属性信息也即分别在上述各因素下的取值，例如，在因素为网约车司机的评分时,网约车司机D1的属性信息可以为4.2分。

在互联网行业中，用户在某个时间注册使用预定应用，且经过一段时间后用户仍旧在使用该预定应用，可以认为该用户为留存用户。在预定周期内，留存用户与该预定应用的新增注册用户的比值表征该预定应用的用户留存率。网约车司机的接驾时长也即网约车司机在接受网约车订单至到达网约车订单中用户设置的起始位置所消耗的时长，例如，网约车司机D1在20:00接受了订单Or1，到达订单Or1中用户设置的起始位置的时间为20:15，则接驾时长为15min。网约车司机的接驾距离也即网约车司机在接受网约车订单时所在的位置与网约车订单中用户设置的起始位置的距离，例如，网约车司机D1在位置P1接受了订单Or1，订单Or1中用户设置的起始位置为位置P2，则网约车司机的接驾距离为P1与P2的距离。等待人数也即用户发布网约车订单后在该网约车订单前未被分配给网约车司机的网约车订单的数量。

步骤S200，根据信息集合确定候选影响因素，并确定各候选影响因素对目标的影响度参数。

候选影响因素也即与目标具有因果关系的影响因素，会对事件的发生起到影响作用，而与目标不具有因果关系的影响因素与目标不具有必然联系。因此在本实施例的一种可选的实现方式中，可以根据信息集合将候选影响因素从全部影响因素中筛选出来，以确定各候选影响因素对目标的影响度参数。

在本实施例的一种可选的实现方式中，可以根据信息集合生成因果图，并根据因果图将与目标具有因果关系的影响因素确定为候选影响因素。进一步地，候选影响因素被划分为直接影响因素和间接影响因素。直接影响因素也即对目标具有直接影响的候选影响因素，间接影响因素也即对目标具有间接影响的候选影响因素，也即，通过其他候选影响因素对目标起到影响的候选影响因素。容易理解，部分候选影响因素可以既为直接影响因素，又为间接影响因素。

因果图因形似鱼的骨架又名鱼骨图，是一种发现问题根本原因的分析方法。因果图大致分为整理问题型因果图、原因型因果图和对策型因果图。因果图根据对象在影响因素下的属性信息将目标和影响因素按相互关联性整理成层次分明、条理清晰的特性要因图(或称特性原因图)，能够清晰地表征各影响因素以及目标之间的因果关系。

可选地，可以以目标为因果图的鱼头节点，并以各影响因素为其他部位的节点，通过计算目标与任一影响因素同时发生的概率是否等于目标发生的概率与该影响因素发生的概率的乘积来确定目标的发生与该影响因素的发生是否为独立事件。若为独立事件，表示目标与该影响因素不具有因果关系，因此在因果图中不具有连接关系。同时，也可以计算任一影响因素与其他影响因素同时发生的概率是否等于该影响因素发生的概率与其他影响因素发生的概率的乘积来确定该影响因素的发横与其他影响因素的发生是否为独立事件。若为独立事件，表示该影响因素与其他影响因素不具有因果关系，因此在因果图中不具有连接关系。在确定目标以及各影响因素之间的连接关系后，可以通过逻辑判断的方式确定具有连接关系的影响因素之间的因果关系，也即因果图中箭头的方向。

图3是本发明实施例的因果图的结构示意图。如图3所示，节点31为因果图的鱼头节点，表征目标，也即用户留存率，节点32表征网约车司机的接驾时长，节点33表征网约车司机的接单响应速度，节点34表征网约车司机的接驾距离，节点35表征等待人数，节点36表征可接受网约车订单的网约车司机的数量，节点37表征周期内乘坐公共交通的人数。通过图3可以看出，节点37与节点31之间不具有连接关系，因此周期内乘坐公共交通的人数与用户留存率不具有因果关系。节点32、节点33、节点34和节点35为直接影响因素，节点33、节点34、节点35和节点36为间接影响因素。

在确定直接影响因素和间接影响因素后，可以确定各直接影响因素对目标的直接影响度参数以及各间接影响因素的间接影响度参数作为影响度参数。

在一种可选的实现方式中，可以分别确定各直接影响因素、对应的间接影响因素和目标的关系函数，并根据关系函数确定直接影响因素对目标的直接影响度参数，同时根据关系函数确定间接影响因素对目标的间接影响度参数。具体地，可以通过预定的函数构建方式，以直接影响因素和/或间接影响因素为自变量、并以目标为因变量构建关系函数，或者通过预定的函数构建方式，以间接影响因素为自变量并以直接影响因素为因变量构建关系函数。在本实施例中，预定的函数构建方式可以为线性回归、贝叶斯回归和逻辑回归中的至少一项。

在预定的函数构建方式为线性回归时，可以假设各用户在各候选影响因素下的属性信息与目标具有线性关系，因此可以通过线性回归的方式构建以直接影响因素和/或间接影响因素为自变量、并以目标为因变量的线性函数，并构建以间接影响因素为自变量并以直接影响因素为因变量的线性函数，从而根据线性函数中各项候选影响因素前的系数确定各候选影响因素的影响度参数。容易理解，对于单一用户而言，该用户对应的目标为前述目标的子目标，例如，在目标为用户留存率时，单一用户的目标为该用户是否留存，可以用0(未留存)或1(留存)来表示。

例如，节点S1至节点S0(也即，用户留存对应的节点)共有两条路径，分别为节点S1->节点S0和节点S1->节点S2->节点S0。也就是说，节点S1既为节点S0的直接影响因素又为间接影响因素，节点S2为节点S0的直接影响因素。因此可以分别以节点S1为自变量并以节点S0为因变量建立线性函数F1，以节点S1为自变量并以节点S2为因变量建立线性函数F2，并以节点S1和节点S2为自变量并以节点S0为因变量建立线性函数F3。线性函数F1、线性函数F2和线性函数F3可以通过如下方式表示：

F1：Y

F2：M

F3：Y

其中，Y

在确定β

图4是本发明实施例的因果图的部分结构示意图。如图4所示，节点S1对应的候选影响因素与目标S0之间的箭头方向41表征S1对S0的ADE，节点S1对应的候选影响因素与节点S2对应的候选影响因素之间的箭头方向42表征S1对S2的ACME，节点S2对应的候选影响因素与目标S0之间的箭头方向43以及箭头方向41表征S1和S2对S0的ATE。

可选地，在确定β

步骤S300，根据影响度参数从候选影响因素中确定出目标因素。

在确定各直接影响因素和间接影响因素的影响度参数后，可以根据影响度参数从候选影响因素中确定出目标因素。具体地，可以将影响度参数满足预定影响度条件的候选影响因素确定为目标因素。

在预定的函数构建方式为线性回归时，在因果图中以任一候选影响因素为起点，并以目标为终点的路径中包括同样数量的节点时，可以将影响度参数排序在最大的前n(n为大于等于1的预定整数)位、超过第二阈值或者影响度参数排序在最大的前n位且超过第二阈值等条件确定为预定影响度条件，并将影响度参数满足预定影响度条件的直接影响因素确定为目标因素，同时将影响度参数满足预定影响度条件的间接影响因素确定为目标因素。

以图3所示的因果图为例进行说明。路径L1为节点33->节点32->节点31，路径L2为节点36->节点34->节点31，路径L1与路径L2包括的节点数量均为3，因此路径L1和路径L2的长度相同。其中，节点33和节点36为间接影响因素，因此可以将节点33和节点36对应的影响度参数进行比较，并将节点33和节点36中影响度参数较大(也即，满足预定影响度条件)的间接影响因素确定为目标因素；类似地，节点32和节点34为直接影响因素，因此可以将节点32和节点34的影响度参数进行比较，并将节点32和节点34中影响度参数较大(也即，满足预定影响度条件)的直接影响因素确定为目标因素。

在确定目标因素后，后续可以通过对目标因素进行及时干预的方式促进或抑制目标。例如，网约车司机的接驾时长和等待人数为用户留存率这一目标对应的目标因素。为了促进用户留存率提升，可以缩短网约车司机的接驾时长并降低用户的等待人数。

本实施例在获取多个用户分别在各影响因素下的属性信息作为信息集合后，根据信息集合确定与用户留存率具有因果关系的影响因素，然后确定出与用户留存率具有因果关系的各影响因素的影响度参数，从而根据影响度参数从候选影响因素中确定出目标因素。本实施例可以量化各因素对目标的影响程度，并根据因素对目标的影响程度确定出目标因素，以促进事件的发生或避免事件的发生。

图5是本发明第二实施例的数据分析装置的示意图。如图5所示，本实施例的装置包括信息获取单元501、参数确定单元502和目标因素确定单元503。

其中，信息获取单元501用于获取信息集合，所述信息集合包括多个对象分别在各影响因素下的属性信息。参数确定单元502用于根据所述信息集合确定候选影响因素，并确定各候选影响因素对目标的影响度参数，所述候选影响因素为与所述目标具有因果关系的所述影响因素。目标因素确定单元503用于根据所述影响度参数从所述候选影响因素中确定出目标因素。

进一步地，所述参数确定单元502包括因果图生成子单元和因素确定子单元；

其中，因果图生成子单元用于根据所述信息集合生成因果图，所述因果图用于表征各所述影响因素以及所述目标间的因果关系。因素确定子单元用于根据所述因果图将与所述目标具有因果关系的所述影响因素确定为所述候选影响因素。

进一步地，所述影响因素包括直接影响因素和间接影响因素，所述影响度参数包括直接影响度参数和间接影响度参数。

进一步地，所述参数确定单元502还包括函数确定子单元和参数确定子单元。

其中，函数确定子单元用于分别确定各所述直接影响因素、对应的所述间接影响因素和所述目标的关系函数。参数确定子单元用于根据所述关系函数确定所述直接影响度参数和所述间接影响度参数。

进一步地，所述函数确定子单元包括第一函数确定模块或第二函数确定模块。

其中，第一函数确定模块用于通过预定的函数构建方式，以所述直接影响因素和/或所述间接影响因素为自变量，并以所述目标为因变量构建所述关系函数。第二函数确定模块用于通过所述函数构建方式，以所述间接影响因素为自变量，以对应的所述直接影响因素为因变量构建所述关系函数。

进一步地，所述预定的函数构建方式包括线性回归、贝叶斯回归和逻辑回归中的至少一项。

进一步地，所述目标因素确定单元503用于将所述影响度参数满足预定影响度条件的所述候选影响因素确定为所述目标因素。

进一步地，所述对象为用户，所述目标为用户留存率。

图6是本发明第三实施例的电子设备的示意图。图6所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器601和存储器602。处理器601和存储器602通过总线603连接。存储器602适于存储处理器601可执行的指令或程序。处理器601可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器601通过执行存储器602所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线603将上述多个组件连接在一起，同时将上述组件连接到显示控制器604和显示装置以及输入/输出(I/O)装置605。输入/输出(I/O)装置605可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置605通过输入/输出(I/O)控制器606与系统相连。

其中，存储器602可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：董越;杨顺欣;
专利申请人：北京嘀嘀无限科技发展有限公司;

上一篇：EGFR蛋白磷酸化的抑制试剂及抑制方法和用途
下一篇：具备电视遥控器功能的蓝牙触摸板