掌桥专利:专业的专利平台
掌桥专利
首页

用于航空客户数据的数据分析方法、装置和存储介质

文献发布时间:2024-04-18 19:57:31


用于航空客户数据的数据分析方法、装置和存储介质

技术领域

本公开涉及用于航空客户数据的数据分析方法、系统和存储介质,并且具体地,涉及基于航空客户的消费数据进行聚类和分析的方法、系统和存储介质。

背景技术

随着航空领域的不断发展,围绕航空客户的消费数据等建立的营销分析平台(Customer Data Platform,简称CDP)作用日益凸显。面对数量巨大、行为模式各异的客户群体,合理评估客户价值并以此为基础完成客户细分,分析各类别客户维护方式或流失趋势,从而提供差异化的营销和服务策略,是航空公司实现客户资源利益最大化、增强客户粘性的重要途径。

当前基于消费数据的客户分类方法中,较为广泛应用的是RFM模型,即针对最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)的分析模型。作为衡量客户价值和客户创造利益能力的重要工具,RFM模型与包括k均值(k-means)聚类算法模型在内的数据分析算法相结合,能够得到基于客户消费行为的精细化分类结果。具体到航空领域,RFM模型的分析对象主要集中在客户的最近一次飞行记录、飞行次数和消费金额。然而在航空业场景下直接应用传统RFM模型存在一定的局限性,考虑到民航消费产品的特有属性,诸如存在大量飞行次数极少的单个数据样本,以及习惯两舱的客户与常飞长线的客户之间不易区分的相似数据样本,会影响聚类结果的准确度,进而导致对客群特征的分析出现偏差。

发明内容

本申请提出了一种用于航空客户数据的数据分析方法、系统和存储介质。

根据本公开的实施例的第一方面,提供了一种用于航空客户数据的数据分析方法,包括:从航空客户数据库中提取待分析客户的消费数据,消费数据的维度包括客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M;对消费数据进行预处理;基于预处理的消费数据生成多维度向量[m,R,F,M],从而形成消费数据的向量集;使用聚类算法将该向量集划分为预定数量k的类别,获得待分析客户的分类结果以及各类别所对应的数据特征。

根据本公开的实施例的第二方面,提供了一种从航空客户数据库中提取待分析客户的消费数据,消费数据的维度包括客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M;对消费数据进行预处理,其中,对消费数据进行标准化处理得到标准化的里程数m

根据本公开的实施例的第三方面,提供了一种用于航空客户数据的数据分析装置,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在存储器上的指令,以执行以下处理:从航空客户数据库中提取待分析客户的消费数据,消费数据的维度包括客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M;对消费数据进行预处理;基于预处理的消费数据生成多维度向量[m,R,F,M],从而形成消费数据的向量集;使用聚类算法将向量集划分为预定数量k的类别,获得待分析客户的分类结果以及各类别所对应的数据特征。

根据本公开的实施例的第四方面,提供了一种用于航空客户数据的数据分析装置,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在存储器上的指令,以执行以下处理:从航空客户数据库中提取待分析客户的消费数据,消费数据的维度包括客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M;对消费数据进行预处理,其中,对消费数据进行标准化处理得到标准化的里程数m

根据本公开的实施例的第五方面,提供了一种其上存储有程序指令的计算机可读存储介质,该程序指令在执行时使计算机实现根据本公开的实施例的第一方面或第二方面所述的数据分析方法。

根据本公开的实施例的第六方面,提供了一种计算机程序产品,包括计算机程序指令,该计算机程序指令被处理器执行时实现根据本公开的实施例的第一方面或第二方面所述的数据分析方法。

根据本公开的实施例的优点在于基于民航消费产品的特有属性对传统RFM模型进行修改,为聚类算法提供针对行业优化的数据样本集合,从而获得更具参考价值的分类结果,以便后续进行营销分析。

根据本公开的实施例的另一优点在于对航空客户的消费数据进行预处理,排除客户数据样本中的孤立点或噪音点;同时,基于消费数据在多周期间的变化趋势验证修改的RFM模型的聚类准确度,为模型的各维度设置权重并调整权重关系,以进一步提升聚类的准确度。

应当认识到,上述优点不需全部集中在一个或一些特定实施例中实现,而是可以部分分散在根据本公开的不同实施例中。根据本公开的实施例可以具有上述优点中的一个或一些,也可以替代地或者附加地具有其它的优点。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得更为清楚。

附图说明

图1是示出了根据本公开的实施例的用于航空客户数据的数据分析系统的示意图。

图2是示出了根据本公开的实施例的用于航空客户数据的数据分析装置的示例性配置框图。

图3是示出了根据本公开的实施例的用于航空客户数据的数据分析方法的示例性流程图。

图4是示出了根据本公开的另一实施例的用于航空客户数据的数据分析装置的示例性配置框图。

图5是示出了根据本公开的另一实施例的用于航空客户数据的数据分析方法的示例性流程图。

图6示出了可以实现根据本公开的实施例的计算设备的示例性配置。

具体实施方式

下面将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。也就是说,本文中的结构及方法是以示例性的方式示出以说明本公开中的结构和方法的不同实施例。然而,本领域技术人员将会理解,它们仅仅说明可以用来实施的本公开的示例性方式,而不是穷尽的方式。此外,附图不必按比例绘制,一些特征可能被放大以示出具体组件的细节。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。

航空领域的客户营销分析与常规商务行业对交易数据的分析处理有相似之处,诸如通过客户所购买的商品来分析客户的购买行为,由此总结出客户的购买习惯、预测客户未来购买可能性等;类似地,在金融和企业管理等领域中,也会基于对交易数据的分析来设置风险防控规则。在众多用于客户关系管理(Customer Relationship Management,简称CRM)的分析模式中,得到广泛应用的是RFM模型,主要包括三个维度,即最近一次消费(Recency)、消费频率(Frequency)和消费金额(Monetary)。一般而言,最近一次消费的间隔时间越短、消费频率越高、消费金额越大的客户,其相对价值越重要。相应地,三个维度中有一项或两项出现相反趋势时,则反映出该客户存在流失的可能性。对于企业而言,对客群的营销分析有利于建立客群的画像,进而依据这些营销画像的特征划分客群类型,将营销资源倾斜到价值更大的客群中,减少这类客群的流失。

特别地,对于航空领域,传统的RFM模型对应的三个维度分别为客户的最近一次飞行记录(表示为R)、飞行次数(表示为F)和消费金额(表示为M),但仅限于这三个维度的分析可能会导致一些问题。例如,由于飞机相比于其它出行方式具有距离长、速度快、单价高等固有属性,普通客户可能在一年的统计周期内仅有一到两次消费数据,这些数据的各维度数值可能很小,没有参考性。此外,在经常采用航空出行的客户中,常飞长线的客户与习惯两舱的客户的R、F和M维度可能都是相似的,而这两类客户的维护价值却是存在一定区别的,如果直接使用传统RFM模型作为客户分类的基础,可能会降低分类结果的准确度,影响营销策略的有效制定。

概括而言,本公开的技术方案主要是针对上述问题中的一个或多个提出了一种对航空消费数据进行分析和分类的装置及方法。在一个非限制性实施例中,结合航空领域的特有属性,对消费数据进行适当的预处理,同时向传统RFM模型中引入里程数(mile,以下简称m)这一维度,从而提升分析效率和质量。应当理解的是,本公开涉及的里程数m是用于评估航空客户行程距离的参量,在实际的数据统计中可以采用诸如实际飞行里程、地面里程、计费里程等中的一个或多个,根据航空公司的分析需求来基于这些不同的数据确定里程数m,以用于本公开中的改进的RFM模型。

图1是示出了根据本公开的实施例的用于航空客户数据的数据分析系统的示意图。数据分析系统从航空数据库100中提取待分析客户的消费数据120,其中包括但不限于客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M等。数据分析系统将这些消费数据输入到改进的RFM模型中,得到关于消费画像的客群分类结果140。

一般而言,航空公司平均一年的承运人次在上亿人次,可以得到以年为单位、数据量庞大的航空数据库100。航空公司基于客户的会员等级来进行差异化的管理服务,从而将有限的营销资源投入到更有价值的客户群体中。在一个非限制性实施例中,航空公司可能将客户划分为普通会员客户和高级会员客户,其中高级会员参照贵金属的价值引入会员等级的名称,诸如白金卡、金卡和银卡等,用以评价客户的消费习惯和营销价值。在航空数据库100中,客户编号ID是与会员等级绑定的唯一标识符,用以区别地表示客户的身份,考虑到航空数据库100是年度数据,一般地依据客户ID统计全年的总里程数m、消费金额M、飞行次数F,以及最近一次飞行距离本年度12月31日相差的天数作为参数R。

实际情况中,普通会员客户可能会出现大量一年内仅承运一次、仅消费少量金额的数据样本,这种数据对于分析客户整体情况、进行客群聚类是不利的,诸如会影响到聚类结果的准确性等。另一方面,对于常飞长线的客户而言,其消费金额M的数据也呈上升趋势;这与出行习惯两舱的客户相比,其数据在传统RFM模型中呈现的状态是类似的,但两类客户的营销价值却并不相同,即传统模型可能会导致聚类结果的偏差。因此,为了避免由数据瑕疵导致RFM模型计算结果出现不必要的误差,需要对消费数据120进行相应的预处理。

数据分析系统得到分类结果140可以采用预定的聚类算法来执行。聚类是指将庞杂数据集中具有相似特征的数据归类到一起,常用于数据集内种类特征不清晰的情形,借助数据挖掘将数据集自动归类为数个具有各自属性的种类,称为簇。对于给定的数据集,由于可以采用多个有意义的划分方式,因此也会有多种不同的聚类解决方案。按照聚类的尺度,聚类方法可以包括基于距离、基于密度、基于互连性的聚类方法。

在一个非限制性实施例中,数据分析系统的分类结果140包括五种(k=5),即高消费人群G1、可发展人群G2、常飞人群G3、将流失人群G4以及流失人群G5。应当理解的是,分类结果140可以根据使用者的需求设置为预定数量k的类别,即k值包括但不限于图1所示的5。传统的RFM模型基于三个参数,以此建立的三维数据向量可以表示在划分为八个空间方向的世界坐标系中,则以简单的分类标准可以将这些三维向量粗略划分为8个类别(即k=8)。进一步地,本公开示出的改进的RFM模型基于四个参数建立的多维度向量[m,R,F,M],从而在高维空间中可以简单划分得到k=16。附加地或可替代地,预定数量k可以根据分析目标进行设定,诸如细化为更多类别,或者合并为更少类别等。

以下将在图2至图5中详细描述用于航空用户数据的数据分析装置及该装置的处理器所执行的数据分析方法。

图2是示出了根据本公开的实施例的用于航空客户数据的数据分析装置的示例性配置框图。在一个非限制性实施例中,数据分析装置2000可以包括处理器2100。数据分析装置2000的处理器2100提供对航空客户数据进行分析的各种功能。在一些实施例中,数据分析装置2000的处理器2100可以被配置为执行数据分析方法3000(后文将参照图3进行详细描述)。

处理器2100可以指在计算系统中执行功能的数字电路系统、模拟电路系统或混合信号(模拟和数字的组合)电路系统的各种实现。处理电路可以包括例如诸如集成电路(IC)、专用集成电路(ASIC)这样的电路、单独处理器核心的部分或电路、整个处理器核心、单独的处理器、诸如现场可编程门阵列(FPGA)的可编程硬件设备、和/或包括多个处理器的系统。

在一些实施例中,数据分析装置2000还可以包括存储器(未图示)。数据分析装置2000的存储器可以存储由处理器2100产生的信息以及用于处理器2100操作的程序和数据。存储器可以是易失性存储器和/或非易失性存储器。例如,存储器可以包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)以及闪存存储器。另外,数据分析装置2000也可以以芯片级来实现,或者可以通过包括其它外部部件而以设备级来实现。

本公开的数据分析装置2000被配置为从航空数据库中提取客户的消费数据,经过数据的预处理和聚类等步骤后得到客户的分类结果,以及基于该结果分析出各类别所对应的数据特征,即各客群的客户消费画像,为制定有针对性的营销策略提供基础。在一些实施例中,数据分析装置2000从某个年度的航空数据库中剔除边缘点以及/或者孤立点后抽样待分析客户的消费数据,诸如以高级会员客户的数据作为样本。在一个非限制性实施例中,航空数据库中的边缘点一般可以体现为仅有少量消费次数的普通会员数据,孤立点一般可以体现为部分维度的数值与其它向量差异显著的数据。进一步地,本公开中提取的数据中除了传统RFM模型所需的三个维度外,还包括航空领域具有代表性的里程数m。数据分析装置2000将这些数据输入到聚类算法模型中,调试后设置合理的分类数量k,得到客群的聚类结果。

如图2所示,在一些实施例中,数据分析装置2000可以包括数据采集单元2010、预处理单元2020和向量聚类单元2030。应当理解的是,图2所示的数据分析装置2000的各个单元仅为根据其所实现的具体功能所划分的逻辑模块,而不是用于限制具体的实现方式。在实际实现时,上述各个模块可被实现为独立的物理实体,或者也可由单个实体(例如,处理器(CPU或DSP等)、集成电路等)来实现。

在一些实施例中,针对航空公司的客户消费数据库,数据采集单元2010被配置为从该数据库中提取待分析客户的消费数据,消费数据的维度包括但不限于客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M等。一般地,根据分析目标确定待分析客户,以便对感兴趣的客户进行专门的数据挖掘。在一个非限制性实施例中,可以基于消费数据的各个维度设置相应的阈值条件,将消费数据满足阈值条件的客户确定为待分析客户。诸如设置消费金额阈值M

在另一些实施例中,数据采集单元2010还可以被配置为从航空数据库中提取相对于时间、航线或其他因素变化的消费数据,消费数据的维度则可以包括围绕时间、航线等的多维度参数。则此时数据采集单元2010提取的数据样本还可以用于分析客户消费数据随时间变化的趋势或按照航线分布的特征,这些数据可以类似地使用传统或改进的RFM模型以及聚类算法等处理方法得到分析结果。

预处理单元2020被配置为对由数据采集单元2010提取的消费数据进行预处理,并且基于预处理的消费数据生成多维度向量[m,R,F,M],从而形成消费数据的向量集。一般而言,数据的预处理主要用于使样本中的数据满足形式要求,以保证后续运算处理的质量和效率。在一个非限制性实施例中,对消费数据的预处理包括但不限于对缺失信息的数据进行忽略处理,对冲突信息的数据进行唯一化处理,以及对数据瑕疵进行排除等。具体而言,对于在待分析时间周期(诸如一个年度)内的客户数据,一个客户ID对应的一条数据记录内应当提取到m、R、F及M四个参数,如果其中某个参数因统计遗漏或存储错误等原因缺失时,则该条记录被忽略;如果一个客户ID对应超过一条数据记录,这些数据记录之间产生冲突,则需要设置处理规则,诸如数据获取时间更近者优先等,对冲突信息的数据进行唯一化处理。

附加地或可替代地,当一条数据记录中的数据出现与合理数值范围严重不符的情况,诸如过大或过小等,则表明该条记录存在数据瑕疵。在一些实施例中,预处理单元2020被配置为发现和排除数据瑕疵,诸如将瑕疵所在数据记录从待分析的数据样本中直接剔除。此外,预处理单元2020还可以被配置为对发现的数据瑕疵进行校正处理,诸如根据预设的错误数据解析模型自动查找瑕疵原因,并根据该原因排除错误内容、推导正确数值;或者发出告警信号提示人工处理等。

在一些实施例中,向量聚类单元2030被配置为基于预处理单元2020建立的向量集,使用聚类算法将该向量集划分为预定数量k的类别,获得待分析客户的分类结果以及各类别所对应的数据特征。根据前述,应用于数据分析的聚类算法可能有多种多样,以下示出了其中的一种,即以均值作为簇的中心的k-means聚类方法。对于由预处理单元2020建立的多维度向量X

(1)随机选择预定数量k的向量样本作为k个向量簇的初始均值向量X

(2)计算向量集中的每个向量与这k个向量簇的当前均值向量的距离,其中取欧氏距离进行计算,以第i个向量与当前均值向量X

以此分别计算出第i个向量与每个当前均值向量的距离,并且将该向量划分到与该向量距离最小的当前均值向量所对应的向量簇;

(3)划分完成后更新k个向量簇的当前均值向量;

(4)重复执行步骤(2)和(3),直到步骤(3)中得到的当前均值向量不再改变或者对步骤(2)和(3)的重复次数达到预设迭代值为止。

应当理解的是,由于数据样本中各数据参数以及数据之间的关系可能具有多种显式或隐式的意义,同一聚类算法中取不同的k值或采用不同聚类算法会得到不同的聚类结果。附加地,聚类的预定数量k可以根据需求预先指定,也可以通过计算聚类误差平方和等参数来评估聚类效果,进而调试聚类模型以得到理想的k值。

下面参照图3来描述根据本公开的实施例的用于航空客户数据的数据分析方法3000的示例性流程图。该方法3000例如可以用于图2所示的数据分析装置2000。

如图3所示,在步骤S301中,从航空客户数据库中提取待分析客户的消费数据,消费数据的维度包括客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M。在步骤S302中,对消费数据进行预处理。在步骤S303中,基于预处理的消费数据生成多维度向量[m,R,F,M],形成消费数据的向量集。在步骤S304中,使用聚类算法将所述向量集划分为预定数量k的类别,获得待分析客户的分类结果以及各类别所对应的数据特征。

上述步骤S301至S304例如可以分别由数据采集单元2010、预处理单元2020和向量聚类单元2030来实现。关于步骤S301至S304的详情,与参照图2的描述类似,在此不再赘述。

接下来,参照图4描述根据本公开的另一实施例的用于航空客户数据的数据分析装置4000的示例性配置框图。该数据分析装置4000与图2中的数据分析装置2000对应,其中数据采集单元4010、预处理单元4020和向量聚类单元4030分别对应于图2中所示的数据采集单元2010、预处理单元2020和向量聚类单元2030,可以分别实现参照图2描述各单元执行的相应功能,以下仅描述这些单元与图2中有区别的部分。

如图4所示,在一些实施例中,数据分析装置4000还可以包括准确度验证单元4040和权重设置单元4050。

在一些实施例中,准确度验证单元4040被配置为使用第二周期的消费数据验证根据待分析客户在第一周期内的消费数据计算的第一分类结果的准确度。具体而言,数据采集单元4010从航空数据库中分别提取待分析客户在第一周期和第二周期内的消费数据,其中第一周期和第二周期可以分别设定为一个或多个年度单位。向量聚类单元4030被配置为响应于预处理单元4020使用第一周期的消费数据生成多维度向量[m,R,F,M],计算获得待分析客户的第一分类结果。准确度验证单元4040进而使用第二周期的消费数据相对于第一周期的消费数据的变化情况来验证第一分类结果的准确度。

一般地,由于航空公司通常使用年度消费数据作为评估客户消费等级的参考,并且会基于评估结果调整客户在数据库内的等级,从而第二周期的消费数据相对比第一周期的变化情况可以经由客户的高级会员卡等的变动来体现,常规地包括升级、保级及降级。此外,周期间的变化情况还包括客户的流失,其判断条件可以被设置为第二周期内无消费数据记录,或者卡等由高级会员降级为普通会员等情形。

具体而言,图1中示出了k值为5时航空消费数据的分类结果140,包括高消费人群G1、可发展人群G2、常飞人群G3、将流失人群G4以及流失人群G5。下表1中示出了一个非限制性实施例中对第一分类结果的准确度验证。

[表1:第一分类结果分布]

从上表中可知,高消费人群G1保级或以上的占比为92.72%,即该客群几乎没有流失,保持了较高的消费意愿和消费能力,对航司及航空产品的粘性高。可发展人群G2中保级或以上的占比为82.35%,即该客群具有消费潜力,更有可能接受营销方案、通过发展维护而降低流失可能性。常飞人群G3中保级或以上的占比仅为39.77%,仅降级的占比相比于前两个类别并不显著,而流失的占比很大,分析该客群属于倾向于选择飞机出行但对价格敏感,即更有可能因为价格显著提升而流失。将流失人群G4中流失或降级(即未能保级)的客户占比为76.01%,该客群已经体现出消费意愿的减退。而流失人群G5中流失或降级占比为87.18%,该客群可能已经对该航空公司或航空类产品失去消费兴趣。

由此可见,前述非限制性实施例中的第一分类结果即k值为5的分类结果能够相对有效地反映不同客群的消费意愿,以及为改善客户流失率提供参考。具体而言,在一些实施例中,对于高消费人群G1和可发展人群G2,应加强关怀,日常性地推送涉及增加里程数(m)或者有助于会员保级的产品,尽量避免这两类人群的降级和流失;对于常飞人群G3,应针对这些客户的常飞航线等推送对应性价比高的产品,扩大该客群的人数,进而依据销售成果追踪该客群的后续消费变化和对航司的粘合度;而对于将流失人群G4和流失人群G5,应针对其中高级会员卡等的客户(诸如白金卡、金卡会员)进行关怀回访,尽力挽回流失高价值客户并且获取流失原因。此外,结合数据分析装置4000的分类结果进行多种流失分析,包括全网流失分析,诸如判断流失客户是否选择其他航司,则相应地通过关怀推送与沟通有针对性地再次分类挽回;全网外部流失分析,诸如查看流失客户主要飞行航线下的高铁等其它交通方式是否相比于飞机有明显的优势和冲击,则相应地通过调整优化服务、航线、价格等进行挽回;以及航班网络流失分析,诸如确认客户的出行已从东航的主要航线区域迁出,则相应地暂时不做挽回,对这类情形分类留档,方便对以后新开航线做参考。

附加地,准确度验证单元4040还被配置为对分类结果的准确度进行量化,其中准确度可以由每个数据类别中符合该客群对应的客户画像的向量比例来表示,对于k个类别的结果可以取各客群中该比例的均值。应理解的是,聚类算法划分的多组向量可以根据各自的数据特征解读为具体的含义,其中符合客户画像的向量比例越高,表明分类结果准确度越高。可替代地,准确度验证单元4040还可以被配置为在第一分类结果未取得理想效果时向数据分析装置4000的使用者发出消息提示,诸如发出视觉或听觉形式的告警信号等,以及提供重新调试计算模型的修改建议,诸如对聚类算法增加或减小k值、对改进的RFM模型增加输入数据筛选条件等。

在另一些实施例中,预处理单元4020还被配置为对消费数据中的多个参数m、R、F、M等的标准化处理,得到标准化的里程数m

其中,m

在一些实施例中,预处理单元4020被配置为生成经过标准化处理的数据向量,并将标准化向量集输入到后续的聚类模型中。此时各向量之间的距离计算避免了对不同性质、不同量纲的参数直接加和,提高了聚类结果的参考价值。类似地,数据采集单元4010也被配置为从航空数据库中提取第一周期和第二周期的消费数据,其中第一周期的消费数据被预处理单元4020用于生成多维度向量[m

在一些实施例中,权重设置单元4050被配置为为消费数据的各个维度分别设置权重系数μ

根据计算出的加权距离进行聚类得到加权分类结果,其类似于前述第一分类结果,准确度验证单元4040可以使用另一周期内的消费数据相比于本周期内的消费数据的变化情况来验证该加权分类结果的准确度。数据分析装置4000进一步基于该加权分类结果获取各类别所对应的数据特征。附加地,准确度验证单元4040还可以为准确度的数值预设阈值,当加权分类结果的准确度不满足该预设阈值时,表明权重设置单元4050当前设置的权重对分类结果的准确度产生负面影响,则需要权重设置单元4050按照满足预设阈值的方向调整权重系数μ

图5示出了根据本公开的另一实施例的用于航空客户数据的数据分析方法5000的示例性流程图。该方法5000例如可以用于图4所示的数据分析装置4000。

如图5所示,在步骤S501中,从航空客户数据库中提取待分析客户的消费数据,消费数据的维度包括客户编号ID、里程数m、最近一次飞行记录R、飞行次数F和消费总额M。在步骤S502中,对消费数据进行预处理,其中,对消费数据进行标准化处理得到标准化的里程数m

上述步骤S501至S504例如可以分别由数据采集单元4010、预处理单元4020、向量聚类单元4030等来实现。关于步骤S501至S504的详情,与参照图4的描述类似,在此不再赘述。

图6示出了可以实现根据本公开的实施例的计算设备的示例性配置。该计算设备包括一个或多个处理器601、经由总线604连接到处理器601的输入/输出接口605以及连接到总线604的存储器602和603。在一些实施例中,存储器602可以是只读存储器(ROM),存储器603可以是随机存储存储器(RAM)。

处理器601可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。存储器602和603可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。

总线604可以包括但不限于工业标准架构(Industry Standard Architecture,ISA)总线、微通道架构(Micro Channel Architecture,MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线等。

在一些实施例中,输入/输出接口605与以下单元连接,由诸如供用户输入操作命令的键盘和鼠标之类的输入设备所配置的输入单元606、向显示设备输出处理操作画面和处理结果的图像的输出单元607、包括用于存储程序和各种数据的硬盘驱动器等的存储单元608以及包括局域网(LAN)适配器等并经由以互联网为代表的网络执行通信处理的通信单元609。此外,还连接了驱动器610,该驱动器610从可移除存储介质611读取数据和在其上写数据。

可单独地或以任何组合方式来使用前述实施方案的各个方面、实施方案、具体实施或特征。可由软件、硬件或硬件与软件的组合来实现前述实施方案的各个方面。

例如,前述实施方案可体现为计算机可读介质上的计算机可读代码。计算机可读介质为可存储数据的任何数据存储设备,所述数据其后可由计算机系统读取。计算机可读介质的示例包括只读存储器、随机存取存储器、CD-ROM、DVD、磁带、硬盘驱动器、固态驱动器和光学数据存储设备。计算机可读介质还可分布在网络耦接的计算机系统中使得计算机可读代码以分布式方式来存储和执行。

例如,前述实施方案可采用硬件电路的形式。硬件电路可以包括组合式逻辑电路、时钟存储设备(诸如软盘、触发器、锁存器等)、有限状态机、诸如静态随机存取存储器或嵌入式动态随机存取存储器的存储器、定制设计电路、可编程逻辑阵列等的任意组合。

在一个实施方案中,可以通过用诸如Verilog或VHDL的硬件描述语言(HDL)编码和设计一个或多个集成电路或者结合使用离散电路来实现根据本公开的硬件电路。

相关技术
  • 一种基于大数据的航空数据分析方法、设备及存储介质
  • 数据库与客户端的数据交互方法、装置、存储介质和设备
  • 基于数据分析的资金处理方法、装置、存储介质和设备
  • 基于数据分析的保险配置方法、装置、计算机设备及存储介质
  • 客户数据分析方法、装置、存储介质及计算机设备
  • 客户投诉数据分析方法、装置、设备及存储介质
技术分类

06120116459373