掌桥专利:专业的专利平台
掌桥专利
首页

一种客流数据处理方法、装置、大数据平台及存储介质

文献发布时间:2023-06-19 19:28:50


一种客流数据处理方法、装置、大数据平台及存储介质

技术领域

本发明涉及大数据技术领域,尤其涉及一种客流数据处理方法、装置、大数据平台及存储介质。

背景技术

乘客使用智能卡搭乘轨道交通出行时,通常涉及到城市轨道交通自动检票系统AFC(Automatic Fare Collection System),AFC系统的终端电子阅读器通过乘客刷智能卡获取乘客的详细信息,生成区域轨道交通客流数据,即AFC数据。

相关技术中,处理AFC数据的主要流程是通过电脑简单的统计进出站量,接着生成相关表单。这种AFC数据处理技术不仅处理速度慢、效率低,而且不能实时处理大量数据和数据的深度挖掘。

发明内容

本发明提供了一种客流数据处理方法、装置、大数据平台及存储介质,以解决不能实时、高效的处理AFC客流数据的问题。

根据本发明的一方面,提供了一种客流数据处理方法,应用于大数据平台,该方法包括:

获取自动检票系统AFC客流数据;

从所述AFC客流数据中提取目标进站数据,并根据所述目标进站数据生成进站客流表;

从所述AFC客流数据中提取目标出站数据,并根据所述目标出站数据生成出站客流表;

基于所述进站客流表和所述出站客流表生成客流统计表。

根据本发明的另一方面,提供了一种客流数据处理装置,应用于大数据平台,该装置包括:

客流数据获取模块,用于获取自动检票系统AFC客流数据;

进站客流表生成模块,用于从所述AFC客流数据中提取目标进站数据,并根据所述目标进站数据生成进站客流表;

出站客流表生成模块,用于从所述AFC客流数据中提取目标出站数据,并根据所述目标出站数据生成出站客流表;

客流统计表生成模块,用于基于所述进站客流表和所述出站客流表生成客流统计表。

根据本发明的另一方面,提供了一种大数据平台,所述大数据平台包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的客流数据处理方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的客流数据处理方法。

本发明实施例的技术方案,通过获取自动检票系统AFC客流数据,从AFC客流数据中提取目标进站数据,根据目标进站数据生成进站客流表,并从AFC客流数据中提取目标出站数据,根据目标出站数据生成出站客流表,基于目标进站客流表和目标出站客流表,抽取相应字段的数据至客流统计表中。本技术方案,通过大数据平台实现了从AFC客流数据中快速提取并生成可用于数据应用的客流统计表,解决了数据表生成速度慢、效率低的问题,提高了客流数据的统计、分析效率,可以支撑轨道交通大数据应用。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种客流数据处理方法的流程图;

图2是根据本发明实施例所适用的生成客流统计表的OD配对流程图;

图3是根据本发明实施例二提供的一种客流数据处理方法的流程图;

图4是根据本发明实施例二提供的AFC客流数据格式转换前后的对比图;

图5是根据本发明实施例二提供的AFC客流数据清洗流程图;

图6是根据本发明实施例提供的清洗AFC客流数据的AFC客流数据示意图;

图7是根据本发明实施例二提供的目标进站数据展示图;

图8是根据本发明实施例二提供的目标出站数据展示图;

图9是根据本发明实施例所适用的AFC客流数据处理流程图;

图10是根据本发明实施例三提供的一种客流数据处理装置的结构示意图;

图11是实现本发明实施例的客流数据处理方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种客流数据处理方法的流程图,本实施例可适用于对AFC客流数据进行处理的情况,该方法可以由客流数据处理装置来执行,该客流数据处理装置可以采用硬件和/或软件的形式实现,该客流数据处理装置可配置于任何具有通信功能的大数据平台中。如图1所示,该方法包括:

S110、获取自动检票系统AFC客流数据。

其中,客流数据可以是某一个自动检票系统AFC或者某几个自动检票系统AFC生成乘客搭乘轨道交通时的数据,客流数据可以包括:智能卡ID、交易日期、交易时间、票的种类、进站站点、出站站点、交易设备号、交易前余额、交易后余额、花费金额等信息。

具体的,通过建立索引条件从自动检票系统AFC中获取客流数据。

示例性的,从轨道交通运营企业批量获取AFC数据,对数据进行分割与格式转换操作产生与表1的示例属性数据一致的数据,表1为AFC客流数据的结构表,AFC客流数据示例性内容可以查看表1的示例字段。

表1:AFC客流量数据的结构表

示例性的,AFC客流数据的数据量大,对AFC客流数据进行数据处理、分析和挖掘操作的大数据平台可以是基于Hadoop框架和大数据计算框架Spark搭建的平台。大数据平台按照功能可以划分为五层架构,分别包括:数据来源层、数据存储层、资源管理层、数据计算层、数据服务层。其中,数据存储层、资源管理层、数据计算层通过搭建Hive on spark并行计算架构实现,数据来源层是根据数据提供方实际情况,针对特定场景而编写的Shell脚本。

S120、从所述AFC客流数据中提取目标进站数据,并根据所述目标进站数据生成进站客流表。

其中,进站客流表可以是用于存储经过数据处理的目标进站数据的二维表,目标进站数据可以是乘客执行进站操作时生成的数据,可以按照进站时间等不同字段分为几种属性信息。示例性的,可以从AFC客流数据中提取包含一个或多个目标进站点的客流数据作为目标进站数据,也可以从AFC客流数据中提取进站时间处于某预设时间区间的客流数据作为目标进站数据,还可从AFC客流数据中提取进站点为某目标进站点,且进站时间处于某预设时间的客流数据作为目标进站数据。

具体的,从AFC客流数据中提取目标进站数据,存储在CSV和TXT两种格式的文本内,以逗号等分隔符逐行分割数据,初步形成具有不同属性信息或者不同列的目标进站数据,按照属性信息创建进站客流表,并对应目标进站数据的字段与进站客流表的字段,将目标进站数据存储在进站客流表内。

示例性的,从轨道交通运营企业批量获取AFC客流数据,AFC客流数据可以为离线数据包,该离线数据包可以是CSV和TXT两种文本格式的文件,需要整理这两种文本格式的文件,例如,CSV格式的文件,以英文逗号“,”对文件内的每行数据进行分割,每行数据末尾采用CRLF换行,文件的类型装换为UTF-8,整理CSV文本格式的文件数据可以表示为:010125503,20180901,175106,0104,52.45,4918,01044101,2018/9/118:07:12,提取目标进站数据并获取进站客流表。

S130、从所述AFC客流数据中提取目标出站数据,并根据所述目标出站数据生成出站客流表。

其中,出站客流表可以是用于存储经过数据处理的目标出站数据的二维表,目标出站数据可以是乘客执行出站操作时生成的数据,可以按照出站时间等不同字段将目标出站数据分为不同属性信息。示例性的,可以从AFC客流数据中提取包含一个或多个目标出站点的客流数据作为目标出站数据,也可以从AFC客流数据中提取出站时间处于某预设时间区间的客流数据作为目标出站数据,还可从AFC客流数据中提取出站点为某目标出站点,且出站时间处于某预设时间的客流数据作为目标出站数据。

具体的,类比步骤120,从AFC客流量数据中提取目标出站数据,存储在CSV或TXT格式的文本中,以逗号等分隔符逐行分割数据,初步形成具有不同属性信息或者不同列的目标出站数据,属性信息对应出站客流表的关键字信息,并创建出站客流表,将目标出站数据按照关键字信息逐行存储在出站客流表内,生成目标出站数据。

S140、基于所述进站客流表和所述出站客流表生成客流统计表。

具体的,根据步骤120和步骤130获取进站客流表和出站客流表,指定筛选条件,抽取客流统计表字段对应的数据,生成客流统计表。

可选的,所述客流统计表包括时间断面客流统计表。

其中,时间断面客流统计表可以是进站时间或出站时间处于预设时间段内的客流数据组成的统计表。判断客流量数据是否处于该预设时间段内,可以根据客流量数据的进出站时间是否在该预设时间段内进行判断。

作为一种可选的但不限定的实现方式,基于所述进站客流表和所述出站客流表生成客流统计表,可以包括:分别从所述进站客流表和所述出站客流表中提取进出站时间处于预设时间区间内的第一目标客流数据,并根据所述第一目标客流数据生成时间断面客流统计表。

具体的,可以分别从进站客流表和出站客流表中提取进站时间和出站时间均处于预设时间区间内的客流数据,并将这部分数据作为第一目标客流数据,将第一目标客流数据存储在预先建立的统计表中,生成时间断面客流统计表。

可选的,所述客流统计表包括区间断面客流统计表。

其中,区间断面客流统计表可以是进出站点处于某个站点区间内的客流数据组成的统计表。可以理解的是,区间断面是进出站点的区间属于某个站点区间的一部分区间。客流量统计表是用来统计列车在预设行车区间内产生客流数据。

作为一种可选的但不限定的实现方式,基于所述进站客流表和所述出站客流表生成客流统计表,可以包括:分别从所述进站客流表和所述出站客流表中提取进出站处于预设站点区间内的第二目标客流数据,并根据所述第二目标客流数据生成区间断面客流统计表。

具体的,从进站客流表中提取进出站处于预设站点区间内的客流数据,并从出站客流表中提取进出站处于预设站点区间内的客流数据,并将这两部分数据作为第二目标客流数据,将第二目标客流数据存储在预先建立的统计表中,生成区间断面客流统计表。

示例性的,表2为区间断面客流表的结构表,区间断面客流表存储数据日期、区间编号、进站车站编号、出站车站编号、起始时间、终止时间和客流表字段的相关数据。

表2:区间断面客流表的结构表

可选的,所述客流统计表包括起止点OD客流统计表。

其中,起止点OD客流统计表可以是用于统计包括进站点为预设进站车站编号和出站点为预设出站车站编号的客流数据而组成的二维表。

作为一种可选的但不限定的实现方式,基于所述进站客流表和所述出站客流表生成客流统计表,可以包括:分别从所述进站客流表和所述出站客流表中提取进站点为目标进站点且出站点为目标出站点的第三目标客流数据,并根据所述第三目标客流数据生成OD客流统计表。

具体的,根据进站客流表和出站客流表之间的条件建立进站客流表和出站客流表之间映射关系,进站客流表和出站客流表之间的条件包括:进站客流表和出站客流表之间的智能卡ID一致、进站客流表和出站客流表之间的进行交易前的余额一致、进站客流表的收到该信息的时间小于出站客流表收到该信息的时间,以及进站客流表的车站信息和出站客流表的车站信息不等,从映射关系对应的表中抽取第三目标客流数据存储在统计表中,生成OD客流统计表。其中,第三目标客流数据可以为分别从进站客流表和出站客流表中提取的进站点为目标进站点,且出站点为目标出站点的客流数据。

示例性的,OD客流统计表的表结构如表3所示,OD客流统计表的字段可以包括:数据日期、进站车站编号、出站车站编号和客流量。

表3:OD客流统计表的结构表

/>

示例性的,图2为OD配对的流程图,如图2所示,OD配对操作生成的客流统计表,客流统计表的数据应用可以是客流分配、客流预测、维护列车出行策略等分析和计算工作。

本发明实施例提供了一种客流数据处理方法,该方法通过获取自动检票系统AFC客流数据,从AFC客流数据中提取目标进站数据,根据目标进站数据生成进站客流表,并从AFC客流数据中提取目标出站数据,根据目标出站数据生成出站客流表,基于目标进站客流表和目标出站客流表,抽取相应字段的数据至客流统计表中。本技术方案,通过大数据平台实现了从AFC客流数据中快速提取并生成可用于数据应用的客流统计表,解决了数据表生成速度慢、效率低的问题,提高了客流数据的统计、分析效率,可以支撑轨道交通大数据应用。

实施例二

图3为本发明实施例二提供的一种客流数据处理方法的流程图,本实施例在上述实施例的基础上详细的介绍客流数据处理方法的应用流程。如图3所示,该方法包括:

S210、获取自动检票系统AFC客流数据。

具体的,通过建立索引条件从自动检票系统AFC中获取客流数据。

S220、按照预设数据格式对所述AFC客流数据进行格式转化,并将格式转化后的AFC客流数据存储于分布式文件HDFS系统中。

其中,分布式文件系统HDFS(Hadoop Distributed File System)可以是支持大规模文件存储,适合用于数据备份的简化式系统。

具体的,按照预先设定的数据编码格式对AFC客流数据进行格式转化,将预设数据格式的AFC客流数据存储在分布式文件HDFS系统内。

示例性的,可以通过安全文件传送协议建立大数据平台和AFC系统的联系,大数据平台与AFC系统之间互相发送对应的命令,将AFC客流数据传输至大数据平台,依据大数据平台较强的处理性能,对AFC客流数据的格式转换成UTF-8,图4为AFC客流数据格式转换前后的对比图,如图4所示,数据格式的转换可以消除信息乱码问题,进而避免出现AFC客流数据的中文乱码问题,将UTF-8格式的AFC客流数据存储在分布式文件系统HDFS内。

S230、从所述AFC客流数据中提取目标进站数据,并根据所述目标进站数据生成进站客流表。

具体的,根据预设条件从AFC客流数据中提取目标进站数据,根据目标进站数据的字段类型创建进站客流表,将目标进站数据存储在进站客流表中。

作为一种可选的但不限定的实现方式,从所述AFC客流数据中提取目标进站数据,可以包括:

从所述HDFS系统中读取所述格式转化后的AFC客流数据,并从所述格式转化后的AFC客流数据中提取目标进站数据。

具体的,读取HDFS系统中UTF-8格式的AFC客流数据,从UTF-8格式的AFC客流数据中提取目标进站数据

作为一种可选的但不限定的实现方式,从所述HDFS系统中读取所述格式转化后的AFC客流数据,并从所述格式转化后的AFC客流数据中提取目标进站数据,可以包括步骤A1-A2:

步骤A1、从所述HDFS系统中读取所述格式转化后的AFC客流数据,并过滤所述格式转化后的AFC客流数据中的异常客流数据,生成目标客流数据;其中,所述异常客流数据为满足预设异常条件的客流数据。

具体的,确保AFC客流数据的格式已完全转化成UTF-8的格式数据,需要按照分隔符划分UTF-8格式的AFC客流数据的每个字段,以行分割符分割每行数据,通过分别编写过滤特殊符号和时间格式的自定义函数,过滤满足预设异常条件的数据,生成目标客流数据。

示例性的,图5为AFC客流数据清洗流程图,如图5所示,需要确保AFC客流数据的格式已完全转化成UTF-8的格式数据,数据的格式转换是根据在Hive中的原始数据初始表oct,以“,”等分隔符划分AFC客流数据的每个字段,以 分割每行数据,实现此功能的HiveQL命令为下述语句,导入到HDFS系统内,对AFC客流数据进行过滤异常预设字符和时间格式转换操作,抽取必要字段完成AFC客流数据清洗。

create table if not exists oct(

id string,

days string,

`time` string,

kind string,

action string,

station string,

beforebanlance string,

money string,

afterbanlance string,

transfer string,

counter string,

passageid string,

recivetime string)

row format delimited fields terminated by ','

lines terminated by ' ' stored as textfile;

为了过滤特殊符号,因为Hive内置函数不具有过滤特定字符的功能,需要编写Hive自定义函数(User Define Functions,UDF),并在HiveQL中调用自定义函数,具体应用中,对特殊符号编写UDF_clean_data函数,去掉冒号,对时间格式的转换编写了UDF_clean_date函数,完成时间格式的转换,程序经过打包转化为jar包,导入Hive,在HiveQL中以函数的形式调用,实现数据的过滤以Hive中的原始数据初始表oct为基础,通过select的方式抽取数据到数据库表month_10中,实现预设异常条件过滤的代码为:

create table if not exists month_10

as select

clean_data(oct.id) as id,

clean_data(oct.days) as days,

clean_data(oct.`time`) as `time`,

clean_data(oct.kind) as kind,

clean_data(oct.action) as action,

clean_data(oct.station) as station,

clean_data(oct.beforebanlance) as beforebanlance,

clean_data(oct.money) as money,

clean_data(oct.afterbanlance) as afterbanlance,

clean_data(oct.transfer) as transfer

clean_data(oct.counter) as counter,

clean_data(oct.passageid) as passageid,

clean_date(oct.recivetime) as recivetime

from oct;

HiveQL执行上述语句生成表month_10,完成了数据过滤操作,表month_10的部分内容如图6所示,表month_10为真实的可用于OD匹配的基础数据。

步骤A2、从所述目标客流数据中提取目标进站数据。

具体的,通过对目标客流数据的目标进站数据进行筛选和对应字段的抽取操作,提取到目标进站数据。

示例性的,从目标客流数据中筛选目标进站数据,并从目标客流数据中抽取目标进站数据对应的字段,由于Hive的执行效率问题,将上述两个操作分为两个单独的语句,先用where选取进站车站编号等信息,按照进站车站编号等信息分组统计,即可得到目标进站数据,实现上述操作的代码如下:

create table if not exists month_10_in

as SELECT id,kind,station,recivetime,beforebanlance FROM month_10WHERE action="进站" and (kind="0宜居普通卡" or kind="98单程票") ;

create table if not exists in_flow as select station as in_station,count(*) as passenger from railway_oct_in group by station;

执行上述代码生成目标进站数据month_10_in,month_10_in的部分数据如图7所示。

可选的,所述预设异常条件包括:缺少预设字段数据、数据格式错误、存在中文字符乱码以及存在预设数据逻辑错误中的至少一种。

具体的,对预设异常条件进行解释,缺少预设字段数据的情况可以是:数据缺失、不完善,例如空数据或者Null;数据格式错误的情况可以是:AFC客流数据的数据格式不符合AFC生成数据的格式;存在中文字符乱码可以通过AFC客流数据的数据格式转换,将AFC客流数据格式统一转换成UTF-8 的格式;存在预设数据逻辑错误可以是AFC客流数据表中一个进站对应多个出站等逻辑错误。

S240、从所述AFC客流数据中提取目标出站数据,并根据所述目标出站数据生成出站客流表。

具体的,通过对目标客流数据的目标出站数据进行筛选和对应字段的抽取操作,提取到目标出站数据。

示例性的,从目标客流数据中筛选目标出站数据,并从目标客流数据中抽取目标出站数据对应的字段,可以将上述两个操作分为两个单独的语句,先用where选取出站车站编号等信息,按照出站车站信息分组统计,即可得到目标出站数据,实现上述操作的代码如下:

create table if not exists month_10_out

as SELECT id,kind,station,recivetime,Afterbanlance FROM month_10WHERE action="出站" and (kind="0宜居普通卡" or kind="98单程票") ;

create table if not exists out_flow as select station as out_station,count(*) as passenger from railway_oct_out group by station;

S250、基于所述进站客流表和所述出站客流表生成客流统计表。

具体的,将进站客流表和出站客流表作为数据来源,指定客流统计表的筛选条件,即可生成客流统计表。

示例性的,设定客流统计表的筛选条件可以是:进站客流表和出站客流表之间的智能卡ID一致、进站客流表和出站客流表之间的进行交易前的余额一致、进站客流表的收到该信息的时间小于出站客流表收到该信息的时间,以及进站客流表的车站信息和出站客流表的车站信息不等,从进站客流表和出站客流表之间的映射关系表中提取客流统计表的数据,并生成客流统计表,完成上述步骤的语句是:

create table if not exists month_10_od

as SELECT

month_10_in.id as in_id,

month_10_in.station as in_station,

month_10_in.recivetime as in_time,

month_10_out.station as out_station,

month_10_out.recivetime as out_time

FROM month_10_in,month_10_out

WHERE month_10_in.id==month_10_out.id

AND

month_10_in.beforebanlance==month_10_out.beforebanlance

AND month_10_in.recivetime < month_10_out.recivetime

AND month_10_in.station != month_10_out.station;

执行上述语句生成客流统计表month_10_od,month_10_od的部分数据如图8所示。

在本申请实施例中,图9示出了AFC客流数据从获取到处理成应用数据的过程,需要获取AFC客流数据,对AFC客流数据进行数据格式的转化和数据抽取,得到目标进站数据和目标出站数据,建立进站客流表和出站客流表,并储存AFC客流数据到分布式文件系统内,数据经过数据清洗和数据转换获得结果数据,结果数据可以用于客流分配操作、客流预测操作、维护列车出行策略的分析和计算工作。

本发明实施例提供了一种客流数据处理方法,该方法通过获取自动检票系统AFC客流数据,将AFC客流数据转化为预设数据格式,应用HDFS存储AFC客流数据,从AFC客流数据中提取目标进站数据,根据目标进站数据生成进站客流表,并从AFC客流数据中提取目标出站数据,根据目标出站数据生成出站客流表,基于目标进站客流表和目标出站客流表,抽取相应字段的数据,生成客流统计表中。本技术方案,获取AFC客流数据,经过数据处理,将AFC客流数存储在HDFS中,通过搭建Hive on Spark数据分析框架,进行数据的深度挖掘,提取并生成可用于数据应用的客流统计表,解决了数据表生成速度慢、效率低的问题,提高了客流数据统计、分析效率,且部署该应用的成本低。

实施例三

图10为本发明实施例三提供的一种客流数据处理装置的结构示意图。如图10所示,该装置包括:

客流数据获取模块310,用于获取自动检票系统AFC客流数据;

进站客流表生成模块320,用于从所述AFC客流数据中提取目标进站数据,并根据所述目标进站数据生成进站客流表;

出站客流表生成模块330,用于从所述AFC客流数据中提取目标出站数据,并根据所述目标出站数据生成出站客流表;

客流统计表生成模块340,用于基于所述进站客流表和所述出站客流表生成客流统计表。

进一步的,所述客流统计表包括时间断面客流统计表;

进一步的,客流统计表生成模块340包括:

统计表第一生成单元,用于分别从所述进站客流表和所述出站客流表中提取进出站时间处于预设时间区间内的第一目标客流数据,并根据所述第一目标客流数据生成时间断面客流统计表。

进一步的,所述客流统计表包括区间断面客流统计表;

进一步的,客流统计表生成模块340包括:

统计表第二生成单元,用于分别从所述进站客流表和所述出站客流表中提取进出站处于预设站点区间内的第二目标客流数据,并根据所述第二目标客流数据生成区间断面客流统计表。

进一步的,所述客流统计表包括起止点OD客流统计表;

进一步的,客流统计表生成模块340包括:

统计表第三生成单元,用于分别从所述进站客流表和所述出站客流表中提取进站点为目标进站点且出站点为目标出站点的第三目标客流数据,并根据所述第三目标客流数据生成OD客流统计表。

进一步的,所述装置还包括:

客流数据存储模块,用于按照预设数据格式对所述AFC客流数据进行格式转化,并将格式转化后的AFC客流数据存储于分布式文件HDFS系统中;

进一步的,进站客流表生成模块320包括:

目标进站数据提取单元,用于从所述HDFS系统中读取所述格式转化后的AFC客流数据,并从所述格式转化后的AFC客流数据中提取目标进站数据。

进一步的,目标进站数据提取单元具体用于:

从所述HDFS系统中读取所述格式转化后的AFC客流数据,并过滤所述格式转化后的AFC客流数据中的异常客流数据,生成目标客流数据;其中,所述异常客流数据为满足预设异常条件的客流数据;

从所述目标客流数据中提取目标进站数据。

进一步的,所述预设异常条件包括:缺少预设字段数据、数据格式错误、存在中文字符乱码以及存在预设数据逻辑错误中的至少一种。

本发明实施例所提供的客流数据处理装置可执行本发明任意实施例所提供的客流数据处理方法,具备执行方法相应的功能模块和有益效果。

实施例四

图11示出了可以用来实施本发明的实施例的大数据平台10的结构示意图。大数据平台旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图11所示,大数据平台10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

大数据平台10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如客流数据处理方法。

在一些实施例中,客流数据处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到大数据平台10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的客流数据处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行客流数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 一种数据处理方法及装置、一种计算设备及存储介质
  • 一种数据处理方法、装置、设备及存储介质
  • 一种调用链数据的处理方法、装置、设备及存储介质
  • 一种虚拟现实数据处理方法、装置、系统及存储介质
  • 基于大数据平台的数据处理方法、装置、设备及存储介质
  • 基于大数据平台的数据处理方法、装置、设备及存储介质
技术分类

06120115921205