导航：首页> 基本电气元件>数据仓库的分层构建方法、装置、电子设备及存储介质

数据仓库的分层构建方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 11:02:01

技术领域

本申请实施例涉及计算机应用技术领域，尤其涉及一种数据仓库的分层构建方法、装置、电子设备及存储介质。

背景技术

在建设智慧城市中，政务数据仓库一般分为归集库、标准库、基础库、主题库等不同层级。

现有技术中，政务数据仓库中不同层级由于业务和数据处理流程的需要，现有技术的建模方法不能统一满足各层需求，导致政务数据仓库的逻辑模型建设过程混乱，且不能很好地支持不同层级对数据加工处理的需要。

因此，需要设计一种建模方法，能够满足政务数据仓库不同层级数据处理的需求。

发明内容

本申请实施例提供了一种数据仓库的分层构建方法、装置、电子设备及存储介质，以能够支持并满足数据仓库不同层级数据处理的需求。

第一方面，本申请实施例提供了一种数据仓库的分层构建方法，该方法包括：

获取各个待收集数据库的原始数据，并对所述原始数据利用关系建模得到归集库；其中，所述归集库中的数据表结构与所述原始数据的数据表结构相同；

对归集库中的数据进行标准化处理，并对处理后的数据进行关系建模得到标准库；

对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表，并基于所述属性标签表、统计标签表和算法标签表构建基础库和主题库；其中，根据表的类型确定表的建模方法。

第二方面，本申请实施例提供了一种数据仓库的分层构建装置，该装置包括：

归集库构建模块，用于获取各个待收集数据库的原始数据，并对所述原始数据利用关系建模得到归集库；其中，所述归集库中的数据表结构与所述原始数据的数据表结构相同；

标准库构建模块，用于对归集库中的数据进行标准化处理，并对处理后的数据进行关系建模得到标准库；

目标库构建模块，用于对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表，并基于所述属性标签表、统计标签表和算法标签表构建基础库和主题库；其中，根据表的类型确定表的建模方法。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请任意实施例所述的数据仓库的分层构建方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现本申请任意实施例所述的数据仓库的分层构建方法。

本申请实施例提供了一种数据仓库的分层构建方法、装置、电子设备及存储介质，获取各个待收集数据库的原始数据，并对原始数据利用关系建模得到归集库；对归集库中的数据进行标准化处理，并对处理后的数据进行关系建模得到标准库；对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表，并基于属性标签表、统计标签表和算法标签表构建基础库和主题库。本申请方案能够支持并满足数据仓库不同层级数据处理的需求。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例一提供的一种数据仓库的分层构建方法的第一流程示意图；

图2A为本申请实施例二提供的一种数据仓库的分层构建方法的第二流程示意图；

图2B为本申请实施例二提供的一种数据仓库的分层构建方法中添加系统字段的示意图；

图2C为本申请实施例二提供的一种数据仓库的分层构建方法中关联数据的示意图；

图3为本申请实施例三提供的一种数据仓库的分层构建装置的结构示意图；

图4是用来实现本申请实施例的一种数据仓库的分层构建方法的电子设备的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

图1为本申请实施例一提供的一种数据仓库的分层构建方法的第一流程示意图，本实施例可适用于对数据仓库进行建模的情况，可适用于职能部门处理政务时，也可适用于企业处理事务时。本实施例提供的一种数据仓库的分层构建方法可以由本申请实施例提供的数据仓库的分层构建装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在执行本方法的电子设备中。

参见图1，本实施例的方法包括但不限于如下步骤：

S110、获取各个待收集数据库的原始数据，并对原始数据利用关系建模得到归集库。

其中，待收集数据库是指业务部门的数据库。其中，业务部门可以是税务、环保或者公安等职能部门，也可以是企业中的某个部门。

在本申请实施例中，业务部门拥于各自的数据库(即原始数据)，并可对其数据库进行管理维护。业务部门可将其数据库(即原始数据)推送到前置库中，用于分享以供其他部门进行调用。前置库中的原始数据的形式可以是：MySQL、Oracle、SQL Server或者其他数据库。

在本申请实施例中，归集库中的数据来源于各个业务部门数据库的原始数据。具体的，首先电子设备主动定期从前置库中获取各个业务部门数据库的原始数据，再将原始数据汇聚同步至数据中心，然后对数据中心的原始数据利用关系建模方法构建模型，得到归集库。在对原始数据利用关系建模得到归集库的过程中，仅需增加一些字段之外，不需要对数据做任何处理，可以维护数据之间的关系，以便于数据的溯源和确权。归集库中的数据模型可以从业务部门的前置库中快速转换过来。归集库中数据的表结构与原始数据的数据表结构相同，也就是，归集库中数据的表结构要与业务部门提供的保持一致。这样设置的好处在于，方便对数据的溯源以及方便后续对数据进行加工处理。

S120、对归集库中的数据进行标准化处理，并对处理后的数据进行关系建模得到标准库。

在本申请实施例中，标准库中的数据来源于归集库。具体的，首先对归集中的数据进行标准化处理，再将标准化处理后的数据利用关系建模的方法，得到标准库。其中，标准化处理可以是对数据进行清洗、比对等简单操作，解决数据质量问题，使数据变得干净，从而使后续对标准库中数据进行分析的结果更为准确。例如：对与常识不符的数据进行清洗、对不同来源的数据出现重复的情况进行清洗等等。标准库中数据的结构可以做少量调整，但尽量与归集库中数据保持一致。可选的，标准库中的数据模型可以从业务部门的前置库中快速转换过来。

可选的，由于标准库是对归集库中的数据进行加工而得的，因此标准库的建模技术应该根据实际情况进行选择。具体的，可以是归集库中数据存在关系需要进行数据合并，得到标准库；还可以是对归集库中数据进行清洗转换，得到标准库。

S130、对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表，并基于属性标签表、统计标签表和算法标签表构建基础库和主题库。

其中，本申请实施例中基础库是城市高频使用的数据库，在数据共享、核心业务运行支撑方面存在重大意义，基础库包括人口库、法人库、空间地理信息库、信用库、电子证照库等。主题库是指具有特定业务属性或者特定用途的数据库，主题库包括环保库、公共安全库、卫健库等。

在本申请实施例中，基础库和主题库中的数据来源于标准库。对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表。其中，属性标签表的属性标签来源标准库中数据的字段；统计标签表是对标准库中数据进行而得；算法标签表是根据实际业务需求对标准库中数据构建算法模型、分析模型进行计算而得。

在本申请实施例中，根据表的类型确定表的建模方法。若为属性标签表，则采用关系建模的方法。即，根据标准库中数据的字段，确定数据的属性标签表。示例性的，根据标准库中字段为学历的数据，生成属性为学历的标签表；根据标准库中字段为居住城市的数据，生成属性为居住城市的标签表。

若为统计标签表，则采用维度建模的方法。即，对标准库中数据进行指标计算，得到数据的统计标签表。具体过程为：通过原子指标、派生指标、复合指标的规范建模，快速生成计算数据，自动完成指标计算和汇总数据入库(即存入统计标签表)。示例性的，根据标准库中每个地区人口的数据、对人口自然增长率进行统计计算，生成人口自然增长率统计标签表。

若为属性标签表，则采用简化的关系建模的方法。即，通过简化关系建模，得到数据的算法标签表。由于算法标签表的字段由算法或分析挖掘等系统分析而来，使用简化的关系建模方法，无需维护模型关系。示例性的，根据标准库的数据，可以借助人工智能平台分析，如分析是否有房、购物偏好等。可选的，算法标签可以使用神经网络算法模型。

本实施例提供的技术方案，获取各个待收集数据库的原始数据，并对原始数据利用关系建模得到归集库；对归集库中的数据进行标准化处理，并对处理后的数据进行关系建模得到标准库；对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表，并基于属性标签表、统计标签表和算法标签表构建基础库和主题库。本申请通过从归集库到标准库，再到基础库和主题库的建库流程，利用分层构建的方法对数据仓库不同层次进行建模，使得数据仓库建模的过程更加清晰，能够支持并满足数据仓库不同层级数据处理的需求。

实施例二

图2A为本申请实施例二提供的一种数据仓库的分层构建方法的第二流程示意图；图2B为本申请实施例二提供的一种数据仓库的分层构建方法中添加系统字段的示意图；图2C为本申请实施例二提供的一种数据仓库的分层构建方法中关联数据的示意图。本申请实施例是在上述实施例的基础上进行优化，具体优化为：增加了对归集库和标准库的构建过程进行详细的解释说明。

参见图2A，本实施例的方法包括但不限于如下步骤：

S210、获取各个待收集数据库的原始数据。

S220、采用从来源表添加的方式，对原始数据添加系统字段，得到归集库数据表。

在本申请实施例中，由于归集库中的数据表结构要与原始数据的数据表结构相同，因此可以采用从来源表添加的方式，将各个业务部门数据库的原始数据中的系统字段快速添加到归集库，也可以批量添加系统字段。如图2B为从来源表添加的方式添加系统字段。此外，为了后续在标准库中对数据处理方便，可以在归集库中为数据添加了一些系统字段，如唯一标识、批次号和数据插入时间。例如，为了避免由于归集库中增加了新的数据，而使得后续步骤中标准库每次都要读取全部的数据，因此本申请实施例使用增量读取数据的方式，所以需要在归集库中添加“数据插入时间”这个字段。如下表1所示。

表1、为归集库中数据添加系统字段

可选的，由于各个业务部门原始数据的数据库类型与数据仓库的数据库类型可能不同，因此字段数据类型存在转换的情况，其中，字段数据类型的转换方法可以使用现有技术中方法来实现，在本申请实施例中不做具体介绍。

可选的，归集库中除了为数据添加系统字段外，还需要为数据中的业务定义为唯一索引，用于检验数据的质量问题，比如不同来源的数据出现重复的情况。如果没有业务主键，则不需要为数据中的业务定义为唯一索引。

在本申请实施例中，构建完归集库数据结构之后，需要维护好原始数据与归集库中数据之间的关联关系。如图2C所示，是将原始数据与归集库中数据进行关联，这样可以方便对数据的溯源和确权。

S230、根据数据表之间的关系，确定归集库中的关联表和关联字段，并进行数据清洗，得到标准库中的数据。

在本申请实施例中，标准库的建模方法使用关系建模方法，维护数据之间的业务关系。具体的，在数据合并场景中，由于归集库已经建立了数据表之间的关系，因此按照表关系选择关联表，同时选择所需的字段，便可构建标准库。可选的，也可以通过书写结构化查询语言(Structured Query Language，SQL)，通过SQL分析出标准库字段、来源表和关系。可选的，在其他场景中用户可以根据实际业务需要选择合适的建模方法。

在本申请实施例中，在标准库的建模过程中，同样需要添加系统字段，如表1中为归集库中数据添加的3个系统字段。

可选的，所述进行数据清洗得到标准库中的数据，具体包括：对数据进行清洗操作，得到清洗后的数据；根据预设规则，判断清洗后的数据是否正确；根据判断结果，将正确的数据保存在标准库中，将不正确的数据保存在问题库中。具体的，通过从归集库中增量读取数据的方式读取数据，然后利用数据处理工具完成数据的过滤、去重、格式转换、数据校验等标准化处理。经数据处理之后，将正确的数据结果保存到标准库中，将不正确的数据保存在问题库中。

S240、基于属性标签表、统计标签表和算法标签表构建基础库和主题库。

本实施例提供的技术方案，通过获取各个待收集数据库的原始数据；采用从来源表添加的方式，对原始数据添加系统字段，得到归集库数据表；根据数据表之间的关系，确定归集库中的关联表和关联字段，并进行数据清洗，得到标准库中的数据；基于属性标签表、统计标签表和算法标签表构建基础库和主题库。本申请通过为归集库增加系统字段，为标准库中的数据进行标准化处理，并按照不同类型选择不同的建模方法。本申请利用分层构建的方法对数据仓库不同层次进行建模，使得数据仓库建模的过程更加清晰，能够支持并满足数据仓库不同层级数据处理的需求。

实施例三

图3为本申请实施例提供的一种数据仓库的分层构建装置的结构示意图，如图3所示，该装置300可以包括：

归集库构建模块310，用于获取各个待收集数据库的原始数据，并对所述原始数据利用关系建模得到归集库；其中，所述归集库中的数据表结构与所述原始数据的数据表结构相同；

标准库构建模块320，用于对归集库中的数据进行标准化处理，并对处理后的数据进行关系建模得到标准库；

目标库构建模块330，用于对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表，并基于所述属性标签表、统计标签表和算法标签表构建基础库和主题库；其中，根据表的类型确定表的建模方法。

进一步的，上述归集库构建模块310，可以具体用于：采用从来源表添加的方式，对原始数据添加系统字段，得到归集库数据表。

进一步的，上述标准库构建模块320，可以具体用于：根据数据表之间的关系，确定归集库中的关联表和关联字段，并进行数据清洗，得到标准库中的数据。

可选的，所述进行数据清洗，得到标准库中的数据，包括：对数据进行清洗操作，得到清洗后的数据；根据预设规则，判断清洗后的数据是否正确；根据判断结果，将正确的数据保存在标准库中，将不正确的数据保存在问题库中。

进一步的，上述目标库构建模块330，可以具体用于：根据标准库中数据的字段，确定数据的属性标签表；对标准库中数据进行指标计算，得到数据的统计标签表；通过简化关系建模，得到数据的算法标签表。

可选的，若为属性标签表，则采用关系建模的方法；若为统计标签表，则采用维度建模的方法；若为属性标签表，则采用简化的关系建模的方法。

本实施例提供的数据仓库的分层构建装置可适用于上述任意实施例提供的数据仓库的分层构建方法，具备相应的功能和有益效果。

实施例四

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例的数据仓库的分层构建方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器410、存储器420，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器410为例。

存储器420即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的数据仓库的分层构建方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据仓库的分层构建方法。

存储器420作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据仓库的分层构建方法对应的程序指令/模块(例如，附图3所示的归集库构建模块310、标准库构建模块320和目标库构建模块330)。处理器410通过运行存储在存储器420中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据仓库的分层构建方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据仓库的分层构建的电子设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至数据仓库的分层构建的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据仓库的分层构建方法的电子设备还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置430可接收输入的数字或字符信息，以及产生与数据仓库的分层构建的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置440可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，获取各个待收集数据库的原始数据，并对原始数据利用关系建模得到归集库；对归集库中的数据进行标准化处理，并对处理后的数据进行关系建模得到标准库；对标准库中的数据进行字段的标签化处理，得到属性标签表、统计标签表和算法标签表，并基于属性标签表、统计标签表和算法标签表构建基础库和主题库。本申请通过从归集库到标准库，再到基础库和主题库的建库流程，利用分层构建的方法对数据仓库不同层次进行建模，使得数据仓库建模的过程更加清晰，能够支持并满足数据仓库不同层级数据处理的需求。

值得注意的是，上述数据仓库的分层构建装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘波;
专利申请人：北京软通智慧城市科技有限公司;