数据仓库

数据仓库:各种数据的中央存储系统,提供数据的存储,管理和分析功能。

功能:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),用于做数据分析。

通俗讲: 为数据挖掘,多维分析,决策支持,报表系统提供易用数据。

数据仓库 比较流行语言的有:AWS Redshift, Greenplum, Hive等

主要模块

1数据采集平台(数据仓库数据来源)

在这里插入图片描述

使用语言技术

在这里插入图片描述

2数据仓库

在这里插入图片描述
对数据分层建模,保证数据的准确性

使用语言技术

在这里插入图片描述

3数据可视化

在这里插入图片描述

使用语言技术

在这里插入图片描述

数据仓库中的数据一般只更新,不删除。

2 数据库 和 数据仓库区别

OLTP 和 OLAP

操作型处理 OLTP 事务处理,关注响应速度,数据安全,完整性,并发操作等

分析型处理OLAP 联系分析,针对主题 历史数据分析,支持管理决策。

数据库:面向事务,捕获数据
数据仓库 :面向主题,分析数据

数据仓库,是在数据库已经大量存在的情况下,进一步做数据挖掘,所需要的。

3 数仓分层

三层:源数据 数据仓库 数据应用
源数据 经过 数据清洗之后, 就到了 数据仓库,这个过程称之为 ETL。
数据仓库 往 数据应用,包括 机器学习,数据挖掘,报表展示。
在这里插入图片描述
源数据层: ODS 不作处理,临时存储层
数据仓库层: DW 细节层,数据一致,干净
数据应用层: 可以直接读取的数据源,根据专题需求设计计算生成。

ETL 抽取 转换 装载 Extra Transfer Load

数据分层的目的:将步骤拆分,简化管理。

数仓的元数据管理

Meta Data
数据转换规则,逻辑结构,更新规则,导入历史的内容

分为技术原数据 和 技术原数据

在这里插入图片描述

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐