https://www.zhihu.com/tardis/bd/art/627016379?source_id=1001

发布时间 2023-07-07 15:01:37作者: 萌哥-爱学习

1、ODS原始数据层

ODS层保存所有操作数据,不对原始数据做任何处理。在业务系统和数据仓库之间形成一个隔离,源系统数据结构的变化不影响其他数据分层。减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。记住ODS层数据要保留数据的原始性。

处理原则:

根据源业务系统表的情况以增量或全量方式抽取数据;

ODS层以流水表和快照表为主,按日期对数据进行分区保存,不使用拉链表;

ODS层的数据不做清洗和转换,数据的表结构和数据粒度与原业务系统保持一致。

2、DWD数据明细层

DWD层的数据是经由ODS层数据经过清洗、转换后的明细数据,满足对标准化数据需求。如对NULL值处理,对数据字典解析,对日期格式转换,字段合并、脏数据处理等。

处理原则:

数据结构与ODS层一致,但可以对表结构进行裁剪和汇总等操作;

对数据做清洗、转换;

DWD层的数据不一定要永久保存,具体保存周期视业务情况而定。

3、DWS数据汇总层

DWS层数据 按主题对数据进行抽象、归类,提供业务系统细节数据的长期沉淀。这一层是一些汇总后的宽表,是根据DWD层数据按照各种维度或多种维度组合,把需要查询的一些事实字段进行汇总统计。可以满足一些特定查询、数据挖掘应用,面向业务层面,根据需求进行汇总。

处理原则:

面向全局、数据整合;

存放最全的历史数据,业务发生变化时易于扩展,适应复杂的实际业务情况;

尽量减少数据访问时的计算量,优化表的关联。维度建模,星形模型;

事实拉宽,度量预先计算, 基本都是快照表。反规范化,有数据冗余。

4、AWS数据明细层

ADS应用层是根据业务需要,由DWD、DWS数据统计而出的结果,可以直接提供查询展现,或导入至Oracle等关系型数据库中使用。这一层的数据会面向特定的业务部门,不同的业务部门使用不同的数据,支持数据挖掘。

处理原则:

形式各式,主要按不同的业务需求来处理;

保持数据量小,定时刷新数据;

数据同步到不同的关系型数据库或hbase等其他数据库中。

提供最终数据,来满足业务人员、数据分析人员的数据需求