Kimball维度建模

4年前 (2022) 程序员胖胖胖虎阿

384 0 0

维度模型是数据仓库领域大师Ralph Kimball 所倡导，以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，所以它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。性能

维度建模是数据仓库/商业智能项目成功的关键，为何这么说，由于无论咱们的数据量从GB到TG仍是到PB，虽然数据量愈来愈大，可是数据展示要得到成功，就必须创建在简单性的基础之上，而维度建模就是时刻考虑如何可以提供简单性，以业务为驱动，以用户理解性和查询性能为目标。学习

维度建模：维度建模是专门应用于分析型数据库、数据仓库、数据市集建模的方法。数据市集能够理解为一种“小型的数据仓库”
维度建模指导咱们在数据仓库中如何建表大数据

维度建模分为两种表：事实表和维度表设计

事实表：必然存在的一些数据，像采集的日志文件，订单表，均可以做为事实表
特征：是一堆主键的集合，每一个主键对应维度表中的一条记录，客观存在的，根据主题肯定出须要使用的数据
维度表：维度就是所分析的数据的一个量，维度表就是以合适的角度来建立的表，分析问题的一个角度：时间、地域、终端、用户等角度

维度建模的三种模式

1. 星形模式：以事实表为中心，全部的维度表直接连在事实表上，最简单最经常使用的一种

星形模式

2. 雪花模式：雪花模式的维度表能够拥有其余的维度表，这种表不易维护，通常不推荐使用

雪花模式

3.星座模型：基于多张事实表，并且共享维度信息，即事实表之间能够共享某些维度表

星座模型

维度建模怎么建

咱们知道事实表，维度表，星形模型，星座模型这些概念了，可是实际业务中，给了咱们一堆数据，咱们怎么拿这些数据进行数仓建设呢，数仓工具箱做者根据自身60多年的实际业务经验，给咱们总结了以下四步，请务必记住！

数仓工具箱中的维度建模四步走：

维度建模四步走

请牢记以上四步，无论什么业务，就按照这个步骤来，顺序不要搞乱，由于这四步是环环相扣，步步相连。下面详细拆解下每一个步骤怎么作

一、选择业务过程
维度建模是紧贴业务的，因此必须以业务为根基进行建模，那么选择业务过程，顾名思义就是在整个业务流程中选取咱们须要建模的业务，根据运营提供的需求及往后的易扩展性等进行选择业务。好比商城，整个商城流程分为商家端，用户端，平台端，运营需求是总订单量，订单人数，及用户的购买状况等，咱们选择业务过程就选择用户端的数据，商家及平台端暂不考虑。业务选择很是重要，由于后面全部的步骤都是基于此业务数据展开的。

二、声明粒度
先举个例子：对于用户来讲，一个用户有一个身份证号，一个户籍地址，多个手机号，多张银行卡，那么与用户粒度相同的粒度属性有身份证粒度，户籍地址粒度，比用户粒度更细的粒度有手机号粒度，银行卡粒度，存在一对一的关系就是相同粒度。为何要提相同粒度呢，由于维度建模中要求咱们，在同一事实表中，必须具备相同的粒度，同一事实表中不要混用多种不一样的粒度，不一样的粒度数据创建不一样的事实表。而且从给定的业务过程获取数据时，强烈建议从关注原子粒度开始设计，也就是从最细粒度开始，由于原子粒度可以承受没法预期的用户查询。可是上卷汇总粒度对查询性能的提高很重要的，因此对于有明确需求的数据，咱们创建针对需求的上卷汇总粒度，对需求不明朗的数据咱们创建原子粒度。

三、确认维度
维度表是做为业务分析的入口和描述性标识，因此也被称为数据仓库的“灵魂”。在一堆的数据中怎么确认哪些是维度属性呢，若是该列是对具体值的描述，是一个文本或常量，某一约束和行标识的参与者，此时该属性每每是维度属性，数仓工具箱中告诉咱们紧紧掌握事实表的粒度，就能将全部可能存在的维度区分开，而且要确保维度表中不能出现重复数据，应使维度主键惟一

四、确认事实
事实表是用来度量的，基本上都以数量值表示，事实表中的每行对应一个度量，每行中的数据是一个特定级别的细节数据，称为粒度。维度建模的核心原则之一是同一事实表中的全部度量必须具备相同的粒度。这样能确保不会出现重复计算度量的问题。有时候每每不能肯定该列数据是事实属性仍是维度属性。记住最实用的事实就是数值类型和可加类事实。因此能够经过分析该列是不是一种包含多个值并做为计算的参与者的度量，这种状况下该列每每是事实。