目录
一、产品功能介绍
二、dataphin使用介绍
1)dataphin注意事项
2)准备工作
3)规划数仓
4)数据处理以及配置调度
5)任务发布
6)数据抽取以及配置调度
一、产品功能介绍
二、dataphin使用介绍
1)dataphin注意事项
1).dataphin拥有开发/测试环境(XX_XX_XX_DEV)和生产环境(XX_XX_XX),使用Dev-Pord模式,将任务调度配置成功之后,进行发布,然后在发布模块,再次进行发布,该任务就会进入到生产
2)dataphin将数据分为三层,分别是ODS层、CDM层、ADS层
ODS层为原始数据层:所有一切的数据(使用到dataphin的数据)都将在这一层,管理员可以分配权限给用户,使用户可以看到自己所需要的数据,权限包括查看权限、数据从ODS到CDM曾的权限都需要通过管理员申请
CDM层为数据汇总层:主要工作是做数据处理工作,处理完成之后将数据结果推送到ADS层,该层用户只能看到所在板块下的内容以及调度任务(注意:不同项目的调度任务在同一板块,也是可以看到的,eg:某项目在金融板块,看到自己调度任务的同时,也可以看到别的项目的调度任务)
ADS层为数据应用层:将CDM层处理好的结果数据,配置调度任务抽取到ADS层(需要向超级管理员申请CDM表格的权限)
3).dataphin拥有抽数取数的功能,可以配置调度,定时抽取数据(需要用户向超级管理员申请所申请表的操作权限)
4).dataphin创建的表默认为分区表(分区字段默认为DS)
5).数据开发、数据集成的操作,超级管理员都可以层层把控,用户必须有权限才能进行操作
2)准备工作
- 登录MaxCompute控制台,在左上角选择地域。
- 在项目管理页签,单击创建项目。
- 在创建工作空间面板,配置创建DataWorks工作空间信息后,单击创建项目。
- 在创建工作空间面板,配置创建MaxCompute项目信息后,单击确认创建,即可完成MaxCompute项目创建。
- 创建成功后,即可在项目管理页签查看新创建的MaxCompute项目
3)规划数仓
1.创建业务板块(没创建权限,故以下操作为官网推荐操作)
- 登录Dataphin控制台。
- 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。
- 进入业务板块页面。
- 在Dataphin首页,单击顶部菜单栏的规划。
- 在规划页面,单击左侧导航栏的业务板块。
- 创建业务板块
- 在业务板块页面,单击右上方的新建业务板块。
- 在新建业务板块对话框,选择Dev-Prod模式后,单击下一步。
- 在新建业务板块对话框中,配置参数
- 单击确定,完成业务板块(LD_beginner_test和LD_beginner_test_dev)的创建。
- 创建交易域。
- 在LD_beginner_test业务板块页面,单击页面右侧的新建数据域。
- 在新建数据域对话框中,配置参数。
2.创建数据源
1.在规划页面,点击数据源,点击新建数据源
2.在新建数据源对话框中,配置参数,单机测试连接,连接成功之后,点击确定
3.数据查询
1.点击资产进入地图页面
2.在搜索框模糊搜索表格点击相应的表格,即可查询表格相应内容(可以查看表结构、分区概览、数据预览、产出信息、血缘关系、影响分析、质量报告)
4)数据处理以及配置调度
数据处理主要分为CDM层数据处理和ADS层数据处理,在开发/测试环境任务发布成功之后,会自动发不到生产环境
1.CDM层数据处理
1)点击研发,进入开发界面
2)开发页面分为规范建模、数据处理、即席查询三大模块
规范建模主要是创建维度、物理逻辑表、业务逻辑表、原子指标、派生指标等内容
即席查询:(如图所示,可以看到相同板块下面不同操作人员的查询记录)
点击即席查询,进入如下界面,可以用日常的sql就行查询数据,记忆逻辑处理
数据处理模块
1.用户可以在即席查询页面将数据处理逻辑处理好之后,在数据处理模块,进行任务调度
点击数据处理→左侧列表“+”号(创建文件夹/创建maxcomper sql任务),也可以创建shell脚本
2.在创建好的sql文件中,可以编写sql处理逻辑,如下所示配置调度
点击调度配置,在右侧列表选择时间属性、是否暂停调度、调度周期(最小粒度为5分钟)、上游依赖(需要管理员为你创建一个空节点作为cdm层的上游节点使用)、下游依赖(处理好的数据-->CDM层的目标表)
5)任务发布
1.如上所示点击右下角的确定保存目前的调度配置
2.点击如图所示的小飞机图标(右上角),提交任务
3.点击提交任务之后,会弹出提示框(确保无误之后点击确定即可)
右上角会弹出该任务的备注信息,填写完毕之后,点击确认并提交
4.点击待发布对象列表,进入代发布对象列表
5.选中该任务名称左边的弹框,点击该任务右侧的发布,弹框会让你确定信息,点击确定即可
6.点击任务发布列表,进入任务发布列表页面,也可以点击该任务右侧的编辑,编辑任务,然后重新配置调度、发布任务
6)数据抽取以及配置调度
1.点击集成进入集成页面进行数据抽取和调度,如下所示:
2.在页面右侧组件库里面可以选择输入、转换、流程、输出等组件,按照自己的需求,完成对数据的抽取和输出工作
图中咱们输入选择maxcomputer、输出选择mysql为例
3.配置输入端maxcomputer
数据源(生产环境下的ADS层数据)、表(ADS层的应用表)、分区(bizdate→昨天、today→今天)
4.配置输出Mysql
数据源(代表创建的输出端的mysql数据源名称)、表(要导出的表名称)、加载策略(覆盖数据、追加数据)
字段映射将输入端和输出端字段映射完毕即可
填写准备语句和填写完成语句可以在准备导数或者导数完毕之后写sql操作导出的数据库表,点击确定即可,如下所示:
5.点击执行或者预览查看配置是否正确,数据是否导出成功(在mysql中查看)
6.配置调度信息,然后进行发布任务(发布任务同上)
上游依赖(ads层该表的调度任务节点名称)、下游依赖(目前你在创建执行的该任务的节点名称)