CDA备考学习——基础知识点(一)
- 一、数据分析的基础概念
-
- 1.1 什么是数据分析?
- 1.2 数据分析的分类?
- 1.3 EDIT数字化模型
- 二、数据分析师职业道德与行为准则
-
- 2.1 职业道德
- 2.2 行为准则
- 三、大数据立法、安全、隐私
-
- 3.1 原则
- 3.2 隐私与安全
- 3.3 国外的相关法律
- 3.4 我国的相关法律
- 四、数据结构、表结构
-
- 4.1 表格结构
-
- 4.1.1 表格结构数据特征
- 4.1.2 表格结构数据获取方法
- 4.1.3 表格结构数据使用方法
-
- 4.1.3.1 单元格的引用方法
- 4.1.3.2 表格结构数据查询方法
- 4.1.3.3 函数
- 4.1.3.4 用查询函数进行查找
- 4.1.3.5 表格结构数据的计算方法——直接计算
- 4.1.3.6 表格结构数据的计算方法——函数计算
- 4.2 表结构
-
- 4.2.1 表结构数据,以及事实表和维度表
- 4.2.2 表结构数据特征
- 4.2.3 表结构数据获取方法
- 4.2.4 表结构数据使用方法
-
- 4.2.4.1 表结构数据的横向合并
- 4.2.4.2 表结构数据的纵向合并
- 4.2.4.3 表结构数据的汇总
- 4.2.4.4 数据分析的业务意义
一、数据分析的基础概念
1.1 什么是数据分析?
简单来说,数据分析就是利用数据来理性思考和决策的过程。
1.2 数据分析的分类?
- 数据分析(Data Analysis):是以数据为分析对象,以探索数据内的有用信息为主要途径, 以解决业务需求为最终目标 。
- 数据挖掘(Data Mining):是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法 在相对较大型的数据集中发现模式 的计算过程。
1.3 EDIT数字化模型
EDIT数字化模型 的定义:
- 业务运行探索(E):探索关注企业各项业务的 运行状态 、各项指标是否合规以及各项业务的 具体数据 情况等等。
- 问题根原因诊断(D):当业务指标偏离正常值时,采用定性和定量相结合的方式,在中、微观层面 定位和分析问题 。
- 业务策略指导(I):当确定获客群体后,我们就需要考虑下如何指定业务策略指导。根据知识库、策略库、流程模板可以便捷地制定 优化策略 。
- 智能算法工具(T):算法架构是EDIT数字化模型的 发动机 ,服务于价值经营、客群运营、全面质量管理、全面风险管理等各个方面。
EDIT数字化模型 的各个字母的全称及作用:
- Exploration(探索):指标体系;
- Diagnosis(诊断):性质分析法,数量分析法;
- Instruction(指导):知识库,策略库,流量模板;
- Tool(工具):数据模型,算法模型,优化模型;
二、数据分析师职业道德与行为准则
对于我们数据分析师,在价值观(开放、创新、分享)的基础上,同样有更高的职业道德操守与行为准则,需要我们每一位数据分析师都遵守。
2.1 职业道德
职业道德:
将数据产权、用户利益和机构利益 置于个人利益之上 ,保护数据资产的 安全性 ,遵循数据的 真实性、可靠性 ,禁止技术欺诈、数据造假、非法交易,损害用户和机构利益。
保持和加强自身职业道德操守以及同行的操守。不参与任何违法行为 ,包括但不限于:
- 偷窃、欺骗、腐败、挪用或贿赂;
- 不使用或滥用他人的产权 ,包括数据资产、知识产权;
- 不参与诽谤或侮辱;
- 不宽恕或帮助他人参与违法行为 。
2.2 行为准则
行为准则:
如果说数据分析师的职业导则操守告诉我们**什么不应该做,什么应该做** 。那么数据分析师的行为准则告诉了我们 怎么去做 。
专业、审慎、高效地完成各项数据分析的业务流程:
- 全面了解业务背景、痛点、需求 ,做出分析建议,与团队充分沟通,确定合理的业务指标,获取符合要求的原数据。
- 保持工具与算法的前沿性、实用型、高效性。根据也无需要,选择合理的工具、平台、系统及算法 。
- 不断 迭代并优化 业务指标与数据模型。
- 撰写专业可视化报告,逻辑清晰展示项目成果,并 做出具有商业价值的建议 。
- 尊重契约,按时按质完整 交付工作成果,并对相关数据、代码、结果进行保密。
- 履行后期义务与责任 。完整交付结果后,对客户须进行后期解答、咨询、维护等服务;对机构业务须进行后续跟进、优化、指导建议等工作。
三、大数据立法、安全、隐私
3.1 原则
有关数据隐私与安全的立法,是一个单独的、严谨的领域,而且内容庞杂。同学们千万不要去背诵相关法条,而是要掌握数据安全法的 立场与原则 ,然后去分析相关 实际问题 。
3.2 隐私与安全
- 隐私是一种个人的权利,即我的个人信息不被滥用,不被他人知道的权利。
- 安全是一种机制,即为了确保隐私权得到保护而设立的一种机制。
- 首先明确个人权利,然后设置机制取保护权利。
3.3 国外的相关法律
欧盟的《通用数据保护条例》General Data Protection Regulation,简称GDPR。
其核心目标是将个人数据保护深度嵌入组织运营,真正将抽象的保护理论转化为实实在在的行为实践。
GDPR:
企业在收集用户的个人数据之前,必须向用户说明:
- 将收集用户的哪些信息;
- 收集到的信息将如何进行存储;
- 存储的信息会如何使用;
- 企业的联系方式。
用户享有的权利有:
- 数据访问权;
- 被遗忘权;
- 限制处理权;
- 数据携带权。
3.4 我国的相关法律
保护公民个人数据信息安全已写入刑法(《中华人民共和国刑法修正案(九)》)
中华人民共和国网络安全法:
- 网络运营者收集、使用个人信息必须符合合法、正当、必要原则;
- 网络运营收集、使用公民个人信息的目的明确原则和知情同意原则;
- 公民个人信息的删除权和更正权制度。
2020年6月28日-30日,《中华人民共和国数据安全法》迎来初次审议。
- 确立数据分级分类管理以及风险评估,检测预警和应急处置等数据安全管路各项基本制度;
- 明确开展数据活动的组织、个人的数据安全保护义务,落实数据安全保护责任;
- 坚持安全与发展并重,锁定支持促进数据安全与发展的措施;
- 建立保障政务数据安全和推动政务数据开放的制度措施。
四、数据结构、表结构
4.1 表格结构
4.1.1 表格结构数据特征
数据类别:结构化数据和非结构化数据
1. 结构化数据:常见的表格结构数据生产的上下游关系如下图所示。
表格结构数据层级:
对象间的父子级关系:
- 父级→子级: 一个父级对象下包含多个不同子级对象;
- 子级→父级: 一个子级对象只能属于某一个特定的父级对象;
例如:省份与城市、月份与日期
表格
结构数据的数据类型:
单元格的格式属性:
4.1.2 表格结构数据获取方法
1. 从企业后台数据库系统获取:
2. 从后台数据库系统获取数据流程:对应流程图如下所示。
- 需求中的业务描述部分应尽量准确、详细、易懂;
- 需求中的数据使用部分的描述应尽量做到条理清晰、逻辑严谨、细节描述要详细;
- 需求描述结束后需要确认数据库管理人员听懂并且理解了需求内容;
- 向数据库管理人员询问获取数据的方案,与数据库管理人员一起逐一核对方案细节。
3. 前端操作平台获取数据:
4. 从企业外部渠道获取数据:
CSV格式文件与TXT格式文件的样例:
4.1.3 表格结构数据使用方法
4.1.3.1 单元格的引用方法
单元格的引用方法:
- 引用统一工作表内单元格值:通过=“
列号+行号
”定位单元格; - 引用单元格值:通过“
=表名!+列号+行号
”定位单元格;
单元格区域值的引用方法:
4.1.3.2 表格结构数据查询方法
表格结构数据查询方法:
4.1.3.3 函数
函数:
函数构成五部分:
- “=”:等号的意义是告诉计算机,我从现在开始要使用函数进行计算了。是对计算机进行的函数使用宣言;
- 函数表达式:函数表达式由函数名以及括号两部分构成,不同函数表达式代表不同的函数功能;
- 参数:进行函数计算时参照的计算依据;
- 操作符:有特殊意义的字符;
- 返回值:使用函数进行计算的目的就是为了得到计算结果,计算结果就是返回值。
4.1.3.4 用查询函数进行查找
用查询函数进行查找:
4.1.3.5 表格结构数据的计算方法——直接计算
表格结构数据的计算方法——直接计算:
- 直接计算:使用运算符连接单元格或单元格区域进行计算。
4.1.3.6 表格结构数据的计算方法——函数计算
表格结构数据的计算方法——函数计算:
- 函数计算:使用函数对单元格及单元格区域值进行计算并返回计算结果。
4.2 表结构
4.2.1 表结构数据,以及事实表和维度表
表结构数据:以字段或记录作为数据的引用、操作及计算的基本单位的数据。
- 字段:整列数;
- 记录:整行数;
- 维度:业务角度;
- 度量:业务行为结果;
- 维度字段:文本型;
- 度量字段:数值型;
事实表及维度表:
- 维度表:只包含维度信息的表;
- 事实表:既包含
维度信息
又包含度量信息
的表;
4.2.2 表结构数据特征
1. 以字段或记录作为数据的引用、操作及计算的基本单位的数据。
2. 所有字段记录行数相同;
表结构数据
的正确格式应满足:方形结构、记录行数相同、存在空值、处理缺失值。
处理缺失值:根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值。
\quad
1. 文本型字段:
- 影响不大:以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换;
- 影响大:招业务人员进行确认后替换,或者与业务人员核实后删除。
\quad
2. 数值型字段:
综合考虑该数值型字段所代表的度量意义以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法。
3. 一个表中有且只有一个主键;
确定主键的方法:
- 如果直接对数据库中的数据表进行操作,可以通过SQL语句确认数据表的主键字段;
- 如果间接在其他数据分析平台使用表结构数据(数据源是数据库中的数据表,使用时将数据源数据导入其他平台使用),可以找原数据库中数据表的设计者咨询主键信息,或是直接查看数据表设计者留下的设计资料来对主键字段进行确认;
- 通过对数据表的业务意义进行分析,推测主键字段后在用物理手段确认推测的主键字段中的记录值是都能够满足“非空”、“不重复”的要求来对主键字段进行确认。
4.2.3 表结构数据获取方法
【应用】表格结构数据,【引用】表结构数据;
关系型数据库管理系统: 关系型数据库管理系统的主要任务是企业业务数据的存储、检索、访问与共享。
商业智能系统BI: 用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察。
ETL功能: 将数据从数据源经过抽取(Extract)
、清洗转换(Transform)
之后加载(Load)
到数据仓库。
数据仓库(DW): 用来存储分析所需要的不同数据源上的所有相关数据信息。
OLAP: 连接信息孤岛、创建多维数据模型。
4.2.4 表结构数据使用方法
4.2.4.1 表结构数据的横向合并
表结构数据的横向合并: 将不同表中的字段信息合并到同一个表中使用。
表结构数据的横向合并的主要特点:
1. 通过公共字段匹配:
2. 左表与右表、连接方向:
3. 对应关系:
4. E-R图:
4.2.4.2 表结构数据的纵向合并
表结构数据的纵向合并: 多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并。
4.2.4.3 表结构数据的汇总
数据透视: 对零散数据进行汇总分析。
- 维度: 业务观测角度;
- 度量: 业务行为结果;
- 汇总计算规则: 衡量业务行为结果好坏程度的测量仪。
维度筛选度量、度量被维度筛选
汇总计算规则:
4.2.4.4 数据分析的业务意义
数据分析的业务意义: 数据分析师连接零散数据与人类认知间的桥梁。