面试时间:2021面试职位:数据开饭分享时间:2023-02
- 面试经历:
- 1.什么是缓慢变化维
1. 缓慢变化维在数据仓库中,有个概念叫缓慢变化维,经常简写为SCD;
2. 缓慢变化维的提出是因为现实世界中,维度的属性并不是静态的,它会随时间的流失发生缓慢的变化,这种随着时间变化的我们称之为缓慢变化维
2.为什么叫星型模型和雪花模型
星型模型:多维表的数据关系,它是由一个事实表和一组维表组成,每个维作为主键
雪花模型(范式建模的简单版本):当一个或多个维没有直接连接到事实表上,而是通过其他维表连接到事实表上的时候,图解就像雪花模型连接在一起(最低效的数仓模型,因为其维度表上还有维度表所以在聚合过程中会产生更多的关联计算,效率很低,数据冗余减少)
使用场景:
雪花模型使得维度分析更加容易,比如"针对特定的广告网,有哪些客户或者公司是在线的"
星型模型用来做指标分析更合适,比如"给定的一个客户他们的收入是多少"
3.维度建模与范式建模的区别
1. 首先最大的不同就是企业数据仓库的模式不同,范式建模采用的是第三范式的格式,而维度建模采用了多维模型-星型模型,并且还是最低粒度的数据存储
2. 其次是维度数据仓库可以被分析系统直接访问
3. 最后是维度建模是总线式的自下向上的数据仓库结构,范式建模是集线器的自上向下的数据仓库结构
4.数仓的三层架构及每层的作用
1. 数据访问层:主要是对非原始数据(数据库或者文本文件等存放数据的形式)的操作层.而不是指原始数据,也就是说是对数据库的操作而不是数据,具体为业务逻辑层或表示层提供数据服务。
2. 业务逻辑层:主要是针对具体的问题的操作,也可以理解成对数据层的操作,对数据业务逻辑处理。
3. 界面层:主要表示WEB方式,也可以表示成WINFORM方式,WEB方式也可以表现成aspx。
5.拉链表知道么?
拉链表就是随着时间变迁产生历史数据。拉链表的含义:就是记录历史。记录一个事务从开始一直到当前状态 的所有变化信息
6.如何控制数据质量
1. 数据质量保证原则:完整性、准确性、数据质量、及时性、一致性
2. 数据质量方法:数据资产等级的划定
3. 数据加工过程卡点校验
4. 风险点监控:针对在线或者离线数据的监控
5. 质量衡量:故障等级的划定以及数据质量的事件的记录
7.为什么要分层?
ODS层是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中,数据经过了一定的清晰,比如字段的统一,脏数据的去除等,但是数据的粒度是不会变化的。ODS层的数据可以只保留一定的时间。
MID中间层采用lnmon集线器架构的方式,使用范式建模(贴源)的方法。这一层主要做规范化的事情,比如应用库表非规范化 - 面试官提的问题:
- 1.什么是缓慢变化维
1. 缓慢变化维在数据仓库中,有个概念叫缓慢变化维,经常简写为SCD;
2. 缓慢变化维的提出是因为现实世界中,维度的属性并不是静态的,它会随时间的流失发生缓慢的变化,这种随着时间变化的我们称之为缓慢变化维
2.为什么叫星型模型和雪花模型
星型模型:多维表的数据关系,它是由一个事实表和一组维表组成,每个维作为主键
雪花模型(范式建模的简单版本):当一个或多个维没有直接连接到事实表上,而是通过其他维表连接到事实表上的时候,图解就像雪花模型连接在一起(最低效的数仓模型,因为其维度表上还有维度表所以在聚合过程中会产生更多的关联计算,效率很低,数据冗余减少)
使用场景:
雪花模型使得维度分析更加容易,比如"针对特定的广告网,有哪些客户或者公司是在线的"
星型模型用来做指标分析更合适,比如"给定的一个客户他们的收入是多少"
3.维度建模与范式建模的区别
1. 首先最大的不同就是企业数据仓库的模式不同,范式建模采用的是第三范式的格式,而维度建模采用了多维模型-星型模型,并且还是最低粒度的数据存储
2. 其次是维度数据仓库可以被分析系统直接访问
3. 最后是维度建模是总线式的自下向上的数据仓库结构,范式建模是集线器的自上向下的数据仓库结构
4.数仓的三层架构及每层的作用
1. 数据访问层:主要是对非原始数据(数据库或者文本文件等存放数据的形式)的操作层.而不是指原始数据,也就是说是对数据库的操作而不是数据,具体为业务逻辑层或表示层提供数据服务。
2. 业务逻辑层:主要是针对具体的问题的操作,也可以理解成对数据层的操作,对数据业务逻辑处理。
3. 界面层:主要表示WEB方式,也可以表示成WINFORM方式,WEB方式也可以表现成aspx。
5.拉链表知道么?
拉链表就是随着时间变迁产生历史数据。拉链表的含义:就是记录历史。记录一个事务从开始一直到当前状态 的所有变化信息
6.如何控制数据质量
1. 数据质量保证原则:完整性、准确性、数据质量、及时性、一致性
2. 数据质量方法:数据资产等级的划定
3. 数据加工过程卡点校验
4. 风险点监控:针对在线或者离线数据的监控
5. 质量衡量:故障等级的划定以及数据质量的事件的记录
7.为什么要分层?
ODS层是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中,数据经过了一定的清晰,比如字段的统一,脏数据的去除等,但是数据的粒度是不会变化的。ODS层的数据可以只保留一定的时间。
MID中间层采用lnmon集线器架构的方式,使用范式建模(贴源)的方法。这一层主要做规范化的事情,比如应用库表非规范化
有用(0) 面试难度:难度一般 应聘途径:社会招聘