数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?( 三 )
2. ETL和ELT的区别
ETL和ELT主要是先清洗数据还是先入库的区别 。 ETL一般使用主流框架用程序在提取的时候就将数据进行清洗 , ELT则是将数据存到数据仓库 , 再用sql进行数据清洗 。
未来使用ELT作为数据集成架构的会越来越多 , 有以下好处:
- 使用 ELT 方法 , 在提取完成之后 , 数据加载会立即开始 。 一方面更省时 , 另一方面 ELT 允许 BI 分析人员无限制地访问整个原始数据 , 为分析师提供了更大的灵活性 , 使之能更好地支持业务 。
- 在 ELT 架构中 , 数据变换这个过程根据后续使用的情况 , 需要在 SQL 中进行 , 而不是在加载阶段进行 。 这样做的好处是你可以从数据源中提取数据 , 经过少量预处理后进行加载 。 这样的架构更简单 , 使分析人员更好地了解原始数据的变换过程 。
数据变换是数据准备的重要环节 , 通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式
1. 数据平滑
去除数据中的噪声 , 将连续数据离散化
2. 数据聚集
对数据进行汇总 , 例如Sum、Max、Mean等
3. 数据概化
将数据由较低的概念抽象成较高的概念 , 如北上广深圳概化为中国 。
4. 数据规范化
合属性数据按比例缩放 , 将原来的数值映射到新的特定区域中 。
- min-max规范化:将原始数据变化到[0, 1]的空间中 , 公式为:新数值=(原数值-极小值) / (极大值-极小值) , 对应的有SciKit-Learn的preprocessing.MinMaxScaler函数
- z-score规范化:可以用相同的标准比较不同规格的成绩 。 公式为:新数值=(原数值-均值) / 标准差 。 对应的有SciKit-Learn的preprocessing.scale函数,求出每行每列的值减去了平均值 , 再除以方差的结果 , 使得数值都符合均值为0 , 方差为1的正态分布
- 小数定标规范:通过移动小数点的位置来进行规范化
构造出新的属性并添加到属性集中 。
什么是方差、标准差
- 方差和标准差是测算离散趋势最重要、最常用的指标
- 标准差是方差的平方根
- 一个较大的标准差 , 代表大部分数值和其平均值之间差异较大;一个较小的标准差 , 代表这些数值较接近平均值 。
- 由于方差是数据的平方 , 与检测值本身相差太大 , 人们难以直观的衡量 , 所以常用方差开根号换算回来这就是我们要说的标准差 。
作者:雪山飞猪
来源:博客园
本文为转载分享 , 如有侵权请联系后台删除
长按最下方海报二维码
添加客服领取【医疗行业数据报告】
· 爱数据每周免费直播 ·
直播主题:2020年第1季度城市岗位报告(深圳、广州、上海、杭州、北京)
直播内容:
- 5大城市岗位情况
- 典型公司/岗位要求变化和机会分析
- 第2季度招聘趋势&风险判断
本文插图
推荐阅读
- []学会这个最基础的统计学知识,数据分析专业度提升一大截
- 『技术』互联网时代,技术驱动,数据分析,推动企业创新服务!
- 『小白一键重装系统』win10系统应用商店不见了怎么办
- ##美国能源部门数据安全遭遇重创 RigUp数据库泄露76000份保密文件
- 科技数码先生:上官婉儿大招不会“飞”?拿着iQOO 3试一下,游戏小白变大神
- 『趣味科技』新型第二代 EPYC 处理器:重新定义数据库、商用 HPC 和超融合工作负载性能
- 「」芯片“大翻车”!伪5G手机让我们变成小白鼠,华为笑了!
- ■【行情】同样3999米10/Ace2你选哪个?小白一图对比参数
- 「白问」【行情】同样3999米10/Ace2你选哪个?小白一图对比参数
- #CDA数据分析师#2020年软件工程现状:Python或将成为第一大编程语言