数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?
本文插图
文末领取【医疗行业数据报告】
什么是商业智能
BI:Business Intelegence , 商业智能 , 基于数据仓库 , 经过数据挖掘后 , 得到了商业价值的过程 。 例如利用数据预测用户购物行为属性商业智能
什么是数据仓库
DW:Data Warehouse , 数据仓库 , 数据库的升级概念 , 一般量更庞大 , 将多个数据来源的数据进行汇总、整理而来
什么是数据挖掘
DM:Data Mining , 数据挖掘
数据挖掘流程:Knowledge Discovery in Database , 也叫数据库中的知识发现 , 简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息
- 数据清洗:去除重复数据、干扰数据及填充缺失值
- 数据集成:将多个数据源中的数据存放在一个统一的数据存储中
- 数据变换:将数据转换成适合数据挖掘的形式 , 比如将数值东篱一个特定的0~1的区间
- 分类:通过训练集得到一个分类模型 , 然后用这个模型可以对其他数据进行分类 分类是已知了类别 , 然后看样本属于哪个分类
- 聚类:将数据自动聚类成几个类别 ,聚类是不知道有哪些类别 , 按照 样本的属性来进行聚类
- 预测:通过当前和历史数据预测未来趋势 , 可以更好地帮助我们识别机遇和风险
- 关联分析:发现数据中的关联规则 , 被广泛应用于购物、事务数据分析中
- 商业理解:从商业的角度理解项目需求
- 数据理解:尝试收集部分数据 , 对数据进行探索
- 数据准备:开始收集数据 , 并进行清洗、集成等操作
- 模型建立:选择和应用数据挖掘模型 , 并进行优化 , 以便得到更好的分类结果
- 模型评估:对模型进行评价 , 确认模型是否实现了预定的商业目标
- 上线发布:把挖掘的知识转换成用户的使用形式
- 概率论与数据统计
- 线性代数
- 图论
- 最优化方法
1. 分类
- C4.5:十大算法之首 , 决策树算法 , 特点包括:1.构造过程中剪枝 2.处理连续属性;3.处理不完整的数据
- 朴素贝叶斯:基于概率论原理 , 计算未知物体出现的条件下 , 各个类别出现的概率 , 取概率最大的分类
- SVM:超平面的分类模型
- KNN:每个样本的分类都可以用其最接近的K个邻居的分类代表
- Adaboost:构建分类器的提升算法 , 可以让多个弱的分类器组成一个强的分类器
- CART:决策树算法 , 分类树 + 回归树
- K-Means:将物体分成K类 , 计算新点跟K个中心点的距离 , 哪个距离近 , 则新点归为哪一类
- EM:最大期望算法 , 求参数的最大似然估计的一种方法
Apriori:挖掘关联规则的算法 , 通过挖掘频繁项集揭示物品之间的关联关系
4. 连接分析
PageRank:起源于论文影响力的计算方式 , 如果一篇文论被引入的次数越多 , 就代表这篇论文的影响力越强 , Google将其用于计算网页权重
什么是数据可视化
数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息 , 让我们直观了解数据分析的结果
数据可视化工具:
1. python库
推荐阅读
- []学会这个最基础的统计学知识,数据分析专业度提升一大截
- 『技术』互联网时代,技术驱动,数据分析,推动企业创新服务!
- 『小白一键重装系统』win10系统应用商店不见了怎么办
- ##美国能源部门数据安全遭遇重创 RigUp数据库泄露76000份保密文件
- 科技数码先生:上官婉儿大招不会“飞”?拿着iQOO 3试一下,游戏小白变大神
- 『趣味科技』新型第二代 EPYC 处理器:重新定义数据库、商用 HPC 和超融合工作负载性能
- 「」芯片“大翻车”!伪5G手机让我们变成小白鼠,华为笑了!
- ■【行情】同样3999米10/Ace2你选哪个?小白一图对比参数
- 「白问」【行情】同样3999米10/Ace2你选哪个?小白一图对比参数
- #CDA数据分析师#2020年软件工程现状:Python或将成为第一大编程语言