数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?

数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?
本文插图
文末领取【医疗行业数据报告】
什么是商业智能
BI:Business Intelegence , 商业智能 , 基于数据仓库 , 经过数据挖掘后 , 得到了商业价值的过程 。 例如利用数据预测用户购物行为属性商业智能
什么是数据仓库
DW:Data Warehouse , 数据仓库 , 数据库的升级概念 , 一般量更庞大 , 将多个数据来源的数据进行汇总、整理而来
什么是数据挖掘
DM:Data Mining , 数据挖掘
数据挖掘流程:Knowledge Discovery in Database , 也叫数据库中的知识发现 , 简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息

  • 数据清洗:去除重复数据、干扰数据及填充缺失值
  • 数据集成:将多个数据源中的数据存放在一个统一的数据存储中
  • 数据变换:将数据转换成适合数据挖掘的形式 , 比如将数值东篱一个特定的0~1的区间
1. 数据挖掘的核心
  • 分类:通过训练集得到一个分类模型 , 然后用这个模型可以对其他数据进行分类 分类是已知了类别 , 然后看样本属于哪个分类
  • 聚类:将数据自动聚类成几个类别 ,聚类是不知道有哪些类别 , 按照 样本的属性来进行聚类
  • 预测:通过当前和历史数据预测未来趋势 , 可以更好地帮助我们识别机遇和风险
  • 关联分析:发现数据中的关联规则 , 被广泛应用于购物、事务数据分析中
2. 数据挖掘的基本流程
  • 商业理解:从商业的角度理解项目需求
  • 数据理解:尝试收集部分数据 , 对数据进行探索
  • 数据准备:开始收集数据 , 并进行清洗、集成等操作
  • 模型建立:选择和应用数据挖掘模型 , 并进行优化 , 以便得到更好的分类结果
  • 模型评估:对模型进行评价 , 确认模型是否实现了预定的商业目标
  • 上线发布:把挖掘的知识转换成用户的使用形式
数据挖掘的数学基础
  • 概率论与数据统计
  • 线性代数
  • 图论
  • 最优化方法
数据挖掘的十大算法
1. 分类
  • C4.5:十大算法之首 , 决策树算法 , 特点包括:1.构造过程中剪枝 2.处理连续属性;3.处理不完整的数据
  • 朴素贝叶斯:基于概率论原理 , 计算未知物体出现的条件下 , 各个类别出现的概率 , 取概率最大的分类
  • SVM:超平面的分类模型
  • KNN:每个样本的分类都可以用其最接近的K个邻居的分类代表
  • Adaboost:构建分类器的提升算法 , 可以让多个弱的分类器组成一个强的分类器
  • CART:决策树算法 , 分类树 + 回归树
2. 聚类
  • K-Means:将物体分成K类 , 计算新点跟K个中心点的距离 , 哪个距离近 , 则新点归为哪一类
  • EM:最大期望算法 , 求参数的最大似然估计的一种方法
3. 关联分析
Apriori:挖掘关联规则的算法 , 通过挖掘频繁项集揭示物品之间的关联关系
4. 连接分析
PageRank:起源于论文影响力的计算方式 , 如果一篇文论被引入的次数越多 , 就代表这篇论文的影响力越强 , Google将其用于计算网页权重
什么是数据可视化
数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息 , 让我们直观了解数据分析的结果
数据可视化工具:
1. python库


推荐阅读