【为什么需要机器学习?】数据无处不在 。此时此刻 , 成千上万的系统正在收集构成特定服务的历史记录、日志、用户交互数据 , 以及许多其他相关元素 。仅在几十年前 , 大多数公司甚至无法有效地管理 1%的数据 。出于这个原因 , 数据库会被定期清理 , 只有重要数据才能永久存储在服务器中 。
而现如今 , 几乎每家公司都可以利用可扩展的云基础架构来应对不断增长的数据量 。Apache Hadoop或Apache Spark等工具允许数据科学家和工程师实现大数据的复杂传输 。在这一点上 , 所有的障碍都被扫除 , 大众化的进程已经到位 。然而 , 这些大数据集合的真正价值又是什么呢?从商业角度看 , 信息只有在有助于做出正确决策、减少不确定性并提供更好的情境洞察时才有价值 。这意味着 , 没有合适的工具和知识 , 一堆数据对于公司来说只会增加成本 , 需要限制以增加利润 。
机器学习是计算机科学(特别是人工智能)的一个大分支 , 其目的是通过利用现有数据集来实现现实中描述性和预测性的模型 。由于本书致力于实用的无监督解决方案 , 我们将只关注通过寻找隐藏原因和关系来描述此类情况的算法 。虽然仅从理论角度出发 , 也有助于展示机器学习问题之间的主要差异 , 但是只有对目标有完全的认识(不局限于技术方面) , 才能对最初的问题产生理性回答 。这就是我们需要机器学习的原因 。
我们可以说人类非凡的认知能力启发了许多系统 , 但是当影响因素的数量显著增加时 , 人类就缺乏分析技能了 。例如 , 如果你是第一次与班级学生见面的老师 , 在浏览整个小组后你能粗略地估计女生的百分比 。通常 , 即便是对两个或更多人做出的估算 , 也可能是准确的或接近实际值的 。然而 , 如果我们将全校所有人聚集在操场来重复这个实验 , 性别的区分就显得不那么明显了 。这是因为所有学生在课堂上都是一目了然的 , 但是在操场里区分性别会受到某些因素的限制(例如较矮的人会被较高的人遮挡) 。抛开这一层因素 , 我们可以认为大量的数据通常带有大量的信息 。为了提取和分类信息 , 我们有必要采取自动化的方法 。
在进入1.2.1节前 , 让我们讨论一下最初由高德纳(Gartner)定义的描述性分析(Descriptive Analysis)、诊断性分析(Diagnostic Analysis)、预测性分析(Predictive Analysis)和规范性分析(Prescriptive Analysis)的概念 。但是 , 在这种情况下 , 我们希望关注正在分析的系统(例如通用情况) , 以便对其行为进行越来越多的控制 。
描述性分析、诊断性分析、预测性分析和规范性分析的流程如图1-1所示 。
文章插图
图1-1 描述性分析、诊断性分析、预测性分析和规范性分析的流程
1.2.1 描述性分析几乎所有的数据科学场景中要解决的第一个问题都是了解其本质 。我们需要知道系统如何工作或数据集描述的内容是什么 。如果没有这种分析 , 我们的知识又是有限的 , 将无法做出任何假设 。例如我们可以通过图表观察一个城市几年的平均温度 , 但是如果我们无法描述发现现象的相关性、季节性、趋势性的时间序列 , 其他任何问题就不可能被解决 。在具体情况下 , 如果没有发现对象组之间的相似性 , 就无法找到一种方法来总结它们的共同特征 。数据科学家必须针对每个特定问题使用特定工具 , 但在此阶段结束时 , 所有可能(以及有用的)的问题将得到解答 。
此外 , 这个过程具有明确的商业价值 , 让不同的利益相关者参与的目的是收集他们的知识并将其转化为共同语言 。例如在处理医疗保健数据时 , 医生可能会谈论遗传因素 , 但就我们的目的而言 , 最好是某些样本之间存在相关性 , 因此我们并未完全将它们视为统计上的独立因素 。一般而言 , 描述性分析的结果包含所有度量评估和结论的摘要 , 这些评估和结论是对某种情况进行限定和减少不确定性所必需的 。在温度图表的例子中 , 数据科学家应该能够解答自动关联、峰值的周期、潜在异常值的数量以及趋势的出现等问题 。
推荐阅读
- 东吴是被刘备灭了吗 刘备出兵伐吴是为什么
- 道德经又被称为什么 道德经是万经之首
- 古代交战为什么将军单挑 古代两军打仗真的是将军先对打吗
- 康熙死后把皇位传给谁了? 为什么康熙不活着时候传位
- 范蠡为什么帮助勾践 范蠡为何在功成之后离开越王勾践
- 褚时健|人到中年,需要一次“重启”!
- 囚犯在古代被称为什么 古代判死刑
- 孙权登基后追谥孙策为什么 孙权为什么没封孙策帝
- 刘邦为什么认为萧何功劳最大 刘邦怎么认识萧何的
- 分分钟需要你歌词分享