|一文读懂机器学习


|一文读懂机器学习
本文插图

本文转载自公众号 sigua心底的小声音, 数学系的一线小研发 , 更新数据结构和算法 | 深度学习 | 职场等技术原创文章 。 本公众号有 Google TensorFlow程序员 , 苹果 (Apple) 公司程序员 , 微软程序员 , 一站到底选手 , 科技公司CTO , 省状元都在关注 , 欢迎大家关注 。
本文约6000字 , 建议阅读10+分钟
本文以图文的形式对模型算法中的集成学习 , 以及对集中学习在深度学习中的应用进行了详细解读 。
目录

  • 机器学习概览
    • learning from data
    • 什么是机器学习
  • 机器学习类型
    • Supervised learning 监督学习
    • Unsupervised learning 无监督学习
    • Reinforcement learning 强化学习
  • 机器学习的过程
  • 如何衡量一个模型的好坏
    • Overfitting
    • Training, Testing, and Validation Sets
    • The Confusion Matrix
    • Accuracy Metrics
  • 基础的数据分析
  • 过拟合overfittting和欠拟合underfitting
  • bias and variance
机器学习概览
  • learning from data
在深入探讨该主题之前 , 让我们退后一步 , 思考一下真正的学习是什么 。 我们需要为机器考虑的关键概念是learning from data 。 人类和其他动物可以通过学习经验来调整我们的 行为 。 learning赋予我们生活的灵活性 , 我们可以调整适应新的情况 , 并学习新的技巧 。 人类学习的重要部分是remembering, adapting, and generalising:认识到上一次我们处于这种情况下(看到了此数据) , 我们尝试了一些特定的动作(给出了此输出)并且奏效了(正确) , 因此我们将再次尝试 , 如果无法奏效 , 我们将尝试其他操作 。 概括地说 , 最后一句话是关于识别不同情况之间的相似性 , 以便将在一个地方应用的东西可以在另一个地方使用 。 这就是learning有用的原因 , 我们可以在很多不同的地方使用我们的知识 。
  • 什么是机器学习
于是 , 机器学习就是要使计算机修改或调整动作 , 让这些动作变得更加准确 , 它的准确性是由所选动作与正确动作的相似程度来衡量 。
本质是让计算机learning from data 。
正式定义:
Machine Learning is about building systems that can learn from data. Learning means getting better at some task, given some performance measure.
机器学习类型
我们将learning宽松地定义为通过在某项任务上的练习变得更好 。 这就引出了两个重要的问题:计算机如何知道是否在变好 , 如何知道如何改进?这些问题有几种不同的可能答案 , 它们会产生不同类型的机器学习 。 现在 , 我们将考虑机器是否在学习: 我们可以告诉算法问题的正确答案(带标签) , 以便下次可以正确解决;我们希望只需要告诉它一些正确的答案 , 然后它就可以“解决”如何为其他问题获得正确的答案;或者 , 我们可以告诉它答案是否正确 , 而不是如何找到正确的答案 , 因此它必须搜索正确的答案;我们根据答案的正确性给答案打分(概率) , 而不仅仅是“正确或错误”的答案;最后 , 我们可能没有正确的答案 , 我们只希望算法查找具有共同点的输入 。
这些不同的答案为我们将要讨论的不同算法提供了分类 。
  • Supervised learning 监督学习
监督学习提供了具有正确答案(targets/标签)的示例训练集 , 并且基于该训练集 , 算法可以概括为正确响应所有可能的输入 , 这也称为learning from exemplars 。


推荐阅读