【】对机器学习的认识( 三 )


【【】对机器学习的认识】关键之处在于如何判定数据实例之间的相似程度 。如果你的数据特征尺度相同(例如 , 都以英寸为单位) , 那么最简单的度量技术就是使用欧几里得距离 , 你可以根据输入变量之间的差异直接计算出该值 。
7. 学习向量量化
KNN 算法的一个缺点是 , 你需要处理整个训练数据集 。而学习向量量化算法(LVQ)允许选择所需训练实例数量 , 并确切地学习这些实例 。
8. 支持向量机
支持向量机(SVM)可能是目前最流行、被讨论地最多的机器学习算法之一 。
超平面是一条对输入变量空间进行划分的「直线」 。支持向量机会选出一个将输入变量空间中的点按类(类 0 或类 1)进行最佳分割的超平面 。在二维空间中 , 你可以把他想象成一条直线 , 假设所有输入点都可以被这条直线完全地划分开来 。SVM 学习算法旨在寻找最终通过超平面得到最佳类别分割的系数 。
9. 袋装法和随机森林
随机森林是最流行也最强大的机器学习算法之一 , 它是一种集成机器学习算法 。
自助法是一种从数据样本中估计某个量(例如平均值)的强大统计学方法 。你需要在数据中取出大量的样本 , 计算均值 , 然后对每次取样计算出的均值再取平均 , 从而得到对所有数据的真实均值更好的估计 。
随机性来进行次优分割 。
10. Boosting 和 AdaBoost
Boosting 是一种试图利用大量弱分类器创建一个强分类器的集成技术 。要实现 Boosting 方法 , 首先你需要利用训练数据构建一个模型 , 然后创建第二个模型(它企图修正第一个模型的误差) 。直到最后模型能够对训练集进行完美地预测或加入的模型数量已达上限 , 我们才停止加入新的模型 。
五、机器学习的应用
模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关系越来越密切 。
【】对机器学习的认识
文章图片

文章图片

【】对机器学习的认识
文章图片

文章图片


推荐阅读