【】对机器学习的认识( 二 )


基于 DII 数据库和 WOS 数据库 , 从发展阶段、热点与核心领域识别、竞争国家对比三方面 , 对该技术领域发展现状、竞争格局进行了分析 。
机器学习技术处于快速成长期 , 我国目前也处于快速发展期;我国在技术结构布局上存在短板;美国的专利活动最强 , 我国也属于技术活跃者;美国的专利质量最高 , 我国与其相差较大;互联网企业是重要推动力量;热点领域有智能诊断、自动驾驶仪、教育辅助、语音识别、计算机视觉等;核心领域有排......
【】对机器学习的认识
文章图片

文章图片

三、机器学习的分类
(一)基于学习策略的分类:模拟人脑的机器学习、直接采用数学方法的机器学习
(二)基于学习方法的分类:归纳学习、演绎学习、类比学习、分析学习
【】对机器学习的认识
文章图片

文章图片

四、机器学习的常见算法
【】对机器学习的认识
文章图片

文章图片

1. 线性回归
在统计学和机器学习领域 , 线性回归可能是最广为人知也最易理解的算法之一 。
预测建模主要关注的是在牺牲可解释性的情况下 , 尽可能最小化模型误差或做出最准确的预测 。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标 。
线性回归模型被表示为一个方程式 , 它为输入变量找到特定的权重(即系数 B) , 进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线 。
2. Logistic 回归
Logistic 回归是机器学习从统计学领域借鉴过来的另一种技术 。它是二分类问题的首选方法 。
像线性回归一样 , Logistic 回归的目的也是找到每个输入变量的权重系数值 。但不同的是 , Logistic 回归的输出预测结果是通过一个叫作「logistic 函数」的非线性函数变换而来的 。
logistic 函数的形状看起来像一个大的「S」 , 它会把任何值转换至 0-1 的区间内 。这十分有用 , 因为我们可以把一个规则应用于 logistic 函数的输出 , 从而得到 0-1 区间内的捕捉值(例如 , 将阈值设置为 0.5 , 则如果函数值小于 0.5 , 则输出值为 1) , 并预测类别的值 。
3. 线性判别分析
Logistic 回归是一种传统的分类算法 , 它的使用场景仅限于二分类问题 。如果你有两个以上的类 , 那么线性判别分析算法(LDA)是首选的线性分类技术 。
4. 分类和回归树
决策树是一类重要的机器学习预测建模算法 。
决策树可以被表示为一棵二叉树 。这种二叉树与算法设计和数据结构中的二叉树是一样的 , 没有什么特别 。每个节点都代表一个输入变量(x)和一个基于该变量的分叉点(假设该变量是数值型的) 。
5. 朴素贝叶斯
朴素贝叶斯是一种简单而强大的预测建模算法 。
该模型由两类可直接从训练数据中计算出来的概率组成:1)数据属于每一类的概率;2)给定每个 x 值 , 数据从属于每个类的条件概率 。一旦这两个概率被计算出来 , 就可以使用贝叶斯定理 , 用概率模型对新数据进行预测 。当你的数据是实值的时候 , 通常假设数据符合高斯分布(钟形曲线) , 这样你就可以很容易地估计这些概率 。
6. K 最近邻算法
K 最近邻(KNN)算法是非常简单而有效的 。KNN 的模型表示就是整个训练数据集 。
对新数据点的预测结果是通过在整个训练集上搜索与该数据点最相似的 K 个实例(近邻)并且总结这 K 个实例的输出变量而得出的 。对于回归问题来说 , 预测结果可能就是输出变量的均值;而对于分类问题来说 , 预测结果可能是众数(或最常见的)的类的值 。


推荐阅读