如何在面试中解释各种机器学习模型

从回归到SVM再到XGBoost的模型汇总

如何在面试中解释各种机器学习模型

文章插图
> Created by katemangostar — www.freepik.com
 
在准备任何面试时,我想共享一个资源,为每个机器学习模型提供简要的说明 。它们的含义并不广泛,相反 。希望通过阅读本文,您将了解如何以简单的方式交流复杂的模型 。
涵盖类型· 线性回归
· 岭回归
· 套索回归
· 逻辑回归
· K最近的邻居
· 朴素贝叶斯
· 支持向量机
· 决策树
· 随机森林
【如何在面试中解释各种机器学习模型】· AdaBoost
· 梯度提升
· XGBoost
线性回归线性回归涉及使用最小二乘法找到代表数据集的"最佳拟合线" 。最小二乘方法涉及找到一个线性方程,该方程使残差平方和最小 。残差等于实际负预测值 。
举个例子,红线比绿线是最适合的更好的线,因为它离点更近,因此残差较小 。
如何在面试中解释各种机器学习模型

文章插图
> Image created by Author
 
岭回归Ridge回归,也称为L2正则化,是一种引入少量偏差以减少过度拟合的回归技术 。它通过最小化残差平方和加罚分来实现,罚分等于λ乘以斜率平方 。Lambda是指罚分的严重性 。
如何在面试中解释各种机器学习模型

文章插图
 

如何在面试中解释各种机器学习模型

文章插图
> Image Created by Author
 
如果没有罚分,则最佳拟合线的斜率会变陡,这意味着它对X的细微变化更敏感 。通过引入罚分,最佳拟合线对X的细微变化变得较不敏感 。背后的岭回归 。
套索回归套索回归,也称为L1正则化,与Ridge回归相似 。唯一的区别是,罚分是使用斜率的绝对值计算的 。
如何在面试中解释各种机器学习模型

文章插图
 
逻辑回归Logistic回归是一种分类技术,也可以找到"最合适的直线" 。但是,与线性回归不同的是,线性回归使用最小二乘方找到最佳拟合线,逻辑回归使用最大似然法找到最佳拟合线(逻辑曲线) 。这样做是因为y值只能是1或0 。观看StatQuest的视频,了解如何计算最大可能性 。
如何在面试中解释各种机器学习模型

文章插图
> Image Created by Author
 
K最近邻居
如何在面试中解释各种机器学习模型

文章插图
> Image Created by Author
 
K最近邻居是一种分类技术,通过查看最近的分类点对新样本进行分类,因此称为" K最近" 。在上面的示例中,如果k = 1,则未分类的点将被分类为蓝点 。
如果k的值太低,则可能会出现异常值 。但是,如果它太高,可能会忽略只有几个样本的类 。
朴素贝叶斯朴素贝叶斯分类器是一种受贝叶斯定理启发的分类技术,其陈述以下等式:
如何在面试中解释各种机器学习模型

文章插图
 
由于朴素的假设(因此得名),变量在给定类的情况下是独立的,因此可以如下重写P(X | y):
如何在面试中解释各种机器学习模型

文章插图
 
另外,由于我们要求解y,所以P(X)是一个常数,这意味着我们可以从方程中将其删除并引入比例 。
因此,将每个y值的概率计算为给定y时xn的条件概率的乘积 。
支持向量机支持向量机是一种分类技术,可找到称为超平面的最佳边界,该边界用于分隔不同的类别 。通过最大化类之间的余量来找到超平面 。
如何在面试中解释各种机器学习模型

文章插图
> Image Created by Author
 
决策树
如何在面试中解释各种机器学习模型

文章插图
 
决策树本质上是一系列条件语句,这些条件语句确定样本到达底部之前所采取的路径 。它们直观且易于构建,但往往不准确 。
随机森林随机森林是一种集成技术,这意味着它将多个模型组合为一个模型以提高其预测能力 。具体来说,它使用自举数据集和变量的随机子集(也称为装袋)构建了数千个较小的决策树 。拥有1000棵较小的决策树,随机森林使用"多数获胜"模型来确定目标变量的值 。


推荐阅读