|独家爆料!在数据科学中需要多少数学技能?(附链接)
本文插图
作者:Benjamin Obi Tayo
翻译:刘思婧
校对:车前子
本文约1600字 , 建议阅读5分钟本文为大家介绍了在数据科学和机器学习中所需要的基本数学技能 , 并且分类给出了相应的主题建议 。
本文插图
Jeswin Thomas on Unsplash
尽管已经有许多出色的计算工具可供数据科学家执行其工作 , 数学技能在数据科学和机器学习中仍然是必不可少的 , 因为这些工具通常仅仅会像是“黑匣子” , 而如果没有理论基础 , 您将无法回答核心的分析性问题 。
I.引言
如果您渴望成为数据科学家 , 那么您无疑会想到以下问题:
- 我几乎没有数学背景 , 可以成为一个数据科学家吗?
- 数据科学中的哪些基本数学技能很重要?
- Ggplot2
- Matplotlib
- Seaborn
- Scikit-learn
- Caret
- TensorFlow
- PyTorch
- Keras
II.案例:建立多元回归模型
假设我们现在将要建立一个多元回归模型 。 在此之前 , 我们需要问自己以下问题:
- 我的数据集有多大?
- 我的特征变量和目标变量是什么?
- 哪些预测特征与目标变量最相关?
- 哪些特征很重要?
- 我应该进行特征缩放吗?
- 我的数据集应如何划分为训练集和测试集?
- 什么是主成分分析(PCA)?
- 我应该使用PCA删除冗余特征吗?
- 如何评估我的模型?我应该使用R2_score , 平均平方误差(MSE)还是平均绝对误差(MAE)?
- 如何提高模型的预测能力?
- 我应该使用正则化回归模型吗?
- 哪些是回归系数?
- 哪些是截距?
- 我应该使用非参数回归模型 , 例如K近邻回归还是支持向量回归(SVR)?
- 我的模型中有哪些超参数 , 如何对其进行微调以获得性能最佳的模型?
没有良好的数学背景 , 您将无法解决上面提出的问题 。 最重要的是 , 在数据科学和机器学习中 , 数学技能与编程技能同等重要 。 因此 , 想成为数据科学家 , 您必须花时间研究数据科学和机器学习的理论和数学基础 。 您能否构建可应用于实际问题的可靠且有效的模型 , 取决于您的数学技能 。 要了解如何在构建机器学习回归模型中应用数学技能 , 可参阅机器学习过程教程 。
教程
https://medium.com/swlh/machine-learning-process-tutorial-222327f53efb
现在 , 让我们讨论数据科学和机器学习所需的一些基本数学技能 。
数据科学和机器学习的基本数学技能
1、 统计学和概率论
统计学和概率论可以用于特征的可视化、数据预处理、特征变换、数据填补、降维、特征工程、模型评估等环节 。 以下是您需要熟悉的主题:
- 均值 , 中位数 , 众数 , 标准差/方差 , 相关系数 , 协方差矩阵;
- 概率分布(二项分布、泊松分布、正态分布) , p值 , 贝叶斯定理(精度、召回率、阳性预测值、阴性预测值、混淆矩阵、ROC曲线);
- 中心极限定理 , R2_score , MSE(均方误差) , A / B测试 , 蒙特卡洛模拟…
大多数机器学习模型都是使用具有多个特征或预测变量的数据集构建的 。 因此 , 熟悉多变量演算对于建立机器学习模型非常重要 。 以下是您需要熟悉的主题:
- 多变量函数;
- 导数和梯度;
- 阶跃函数 , Sigmoid函数 , Logit函数 , ReLU函数(整流线性单位函数 , Rectified Linear Unit);
- 成本函数;
- 函数绘图;
- 函数的最小值和最大值…
3、 线性代数
线性代数是机器学习中最重要的数学技能 。 当数据集被表示为矩阵 , 线性代数则可用于数据预处理、数据转换、降维和模型评估 。 以下是您需要熟悉的主题:
- 向量;
- 向量的范数;
- 矩阵 , 转置矩阵 , 矩阵的逆 , 矩阵的行列式 , 矩阵的迹;
- 点积 , 特征值 , 特征向量…
大多数机器学习算法通过最小化目标函数来执行预测建模 , 因而机器学习必须应用于测试数据的权重才能获得预测标签 。 以下是您需要熟悉的主题:
- 成本函数/目标函数;
- 似然函数;
- 损失函数;
- 梯度下降算法及其变体(例如 , 随机梯度下降算法)…
总而言之 , 我们讨论了数据科学和机器学习所需的基本数学和理论技能 , 已经有许多免费在线课程教授这些必要的数学技能 。 想成为数据科学家 , 请务必牢记 , 理论基础对于构建高效且可靠的模型至关重要 。 因此 , 您应该投入足够的时间来研究每种机器学习算法背后的数学理论 。
参考资料
Linear Regression Basics for Absolute Beginners.
Mathematics of Principal Component Analysis with R Code Implementation.
Machine Learning Process Tutorial.
Original. Reposted with permission.
编辑:晏斓辉
译者简介
本文插图
刘思婧 , 清华大学新闻系研一在读 , 数据传播方向 。 文理兼爱 , 有点小情怀的数据爱好者 。 希望结识更多不同专业、不同专长的伙伴 , 拓宽眼界、优化思维、日日自新 。
——END——
【|独家爆料!在数据科学中需要多少数学技能?(附链接)】想要获得更多数据科学领域相关动态 , 诚邀关注清华-青岛数据科学研究院官方微信公众平台“数据派THU ” 。
推荐阅读
- 别再买坚果零食吃了,自己在家就能做,酥脆香甜,没有一点苦涩味!
- 白色的发糕是用什么粉做的,难做吗?
- 这几道菜在我家太受欢迎, 做法还很简单!
- 吸烟|戒烟的最佳年龄已公布,提醒:若在正确的年龄戒烟,或可延年益寿
- 精选几道好吃的宴菜,五香排骨,麻辣烫,在家请客吃饭非常有面子
- 家庭版的鱼香肉丝,鲜香可口,在家也能做出大厨的味道
- 想吃点心不用买,教你在家做“驴打滚”,不用烤箱,软糯香甜!
- 这几种早餐,可以试着做一下
- 钱学森|钱学森侄子,拿下诺奖后为何说:我不是中国人,我在美国长大
- 地球|科学家发现证据,表明地球内部或存在大型海洋,这可能吗?
