机器之心:几行代码搞定ML模型,低代码机器学习Python库正式开源


机器之心报道
机器之心编辑部
PyCaret 库支持在「低代码」环境中训练和部署有监督以及无监督的机器学习模型 , 提升机器学习实验的效率 。
机器之心:几行代码搞定ML模型,低代码机器学习Python库正式开源
本文插图

想提高机器学习实验的效率 , 把更多精力放在解决业务问题而不是写代码上?低代码平台或许是个不错的选择 。
最近 , 机器之心发现了一个开源低代码机器学习 Python 库 PyCaret , 它支持在「低代码」环境中训练和部署有监督以及无监督的机器学习模型 。
GitHub 地址:https://github.com/pycaret/pycaret
用户文档:https://www.pycaret.org/guide
Notebook 教程:https://www.pycaret.org/tutorial
PyCaret 库支持数据科学家快速高效地执行端到端实验 , 与其他开源机器学习库相比 , PyCaret 库只需几行代码即可执行复杂的机器学习任务 。 该库适合有经验的数据科学家、倾向于低代码机器学习解决方案的公民数据科学家 , 以及编程背景较弱甚至没有的新手 。
PyCaret 库支持多种 Notebook 环境 , 包括 Jupyter Notebook、Azure notebook 和 Google Colab 。 从本质上来看 , PyCaret 是一个 Python 封装器 , 封装了多个机器学习库和框架 , 如 sci-kit-learn、XGBoost、Microsoft LightGBM、spaCy 等 。
机器学习实验中所有步骤均可使用 PyCaret 自动开发的 pipeline 进行复现 。 在 Pycaret 中所执行的所有操作均按顺序存储在 Pipeline 中 , 该 Pipeline 针对模型部署进行了完全配置 。
不管是填充缺失值、转换类别数据、执行特征工程设计 , 还是调参 , Pycaret 都能够自动执行 。 而且 pipeline 可以保存为二进制文件格式 , 支持在不同环境中进行迁移 。
PyCaret 包含一系列函数 , 用户通过它们完成机器学习实验 。 PyCaret 库的函数可分为以下五个大类 , 涵盖初始化、模型训练、集成、分析与部署:
机器之心:几行代码搞定ML模型,低代码机器学习Python库正式开源
本文插图

此外 , PyCaret 提供 6 个模块 , 支持有监督和无监督模型的训练和部署 , 分别是分类、回归、聚类、异常检测、自然语言处理和关联规则挖掘 。 每个模块封装特定的机器学习算法和不同模块均可以使用的函数 。 用户可以根据实验类型 , 将模块导入环境中 。
机器之心:几行代码搞定ML模型,低代码机器学习Python库正式开源
本文插图

PyCaret 库提供的六个模块 。
接下来 , 我们就来了解一下 PyCaret 库的安装和使用方法吧 。
启动 PyCaret
使用 pip 安装 PyCaret 。
使用命令行界面或 notebook 环境 , 运行下面的代码进行安装:
pip install pycaret
Azure notebook 和 Google Colab 用户 , 可以运行下列代码进行安装:
!pip install pycaret
安装 PyCaret 时会自动安装所有依赖项 , 过程非常简单 , 如下图所示:
机器之心:几行代码搞定ML模型,低代码机器学习Python库正式开源
本文插图

?
PyCaret 分步教程
数据获取
该教程使用「糖尿病」数据集 , 目标是根据血压、胰岛素水平以及年龄等多种因素预测患者的预后情况(1 或 0) 。 数据集参见 PyCaret 的 GitHub 地址 。
直接从 PyCaret 库中导入数据集的最简单方法是使用 pycaret.datasets 模块中的 get_data 函数 。
from *pycaret.datasets* import *get_data*
diabetes = *get_data*('diabetes')
机器之心:几行代码搞定ML模型,低代码机器学习Python库正式开源
本文插图


推荐阅读