中年Python简化代码机器学习库PyCaret 2.0发布( 五 ) |机器学习|代码|

Util函数
PyCaret 2.0包括了几种新的util函数。当你在PyCaret中管理机器学习实验时可以方便的使用。其中一些如下所示：
# 在当前运行中选择并完成最优模型
best_model = automl() #返回基于交叉验证分数的最优模型
# 选择并完成基于hold_out集上的 "F1" 分数的最优模型
best_model_holdout = automl(optimize = "F1", use_holdout = True)
# 保存模型
save_model(model, "c:/path-to-directory/model-name")
# 加载模型
model = load_model("c:/path-to-directory/model-name")
# 以pandas df格式返回分数
dt = create_model("dt")
dt_results = pull() #这会以pandas df格式保存 dt 分数网格
# 读取全局变量
X_train = get_config("X_train") #返回预处理后的 X_train 数据集
seed = get_config("seed") # 从全局变量中返回 seed
# 设置全局变量
8/12 上一页 5 6 7 8 9 10 11 下一页
热门推荐

查看更多精彩

今日快讯
导演评张玉环27年冤狱:别哭诉了赔几百万知足吧
警方突袭按摩会所抓"男技师"最小女客人才25岁欢迎来到新闻头条本站提供最新最全的社会,娱乐,时尚,科技等一手新鲜资讯。本站资讯及图片内容部分收集于互联网，如果有侵犯您的权益，请发邮件到3281530663@qq.com ，我们将会即刻删除相关内容！Copyright 2018 新闻头条 toutiao.7junshi.com 版权所有
?
?
.textual .textual__body .textual__title{padding-left: 6px !important;}
set_seed(seed, 999) #在当前运行中将全局变量seed 设为 999
# 以csv文件形式得到实验日志
logs = get_logs() # 默认为当前运行
# 得到模型日志
system_logs = get_system_logs() #从当前文件夹读取logs.log 文件
在发布说明release notes. 中查看PyCaret 2.0中所有的新函数，
Experiment日志
PyCaret 2.0以后端API的形式嵌入了机器学习工作流的追踪组件，并提供UI在你运行机器学习代码时记录参数，代码版本，度量以及输出文件，以供之后的结果可视化。你可以如下记录你PyCaret中的实验：
# 导入classification 模块
from pycaret.classification import *
# 初始化配置
clf1 = setup(data, target = "name-of-target", log_experiment = True, experiment_name = "exp-name-here")
# 比较模型
best = compare_models()
# 在localhost:5000运行mlflow 服务器(使用notebook时)
!mlflow ui
输出（在 localhost:5000 ）

本文插图
整合——创建你自己的AutoML软件
通过使用这些函数，让我们创建一个简单的命令行软件来使用默认参数来训练多个模型，对最好的几个候选模型进行超参数调优，尝试不同的集成技术并返回/保存最优模型。以下是命令行脚本：
# 导入库
import pandas as pd
import sys
# 定义命令行参数
data = http://news.hoteastday.com/a/sys.argv[1]
target = sys.argv[2]
# 加载数据 (在使用自己的脚本时替换掉这部分)
from pycaret.datasets import get_data
input_data = http://news.hoteastday.com/a/get_data(data)
# 初始化配置
from pycaret.classification import *
clf1 = setup(data = http://news.hoteastday.com/a/input_data, target = target, log_experiment = True)