用训练好的模型预测保留的测试数据 , 看看模型的表现如何 。
from sklearn.metrics importclassification_reporty_predict = model.predict(X_test)print(classification_report(y_test, y_predict))

本文插图
第一次尝试 , 该模型的表现相当不错 。
进行第一次提交
现在一起来看看该模型在竞赛测试数据集中的表现和排行榜上的排名 。
首先需要清洗测试文件中的文本 , 然后用模型做预测 。 下面的代码获取测试数据的副本 , 并执行与训练数据相同的清洗操作 。 输出显示在代码下方 。
submission_test_clean =test_data.copysubmission_test_clean = clean_text(submission_test_clean, "text")submission_test_clean['text'] = submission_test_clean['text'].apply(lambda x: ''.join([word for word in x.split if word not in (stop)]))submission_test_clean = submission_test_clean['text']submission_test_clean.head
接下来用模型进行预测 。
submission_test_pred =model.predict(submission_test_clean)
创建提交需要构建的仅包含测试集id和预测的数据框 。
id_col = test_data['id']submission_df_1 = pd.DataFrame({ "id": id_col, "target":submission_test_pred})submission_df_1.head

本文插图
最后将其另存为CSV文件 。 要包含index=False , 这很重要 , 否则索引将被另存为文件中的一列 , 提交也会遭到拒绝 。
submission_df_1.to_csv('submission_1.csv',index=False)
获得CSV文件后 , 可以返回竞赛页面并选择“提交预测”按钮 。 该操作会打开一个表格 , 参赛者可以在上面上传CSV文件 。 最好添加一些有关该方法的注释 , 以便于记录之前提交的尝试 。

本文插图
提交文件后会显示此界面 。
【#读芯术#第一次参加Kaggle竞赛,该怎么做?】

本文插图
现在提交成功了!

本文插图
该模型让笔者在排行榜上获得0.78分 , 排名为2371 。 很显然还有一些提高的空间 , 但现在笔者拥有了可用来比较的基准 , 这有利于以后的竞赛 。
本文对初次参加Kaggle竞赛该怎样提交预测做了概述 。 想要提高分数 , 还可以进一步采取其他步骤 。 比如更好的文本清洗、不同的预处理方法、尝试其他机器学习算法、模型的超参数调整等等 。

本文插图
来源:Pexels
感谢阅读!

本文插图
留言 点赞
我们一起分享AI学习与发展的干货如转载 , 请后台留言 , 遵守转载规范
本文为***作者原创 , 未经授权不得转载
推荐阅读
-
小雨品游|LGD3比2险胜eStar,大乔体系13连胜,晨阳找回“野王”状态
-
「官方」华南降水要超量,官方预报:暴雨大暴雨扎堆,广东福建台湾为重点
-
-
-
世界上鱼最多的湖:有着8亿公斤的鱼却没人敢钓,就在我们中国!
-
-
韩国瑜|柯文哲到云林参访不见韩国瑜:让他休息一阵子再说
-
『听风雨20』获郭台铭力挺,现在公司上市已成亿万富婆!,她21岁进富士康打工
-
【港股挖掘机|中国重汽(03808)建议委任安永会计师事务所为新任核数师】
-
-
-
『手机中毒者』小米+vivo大亮,IDC权威发布Q1数据:OPPO成众人热议焦点
-
人生阅历分享经典入心,读读受用一生,充满阳光的励志句子
-
ZAKER生活|为何大部分司机都选择直接丢弃,而不去报废,汽车寿命已尽
-
美剧去哪看|“戏曲进校园 非遗共传承”——西湖区"庶民大舞台"戏曲书画作品赛邀您参加!
-
甜宠影视|400发炮弹接踵而至,被命中之后却不会沉入海底,德国最强战舰
-
-
LOL嘴强老司机|压力来到了上流和水手这边,LPL夏季赛大变天!翻山涅槃相继离场
-
-
防控|疫情防控发布会 | 上海:现在说拐点为时尚早,千万不能麻