分类算法中常见的问题
- 正确率指标能很好的评估分类模型吗?
虽然,这个预测器的正确率很高,但是实际上它不会产生任何的商业价值,其实也就没任何使用价值 。实际上我们需要预测正确的正是那一次的地震 。
针对这种情况我们更希望是recall指标尽可能的高,而不是正确率 。所以,对于分布不平衡的数据来说并不是正确率越高越好,应该根据实际需求来选择评估指标 。
- 如何绘制ROC曲线?

文章插图
在现实任务中,我们只是对有限个测试样本进?绘制ROC图,此时只能获得有限个(假正例率,真正例率)坐标对,就?法获得如(a)的光滑的ROC曲线,就会获得如图(b)的近似的ROC曲线 。
绘图过程如下:给定m1个正例和m2个反例,根据模型预测结果(正例的概率)对样例进?排序,然后把分类阈值设置为最?,即把所有样例都预测为反例,此时真正例率和假正例率都为0,在坐标(0,0)处标记?个点,然后将分类阈值依次设置为每个样例的预测值,即依次将每个样例设置为正例,若前?个标记点坐标为(x, y),当前若为真正例,则对应标记点坐标为(x, y+1/m1);若当前为假正例,则对应标记点坐标为(x+1/m2, y),然后?线段连接相邻的点 。
推荐阅读
- 一文了解高并发限流算法
- 一文领略 HTTP 的前世今生
- 看了两天HashMap源码,终于把红黑树插入平衡规则搞懂了
- 宋代图书分类方法 古代私人书籍收藏的最大图书馆是
- 一文学懂递归和动态规划
- 一文读懂阿里云之VPC概念及实战
- 一文入魂!聊透分布式系统一致性
- 红碎茶的历史和分类,广州红碎茶的特征分析
- 园林风格分类介绍
- 黄疸的概念分类
