一文搞懂分类算法中常用的评估指标( 二 )


分类算法中常见的问题

  • 正确率指标能很好的评估分类模型吗?
不一定 。例如我们想开发一个地震警报器,当地震要来临时提前发送警报让大家避险 。而我们知道,实际上地震发生的次数很少,也许100次中可能只有1次地震,甚至更低,这里为了方便计算 。如果此时,我们的预测器将这100次的预测结果都预测为不会发生地震,那我们的预测器的正确率有99% 。
虽然,这个预测器的正确率很高,但是实际上它不会产生任何的商业价值,其实也就没任何使用价值 。实际上我们需要预测正确的正是那一次的地震 。
针对这种情况我们更希望是recall指标尽可能的高,而不是正确率 。所以,对于分布不平衡的数据来说并不是正确率越高越好,应该根据实际需求来选择评估指标 。
  • 如何绘制ROC曲线?

一文搞懂分类算法中常用的评估指标

文章插图
 
在现实任务中,我们只是对有限个测试样本进?绘制ROC图,此时只能获得有限个(假正例率,真正例率)坐标对,就?法获得如(a)的光滑的ROC曲线,就会获得如图(b)的近似的ROC曲线 。
绘图过程如下:给定m1个正例和m2个反例,根据模型预测结果(正例的概率)对样例进?排序,然后把分类阈值设置为最?,即把所有样例都预测为反例,此时真正例率和假正例率都为0,在坐标(0,0)处标记?个点,然后将分类阈值依次设置为每个样例的预测值,即依次将每个样例设置为正例,若前?个标记点坐标为(x, y),当前若为真正例,则对应标记点坐标为(x, y+1/m1);若当前为假正例,则对应标记点坐标为(x+1/m2, y),然后?线段连接相邻的点 。




推荐阅读