数据挖掘中做(n-floder)交叉验证时,如果根据测试结果选取相应的模型?( 三 )
在设置好了测试集和训练集之后,你需要做的是找出一个指标,来帮助你快速的评价不同的方法/参数,以实现迅速的迭代。但问题是评价的标准往往有很多个,且往往不再一个维度。对于不同的应用领域和问题,这个用来评价的指标应该考虑多个因素。还用推荐萌猫的神经网络作为例子,你评价时不止要考虑分类的准确度,还要考虑这个神经网络的运行所需的时间和资源,毕竟你的APP每天都会给用户推荐猫的照片,是一个持续的需求,再细想,如果你的APP 每天不止给用户推荐一张猫的照片,而是推荐一组,那么这一组照片中最好能够不全是小猫或者某一组猫。如何将这些评价标准组合成一个一维的指标,是需要用户去在摸透了实际需求后去考虑的。
对一个模型的评价,也会如同对测试数据的分布一样存在多个维度。有的是眼前要解决的需求,有的是立足长远的考量。还是萌猫照片推荐的问题,另一个评价的标准是模型的迁移能力,你的模型能否在不做大修改的前提下应用到推荐狗的照片。这是横向的迁移,你的模型能否应用到只推荐某一种狗,比如只推荐雪橇犬或者牧羊犬的照片,这是纵向的迁移。只有在模型一开始的设计和选择时就考虑到了这些未来的应用场景,才能在一开始不做出短视的选择。
■网友
交叉验证应该结合一个特定评价指标来使用,比如MSE(均方差)、AUC(ROC曲线下的面积)等等。对于每一个模型,交叉验证会计算出一个关于该指标的均值。如果你选的是MSE(越小越好),那么最好的模型就是对应交叉验证算出来MSE的均值最低的那个。如果你选的是AUC(越接近1越好),那么最好的模型就是对应的AUC的均值最接近1的那个。
推荐阅读
- 数据挖掘、数据分析方向国内有哪些大学比较强
- 出生仅41天的宝宝,在熟睡中做了核酸检测
- 请问招商证劵固定收益实习和金仕达软件系统,数据挖掘正式工作怎样选择
- 现在已经大三了,C++和java,php都会一点,但了解不深,想读研,想学习数据挖掘,机器学习,现在该咋咋做?
- 英国计算机专业数据挖掘方向博士就业情况
- 数据挖掘方面的研究生,课题不知道选啥。。求求求求助
- 作为实验室方向为机器学习,数据挖掘和中医相结合方向的研究生有啥合适的方向推荐吗?
- 你在《王者荣耀》中做过/遇到过哪些“蠢事”
- offer选择:坐标上海,IT企业数据挖掘VS金融国企中后台运营
- 大数据的必须需要人工来进行挖掘吗为啥。 大数据挖掘过程中的无效数据是怎么样处理的
