卷积神经网络还要做十折交叉验证


卷积神经网络还要做十折交叉验证


一般而言,数据集会被分成3份: training set, dev set(或者说是cross-validation set),test set。
假如对于一个分类问题,首先用training set对分类器进行训练,再利用dev set来测试训练得到的模型,以此来做为评价分类器的性能指标。
对于早期的机器学习,数据集可以说是非常稀少的,100或1000或10000,对于这么样本规模很小的数据集,可能就会想到用随机选取的60%的数据集作为training set,20%作为dev set,20%作为test set。更好的做法就是楼主所说的10-fold Cross Validation, 最终得到的结果比较具有说服性。
现在可以说是进入了大数据时代,一般来说只要领域不是很偏(比如某些疾病的医学图像),都会有足够的数据集可以用来进行训练。对于手写数字识别的MNIST数据库,在Google所开发的TensorFlow中,就划分了55000张图片用来做training set、5000张图片用来做dev set、10000张图片来做test set。
也即是说对于充足的数据集,比如说对于Large Scale Visual Recognition Challenge所给的120万数据集,就没有必要做10-fold Cross Validation了,举个例子,假如有100万数据集可以使用,随机选取里面的98万用来做training set、1万张图片用来做dev set、1万张图片来做test set就足够了。

■网友
谢邀。
有点糊涂,是因为你们没有测试集才需要做ten fold cross validation吗?

■网友
我老师也说让做交叉验证。。请问有知道怎么做的吗?

■网友
【卷积神经网络还要做十折交叉验证】 数据集规模(样本数量)不给,没法说该不该做十折交叉验证。

■网友
做交叉验证是为了防止过拟合
■网友
是十折,ten-fold。
■网友
同问CNN怎么做十折交叉验证

■网友
数据量足够大的话可以不做交叉验证的


    推荐阅读