卷积神经网络还要做十折交叉验证

一般而言,数据集会被分成3份: training set, dev set(或者说是cross-validation set),test set。
假如对于一个分类问题,首先用training set对分类器进行训练,再利用dev set来测试训练得到的模型,以此来做为评价分类器的性能指标。
对于早期的机器学习,数据集可以说是非常稀少的,100或1000或10000,对于这么样本规模很小的数据集,可能就会想到用随机选取的60%的数据集作为training set,20%作为dev set,20%作为test set。更好的做法就是楼主所说的10-fold Cross Validation, 最终得到的结果比较具有说服性。
现在可以说是进入了大数据时代,一般来说只要领域不是很偏(比如某些疾病的医学图像),都会有足够的数据集可以用来进行训练。对于手写数字识别的MNIST数据库,在Google所开发的TensorFlow中,就划分了55000张图片用来做training set、5000张图片用来做dev set、10000张图片来做test set。
也即是说对于充足的数据集,比如说对于Large Scale Visual Recognition Challenge所给的120万数据集,就没有必要做10-fold Cross Validation了,举个例子,假如有100万数据集可以使用,随机选取里面的98万用来做training set、1万张图片用来做dev set、1万张图片来做test set就足够了。
■网友
谢邀。
有点糊涂,是因为你们没有测试集才需要做ten fold cross validation吗?
■网友
我老师也说让做交叉验证。。请问有知道怎么做的吗?
■网友
【卷积神经网络还要做十折交叉验证】 数据集规模(样本数量)不给,没法说该不该做十折交叉验证。
■网友
做交叉验证是为了防止过拟合
■网友
是十折,ten-fold。
■网友
同问CNN怎么做十折交叉验证
■网友
数据量足够大的话可以不做交叉验证的
推荐阅读
- 孩子|家长要做到“三捂二不捂”,孩子少生病妈妈少担心儿童冬季保暖
- 从其他岗位转产品经理可能吗,跨度有多大需要做那些准备
- 肠胃|孩子积食长不了个子,清理肠胃是首要做的事!对我说
- SUV车型|中国版“库里南”,轴距3米1,红旗誓要做国产第一豪车品牌
- 汽车|坐别人的车,不要做这几个脏动作,不然连好朋友都要赶你下车!
- 汽车扒一扒|做人要做马伯骞,选车要选VV7
- 卵巢|延缓卵巢衰老,需要做哪些事?做到的人,绝经不会太早光临?
- 孩子头|会伤到脑子吗?要不要做CT?“咚!”宝宝头摔出一个鼓包
- 神经网络算法是否真的属于人工智能范畴
- 宝宝|有必要做吗?乳牙窝沟封闭
