清华构建新一代数据集NICO，定义图像分类新标准( 二 )

本文插图

本文插图
考察随机选择子类并构成的三个数据集A、B、C ，可以看到：1）Non-I.I.D.普遍存在于各训练集的各种类别中；2）不同训练集的组成会带来数据分布差异的不同。然而， ImageNet等数据集并非为Non-I.I.D.问题而设计，它们能造成的数据偏差都不明显，偏差程度也很难调控，不足以支持充分的研究。我们还发现，数据分布的差异大小将直接影响模型学习的好坏。

本文插图
区别于I.I.D.下传统图像任务的定义， Non-I.I.D.把“跨数据集泛化性”作为主要的评价标准。以基本的图像分类任务为例， Non-I.I.D.下的图像分类分为Targeted类和General类。两类任务的区别在于是否已知测试环境的信息，目标都是从训练环境中学习可以泛化到有数据分布偏差的测试环境的模型。显然，随着不同类型、任务、规模的数据集不断提出，单单通过排列组合来考察“跨数据集泛化性”带来的边际效应越来越低，从实际研究的?度出发，整个研究社区亟需?个可以系统、定量地研究数据分布偏差与模型泛化性能的标杆数据集。

本文插图
在《面向分独立同分布图像分类：数据集和基线模型》(Towards Non-IID Image Classification: A Dataset and Baseline) 一文中，我们提出了一个带有“调节杆”的多分类图像数据集 (NICO) ，用于模拟训练和测试集分布不同条件下的图像分类任务场景，辅以定量刻画数据分布偏差的指标”Non-I.I.D. Index“ (NI) 。通过“调节杆” ，我们可以手动调节不同档位的NI ，从而模拟一连串不同难度的场景，从接近经典数据集下的“无偏”环境平滑过渡到加入对抗信息的“极偏”环境中。

本文插图
区别于其它标准数据集，构建NICO数据集的核心思想是以（主体对象，上下文）的组合为单位收集数据。同一个类别（主体对象），有多个上下文与之对应，描述主体内的属性，如颜色、形状等，或主体外的背景，如草地、日落等。为了实用性和适用性，我们从搜索引擎上与主体最密切的联想词中筛选出丰富多样的上下文，并保证不同主体的上下文有足够的重叠度。上下文实际上提供了围绕主体的有偏数据分布，通过在训练环境和测试环境组合不同的（主体对象，上下文），我们就能构建不同的Non-I.I.D.场景。可以构建的场景包括但不限于：
1、最小偏差：NICO可达到的近似“I.I.D.” ，通过随机采样使训练和测试环境的所有（主体对象，上下文）单元的数据比例相同。最小偏差描述了数据集本身的学习难度和数据噪声，此时的实验指标（如分类准确率）一般可作为best score 。
2、比例偏差：虽然训练和测试环境中出现（主体对象，上下文）的组合相同，但是不同单元之间的比例不同。比如，我们可以选择从指定上下文中收集某个类别的大部分训练数据，不同对象由不同上下文主导，就容易造成模型的参数偏差。
实验表明，主导的上下文的比例越大，数据分布的差异也就越大。

本文插图
3、成份偏差：测试环境中存在训练环境中没出现过的（主体对象，上下文）单元，算作比例偏差的一个特例。成分偏差考验了模型对外插数据的泛化能力，没见过的上下文组合越多，数据分布差异越大，也就越难学。我们还可以在训练集中对不同类别再次设置主导的上下文，进一步增加分布差异。

清华构建新一代数据集NICO，定义图像分类新标准( 二 )

推荐阅读

北宋著名书法家,文学家,茶学家是谁-?北宋历代帝王

「豆豆看娱乐乐」别怕冬日出行，冬天是对电动车的挑战？长城欧拉iQ超稳超靠谱

?蔚来、理想与小鹏们：老问题未破，新挑战已来 | 汽车新纪元

全国能源信息平台|伊朗石油储备接近饱和

皮皮宠PPPet|红烧肉不发柴的窍门是什么？

南都全娱乐|两个多月四位明星自杀去世，日本娱乐圈怎么了？

华为张文林：HMS诞生一年以来，已经有180万开发者

心脑血管|明明吃降压药了，血压为何难降下去？多半是进入三个误区了

『中超』天津天海上书足协愿放弃薪水踢中超究竟感天动地还是道德绑架？

22|约翰斯·霍普金斯大学：全球新冠死亡病例超过80万例

深度工场|还是要靠坦克，印军以后要吃大亏！印度将军称无人机打不赢战争

拥有一个智商很高的男朋友是怎么样一种体验

天津海关打击走私查获走私废塑料千余吨

新娘的红盖头有什么讲究?新娘出嫁为什么要盖红盖头

莲雾乳空手指__莲蓬乳和空手指为什么吓人？

电竞撸吧老司机|文森特沦为突破口！Uzi直播间惨遭刷屏：姿态与让帝需要你

多鱼是只猫|吴谨言5年前艺考照片，那个被称为最美考生的女孩，真的是她

长江|男子钓鱼时两个妹妹在他身后伺候，一个给他揉肩，另一个给他扇风

外汇|马云套现430亿是啥概念？提成现钞能塞满两套115平的三居

饮茶的发展演变