华人博士提出原型对比学习,非监督学习效果远超MoCo和SimCLR

文章图片
新智元报道
来源:einstein.ai
编辑:白峰
【华人博士提出原型对比学习,非监督学习效果远超MoCo和SimCLR】【新智元导读】继MoCo和SimCLR之后非监督学习的又一里程碑!Salesforce的华人科学家(JunnanLi)介绍了一种新的非监督式神经网络学习方法 , 这种方法能够从数百万个未标记的图像中训练深层神经网络 , 让我们离机器智能又进了一步 。
本文提出的原型对比学习(PCL) , 统一了非监督式学习的两个学派:聚类学习和对比学习 。 PCL推动了机器学习和人工智能的圣杯--非监督式学习技术的进步 , 并向无需人类指导的机器智能迈出了重要的一步 。

文章图片
为什么是非监督学习
深层神经网络在许多方面取得了前所未有的进展 , 比如图像分类和目标检测 。 大部分的进步都是由监督式学习/标签模式驱动的 , 得到这么好的性能很大程度上依赖于大量带有人工注释的标签(例如ImageNet) 。
然而 , 手工标注的成本是十分昂贵的 , 很难扩大规模 。 另一方面 , 互联网上存在着几乎无限量的未标记图片 。 非监督式学习是唯一适合开发未标记数据这个大金矿的方法 。
首先 , 让我们来谈谈两个流行的非监督式学习算法学派:聚类和对比学习 。
聚类:机器学习中最常见的非监督式学习任务之一 。
它是将数据集划分为若干个组的过程 , 聚类算法将相似的数据点组合在一起 , 而不同的数据点组合在不同的组中 。
在所有的聚类方法中 , K均值是最简单和最流行的方法之一 。 它是一个迭代算法 , 目的是将数据集划分为k组(聚类) , 其中每个数据点只属于一类 , 聚类中每个数据点和聚类质心(属于该聚类的所有数据点的算术平均值)平方距离之和最小 。

文章图片
对比学习:非监督式学习的一个新兴学派
随着深层神经网络的出现 , 对比非监督式学习已经成为一个流行的方法学派 , 它训练深层神经网络而不用标签 。 经过训练的网络能够从图像中提取有意义的特征(表示) , 这将提高其他下游任务的性能 。
对比非监督式学习主要是从数据本身学习有用的表征 , 所以也称为对比自我监督学习 。
许多最先进的对比学习方法(例如MoCo和SimCLR)都是基于实例辨别的任务 。
实例鉴别训练一个网络来分类两个图像是否来自同一个源图像 , 如图1(a)所示 。 该网络(例如CNN编码器)将每个图像裁剪投影到一个嵌入中 , 并将同源的嵌入彼此拉近 , 同时将不同源的嵌入分开 。 通过解决实例识别任务 , 期望网络学习到一个有用的图像表示 。

文章图片
实例鉴别在无监督表征学习中表现出了良好的性能 。 然而 , 它有两个局限性 。
首先 , 利用低层线索就可以区分不同的实例 , 因此网络不一定学习到有用的语义知识 。
其次 , 如图1(b)所示 , 来自同一个类(cat)的图像被视为不同的实例 , 它们的嵌入被推开 。 这是不可取的 , 因为具有相似语义的图像应该具有相似的嵌入 。 为了解决上述缺点 , 我们提出了一种无监督表征学习的新方法:原型对比学习(PCL) 。
原型对比学习:统一对比学习和聚类学习
原型对比学习是无监督表征学习的一种新方法 , 它综合了对比学习和聚类学习的优点 。
在PCL中 , 我们引入了一个「原型」作为由相似图像形成的簇的质心 。 我们将每个图像分配给不同粒度的多个原型 。 训练的目标是使每个图像嵌入更接近其相关原型 , 这是通过最小化一个ProtoNCE损失函数来实现的 。
在高层次上 , PCL的目标是找到给定观测图像的最大似然估计(MLE)模型参数:

文章图片
我们引入原型c作为与观测数据相关的潜在变量 , 提出了一种期望最大化算法来求解最大似然估计 。 在E-step中 , 我们通过执行K平均算法估计原型的概率 。 在m步中 , 我们通过训练模型来最大化似然估计 , 从而最小化一个ProtoNCE损失:

文章图片
在期望最大化框架下 , 我们可以证明以前的对比学习方法是PCL的一个特例 。
通常情况下我们是通过将预先训练的模型转移到下游任务来评估非监督学习的效果 , 类似于ImageNet预先训练的模型已经广泛应用于许多计算机视觉任务 。 一个好的预训练模型应该在有限的训练数据和有限微调的新任务上产生良好的表现 。
PCL的表现如何?
我们在三个任务上对PCL进行评估 , 在所有情况下 , 它都达到了最先进的性能 。
1、少样本迁移学习
首先 , 将未标记的ImageNet数据集上训练ResNet模型的任务转化为两个:VOC07数据集上的目标识别和Places205数据集上的场景分类 。 对于每个任务 , 我们只得到很少(k)标记的样本 。 我们使用无监督学习训练一个线性支持向量机 。 如下表所示 , PCL在VOC上取得10%左右的性能改善 。

文章图片
2、半监督学习
接下来 , 我们评估PCL在半监督图像分类中的作用 。 在这个任务中 , 我们在未标记的ImageNet图像预先训练ResNet模型 , 并使用1%或10%带有标签的ImageNet图像微调分类模型 。 PCL同样优于其他方法 , 将Top-5准确率提高了18% 。

文章图片
3、目标检测
我们进一步评估了目标检测学习表征的泛化能力 。 我们在VOC07或VOC07+12上训练了一个更快的R-CNN模型 , 并在VOC07的测试集上进行了评估 。 如下所示 , PCL实质上缩小了自监督方法和监督方法之间的差距 , 他们之间只有1%的差异 。

文章图片
学到的表征是什么样子的?
为了更好地理解PCL学习到的表征 , 我们绘制了来自ImageNet前40类图像的t-SNE可视化图像 。 我们可以看到 , PCL学习的表示方法可以将来自同一类的图像聚在一起 。

文章图片
结果已经证明PCL有巨大的潜力 , 在深层神经网络中使用纯粹的非标记图像就可以训练 。
我们希望PCL可以扩展到视频 , 文本 , 语音等领域 , 让PCL激励更多有前途的非监督式学习领域的研究 , 推动未来人工智能的发展 , 使人工标注不再是模型训练的必要组成部分 。
作者简介:JunnanLi , Salesforce亚洲研究院科学家 , 香港大学电子工程学学士 , 新加坡国立大学计算机博士 , 主要研究方向计算机视觉和深度学习、非监督式学习 , 弱监督学习 , 迁移学习和社交场景理解 。

文章图片
参考链接:
https://blog.einstein.ai/prototypical-contrastive-learning-pushing-the-frontiers-of-unsupervised-learning/
https://sites.google.com/site/junnanlics/
推荐阅读
- 岂有此理,6000华人宣誓加入美国,扬言中国无权取消他们国籍
- 还在嘲笑马保国?青城派掌门人发话:我上我也行,还提出了新观点
- 无国籍华人想要认祖归宗?网友笑了,只用俩字回应!
- 如何限制演员高片酬?政协委员冯远征提出新思路
- 白居易在《与元九书》中提出了怎样的理论?
- 防疫不松懈,备战开学时 —山东理工小博士幼儿园开学准备之培训篇
- 尤文疯狂3换1!为交易曼联8000万巨星下血本,里皮提出一看法
- 民法典外媒:《中华人民共和国民法典(草案)》涉及范围广、亮点多
- 广州这间中学一次引进11名博士,9人毕业于清北,校长:这些老师将成学生“偶像”
- 他是美国华人老大,落网后被判2900年,他反驳一条:我没害中国人
