腾讯联合港中文提出新型神经网络压缩方法深度神经网络在智能手机、可

随着智能设备的普及，深度神经网络在智能手机、可穿戴设备等嵌入式设备上的应用越来越常见，这些嵌入式设备对模型体积、计算性能、功耗等方面都有比较严格的要求。但与此同时，深度学习网络规模却在不断增大，计算复杂度随之增高，严重限制了其在手机等智能设备上的应用。深度学习模型压缩与加速技术就是为了解决这一问题而生。 InfoQ将通过选题的方式逐一介绍各大公司在模型压缩上的技术创新和落地实践。
【腾讯联合港中文提出新型神经网络压缩方法】在移动设备和许多在线应用中，实时性能好的轻量级模型是一大重要需求，而为了保证神经网络的实时性，很多时候都有必要对模型进行压缩；但与此同时，几乎所有神经网络模型压缩算法都会在压缩过程中减损原始模型的准确度。因此，在进行模型压缩时，需要在实时性和准确性之间找到一个合适的平衡。
为了保证压缩后模型的准确度，当下流行的模型压缩方法普遍依赖于使用原始数据对模型进行微调（fine-tuning）。然而，使用原始数据往往带来隐私和安全性的困扰，因而隐私和安全性问题正成为模型压缩领域新兴的研究方向。
腾讯AILab与香港中文大学合作完成的论文《通过交叉知识蒸馏实现少样本神经网络压缩（FewShotNetworkCompressionviaCrossDistillation）》提出的新方法能很好地在保证实时性和准确性平衡的前提下兼顾隐私和安全性。该论文已被AAAI2020会议接收，且相关源代码也已在GitHub发布。

文章图片
论文地址：https://arxiv.org/pdf/1911.09450.pdf
开源代码：https://github.com/haolibai/Cross-Distillation
不同于其它模型压缩方法，这篇论文为了兼顾隐私与性能，采用了基于少样本学习的神经网络压缩思路，即：给定每个类别很少的样本，如何才能有效地压缩网络而使性能下降最小化？
腾讯AILab发现小样本情况下进行神经网络压缩的核心挑战是：压缩后的模型很容易在少数训练实例上过拟合，从而导致推断过程中与原始网络之间存在较大的估计误差。估计误差可能会逐层累积和传播，最终破坏网络输出。为解决该问题，腾讯AILab提出了交叉知识蒸馏的思想，这是一种新颖的逐层知识蒸馏方法。该方法通过交叉连接教师和学生网络的隐藏层，可以有效地减少网络压缩过程中逐层累积的估计误差，提高准确率。而且新提出的算法还可以与剪枝、量化等流行的网络压缩算法相结合，有广阔的应用前景。
交叉知识蒸馏算法设计

文章图片
图1:传统逐层知识蒸馏算法（a）与交叉蒸馏算法（b ， c ， d）示意图
1.逐层知识蒸馏
图1(a)展示了逐层知识蒸馏算法的工作过程示意图。给定一个教师网络（TeacherNetwork）和一个学生网络（Studentnetwork），为了实现对学生网络的监督训练，逐层知识蒸馏的方法是最小化两个网络之间的特征图距离，即：

文章图片
其中

文章图片
称为估计误差。在训练数据充足时，该方法可以通常可以取得较好的效果。但是在小样本数据下，训练容易受到过拟合的影响，估计误差显著增大并会逐层传播。
2.交叉知识蒸馏
本文新提出交叉蒸馏方法分成两部分：
第一部分如图(b)所示，即将教师网络的隐藏层输入学生网络，并最小化纠正误差（correctionloss）。该做法初衷是为把教师网络的隐藏层当作基本真值（GroundTruth），在网络中间位置输入到学生网络。因此，学生网络可以在中间位置接受正确的监督信号以对后续层进行训练，从而可避免估计误差过大并传播的现象。纠正误差定义为：

文章图片
第二部分如图?所示，将学生网络的隐藏层输入教师网络，并最小化模仿误差（imitationloss）。由于估计误差在学生网络上逐层传播，导致在同一层位置上学生网络输入和教师网络输入存在较大差异。通过把学生网络隐藏层输入给教师网络，从而在相同输入前提下让学生网络模仿教师网络的输出行为。模仿误差定义为：

文章图片
通过对以上两种优化目标进行凸组合，得到最终优化目标：

文章图片
算法1简单总结了其工作过程：

文章图片
为了探讨交叉蒸馏算法与原逐层知识蒸馏方法的联系，文章证明了该最终优化目标为原估计误差的上界。另外，除了对优化目标进行凸组合，文章还探讨了在网络隐藏层上进行凸组合交叉连接（图d）。更多具体内容可参阅原论文。
3.新方法与已有压缩算法的结合（以剪枝为例）
剪枝算法的目标通常是实现对网络参数的稀疏化，这对应于在优化目标上添加一个稀疏正则化项。比如，结构化剪枝的对应正则化项为Group-LASSO:

文章图片

文章图片
对应地，我们可以使用近端梯度下降法（ProximalGradientDescent）进行求解，即：

文章图片
对应近端算子为

文章图片
非结构化剪枝和量化等其他压缩方法的对应近端梯度算子可参考原文。
实验
1.实验设置
为了测试新算法的有效性，腾讯AILab使用常用的VGGNet和ResNet在CIFAR-10和ImageNet上通过模拟小样本情景进行了测试。具体做法是对每个类别随机采样K张图片进行算法测试。每组实验均采用了不同的随机种子，最终报告的结果为多轮测试的均值和标准差。
2.实验结果
表1和表2分别展示了当剪枝方案固定和样本数量固定时，不同模型压缩方法的测试结果。可以看到， Ours（交叉蒸馏优化目标凸组合）和Ours-S（交叉蒸馏特征图凸组合，见原文）代表的新方法在VGG-16和ResNet-34网络上都普遍优于其它基准方法，其中Ours在VGG-16上的优势更大，而Ours-S在ResNet-34上的表现更优。与此同时，样本数据越小，交叉蒸馏相比于其它方法带来的优势更大，这说明当学生网络在更少量训练样本上更严重的过拟合时，交叉蒸馏能为逐层回归提供更多助益。

文章图片
表1：VGG-16在CIFAR-10上随样本数量K变化的准确率

文章图片
表2：ResNet-34在ImageNet上不同模型稀疏度下的准确率， K=1
在图2中，我们对比了交叉蒸馏算法与传统逐层蒸馏算法的估计误差。其中横轴代表层数，纵轴代表与传统逐层算法估计误差的比值（越低越好）。从图中可见随网络层数加深，交叉蒸馏算法的估计误差普遍降低，显示出对估计误差传播良好的抑制性。

文章图片
图2:交叉蒸馏算法与传统逐层蒸馏算法的估计误差对比
另外，通过对交叉蒸馏算法凸组合系数进行敏感度分析，腾讯AILab还发现不同系数配置下的交叉蒸馏算法都优于传统的逐层训练方法。当其处于中间值时，效果相对端点值更好。

文章图片
图3:目标函数凸组合系数分析。红色为交叉蒸馏方法，灰色为传统逐层训练方法。
更多实验、分析和拓展讨论可参阅论文原文。
总结起来，相比于其它基准方法，腾讯AILab新提出的基于交叉蒸馏的神经网络压缩方法可通过降低学生网络和教师网络之间的估计误差而有效地实现性能更强且泛化能力更优的学生网络

腾讯联合港中文提出新型神经网络压缩方法

推荐阅读

硅谷分析狮@小米中国区总裁卢伟冰：小米10国内销量早已过百万部

中秋节这天为什么要吃月饼呢中秋节后超市月饼怎么处理

晓丽|当初陪在你身边支持你的人，依然还在么？，公考上岸后

平定安史之乱的名将是谁?平定安史之乱的是哪两位大将

99元买烧鸡送免费旅游被叫停|99元买烧鸡送免费旅游被叫停什么情况？官方回应系私人行为

中国气象爱好者|专家：已破纪录，烧掉20个纽约！美国加州山火染红月亮太空可见

吃胶原蛋白有助于美容吗庄园小课堂吃胶原蛋白有助于美容吗

3种钓跑铅的调漂方法，不管野钓还是黑坑，这些钓法都很常用

摆平了！李梦跳舞心情大好，张隆过户北京房子，前妻不再爆料妥协了

普洱茶茶叶,普洱茶价格暴涨

1992年冬奥会中国选手谁获得两枚银牌 1992年冬奥会中国谁获得两枚金牌

穿搭|条纹衫才是法式穿搭的经典单品，不挑搭配不挑人，百变造型很迷人

穿搭|光彩耀人的比基尼泳衣美女，大长腿十分养眼

中国青年网|其父质疑：凭什么？，被警察连开7枪的美国黑人已半身瘫痪

新华社解放军分社|大堤上的安全监督员：确保战友万无一失

养生管家你午睡吗？长期坚持午睡竟有这么多好处？

如何告诉父母自己谈恋爱了

怪味豆角的做法

浙江警方破获一起公安部毒品目标案件

【高速】上高速突然下暴雨，打开雾灯还是双闪？交警：再说最后