载风月|深度学习中的内存管理问题研究综述( 二 ) 深度学习中的内存管理问题研究综述马玮

笔者将通过一个典型的卷积神经网络对DNN的模型结构进行具体说明，如图1所示。神经网络需要经过训练才能用于推理或分类任务。训练通过执行正向传播（forward propagation）算法和反向传播（backward propagation）算法，学习和更新神经网络各层的权值。
对于正向传播和反向传播来说，遍历的方向以及必须执行的操作是不同的。正向传播从第一层执行到最后一层，而反向传播从相反的方向执行（从最后一层到第一层）。正向传播遍历了整个神经网络层，并针对给定的输入执行特征提取和分类任务，从而完成图像分类。在正向传播过程中，每一层的数学操作应用于其输入特征图X ，将计算结果进行保存，并作为输出特征图Y 。对于线性神经网络来说，第N?1层的输出结果Y直接用作第N层的输入X ，如图1所示。因此正向传播的计算是一个序列化的过程，第N层只有在第N?1层完成计算并将其输出结果Y传递到第N层的输入X时，才能开始相应的操作。
对于未经充分训练的DNN来说，推断的图像类别可能是不准确的。因此，笔者使用一个损失函数来推导正向传播结束时推理误差的大小。具体来说，损失函数的梯度是根据最后一层的输出值推导出来的：
由式（1）可以得到最后一层的输出结果的梯度dY ，进而根据链式法则，能够得到最后一层输入的梯度dX：
由式（2）可以看出，计算第N层的输入X的梯度值dX需要的内存空间包括输入/输出梯度映射（dY和d X）的内存空间和该层的输入/输出特征映射（X和Y）的内存空间。对于线性网络，将计算得到的第N层的dX直接传递到第N?1层，作为第N?1层dX推导的dY 。类似地，这个链式法则被用来推导权值的梯度，从而更新网络模型。与正向传播类似，反向传播也对各个梯度映射按层执行。当反向传播到达第一层时，利用权值梯度调整权值，以减少下一个分类任务的预测误差。
2.2 深度学习中的内存管理问题近年来，机器学习框架如雨后春笋般蓬勃发展，如TensorFlow、Theano、PyTorch和MxNet等。这些框架提供了丰富的特性来帮助开发者快速设计各种各样的神经网络，并且使用各种加速设备来加速DNN的训练和推理，极大地简化了神经网络的实现过程，成为帮助研究者开展研究的利器。但是这些机器学习框架在内存管理方面受到严重的限制。
图1 CNN模型的训练过程
现有的机器学习框架在训练DNN时，DNN所有层所需的内存空间必须能够被放在加速设备的内存中，以此来获得性能上的优势。由于层与层之间存在数据依赖关系，加速设备在任何给定时间都只能处理单层的计算。因此，不管神经网络的结构如何，神经网络在训练过程中的计算都是分层进行的。整个神经网络的内存分配策略没有考虑到DNN分层训练的特点，这对内存资源造成了极大的浪费。训练一个神经网络需要经过数百万甚至数亿次的迭代才能达到理想的训练效果。由于基于随机梯度下降（stochastic gradient-descent ，SGD）的反向传播算法具有随机性，神经网络的输入通常成批地训练数据，这也将显著增加内存占用，但是有助于网络模型更好地收敛到最优解。随着DNN的网络结构向着更深、更广的方向发展，训练DNN时所需的内存空间越来越大，单个加速设备的内存已经不能满足训练的需求。

载风月|深度学习中的内存管理问题研究综述( 二 )

推荐阅读

感受“乡愁”——山东民间艺术登场国博

[科学技术宅]价格相差不大，如何选择？，廉价版iPhone和国产旗舰手机

王菲比谢霆锋大几岁(谢霆锋王菲女儿几岁了)

人民网－人民日报|全社会用电量年内首现正增长

中国新闻网|浙江台州湾新区揭牌成立

英国将推出手机应用程序追踪联系新冠病毒感染者

西伯利亚：世界最大的盆地是刚果盆地还是别的盆地，现在是不是

奚梦瑶|奚梦瑶现身世界杯！与老公吃雪糕秀恩爱，何超欣穿抹胸装身材好

「北晚新视觉」死亡2万多例，特朗普“攻击”世卫组织！美国新冠病毒确诊超60万例

大国风暴|B52轰炸机携2枚导弹逼近，大国警告：一旦开打就是核战，关键时刻

岳丽娜|19岁与导演私奔，裸婚住地下室连生3胎，今丈夫用整部剧捧红她

孕妇▲如何正确选择孕妇托腹裤

当你被困在着火的房子或公寓里时，应该咋办呢

十月“科学”流言榜出炉：吃板蓝根能抗新冠？断章取义

三元娱乐|徐冬冬西装大片：能够把西装穿出女人味的女明星不多，她算一个

文化环球讯|学生党什么牌子蓝牙耳机好？资深玩家悉心整理的五大机型

火箭大狗熊|轮换第10人渐明朗，26岁双能卫上位，尘埃落定！火箭9人轮换定型

茄辣西

龙血树的栽培方法及注意事项

解读老曼峨古茶园大叶茶叶