人工智能发展简史——从理论走向应用

起源阶段(1943-1969)1943年 , 神经科学家麦卡洛克(W.S.McCilloch) 和数学家皮兹(W.Pitts)建立了神经网络和数学模型 , 称为M-P模型 , 即两个人的名字的合称McCulloch-Pitts 。
这个模型是对生物神经元的一个建模 。当时是希望能够用计算机来模拟人的神经元反应的过程 , 该模型将神经元简化为了三个过程:输入信号线性加权、求和和非线性激活(阈值法) 。人工神经网络(ANN: Artificial Neural Network)以此为开端 , 不过这个模型直到1958年 , 才开始有了实用价值 。

人工智能发展简史——从理论走向应用

文章插图
M-P人工神经元模型
1958年 , 计算机科学家罗森布拉特( Rosenblatt)提出了一个由两层神经元组成的神经网络 , 称之为“感知器”(Perceptrons) , 第一次将M-P模型用于机器学习的分类(classification)问题 。
人工智能发展简史——从理论走向应用

文章插图
人工智能先驱Marvin Minsky
1969年 , 美国数学家及人工智能先驱 Marvin Minsky 在其著作中证明了感知器本质上是一种线性模型(linear model) , 只能处理线性分类问题 , 就连最简单的XOR(异或)问题都无法正确分类 。由此 , 神经网络的研究也陷入了将近20年的停滞 , 进入了第一个寒冬期 。
发展阶段(1986-1998)1986年 , 神经网络之父 Geoffrey Hinton 发明了适用于多层感知器(MLP)的BP(Back Propagation)算法 , 并采用Sigmoid函数进行非线性映射 , 有效解决了非线性分类和学习的问题 。这种方法引起了神经网络的第二次热潮 。
人工智能发展简史——从理论走向应用

文章插图
Sigmoid函数

人工智能发展简史——从理论走向应用

文章插图
多层感知器:至少有一个隐藏层
当神经网络的规模增大时 , 使用BP算法会出现“梯度消失”的问题 。当梯度消失发生时 , 接近于输出层的隐藏层由于其梯度相对正常 , 所以权值更新时也就相对正常 , 但是当越靠近输入层时 , 由于梯度消失现象 , 会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞 。
人工智能发展简史——从理论走向应用

文章插图
梯度消失问题限制了ANN结构的层数(规模)
90年代中期 , 以SVM为代表的其它浅层机器学习算法被提出 , 并在分类、回归问题上均取得了很好的效果 , 而ANN则相形见绌 , 人工神经网络的发展再次进入瓶颈 , 迎来了第二个寒冬期 。
深度学习开始(2006-2012)2006年 , Geoffrey Hinton 和他的学生 Ruslan Salakhutdinov 在顶尖学术刊物《科学》上发表了一篇文章 , 该文章提出了深层网络训练中梯度消失问题的解决方案:无监督预训练对权值进行初始化+有监督训练微调 。这个方案的提出 , 为基于ANN的深度学习(DL:Deep Learning)提供了可能性 。
造成梯度消失的一个主要原因就是激活函数Sigmoid 。Sigmoid的导数的取值范围在0~0.25之间 , 初始化的网络权值通常都小于1 , 当层数增多时 , 小于0的值不断相乘 , 最后导致梯度消失的情况出现 。因此解决梯度消失的一个办法是替换激活函数 。2011年 , ReLU激活函数被提出 , 该激活函数能够有效地抑制梯度消失问题 。
2011年以来 , 微软首次将DL应用在语音识别上 , 取得了重大突破 。微软研究院和google的语音识别研究人员先后采用深度神经网络(DNN)技术降低语音识别错误率20%~30% , 是语音识别领域十多年来最大的突破性进展 , 人工神经网络终于证明了自己的实用价值 。
深度学习爆发2012年 , Hinton课题组为了证明深度学习的潜力 , 首次参加了ImageNet图像识别比赛 , 其构建的卷积神经网络(CNN)模型AlexNet一举夺得冠军 。深度学习算法在世界大赛的脱颖而出 , 也再一次吸引了学术界和工业界对于深度学习领域的关注 。
通过ImageNet图像识别比赛 , DL的网络结构、训练方法、GPU硬件的不断进步 , 促使DNN在其他领域也在不断地征服战场 。
2014年 , Facebook基于深度学习技术的DeepFace项目 , 在人脸识别方面的准确率已经能达到97%以上 , 跟人类识别的准确率几乎没有差别 。


推荐阅读