一文读懂神经网络的奥妙

作者:宇信教育 祝森
眼下最热门的ICT技术,人工智能绝对可以排在前列 。
2016年谷歌Alpha Go与围棋世界冠军李世石上演"世纪人机大战",将人工智能(AI)的关注度推到了前所未有的高度,到如今随处可见的刷脸支付、AI音箱、扫地机器人,以及各大顶级公司都在投入的无人驾驶研究,背后都有人工智能技术在做支撑 。预计2025年,全球企业对AI的采用率将达86% 。AI的崛起将深刻改变企业的业务模式和价值创造模式 。
人工智能的底层模型是"神经网络"(neural network) 。许多复杂的应用(比如模式识别、自动控制)和高级模型(比如深度学习)都基于它 。学习人工智能,一定是从它开始 。
人为什么能够思考?原因在于人体的神经网络,其中思考的基础是神经元,如果能够"人造神经元"(artificial neuron),就能组成人工神经网络,模拟思考 。一直以来,科学家都希望模拟人的大脑,造出可以思考的机器 。上个世纪六十年代,科学家提出了最早的"人造神经元"模型,叫做"感知器"(perceptron),直到今天还在用 。
人工神经网络,简称神经网络(Artificial Neural Network,ANN):是由人工神经元互连组成的网络,它是从微观结构和功能上对人脑的抽象、简化,是模拟人类智能的一条重要途径,反映了人脑功能的若干基本特征,如并行信息处理、学习、联想、模式分类、记忆等 。

一文读懂神经网络的奥妙

文章插图
 
如图,我们可以初步理解神经网络模型是一个包含输入,输出与计算功能的模型 。输入可以类比为神经元的树突,输出可以类比为神经元的轴突,计算则可以类比为细胞核 。
作为AI技术的底层技术,为什么神经网络的提出已久,但近几年才大放光芒?这是因为神经网络等算法需要巨大算力来支撑 。在2016年的那场人机大战中,谷歌DeepMind公司共消耗了1202颗CPU和176颗GPU的计算资源,Alpha Go的浮点运算能力是1998年IBM深蓝战胜象棋冠军时的3万倍之多,所以当前超高的运算能力是支撑AI技术发展的重要推手 。
人工智能目前最成熟的应用方向之一是图像识别,它是实现如何让机器理解图像中的内容的AI技术,而其中神经网络对图像识别技术发展起到了突出的作用 。
接下来我们通过一个简单的例子来更好的理解神经网络 。
当一张图片输入到电脑中,它通常是一种三维数组的形式,第一维度我们通常称为Height,第二维度我们称为Width,这两个维度构即图像被计算机分割采样的尺寸,也就是通常所说的分辨率(如一张分辨率为1920*1080的图像,表示这幅图像是由1920*1080个点组成),第三维度称为Channel也就是通道,通常以RGB作为通道,表示图像每个划分的点的色彩,也就是他们分别在红,绿、蓝三原色域上的取值,如下图:
一文读懂神经网络的奥妙

文章插图
 
我们的任务是,搜集大量相关的照片(即有些图片是猫,有些不是猫,比如是小狗),并对已知照片的结果做标记(这个动作也叫打标签):是猫的图片记做1,不是猫的记做0,如下图 。
一文读懂神经网络的奥妙

文章插图
 
让计算机识别已有标签图片的信息,建立一套识别模式,再用这套识别模式判断新输入的图片是不是猫,这就是一个简单的图像识别问题 。
到此我们可以将上述任务转化为:对一批三维数组进行层层计算、转换、压缩,最终输出每个三维数组是0或1的过程,而神经网络就是完成这个过程的计算模型之一,也是目前比较出色的 。
一个典型的神经网络模型包含有输入、输出,以及中间代表计算功能的隐藏层,如下图,图中各个层级之间的关系用箭头线表示,称为"连接",每一个连接都代表计算过程中的一个权重与偏差,也就是模型的参数 。
一文读懂神经网络的奥妙

文章插图
 
结合上图我们继续概括下神经网络算法进行图像识别的过程:每个图像对应的三维数组在计算机中被处理成数字矩阵,也就是特征矩阵,也可以看成是一系列的向量(矩阵的每一行或每列可以看成一个向量),这里简化为只有三个向量X1,X2,X3作为输入特征,它们们被当作神经网络的输入层 。输入层后面是隐藏层,由一个个神经元构成,它们代表着获取的信息 。最后一层是输出层,一般是用来产生预测值的,此任务中输出的是一个0或者1 。其中每个"连接"是通过样本特征矩阵和权重矩阵进行矩阵相乘,然后加上偏差形成的,并且也是下一层的输入 。


推荐阅读