【猫布克】深度学习的数学
深度学习的数学
本书的目的在于提供理解神经网络所需的数学基础知识。本书将sigmoid函数作为激活函数且主要讲解监督函数。
1.神经网络的思想
1-1 神经网路和深度学习
深度学习是人工智能一种具有代表性的实现方法。而其中最具有代表性就是神经网络。
神经网络可以说是从生物学上的神经元(neuron)拓展而来的。
生物学上认为,关于构成大脑的神经元:
- 神经元形成网络
- 对于其他多个神经元传递过来的信号,如果他们的和不超过某个固定大小的值(阈值)则神经元不做任何反应
- 对于从其他多个神经元传递过来的信号,若他们的和超过某个固定大小的值(阈值),则神经元做出反应(称为点火),向另外的神经元传递固定强度的信号。
- 在上述2点中,从多个神经元传递过来的信号之和中,每个信号对应的权重不一样。
将神经元的工作在数学上抽象化,并且以其为单位人工地形成网络,这样的人工网络就是神经网络。将构成大脑的神经元的集合体抽象为数学模型,这就是神经网络的出发点!
这些图像虽然大小形状各异,都可以被认为正解是数字0.可是如何将这个事实告诉给计算机呢?
以20世纪常用手段,处理起来会非常困难,“人教导机器”在图像语音领域,是非常困难的。不过在20世纪后期,对于这样的问题,就是用神经网络以及其发展而来的深度学习,让机器自己学习。如此看来,神经网络似乎有一些不可思议的逻辑,但从数学上来说,其原理十分容易理解。本书的目的就是阐述他的原理。
1-2 神经元工作的简化
人的大脑是由多个神经元互相连接形成网络构成的。也就是说,一个神经元从其他神经元接受信号,也向其他神经元发出信号。大脑就是根据这个网络上的信号流动来处理各种各样的信息的。
神经元由细胞体,树突,轴突构成。其他神经元的信号(输入信号)通过树突传递到细胞体(也就是神经元本体)中,细胞体把从其他多个神经元传递进来的输入信号进行合并加工,然后再通过轴突前端的突出传递给别的神经元。
1-3 神经元工作一般化
这里不再阐述神经元的工作流程,只给出最终简化的结,为了与生物学的神经元区分,我们将经过这样抽象的神经元称为神经单元(unit)
将神经元的示意图抽象化后,对于输入信号,我们也对其生物上的限制进行一般化。对应神经元的点火流程,我们也将其抽象为激活函数。
关于激活函数的代表例子是sigmoid函数,在后面进行详细讨论。
注意激活函数的2式,其中θ西塔称为阈值,在生物学上是表现神经元特性的值。若其值较大,则神经元不容易兴奋(感觉迟钝),若值较小则神经元容易兴奋(敏感)。由于西塔带负号,看起来不美观?将-θ替换为b,这个b被称为偏置(bias)。
另外,生物上的权重w1、w2、w3和阈值θ(=-b)都不是负数,因为负数在自然现象中实际上是不会出现的。然而,在将神经元一般化的神经单元中,是允许出现负数的?(为啥啊?)
1-4 什么是神经网络
既然大脑是由神经元构成的网络,若我们模仿创建神经单元的网络,是否也能产生某种智能?上节介绍了单个的神经元,我们将这样的神经元连接起来就组成神经网络。
网络的连接方式多种多样,本书将主要考察作为基础的阶层神经网络以及由其发展而来的卷积神经网络。
神经网络如下图所示,按照层(layer)划分神经单元。通过这些神经单元处理信号并输出层得到结果。
这个网络的各层称为输入层,隐藏层,输出层,其中隐藏层也被为中间层。
输入层负责读取给予神经网络的信息。属于这个层的神经单元没有输入箭头,他们是简单的神经元,只是将从数据得到的值原样输出。
隐藏层的神经单元执行前面所复习过的处理操作1和2,在神经网络中,这是实际处理信息的部分。
输出层与隐藏曾一样,不过会将结果输出。
这个简单的神经网络特征是,前一层的神经元与下一层的所有神经元都有箭头连接,这样的层构造称为全连接层。
其中输入层由12个神经单元构成,对此能够理解,因为神经网络一共需要读取12个像素信息。
输入层的神经单元输入输出是一样的。
输出层由2个神经单元构成,这是因为我们的题目是识别两种手写数字0和1,需要一个在读取手写数字0时输出较大值(即反应较大)的神经单元,以及一个在读取手写数字1时输出较大值得神经单元。
通过0或1来判断这个图像是否接近目标图像?
隐藏层具有提取输入图像得特征得作用。至于他是如何提取这不是一个简单得话题。
1-5 用恶魔来讲解神经网络的结构?
上一节提到了特征提取(feature extraction)的职责,现在来好好说说。
但是判断图片是否是0没有一个准确答案,这样如何解决识别的问题呢?
住在隐藏层的3个恶魔,从下层输入层的12手下获取得兴奋度信息,接着整合后,再输出给上层得恶魔。
后面的内容看不懂略
1-6 网络自学习的神经网络
这节介绍网络自学习,后补
2.神经网络的数学基础
需要掌握基础函数,比如一次函数,二次函数,单位阶跃函数(分段函数?),指数函数等等。
你需要了解一些向量的知识和矩阵基础。
你还需要一些导数基础,这和大数中的极限有关。
更进一步你得知道偏导数以及链式法则。
3.神经网络的最优化
后补
关于这本书的后续我感到目前无力继续下去,有很多细节缘由目前我还未从书中得知,我需要更多的前置知识。
-
待分类