神经网络
神经网络最早是作为一种主要的连接主义模型
- 20世纪80年代后期,最流行的一种连接主义模型是分布式并行处理(ParallelDistributed Processing,PDP) 网络,其有3个主要特性:
信息表示是分布式的 (非局部的);
记忆和知识是存储在单元之间的连接上;
通过逐渐改变单元之间的连接强度来学习新的知识
- 引入误差反向传播来改进其学习能力之后,神经网络也越来越多地应用在各种机器学习任务上。
生物神经元
单个神经细胞只有两种状态:兴奋和抑制
人工神经元
一个简单的线性模型
向量点乘 b偏置——帮助纠偏 参数(变量)是w和b(优化w和b)
全连接网络
神经元
神经网络是由一个个神经元构成的,例如在上面的例子中,第一层有三个神经元,第二层有一个神经元。这里我们先讲一进什么是神经元,神经元如下图所示:
公式——sigmoid()函数——二分类
f(x)是激活函数
激活函数的性质
连续并可导 (允许少数点上不可导) 的非线性函数
- 可导的激活函数可以直接利用数值优化的方法来学习网络参数
激活函数及其导函数要尽可能的简单
- 有利于提高网络计算效率。
激活函数的导函数的值域要在一个合适的区间内
- 不能太大也不能太小,否则会影响训练的效率和稳定性
单调递增
常见激活函数
超参:需要我们手动调节
1.tanh(x)函数
性质:
饱和函数
Tanh函数是零中心化的,而logistic函数的输出恒大于0
2. 常用ReLU(x)函数
3. Swish函数
4. 高斯误差线性单元(Gaussian Error Linear Unit,GELU)
GELU(x) = xP(X≤x )
其中P(Xx)是高斯分布N(u, 2)的累积分布函数,其中u,o为超参数,一般设u=0,=1即可
由于高斯分布的累积分布函数为S型函数,因此GELU可以用Tanh函数或Logistic函数来近似
人工神经网络
人工神经网络主要由大量的神经元以及它们之间的有向连接构成。
因此考虑三方面:
- 神经元的激活规则
- 主要是指神经元输入到输出之间的映射关系,一般为非线性函数
- 网络的拓扑结构
- 不同神经元之间的连接关系
- 学习算法
- 通过训练数据来学习神经网络的参数
网络结构
人工神经网络由神经元模型构成,人工神经网络由神经元模型构成,信息处理网络具有并行分布结构。
前馈网络:正向传播
前馈神经网络 (全连接神经网络、多层感知器)
- 各神经元分别属于不同的层,层内无连接。
- 相邻两层之间的神经元全部两两连接。
- 整个网络中无反馈,信号从输入层向输出层单向传播,可用一个有向无环图表示。
(层即x1 , x2…)
(即全连接)
前馈网络
向量、矩阵、张量要粗体表示
深层前馈神经网络
通用近似定理
根据通用近似定理,对于具有线性输出层和至少一个使用“挤压”性质的激活函数的隐藏层组成的前馈神经网络,只要其隐藏层神经元的数量足够,它可以以任意的精度来近似任何从一个定义在实数空间中的有界闭集函数。