第三章前馈型神经网络模型.ppt
《第三章前馈型神经网络模型.ppt》由会员分享,可在线阅读,更多相关《第三章前馈型神经网络模型.ppt(90页珍藏版)》请在三一文库上搜索。
1、第三章 前馈型神经网络模型,87,2,第三章 前馈型神经网络模型,3.1 感知器(Perception) 3.2 多层前馈型神经网络 3.3 误差逆传播算法(BP算法) 3.4 误差逆传播算法(BP算法)的若干改进 3.5 使用遗传算法(GA)训练前馈型神经网络方法 3.6 前馈型神经网络结构设计方法,87,3,3.7 基于算法的前馈型神经网络在识别问题中的应用 3.8 自适应线性元件 3.9 径向基函数神经网络,87,4,3.1 感知器(Perception),3.1.1 单层感知器 3.1.2 感知器的收敛定理 3.1.3 多层感知器网络 3.1.4 感知器用于分类问题的算例,87,5,3
2、.1.1 单层感知器,一、单层感知器网络 单层感知器神经网络,输入向量为X=(X1,X2,Xm),输出向量为Y=(Y1,Y2,Yn)。 感知器的输入向量为XRn, 权值向量为WRn单元的输出为Y1,-1。其中: 其中,X= (X,-1),W= (W,)。,87,6,w21,wmj,w22,wmn,w12,w11,xm,x1,x2,w1n,w2m,wmj,wij,w2j,w1j,yj,xi,x1,x2,xm,图3.1 单层感知器网络 图3.2 最简单的感知器,wm1,87,7,二、单层感知器的学习算法 令Wn+1=, Xn+1=-1, 则, 具体算法如下: 初始化 给Wi(0)各赋一个较小的随机
3、非零值。这里Wi(t)为t时刻第i个输入的权值(1in),Wn+1(t)为t时刻的阈值。 输入样本X=(X1,X2,Xn,T),T 称为教师信号,在两类样本分类中,如果XA类,则T=1;如果XB类,则T=-1。,87,8,计算实际输出 修正权值 Wi(t+1)= Wi(t)+(T-Y(t)Xi i=(1,2,n,n+1) 其中,01用于控制修正速度,通常不能太大,会影响Wi(t)的稳定,也不能太小,会使Wi(t)的收敛速度太慢。 转到直到W对一切样本均稳定不变为止。 用单层感知器可实现部分逻辑函数,如: X1X2: Y=1X1+1X2-2 即W1=W2=1,=2 X1X2: Y=1X1+1X2
4、-0.5 即W1=W2=1,=0.5 : Y=(-1)X1+0.5 即W1=-1,=-0.5,87,9,三、单层感知器的局限性 异或逻辑为 ,假定单层感知器能实现异或逻辑,那么,Y=W1X1+W2X2-,要求: 表 3.1 异或逻辑,87,10,W1+W2- 0+W2-0W2 (a) XOR 逻辑 (b)AND逻辑 (c) OR逻辑 图 3.3 线性可分性,(1,0),(1,0),87,11,3.1.2 感知器的收敛定理,一、线性可分函数 对给定的X和Y,存在W和和线性映像函数f ,使得: f:Rn 1,-1, XRn, 则称 f为线性可分函数。 所谓的线性可分是指存在一个超平面(二 维为一条
5、直线)能将两类样本分开。 对于上面的异或逻辑可用一个平面将其输出类别分开。平面方程为: X1W1+X2W2+X3W3=, X1W1+X2W2+(X1X2)W3=。,87,12,表3.2 三维异或逻辑,87,13,图 3.4 异或问题的三维表示,87,14,87,15,二、定理3.1 感知器收敛定理 若函数f是线性可分的,则感知器的学习算法在有限次叠代后收敛。为证明此定理,先做一些简化。 (1)令Xk=1(即学习样本都是单位向量); (2)若Yk0(因f是线性可分的); 这样,要证明上述定理只要证明以下的结论即可。,87,16,因为k个样本是线性可分的,若存在一个W*,对所有的样本k使得W*Xk
6、 都成立,0。则下面步骤中的第步仅需有限次。 置t=1,选初值W(t)为不等于0的值; 任选k1,N,置X(t)=Xk; 若W(t)X(t)0 返回,否则 令W(t+1)=W(t)+X(t),t=t+1, 返回。,87,17,证明 : C(t)表示向量W(t)与W*间夹角余弦,即 W*W(t+1)=W*W(t)+X(t)=W*W(t)+W*X(t)W*W(t)+ W*W(t)t W(t+1)2=W(t)2+2W(t)X(t)+X(t)2W(t)2+1 W(t)2t , C(t)1, 为一有限数。 证毕。,87,18,3.1.3 多层感知器网络,一、多层感知器网络 两个隐层感知器的输入层有n个节
7、点,第一隐层有n1个节点,第二隐层有n2个节点,各层节点的输出为: (j=1,2,n1) (k=1,2,n2),87,19,(A) 两个隐层的感知器 图3.5 多层感知器网络,87,20,二、多层感知器的分类决策能力 定理 3.2 假定隐层的节点可以根据需要自由设置,那么用三层的阈值网络可以实现任意的二值逻辑函数。 图3.5(B)中输出层节点的输出为: 此时隐层与n个输入节点的关系如同单层感知器一样,可以形成n1个n维空间的超平面把n维输入空间分成一些小的子空间。例如,n=2,n1=3的情况下,隐层第j个节点的输出为: (j=1,2,3),87,21,(B) 一个隐层的感知器 图3.5 多层感
8、知器网络,87,22,可以在二维输入空间上决定三条直线,因为各自的Wij和j不同,三条直线的截距和斜率各不相同,如同3.6(A)所示,就可以找到一个区域使其内为A类,之外为B类,用这三个隐单元所得到的一个封闭区域就可满足条件。从隐单元到输出层只要满足下式即可得到正确划分。 十分明显,隐节点到输出节点之间为“与”关系。对于图3.6(B),可以采用有两个隐层的感知器来实现,其中第二隐层节点到输出层节点为“或”关系,即满足下式即可。,87,23,Y2=(X1,X2)(W11X1+W21 X2 -1)0(W12 X1+ W22 X2- 2)0(W13 X1+W23 X2-3)0 Y3=(X1,X2)Y
9、12Y22 3 6 =(X1,X2)(W1jX1+W2j X2 -j )0)(W1j X1 j=1 j=4 +W2j X2- j )0),87,24,(A) (B) 图3.6 多层感知器对输入空间的划分,87,25,Y11=1X1+1 X2-1 Y21=(-1) X1+(-1) X2-(-1.5) Y2=1 Y11+1 Y21-2 图 3.7 解决异或问题的三层感知器,87,26,图3.8 单层与多层感知器的决策分类能力,87,27,3.1.4 感知器用于分类问题的算例,感知器的结构见图 3.9所示。 图3.9 感知器结构,87,28,其中,u = W1X1+W2X2,在此特选定输出单元为非线
10、性函数,其输出为: 输入模式为:(0.5, 0.05)、(0.05, 0.5) A类 (0.95,0.5)、(0.5,0.95) B类 教师信号为:,87,29,W1(t+1)=W1(t)+(T-Y)X1 W2(t+1)=W2(t)+(T-Y)X2 (t+1)=(t)+(T-Y) 总的误差之和为 :,87,30,87,31,表 3.3 (a) 表 3.3 (b),87,32,87,33,3.2 多层前馈型神经网络,3.2.1 网络结构及工作过程 3.2.2 误差函数与误差曲面 3.2.3 网络的学习规则梯度下降算法,87,34,3.2.1 网络结构及工作过程,一、学习样本 输入样本为:(XK
11、,TK),其中K1,2,N,N为学习样本数,XKRn,TKRm。 二、工作过程,87,35,图 3.12 前馈型神经网络结构,87,36,三、非线性单元常采用的转移函数,87,37,(0 f(x) 1) 通常增加参数和来调整函数的斜率和使其左右平移, Sigmoid函数为一单调递增连续函数,且处处可导,其导数为:,87,38,Sigmoid函数通过下式能够映射到(-1,1)范围: 双曲正切函数的表达式为: ( -1 f(x) 1 ) 通常增加参数和来调整函数的斜率和使其左右平移,,87,39,表3.4 新的转移函数极其导数,87,40,3.2.2误差函数与误差曲面,一、误差函数 误差函数: E
12、 (W) =g ( f ( W, XK, TK ) ),K=1,2,N,E称为误差(测度)函数。即网络的实际输出向量YK与教师信号向量TK的误差用误差函数来判别,常采用二乘误差函数加以判别,其中,N为输入样本的个数,m为输出向量的维数。,87,41,二、映射 对于给定的一组数据(XK , TK) , (K=1,2,N)网络一组特定的权值W实现一定精度的映射。训练的目的希望得到的权值能产生最小的误差和最好的精度。把从XkRn到YkRm的映射记为: f: XkRn YkRm,87,42,三、误差曲面 误差曲面:若隐层与输出层间的权值数记为mn2,对于给定的训练样本(XK,TK),网络权矢量W(W1
13、,W2,.,W mn2)通过误差函数E(W)所计算出来的映射误差所描绘出来曲面。误差曲面可用(mn2+1)维空间来描述,即是mn2+1空间的一个曲面。不同的E (W)有不同的误差曲面形状。 网络学习:是指按照某种学习规则选取新的W,使得E(W)E(W),对于误差曲面上的点E(W)总是向山下移动,最终移到最深的谷底(全局最小)。若曲面有多个谷底,移动的过程可能陷入局部极小。,87,43,移动步长:也称学习率,步长小移动轨迹较平滑,慢,易陷入局部极小;步长大,速度快,可能跳过局部极小,也可能跳过全局最小点,也易产生振荡。一般情况下,开始时步长大,后期步长小。 梯度下降算法:如果移动是在误差曲面最陡
14、的方向进行,或梯度下降的方向,这样下山的速度快,称做最速梯度下降法。,87,44,3.2.3网络的学习规则梯度下降算法,权值的修正量取误差函数E(W)对W的负梯度,即: 设有N个学习样本(XK, TK), K=(1,2,N), 对于某个XK网络输出为YK,节点i的输出为YiK,i和j的连接权值为Wij,节点j的输入加权和为:,87,45,误差函数使用二乘误差函数: 定义:,87,46,1当j为输出节点时: 2若j不是输出节点时,有:,87,47,因而对权值的修正为:,87,48,3.3 误差逆传播算法(BP算法),3.3.1 BP算法的数学描述 3.3.2 BP算法收敛性定理,87,49,3.
15、3.1 BP算法的数学描述,一、首先,确定和选择网络结构,包括确定输入层和输出层的节点数,选择隐层数和各隐层内的节点数。确定节点的转移函数、误差函数类型和选择各个可调参数值。 神经元的转移函数选择为Sigmoid函数: 误差函数为二乘误差函数:,87,50,Yi1为输入层节点i的输出; Yj2为中间层节点j的输出; Yk3为输出层节点k的输出; Tk为输出层节点k对应的教 师信号; Wij为节点i和节点j间的连 接权值; Wjk为节点j和节点k间的连 接权值; j 为中间层节点j的阈值; k 为输出层节点k的阈值; 图 3.14 一个三层的前向神经网络,87,51,二、初始化 设定学习次数t=
16、0;对网络权值和阈值赋于小的随机数,Wij(t)-1,1、Wjk(t)-1,1,j(t)-1,1, k(t)-1,1。 (一) 前向计算 输入一个学习样本(XK,TK),其中K1,2,N、N为样本数,XKRn,TKRm 。 计算隐层各节点的输出值: j1,2,n1,87,52,计算输出层节点的输出: k1,2,m (二) 逆向误差修正计算: 输出层节点和隐层节点之间连接权值修正量的计算: k1,2,m 隐层节点和输入层节点间连接权值修正量的计算: 用求出的误差修正量k来修正输出层和隐层间连接权值矩阵Wjk和阈值向量k。例如对节点k和隐层j的连接权值Wjk和节点k的阈值的修正为:,87,53,用
17、求出的误差修正量j来修正隐层和输入层间连接权值矩阵Wij和阈值向量j。例如隐层j和输入层节点i的连接权值Wij和节点j的阈值的修正为: 如果全部学习样本未取完,则返,否则, 计算误差函数E,并判断E是否小于规定的误差上限,如果E小于误差上限,则算法结束;否则,如果学习次数到算法结束;否则更新学习次数t = t+1,返回。,87,54,W和的初始化,取一学习样本做为输入信号,中间层节点输出的计算,输出层节点输出的计算,输出层节点误差的计算,中间层节点误差的计算,中间层和输出层间权值的更新,输出层节点阈值更新,输入层和中间层间权值的更新,中间层节点阈值更新,全部学习样本取完?,学习次数达到?,误差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 章前馈型 神经网络 模型
链接地址:https://www.31doc.com/p-3138758.html