逐步判别分析.docx

资源ID：6112991 资源大小：50.51KB 全文页数：12页
资源格式： DOCX 下载积分：4元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要4元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

逐步判别分析.docx

.逐步判别分析一、逐步判别分析的基本思想在判别问题中，当判别变量个数较多时，如果不加选择地一概采用来建立判别函数，不仅计算量大，还由于变量之间的相关性，可能使求解逆矩阵的计算精度下降，建立的判别函数不稳定。因此适当地筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别分析方法就统称为逐步判别法。逐步判别法和通常的判别分析一样，也有许多不同的原则，从而产生各种方法。这里讨论的逐步判别分析方法是在多组判别分析基础上发展起来的一种方法，判别准则为贝叶斯判别函数，其基本思路类似于逐步回归分析，采用“有进有出”的算法，即按照变量是否重要，从而逐步引入变量，每引入一个“最重要”的变量进入判别式，同时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了（例如其作用被后引入地某几个变量的组合所代替），应及时从判别式中把它剔除，直到判别式中没有不重要的变量需要剔除，剩下来的变量也没有重要的变量可引入判别式时，逐步筛选结束。也就是说每步引入或剔除变量，都作相应的统计检验，使最后的贝叶斯判别函数仅保留“重要”的变量。二、逐步判别的基础理论对判别变量附加信息的检验根据逐步判别分析的基本思想，进行判别分析需要解决两个关键的问题，一个是引入或剔除判别变量的依据和检验问题；另外则是判别函数的及时导出的问题。其中的理论基础又在于如何对判别变量在区别各个总体中是否提供附加信息的检验。为此这里先给出如何对判别变量在区别各个总体中是否提供附加信息进行检验的基础理论。设有 m 个总体， G1, G2Gm ，相应抽出样品个数为n1 , n2nm (n1 n2nm )n每个样品观测 p 个指标得观测数据如下，x11 1x12 1x1p1第 1个总体的样本数据为：x21 1x22 1x2 p1xn11 1xn1 2 1xn1 p 1.x112x122x1 p 2x212x222x2 p 2第 2个总体的样本数据为：xn 1 2xn2 2xnp 2222x11mx12mx1 p mx21mx22mx2 p m第 m 个总体的样本数据为：xnp 1 m xnp 2 mxnp p m和多组判别分析一样，假定各组的样品都是相互独立的正态随机向量，各组的协方差矩阵都一样，即（）（）（）（xk1，xk2 ，xkp ） N（，），；k，n1 2m1 2（）组第 k 个样品的第j 个变量，其中， xkj 为为组的均值向量，为协方差矩阵。再令全部样品的总均值向量为：X(x1 , x2 ,x p )各个总体的样品的均值向量为：X(x1 ( ), x2 ( ), xp ( )1,2, m于是，样品的组内离差阵为：mnW( xi ( ) X ( ) (xi ( ) X ( )1i 1样品的总离差阵为：mnT( xi ( ) X ) ( xi ( ) X )1i 1为了对这 m 个总体建立判别函数，需要检验：H 0：（1）（2）（m）当 H 0 被接受时，说明区分这m 个总体是没有什么意义的，在此基础上建立的判别函数.效果不好。当H 0 被否定时，说明m 个总体可以区分，建立的判别函数有意义。但是为了达到区分这m 个总体的目的，原来选择的p 个指标是否可以减少而达到同样的判别效果，为此，也就要去掉一些对区分m 个总体不带附加信息的变量。对于上述问题的检验，可以采用维尔克斯统计量(Wilks)来进行：WT而1的极限分布是服从于大样本的2 p（ m1）。n （ p m） 1 ln2为了进一步考虑这一问题，把p 个变量分解为两个部分，如果通过某种步骤已经选中了 p 1个变量，我们要检验增加第p 个变量后对区分总体是否提供了附加信息，即对第 p个变量的“判别能力”进行检验。为此，将矩阵W 、 T 进行分块：P 11Wp1 W11 W121 W21 W22P 11Tp1 T11T121 T21T22于是前 p1 个变量的维尔克斯统计量(Wilks)p1 为W11p1T11当增加第 p 个变量后， p 个变量的维尔克斯统计量(Wilks)p 为，W11W12WW21W22pT11T12TT21T22W11 ? W22W21W111W12T11 ? T221T21T11T12W22W21W111W12p 1 ?T21T111T22T12所以有，.T22T21T111p1T12pW22W21W111W12即p 1T22T21T111T12W22W21W111W1211pW22W21W11W12统计量Fp 1n（p）m（1F（ m1）， n （ p1） m）。用1m）的极限分布是p1此 F 统计量来检验给定前p1 个变量的条件下，增加第 p 个变量的条件均值是否相等，即是否对区分总体提供附加信息。三、引入和剔除变量的依据和检验统计量在上述理论基础上，下面给出，判别分析中引入变量和剔除变量的依据和检验方法。（ 1）假定我们已经计算了l 步，并且已经引入了x1, x2 ,xl ，现对第 l1步添加一个新变量 xr 的“判别能力” 进行检验，为此将变量分为两组，第一组是前l 个已经引入的变量，第二组仅有一个变量xr ，将这 l1个变量的组内离差阵和总离差阵仍分别记为W 与 T 。ll1WW 11W 121 W21W22WW11wrr (l )其中， wrrlW22W21 W111W12WrrWr1W111W1rll1T 11T 12T1 T21T22TT11t rr (l )其中， trrlT22T21 T111T12 TrrTr 1T111T1r所以维尔克斯统计量WW11（ l）（）wrrwrrll 1T11（ l）l （l）Ttrrt rr.令 Vrwrr l，有t rrll 111VrVrl由附加信息检验准则，则引入变量的依据是Vr，引入变量的检验统计量为1 Vrn l m t rrlwrr l n l mF1rm1wrrlm 1Vr它服从于分布 F m 1, n lm 。在未选入变量中，选择使Vr 达到最小值的变量xr ，当 F1r F m 1, n lm 时，则认为变量 xr 提供了附加信息，即xr 的判别能力显著，由此将xr 作为入选变量 xl 1 。对已入选的 l 个变量中，要考虑较早选入的变量中其重要性有没有较大变化，应及时把不能提供附加信息的变量剔除，剔除的原则同于引进变量。(2) 如果第 l1步是剔除变量 xr1 rl，第 l1 步剔除变量 xr 的能力等价于第l 步wrr l1trrl引入 xr 的判别能力，令， Vr1w rrlt rr l则相应的剔除变量的依据是Vr ，剔除变量的检验统计量为1Vrn(l1)mwrr l trr l n(l1)mF2 rVrm1trr lm1它服从于分布F m1, n(l1)m。如果对于某个变量xr1r l，使得在已经入选的变量中的Vr 具有最大值，并且满足 F2 r F m1, n( l1)m ，则认为变量xr 不能提供附加信息了，即xr 的判别能力不显著，由此应该将xr从入选变量中剔除。四、求解判别函数中的矩阵变换为求判别函数，逐步判别在计算上采用的是“求解求逆紧凑变换法”将变量逐步引入或剔除，每引入或剔除一个变量称为逐步判别的一步。设初始的组内离差矩阵为（wij 0 ），初始的总的离差矩阵为（tij0 ），从它们开始，每.步施行一次变换，假如已经进行了l 步，引入了 l 个变量，则第l1 步无论是引入还是剔除变量 xr ，都要进行如下的变化：w（ijl1）t（ijl1）（l ）wij，ir，jr（l）wrr（l），（l ）（ l） wrj，irjrwijwir（l）wrr1，ir，j rw（rrl）（ l），wirirjrw（rrl）（ l），t ijirjrt（rrl）（l）t（ij l） t（irl）? t rj（l ）， ir ， jrt rr1，ir，jrt（rrl ）（l），t irirjrt（rrl）逐步判别过程，就是不断的引入和剔除变量的过程，可以证明，前三步都只引入，而不必考虑剔除，在以后的各步中则首先考虑剔除，如果不能剔除则再考虑引入，当既不能剔除又不能引入时，逐步计算的过程即告终止，将已选中的变量建立判别函数。五、建立判别式，对样品判别分类假设最终引入了l 个变量，并得到最终变换矩阵wij l，则第 k 组的判别函数为：fkln qkckockj x jjk1,2,m; j已入选变量。其中，式中的qk 为第 k 组的先验概率，一般采用样品频率代替，ckjn mwij l xkiik1,2,m; i已入选变量。ck01cki xki2ik1,2,m; i已入选变量.xki 为第 k 组第 i 个变量的均值。将每个样品 x （ x1，， x p）（可以是新样品也可以是原来的样品）分别代入k 个判别式中，若 y hmax y（ gx），则 x 属于第 h 个总体。并且，此时的后验概率的计算和x1 g m贝叶斯多组判别分析时一样。另外，为了对已经引入的L 个变量对于区分 m 个组的能力进行综合检验，可采用不Bartlett 给出的2 分布近似统计量2 ( L(m1)( n1( Lm) / 2) ln V其中 V 为 Wilks 统计量：Vwr(0 )?wr(1)01( 0)(1)tr0t r1r0 , r1rl 1 为逐次引入或剔除的变量序号。wr(ll 11)(l1)tr (l1).

注意事项

本文（逐步判别分析.docx）为本站会员（罗晋）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。