欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载  

    多元统计分析聚类分析.ppt

    • 资源ID:2488474       资源大小:1.32MB        全文页数:107页
    • 资源格式: PPT        下载积分:10
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要10
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析聚类分析.ppt

    Cluster Analysis,第五章聚类分析,第一节 什么是聚类分析,聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比,该方法理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,应用方面取得了很大成功。,举 例,对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。,应聘者得分如下,例如,对上市公司的经营业绩进行分类; 例如,根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。 例如,当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。,聚类分析内容,系统聚类 动态聚类 模糊聚类 图论聚类,第二节距离和相似系数,描述亲疏程度有两个途径: 1、把每个样品看成p维(变量的个数为 p个)空间的一个点,在p维坐标中, 定义点与点之间的距离。 2、用某种相似系数来描述样品之间的亲 疏程度。,变量的类型,变量按测量尺度的不同可以分为以下三类: 1、间隔尺度变量(数值型变量) 用连续的数量来度量,如长度、重量、产值、成本 2、有序尺度变量(有序变量)如一、二、三等品 不能用明确的数量度量,用等级表示,有次序关系。 3、名义尺度变量 用一些类来表示。性别中的男与女,职业的分类。,聚类的种类,根据分类的对象可将聚类分析分为: (1)Q型(即样品的聚类clustering for individuals) (2)R型(即变量或指标的聚类clustering for variables),1、对样品分类(Q型) 常用的距离与相似系数的定义,样本资料矩阵,样本资料矩阵,(1)距离,假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij,定义距离的准则,定义第i个和第j个样品间的距离要求满足如下四个条件(距离可以自己定义,只要满足距离的条件):,距离矩阵,样品间距离矩阵,明氏(Minkowski )距离,绝对值距离,绝对值距离实例,欧式(Euclidian )距离,二维空间欧式距离,欧氏Euclidian距离实例,切比雪夫距离,变量标准化,标准化欧式距离,马氏Mahalanobis 距离,Mahalanobis 距离实例,兰氏 Canberra距离,距离矩阵,样品间距离矩阵,例 题,学生的身高与体重资料,(2)相似系数,研究样品间的关系常用距离,研究指标(变量)间的关系常用相似系数。 相似系数常用的有:夹角余弦与相关系数,2、对指标(变量)分类(R型),相似系数的定义,夹角余弦(Cosine),相似矩阵,变量间相似矩阵,相关系数,相似矩阵,第三节 八种系统聚类方法 (hierarchical clustering method),将n个样品各作为一类,系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:,计算n个样品两两之间的距离,构成距离矩阵,合并距离最近的两类为一新类,计算新类与当前各类的距离。再合并、计算,直至只有一类为止,画聚类图,解释,类与类之间的距离,1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method) 4.重心法(centroid method) 5.类平均法(average linkage) 6.可变类平均法(flexible-beta method) 7.可变法 8.离差平方和法(Ward's minimum- variance method),(一)最短距离法 (single linkage,nearest neighbor),类类间:两类间两两 样品距离最短,递推公式,例1,设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离),D(0),表1,D(1),表2,D(2),表3,D(3),表4,聚类谱系图,最短距离法聚类的步骤,1、定义样品之间的距离,计算初始距离矩阵D(0) 2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的两类Gp和Gq合并成一个新类,记为Gr ,即Gr=(Gp, Gq) 3、计算新类与其它类之间的距离,得距离矩阵D(1) 。 4、用D(1)代替D(0),重复2、3的过程得D(2),如此下去直到所有样品合并成一类为止。,(二)最长距离法,(Furthest Neighbor ),类类间:两类间两两样品距离最长的,递推公式,D(0),表1,D(1),表2,D(2),表3,D(3),表4,(三)中间距离法Median method,最短距离,最长距离,中间距离,如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新Gr的距离公式为: 当 时,由初等几何知就是上面三角形的中线。,(四)重心法,(Centroid clustering):,类类间:两类重心之间的距离即均值点间的距离,递推公式,注意:初始距离用欧式距离则有下列,(五)类平均法 (Between-group Linkage), , ,类类间:两类之间的距离为两类样品两两之间的平均距离,递推公式,(六)可变类平均法,类平均法的递推公式中,没有反映Gp类和Gq类的距离有多大,进一步将其改进,加入D2Pq,并给定系数1,则类平均法的递推公式改为:,一般取,(七)可变法,如果让中间距离法的递推公式前两项的系数也依赖于,则递推公式为:,(八)离差平方和法(ward法),可以证明离差平方和的聚类公式为,离差平方和法(ward法),例1 :为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标: (1)大学以上文化程度人口占全部人口的比例(DXBZ); (2)初中文化程度的人口占全部人口的比(CZBZ); (3)文盲半文盲人口占全部人口的比例(WMBZ)、 用来反映较高、中等、较低文化程度人口的状况,原始数据如下表:,1990年全国人口普查文化程度人口比例(%),第一类:北京、天津、山西、辽宁、吉林、黑龙江、 上海。 其中大多是东部经济、文化较发达的地区。 第二类:安徽、宁夏、青海、甘肃、云南、贵州 其中大多数是西部经济、文化发展较慢的地区。 第三类:西藏。经济、文化较落后的地区。 第四类:其它省、直辖市、自治区。 经济、文化在全国处于中等水平。,根据聚类图把30个样品分为四类能更好地反映我国实际情况。,例2:根据美国等20个国家和地区的信息基础设施 的发展状况进行分类。 Call每千人拥有的电话线数; move l每千人户居民拥有的蜂窝移动电话数; fee高峰时期每三分钟国际电话的成本; comp每千人拥有的计算机数; mips每千人计算机功率(每秒百万指令); net每千人互联网络户主数。,表3-4 20个国家信息基础设施指标资料,本例聚为2类: 第一类: 巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、 马来西亚。 这些国家为转型国家和亚洲、拉美发展中国家,经济较不发达,基础设施薄弱,属于信息基础设施比较落后的国家。 第二类: 瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、 新加坡、英国、瑞士。 这些国家为美、日、欧洲发达国家与新兴工业化国家中国台湾、新加坡、韩国。新兴工业化国家近几十年来发展迅速,努力赶超发达国家,在信息基础设施的发展上已非常接近发达国家,发达国家中的美国、瑞典、丹麦的信息基础设施发展最为良好。,第四节 系统聚类的基本性质,1、单调性 设Dk是系统聚类法中第K次并类时的距离,如果 D1 D2 ,则称并类距离具有单调性。 可以证明除了中间距离法和重心法之外,其他的系统聚类法均满足单调性的条件。,2、空间的浓缩或扩张 两个同阶矩阵D(A)和D(B),如果D(A)的每一个元素不小于D(B)的相应元素,则记为 D(A)D(B)。 若有两种系统聚类法A和B,在第K步的距离矩阵记为 D(AK)和D(BK), 若有D(AK) D(BK)对所有K,则称A比B使空间扩张或B比A使空间浓缩。,最短距离法,最长距离法,最短距离法,最长距离法,最长距离法,最短距离法,最长距离法,最短距离法,D(短) D(平), D(重) D(平); D(长) D(平); 当 , D(变平) D(平); 当 , D(变平) D(平)。 D(离) D(平),确定类的个数,在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。,1、给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。,总离差平方和的分解(准备知识),如果这些样品被分成两类,可以证明: 总离差平方和 组内离差平方和组间离差平方和 令T为总离差平方和 令PG为分为G类的组内离差平方和,2、统计量 其中T是数据的总离差平方和, 是组内离差平方和。 比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的G,使得 足够大,而G本生很小,随着G的增加, 的增幅不大。比如,假定分4类时, =0.8;下一次合并分三类时,下降了许多, =0.32,则分4 类是合适的。,3、伪F统计量的定义为 伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。,4、伪 统计量的定义为 其中 和 分别是的类内离差平方和, 是将K和L合并为第M类的离差平方和 = - - 为合并导致的类内离差平方和的增量。用它 评价合并第K和L类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。,

    注意事项

    本文(多元统计分析聚类分析.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开