关于两步聚类分析方法的理论和应用研究综述.doc

资源ID：2054922 资源大小：229.80KB 全文页数：5页
资源格式： DOC 下载积分：2元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要2元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

关于两步聚类分析方法的理论和应用研究综述.doc

关于两步聚类分析方法的理论和应用研究综述摘要：两步聚类分析方法是近年来才发展起来的聚类方法的一种，它主要用于处理解决海量数据，复杂类别结构时的聚类分析问题，尤其是连续变量和离散变量的混合数据。它分为两大步骤，包括预聚类和正式聚类。在实践中主要解决群体划分、用户或消费者行为细分等问题。但是目前在国内，由于该方法使用范围较小，且缺乏较为详细的介绍，本文就该方法的理论和应用方面作一具体的介绍。关键字：两步聚类分析方法分层聚类市场细分 BIC准则一、引言聚类分析是依照研究对象的个体特征，对其进行分类的多元统计分析方法。具体说来就是，将一批样本或变量的诸多特征按照在性质上的亲疏程度，在没有先验知识的情况下进行自动分类，产生多个分类结果。在聚类分析中，我们常用的聚类方法有快速聚类和层次聚类。其中层次聚类容易受到极值的影响，并且计算复杂速度慢不适合大样本聚类；快速聚类虽然速度快，但是其分类指标要求是定距变量，而实际研究中，有很多的定类变量，如性别、学历、职业、重复购买的可能性等多个与研究目的紧密相关的指标无法直接参与运算，而大大限制了它的使用范围。在此情况下，两步聚类法作为一种较为综合的聚类方法，并能解决上述问题，成为近几年比较常用的方法之一。法与其他传统的聚类技术有显著的区别，它拥有如下三个有利特征：1、能用于处理基于分类变量和连续变量的聚类问题；2、能自动选择聚类数；3、能高效处理大规模数据量的文件。二、基本原理两步聚类分析法采用似然距离度量来处理离散变量和连续变量。并且，模型中的每项连续变量都假设为正态分布状态，每项离散变量都假设为多项分布状态。在这种假定下，两步聚类按照两个步骤完成聚类。首先，通过构建和修改聚类特征树对记录进行初步归类；然后，对这些初步分类的结果再次进行聚类，由于此时的预聚类的数量要远远小于原始数据的数量，在这一阶段使用传统的聚类方法就可以处理了。其中，第一个步骤叫预聚类过程，它针对每一个记录，都要从根开始进入聚类特征数，并依照节点中条目信息的指引找到最接近的子节点，直到到达叶子节点为止。如果这一纪录与叶子节点中的距离小于临界值，那么它进入该子节点，并且子节点的聚类特征得到更新，反之，该纪录会重新生成一个新的叶子节点。如果这时子节点的数目已经大于指定的最大聚类数量，则聚类特征树会通过调整距离临界值的方式重新构建。当所有的记录通过上面的方式进入聚类特征树，预聚类过程也就结束了，子节点的数量就是预聚类数量。第二个步骤叫正式聚类过程，利用层次聚类方法对聚类特征树上的每个叶结点进行组合。采用层次聚类方法可以产生一组不同聚类数的聚类方案。然后，根据聚类准则，贝叶斯 (BIC)或者Akaike(AIC)准则来对各种聚类方案进行比较选择，选定最佳聚类方案。在这两个步骤中都采用了传统的距离测度的方法，主要有欧式距离和对数似然距离。欧氏距离主要针对连续变量，它的计算公式为：其中设第i和 j 个样品的观测值分别为，。对数似然距离能处理连续变量和离散变量，计算似然对数时连续变量需要满足正态分布，离散变量满足多项式分布，而且它假定变量之间彼此独立。它的计算公式为：其中， i，s分别表示分类i和分类s，表示分类i和分类s合并形成的类，j表示第j个观测样本，表示样本观测值中离散变量的类别，表示对应样本观测值中连续变量的方差的极大似然估计值，对应样本观测值中离散变量的属性值概率的极大似然估计值。在这个过程中，通过贝叶斯 (BIC)或者Akaike(AIC)准则，计算不同聚类类别的BIC或AIC的值，以及类间最短距离的变化，从而来选择最优的聚类类别数。一般来说，BIC值或AIC值越小表示该聚类模型越好，即相应聚类数越优。假设聚类数为k，则BIC和AIC的计算公式如下：其中，v表示第v个聚类类别，表示聚类过程中使用的连续变量的总数，表示聚类过程中使用的离散变量的总数，第k个离散变量的编号。三、实证研究为了更好地展示两步聚类分析方法在实际中的应用，特别是针对含有连续变量和离散变量的混合数据，我们搜集相关数据，来研究我国东部地区工业发展情况的类别划分、区域布局。数据来源于中经网统计数据库，选取的对象为北京市、天津市、河北省、辽宁省、上海市、江苏省、浙江省、福建省、山东省、广东省、广西壮族自治区等我国东部地区11个省、直辖市、自治区，选取指标为2008年这些地区的生产总值、工业企业单位数、工业总产值、工业企业资产合计、企业所有者权益、工业企业全部从业人员年平均人数等，考虑到两步聚类分析的条件(各个连续性变量间独立分布，分类变量问也为独立分布)，通过初步对这些指标的聚类和相关分析并结合专业知识，最后确定将工业企业单位数、工业总产值、工业企业资产合计、企业所有者权益、工业企业全部从业人员年平均人数等作为连续变量，将地区生产总值作为分类变量(又分为地区生产总值在一万亿以下、一万亿至两万亿、两万亿以上三类，这里选择一万亿、两万亿为界，主要是考虑到东部地区该指标的均数分布以及两步聚类模型达到最优的情况)进入模型进行智能聚类分析。数据的处理和分析在SPSS 17.0中完成。（1）最优聚类数。首先比较BIC或AIC计算的结果，确定最佳聚类。以BIC为例，结果见表1：表1 各种聚类结果的BIC值聚类数目BIC标准BIC变化BIC变化率距离测量比187.136273.173-13.9631.0004.081391.47518.302-1.3115.1364118.21026.735-1.9152.2245146.06827.858-1.9951.0636173.98027.912-1.9991.6877202.24328.263-2.0241.1228230.56228.319-2.0282.5359259.15728.595-2.0481.33010287.79728.639-2.0512.74611316.52228.725-2.057.一般来说，BIC值越小表示该聚类模型越好，即相应聚类数越优。BIC将随着聚类数的增加而持续减少，但是由此而来的聚类方案更优化所带来的额外价值却无法抵消由于聚类数的增加而带来的麻烦。在这种状况下，要权衡BIC的变化和距离测量的变化来决定最优的聚类方案。一个好的方案，BIC变化率（Ratio of BIC Changes）和距离测量比（Ratio of Distance Measures）的值都要求较大。从上面表1中，可以得到在本数据中，最佳方案是分2个类。(2)聚类结果和描述。表2 聚类分布表地区数占总体比例聚类类别 17 63.6% 2436.4%总计11100%聚类分布表（表2）显示了每个类的频度。结合各地GDP发展水平，将东部地区工业发展水平分为两类，其中归入第1类的地区有7个，分别是北京市、天津市、河北省、辽宁省、上海市、福建省、广西壮族自治区，归入第2类的地区有4个，分别是江苏省、山东省、浙江省、广东省。表3 连续变量的均值与方差聚类类别1聚类类别2总体工业企业单位数（个）均值12987.000054878.500028220.2727方差6413.671139722.3959522354.86194工业总产值（当年价格，亿元）均值16731.695759253.480032194.1627方差7620.1236712438.8896223270.19003工业企业资产合计（亿元）均值15268.952942211.840025066.3664方差6209.875005863.6475314772.66603企业所有者权益（亿元）均值6700.511417629.275010674.6073方差3034.343742903.292636201.24547工业企业全部从业人员年平均人数（万人）均值248.32141081.1725551.1764方差119.59516299.94966460.58211由表3可以看出每一类地区的五个连续型变量的平均值和标准方差，由此可以看出，第一类各个指标平均水平与第二类各个指标平均水平有明显差距。在spss输出结果中，还给出了每个连续变量均值的置信区间在两类之间的对比图，从中我们也可以比较每个变量在两个类别的均值分布情况。表4 离散变量在各类的频数统计一万亿以下一万亿至两万亿两万亿以上频数百分比频数百分比频数百分比聚类类别12100.0%5100.0%0.0%聚类类别20.0%0.0%4100.0%总体2100.0%5100.0%4100.0%由表4可以看出，聚类类别1由地区生产总值一万亿以下、一万亿至两万亿组成的，聚类类别2由两万亿以上组成的，由此可见，本文中两步聚类分析法很有效地对样本数据进行了聚类，所得2个聚类符合实际类别情况。（3）变量重要性。对于每一个聚类，SPSS都可以列出各项变量对该聚类重要性的图表（如下图1），各项变量沿Y轴以重要性递减排列。图1 两类的属性重要性图1左边是聚类类别1的变量重要性图，可以看出工业企业全部从业人数是最重要的，右边是聚类类别2的变量重要性图，可以看出工业企业资产合计是最重要的。这些变量有的指向正方向（在t统计量的度量下），有的指向负方向。指向负方向意味着它小于平均数，指向正方向意味着它大于平均数。通过上面的分析，我们可知东部地区中江苏省、山东省、浙江省、广东省作为地区生产总值较高的四个省份，同时工业发展情况也不错，是名副其实的“工业大省”，其他地区由于其自身经济发展水平、地理位置、行政职责、发展定位等各方面原因，在工业发展方面落后于上述地区。对于这些地区来说，根据其未来发展规划，可以为其战略调整做出借鉴。通过对上面对两步聚类分析法理论与实证研究的综述，我们可以看出，该聚类方法依附于传统的聚类方法的基础上，进行了拓展，在解决含有连续变量和离散变量的混合数据上具有很大的优势，并通过结合离散变量变现出来的研究对象的属性，定性与定量分析更好地对研究对象进行分类，克服了传统聚类方法仅仅从数据上进行分类的不足。随着近几年的发展，在市场细分、用户定位、区域研究等方面上得到了充分的应用。另外，通过判定AIC或者BIC的大小和类别之间最短距离的变化情况，两步聚类能够提供最优的类别数，克服了以往聚类类别确定缺乏合适的检验标准，往往只能依靠研究人员的经验和关键指标在不同类别上的显著性检验来确定的不足。参考文献：1. 张文颖施久玉基于聚类分析的当代大学生学习心理研究期刊论文-黑龙江高教研究 2009(4)2. 黄钟颖两步聚类分析法在汽车市场研究中的应用期刊论文-综合管理2008(9)3. 何寒青朱敏洁缪凡童峰苏理陈坤浙江省医疗资源分布状况的聚类分析研究期刊论文- 中华医院管理杂志 2006(3)4. 方茜基于结合分析结果的消费者细分期刊论文-市场研究 2005(7) 5. 黄国安两步聚类（Two-Step Cluster）在市场细分领域的尝试 http:/blog.sina.com.cn/s/blog_573818be0100h2c3.html6. 吴喜之统计学：从数据到结论（第2版）中国统计出版社 2006年7. 于秀林任雪松多元统计分析中国统计出版社 1998年

注意事项

本文（关于两步聚类分析方法的理论和应用研究综述.doc）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。