欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载  

    PCA类在降维和数据重构的简单用法.doc

    • 资源ID:3269223       资源大小:20KB        全文页数:4页
    • 资源格式: DOC        下载积分:2
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要2
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    PCA类在降维和数据重构的简单用法.doc

    PCA类在降维和数据重构的简单用法前言前两篇文章介绍了PCA(主成分分析方法)和SVD(奇异值分解)的算法原理,本文基于scikit learn包介绍了PCA算法在降维和数据重构的应用,并分析了PCA类与sparsePCA类的区别。由于PCA算法的特征值分解是奇异值分解SVD的一个特例,因此sklearn工具的PCA库是基于SVD实现的。本文内容代码链接:https:/github/zhangleiszu/machineLearning/tree/master/PCA目录1. PCA类介绍2. sklearn.decomposition.PCA的参数说明3. sklearn.decomposition.MiniBatchSparsePCA的参数说明4. PCA类在降维的应用5. PCA类与MiniBatchSparsePCA类的区别6. PCA在数据重构的应用7. 总结1. PCA类介绍所有PCA类都在sklearn.decompostion包中,主要有以下几类:1) sklearn.decompostion.PCA:实际项目中用的最多的PCA类;2) sklearn.decompostion.IncrementPCA:PCA最大的缺点是只支持批处理,也就是说所有数据都必须在主内存空间计算,IncrementalPCA使用多个batch,然后依次调用partial_fit函数,降维结果与PCA类基本一致 。3) sklearn.decomposition.SparsePCA和sklearn.decomposition.MiniBatchSparsePCA:SparsePCA类和MiniBatchSparsePCA类算法原理一样,都是把降维问题用转换为回归问题,并在优化参数时增加了正则化项(L1惩罚项),不同点是MiniBatchSparsePCA使用部分样本特征并迭代设置的次数进行PCA降维 。4) sklearn.decomposition.KernelPCA:对于线性不可分的特征,我们需要对特征进行核函数映射为高维空间,然后进行PCA降维 。流程图如下:2. sklearn.decomposition.PCA类的参数说明1) n_components:取值为:整形,浮点型,None或字符串 。n_components为空时,取样本数和特征数的最小值:n_components = min(n_samples , n_features)0 ten:布尔型变量 。若为True,表示对降维后的变量进行归一化;若为False,则不进行归一化 ,默认值为False。4) svd_solver:字符串变量,取值为:auto,full,arpack,randomizedrandomized:如果训练数据大于500×500,降维后的维数小于数据的最小维数0.8倍,采用加快SVD的随机算法 。full:传统意义上的SVD算法,调用scipy.linalg.svd类。arpack:调用scipy.sparse.linalg.svds类,降维后的维数符合:0 ained_variance_:向量空间对应的方差值 。explained_variance_ratio_:向量空间的方差值占总方差值的百分比 。singular_values:向量空间对应的奇异值 。3.sklearn.decomposition.MiniBatchSparsePCA的参数说明本节就介绍两个常用的重要变量,用法与PCA类基本相同。n_components:降维后的维数alpha:正则化参数,值越高,主成分分量越稀疏(分量包含0的个数越多)。4. PCA类在降维的应用Iris数据集包含了三种花(Setosa,Versicolour和Virginica),特征个数为4。下载Iris数据集:iris = datasets.load_iris()X = iris.datay = iris.target设置降维后的维数为2:pca = PCA(n_components=2)降维后的数据集:X_r = pca.fit(X).transform(X)降维后的特征分布图:5. PCA类与MiniBatchSparsePCA类的区别PCA类主成分分量是非零系数构成的,导致了PCA降维的解释性很差,若主成分分量包含了很多零系数,那么主成分分量可以将很多非主要成分的影响降维0,不仅增强了降维的解释性,也降低了噪声的影响 ,缺点是可能丢失了训练数据的重要信息。MiniBatchSparsePCA与PCA类的区别是使用了L1正则化项,导致了产生的主成分分量包含了多个0,L1正则化系数越大,0的个数越多,公式如下:用图来说明区别:      左图是PCA类的主成分分量空间,右图是MiniBatchSparsePCA类的主成分分量空间,比较两图可知,右图能够定位到重要的特征部位 。若是用数值表示,MiniBatchSparsePCA类的主成分分量值为:由上图可知,主成分分量包含了很多零分量 。6. PCA在数据重构的应用数据重构算法借鉴上一篇文章的图:浅蓝色部分矩阵的乘积为数据的重构过程,r为选择的主成分分量个数 。r越大,重构的数据与原始数据越接近或主成分分量的方差和比例越大,重构的数据与原始数据越接近 ,图形解释如下:n_components是0.2的数据重构图:n_components是0.9的数据重构图:因此,主成分分量越多,重构的数据与原始数据越接近。7. 总结本文介绍了PCA类在降维和数据重构的简单用法以及分析了sparsePCA类稀疏主成分分量的原理。

    注意事项

    本文(PCA类在降维和数据重构的简单用法.doc)为本站会员(白大夫)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开