多元统计分析及其在烟草学中的应用.docx
《多元统计分析及其在烟草学中的应用.docx》由会员分享,可在线阅读,更多相关《多元统计分析及其在烟草学中的应用.docx(16页珍藏版)》请在三一文库上搜索。
1、多元统计分析及其在烟草学中的应用 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,栽培 134中国烟草学报2021年10月 第20卷 第5期 统计分析专栏 多元统计分析及其在烟草学中的应用 杨锦忠,宋希云 青岛农业高校/山东省旱作农业技术重点试验室,青岛 266109 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,栽培 杨锦忠等多元统计分析及其在烟草学中的应用 方面:第一、烟草学具有客观多元性。烟草的种植系统、加工系统、消费系统都是简单的多组分系统。生态环境、烟草品种、种植措施、工艺等诸多因素,共同影响烟草产品的产量与质量;经济的、管理的、医学的诸多因素,共同影响烟草
2、产品的营销和经营水平。多元统计恰恰就是特地面对多组分系统的数据分析方法。另外,当今科学方法论的进展趋势之一是更加重视科学讨论的整体性和全面性,为了呈现一个多组分系统中变量之间错综简单的关系模式与格局,新型多元统计分析方法不断涌现。其次、多元统计优于一元统计。与一元统计相比,多元统计分析易于发觉处理间微小判别,对事物的认识更深刻,更接近事物原来面目。 多元统计在烟草学中应用的必要性也体现在两个方面。一方面,数据采集手段与方法(环境因子传感器技术、数字图像处理和遥感等波谱技术、DNA测序及基因芯片技术等)进展快速,自动化与半自动化测量仪器应用越来越广泛,多元数据的猎取更加便利,数据量日益增多,这已
3、成为烟草学理论讨论和技术开发的常态,客观上要求采纳多元统计的数据分析方法。另一方面,烟草营销和经营领域与农学等领域不同,通常无法开展掌握条件下的随机化试验讨论,只有“流水帐”式的事实数据。对于此类数据,只有采纳多元统计方法,才能在错综简单的大量数据矿产中挖掘出有价值的信息,阐明不同变量之间的关系,评价各个变量对营销和经营的重要性,探寻变量间作用模式和分布格局。 从现在往前推二三十年,在烟草学中应用多元统计遭受以下障碍:受到讨论手段和仪器设备限制,试验重复次数少或者样品数目小,测定项目少,难以获得大样本数据;计算简单,凭借人工方式或者计算器帮助方式难以完成,必需用法计算机软件,而软件数量少且价格
4、高;分析结果有时不易解读,基本假定时常难以验证。目前形势已发生了很大改变。经典多元统计分析方法在生物学、生态学和农学中的应用已经是常态,而且,随着数据分析新方法的不断消失,各种商用和免费的计算机多元统计软件也同步推出,互联网突破了统计新技术传播的时间和空间限制,大大便利了推广应用。统计软件的多元作图和可视化功能增加,在很大程度上增加了原始数据和分析结果的易读性和直观性。重抽样技术的兴起和普及,在较大程度上突破了一些基本假定的限制。除传统时间序列统计分析领域连续进步外,生态系统固有的空间变异属性受到了前所未有的重视,短短几十年内,空间统计 135 学自诞生以来就始终飞速进展。全部这些都为我国烟草
5、学领域广泛应用多元统计制造了良好条件,我们应当与时俱进,主动认识它,了解它,这对提升烟草学讨论和生产水平具有重要意义。 2多元作图可视化方法 二维和三维的散点图和密度图有助于识别离群点、极端点和聚合点,初步推断关联走向1。由两两变量散点图组成的阵列图能够展现诸多变量之间关联的分布模式和格局。具有动画的散点图软件还可以任意变换视角,选择展现变量关联的最佳角度。值得指出,图中坐标点既可以是原始数据,也可以是多元统计的分析结果。 统计脸谱图1-2,也称Chernoff脸谱图,是多元作图的一种经典方法,能在平面上直观、形象地展现多变量数据的特征,它有多个变种。其中一种可以绘制最多36个变量的数据,一个
6、变量对应面部的一个特征,左右半脸各对应18个变量。应用此技术有两个关键点,一是变量的归一化变换(最小值对应0,最大值对应1),二是面部特征与变量的对比表。利用人类对面部特征微小改变敏感的心理特质,借助脸谱图,既可以同时依据多个变量对样品进行相像性或者相异性的综合直观辨别,也可以识别离群点(例如两个以上变量取值特别生成极端脸形,又如某个变量取值特别,对应面部特征有显著改变)。 平行坐标图3是多元作图的又一种经典方法。平行坐标图与脸谱图一样,突破了笛卡儿坐标系只能表示二维和三维数据的限制,格外适合展现变量数目超过3个的多元数据。其技术原理很简洁,首先对每个变量进行归一化变换,在横坐标轴上依次排列全
7、部变量,变量值为纵坐标,一个样品的各点依次连接为一条折线。离群点看起来是离群的多边形。变量挨次对图形易读性有重要影响,一种挨次可能比另一种挨次更能反映数据改变的态势。用法颜色表示样品类别可以改善图的易读性。 双标图能够在图中同时显示由多个样品多个变量(离散型和连续型)组成的数据,可以展现主成分、典型相关、多维尺度分析、各种对应分析的结果4。 3主成分分析 通俗地讲,主成分分析就是将简单的多元数据进行简化,把多个相互关联的指标化简成少数几个相互独立的综合指标,而且,这些综合指标最大程度地保留了原来数据的信息。一个变量的信息量常用其方差 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,
8、栽培 136表示,全部变量的方差总和就是多元数据的信息总量。用最简洁的统计语言描述基本原理就是,首先查找变量的线性组合中最大方差的那一个,称为第一主成分;接着,在剩余信息中查找方差最大的、并且与第一主成分独立的变量线性组合,称为其次主成分;如此反复,直到剩余信息等于零为止。可以用法协方差矩阵或者相关系数矩阵计算主成分,这两种计算方法获得的结果并不相同。用法协方差矩阵意味着变量的信息量大小完全取决于其方差大小,而且,当变量量纲不同时,产生分析结果不易说明问题;用法相关系数矩阵则意味着不同变量的信息量相同,并且消退了量纲不同的干扰。主成分的主要用途如下:作为一种化简即所谓降维技术,构造综合指标;在
9、二维或者三维空间中实现多元数据的可视化;作为其它多元统计分析的数据源,例如主成分回来、主成分聚类、主成分判别等。 主成分的简化力量取决于原始变量之间的线性相关性,相关性越强,简化效果越明显。例如,汪显国等6利用主成分方法综合评价烟丝产品中6种加香物质含量的匀称性,前两个主成分的累计方差和达到总方差的98.8%,这意味着已经把6个变量化简为2个新变量,同时几乎保留了原来6个变量的全部信息。 主成分分析最早依据多元联合正态分布推导而来,明显,连续性、正态性和线性相关成为基本假定。赵杰宏等人7的讨论中烟叶变量(外观质量指标和评吸质量指标)都是有序变量而非连续变量,明显不符合主成分分析的连续性和正态性
10、假定,明显不能用法一般相关系数,而应当用法Polychoric相关系数5。随着新型统计技术的消失,主成分分析正在突破早期的假定限制,如投影寻踪主成分等方法解决了主成分对离群点敏感的问题,供应了所谓的稳健主成分,又如核主成分等方法解决了经典主成分无法处理变量间非线性关系的问题,拓展了主成分的应用范围。 鉴于试验或者调查讨论的结果总是样本结果,人们就用样本的主成分近似总体的主成分。样本结果的偶然性必定引起样本主成分的偶然性,这时,如何确定合理的主成分数目和如何精准计算主成分的标准误就成为影响主成分实际应用效果的重要问题。目前看来,Bootstrap等统计重抽样技术供应了一种切实可行的解决方案8。
11、4聚类分析 聚类分析是依据“物以类聚”的思路,对样品或者指标(即变量)进行分类的一种多元统计分析方法。 中国烟草学报2021年10月 第20卷 第5期 聚类分析属于数值分类的范畴,是一种探究性数据挖掘技术。样品聚类分析是在事先不知道应分多少类的状况下,进行探究性分析,对观看对象即样品依据某些数量特征适当分类。变量聚类分析是在事先不知道应分多少类的状况下,进行探究性分析,对观看对象的数量特征挺直分类。样品分类的常用距离有:欧氏距离,马氏距离,闵可夫斯基距离等,样品间距离越小则划入同一类的可能性越大,反之亦然。指标分类的常用相像系数有:夹角余弦,相关系数,指标间相像性越大则划入同一类的可能性越大9
12、。上述情形只限于连续型变量,对于二值变量组成的多元数据,最好构造特别的距离或者相像系数1。为消去变量量纲不同或者变异幅度不同的影响,样品聚类时,要对变量进行标准差标准化或者极差标准化变换,而变量聚类时,同样要对样品进行标准化变换。 聚类分析的功能在于发觉多元数据中自然存在的分组或者类型,广泛用于烟草基因型分类10、产地生态分类11、产品生理生化指标分类、作物性状分类12等领域。聚类分析基本步骤有两个:一是选择距离或者相像系数的计算方法,二是选择合并子类的计算方法。二者都没有公认的选择标准,主要依据聚类结果与专业领域阅历的吻合程度加以推断。经典的聚类分析不考虑分类结果的稳定性,没有确定最终分类数
13、目的准则,使应用效果受到较大影响。针对这些问题,Bootstrap等统计重抽样技术在肯定程度上给出较好的解决方案,关心确定最终分类数目,剖析分类结果的稳定性等13,统计软件的较新版本都具有这种功能14-15。聚类结果通过实践检验以后,就可以进一步付诸判别分析,以解决新样品的归类问题。 5判别分析 判别分析是在多元数据中全部样品分类明确的条件下,建立判别函数和判别准则的一种多元统计分析方法。它的终极目标是依据一个新样品的多指标测量结果,即多变量观测值,推断它归属于已知类型中的哪一类。判别分析在烟草上有广泛应用,例如,依据患病病害或者虫害的烟草植株或者器官或者组织的多个症状,诊断病害或者虫害的种类
14、。依据烟叶或者烟丝的多个理化特性,识别其产地或者产品类别。依据烟草DNA指纹,识别其基因型身份。 判别分析的基本原理是根据肯定的判别准则,建立一个或多个判别函数,用讨论对象的大量资料即多元数据确定判别函数中的待定系数,并计算判别指标。据此即可确定某一新样品属于何类。目前常用的判别 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,栽培 杨锦忠等多元统计分析及其在烟草学中的应用 准则为极大似然法和贝叶斯法。经典的费雪线性判别函数适用于线性可分的分类和识别问题,并且要求不同类别具有同质的协方差矩阵。当协方差矩阵不同质时,可以用法二次判别函数以完成分类和识别任务9。用法核判别函数则可以解决
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 及其 烟草 中的 应用
链接地址:https://www.31doc.com/p-12093180.html