统计学第四章数据的描述性分析.ppt

上传人：rrsccc

文档编号：8850102

上传时间：2021-01-19

格式：PPT

页数：81

大小：1.37MB

《统计学第四章数据的描述性分析.ppt》由会员分享，可在线阅读，更多相关《统计学第四章数据的描述性分析.ppt（81页珍藏版）》请在三一文库上搜索。

1、第四章数据的描述性分析,本章内容,一、集中趋势的描述二、离散程度的描述三、分布的偏态与峰度,集中趋势的描述,数值平均数 1. 算术平均数 2. 调和平均数 3. 几何平均数,集中趋势的描述,位置平均数 1. 中位数 2. 众数,对比,离散程度的描述,绝对指标 1. 极差与四分位差 2. 平均差 3. 标准差与方差相对指标离散系数,离散程度的描述,数据标准化,分布的偏态与峰度,原点距中心距,分布的偏态与峰度,分布的偏态分布的峰度,集中趋势,集中趋势（Central Tendency）是一组数据向其中心靠拢的倾向。测定集中趋势就是寻找数据一般水平的代表值或中心值。集中趋势往往使

2、用平均指标来测度,算术平均数,算术平均数（Arithmetic mean）是总体中各个体的某个数量标志的总和与个体总数的比值，一般用符号表示。,简单算术平均数加权算术平均数分组数据算术平均数的数学性质,简单算术平均数,加权算术平均数分组,某厂某车间20名工人加工某种零件的产量资料如下：-单项式变量分布数列 20名工人零件生产数量分组资料,加权算术平均数,权数,组距式,加权均值(权数对均值的影响),甲乙两组各有10名学生，他们的考试成绩及其分布数据如下甲组：考试成绩（X ）: 0 20 100 人数分布（F ）：1 1 8 乙组：考试成绩（X ）: 0 20 100 人数分布（F ）

3、：8 1 1,选择-4,权数,次数f的作用：当变量值比较大的次数多时，平均数就接近于变量值大的一方；当变量值比较小的次数多时，平均数就接近于变量值小的一方。可见，次数对变量值在平均数中的影响起着某种权衡轻重的作用，因此被称为权数。有时权数也用比重（频率）来表示,算术平均数的数学性质,各变量值关于算术平均数的偏离，在平方的意义下达到最小,调和平均数,调和平均数（Harmonic mean）是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的，所以又称作倒数平均数，通常用表示。,简单调和平均数加权调和平均数调和平均数是算术平均数的变形,调和平均数,某蔬菜批发市场三种蔬菜的日成交量数

4、据如下，计算三种蔬菜该日的平均批发价格。,算术平均数,调和平均数,若已知成交额，未知成交量，资料如下：,加权调和平均数,变量值倒数,简单调和平均数,调和平均数是算术平均数的变形,调和平均数是标志值倒数的算术平均数的倒数,它和算术平均数的实际意义是相同的,计算公式也可以互推,几何平均数,几何平均数（Geometric mean）是n个变量值连乘积的n次方根。它主要用于计算比率或速度的平均，当所掌握的变量值本身是比率的形式，而且各比率的乘积等于总的比率时，就应采用几何平均法计算平均比率。,简单几何平均数加权几何平均数,简单几何平均数,案例：某水泥厂1995年的水泥产量为100万吨，1996年与

5、1995年相比增长率为9，1997年比1996相比增长率为6，1998年比1997年相比增长率为20，求这三年的年平均增长率,简单几何平均数,案例2：一位投资者在1996年初买进一种股票，1996，1997，1998，1999这四年的收益率分别为4.5，2，3.5，5.4，计算该投资者在这四年内的平均收益率r,简单几何平均数,加权几何平均数,位置平均数 1. 中位数 2. 众数,中位数,中位数（Median）是一组数据按大小顺序排列后，处于中间位置的那个变量值，通常用表示。,由未分组数据确定中位数由单项数列确定中位数,分位数,数值型未分组数据的中位数 (5个数据的算例),原始数据: 24

6、 22 21 26 20 排序: 20 21 22 24 26 位置: 1 2 3 4 5,中位数 22,数值型未分组数据的中位数 (6个数据的算例),原始数据: 10 5 9 12 6 8 排序: 5 6 8 9 10 12 位置: 1 2 3 4 5 6,由未分组数据确定中位数,对未分组数据资料，需先将各变量值按大小顺序排列，并按公式确定中位数的位置。,当一个序列中的项数为奇数时，则处于序列中间位置的变量值就是中位数。例： 7、6、8、2、3 当一个序列的项数是偶数时，则应取中间两个数的中点值作为中位数，即取中间两个变量值的平均数为中位数。例： 2、5、7、8、11、12,未

7、分组数据的中位数(计算公式),分组数据确定中位数-单项式，组距式(见分位数）,由单项数列确定中位数,按公式确定中位数的位置并对照累计次数确定中位数。,由单项数列确定中位数,先计算各组的累计次数，再按公式确定中位数的位置，并对照累计次数确定中位数。,分位数,三个数值可以将变量数列划分为项数相等的四部分，这三个数值就定义为四分位数(Quartiles)。九个数值可以将变量数列划分为项数相等的十部分，这九个数值就定义为十分位数 (Dectile) 99个数值可以将变量数列划分为项数相等的100部分，这99个数值就定义为百分位数 (Percentile),四分位数,第一个四分位数称为下四分位

8、数第三个四分位数称为上四分位数,1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值,未分组资料和单项资料的四分位数,先排序，若为单项分组资料，需计算累计频数再通过公式确定位置：如果四分位数的位置不在某变量值上，必须按比例分摊变量值，以确定四分位数。,数值型未分组数据的四分位数 (7个数据的算例),原始数据: 23 21 30 32 28 25 26 排序: 21 23 25 26 28 30 32 位置: 1 2 3 4 5 6 7,N+1,QL= 23,QU = 30,3. 不易受极端值的影响(数据中有极大值或极小值时，影响不大）,数值型未分组数据的四分位数 (6个数

9、据的算例),原始数据: 23 21 30 28 25 26 排序: 21 23 25 26 28 30 位置: 1 2 3 4 5 6,QL= 21+0.75(23-21) = 22. 5,QU = 28+0.25(30-28) = 28.5,2、分组资料,先求累积频数再确定位置最后依公式求四分位数（也是按比例分摊）,其中为该分位数组的下限；为总次数；为较小累计该分位数所在组前一组的累计次数为分位数组的次数；为分位数组的组距。,以第一四分位数公式说明参数,众数,众数(Mode)是一组数据中出现次数最多的那个变量值，通常用表示。,由未分组数据确定众数由单项数列确定众数由组

10、距数列确定众数,由未分组数据确定众数,例1： 7、6、8、2、3 例2： 7、6、8、2、3 、4、3、2、3 例3： 7、6、8、2、3 、4、3、2、3、2,由单项数列确定众数,由组距式数列确定众数,先确定众数组；再用下述公式计算：,符号含义：（A）L为众数组的下限，U为上限；（B）i为众数组的组距；（C）1=fmfm-1，即众数组的次数与前一组次数之差； 2=fm fm+1，即众数组的次数与后一组次数之差。,STAT,40 50 60 70 80 90 100,50 40 30 20 10,B C,E D,x y,(L) (U),Mo=L+x=U-y,O,A,F,重点考察众数位置

11、和相邻两组次数的关系,众数取值的特点：众数的数值始终偏向相邻组中次数较大的组，当相邻两组的次数相等时，众数则是众数组的组中值。注意问题（1）优点：不易受极端值的影响。（2）缺点：未利用所有信息，缺乏敏感性和不适合代数运算,对比,1. 众数、中位数和算术平均数的关系确定分布是否有偏，偏斜情况如何,已知某班学生的平均年龄为17.8岁，18岁的人数最多，则该分布属于（）。 A正态 B左偏 C右偏 D无法判断,对比,2. 众数、中位数和算术平均数的特点与应用场合,位置平均数不易受极端值的影响，比较稳健。位置平均数的取值只与中间位置的一或两个数值有关，利用信息不充分，忽略了其它数据的大小

12、，并且不适合于代数运算。平均数所用的的数据信息比较完整，但易受极端值影响,1.计算平均指标最常用的方法和最基本的形式是（）。 A.中位数 B.众数 C.算术平均数 D.调和平数,2受极端数值影响最小的集中趋势值是（）。 A算术平均数 B调和平均数 C几何平均数 D众数,4位置平均数是指（） A算术均值B调和均值C几何均值 D众数E中位数,极差与四分位差,极差（Range）也叫全距，是一组数据的最大值与最小值之离差，即：,四分位差（Interquartile range）是指第三四分位数与第一四分位数之差，也称为内距或四分间距，用表示。四分位差的计算公式为：,离散程度刻画指标,极差：是数据

13、离散程度的一种简单刻画，其中只考虑了两端数值，没有体现各单位变量值的变异程度，且易受极端值影响,四分位差：反映了数据排序后中间50%数据的离散程度，其值越小，说明中间50%数据越集中；四分位差是由位置平均数定义，不易受极端值影响，在某种程度上弥补了极差的不足，但同样没有考虑所有数据,特点,平均差,平均差（Mean deviation）也称平均离差，是各变量值与其平均数离差绝对值的平均数，通常用 MD表示。,简单式平均差加权式平均差,简单式平均差,平均差：Avedev( ),加权式平均差,标准差与方差,标准差（Standard deviation）又称均方差，它是各单位变量值与其平均数离差平方

14、的平均数的方根，通常用表示。它是测度数据离散程度的最主要方法。方差（Variance）是各变量值与其算术平均数离差平方和的平均数，即是标准差的平方；用表示总体的方差；用表示样本的方差标准差。，而样本标准差记为s,标准差的表达式,总体与样本标准差,简单式标准差加权式标准差,简单式标准差,总体标准差Stdevp( ),结论：平均差和标准差的大小，,加权式标准差,总体与样本标准差,简单式,加权式,总体,样本,标准差：样本标准差Stdev( ) 总体标准差Stdevp( ) 方差：样本方差Var( ) 总体方差Varp( ),离散系数,对于平均数不等或计量单位不同的不同组别的变量值，是不能

15、直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响，需要计算离散程度的相对指标，即离散系数，又称标准差系数(无名数）。其一般公式是：,离散系数,例：某地随机抽取一组男青年和女青年，测量他们的平均体重和标准差如下,离散系数为,说明女青年间体重的差异比男青年要大一些,数据标准化判断是否有离群点,标准化数值是变量值与其平均数的离差除以标准差后的值，也称为z分数或标准分数。设标准化数值为z，则有：,度量的是数据偏离平均值有多少个标准差；经验表明：当数据分布对称时约有68.27%的数据与平均值的偏离在1个标准差的范围内，约有95.45%的数据与平均

16、值的偏离在2个标准差的范围内，约有99.73%的数据与平均值的偏离在3个标准差的范围内；可见，偏离3个标准差之外的数据时很少的；一般，偏离3个标准差之外的数据就称为是离群点或异常值,也就是说，标准化之后约有99.73%（95.45%）的结果是在+-3（+-2）之间-实际中有此特性的是正态分布变量,数据标准化判断是否有离群点,如果我们认为偏离超过3个标准差即为离群点，那么-3.6所对应的数值为离群点,数据标准化判断是否有离群点,Normsdist(z)=p(x1.5)=2(normsdist(-1.5)=0.1336 Normsinv (probability):返回p(xz)=proba

17、bility所对应的z normsinv (0.975)= 1.96 根据对称性，有normsinv(0.025)=-1.96,标准正态分布的有关函数,课后单选12 ：-normsinv (0.01)=2.33 -normsinv (0.06)=1.55,数据分成k组，每组的次数ni,i=1.2.k,记为第i组的第j个数据，为第i组的平均数,为第i组的组内方差，则,各组内方差的加权平均数：,总方差，组间方差，组内方差,组内离差平方和,记为总平均数,组间方差：,总方差：,可证明,也被称为方差加法定理,组间离差平方和,总离差平方和,第三章描述统计学：数量方法,STAT,例题：教材数据（ch4

18、-方差分解）,原点矩,k阶原点矩,一阶原点矩,二阶原点矩,k阶样本原点矩,一阶样本原点矩,二阶样本原点矩,中心矩,k阶原点矩,二阶原点矩,k阶样本原点矩,二阶样本原点矩,一般式-k阶原点矩,一阶原点矩-加权算术平均数,对于分组数据,中心矩,一般式-K阶中心矩,三阶中心矩,四阶中心矩,二阶中心矩-分组数据的方差,偏态,偏态（Skewness）是对分布偏斜方向和程度的测度。变量分组后，总体中各个体在不同的分组变量值下分布并不均匀对称，而呈现出偏斜的分布状况，统计上将其称为偏态分布。,偏态系数的数值一般在0与3之间，越接近0，分布的偏斜度越小；越接近3，分布的偏斜度越大。大于0称为是正偏(右偏),

19、小于0称为是负偏(左偏),例题,偏斜度：Skew( ),偏态系数计算,我国1997年农村居民家庭按纯收入分组的有关数据，计算偏态系数,计算偏度系数,说明农村居民家庭纯收入的分布为右偏分布，即收入较少的家庭是多数，收入较高的家庭是少数，而且偏斜程度较大，说明特别高收入的家庭有，但越来越少,例题,左偏,峰度,峰度（Kurtosis）是分布集中趋势高峰的形状。在变量数列的分布特征中，常常以正态分布为标准，观察变量数列分布曲线顶峰的尖平程度，统计上称之为峰度。,正态分布的峰度系数为0，当0时为尖峰分布，当0时为平顶分布。,在有的定义中未减3，此时比较标准为3；在excel中已减3。,峰度：Kurt(

20、),例题,Excel 函数,算术平均数： Average( ) 调和平均数： Harmean( ) 几何平均数： Geomean( ) 中位数： Median( ) 四分位数： Quartile( ) 众数：Mode( ) 全距：Max( )-Min( ) 平均差：Avedev( ) 标准差：样本标准差Stdev( ) 总体标准差Stdevp( ) 方差：样本方差Var( ) 总体方差Varp( ) 偏斜度：Skew( ) 峰度：Kurt( ),将习题数据放在网上供学生下载；做网上考题模拟。,发展速度,调和平均数(算例),【例4.8】某蔬菜批发市场三种蔬菜的日成交数据如表4-2，计算三种蔬菜该日的平均批发价格,

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计学第四数据描述分析

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：统计学第四章数据的描述性分析.ppt
链接地址：https://www.31doc.com/p-8850102.html