统计学第四章数据的描述性分析.ppt
《统计学第四章数据的描述性分析.ppt》由会员分享,可在线阅读,更多相关《统计学第四章数据的描述性分析.ppt(81页珍藏版)》请在三一文库上搜索。
1、第四章数据的描述性分析,本章内容,一、 集中趋势的描述 二、 离散程度的描述 三、 分布的偏态与峰度,集中趋势的描述,数值平均数 1. 算术平均数 2. 调和平均数 3. 几何平均数,集中趋势的描述,位置平均数 1. 中位数 2. 众数,对比,离散程度的描述,绝对指标 1. 极差与四分位差 2. 平均差 3. 标准差与方差 相对指标离散系数,离散程度的描述,数据标准化,分布的偏态与峰度,原点距 中心距,分布的偏态与峰度,分布的偏态 分布的峰度,集中趋势,集中趋势(Central Tendency)是一组数据向其中心靠拢的倾向。 测定集中趋势就是寻找数据一般水平的代表值或中心值。 集中趋势往往使
2、用平均指标来测度,算术平均数,算术平均数(Arithmetic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号 表示。,简单算术平均数 加权算术平均数分组数据 算术平均数的数学性质,简单算术平均数,加权算术平均数分组,某厂某车间20名工人加工某种零件的产量资料如下:-单项式变量分布数列 20名工人零件生产数量分组资料,加权算术平均数,权数,组距式,加权均值(权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8 乙组: 考试成绩(X ): 0 20 100 人数分布(F )
3、:8 1 1,选择-4,权数,次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。有时权数也用比重(频率)来表示,算术平均数的数学性质,各变量值关于算术平均数的偏离,在平方的意义下达到最小,调和平均数,调和平均数(Harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用 表示。,简单调和平均数 加权调和平均数 调和平均数是算术平均数的变形,调和平均数,某蔬菜批发市场三种蔬菜的日成交量数
4、据如下,计算三种蔬菜该日的平均批发价格。,算术平均数,调和平均数,若已知成交额,未知成交量,资料如下:,加权调和平均数,变量值倒数,简单调和平均数,调和平均数是算术平均数的变形,调和平均数是标志值倒数的算术平均数的倒数,它和算术平均数的实际意义是相同的,计算公式也可以互推,几何平均数,几何平均数(Geometric mean)是n个变量值连乘积的n次方根。它主要用于计算比率或速度的平均,当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。,简单几何平均数 加权几何平均数,简单几何平均数,案例: 某水泥厂1995年的水泥产量为100万吨,1996年与
5、1995年相比增长率为9,1997年比1996相比增长率为6,1998年比1997年相比增长率为20,求这三年的年平均增长率,简单几何平均数,案例2: 一位投资者在1996年初买进一种股票,1996,1997,1998,1999这四年的收益率分别为4.5,2,3.5,5.4,计算该投资者在这四年内的平均收益率r,简单几何平均数,加权几何平均数,位置平均数 1. 中位数 2. 众数,中位数,中位数(Median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。,由未分组数据确定中位数 由单项数列确定中位数,分位数,数值型未分组数据的中位数 (5个数据的算例),原始数据: 24
6、 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5,中位数 22,数值型未分组数据的中位数 (6个数据的算例),原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6,由未分组数据确定中位数,对未分组数据资料,需先将各变量值按大小顺序排列,并按公式 确定中位数的位置。,当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。 例: 7、6、8、2、3 当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。 例: 2、5、7、8、11、12,未
7、分组数据的中位数(计算公式),分组数据确定中位数-单项式,组距式(见分位数),由单项数列确定中位数,按公式 确定中位数的位置 并对照累计次数确定中位数。,由单项数列确定中位数,先计算各组的累计次数,再按公式 确定 中位数的位置,并对照累计次数确定中位数。,分位数,三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles)。 九个数值可以将变量数列划分为项数相等的十部分,这九个数值就定义为十分位数 (Dectile) 99个数值可以将变量数列划分为项数相等的100部分,这99个数值就定义为百分位数 (Percentile),四分位数,第一个四分位数称为下四分位
8、数 第三个四分位数称为上四分位数,1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值,未分组资料和单项资料的四分位数,先排序,若为单项分组资料,需计算累计频数 再通过公式确定位置: 如果四分位数的位置不在某变量值上,必须按比例分摊变量值,以确定四分位数。,数值型未分组数据的四分位数 (7个数据的算例),原始数据: 23 21 30 32 28 25 26 排 序: 21 23 25 26 28 30 32 位 置: 1 2 3 4 5 6 7,N+1,QL= 23,QU = 30,3. 不易受极端值的影响(数据中有极大值或极小值时,影响不大),数值型未分组数据的四分位数 (6个数
9、据的算例),原始数据: 23 21 30 28 25 26 排 序: 21 23 25 26 28 30 位 置: 1 2 3 4 5 6,QL= 21+0.75(23-21) = 22. 5,QU = 28+0.25(30-28) = 28.5,2、分组资料,先求累积频数 再确定位置 最后依公式求四分位数(也是按比例分摊),其中 为该分位数组的下限; 为总次数; 为较小累计该分位数所在组前一组的累计次数 为分位数组的次数; 为分位数组的组距。,以第一四分位数公式说明参数,众数,众数(Mode)是一组数据中出现次数最多的那个变量值,通常用 表示。,由未分组数据确定众数 由单项数列确定众数 由组
10、距数列确定众数,由未分组数据确定众数,例1: 7、6、8、2、3 例2: 7、6、8、2、3 、4、3、2、3 例3: 7、6、8、2、3 、4、3、2、3、2,由单项数列确定众数,由组距式数列确定众数,先确定众数组; 再用下述公式计算:,符号含义: (A)L为众数组的下限,U为上限; (B)i为众数组的组距; (C)1=fmfm-1,即众数组的次数与前一组次数之差; 2=fm fm+1,即众数组的次数与后一组次数之差。,STAT,40 50 60 70 80 90 100,50 40 30 20 10,B C,E D,x y,(L) (U),Mo=L+x=U-y,O,A,F,重点考察众数位置
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第四 数据 描述 分析
链接地址:https://www.31doc.com/p-8850102.html