欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载  

    《社会统计学》重点知识梳理.doc

    • 资源ID:10836480       资源大小:112.50KB        全文页数:21页
    • 资源格式: DOC        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《社会统计学》重点知识梳理.doc

    社会统计学重点知识梳理第一章 绪论教学目的:本章是对社会统计学这门课程对概要性介绍。通过本章对学习,首先使学生认识到学习这门课程对重要意义和作用,激发其学习对积极性和主动性。其次使学生对该课程有一个基本对了解,并掌握其中的一些基础性的知识,为后面对学习打下基础。教学重点:变量及变量层次教学难点:统计和统计学对含义教学方法和手段:讲授法学时分配:4学时教学内容:统计和统计学的含义,统计学的产生和发展,变量及变量层次第一节 统计和统计学的含义一 统计的含义统计作为一种社会实践活动已有悠久的历史。在外语中,统计一词与国家一词来自同一词源。因此,可以说,自从有了国家就有了统计实践活动。最初,统计只是为统治者管理国家对需要而搜集资料,弄清国家对人力、物力、财力,作为国家管理的依据。(如早在古代奴隶制的国家,由于赋税、徭役、征兵对需要,就开始了人口、土地等的登记和简单的统计工作。今天,统计一词已被人们赋予多种含义,在不同场合,其可以具有不同含义。一般来说,统计一词包括以下三种含义:一指统计工作,即调查研究,包括资料的收集、整理和分析;二指统计资料,包括统计数据和分析报告;三指统计学这门学科,研究如何搜集、整理和分析数据资料。其中,前两种含义统计工作和统计资料指的是统计的实践活动,统计学则指理论研究。二 统计学的含义1、定义统计学是一门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在规律性,以达到对客观事物的科学认识。统计数据的收集是取得统计数据的过程,它是进行统计分析对基础。离开了统计数据,统计方法就失去了用武之地。如何取得所需的统计数据是统计学研究的内容之一。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律对过程。2、研究对象可见,统计学是一门有关统计数据的科学,统计学的研究对象就是统计数据或者说是事物的数量方面。正像奶牛吃草挤出牛奶一样,统计学则通过消化统计数据产生有营养有价值的结果。因此我们说,统计学是以数据为食物的动物。3、基本内容(1)统计描述:描述所搜集资料的数量特征,如平均值,标准差,中位值等。(例)讨论范围仅以搜集资料本身为限而不予以扩大。(2)统计推断: 依据所搜集资料去推断总体的特征。(例)讨论范围在所搜集资料基础上有所扩大。由以上介绍可知,统计描述是统计推断对基础,统计推断是在统计描述对基础上进行的。由于在对现实问题的研究中,所获得对数据主要是样本数据即有限资料,因此统计推断在现代统计学中对地位和作用越来越重要,已成为统计学的核心内容。第二节 统计学的产生和发展一、统计学的产生从历史上看,在原始社会、奴隶社会和封建社会,没有统计学,有的只是简单的统计实践,即对事物进行简原始的调查登记和计算汇总,如计算一个国家有多少人口、土地,以利于统治阶级征兵劳役和税收。直到进入资本主义社会,欧洲的工农业、商业、交通航运都进入了一个空前繁荣的发展阶段,统计工作开始从国家管理扩展到社会经济活动很多领域。比较系统的理论知识开始形成,产生了统计学这样一门学科。因此,统计的历史已有几千年,而统计学的历史才不过二三百年。二、统计学的发展1、国势学派(记述学派)这一学派发源于德国,主要代表人物是康令(H.Coring,1606-1681)和稍后的阿亨瓦尔(G.Achemwall,1719-1772)。二人曾分别在德国大学讲授“国势学”,其内容是研究有关国家的显著事项。“国势学”主要用文字叙述而不用数字,故又称为“记述学派”,特点是偏重事物质的解释而忽视量的分析。1749年,阿亨瓦尔把国势学改名为统计学。事实上,确认以现象的数量方面为研究内容才是统计。所以,它虽有统计学之名,但并无统计学之实。因此国势学派又被称为“有名无实学派”。2、政治算术学派这一学派产生于英国,代表人物是威廉配第(N.Petty,1623-1678)和格朗特(J.Graune,1620-1670)。威廉配第的代表作是政治算术,这本书运用了大量数学资料对英法荷兰三国的经济实力进行了比较分析。威廉配第在分析时采用了前人未用过的方法,既用数字重量尺度来表达问题,同时还用图表形式概括数学资料,开创了从数量方面来研究社会经济现象的先例。因此这一学派被称为有实无名学派。3、数理统计学派这一学派产生于19世纪中叶,创始人是比利时的凯特勒(L.A.J.Quetelet,1796-1874),凯特勒最主要对贡献是把概率论正式引进统计学,从而使统计学的理论、内容和方法都发生了质的飞跃,奠定了现代统计学的基础。1867年,一门兼有数学和统计学双重性质的学科被命名为数理统计学。4、社会统计学派社会统计学派产生于19世纪后半叶的德国,代表人物是恩格尔(C.L.E.Engel,1821-1896)和梅尔(C.G.C.Mayer,1841-1925)等人。德国的这个社会统计学派,一方面不同意国势学派对所谓统计学,另一方面又主张统计学是研究社会现象的科学,并把政府统计与社会调查融合起来,形成社会统计学。社会统计学派在国际社会统计学界中占有一定地位,欧洲、美国和日本对统计学都受其影响。现在,统计学的主流从描述统计转向推断统计,统计学与电脑的结合越来越广泛,统计学的应用范围更广,作用也更大。第三节 变量及变量层次一 什么是变量:变量即可变化的量,取值有两个或两个以上。例:性别,民族,职业,文化程度,年龄,成绩等。教材p4。这些可能的取值我们称为变量值。 二 变量的层次(p18-19)根据变量所具有的数学特质的不同,可将它们由低至高分为四个层次:定类变量、定序变量、定距变量和定比变量。1、定类层次的变量定类变量是变量层次最低的。它的取值只有同类或不同类之分,而无大小、程度之别。根据变量值,只能知道研究对象某一特征是相同或是不相同。例:性别、民族、职业等。从数学运算特性看,定类变量只具有等于或不等于的性质。2、定序层次的变量定序变量的层次高于定类变量,它的取值除具有同类或不同类之分外,还有等级次序的差别。因此其数学运算特性除具有等于或不等于之外,还有大于或小于之分。常见的定序变量有教育程度(文盲、小学、初中、高中、大学)、社会经济地位(上等、中等、下等)、积极性(很积极、一般、不积极)等。3、定距层次的变量定距变量的层次又高于定序变量。定距变量的取值,除了类别、次序属性之外,取值之间的距离还可以度量。其数学运算特性除了等于、不等于;大于、小于之外,还可以加减。如家庭子女数、年龄、成绩、工资等都属于定距变量。定距变量按照是否可取小数,又分为离散型定距变量和连续型定距变量。离散型定距变量只能取整数,不能取小数,如家庭子女数、某厂职工人数、机器台数。连续型定距变量既可取整数,也可取小数,如成绩、工资、身高、体重等。4、定比层次的变量定比变量是最高层次的变量。由于定距变量和定比变量差别不是很大,在社会学研究中,只满足定距而不能同时满足定比要求的变量并不多,因此我们在社会统计学中不再区分定距和定比,而是当做一类,称作定距变量。根据数学运算特性,可以对变量层次进行对比。(p19)可以看出,定类变量所拥有的数学运算特性最少,随着变量层次的提高,所拥有的数学运算特性也会随之增加。对变量层次的划分非常重要,可用于社会学研究的统计方法有很多种,选择的重要标准之一,就是变项的测量层次。属于不同测量层次的变量,要用不同的统计方法来分析。从下一章开始,我们就会清除知道。 第二章 单变量统计描述分析教学目的 通过本章的学习,了解何为变量分布以及如何用统计表和统计图表示变量分布,重点掌握集中趋势测量法和离散趋势测量方法,为后面推论统计的学习奠定基础。教学重点 集中趋势和离散趋势测量法教学难点 组距式数据中位值、四分互差的求法教学方法和手段 讲授法、演示法学时分配 8学时教学内容 分布及统计表、统计图的制作,集中趋势测量法,离散趋势测量法第一节 分布及统计表、统计图的制作一 分布在社会统计学里,分布一般指一个概念或变量,它的各个情况出现的次数或频次。如家庭结构(家庭的构成形式),它是一个概念,同时由于它的取值不唯一,因此可以看做一个变量。那么,家庭结构的可能取值有哪些呢?见教材p22X1由父母和未婚子女组成的核心家庭;X2由父母和单一已婚子女组成的三代人家庭,即直系家庭;X3由父母和多对已婚子女组成的三代人家庭,即联合家庭。对某地100户家庭进行调查,发现核心家庭有55家,直系家庭有32家,联合家庭有8家.那么,此地区家庭结构的分布状况可表示为:(核心家庭,55)(直系家庭,32) 频次分布(联合家庭,8)对某地100户家庭进行调查,发现核心家庭在所有家庭中所占比例为52%,直系家庭所占比例为25%,联合家庭占4%。此地区家庭结构分布状况可表示为:(核心家庭,55%)(直系家庭,32%) 百分比分布(联合家庭,8%)二 变量取值要注意的问题1、完备性。变量取值必须完备,只有这样,才能使被访者一一无遗的进行归类。核心家庭,直系家庭,联合家庭,空巢家庭,其它例:p232、互斥性。变量取值必须互斥,只有这样,才能使每一个观察值归入一类且仅仅归入一类。例:p23.表2-3互斥,表2-4不互斥。但在实际工作中,有时也采用表2-4的形式,这时为了满足互斥性,一般增加“上组界不包括在内”的约定。也就是说,凡收入为1000元者,归入1000-2000元档,凡收入为2000元者,归入2000元以上档。这样就满足了互斥性要求。除了增加新约定满足变量取值的互斥性,还可增加增加组界精度。对此本课程不再做介绍。三 统计表所谓统计表就是用表格形式表示前面所说变量的分布。表2-1 家庭结构频次(百分比)分布家庭结构频次(百分比)核心家庭直系家庭联合家庭其他553285总数100定类变量:第一纵列表示变量及其取值,第二纵列表示频次或百分比。定序变量:制表方法与定类变量相同,所不同的是,由于定序变量取值有大小次序之分,因此在统计表制造时,应保留其变化趋势(由小到大或由低级至高级排列),不要任意打乱。例:p26定距变量:变量取值必须满足完备性,但定距变量由于一般取值较多(年龄,成绩),如果一一列举,势必形成很长的分类,而每一类的频次又变得很少,给制图带来很大困难。这时宜采用组距式统计表,以减少变量取值个数,以利于制图。例p59.每一组例1-3,1为改组的起点数值,被称为下限,用字母L表示;3为改组的终点数值,被称为上限,用字母U表示。上限与下限之差就是组距。组距(h)=上限(U)-下限(L),上限和下限之间的中点数值被称为组中值。组中值bi=(U+L)/2四 统计图所谓统计图就是用图形的形式来表示变量的分布。1、圆瓣图(饼形图)圆瓣图是将资料展示在一个圆平面上,通常用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占百分数。在报纸电视杂志上可以经常看到。一般用于定类变量。(制作方法spss里会讲到)2、条形图条形图是用长条的高度来表示资料类别的次数或百分数,而长条的宽度没有意义,一般画成等宽长条。条形图可适用于定类变量和定序变量。如果是定类变量,长条离散,如果是定序变量,长条可离散,也可紧挨着,而且长条必须按顺序排列。3、直方图直方图适用于定距变量,而且是组距式定距变量。与条形图不同,直方图的长宽面积都有意义。面积表示频次或频率,宽表示组距,长(高)表示相对频次或相对频率。4、折线图如果用直线连接直方图中条形顶端的中点,就得折线图。折线图可使资料分布的趋势更一目了然。五 累计表统计表和统计图告诉我们的是某一个变量值所对应的频次(百分比)是多少。但有时我们不仅需要了解频次分布,还需要了解小于某一变量值或大于某一变量值总共的频次是多少,这时就要用到累计。所谓累计表示的是大于某个变量值的频次是多少或小于某个变量值的频次是多少。大于某个变量值的频次的累计称为向下累计,用cf表示,小于某个变量值的频次的累计称为向上累计,用cf表示。(p35)我们将统计表2-14制作成累计表(包括向上累计和向下累计)。例p35表2-15。使用上述方法求向上累计和向下累计的前提是先将变量取值由小到大排列好。第二节 集中趋势测量法前面讲到变量的分布以及如何用统计表和统计图将其表示出来。应该说用分布来研究变量是最全面的研究方法,可以了解到变量各取值的情况。但在很多情况下,我们并不需要对变量有详尽的了解,而只是要了解其大概即可。比如:对于某地家庭结构,我们可能并不需要详尽了解核心家庭、直系家庭、联合家庭分别有多少家,而只要了解该地区大多数家庭的家庭结构怎样即可;对于某城市居民的收入,我们只要了解该城市居民的平均收入即可,对于某班成绩,也只需要了解平均成绩,用平均成绩来表示这个班的成绩状况。这样,就产生了用一个典型的变量值或特征值来代表全体变量的问题。这个典型的变量值或特征值就称作集中值或集中趋势。下面我们来介绍三种集中值的求法。一 众值(Mode)Mo众值就是具有频数最多的变量值,因为其频数最多,因此可以作为变量的集中值,来代表这一组变量。众值适用于任意层次的变量。例p24.例p42。对于组距式统计表,如果变量在第i组具有最高的频次,则用第i组的组中值来表示变量的众值。P59二 中位值(median)Md中位值是变量的一个取值,它把观察总数一分为二,其中一半是比它小的变量值,另一半是比它大的变量值。所以,中位值是数据序列之中央位置的变量值。它适用于定序及以上层次的变量。下面我们将根据数据是分组数据(组距式数据)还是未分组数据(非组距式数据)求出中位值。(一)未分组数据1根据原始资料求中位值当原始数据比较少时,可以直接根据原始资料求中位值。方法是:先将数据按顺序大小排列好,当数据总数N为奇数时,中位值位于N+1/2的地方;当观察总数N为偶数时,中位值为居中位置左右两数的均值。P41,422 根据频次分布求中位值(求向上累计频次)当原始数据比较多时,可根据分布来求中位值。例p42求:中位值位置=(N+1)/2=(观察总数+1)/2=(500+1)/2=250.5250.5在乙组,因此中位值Md=乙 例表2-7。(二)分组数据记住公式:p44(2-1,2-2,2-3),尤其是公式2-3其中:L为中位值所在组的下限,U为中位值所在组上限,n为中位值组频次,N为观察总数,cf为中位值所在组以前各组的累计频次。可以看出,要求中位值,必须先求出中位值所在组。中位值位置=(N+1)/2,N为观察总数。例表2-8教案(p59:求中位值)解:中位值位置=73/2=36.5,中位值在第9-12组.则中位值=9+ (36-35)/14*3=9+3/14=9.2)三 均值(Mean)均值只适用于定距变量。它在统计学中具有重要地位,是集中趋势的最主要代表值。第三节 离散趋势测量法集中趋势测量法求出了一组数据的集中值,以反映这组数据的一般特征。而所求出的集中值能否很好的代表这一组数据,与这一组数据的分散程度是有关系的。资料数据越分散,集中值代表性越差,反之,集中值代表性越好。离散趋势测量法便是对一组数据离散程度的度量。离散值越大,说明数据越分散,集中值代表性越差,离散值越小,说明数据越集中,集中值代表性越好。下面介绍四种离散趋势测量方法。一 异众比率()异众比率即非众值的频次在总数N中所占比例。显然,非众值的比例越小,众值代表性越好,非众值的比例越大,众值代表性越差。计算异众比率的公式为:=(N-fmo)/N fmo=众值频次(p24,p42)与众值一样,异众比率适用于任意层次的变量。二 极差(R)P49三 四分互差(Q)(可对比中位值求法)四分互差是除极差以外度量定序以上变量分散程度的另外一种方法。它不像极差那样用观察的最大值和最小值求得,而是用对应于向上累计频次75%的变量值Q75和对应于向上累计频次25%的变量值Q25相减而得。下面分别来求未分组数据和分组数据四分互差的求法。(一)未分组数据1、根据原始资料求四分互差(李沛良,p54)当原始数据较少时,可直接通过观察求得四分互差。见教材p502、根据频次分布求四分互差(求向上累计频次)当原始数据比较多时,可根据频次分布来求四分互差。例p50Q75位置=3(N+1)/4=3(80+1)/4=60.75 Q75=乙Q25位置=(N+1)/4=(观察总数+1)/4=(80+1)/4=20.25 Q25=丁Q=Q75-Q25=乙-丁 说明有50%的学生成绩在乙与丁之间。例表2-7(二)分组数据要求四分互差Q,必须先求出Q25 和Q75。Q25和Q75可分别通过公式2-10(p51)和2-13(p52)求出。在公式2-10中,L为Q25所在组的下限,U为Q25所在组上限,n为Q25所在组频次,N为观察总数,cf为Q25所在组以前各组的累计频次。在公式2-13中,L为Q75所在组的下限,U为Q75所在组上限,n为Q75所在组频次,N为观察总数,cf为Q75所在组以前各组的累计频次。可以看出,要求Q25 和Q75,必须先求出Q25 和Q75所在组。Q25位置=(N+1)/4, Q75位置=3(N+1)/4N为观察总数例教案表2-8,p59Q25位置=(N+1)/4=73/4=18.25,Q25在6-9组Q25=6+(18-15)/20=6.15Q75位置=3(N+1)/4=54.75,Q75在12-15组。Q75=12+(54-49)/9=12.56四分互差Q=12.56-6.15=6.41四 方差和标准差方差和标准差适用于测量定距变量资料的分散程度,是应用最广的离散趋势值。标准差用字母表示,方差用2表示。求方差的公式为p52:2-15,求标准差的公式为p53:2-16.下面着重学习标准差的求法(包括未分组数据和分组数据)。(一)未分组数据1、根据原始资料当原始资料较少时,可直接使用公式2-16求出标准差。(p53表2-26)例:p57九大题当均值为小数时,计算起来非常复杂,因此,根据原始资料求标准差,也可以使用公式2-18,这样就可以不使用均值求出标准差。2、根据频次分布根据频次分布求标准差,可使用公式2-19.其中N为观察总数,n为每组频次,X为变量。例:p58十五题(二)分组数据对于分组数据,可使用公式2-20求标准差。其中b为组中值。P59十六题。 总结:作为测量数据离散程度的工具,异众比例适用于任意层次的变量,但对定类变量最为适用;极差和四分互差对定序和定距变量都适用;方差和标准差只适用于定距层次的变量。离散值越大,集中值代表性越差,其相互对应关系为:异众比例越大,众值代表性越差;极差和四分互差越大,中位值代表性越差;标准差越大,均值代表性越差。第三章 正态分布教学目的 本章介绍的是连续型定距变量最重要的分布形式正态分布,要求掌握什么是正态分布,什么是标准正态分布,正态分布曲线和标准正态分布曲线分别有怎样的特征,并且能够通过查表的方法求出服从正态分布的变量在任意两点之间概率。教学重点 正态分布曲线的特征,服从正态分布变量任意两点间概率的求法。教学难点 正态分布曲线下任意两点间的概率和任意两点间的面积的关系。教学方法和手段 讲授法、演示法学时分配 4学时教学内容 什么是正态分布,标准正态分布及标准正态分布表的使用前面我们学到了变量的分布以及如何用表格图形表示变量分布,那么,这些变量的分布一般呈现出怎样的特征呢?教材第四章讲的是定类、定序及离散型定距变量的分布特征,教材第五章则是连续型定距变量的分布特征。第四章的内容不再讲解,下面学习第五章:连续型定距变量的分布特征正态分布。第一节 什么是正态分布正态分布又称常态分布或高斯分布,是最初由德国数学家高斯在研究误差理论时发现的。在自然、经济、社会等领域内,很多变量都是服从或近似服从正态分布的,如人的身高、体重、一片森林的高度、学生成绩、人的智商等。而且,即使在数量较少时变量不服从正态分布,在数量较多,大于一定数如30后,变量的分布就会接近正态分布,这就是有名的中心极限定理。因此,可以说,在各种分布中,正态分布是最常见、最重要的。如果一变量x服从正态分布,我们可以这样表示:xN()。N表示正态分布,服从正态分布的变量的特点是与均值较接近的数值出现的次数较多,离均值较远的数值出现的次数较少,即属于“中间大、两头小”的分布形态。例:成绩、身高。将服从正态分布的变量做出直方图和折线图,当直方图组距无限变小时,折线便平滑为曲线。这个曲线我们叫它正态分布曲线或钟形曲线。(p139,图5-1)。正态分布曲线有以下三个特征:(p139)当然,如果我们事前不知道一个变量是否服从正态分布,也可通过做曲线图的方法判断其是否服从正态分布。如果做出的曲线符合正态分布曲线的特征,说明这一变量服从正态分布。如果不符合,做出的图形是偏态图形(p38),则说明变量不服从正态分布。正态分布曲线虽有共同特征,但其形状和位置是不固定的,是依均值和标准差的不同而不同的。其中均值主要影响图形的位置,均值增大,图形右移,均值减小,图形左移。标准差主要影响图形的形状,标准差越小,图形越尖瘦(高挑),标准差越大,图形越低平。当我们知道一变量服从正态分布后,除了可以做出正态分布曲线,还可以求出变量在任意两点间的概率(成绩在60分到70分之间的学生所占比例)。变量在任意两点间的概率我们可以用p(x1xx2)来表示,那么,如何求变量在任意两点间的概率呢?我们已经知道,正态分布曲线是当直方图组距无限小时,由折线图平滑而来的,因此,求正态分布曲线下任意两点间的面积,便可转化为求正态分布曲线下任意两点间无数个组距甚小的直方图面积之和。根据前面所学知识,直方图面积表示的是频次或频率。那么,求正态分布曲线下任意两点间的面积,就是求正态分布曲线下任意两点间的频次之和或频率之和。这样,正态分布曲线下任意两点间的频率之和(概率之和)就等于正态分布曲线下任意两点间的面积,也就等于任意两点间无数个组距甚小的直方图面积之和。以下公式成立:p142,143.这样,我们就通过积分求出了变量在任意两点间的概率p(x1xx2)。但是,用积分求变量在任意两点间的概率比较麻烦,更何况还可能有人对积分运算并不熟悉。因此,我们采取另外一种方法求出变量在两点间的概率。这就是第二节的内容。第二节 标准正态分布及标准正态分布表的使用如果一变量x服从正态分布,则Z=服从标准正态分布,标准正态分布是一种特殊的正态分布,是当均值为0,标准差为1时的正态分布,表示为ZN(),Z值称为标准分。将服从标准正态分布的变量做出曲线图,便得标准正态分布曲线。正态分布曲线的位置和形状是不固定的,而标准正态分布曲线的位置和形状则是固定的。它是以均值为0,标准差为1做出的正态分布曲线。因此,经过标准化转换后,所有的正态分布曲线都得到了相同的图形。对于服从标准正态分布的变量,我们同样可以求出其在任意两点之间的概率,用p(Z1ZZ2)表示。不过不是通过积分的方式,而是通过查表。p(Z1ZZ2)=p(zZ2)-p(zZ1)。因此,我们只要将服从正态分布的变量转换为服从标准正态分布的变量,就可以通过查表的方法求出服从标准正态分布的变量任意两点的概率,从而求出了服从正态分布的变量任意两点的概率,实现了我们不通过积分运算而求出变量在任意两点之间的概率的目的。P154,例8,例p155需要注意的是,通过后一种方法求出变量在任意两点的概率,前提是知道均值和标准差,这样才能进行标准化转换。如果不是求25岁到30岁之间结婚的人所占百分比,而是求25岁以下或30岁以上结婚的人所占百分比,应该怎样求?(p152,例5,例4,例6)例7,例9第四章 参数估计教学目的 统计推论包括两部分内容:参数估计和假设检验。本章介绍参数估计,包括点估计和区间估计的方法,要求掌握点估计的方法和用spss统计软件求出置信区间的方法。教学重点 参数的区间估计教学难点 参数的区间估计教学方法和手段 讲授法、演示法学时分配 2学时教学内容 统计推论和名词解释,参数的点估计和区间估计第一节 统计推论和名词解释一 统计推论1、统计推论的特点所谓统计推论就是根据局部资料对总体的特征进行推断,它属于归纳推理的范畴。统计推论具有两方面的特点。一方面由于局部资料来源于总体,因此局部资料的特性在某种程度上能反映总体的特性。例如,总体中女性所占比例高,那么样本中女性比例高的可能性也大些。但另一方面,由于社会资料的随机性,即抽样的结果不是唯一的,又使得一次抽样结果不能恰好就等于总体的结果。(p179-180)2、统计推论的内容为了正确的处理局部和总体之间的数量关系,以便做到正确的从抽样推论到总体,这就构成了统计推论所要介绍的内容。统计推论的内容大体可分为两部分:参数估计和假设检验。参数估计,用通俗的话来说,就是根据抽样结果来合理地、科学的猜一猜总体的参数大概是什么?或者在什么范围?(例:)假设检验则是先对总体做出某种假设,然后再通过抽样检验事先的假设是否正确。例如,根据市场消费情况来看,人民的购买力是很高的,从而推测人均实际收入也是很高的。不妨假设估计它会在千元以上,从而形成以下假设:那么,这样的看法或估计是否真正符合实际情况呢?为此我从总体中随机抽取一部分样本进行验证,从而得出事先的假设是正确或错误的结论。二 名词解释1、总体和样本(1)总体:简单的讲就是研究对象的全体。例:农村居民生活质量调查,大学生日常消费状况调查,安徽工程科技学院大学生日常消费状况调查。构成总体的每一个元素被称为单位,也称为个体。例:每一位农村居民,每一位大学生,安徽工程科技学院每一个大学生。(2)样本:从总体中随机抽取若干单位构成的集合即样本。例:从所有农村居民中随机抽取1000名,对这1000名农村居民的生活质量进行调查,这1000名农村居民的集合即样本;从安工科所有大学生中随机抽取800名学生,对其消费状况进行调查,这800名学生的集合即样本。样本也是由个体组成的,其中包含的个体数目n称为样本大小或样本容量。在社会科学中,一般将样本数目n大于等于50的样本称为大样本,将n小于50的样本称为小样本。在社会学研究中,一般使用的都是大样本,样本越大,对总体的反映就会越好。2、参数和统计量(1)参数:描述总体特征的特征值。如总体均值、总体标准差、总体比例。通常用希腊字母表示。(2)统计量:描述样本特征的特征值,是根据样本计算出来的,如样本均值、样本标准差、样本比例。样本统计量一般用小写英文字母表示。一般我们用样本的统计量来预测估计总体参数。第二节 参数的点估计和区间估计参数估计细分起来又可分作两类:点估计和区间估计。所谓点估计就是用样本计算出来的一个数来估计未知参数,合理的猜一猜总体的参数大概是什么 而区间估计则是通过样本计算出来一个范围来对未知参数进行估计,合理的猜一猜总体的参数在什么范围?一、点估计1、用样本均值估计总体均值(p184 6-1)2、用样本方差估计总体方差(p184,6-2)3、用样本成数(比例)估计总体成数(p184,6-4)二、区间估计参数估计即用一个范围或一个区间来对未知参数进行估计,例如我们说某村的平均月收入在800-1000元之间,显然这样的估计方法比说某村的月平均收入是多少元,猜中的可能性要大得多。1、有关区间估计的名词80,80-5,80+575,8575,85称为置信区间,指的是用来估计总体参数的区间或范围。75为置信区间的下限,85为置信区间的上限。100个人当中,如果有90个人的成绩落在这个区间,我们就说置信度为90%,如果有95个人的成绩落在这个区间,就说置信度为95%,如果有99个人的成绩都落在这个区间,就说置信度为99%。因此,置信度就是变量落在置信区间的概率,我们用1-表示。同时,100个人当中,如果有10个人的成绩没有落在这个区间,我们就说置信水平为10%,或0.1,如果有5个人的成绩没有落在这个区间,我们就说置信水平为0.05,如果有1个人的成绩没有落在这个区间,则置信水平为0.01.因此,置信水平就是变量没有落在置信区间的概率,置信水平我们用表示。置信水平和置信度相加等于1。可以看出来,置信区间越宽,置信度越大,即变量落在这个区间的概率越大,置信区间越窄,置信度越低,即变量落在这个区间的概率越小。反过来也成立,置信度越大,置信区间越宽,置信度越小,置信区间越窄。2、使用spss求出置信区间那么,当我们知道了样本的统计量后,该用多宽的置信区间去估计总体的参数呢?教材五六节讲到了这个问题。但置信区间如果用手算的话将会非常麻烦,而用spss统计软件将会很容易的求出来。第五章 假设检验的基础知识教学目的 假设检验是统计推论的重要内容,也是本门课程的重点。通过本章的学习,要求掌握假设检验的基础知识,包括统计假设,假设检验的基本思想,假设检验中的名词等,并在此基础上了解假设检验的步骤和两类错误,为下一章单总体假设检验的学习奠定知识基础。教学重点 原假设和备择假设,假设检验的基本思想,统计检验中的名词教学难点 假设检验的基本思想,临界值、接受域、拒绝域教学方法和手段 讲授法学时分配 8学时教学内容 统计假设,假设检验的基本思想,统计检验中的名词,假设检验的步骤和两类错误第一节 统计假设一、什么是统计假设一项社会学研究,一般由以下步骤组成:确定课题、了解情况、建立假设、设计问卷、调查实施、统计分析与命题检验。(p1-5)在这些步骤里,其中有一项就是建立统计假设。所谓统计假设,就是事先对总体情况做出的假设。举例说,如果根据以往资料,某地女青年的平均初婚年龄=20岁,通过探索性研究,发现目前女青年的初婚年龄比以往有所推迟,也就是20岁。于是我们可以成立这样一个统计假设:目前女青年的平均初婚年龄比以往有所推迟。二、原假设和备择假设统计假设一般包括两部分:原假设和备择假设。原假设:原假设又称虚无假设、解消假设或零假设,一般用H0表示。它常常是根据已有的资料,或根据周密考虑后确定的,因此,没有充分根据,是不能轻易否定原假设的。如根据以往资料,某地女青年的平均初婚年龄为20岁,20则是根据以往资料确定的,没有充分理由不能否定,因此可作为原假设。备择假设:备择假设又称研究假设,是拒绝原假设后可供选择的假设,一般用H1表示。原假设不能被轻易拒绝,但也不表示永远不会被拒绝,当我们有充分根据时,就可以否定原假设而取备择假设。备择假设可以有三种形式。以原假设=20为例,当=20被否定后,可能被采用的备择假设有三种:。一个完整的统计假设应该包括两部分:原假设和备择假设。当然,由于备择假设有三种形式,统计假设也有三种形式:p224,其中前两种称作单边检验,后一种为双边检验。第二节 假设检验的基本思想写出统计假设后,这个假设是否成立还要通过实际的调查来检验,即假设检验。那么,假设检验如何进行,其基本思想是什么呢?在学习这一部分内容之前,先来了解一下小概率原理。一、小概率原理在日常生活中,人们习惯于把概率很小的事件(发生可能性很小的事件:交通事故、瞬时变天),当做在一次观察中是不可能出现的事件,这个原理称作小概率原理。在日常生活中,人们总在不自觉的使用小概率原理。但是,现实的情况,如果在一次观察中恰恰发生了小概率事件,那又该作何解释呢?比如:如果相传某市社会治安很好,可某人刚踏进这个城市,就遇到了小偷,那么,他此时会怎么想呢?是坚持认为只是发生了小概率事件,还是怀疑这个城市社会治安是否良好?一般人都会选择后者,因为一个社会治安不好的社会,碰到小偷的机会要远比社会治安良好的多。因此,总起来说,小概率原理可以归纳为两个方面:一是可以认为小概率事件在一次观察中是不可能发生的。二是如果在一次观察中出现了小概率事件,那么,合理的想法是否定原有事件具有小概率的说法。二、假设检验基本思想假设检验的思想,在统计学中可以这样表述:随机抽取一个样本,看在原假设(某市社会治安好)成立的条件下,根据样本计算的某个统计量(一次观察中碰到小偷)发生的可能性。如果是根本不可能发生的,而现在却发生了,也就是发生了小概率事件,那么就拒绝或否定这个原假设,并继而接受它的对立面备择假设(该市社会治安不好)。反之,如果在原假设成立的条件下,根据样本计算的某个统计量发生的可能性不是很小,即没有发生小概率事件,那么就接受原假设。例1:第三节 假设检验中的名词一、显著性水平可以看出来,进行假设检验,决定是否接受原假设的关键就是看是否发生了小概率事件。那么,如何判断一个事件是不是小概率事件呢?这跟我们所规定的小概率的标准是有关系的。这个小概率标准我们就称为显著性水平,用表示。在统计检验中规定的小概率的标准或显著性水平有三个:0.10,0.05,0.01。如果我们将小概率的标准定为0.10,发生概率小于10%的事件我们就称为小概率事件;如果将小概率标准定为0.05,发生概率小于5%的事件就是小概率事件;同样,如果标准为0.01,则将发生概率小于1%的事件定位小概率事件。举例来说,如果一种疾病的发病率为6%,也就是平均每100个人里会有6个人患此病,那么,当一个得了此病,是不是就发生了小概率事件呢?这就要看我们规定的小概率的标准,当我们将小概率标准定为0.10的时候,就说是发生了小概率事件,当将小概率标准定为0.05的时候,则不能说发生了小概率事件。可以看出来,我们规定的小概率的标准越小,判定其为小概率事件越难。我们经常使用的小概率的标准是=0.05。二、临界值、双边检验和单边检验原假设是否成立我们是通过计算样本的统计量是否为小概率事件来判定的,因此,选择合适的统计量是很重要的。在假设检验中,我们经常使用的统计量有两个:p7-1,p7-2。第一个统计量服从于标准正态分布,第二个服从t分布,类似于标准正态分布。在这里我们可以画出第一个统计量的标准正态分布图。在这个标准正态图形当中,横轴表示Z的每一个取值(每个样本的均值不同,Z值也就不同),纵轴表示(Z)。当假设检验为双边检验时,以女青年结婚年龄为例,当经过实际调查,发现目前女青年的结婚年龄在20岁左右不远的地方,如21、22,或18、19,则我们一般会认为目前女青年的结婚年龄跟以前没有很大变化,即没有发生小概率事件,因此接受原假设。但当我们调查发现目前女青年的结婚年龄已经变为25岁或15岁的时候,则我们会认为目前女青年的结婚年龄跟以前相比有了较大变化,发生了小概率事件,因此要拒绝原假设,接受备择假设。因此可以看出来,在这个例子当中,小概率事件是分布在正态曲线两侧的。由于小概率事件发生的概率为,因此两侧分别为/2。之所以用面积表示小概率事件,是因为正态曲线下的面积是可以用频率来表示的。两侧面积为,则中间面积为1-。而区分小概率事件和非小概率事件的分界点就是临界值,因为分界点

    注意事项

    本文(《社会统计学》重点知识梳理.doc)为本站会员(PIYPING)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开