高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf
《高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf》由会员分享,可在线阅读,更多相关《高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf(12页珍藏版)》请在三一文库上搜索。
1、3.1 第二课时残差分析及回归模型的选择 一、课前准备 1. 课时目标 (1) 了解残差分析回归效果; (2) 了解相关指数 2 R分析回归效果; (3) 了解常见的非线性回归转化为线性回归的方法. 2. 基础预探 1. 在线性回归模型ybxae中,ab和为模型的未知参数,ey是与y bxa之间的 误差,通常为随机变量,称为_. 它的均值E() 0,方差 2 ( )0D e. 线性回归模型的完整表达形式为 2 ( )0,( ) ybxae E eD e . 在此模型中,随机误差的方 差 2 越小,通过回归直线ybxa预报真实值的精度越高. 2. 对 于 样 本 点 1122 (,),(,),(
2、,) nn xyxyxy而 言 , 相 应 于 它 们 的 随 机 误 差 为 (1,2, ) iiii eyyybxa in,其估计值为 (1,2, ) iiiii eyyybxa in, i e称 为 相 应 于 点(,) ii x y的 _. 类 比 样 本 方 差 估 计 总 体 方 差 的 思 想 , 可 以 用 2 1 (,) 2 Q a b n ( 2) 作为 2 的估计量,其中ab和由公式给出,()Q a b,称为残差平 方和 . 可以用 2 衡量回归直线方程的预报精度. 通常 2 越小,预报精度越高. 3. 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关
3、,是否可以 用线性回归模型来拟合数据. 然后,可以通过残差 12,ne ee来判断模型拟合的效果,判断 原始数据中是否存在可疑数据. 这方面的分析工作称为_. 4. 用相关指数 2 R来刻画回归的效果,其计算公式是: 2 21 2 1 () 1 () n i i n i i yy R yy . 显然 2 R取值越 大,意味着残差平方和_,也就是说模型的拟合效果_. 二、学习引领 1. 进行回归分析的步骤是什么? (1) 确定研究对象,明确是哪两个变量之间的相关关系. (2) 画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关 系数的值来精确判断它们之间是否存在相关关系.
4、如果不存在线性相关关系,判断散点图是 否存在非线性相关关系. (3) 若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选 用线性回归方程 ? y =bx+a;否则可选择指数模型、对数模型或二次函数模型等. (4) 利用残差图或者相关指数 2 R对回归效果进行判断 2. 随机误差的产生及估计的方法 (1) 在实际中,随机变量除了受随机变量的影响之外,还受其它变量的影响;(2) 由于前面相关关系公式中的 ab和 为截距和斜率的估计值,它们与真实值 ab和 之间也存在 误差 .(3) 因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些 总体特征 . 均值是
5、反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值 程度的数字特征,而随机变量的均值为0,因此可以用方差 2 来衡量随机误差的大小. 3. 如何利用 2 R判断回归效果 在线性回归模型中, 2 R表示解释变量对于预报变量变化的贡献率. 2 R越接近于1,表 示回归的效果越好(因为 2 R 越接近于1,表示解释变量和预报变量的相关性越强). 如果对某 组数据可能采取几种不同的回归方程进行回归分析. 也可以通过比较几个 2 R, 选择其值大的 模型 . 4. 常见的可线性化的回归模型 (1) 幂函数曲线y=ax b( 如图所示 ), 作变换 u=lny ,v=lnx,c=lna, 得
6、线性函数u=c+bv. (2) 指数函数y=ae bx( 如图所示 ) 作变换 u=lny, c= lna, 得线性函数u=c+bx. (3) 倒指数曲线y=a b x e( 如图所示 ). (4) 对数曲线y=a+blnx( 如图所示 ) 三、典例导析 题型一相关系数的应用 例 1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车 辆数是否有线性相关关系? 机动车辆数 x/ 千台 95 110 112 120 129 135 150 180 交通事故数 y/ 千件 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13. 0 思路点拨:先列表计算出相关系数所
7、需数据,代入公式即可求出相关系数r ,由此判断交通 事故数 y 与机动车辆数x 是否线性相关. 解析:将数据列成下表 由此可知x=128.875 y=8.95 ,进而求得 r= 22 9611.7 8 128.875 8.95 0.9927 (137835 8 128.875 )(6718 8.95 ) . 因为 |r|接近 1 , 所以可得交通事故数y 和机动车辆数x 有较强的线性相关关系. 规律总结: 进行回归分析时,通常先进行相关性检验,若能确定两个变量具有线性相关关 系, 再去求其线性回归方程,否则所求的方程无意义. 两个变量正 (负) 相关时,它们就有 相同 ( 反) 的变化趋势,即
8、当由小变大时,相应的有由小( 大 )变大 ( 小) 的趋势 . 变式训练: 某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工 业部门内随机抽取了10 个企业作样本,有如下资料. 见下表 . 产量 x ( 千 克) 40 42 48 55 65 79 88 100 120 140 生 产 费 用 y( 千元 ) 150 140 160 170 150 162 185 165 190 185 完成下列要求: (1) 计算 x 与 y 的相关系数; (2) 对这两个变量之间是否线性相关进行相关性检验。 题型二残差分析 某城区为研究城镇居民月家庭人均生活费支出和月人均收人的相关关
9、系. 随机抽取10 户进 行调查 . 其结果如下: 月 人 均收 人 x( 元 ) 300 390 420 520 570 700 760 800 850 1080 月人均生活费 y ( 元) 255 324 335 360 450 520 580 600 630 750 试预测人均月收人为1100 元和人均月收入为1200 元的两个家庭的月人均生活费. 思路导析:列表计算出相关系数所需数据,代入公式即可求出相关系数r ,初步判断两个变 量之间是否具备相关性,然后做出残差图判断选用的模型是否合适. 解析:作出散点分布图,由图可知月人均生活费与人均收人之间具有线性相关关系. 由题意可知:639,
10、480.4xy, 101010 22 111 4610300,2540526,3417560, iiii iii xyx y 计算相关系数可得 r=0.99316 , 因为 |r|接近 1 , 所以可得两个变量有较强的线性相关关系. 代入公式可知b= 10 1 10 22 1 10 10 ii i i i x yxy xx =0.6599 ,a=y-b x=58.751. 故回归直线方程为 ? y =0.6599x+58.751. 作残差如图所示,由图可知, 残差点比较均匀地分布在水平的带状区域中,说明选用的模型 比较合适 . 计算相关指数R 2=0.986 3,说明城镇居民的月人均生活费的差
11、异有 98.63 是由人均收人引 起的 . 由以上分析可知. 我们可以利用回归方程 ? y =0.6599x-58.751来作月生活费的预报值. 将 x=1100 代人得, ? y =784.64( 元) ; 将 x=1200 代人得,? y=850.63( 元). 故预测月人均收人分别为1100 元和 l200元的两家庭的月人均生活费分别为784.64元和 850.63 元 归律总结: 如果作出的残差图中的残差点比较均匀地分布在水平的带状区域中,带状区域宽 度越窄,说明模型拟合程度越高,回归方程的预报精度越高. 若利用相关指数R 2 来刻画拟合 效果的好坏, R 2 的取值越接近1,说明残差
12、的平方和越小,即说明模型的拟合效果越好. 变式训练:在一段时间内,某种商品的价格x( 元)与需求量y( 件) 之间的数据为 价格 x( 元) 14 16 18 20 22 需求量 y( 件) 56 50 43 41 37 求出 y 对 x 的回归直线方程,并说明拟合效果的好坏. 题型三:非线性回归分析 例 3 现代经济学证明,工厂生产产品的成本与其产量有关,产量越大,其成本越低. 某饰品 工艺厂在生产某种民族特色艺术品时,得到了每件饰品的成本费y( 元) 与产量 x( 百件 )之间 的如下数据: x 1 2 3 5 10 y 10.15 5.52 4.08 2.85 2.11 x 20 30
13、50 100 200 y 1.62 1.41 1.30 1.21 1.15 检验每件饰品的成本费y 与产量x 之间是否具有线性相关关系,若有,求出y 对 x 的 回归方程;若没有,你能求出y 与 x 的一个关系式吗? 思路导析: 通过散点图观察两个变量具备怎样的相关关系,根据相关关系的特征选择合适的 模型,将非线性相关的关系通过置换变为线性相关关系,然后求出成本与产量之间的关系. 解析:画出x 和 y 的散点图,如图. 图中的点的分布不在一条直线附近,故每件饰品的成本费y 与产量x 间不具有线性相 关关系, 又图中的点的分布近似于反比例函数中的一支,故可把 x 1 置换为 u,检验 y 与 u
14、 之 间的相关关系,则有u x 1 ,从而 u 与 y 的数据为 u1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 然后作相关性检验. 经计算得r=0.9998 , 因为 |r|接近于 1,所以可以认为两个变量y 与 u 之间具有较强线性相关关系; 由公式得a=1.125 ,b=8.973 ,所以 ? y =1.125+8.973u , 最后回代u= x 1 ,可得 8.973 ?1.125y x . 答: y 对 x 的回归方程为 8.973
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高中数学 第三 统计 案例 3.1 课时 分析 回归 模型 选择 新人
链接地址:https://www.31doc.com/p-5166116.html