内容正文:
单元复习课件
第八章 成对数据的统计分析
人教A版选择性必修第三册·高二
学习内容导览
单元知识图谱
2
单元复习目标
1
3
考点串讲
针对训练
5
题型剖析
4
6
课堂总结
1.复习回顾通过样本相关系数比较多组成对数据的相关性;进一步掌握一元线性回归模型的含义,掌握一元线性回归模型参数的最二小乘估计方法;通过具体实例,体会统计思维与确定性思维的差异;积累数据分析经验,培养数据分析、逻辑推理等素养.
3.回顾并梳理刻画模型拟合效果指标效果的指标,非线性向线性的转化分析;运用独立性检验基本方法以及与统计、概率知识的综合应用.
2. 理解样本相关系数、经验回归方程的求解与运用. 2×2列联表的统计意义,独立性检验的基本思想,独立性检验的基本方法及其应用.
单元学习目标
成对数据的统计相关性
变量的相关关系
样本相关系数
一元线性回归模型及其应用
列联表与独立性检验
一元线性回归模型
一元线性回归模型参数的最小二乘估计
分类变量与列联表
独立性检验
单元知识图谱
一、成对数据的统计相关性
(一)变量的相关关系
1.相关关系:
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2. 变量相关关系的分类
分类一:
正相关:指的是两个变量有相同的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变大,点的位置散布在从左下角到右上角的区域.
负相关:指的是两个变量有相反的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变小,点的位置散布在从左上角到右下角的区域内.
考点串讲
一、成对数据的统计相关性
(一)变量的相关关系
分类二:
线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量线性相关.
非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
考点串讲
一、成对数据的统计相关性
(一)变量的相关关系
3.样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1, y1), (x2, y2),‧‧‧, (xn, yn),其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为 和 .
我们称
为变量x和变量y的样本相关系数.
考点串讲
一、成对数据的统计相关性
(一)变量的相关关系
当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
考点串讲
一、成对数据的统计相关性
(一)变量的相关关系
3.样本相关系数的性质
相关系数r的正负和绝对值的大小可以反映成对样本数据之间线性相关的程度:
① 当r>0时,成对样本数据正相关;
当r<0时,成对样本数据负相关.
② r的范围:|r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;
当|r|越接近0时,成对数据的线性相关程度越弱;
特别地,
当|r|=0时,成对数据的没有线性相关关系;
但不排除它们有其他相关关系
当|r|=1时,成对数据都落在一条直线上.
考点串讲
二、一元线性回归模型及其应用
(二)一元线性回归模型
由于成对样本数据的散点图中,散点分布在一条直线y=bx+a的周围,因此可以用bx+a表示Y的均值,引入随机误差e,用以囊括其他所有随机影响因素,
可建立一元线性回归模型
在一元线性回归模型中,表达式Y=bx+a+e刻画的是随机变量Y与变量x之间的线性相关关系,其中参数a和b为模型的未知参数,需要根据成对样本数据进行估计.
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
1.一元线性回归模型
考点串讲
二、一元线性回归模型及其应用
(二)一元线性回归模型
2.经验回归方程
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用该公式求得的 叫做b, a的最小二乘估计.其中
说明:(1)经验回归直线必过样本中心;
(2)与相关系数r符号相同.
考点串讲
二、一元线性回归模型及其应用
(二)一元线性回归模型
3.残差分析
对于响应变量Y,通过观测得到的数据y称为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值 称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
考点串讲
二、一元线性回归模型及其应用
(二)一元线性回归模型
4.决定系数R2
通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.
决定系数R2的计算公式为
残差平方和
偏差平方和
(与经验回归方程有关)
(与经验回归方程无关)
R2越大,表示残差平方和越小,即模型的拟合效果越好
R2越小,表示残差平方和越大,即模型的拟合效果越差.
在一元线性回归模型中 R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.
考点串讲
三、列联表与独立性检验
(一)分类变量与列联表
1. 分类变量
我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.
这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种.
考点串讲
三、列联表与独立性检验
(一)分类变量与列联表
2. 2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
考点串讲
三、列联表与独立性检验
(二)独立性检验
1. 卡方统计量
根据分类变量X和Y的2×2列联表中的数据可得如下统计量:
该表达式可化简为
考点串讲
三、列联表与独立性检验
(二)独立性检验
2. χ2的临界值
忽略卡方的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数,使得下面关系成立:
我们称xα为α的临界值,
这个临界值可以作为判断χ2大小的标准.
只要把概率值α取得充分小,在零假设成立的情
况下,事件{χ2 ≥ xα}是不大可能发生的,根据这个规律,
如果该事件发生, 我们就可以推断零假设不成立,不过这个推断有可能犯错误,但犯错误的概率不会超过α.
概率值α越小,临界值xα越大.
考点串讲
三、列联表与独立性检验
(二)独立性检验
①当≥时,我们就推断 H0 不成立,即认为X和Y不独立.
②当<时,我们没有充分证据推断 H0 不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
该推断犯错误的概率不超过
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值:
基于小概率值α的检验规则:
3.独立性检验
考点串讲
【题型一】样本相关系数
【例1】某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量y(单位: ),得到如下数据:
样本号ff 1 2 3 4 5 6 7 8 9 10
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40
并计算得,,, , .
(1)估计该林区这种树木平均一棵的根部横截面积(单位: )与平均一棵的材积量
(单位: );
[解析] 估计该林区这种树木平均一棵的根部横截面积 ,
平均一棵的材积量 .
题型剖析
【题型一】样本相关系数
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到 );
[解析] 样本相关系数
,
即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97.
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积
总和为 ,已知树木的材积量与其根部横截面积近似成正比,利用以上数据给出该林
区这种树木的总材积量的估计值.
[解析] 设这种树木的根部横截面积总和为,总材积量为 ,
则,则 ,
所以该林区这种树木的总材积量的估计值为 .
题型剖析
【训练1】现随机抽取了某校10名学生在入学考试中的数学成绩 (单位:分)与入学后的第一次考试中的数学成绩 (单位:分),数据如下表:
学生序号 1 2 3 4 5 6 7 8 9 10
120 108 117 104 103 110 104 105 99 108
84 64 84 68 69 68 69 46 57 71
请用样本相关系数 判断这10名学生的两次考试的数学成绩之间的线性相关关系的强
弱(若 ,则线性相关关系很强).
参考数据:,, ,
, .
[解析] 由题表中数据可得 , ,
所以样本相关系数 ,
因为 ,所以两次考试的数学成绩之间的线性相关关系很强.
针对训练
【题型二】线性回归分析
【例2】一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:
零件数 个 10 20 30 40 50 60 70 80 90 100
加工时间 62 72 75 81 85 95 103 108 112 127
(1)画出散点图,并初步判断与 是否线性相关,若线性相关,求经验回归方程;
[解析] 散点图如图所示.
题型剖析
【题型二】线性回归分析
由图可知,, 线性相关,
与 的关系可以用线性回归模型来拟合,不妨设经验回归方程为 .
将数据代入相应公式可得数据表:
编号 零件数 个 加工时间
1 10 62 620 100
2 20 72 1 440 400
3 30 75 2 250 900
4 40 81 3 240 1 600
5 50 85 4 250 2 500
6 60 95 5 700 3 600
7 70 103 7 210 4 900
8 80 108 8 640 6 400
9 90 112 10 080 8 100
10 100 127 12 700 10 000
合计 550 920 56 130 38 500
, ,
,
,
经验回归方程为 .
题型剖析
【题型二】线性回归分析
(2)求出 ;
[解析] 利用(1)中经验回归方程求出下列数据.
61.85 68.55 75.25 81.95 88.65
0.15 3.45
95.35 102.05 108.75 115.45 122.15
0.95 4.85
3 11 16 20 35
.
题型剖析
【题型二】线性回归分析
(3)作出残差图;
[解析] ,利用(2)中数
据作出残差图,如图所示.
(4)进行残差分析.
[解析] 由散点图可以看出与有很强的
线性相关性,由 的值可以看出回归模
型的拟合效果很好.由残差图也可以观察
到,第2,5,9,10个样本点的残差比较大,
需要确认在采集这些样本点的过程中是
否有人为的错误.
题型剖析
【训练2】“天宫”空间站、“嫦娥”奔月、“祝融”探火、“羲和”探月……从远古神话
梦想到新中国成立后的航天事业飞速发展,中国人正一步一个脚印地探索更高、
更远的太空奥秘.其中,飞行器及其动力装置、附件、仪表所用到的各类材料是航
天工程技术发展的部分决定性因素.某公司负责生产的 型航天材料是飞行器的重
要零件,该材料应用前景十分广泛,现该公司欲对 型航天材料进行改造,根据
市场调研与模拟,得到改造投入(单位:亿元)与产品的直接收益 (单位:亿
元)的数据统计如下:
2 3 4 6 10 11
12 22 26 41 53 65
经研究表明,与 具有线性相关关系.
针对训练
(1)根据统计表中的数据,求出关于的经验回归方程 ;
[解析] 由题表中数据得 ,
,
所以 ,
,
故所求经验回归方程为 .
针对训练
(2)为了鼓励科技创新,当改造投入不少于15亿元时,国家给予公司补贴5亿元,
试估计当公司收益(直接收益 国家补贴)达到90亿元时,改造投入约为多少亿元
(精确到 ).参考数据:, .
[解析] 由题意得 ,
解得 ,
,符合国家给予公司补贴的条件,
所以公司收益达到90亿元时,改造投入约为15.15亿元.
针对训练
【题型三】非线性回归分析
【例3】 某研发团队为制订下一年的研发投入计划,需要了解年研发资金投入 (单位:亿元)对年销售额 (单位:亿元)的影响,现结合该研发团队近12年的年研发资金投入和年销售额 的数据 建立了两个函数模型:
,,其中 , , ,均为常数, 为自然对数的底数,经过对历史数据的初步处理,得到散点图如图.
令, ,计算得数据如表所示:
20 66 770 200 14
460 4.20 3 125 000 0.308 21 500
题型剖析
【题型三】非线性回归分析
(1)设和的样本相关系数为,和的样本相关系数为 ,请从样本相关系数的
角度考虑,选择一个拟合程度更好的模型(精确到 );
[解析] ,
,
则,因此从样本相关系数的角度考虑,模型 的拟合程度更好.
题型剖析
【题型三】非线性回归分析
(2)①根据(1)中的选择及表中数据,建立关于 的经验回归方程(精确到 );
[解析] 由,得 ,即 .
,
,,
所以关于的经验回归方程为 ,
所以,则 .
题型剖析
【题型三】非线性回归分析
②若下一年的年销售额需达到80亿元,则预测下一年的研发资金投入为多少亿元.
参考数据:, .
[解析] 下一年的年销售额需达到80亿元,即 ,代入
得, ,
又,所以 ,
解得 ,
所以预测下一年的研发资金投入为27.1亿元.
题型剖析
【训练3】红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数 (单位:个)和平均温度 (单位: )有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
参考数据
5 215 17 713 714 27 81.3 3.6
(1)根据散点图判断,与(其中,,, 均为常数,为自然对数的
底数)哪一个更适合作为平均产卵数 (单位:个)关于平均温度(单位: )的回
归模型(给出判断即可,不必说明理由);
[解析] 由散点图可以判断,更适合作为平均产卵数 关于平均温度 的回
归模型.
针对训练
(2)由(1)的判断结果及表中数据,求出关于 的经验回归方程(精确到 );
[解析] 两边同时取自然对数,
可得,设 ,又 ,
.
由题表中的数据可得, , ,
,
则 ,
所以关于的经验回归方程为 ,
故关于的经验回归方程为 .
针对训练
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温
在以下的年数占 ,对柚子产量影响不大,不需要采取防虫措施;平均气
温在至的年数占 ,柚子产量会下降;平均气温在以上的年
数占,柚子产量会下降 .为了更好地防治红蜘蛛虫害,农科所研究出各种
防虫害措施供果农选择.在每年价格不变,无虫害的情况下,某果园年产值为200万
元,根据以上数据,以得到最高收益(收益 产值-防虫害费用)为目标,请为果
农从以下几个方案中选择最佳防虫害方案,并说明理由.
方案一:选择防虫害措施 ,可以防治各种气温的红蜘蛛虫害,费用是18万;
方案二:选择防虫害措施,可以防治至 的蜘蛛虫害,但无法防治
以上的红蜘蛛虫害,费用是10万;
方案三:不采取防虫害措施.
[解析] 用,和 分别表示选择三种方案的收益.
采用方案一,无论气温如何,产值不受影响,收益为 (万),即 ;
针对训练
采用方案二,若年平均气温在及以下,则收益为 (万),
若年平均气温在以上,则收益为 (万),
即
同样,采用方案三,有
,
,
.
显然 最大,所以选择方案一最佳.
针对训练
【题型四】独立性检验
【例4】为了响应国家精准扶贫的号召,某村特地承包一块地,土地的使用面积与管理时间 的关系如表1.调查了300名村民参与管理的意愿如表2.
表1
土地使用面积 1 2 3 4 5
管理时间 8 10 13 25 24
表2
单位:人
性别 参与管理的意愿 合计
愿意 不愿意
男 150 50 200
女 50
合计 200 300
题型剖析
【题型四】独立性检验
(1)判断管理时间与土地面积有极强的线性相关关系,求出关于 的经验回归方程;
[解析] 依题意可得,
,
,
,
,
所以 ,
,
即关于的经验回归方程为 .
题型剖析
【题型四】独立性检验
(2)完善表2中的数据,依据小概率值 的独立性检验,分析参与管理的意愿
是否与性别有关联;
[解析] 完善表格如下:(单位:人)
性别 参与管理的意愿 合计
愿意 不愿意
男 150 50 200
女 50 50 100
合计 200 100 300
零假设为 参与管理的意愿和性别没有关联.
根据列联表中的数据,经计算得到
,
依据小概率值的独立性检验,推断 不成立,即认为参与管理的意愿和
性别有关联.
题型剖析
【题型四】独立性检验
(3)利用分层随机抽样的方法从愿意参与管理的村民中抽取4人,再从4人中抽取
3人,其中男性人数为,求 的分布列和数学期望.
[解析] 利用分层随机抽样的方法从愿意参与管理的村民中抽取4人,则
抽到的男性有 (人),抽到的女性有1人.
依题意得, 的所有可能取值为2,3,
则 , ,
故 的分布列为
2 3
所以 .
题型剖析
【训练4】 第24届冬季奥林匹克运动会在我国成功举行.为调查不同地域的青少年对
冰雪运动的了解情况,某机构抽样调查了北京、天津、上海、重庆四个城市的部分
高中生,调查问卷共20道题目.
(1)若某个参加调查的同学能确定其中10道题目的答案,其余10道题目中,有5道题
目他能够答对的概率均为 ,另外5道题目他能够答对的概率均为 ,求该同学答
对题目道数的均值;
[解析] 记答对概率为0.6的5道题目中,该同学答对的道数为 ,
答对概率为0.2的5道题目中,该同学答对的道数为 ,则, ,
所以该同学答对题目的道数的均值为 .
针对训练
(2)将重庆和上海并为“南方组”,北京和天津并为“北方组”,通过调查得到如下列
联表:(单位:人)
地域类别 了解程度 合计
不了解 非常了解
南方组 53 112 165
北方组 96 139 235
合计 149 251 400
请在参考数据②中选择一个 ,根据小概率值 的独立性检验,分析对冰雪运动
的了解程度是否存在南北地域差异.
参考数据: , ,
.
针对训练
②临界值表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
[解析] 零假设为 对冰雪运动的了解程度不存在南北地域差异.
由已知条件及参考数据得, .
若选择,则 ,
根据小概率值的独立性检验,推断 不成立,即认为对冰雪运动的了解程
度存在南北地域差异,此推断犯错误的概率不大于0.1.
若选择,则 ,
根据小概率值的独立性检验,没有充分证据推断 不成立,可以认为 成
立,即认为对冰雪运动的了解程度不存在南北地域差异.
针对训练
一、求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)计算有关数据.
(4)代入公式计算.
(5)写出经验回归方程=x+.
注:用公式计算,的值时,一般要先计算,然后才能算出.
课堂总结
二、建立回归模型的一般步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量;
(2)画出确定好的解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系);
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性
回归方程x+;
(4)按一定规则估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性,等等).若残差存在异常,则应检查数据是否有误,或模型是否合适等;
(6)依据回归方程作出预报.
课堂总结
三、非线性回归问题的处理方法
1.指数函数型y=ebx+a
①函数y=ebx+a的图象如图所示:
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.
令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
课堂总结
三、非线性回归问题的处理方法
2.对数函数型y=bln x+a
①函数y=bln x+a的图象如图所示:
②处理方法:设x'=ln x,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b.
课堂总结
四、独立性检验的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
课堂总结
感谢聆听!
如果χ2≥xα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
$