内容正文:
34 成对数据的统计分析(新编)
【复习目标】
1、考点归纳
(1)相关程度与回归分析及预测;(2)独立性检验
2、易错易混点归纳
(1)计算相关系数r与回归方程系数公式混淆;(2)相关系数的大小与相关程度的关系;(3)选择更优的公式,运用公式时代入计算错误
【思维导图】
【重要考点、易错易混点的注释】
1.回归分析
(1)样本相关系数:r= ,主要用于成对样本数据的显著性检验,以衡量它们之间的线性相关程度.当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.|r|越接近1,表明成对样本数据的线性相关程度越强;|r|越接近0,表明成对样本数据的线性相关程度越弱.
(2)经验回归方程
=x+,其中==,=-;
2.独立性检验的方法
(1)提出零假设为H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2=的值,并与临界值xα比较.
(3)如果χ2≥xα,就推断“X与Y不独立”,这种推断犯错误的概率不超过P(χ2≥xα);否则不能推断“X与Y不独立”,或者在样本数据中没有发现足够证据支持结论“X与Y不独立”.
【典例探究】
考点一 相关程度与回归分析及预测
学法指导:回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:
(1)若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;
(2)若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,通过恰当的变换,将其转化为线性相关关系,再求回归方程;
(3)利用回归方程可以进行预测与估计,但要注意回归方程表示的是两组数据之间的相关关系,并不是函数关系,所以利用该方程求出的值是估计值,而不是一个确定的值.
【例1】(2022·全国乙卷理19题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
考点二 独立性检验
学法指导:解决独立性检验问题的关键是过好三关
(1)假设关:假设两个分类变量无关;(2)公式关:把相关数据代入独立性检验公式求χ2的观测值;
(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断.
【例2】(2024·全国甲卷理17题)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
(1)填写如下列联表:
优级品
非优级品
甲车间
乙车间
(1)能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率,如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【训练检测】
1.(2024·郑州第三次质量检测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2020—2024年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份
年份代码
2020年
2021年
2022年
2023年
2024年
xi
1
2
3
4
5
yi
6.4
5.5
5.0
4.8
3.8
(1)求2020—2024年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2028年的酸雨区面积占国土面积的百分比.
附:样本相关系数r=,≈6.
经验回归直线的斜率和截距的最小二乘法估计分别为:
=,=-,xiyi=70.6,=133.69.
2.(2024·开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用餐的情况如下:
男
女
在A餐厅用餐
40
20
在B餐厅用餐
15
25
(1)以题中所给频率作为概率,求某天甲、乙两名同学选择同一套餐用餐的概率;
(2)依据小概率值α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?
附:χ2=.
α
0.05
0.01
0.005
0.001
xα
3.841
6.635
7.879
10.828
3.(2024·河南九师联盟)PM2.5是指环境空气中直径小于或等于2.5微米的颗粒物.它能较长时间悬浮于空气中,其在空气中含量越高,说明空气污染越严重.城市中的PM2.5成分除扬尘等自然因素外,燃料的燃烧也是一个重要来源.某市环境检测部门为检测燃油车流量对空气质量的影响,在一个检测点统计每日过往的燃油车流量x(单位:辆)和空气中的PM2.5的平均浓度y(单位:μg/m3).检测人员采集了50天的数据,制成2×2列联表(部分数据缺失):
PM2.5的平均浓度
燃油车日流量
合计
燃油车日流量x<1 500
燃油车日流量x≥1 500
PM2.5的平均浓度y<100
16
24
PM2.5的平均浓度y≥100
20
合计
22
(1)完成上面的2×2列联表,并根据小概率值α=0.005的独立性检验,能否认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆有关联?
(2)经计算得y与x之间的经验回归方程为=0.12x-73.86,且这50天的燃油车的日流量x的标准差Sx=249,PM2.5的平均浓度y的标准差Sy=36.若样本相关系数r满足|r|≥0.75,则判定所求经验回归方程有价值;否则判定其无价值.
①判断该经验回归方程是否有价值;
②若这50天的燃油车的日流量x满足=1.23×108,试求这50天的PM2.5的平均浓度y的平均数(利用四舍五入法精确到0.1).
参考数据:×1.23=0.024 6,2492=62 001,≈1 548.55.
【预习要求】
1、 认真阅读选择性必修一234页-258页,学案、熟悉本节课的“复习目标”、“重点”、“难点”;
2、 能合本说出样本相关系数、回归方程的公式,独立性检验公式。
3、能合本说出成对数据的统计分析的思维导图。
高三数学 第 1 页(共 2 页)
学科网(北京)股份有限公司
$$
34 成对数据的统计分析(新编)
【复习目标】
1、考点归纳
(1)相关程度与回归分析及预测;(2)独立性检验
2、易错易混点归纳
(1)计算相关系数r与回归方程系数公式混淆;(2)相关系数的大小与相关程度的关系;(3)选择更优的公式,运用公式时代入计算错误
【思维导图】
【重要考点、易错易混点的注释】
1.回归分析
(1)样本相关系数:r= ,主要用于成对样本数据的显著性检验,以衡量它们之间的线性相关程度.当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.|r|越接近1,表明成对样本数据的线性相关程度越强;|r|越接近0,表明成对样本数据的线性相关程度越弱.
(2)经验回归方程
=x+,其中==,=-;
2.独立性检验的方法
(1)提出零假设为H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2=的值,并与临界值xα比较.
(3)如果χ2≥xα,就推断“X与Y不独立”,这种推断犯错误的概率不超过P(χ2≥xα);否则不能推断“X与Y不独立”,或者在样本数据中没有发现足够证据支持结论“X与Y不独立”.
【典例探究】
考点一 相关程度与回归分析及预测
学法指导:回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:
(1)若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;
(2)若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,通过恰当的变换,将其转化为线性相关关系,再求回归方程;
(3)利用回归方程可以进行预测与估计,但要注意回归方程表示的是两组数据之间的相关关系,并不是函数关系,所以利用该方程求出的值是估计值,而不是一个确定的值.
【例1】(2022·全国乙卷理19题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
【答案】(1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量===0.39.
(2)(xi-)(yi-)=xiyi-10=0.013 4,
(xi-)2=-10()2=0.002,
(yi-)2=-10()2=0.094 8,
所以==≈0.01×1.377=0.013 77,
所以样本相关系数r=≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
考点二 独立性检验
学法指导:解决独立性检验问题的关键是过好三关
(1)假设关:假设两个分类变量无关;(2)公式关:把相关数据代入独立性检验公式求χ2的观测值;
(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断.
【例2】(2024·全国甲卷理17题)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
(1)填写如下列联表:
优级品
非优级品
甲车间
乙车间
(1)能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率,如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)填写如下列联表:
优级品
非优级品
甲车间
26
24
乙车间
70
30
则完整的2×2列联表如下:
优级品
非优级品
总计
甲车间
26
24
50
乙车间
70
30
100
总计
96
54
150
K2==4.687 5.
因为K2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;
因为K2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)由题意可知==0.64,
又p+1.65=0.5+1.65×≈0.5+1.65×≈0.57,
所以>p+1.65,
所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
【训练检测】
1.(2024·郑州第三次质量检测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2020—2024年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份
年份代码
2020年
2021年
2022年
2023年
2024年
xi
1
2
3
4
5
yi
6.4
5.5
5.0
4.8
3.8
(1)求2020—2024年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2028年的酸雨区面积占国土面积的百分比.
附:样本相关系数r=,≈6.
经验回归直线的斜率和截距的最小二乘法估计分别为:
=,=-,xiyi=70.6,=133.69.
【答案】解:(1)由已知可得,==3,
==5.1,
由题可列下表:
xi-
-2
-1
0
1
2
yi-
1.3
0.4
-0.1
-0.3
-1.3
(xi-)(yi-)=-5.9,=,=,
r==≈≈-0.98.
(2)由问题(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用一元线性回归模型进行描述.
由问题(1)知,===-0.59,
=-=5.1-(-0.59)×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=9,则=-0.59×9+6.87=1.56,预测2028年的酸雨区面积占国土面积的百分比为1.56%.
2.(2024·开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用餐的情况如下:
男
女
在A餐厅用餐
40
20
在B餐厅用餐
15
25
(1)以题中所给频率作为概率,求某天甲、乙两名同学选择同一套餐用餐的概率;
(2)依据小概率值α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?
附:χ2=.
α
0.05
0.01
0.005
0.001
xα
3.841
6.635
7.879
10.828
【答案】(1)由表中数据可得,选择A餐厅的概率为=,选择B餐厅的概率为=,
设事件A1:甲、乙两名同学去A餐厅用餐,
事件B1:甲、乙两名同学去B餐厅用餐,
事件A:甲、乙两名同学选择同一套餐用餐,
P(A1)=()2,P(B1)=()2,P(A|A1)=,P(A|B1)=,
则P(A)=P(A1)P(A|A1)+P(B1)P(A|B1)=()2×+()2×=,
故甲、乙两名同学选择同一套餐的概率为.
(2)根据数据可得列联表:
餐厅
性别
合计
男
女
在A餐厅用餐
40
20
60
在B餐厅用餐
15
25
40
合计
55
45
100
零假设为H0:认为性别与选择餐厅之间无关,
根据列联表中的数据,经计算得到χ2=≈8.249>7.879=x0.005,
依据小概率值α=0.005的独立性检验,可以推断H0不成立,即性别与选择餐厅之间有关,此推断犯错误的概率不大于0.005.
3.(2024·河南九师联盟)PM2.5是指环境空气中直径小于或等于2.5微米的颗粒物.它能较长时间悬浮于空气中,其在空气中含量越高,说明空气污染越严重.城市中的PM2.5成分除扬尘等自然因素外,燃料的燃烧也是一个重要来源.某市环境检测部门为检测燃油车流量对空气质量的影响,在一个检测点统计每日过往的燃油车流量x(单位:辆)和空气中的PM2.5的平均浓度y(单位:μg/m3).检测人员采集了50天的数据,制成2×2列联表(部分数据缺失):
PM2.5的平均浓度
燃油车日流量
合计
燃油车日流量x<1 500
燃油车日流量x≥1 500
PM2.5的平均浓度y<100
16
24
PM2.5的平均浓度y≥100
20
合计
22
(1)完成上面的2×2列联表,并根据小概率值α=0.005的独立性检验,能否认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆有关联?
(2)经计算得y与x之间的经验回归方程为=0.12x-73.86,且这50天的燃油车的日流量x的标准差Sx=249,PM2.5的平均浓度y的标准差Sy=36.若样本相关系数r满足|r|≥0.75,则判定所求经验回归方程有价值;否则判定其无价值.
①判断该经验回归方程是否有价值;
②若这50天的燃油车的日流量x满足=1.23×108,试求这50天的PM2.5的平均浓度y的平均数(利用四舍五入法精确到0.1).
参考数据:×1.23=0.024 6,2492=62 001,≈1 548.55.
【答案】(1)2×2列联表如下:
PM2.5的平均浓度
燃油车日流量
合计
燃油车日流量x<1 500
燃油车日流量x≥1 500
PM2.5的平均浓度y<100
16
8
24
PM2.5的平均浓度y≥100
6
20
26
合计
22
28
50
零假设为H0:PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆无关联.
根据列联表中的数据,计算得
χ2=≈9.624>7.879=x0.005,
所以根据小概率值α=0.005的独立性检验,推断H0不成立,所以可以认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆有关联.
(2)①由题意,得==0.12,
得(xi-)(yi-)=0.12(xi-)2,
由Sx==249,
Sy==36,
得r=
=
=0.12×=0.12×=0.83>0.75,
所以该经验回归方程有价值.
②因为Sx==249,
即=249,
所以=≈1 548.55,
又=0.12-73.86≈0.12×1 548.55-73.86=111.966≈112.0.
故可推算出这50天PM2.5平均浓度y的平均数约为112.0 μg/m3.
【预习要求】
1、 认真阅读选择性必修一234页-258页,学案、熟悉本节课的“复习目标”、“重点”、“难点”;
2、 能合本说出样本相关系数、回归方程的公式,独立性检验公式。
3、能合本说出成对数据的统计分析的思维导图。
高三数学 第 1 页(共 2 页)
学科网(北京)股份有限公司
$$