内容正文:
一、变量的相关性
1.变量的相关关系与相关系数是学习一元线性回归模型的前提和基础,前者可借助散点图从直观上分析变量间的相关性,后者从数量上准确刻画了两个变量的相关程度.
2.在学习该部分知识时,体会直观想象和数学运算的素养.
例1 (1)某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩x
60
65
70
75
80
85
90
95
物理成绩y
72
77
80
84
88
90
93
95
绘出散点图如下.
根据以上信息,判断下列结论:
①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.
其中正确的个数为( )
A.0 B.3 C.2 D.1
答案 D
解析 对于①,根据此散点图知,各点都分布在一条直线附近,可以判断数学成绩与物理成绩具有较强的线性相关关系,故①正确;
对于②,根据此散点图,可以判断数学成绩与物理成绩具有较强的线性相关关系,不是一次函数关系,故②错误;
对于③,甲同学数学考了80分,他的物理成绩可能比数学只考了60分的乙同学的物理成绩要高,故③错误.
综上所述,正确的结论是①,只有1个.
(2)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的相关系数,r2表示变量V与U之间的相关系数,则r1与r2的大小关系是________.
答案 r2<r1
解析 由变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5).
可得变量Y与X正相关,因此r1>0.
而由变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),
可知变量U与V负相关,因此r2<0.
因此r1与r2的大小关系是r2<r1.
反思感悟 判断变量相关性的两种方法
(1)散点图法:直观形象.
(2)公式法:可用公式精确计算,需注意特殊情形的相关系数.
跟踪训练1 (1)(多选)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,下列选项中,正确的是( )
A.y与x负相关且=2.347x-6.423
B.y与x负相关且=-3.476x+5.648
C.y与x正相关且=5.437x+8.493
D.y与x正相关且=-4.326x-4.578
答案 BC
解析 若y与x负相关,则=x+中<0,故A不正确,B正确;若y与x正相关,则=x+中>0,故C正确,D不正确.
(2)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到回归直线方程为=1x+1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程为=2x+2,相关系数为r2.则( )
A.0<r1<r2<1
B.0<r2<r1<1
C.-1<r1<r2<0
D.-1<r2<r1<0
答案 D
解析 由散点图得两个变量呈负相关关系,所以r1<0,r2<0,因为剔除点(10,21)后,剩下点的数据的线性相关性更强,|r|更接近1,所以-1<r2<r1<0.
二、回归分析
1.主要考查两个变量线性相关的判定,以及利用最小二乘法求回归直线方程.
2.掌握求回归直线方程的方法和步骤,提升数学运算、数据分析素养.
例2 如图所示的是某高校2016至2022年高考报名学生人数(单位:千人)的折线图.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明(精确到0.01);
(2)建立y关于t的回归直线方程,并预测2023年该高校高考报名人数.
参考数据:=54,(ti-)(yi-)=21,≈3.74,(yi-)2=18.
参考公式:相关系数r=,回归直线方程=+t中的系数分别为=,=-.
解 (1)由图中数据可得,=4,(ti-)2=28,又(ti-)(yi-)=21,
∴r==≈0.94.
故y与t之间存在较强的正相关关系.
(2)由题意得,=54,
===,
=-=54-×4=51,
所以y关于t的回归直线方程为=t+51.
当t=8时,=×8+51=57,
预测2023年该高校高考报名人数约为57 000人.
反思感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归直线方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归直线方程.
(3)实际应用.依据求得的回归直线方程解决实际问题.
跟踪训练2 为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的7月10日至7月14日时段中的相关数据,这5天中的第x天到该电商平台专营店购物的人数y(单位:万人)的数据如下表:
日期
7月10日
7月11日
7月12日
7月13日
7月14日
第x天
1
2
3
4
5
人数y
(单位:万人)
75
84
93
98
100
(1)依据表中的统计数据,请判断该电商平台直播的第x天与到该电商平台专营店购物人数y(单位:万人)是否具有较高的线性相关程度?(参考:若0.3<|r|<0.75,则线性相关程度一般,若|r|>0.75,则线性相关程度较高,计算r时精确度为0.01)
(2)求购物人数y与直播的第x天的回归直线方程;用样本估计总体,请预测从7月10日起的第38天到该专营店购物的人数(单位:万人).
参考数据:(yi-)2=434,(xi-)(yi-)=64,≈65.879.
附:相关系数r=,回归直线方程的斜率=,
截距=-.
解 (1)由表中数据可得=3,=90,
所以(xi-)2=10.
又(yi-)2=434,(xi-)(yi-)=64,所以r==≈0.97>0.75,
所以该电商平台直播的第x天与购物人数y具有较高的线性相关程度.
(2)由(1)知可用线性回归模型拟合人数y与第x天之间的关系.
由表中数据可得=
==6.4,
则=-=90-6.4×3=70.8,
所以=6.4x+70.8,
令x=38,可得=6.4×38+70.8=314(万人).
三、独立性检验
1.主要考查根据样本制作2×2列联表,由2×2列联表计算χ2,查表分析并判断相关性结论的可信程度.
2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析素养.
例3 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图.
(1)设两种养殖方法的箱产量相互独立,记事件A表示“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计事件A发生的概率;
(2)填写下面的列联表,并根据列联表判断是否有不少于99%的把握认为箱产量与养殖方法有关.
箱产量<50 kg
箱产量≥50 kg
合计
旧养殖法
新养殖法
合计
附:
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
χ2=.
解 (1)记事件B表示“旧养殖法的箱产量低于50 kg”,事件C表示“新养殖法的箱产量不低于50 kg”,
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62,
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66,
则事件A的概率估计值为
P(A)=P(BC)=P(B)P(C)=0.62×0.66=0.409 2,
所以事件A发生的概率为0.409 2.
(2)根据箱产量的频率分布直方图得到如下2×2列联表:
箱产量<50 kg
箱产量≥50 kg
合计
旧养殖法
62
38
100
新养殖法
34
66
100
合计
96
104
200
提出统计假设H0:箱产量与养殖方法无关,由已知数据得χ2=
≈15.705>6.635,
查临界值表可知,有不少于99%的把握认为箱产量与养殖方法有关.
反思感悟 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作出统计判断.
跟踪训练3 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
级别
机床
一级品
二级品
合计
甲
150
50
200
乙
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据独立性检验,能否有不少于99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:χ2=,
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
解 (1)根据2×2列联表知,
甲机床生产的产品中一级品的频率为=75%,
乙机床生产的产品中一级品的频率为=60%.
(2)提出统计假设H0:甲机床的产品质量与乙机床的产品质量没有差异,由2×2列联表,
得χ2=≈10.256>6.635.
查临界值表可知,有不少于99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
学科网(北京)股份有限公司
$$