内容正文:
选择性必修3学习材料---回归分析与独立性检验
变量间的相关关系
考点一:变量间的相关关系
①变量之间常见的关系
函数关系:变量之间的关系可以用函数表示
相关关系:变量之间有一定的联系,但不能完全用函数表示
②相关关系与函数关系的区别与联系
函数关系:1.函数关系中两个变量间是一种确定性关系;2.函数是一种因果关系,有这样的因,必有这样的果.例如,圆的半径由1增大为2,其面积必然由π增大到4π
相关关系:1.相关关系是一种非确定性关系.例如,吸烟与患肺癌之间的关系,两者之间虽然没有确定的函数关系,但吸烟多的人患肺癌的风险会大幅增加,两者之间即是一种非确定性的关系;2.相关关系不一定是因果关系,也可能是伴随关系
考点二:散点图及正、负相关的概念
①散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫做散点图.点(,)叫样本点中心.其中
②正相关与负相关
1.正相关:散点图中的点散布在从左下方到右上方的区域.
2.负相关:散点图中的点散布在从左上方到右下方的区域.
考点三:相关系数
①相关系数:对于变量与随机取到对数据,则样本的线性相关系数
②相关系数的性质:
1.;
2.越接近于1,相关程度越强;越接近于0,相关程度越弱;
3.通常,当时,我们认为两变量具有很强的相关性。
注意:若,则,两变量正相关;若,则,两变量负相关;若,则两变量不相关.
考点四:回归直线
①回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有 关系,这条直线叫做回归直线.回归直线过样本点中心.
②线性回归方程:回归直线对应的方程叫做回归直线的方程,简称回归方程.
③最小二乘法:
求线性回归方程=x+时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.其中,是线性回归方程的斜率,是线性回归方程在y轴上的截距
④用最小二乘法求回归方程中的,有下面的公式:
其中这样,回归方程的斜率为,纵截距为,即回归方程为=x+.
题型一:相关关系的判断
【例1】下列变量之间的关系是相关关系的是( )
A.正方体的表面积与体积
B.光照时间与果树的产量
C.匀速行驶车辆的行驶距离与时间
D.某运动会中某代表团的足球队的比赛成绩与乒乓球队的比赛成绩
【答案】B
【分析】A与C是一种函数关系,D不具备相关关系,B满足相关关系.
【详解】对于A,正方体的体积确定,则表面积随之确定,是一种确定性关系,A错误;
对于B,光照时间越长,果树的产量相对越大,是一种线性相关关系,B正确;
对于C,行驶速度与时间是一种确定的函数关系,C错误;
对于D,足球比赛成绩与乒乓球比赛成绩没有关系,不具有相关关系,D错误.
故选:B
【例2】已知变量、、都是正数,与的回归方程:,且每增加个单位,减少个单位,与的回归方程:,则( ).
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与正相关 D.与负相关,与负相关
【答案】D
【分析】利用已知条件,结合每增加1个单位,减少2个单位,推出,然后判断相关性即可.
【详解】解:由题意与的回归方程:,且每增加1个单位,减少2个单位,变量,,都是正数,
可得:,又,故与正相关,与负相关,可得与负相关.
故选:D.
【例3】下面各图中,散点图与相关系数r不符合的有( )
A.B.C.D.
【答案】B
【分析】根据散点图和相关系数的知识确定正确选项.
【详解】对于A,散点图上所有点都在一条斜率小于0的直线上,所以相关系数r=-1,A正确;
对于B,散点图上所有点都在一条斜率大于0的直线上,所以相关系数r=1,B错误;
对于C,散点图上所有点从左到右是向下的带状分布,所以相关系数,C正确;
对于D,散点图中,x,y之间的相关关系非常不明显,所以相关系数r=0,D正确.
故选:B.
【题型专练】
1.从统计学的角度看,下列关于变量间的关系说法正确的是( )
A.人体的脂肪含量与年龄之间没有相关关系
B.汽车的重量和汽车每消耗汽油所行驶的平均路程负相关
C.吸烟量与健康水平正相关
D.气温与热饮销售好不好正相关
【答案】B
【分析】根据正相关、负相关的定义依次判断即可
【详解】从统计学的角度看:
在一定年龄段内,人体的脂肪含量与年龄之间有相关关系,A错误;
汽车的重量和汽车每消耗汽油所行驶的平均路程是负相关关系,B正确;
吸烟量与健康水平是负相关关系,C错误;
气温与热饮销售好不好是负相关关系,D错误.
故选:B
2.如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).
根据该折线图,下列说法错误的是( )
A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近
C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势
【答案】B
【分析】根据折线图判断乡村人口与年份、城镇人口与年份的相关关系以及线性相关关系的强弱,逐项判断可得出合适的选项.
【详解】对于A选项,由折线图可知,城镇人口与年份呈现正相关,A对;
对于B选项,因为乡村人口与年份呈负线性相关关系,且线性相关性很强,所以接近,B错;
对于C选项,城镇人口与年份呈现正相关,且线性相关性很强,相关系数接近,
故城镇人口逐年增长率大致相同,C对;
对于D选项,由折线图可知,乡村人口与年份呈负线性相关关系,可预测乡村人口仍呈现下降趋势,D对.
故选:B.
3.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【分析】利用正负相关与线性相关的强弱进行求解即可
【详解】都是正线性相关,
所以,
并且相关性最强,
所以;
都是负线性相关并,
所以,
且相关性强,
所以,
所以;
所以;
故选:A
题型二:求回归直线的方程
【例1】下面给出了根据我国年—2022年水果人均占有量(单位:kg)和年份代码绘制的散点图和线性回归方程的残差图(2016年—2022年的年份代码分别为1~7).
(1)根据散点图分析与之间的相关关系;
(2)根据散点图相应数据计算得,,求关于的线性回归方程(数据精确到);
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程中的斜率和截距的最小二乘法估计公式分别为
【答案】(1)与成线性相关,且为正相关
(2)关于的线性回归方程为
(3)拟合效果较好,回归方程的预报精度较高
【分析】(1)根据散点图可以看出,散点均匀的分布在一条直线附近,故与成线性相关;
(2)根据给出信息,分别计算出,的平均值,代入最小二乘法估计公式,即可得到回归方程;
(3)根据所给残差图分别区域的宽度分析即可.
【详解】(1)解:根据散点图可知,散点均匀的分布在一条直线附近,且随着的增大,增大,故与成线性相关,且为正相关;
(2)解:依题意,,,
,
,
,
所以关于的线性回归方程为:;
(3)解:由残差图可以看出,残差对应点分布在水平带状区域内,且宽度较窄,说明拟合效果较好,回归方程的预报精度较高.
【例2】某种工程车随着使用年限的增加,每年的维修费用也相应增加,根据相关资料可知该种工程车自购人使用之日起,前5年中每年的维修费用如下表所示.已知与具有线性相关关系.
年份序号
1
2
3
4
5
维修费用(万元
2
参考数据:,.参考公式:线性回归方程的斜率和截距的最小二乘法估计分别为,
(1)求关于的线性回归方程;
(2)根据实际用车情况,若某辆工程车每年维修费用超过4万元时,可以申请报备更换新车,请根据回归方程预估一辆该种工程车一般使用几年后可以申请报备更换新车.
【答案】(1);(2)8年
【分析】(1)根据条件,解出,,代入公式即可求得的值;
(2)解即可求得.
【详解】(1)依题意,,
,
,,
.
.
所求线性回归方程为.
(2)由题意可得,,即.
因为,所以,预计一辆该种工程车一般使用8年后可以申请报备更换新车.
【题型专练】
1.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得.
(1)求家庭的月储蓄y对月收入x的线性回归方程;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程中,,,其中,为样本平均值.
【答案】(1)=0.3x-0.4;(2)正相关;(3)1.7(千元).
【分析】(1)由题意得到n=10,求得,进而求得,写出回归方程;.
(2)由判断;
(3)将x=7代入回归方程求解.
【详解】(1)由题意知
n=10,,
则,
所以所求回归方程为=0.3x-0.4.
(2)因为,
所以变量y的值随x的值增加而增加,故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元).
2.某书店销售刚刚上市的某高二数学单元测试卷,按事先拟定的价格进行5天试销,每种单价试销1天,得到如下数据:
单价x/元
18
19
20
21
22
销量y/册
61
56
50
48
45
(1)求试销天的销量的方差和关于的回归直线方程;
附: .
(2)预计以后的销售中,销量与单价服从上题中的回归直线方程,已知每册单元测试卷的成本是10元,为了获得最大利润,该单元测试卷的单价应定为多少元?
【答案】(1)33.2,(2)21.5元
【分析】(1)根据公式计算可得结果;
(2))获得的利润,再根据二次函数知识可求得结果.
【详解】解:(1)
,
关于的回归直线方程为.
(2)获得的利润,即
二次函数的图象开口向下,
∴当时, 取最大值
∴当单价定为元时,可获得最大利润.
【点睛】本题考查了求回归直线方程,考查了利用回归方程进行回归分析,属于中档题.
题型三:两个变量间的相关性分析
【例1】两个具有线性相关关系的变量的一组数据,,,下列说法错误的是( )
A.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
B.相关系数越接近,变量,相关性越强
C.相关指数越小,残差平方和越大,即模型的拟合效果越差
D.若表示女大学生的身高,表示体重,则表示女大学生的身高解释了的体重变化
【答案】A
【分析】根据变量间的相关关系中:相关指数或相关系数的意义进行判定.
【详解】对于A:回归直线方程拟合效果的强弱是由相关指数或相关系数判定,故不正确;
对于B:根据相关系数越接近,变量相关性越强,故正确;
对于C:相关指数越小,残差平方和越大,效果越差,故正确;
对于D:根据的实际意义可得,表示女大学生的身高解释了的体重变化,故正确;
故选:.
【例2】下列命题中正确的为( )
A.相关系数r越大,两个变量的线性相关性越强
B.相关系数r越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,拟合的效果越好
D.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好
【答案】C
【分析】根据“残差”的意义、线性相关系数和相关指数的意义,即可作出正确的判断.
【详解】相关系数的绝对值越接近于1,两个变量的线性相关性越强,所以A,B错误;残差平方和越小的模型,拟合的效果就越好,所以C正确;用相关指数来刻画回归效果,越大(接近1),说明模型的拟合效果就越好,所以D错误,
故选:C.
【例3】下列四个命题:
①由样本数据得到的回归直线方程至少经过样本点中的一个;
②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;
③回归直线一定经过样本点的中心;
④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.
正确命题的个数为( )
A.1 B.2 C.3 D.4
【答案】C
【分析】根据回归直线方程的特点依次判断即可.
【详解】回归直线方程经过样本中心点,不一定过样本点,所以①错误,③正确;
在回归分析中,模型的相关指数越大拟合效果越好,所以②正确.
在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,所以④正确.
故选:C.
【题型专练】
1.已知r1表示变量X与Y之间的线性相关系数,r2表示变量U与V之间的线性相关系数,且r1=0.837,r2=﹣0.957,则( )
A.变量X与Y之间呈正相关关系,且X与Y之间的相关性强于U与V之间的相关性
B.变量X与Y之间呈负相关关系,且X与Y之间的相关性强于U与V之间的相关性
C.变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性
D.变量U与V之间呈正相关关系,且X与Y之间的相关性弱于U与V之间的相关性
【答案】C
【分析】根据线性相关系数|r|越接近1,表示两个变量之间的相关性越强,线性相关系数r的正负表示两个变量之间呈正相关关系或负相关关系.
【详解】因为线性相关系数r1=0.837,r2=﹣0.957,
所以变量X与Y之间呈正相关关系,变量U与V之间呈负相关关系,
X与Y之间的相关性弱于U与V之间的相关性.
故选:C
2.下列说法错误的是( )
A.线性回归直线一定过样本点中心
B.在回归分析中,为0.91的模型比为0.88的模型拟合的效果好
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在线性回归分析中,相关系数r的值越大,变量间的相关性越强
【答案】D
【分析】根据回归方程相关知识逐项判断即可.
【详解】回归直线必过样本点中心,故A正确;
拟合系数越大拟合效果越好,故B正确;
残差点分布区域越窄,拟合精度越高,故C正确;
相关系数越接近于1,相关性越强,故当时,r的值越大,变量间的相关性越弱,故D错误.
故选:D
3.下列说法正确的是( )
A.线性回归模型是一次函数
B.在线性回归模型中,因变量是由自变量唯一确定的
C.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适
D.用来刻画回归方程,越小,拟合的效果越好
【答案】C
【分析】利用线性回归模型的特点可判断AB选项;利用残差图的特点可判断C选项;利用决定系数与模型拟合效果的关系可判断D选项.
【详解】对于A选项,线性回归模型中,方程表示的是不确定关系,
所以,线性回归模型不是一次函数,A错;
对于B选项,在线性回归模型中,因变量由自变量和随机误差共同决定,B错;
对于C选项,在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,C对;
对于D选项,用来刻画回归方程,越大,拟合的效果越好,D错.
故选: C
题型四:相关系数的计算
【例1】某地经过多年的环境治理,已将荒山改造成了绿水青山.为了估计林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积和材积量,得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得到,,.
附:相关系数,.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为,已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
【答案】(1),;(2);(3).
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题中所给的相关系数公式去计算,即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为.
(2)
则.
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为.
【例2】近年来,新能源产业蓬勃发展,已成为一大支柱产业.据统计,某市一家新能源企业近5个月的产值如下表:
月份
6月
7月
8月
9月
10月
月份代码
1
2
3
4
5
产值(亿元)
16
20
27
30
37
(1)根据上表数据,计算与间的线性相关系数,并说明与的线性相关性的强弱;(结果保留三位小数,若,则认为与线性相关性很强;若,则认为与线性相关性不强.)
(2)求出关于的线性回归方程,并预测明年3月份该企业的产值.
参考公式:
参考数据:
【答案】(1), 与线性相关性很强;(2),62.4亿元
【分析】(1)根据相关系数公式得到,即可得到答案.
(2)根据最小二乘法得到回归直线方程为,再代入求解即可.
【详解】(1),.
所以,
因为,故与线性相关性很强.
(2)由题意可得,,
所以
所以关于的线性回归方程为,
当时,,
故明年3月份该企业的产值约为62.4亿元.
【题型专练】
1.某省为了坚决打赢脱贫攻坚战,在100个贫困村中,用简单随机抽样的方法抽取15个进行脱贫验收调查,调查得到的样本数据,其中和分别表示第i个贫困村中贫困户的年平均收入(单位:万元)和产业扶贫资金投入数量(单位:万元),并计算得到,,,,.
(1)试估计该省贫困村的贫困户年平均收入;
(2)根据样本数据,求该省贫困村中贫困户年平均收入与产业扶贫资金投入的相关系数(精确到0.01);
(3)根据现有统计资料,各贫困村产业扶贫资金投入差异很大.为了确保完成脱贫攻坚任务,准确地进行脱贫验收,请给出一种你认为更合理的抽样方法,并说明理由.
参考公式:
【答案】(1)1万元;(2);(3)采用分层抽样,理由见解析.
【分析】(1)根据平均数公式即得;
(2)根据相关系数公式即得;
(3)根据分层抽样的概念即得.
【详解】(1)该省贫困村的贫困户年平均收入的估计值为:
(万元);
(2)样本的相关系数:
;
(3)采用分层抽样,
理由如下:由(2)知,各地区贫困村的贫困户年平均收入与该村的产业投入资金有很强的正相关性,由于各贫困村产业扶贫资金投入差异很大,因此贫困村的贫困户年平均收入差异也很大,所以采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该省更准确的脱贫验收估计.
题型五:线性回归方程恒过样本中心点的应用
【例1】由变量与相对应的一组数据得到的线性回归方程为,根据样本中心满足线性回归方程,则( )
A.45 B.51 C.67 D.63
【答案】B
【分析】根据题意求出,由于样本中心点在回归直线上,所以将代入回归方程可求出.
【详解】由题意得,
因为线性回归方程为,
所以,
故选:B.
【例2】(多选题)月亮公转与自转的周期都大约为27天,阴历是按月亮的月相周期安排的历法,人们根据长时间的观测,统计了月亮出来的时刻(简称“月出时刻”,单位:)与阴历日数(,且)的有关数据如表所示,并且根据表中数据,求得关于的经验回归方程为.
2
4
7
10
15
22
8.1
9.4
12
14.4
18.5
24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日0:00)才出来.则( )
A., B.
C.预报月出时刻为的那天是阴历13日 D.预报阴历27日的月出时间为阴历28日早上4:00
【答案】AD
【分析】A.利用平均数求解判断;B.将样本点代入回归直线方程求解判断;C.由 求解判断;将,代入求解判断
【详解】,,故选项A正确;
将样本平均数,代入,得,故选项B错误;
,由,得,故选项C错误;
将,代入,得,所以月出时间应该为28日早上4:00,选项D正确.
故选:AD.
【题型专练】
1.某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y(单位:千度)进行了统计分析,得出下表数据:
月份(x)
5
6
7
8
日平均用电量(y)
1.9
3.4
t
7.1
若y与x线性相关,且求得其线性回归方程,则表中t的值为( )
A.5.8 B.5.6 C.5.4 D.5.2
【答案】B
【分析】由样本中心必在回归直线上即可求解.
【详解】解:由表格中的数据可得,,
将点代入回归直线方程得,解得.
故选:B.
2.某设备的使用年限与所支出的维修费用的统计数据如下表:
使用年限(单位:年)
2
3
4
5
6
维修费用(单位:万元)
根据上表可得回归直线方程为:,据此模型预测,若使用年限为10年,估计维修费用约为___________.
【答案】
【分析】根据样本中心点过线性回归方程,结合代入法进行求解即可.
【详解】因为,
所以样本中心点为,
因此有,
当时,,
故答案为:
题型六:非线性回归方程
【例1】在一项调查中有两个变量和,如图是由这两个变量近年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是( )
A. B. C. D.
【答案】B
【分析】根据散点图的趋势结合相应函数的增长变化的特征选定正确的选项.
【详解】散点图呈曲线,A中函数为线性函数,不合题意,排除选项;
由散点图可知整体呈增长态势,且增长速度变慢,
对B选项中函数,当时,函数为单调递增函数,且增长速度逐渐变慢,符合题意,故B正确;
对于C选项,当时,函数为开口向上的二次函数,增长先慢后快,不合题意,
当时,函数为开口向下的二次函数,增长先慢后快,不合题意,排除选项C;
对于D选项,函数为指数型函数,当时单调递增,且越增越快,不合题意,
当时为单调递减函数,不合题意,故排除D;
故选:B
【例2】用关于的方程来拟合一组数据(,2,…,10)时为了求出其回归方程,设,得到关于的线性回归方程,则( )
A., B., C., D.,
【答案】A
【分析】对关于的方程进行变形即可得到线性回归方程,然后根据系数对应相等列出 的方程,解出 即可
【详解】由题意,得到
故 ,
故选:A
【题型专练】
1.2021年春季.新冠肺炎疫情在印度失控.下图是印度某地区在60天内感染新冠肺炎的累计病例人数y(万人)与时间t(天)的散点图.则下列最适宜作为此模型的回归方程的类型是( )
A. B. C. D.
【答案】C
【分析】由选项的图象特征即可得到答案.
【详解】由的图象应显示为直线,故A错误;
的图象应该向下弯折,故B错误;
的图象可以如图所示,故C正确;
的图象应向右弯折,故D错误.
故选:C.
2.某企业在一段时期内为准确把握市场行情做了如下调研:每投入金额为(单位:万元),企业获得收益金额为(单位:万元),现将投入金额与收益金额数据作初步统计整理如下表:(表中,)
(1)利用样本相关系数的知识,判断与哪一个更适宜作为收益金额关于投入金额的回归方程模型?
(2)根据(1)的结果解答下列问题.
①建立关于的回归方程;
②样本对投入金额时,企业收益预报值是多少万元?
附:对于一组数据、、、,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适宜;(2)①;②万元
【分析】(1)计算出两个模型的相关系数,比较两者绝对值的大小后可得出结论;
(2)①将表格中的参考数据代入最小二乘法公式,求出回归方程中的参数,即可得出关于的回归方程;
②将代入回归方程可得结果.
(1)
解:的线性相关系数,
令,得,的线性相关系数为,
故的相关系数,
因为,所以更适宜作为收益关于样本对投资金额的回归方程模型.
(2)
解:①,
,
所以,所以关于的回归方程为;
②当时,企业收益预报值为万元.
独立性检验
考点一:2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
考点二:独立性检验
利用随机变量K2(也可表示为χ2)的观测值(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
考点三:两个临界值:3.841与6.635
当χ2>3.841时,有95%的把握说事件A与B有关;
当χ2>6.635时,有99%的把握说事件A与B有关;
当χ2≤3.841时,认为事件A与B是无关的.
题型一:2×2列联表
【例1】下列是关于出生男婴与女婴调查的列联表
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么__________.
【答案】82
【分析】根据列联表,可得方程,解之即可得到结论.
【详解】解:由题意,,,,,
,,,,
故答案为: 82.
【例2】如表是列联表,则表中的、的值分别为( )
合计
8
35
11
34
45
合计
42
80
A.27、38 B.28、38 C.27、37 D.28、37
【答案】A
【分析】根据列联表的数据,补全表格,即可判断选项.
【详解】解:,.
故选:A.
【题型专练】
1.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下列联表:
男
女
总计
爱好
a
b
73
不爱好
c
25
总计
74
则等于( )
A.7 B.8 C.9 D.10
【答案】C
【分析】根据列联表,先求出、和的值,再计算的值.
【详解】解:根据题意,可得;
,
,
,
即列联表为:
男
女
总计
爱好
52
21
73
不爱好
22
25
47
总计
74
46
120
.
故选:.
2.某村庄对该村内名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检
每年未体检
合计
老年人
年轻人
合计
已知抽取的老年人、年轻人各名,则对列联表数据的分析错误的是( )
A. B.
C. D.
【答案】D
【解析】根据题中信息可得出关于、、、、、的等式,进而可判断各选项的正误.
【详解】由题意得,,,,,,
所以,,,,,则.
故选:D.
题型二:等高条形图
【例1】为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍无关
B.是否倾向选择生育二胎与性别有关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【答案】D
【分析】结合所给比例图,依次分析判断4个选项即可.
【详解】对于A,城镇户籍中选择生育二胎,农村户籍中选择生育二胎,相差较大,则是否倾向选择生育二胎与户籍有关,A错误;
对于B,男性和女性中均有选择生育二胎,则是否倾向选择生育二胎与性别无关,B错误;
对于C,由于男性和女性中均有选择生育二胎,但样本中男性40人,女性60人,则倾向选择生育二胎的人员中,男性人数与女性人数不同,C错误;
对于D,倾向选择不生育二胎的人员中,农村户籍有人,城镇户籍有人,农村户籍人数少于城镇户籍人数,D正确.
故选:D.
【例2】为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如下等高条形图(如图),根据图中的信息,下列结论中不正确的是( )
A.样本中的男生数量多于女生数量
B.样本中喜欢手机支付的数量多于现金支付的数量
C.样本中多数男生喜欢现金支付
D.样本中多数女生喜欢手机支付
【答案】C
【分析】根据两幅图的信息,逐个分析判断即可
【详解】解:对于A,由左图可知,样本中的男生数量多于女生数量,所以A正确;
对于B,由右图可知,样本中喜欢手机支付的数量多于现金支付的数量,所以B正确;
对于C,由右图可知,样本中多数男生喜欢手机支付,所以C错误;
对于D,由右图可知,样本中多数女生喜欢手机支付,所以D正确,
故选:C
【题型专练】
1.我国目前部分普通高中学生在高一升高二时面临着选文理科的问题,某学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图
根据这两幅图中的信息,下列统计结论正确的是( )
A.样本中的男生数量多于女生数量
B.样本中有理科意愿的学生数量少于有文科意愿的学生数量
C.对理科有意愿的男生人数多于对文科有意愿的男生人数
D.对文科有意愿的女生人数多于对理科有意愿的女生人数
【答案】C
【分析】由等高条形图的特点和性质进行判断,
【详解】由等高堆积条形图1可知,不管是文科还是理科,女生占比均高于男生,故样本中的女生数量多于男生数量,A错误;从图2可以看出男生和女生中选择理科的人数均高于选择文科的人数,
故选:C.
【点睛】本题主要考查了独立性检验中利用等高条形图判断两个变量之间的差异,属于基础题.
题型三:独立性检验解决实际问题
【例1】某棉纺厂为了解一批棉花的质量,在该批棉花中随机抽取了容量为120的样本,测量每个样本棉花的纤维长度(单位:mm,纤维长度是棉花质量的重要指标),所得数据均在区间内,将其按组距为2分组,制作成如图所示的频率分布直方图,其中纤维长度不小于28mm的棉花为优质棉.
(1)求频率分布直方图中a的值;
(2)已知抽取的容量为120的样本棉花产自于A,B两个试验区,部分数据如下2×2列联表:
A试验区
B试验区
合计
优质棉
10
非优质棉
30
合计
120
将2×2列联表补充完整,并判断是否有99.9%的把握认为优质棉与A,B两个试验区有关系;
(3)若从这批120个样本棉花中随机抽取3个,其中有X个优质棉,求X的分布列和数学期望.
注:①独立性检验的临界值表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
②,其中.
【答案】(1)
(2)列联表见解析,没有99.9%的把握认为优质棉与A,B两个试验区有关系;
(3)X的分布列见解析,
【分析】(1)利用频率和为1列出关于a的方程,解之即可求得a的值;
(2)先求得抽取的优质棉样本数为30,进而求得非优质棉样本数为90,进而补全表格;求得的值并与进行大小比较即可得到是否有99.9%的把握认为优质棉与A,B两个试验区有关系.
(3)先求得X的各可能取值的概率,进而得到X的分布列;依据数学期望的定义即可求得.
【详解】(1)由,解得
(2)抽取的优质棉样本数为
则非优质棉样本数为90,
则2×2列联表如下:
A试验区
B试验区
合计
优质棉
10
20
30
非优质棉
60
30
90
合计
70
50
120
则没有99.9%的把握认为优质棉与A,B两个试验区有关系.
(3)X的可能取值为0,1,2,3
则,
,
则X的分布列如下:
X
0
1
2
3
P
数学期望.
【例2】随着电商事业的发展和工作生活节奏的加快,人们的生活方式和生活理念正在发生巨大的改变.通过外卖App下单订餐叫外卖,正受到越来越多的市民尤其是青年上班族的喜爱.为了解市民是否经常利用外卖平台点餐,调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,其中经常用外卖平台点餐的人数是基本不用外卖平台点餐的人数的倍;岁以上经常用外卖平台点餐的人数和基本不用外卖平台点餐的人数相等;岁及以下有人基本不用外卖平台点餐.
(1)请完善下面列联表(单位:人),并依据的独立性检验,分析经常利用外卖平台点餐是否与年龄有关?
经常用外卖平台点餐
基本不用外卖平台点餐
总计
岁及以下
岁以上
总计
(2)利用分层抽样方法在经常用外卖平台点餐的市民中随机抽取人,再从以上人中随机抽取人.记被抽取的人中“岁以上”的人数为,求随机变量的分布列和均值.
附:,其中.
临界值表:
【答案】(1)列联表见解析,认为经常利用外卖平台点餐与年龄有关联,此推断犯错误的概率不大于;(2)分布列见解析,均值.
【分析】(1)根据题中的数据完善列联表,再运用公式分析列联表;
(2)根据题意及公式求解随机变量的分布列并计算期望得出结果.
【详解】解:(1)设基本不用外卖平台点餐人数为,
得
所以基本不用外卖平台点餐人数为人
因为岁及以下有15人基本不用外卖平台点餐
所以岁以上有10人基本不用外卖平台点餐,岁以上有10人经常用外卖平台点餐岁及以下有40人经常用外卖平台点餐
列联表如下:
经常用外卖平台点餐
基本不用外卖平台点餐
总计
岁及以下
岁以上
总计
由列联表可知,因为
所以依据小概率值的独立性检验,认为经常利用外卖平台点餐与年龄有关联,此推断犯错误的概率不大于;
(2)由题意可知,抽取的10人中“40岁以上”的市民有2人,
的所有可能取值为,,,
所以的分布列为
0
1
2
所以
【题型专练】
1.为迎接2022年北京冬季奥运会,普及冬奥知识,某校开展了“冰雪答题王”冬奥知识竞赛活动.现从参加冬奥知识竞赛活动的学生中随机抽取100名学生,将他们的竞赛成绩(满分为100分)分为6组:,,,,,,得到如图所示的频率分布直方图.
(1)估计这100名学生的平均成绩(同一组中的数据用该组区间的中点值为代表),并估计这100名学生成绩的中位数(精确到0.01);
(2)在抽取的100名学生中,规定:竞赛成绩不低于80分为“优秀”,竞赛成绩低于80分为“非优秀”.
①请将下面的列联表补充完整,并判断是否有99%的把握认为“竞赛成绩是否优秀与性别有关”?
②求出等高条形图需要的数据,并画出等高条形图(按图中“优秀”和“非优秀”所对应阴影线画),利用条形图判断竞赛成绩优秀与性别是否有关系?
列联表
优秀
非优秀
合计
男生
10
女生
50
合计
100
参考公式及数据:,,
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)平均成绩73,中位数73.33;(2)①表格见解析,没有;②答案见解析,有.
【分析】(1)根据频率直方图,结合平均数和中位数的性质进行求解即可;
(2)①根据频率直方图完成列联表,结合题中所给的公式进行求解即可;
②根据列联表画出等高条形图,再做出判断即可.
(1)
这100名学生的平均成绩:
,
设成绩的中位数为,则根据频率分布直方图可知,有,
解得;
(2)
①根据表中已知数据和频率分布直方图得下表
优秀
非优秀
合计
男生
10
40
50
女生
20
30
50
合计
30
70
100
根据表中数据可得,
因为4.762<6.635,所以没有99%的把握认为“竞赛成绩是否优秀与性别有关”.
②根据列联表中数据可知,样本中男生优秀的频率为,男生非优秀的频率为;女生优秀的频率,女生非优秀的频率为.
所画等高条形图如图所示:
根据等高条形图,比较图中两个用斜纹实线所画条的高可以发现,女生样本中成绩优秀的频率明显高于男生样本中成绩优秀的频率,因此可以认为竞赛成绩优秀与性别有关.
2.为丰富学生的校园生活,提升学生的实践能力和综合素质能力,培养学生的兴趣爱好,某校计划借课后托管服务平台开设书法兴趣班,为了解学生对这个兴趣班的喜爱情况,该校随机抽取了该校名学生,调查他们对这个兴趣班的喜爱情况,得到下面的2×2列联表:
喜爱
不喜爱
合计
男
女
合计
以调查得到的男、女学生喜欢书法兴趣班的频率代替概率.
(1)完成题中的2×2列联表,并判断能否有的把握认为是否喜欢书法兴趣班与性别有关;
(2)从该校喜欢书法兴趣班的学生中,用分层抽样的方法抽取名学生,再从这名学生中随机抽取名学生,求这名学生中至少有名女学生的概率.
参考公式:,其中.
参考数据:
【答案】(1)见解析;(2).
【分析】(1)根据题意完成列联表,并根据计算公式计算的值,比较判断可得结论;
(2)找到总的样本点个数,和事件对应的样本点个数,代入古典概型概率计算公式计算可得答案.
【详解】(1)完成列联表如下:
喜爱
不喜爱
合计
男
女
合计
,
所以有的把握认为是否喜欢书法兴趣班与性别有关;
(2)该校喜欢书法兴趣班的学生中,男女生的比例为,
用分层抽样的方法抽取名学生,所以男女生各有各学生,
从这名学生中随机抽取名学生,记为事件,
则总的样本点个数是,全是男生的样本点个数是,
所以这名学生中至少有名女学生的概率为.
3.北京时间2022年4月16日09时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,神舟十三号载人飞行任务取得成圆满成功.某校为了解本校学生对此新闻事件的关注度,从本校学生中随机抽取了200名学生进行调查,调查样本中有80名女生.根据样本的调查结果绘制成如图所示的等高堆积条形图.
关注
不关注
合计
男生
女生
合计
(1)完成上面的2×2列联表,并判断能否有99.9%的把握认为学生是否关注“神州十三号飞船成功着陆”新闻事件与性别有关.
(2)从这200名学生里对“神州十三号飞船成功着陆”新闻事件不关注的学生中,按性别采用分层抽样的方法抽取6名学生,再从这6名学生中随机选取2人参与该新闻事件的学习.求这2名学生不全是男生的概率.
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)答案见解析;
(2)
【分析】(1)利用条形图进行完成列联表,根据所给的卡方公式,结合临界值进行求解判断即可.
(2)根据分层抽样的性质,结合古典概型计算公式进行求解即可.
【详解】(1)女生中关注该新闻事件的人数为,不关注的女生人数为,
男生中关注该新闻事件的人数为,不关注的男生人数为,列联表如下:
关注
不关注
合计
男生
60
60
120
女生
20
60
80
合计
80
120
200
因为8,
所以有99.9%的把握认为学生是否关注“神州十三号飞船成功着陆”新闻事件与性别有关;
(2)因为在不关注该新闻事件中男生与女生的人数一样多,
所以这6人中男生与女生的人数也相同,
因此这6名学生中随机选取2人参与该新闻事件的学习.求这2名学生不全是男生的概率:
.
1
学科网(北京)股份有限公司
$$
选择性必修3学习材料---回归分析与独立性检验
变量间的相关关系
考点一:变量间的相关关系
①变量之间常见的关系
函数关系:变量之间的关系可以用函数表示
相关关系:变量之间有一定的联系,但不能完全用函数表示
②相关关系与函数关系的区别与联系
函数关系:1.函数关系中两个变量间是一种确定性关系;2.函数是一种因果关系,有这样的因,必有这样的果.例如,圆的半径由1增大为2,其面积必然由π增大到4π
相关关系:1.相关关系是一种非确定性关系.例如,吸烟与患肺癌之间的关系,两者之间虽然没有确定的函数关系,但吸烟多的人患肺癌的风险会大幅增加,两者之间即是一种非确定性的关系;2.相关关系不一定是因果关系,也可能是伴随关系
考点二:散点图及正、负相关的概念
①散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫做散点图.点(,)叫样本点中心.其中
②正相关与负相关
1.正相关:散点图中的点散布在从左下方到右上方的区域.
2.负相关:散点图中的点散布在从左上方到右下方的区域.
考点三:相关系数
①相关系数:对于变量与随机取到对数据,则样本的线性相关系数
②相关系数的性质:
1.;
2.越接近于1,相关程度越强;越接近于0,相关程度越弱;
3.通常,当时,我们认为两变量具有很强的相关性。
注意:若,则,两变量正相关;若,则,两变量负相关;若,则两变量不相关.
考点四:回归直线
①回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有 关系,这条直线叫做回归直线.回归直线过样本点中心.
②线性回归方程:回归直线对应的方程叫做回归直线的方程,简称回归方程.
③最小二乘法:
求线性回归方程=x+时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.其中,是线性回归方程的斜率,是线性回归方程在y轴上的截距
④用最小二乘法求回归方程中的,有下面的公式:
其中这样,回归方程的斜率为,纵截距为,即回归方程为=x+.
题型一:相关关系的判断
【例1】下列变量之间的关系是相关关系的是( )
A.正方体的表面积与体积
B.光照时间与果树的产量
C.匀速行驶车辆的行驶距离与时间
D.某运动会中某代表团的足球队的比赛成绩与乒乓球队的比赛成绩
【例2】已知变量、、都是正数,与的回归方程:,且每增加个单位,减少个单位,与的回归方程:,则( ).
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与正相关 D.与负相关,与负相关
【例3】下面各图中,散点图与相关系数r不符合的有( )
A.B.C.D.
【题型专练】
1.从统计学的角度看,下列关于变量间的关系说法正确的是( )
A.人体的脂肪含量与年龄之间没有相关关系
B.汽车的重量和汽车每消耗汽油所行驶的平均路程负相关
C.吸烟量与健康水平正相关
D.气温与热饮销售好不好正相关
2.如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).
根据该折线图,下列说法错误的是( )
A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近
C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势
3.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
题型二:求回归直线的方程
【例1】下面给出了根据我国年—2022年水果人均占有量(单位:kg)和年份代码绘制的散点图和线性回归方程的残差图(2016年—2022年的年份代码分别为1~7).
(1)根据散点图分析与之间的相关关系;
(2)根据散点图相应数据计算得,,求关于的线性回归方程(数据精确到);
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程中的斜率和截距的最小二乘法估计公式分别为
【例2】某种工程车随着使用年限的增加,每年的维修费用也相应增加,根据相关资料可知该种工程车自购人使用之日起,前5年中每年的维修费用如下表所示.已知与具有线性相关关系.
年份序号
1
2
3
4
5
维修费用(万元
2
参考数据:,.参考公式:线性回归方程的斜率和截距的最小二乘法估计分别为,
(1)求关于的线性回归方程;
(2)根据实际用车情况,若某辆工程车每年维修费用超过4万元时,可以申请报备更换新车,请根据回归方程预估一辆该种工程车一般使用几年后可以申请报备更换新车.
【题型专练】
1.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得.
(1)求家庭的月储蓄y对月收入x的线性回归方程;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程中,,,其中,为样本平均值.
2.某书店销售刚刚上市的某高二数学单元测试卷,按事先拟定的价格进行5天试销,每种单价试销1天,得到如下数据:
单价x/元
18
19
20
21
22
销量y/册
61
56
50
48
45
(1)求试销天的销量的方差和关于的回归直线方程;
附: .
(2)预计以后的销售中,销量与单价服从上题中的回归直线方程,已知每册单元测试卷的成本是10元,为了获得最大利润,该单元测试卷的单价应定为多少元?
题型三:两个变量间的相关性分析
【例1】两个具有线性相关关系的变量的一组数据,,,下列说法错误的是( )
A.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
B.相关系数越接近,变量,相关性越强
C.相关指数越小,残差平方和越大,即模型的拟合效果越差
D.若表示女大学生的身高,表示体重,则表示女大学生的身高解释了的体重变化
【例2】下列命题中正确的为( )
A.相关系数r越大,两个变量的线性相关性越强
B.相关系数r越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,拟合的效果越好
D.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好
【例3】下列四个命题:
①由样本数据得到的回归直线方程至少经过样本点中的一个;
②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;
③回归直线一定经过样本点的中心;
④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.
正确命题的个数为( )
A.1 B.2 C.3 D.4
【题型专练】
1.已知r1表示变量X与Y之间的线性相关系数,r2表示变量U与V之间的线性相关系数,且r1=0.837,r2=﹣0.957,则( )
A.变量X与Y之间呈正相关关系,且X与Y之间的相关性强于U与V之间的相关性
B.变量X与Y之间呈负相关关系,且X与Y之间的相关性强于U与V之间的相关性
C.变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性
D.变量U与V之间呈正相关关系,且X与Y之间的相关性弱于U与V之间的相关性
2.下列说法错误的是( )
A.线性回归直线一定过样本点中心
B.在回归分析中,为0.91的模型比为0.88的模型拟合的效果好
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在线性回归分析中,相关系数r的值越大,变量间的相关性越强
3.下列说法正确的是( )
A.线性回归模型是一次函数
B.在线性回归模型中,因变量是由自变量唯一确定的
C.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适
D.用来刻画回归方程,越小,拟合的效果越好
题型四:相关系数的计算
【例1】某地经过多年的环境治理,已将荒山改造成了绿水青山.为了估计林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积和材积量,得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得到,,.
附:相关系数,.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为,已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
【例2】近年来,新能源产业蓬勃发展,已成为一大支柱产业.据统计,某市一家新能源企业近5个月的产值如下表:
月份
6月
7月
8月
9月
10月
月份代码
1
2
3
4
5
产值(亿元)
16
20
27
30
37
(1)根据上表数据,计算与间的线性相关系数,并说明与的线性相关性的强弱;(结果保留三位小数,若,则认为与线性相关性很强;若,则认为与线性相关性不强.)
(2)求出关于的线性回归方程,并预测明年3月份该企业的产值.
参考公式:
参考数据:
【题型专练】
1.某省为了坚决打赢脱贫攻坚战,在100个贫困村中,用简单随机抽样的方法抽取15个进行脱贫验收调查,调查得到的样本数据,其中和分别表示第i个贫困村中贫困户的年平均收入(单位:万元)和产业扶贫资金投入数量(单位:万元),并计算得到,,,,.
(1)试估计该省贫困村的贫困户年平均收入;
(2)根据样本数据,求该省贫困村中贫困户年平均收入与产业扶贫资金投入的相关系数(精确到0.01);
(3)根据现有统计资料,各贫困村产业扶贫资金投入差异很大.为了确保完成脱贫攻坚任务,准确地进行脱贫验收,请给出一种你认为更合理的抽样方法,并说明理由.
参考公式:
题型五:线性回归方程恒过样本中心点的应用
【例1】由变量与相对应的一组数据得到的线性回归方程为,根据样本中心满足线性回归方程,则( )
A.45 B.51 C.67 D.63
【例2】(多选题)月亮公转与自转的周期都大约为27天,阴历是按月亮的月相周期安排的历法,人们根据长时间的观测,统计了月亮出来的时刻(简称“月出时刻”,单位:)与阴历日数(,且)的有关数据如表所示,并且根据表中数据,求得关于的经验回归方程为.
2
4
7
10
15
22
8.1
9.4
12
14.4
18.5
24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日0:00)才出来.则( )
A., B.
C.预报月出时刻为的那天是阴历13日 D.预报阴历27日的月出时间为阴历28日早上4:00
【题型专练】
1.某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y(单位:千度)进行了统计分析,得出下表数据:
月份(x)
5
6
7
8
日平均用电量(y)
1.9
3.4
t
7.1
若y与x线性相关,且求得其线性回归方程,则表中t的值为( )
A.5.8 B.5.6 C.5.4 D.5.2
2.某设备的使用年限与所支出的维修费用的统计数据如下表:
使用年限(单位:年)
2
3
4
5
6
维修费用(单位:万元)
根据上表可得回归直线方程为:,据此模型预测,若使用年限为10年,估计维修费用约为___________.
题型六:非线性回归方程
【例1】在一项调查中有两个变量和,如图是由这两个变量近年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是( )
A. B. C. D.
【例2】用关于的方程来拟合一组数据(,2,…,10)时为了求出其回归方程,设,得到关于的线性回归方程,则( )
A., B., C., D.,
【题型专练】
1.2021年春季.新冠肺炎疫情在印度失控.下图是印度某地区在60天内感染新冠肺炎的累计病例人数y(万人)与时间t(天)的散点图.则下列最适宜作为此模型的回归方程的类型是( )
A. B. C. D.
2.某企业在一段时期内为准确把握市场行情做了如下调研:每投入金额为(单位:万元),企业获得收益金额为(单位:万元),现将投入金额与收益金额数据作初步统计整理如下表:(表中,)
(1)利用样本相关系数的知识,判断与哪一个更适宜作为收益金额关于投入金额的回归方程模型?
(2)根据(1)的结果解答下列问题.
①建立关于的回归方程;
②样本对投入金额时,企业收益预报值是多少万元?
附:对于一组数据、、、,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
独立性检验
考点一:2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
考点二:独立性检验
利用随机变量K2(也可表示为χ2)的观测值(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
考点三:两个临界值:3.841与6.635
当χ2>3.841时,有95%的把握说事件A与B有关;
当χ2>6.635时,有99%的把握说事件A与B有关;
当χ2≤3.841时,认为事件A与B是无关的.
题型一:2×2列联表
【例1】下列是关于出生男婴与女婴调查的列联表
那么__________.
【例2】如表是列联表,则表中的、的值分别为( )
合计
8
35
11
34
45
合计
42
80
A.27、38 B.28、38 C.27、37 D.28、37
【题型专练】
1.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下列联表:
则等于( )
A.7 B.8 C.9 D.10
2.某村庄对该村内名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检
每年未体检
合计
老年人
年轻人
合计
已知抽取的老年人、年轻人各名,则对列联表数据的分析错误的是( )
A. B.
C. D.
题型二:等高条形图
【例1】为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍无关
B.是否倾向选择生育二胎与性别有关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【例2】为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如下等高条形图(如图),根据图中的信息,下列结论中不正确的是( )
A.样本中的男生数量多于女生数量 B.样本中喜欢手机支付的数量多于现金支付的数量
C.样本中多数男生喜欢现金支付 D.样本中多数女生喜欢手机支付
【题型专练】
1.我国目前部分普通高中学生在高一升高二时面临着选文理科的问题,某学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图
根据这两幅图中的信息,下列统计结论正确的是( )
A.样本中的男生数量多于女生数量
B.样本中有理科意愿的学生数量少于有文科意愿的学生数量
C.对理科有意愿的男生人数多于对文科有意愿的男生人数
D.对文科有意愿的女生人数多于对理科有意愿的女生人数
题型三:独立性检验解决实际问题
【例1】某棉纺厂为了解一批棉花的质量,在该批棉花中随机抽取了容量为120的样本,测量每个样本棉花的纤维长度(单位:mm,纤维长度是棉花质量的重要指标),所得数据均在区间内,将其按组距为2分组,制作成如图所示的频率分布直方图,其中纤维长度不小于28mm的棉花为优质棉.
(1)求频率分布直方图中a的值;
(2)已知抽取的容量为120的样本棉花产自于A,B两个试验区,部分数据如下2×2列联表:
A试验区
B试验区
合计
优质棉
10
非优质棉
30
合计
120
将2×2列联表补充完整,并判断是否有99.9%的把握认为优质棉与A,B两个试验区有关系;
(3)若从这批120个样本棉花中随机抽取3个,其中有X个优质棉,求X的分布列和数学期望.
注:①独立性检验的临界值表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
②,其中.
【例2】随着电商事业的发展和工作生活节奏的加快,人们的生活方式和生活理念正在发生巨大的改变.通过外卖App下单订餐叫外卖,正受到越来越多的市民尤其是青年上班族的喜爱.为了解市民是否经常利用外卖平台点餐,调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,其中经常用外卖平台点餐的人数是基本不用外卖平台点餐的人数的倍;岁以上经常用外卖平台点餐的人数和基本不用外卖平台点餐的人数相等;岁及以下有人基本不用外卖平台点餐.
(1)请完善下面列联表(单位:人),并依据的独立性检验,分析经常利用外卖平台点餐是否与年龄有关?
经常用外卖平台点餐
基本不用外卖平台点餐
总计
岁及以下
岁以上
总计
(2)利用分层抽样方法在经常用外卖平台点餐的市民中随机抽取人,再从以上人中随机抽取人.记被抽取的人中“岁以上”的人数为,求随机变量的分布列和均值.
附:,其中.
临界值表:
【题型专练】
1.为迎接2022年北京冬季奥运会,普及冬奥知识,某校开展了“冰雪答题王”冬奥知识竞赛活动.现从参加冬奥知识竞赛活动的学生中随机抽取100名学生,将他们的竞赛成绩(满分为100分)分为6组:,,,,,,得到如图所示的频率分布直方图.
(1)估计这100名学生的平均成绩(同一组中的数据用该组区间的中点值为代表),并估计这100名学生成绩的中位数(精确到0.01);
(2)在抽取的100名学生中,规定:竞赛成绩不低于80分为“优秀”,竞赛成绩低于80分为“非优秀”.请将下面的列联表补充完整,并判断是否有99%的把握认为“竞赛成绩是否优秀与性别有关”?
列联表
参考公式及数据:,,
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
2.为丰富学生的校园生活,提升学生的实践能力和综合素质能力,培养学生的兴趣爱好,某校计划借课后托管服务平台开设书法兴趣班,为了解学生对这个兴趣班的喜爱情况,该校随机抽取了该校名学生,调查他们对这个兴趣班的喜爱情况,得到下面的2×2列联表:
喜爱
不喜爱
合计
男
女
合计
以调查得到的男、女学生喜欢书法兴趣班的频率代替概率.
(1)完成题中的2×2列联表,并判断能否有的把握认为是否喜欢书法兴趣班与性别有关;
(2)从该校喜欢书法兴趣班的学生中,用分层抽样的方法抽取名学生,再从这名学生中随机抽取名学生,求这名学生中至少有名女学生的概率.
参考公式:,其中.
参考数据:
3.北京时间2022年4月16日09时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,神舟十三号载人飞行任务取得成圆满成功.某校为了解本校学生对此新闻事件的关注度,从本校学生中随机抽取了200名学生进行调查,调查样本中有80名女生.
关注
不关注
合计
男生
女生
合计
(1)完成上面的2×2列联表,并判断能否有99.9%的把握认为学生是否关注“神州十三号飞船成功着陆”新闻事件与性别有关.
(2)从这200名学生里对“神州十三号飞船成功着陆”新闻事件不关注的学生中,按性别采用分层抽样的方法抽取6名学生,再从这6名学生中随机选取2人参与该新闻事件的学习.求这2名学生不全是男生的概率.
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
1
学科网(北京)股份有限公司
$$