内容正文:
第06讲 回归方程与独立性检验
内容导航——预习三步曲
第一步:学
析教材·学知识:教材精讲精析、全方位预习
练题型·强知识:核心题型举一反三精准练
【题型01:相关关系的概念和判断】
【题型02:相关系数的比较和计算】
【题型03:线性回归方程与样本中心】
【题型04:求线性回归方程】
【题型05:残差及相关指数的应用】
【题型06:非线性回归方程】
【题型07:独立性检验的理解】
【题型08:独立性检验的实际应用】
【题型09:独立性检验的最值】
第二步:记
串知识·识框架:思维导图助力掌握知识框架、学习目标复核内容掌握
第三步:测
过关测·稳提升:小试牛刀检测预习效果、查漏补缺快速提升
知识点1:相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
知识点2:回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
知识点3:独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
【题型01:相关关系的概念和判断】
1.如图是某调查小组收集的全国近十个月新能源汽车与燃油车销量的折线图,根据该折线图,下列说法错误的是( )
nn
A.新能源汽车销量与月份呈现正相关
B.可预测燃油车销量仍呈下降趋势
C.新能源汽车销量逐月增长率大致相同
D.燃油车销量与月份的相关系数接近1
【答案】D
【详解】对于A,新能源汽车销量与月份呈现上升趋势,所以新能源汽车销量与月份正相关,故A正确;
对于B,燃油车销量与月份呈现下降趋势,且比较均匀的分布在直线的两侧,可预测燃油车销量仍呈现下降趋势,故B正确;
对于C,新能源汽车销量与月份呈现上升趋势,且比较均匀的分布在直线的两侧,所以新能源汽车销量逐月增长率大致相同,故C正确;
对于D,燃油车销量与月份呈现下降趋势,且比较均匀的分布在直线的两侧,所以燃油车销量与月份的相关系数接近,故D错误.
故选:D.
2.观察下列散点图,关于两个变量的相关关系推断正确的是( )
A.(1)为正相关,(2)不相关,(3)负相关
B.(1)为正相关,(2)负相关,(3)不相关
C.(1)为负相关,(2)不相关,(3)正相关
D.(1)为负相关,(2)正相关,(3)不相关
【答案】A
【详解】第一个图点的分布比较集中,且随的增加,而增加,是正相关.
第二个图点的分布比较分散,不相关.
第三个图点的分布比较集中,且随的增加,而减少,是负相关.
故选:A.
3.在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是( )
A.样本数据由正相关变成负相关 B.样本的相关系数不变
C.样本的相关性变弱 D.样本的相关系数变大
【答案】D
【详解】由题意,去掉离群点后,仍然为正相关,相关性变强,相关系数变大,故A、B、C错误,D正确.
故选:D.
4.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;
对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
对C,图1正相关,图2负相关,所以C不正确;
对D,因为图2相关程度更强,所以D正确.
故选:C.
【题型02:相关系数的比较和计算】
5.在研究线性回归模型时,样本数据所对应的点均在直线上,则这组样本数据的样本相关系数为 .
【答案】
【详解】因为样本数据所对应的点都在直线上,所以,
又样本数据负相关,所以.
故答案为:.
6.某市环保部门研究近十年空气质量数据,得到以下结论:
结论一:PM2.5浓度与机动车保有量的样本相关系数;
结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数;
结论三:工业能耗与近地面臭氧浓度的样本相关系数.
下列说法正确的是( )
A.由结论一可知,机动车保有量增加是PM2.5浓度升高的直接原因
B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联
C.结论三表明工业能耗与近地面臭氧浓度呈正相关,且线性相关性比结论一更强
D.结论一中接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系
【答案】D
【详解】由,可知PM2.5浓度与机动车保有量存在极强的线性相关关系,但并不能说明机动车保有量增加是PM2.5浓度升高的直接原因,故A错误,D正确;
由于,,则表明工业能耗与近地面臭氧浓度呈正相关,但线性相关性没有结论一的强,故C错误,
由,可知绿化覆盖率与呼吸道疾病发病率呈负相关,相关性不是很强,但不能说绿化覆盖率与呼吸道疾病发病率无关联,故B错误,
故选:D
7.已知四组成对样本数据对应的线性相关系数分别为,,则线性相关程度最强的是( )
A.A组 B.B组 C.C组 D.D组
【答案】A
【详解】由,即,
所以线性相关程度最强的是组.
故选:A
8.以下是标号分别为①、②、③、④的四幅散点图,它们的样本相关系数分别为,那么相关系数的大小关系为 (按由小到大的顺序排列).
【答案】
【详解】根据散点图可知,图①③成正相关,图②④成负相关,
∴,
又图①②的散点图近似在一条直线上,则图①②两变量的线性相关程度比较高,
图③④的散点图比较分散,故图③④两变量的线性相关程度比较低,
即与比较大,与比较小,∴,
故答案为:.
9.为了让人民享受到更优质的教育服务,我国逐年加大对教育的投入.为了预测2022年全国普通本科招生数,建立了招生数y(单位:万人)与时间变量t的三个回归模型.其中根据2001年至2019年的数据(时间变量t的值依次取1,2,3,…,19)建立模型①: (决定系数)和模型②:=152.4+16.3t(相关系数0.97,决定系数).根据2014年至2019年的数据(时间变量t的值依次取1,2,3,…,6)建立模型③:=372.8+9.8t(相关系数0.99,决定系数).
(1)可以根据模型①得到2022年全国普通本科招生数的预测值为597.88万人,请你分别利用模型②③,求2022年全国普通本科招生数的预测值;
(2)你认为用哪个模型得到的预测值更可靠?说明理由(写出一个即可).
【答案】(1)利用模型②预测值为511(万人);利用模型③预测值为461(万人)
(2)利用模型③得到的预测值更可靠,理由见解析
【分析】
【详解】(1)利用模型②得2022年全国普通本科招生数的预测值为=152.4+16.3×22=511(万人);
利用模型③得2022年全国普通本科招生数的预测值为=372.8+9.8×9=461(万人).
(2)利用模型③得到的预测值更可靠,理由如下(以下理由任选一个作答即可).
理由一:从计算结果可以看出,模型③的决定系数最大,说明其拟合效果最好,因此利用模型③得到的预测值更可靠.
理由二:模型①的决定系数比模型②③小很多,说明其拟合效果最差.对于模型②③,模型③的相关系数0.99比模型②的相关系数0.97大,说明模型③的两变量的线性相关性比模型②更强.因此利用模型③得到的预测值更可靠.
10.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:
x(年龄/岁)
26
56
39
49
61
53
27
58
41
60
y(脂肪含量/%)
14.5
31.4
21.2
26.3
34.6
29.6
17.8
33.5
25.9
35.2
根据上表中的样本数据:
(1)求和;
(2)计算样本相关系数(精确到0.01),并推断它们的相关关系及相关程度.
参考数据及公式:,,,,,相关系数
【答案】(1),
(2),人体脂肪含量和年龄的相关程度很强,理由见解析.
【详解】(1),
(2)因为,,
所以,
由样本相关系数,可以推断人体脂肪含量和年龄的相关程度很强.
【题型03:线性回归方程与样本中心】
11.2025年11 月,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”完成搭建,该量子计算系统具备“量子计算优越性”能力.下表记录了8个团队在特定年度的研发资金投入x(单位:亿元)与芯片性能提升评估指数y,且
研发资金投入x/亿元
2
10
性能提升评估指数y
2
12
已知y与x具有较强的线性关系,通过最小二乘估计得到的经验回归方程为如果去掉样本点后,得到的新样本的经验回归方程为则( )
A.0.1 B.0.3 C.0.5 D.0.7
【答案】B
【详解】由及,得,
则在新样本中,,
所以.
故选:B
12.某店日盈利(单位:百元)与当天平均气温(单位:)之间有如下数据:
-2
-1
0
1
2
百元
5
4
2
2
1
小明对上述数据进行分析,发现与之间具有线性相关关系,则关于的经验回归方程为( )
A. B. C. D.
【答案】B
【详解】由题意可知,,样本中心点为,
由样本数据可知,随着的增大而减小,所以符合条件.
故选:B.
13.某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
a
25
28
35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B.
C. D.时,
【答案】C
【详解】由题,
所以,所以回归直线方程,
所以当时,.
故ABD正确,C错误.
故选:C
14.已知变量x,y线性相关,其一组样本数据(,2,3,4,5),满足,用最小二乘法得到的线性回归方程是.现增加一个数据,重新计算得到的回归直线斜率是,时,y的估计值是( )
A.3 B. C. D.
【答案】B
【详解】由题设,则,
增加数据后,,且回归直线为,
所以,得,则,
所以时,有
故选:B.
15.已知变量的一组对应数据如下表所示:
1
2
3
4
5
0
3
2
5
且关于的经验回归方程为,则( )
A.
B.
C.当时,预测的值为7.4
D.从这5组数据中任取2组,均满足的情况有3种
【答案】ACD
【详解】对于,由点在直线上,
可得,故A正确;
对于,由,可得,故B错误;
对于,当时,,故C正确;
对于,
满足的情况有3种,所以从这5组数据中任取2组,
均满足的情况有种,故D正确.
故选:ACD.
16.(多选)对于变量和变量,经过随机抽样获得成对样本数据,,且,样本数据对应的散点大致分布在一条直线附近.利用最小二乘法求得线性回归方程为,分析发现样本数据对应的散点远离回归直线,将其剔除后得到新的线性回归方程,则( )
A.变量与变量的样本相关系数为1.8
B.剔除后,变量与变量的样本相关系数变大
C.新的回归直线经过点
D.若新的回归直线经过点,则其方程为
【答案】BD
【详解】对于A,样本相关系数绝对值的最大值为1,故A错误.
对于B,由剔除的是偏离直线较大的异常点,得剔除该点后,
新样本数据的线性相关程度变强,即样本相关系数的绝对值变大,
易知变量与变量正相关,所以剔除后,样本相关系数变大,故B正确.
对于C,原样本中,,
剔除一个偏离直线较大的异常点后,
新样本中,,,
因此剔除该异常点后的回归直线经过点,故C错误.
对于D,由新的回归直线经过点,得新的回归直线斜率为,
设,将点代入,得,所以其方程为,故D正确.
故选:BD.
【题型04:求线性回归方程】
17.如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
【答案】回归方程为,预测2024年该地区生活垃圾无害化处理量将约万吨
【详解】,,
,
得,
又,,
y关于t的回归方程为.
,将2024对应的代入回归方程得:,
预测2024年该地区生活垃圾无害化处理量将约万吨.
18.某种产品2014年到2018年的年投资金额(万元)与年利润(万元)的数据统计如下,由散点图知,与之间的关系可以用线性回归模型拟合,已知5年利润的平均值是4.7.
年份
2014
2015
2016
2017
2018
年投资金额万元
1
2
3
4
5
年利润万元
2.4
2.7
6.4
7.9
(1)求表中实数的值;
(2)求关于的线性回归方程.
参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.
【答案】(1);
(2).
【分析】
【详解】(1)由题意得,,解得
(2)由题意得,,,
,故,
则,
故所求线性回归方程为.
19.两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
【答案】(1)138
(2)
【分析】
【详解】(1)
,
代入数据可得.
(2)由已知得,,∵,
∴,
,
∴关于的经验回归方程为.
20.如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
【答案】(1)相关系数,可用线性回归模型拟合y与x的关系
(2),吨
【分析】
【详解】(1)由折线图得如下数据计算得:
,,,
所以相关系数,
因为,所以可用线性回归模型拟合y与x的关系
(2)
,
所以回归方程为,
当时,,
所以预测年产量为10吨时的污水排放量为吨
21.防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.
【答案】(1),6月份该厂的订单数为59.9万元;
(2),与之间具有很强的正相关关系.
【分析】
【详解】(1)解:由题可得:,
,
,
关于的线性回归方程为,
2022年6月对应的变量为6,将代入,
得,
估计6月份该厂的订单数为59.9万元.
(2)相关系数.
与之间具有很强的正相关关系.
22.下表是某公司从2014年至2020年某种产品的宣传费用的近似值(单位:千元)
年份
2014
2015
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
6
7
该种产品的宣传费用y
59.3
64.1
68.8
74.0
82.1
90.0
99.1
以x为解释变量,y为预报变量,若以为回归方程,则相关指数;若以为回归方程,则相关指数.
(1)判断与,哪一个更适合作为该种产品的宣传费用的近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程(系数精确到0.1).
参考数据:.参考公式:.
【答案】(1)更适合,理由见解析;(2).
【分析】
【详解】(1)更适合作为该种产品的宣传费用的近似值
y关于年份代号x的回归方程.
因为越大,说明模型的拟合效果越好.
(2)由表格中数据有,
,
则.
【题型05:残差及相关指数的应用】
23.如果散点图中所有的散点都落在一条斜率不为0的直线上,则下列结论错误的是( )
A.解释变量和响应变量线性相关 B.相关系数
C.决定系数 D.残差平方和等于1
【答案】D
【详解】直线对应的函数为一次函数,故解释变量和响应变量是一次函数关系,故A正确.
因为样本点都落在直线上,所以样本相关系数,所以,所以B 正确。
决定系数和残差平方和都能反映模型的拟合程度,故决定系数,残差平方和为0,故C正确,D错误
故选:D
24.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
【答案】A
【详解】因,则,则,
则新增数据后,,,
因新的回归直线过点,且修正后的回归直线的斜率为2.1,
则,则修正后的回归直线为:,
则的估计值为,则数据的残差为.
故选:A
25.将收集到的6组数据对制作如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得回归直线方程:,相关系数为,相关指数为;残差分析确定点对应残差过大,把它去掉后,再用剩下的5组数据计算得回归直线方程:,相关系数为,相关指数为.则以下结论中,不正确的是( )
A. B.
C. D.
【答案】D
【详解】从散点图可以看出,两个变量是正相关,故A正确;
从散点图可以看出,回归直线的斜率是正数,且的斜率大于的斜率,故 B和C正确;
从散点图可以看出,去掉“离群点”后,相关性更强,拟合的效果更好,
值越大,模型的拟合效果越好,所以,故D错误;
故选:D.
26.(多选)下列说法正确的有( )
A.在经验回归方程中,当解释变量x每增加1时,响应变量y平均减少2.3
B.在经验回归方程中,相对于样本点的残差为
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D.若两个变量的决定系数越大,表示残差平方和越大,即拟合效果越好
【答案】BC
【详解】对于A,因为,
当解释变量x每增加1时,响应变量y平均减少0.85,故A错误;
对于B,因为,,
所以相对于样本点的残差为,故B正确;
对于C,在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好,故C正确;
对于D,由决定系数的意义可知,越大,表示残差平方和越小,即模型的拟合效果越好,故D错误.
故选:BC
27.(多选)[多选]根据变量和的成对样本数据,由一元线性回归模型①,得到经验回归模型,对应的残差如图1所示.根据变量和的成对样本数据,由一元线性回归模型②,得到经验回归模型,对应的残差如图2所示,则( )
A.模型①的误差满足一元线性回归模型的的假设,不满足的假设
B.模型①的误差不满足一元线性回归模型的的假设,满足的假设
C.模型②的误差满足一元线性回归模型的的假设,不满足的假设
D.模型②的误差满足一元线性回归模型的的假设,满足的假设
【答案】AD
【详解】对于模型①对应的散点,可以看出残差大致绕着0值分布,没有明显的趋势或系统偏差,因此随机误差满足的假设,但是方差随着的变化而变化,不满足的假设;
对于模型②对应的散点,均匀分布在水平带状区域内,随机误差满足的假设,方差不随的变化而变化,满足的假设.
故选:AD.
28.某种产品的广告支出费(单位:万元)与销售量(单位:万件)之间的对应关系如下表.
广告支出x/万元
1.2
2.6
4
5.4
6.8
销售量y/万件
1.4
6
7.3
11.8
13.5
根据表中的数据可得回归直线方程,则以下说法中正确的是( )
A.第三个样本点对应的残差
B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C.销售量的变化有97%是由广告支出费引起的
D.用该回归方程可以比较准确地预测广告支出费为20万元时的销售量
【答案】AC
【详解】,,
将其代入回归方程中得,得,
故回归直线方程为,所以,A正确;
由于,所以该回归模型拟合的效果比较好,故对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,B错误;
在线性回归模型中,表示解释变量对于预报变量的贡献率,,则销售量的变化有97%是由广告支出费引起的,C正确;
由于样本的取值范围会影响回归方程的使用范围,而20万元远大于表格中广告支出费的值,故用该回归方程不能准确地预测广告支出费为20万元时的销售量,故D错误.
故选:AC
【题型06:非线性回归方程】
29.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
【答案】B
【详解】从散点图知,样本点分布在抛物线上或对数型曲线上,结合所给5个的曲线类型,所以或较适宜.
故选:B
30.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月
1
2
3
繁殖数量
A.百只 B.百只 C.百只 D.百只
【答案】B
【详解】由两边取自然对数得,令,
则,即与呈线性相关关系,
,,
回归直线必过样本点的中心,,解得,
,则,当时,.
故选:B
31.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
【答案】(1)模型②的拟合程度更好
(2)13(百万辆)
【分析】
【详解】(1)设模型①和②的相关系数分别为,
由题意可得:,
,
所以,由相关系数的意义可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
32.近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
【答案】(1)选.
(2);690
【分析】
【详解】(1)根据散点图的分布规律,随着的增大,的增长速度越来越快,符合指数函数的增长特征,
所以(均为大于零的常数)适宜作为人次关于活动推出天数的回归方程类型.
(2)因为表示活动推出的天数,,则.
.
因为,所以.
所以,所以.
又,所以.
所以.
当时,.
所以预测活动推出第8天售楼部来访的人次为690.
33.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
【答案】(1)选择模型②
(2);10人
【分析】
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以选模型②比较合适;
(2)根据模型②,令与可用线性回归来拟合,有,
则,
所以,
则关于的经验回归方程为.
所以关于的经验回归方程为,
由题意,,解得,又为整数,所以,
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
34.近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;
,,
,,,,
【答案】(1)适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型
(2)
(3)估计2024年的企业利润为93.3亿元
【分析】
【详解】(1)由散点图的变化趋势,知适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型;
(2)由题意得:,,
,
,
所以;
(3)令,,
估计2024年的企业利润为99.25亿元.
【题型07:独立性检验的理解】
35.某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【详解】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
36.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
运动
性别
总计
男
女
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
下列结论正确的是( )
A.认为“爱好该项运用与性别有关”,犯错误的概率不超过0.01
B.认为“爱好该项运用与性别无关”,犯错误的概率不超过0.01
C.认为“爱好该项运动与性别有关”,犯错误的概率不超过0.001
D.认为“爱好该项运动与性别无关”,犯错误的概率不超过0.001
【答案】A
【详解】由公式,
由可知,认为“爱好该项运动与性别有关”,
犯错误的概率不超过0.01.
故选:A
37.某医疗研究机构为了解打鼾与患心脏病的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为打鼾与患心脏病有关系的把握约为( )
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A. B. C. D.
【答案】B
【详解】因为,
所以有的把握认为打鼾与患心脏病有关系.
故选:B.
38.某医疗研究机构为了了解免疫与注射疫苗的关系,进行一次抽样调查,得到数据如表.
免疫
不免疫
合计
注射疫苗
10
10
20
未注射疫苗
6
34
40
合计
16
44
60
则下列说法中正确的是( )(多选)
A.
B.
C.我们有99%以上的把握认为免疫与注射疫苗有关系
D.我们有99.9%以上的把握认为免疫与注射疫苗有关系
【答案】AC
【详解】A选项,由表中数据,得,故A正确;
B选项,,,故B错误;
CD选项,,所以有99%以上的把握认为免疫与注射疫苗有关系,
但没有99.9%以上的把握认为免疫与注射疫苗有关系,所以C正确,D错误.
故选:AC
39.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
手术
心脏病
合计
又发作过
未发作过
心脏搭桥
39
157
196
血管清障
29
167
196
合计
68
324
392
试根据上述数据计算 ,能否根据小概率值的独立性检验作出这两种手术对病人又发作心脏病的影响有差别的结论 (填“能”或“不能”).
【答案】 1.779 不能
【详解】零假设为:这两种手术对病人又发作心脏病的影响无差别.
根据列联表中的数据,可以求得
,
根据小概率值的独立性检验,我们没有充分的证据推断不成立,
即认为这两种手术对病人又发作心脏病的影响无差别.
故答案为:1.779;不能
40.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是 (填序号).
①若,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
【答案】③
【详解】的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
故答案为:③
【题型08:独立性检验的实际应用】
41.某农业科研团队为探究不同的施肥种植方式对作物产量的影响,在一片试验田里,对采用有机肥料种植的作物和化学肥料种植的作物进行研究. 经统计,试验田里采用有机肥料种植的作物有800株,采用化学肥料种植的作物有400株. 现按分层随机抽样的方法,从两类施肥种植的作物中一共抽取120株进行产量检测,以每株作物产量达到500克作为达标标准,得到以下部分列联表:
单位:株
施肥种植方式
产量达标情况
合计
产量达标
产量不达标
有机肥料种植
60
化学肥料种植
20
合计
120
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的施肥种植方式与作物产量达标情况有关联?
附:,其中
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析
(2)能
【分析】
【详解】(1)解:采用有机肥料种植的作物抽取株数为(株),
因为抽取的有机肥料种植的作物中产量达标的有60株,所以产量不达标的有20株.
采用化学肥料种植的作物抽取株数为(株),
因为抽取的化学肥料种植的作物中产量不达标的有20株,所以产量达标的有20株.
完成后的列联表如下: 单位:株
施肥种植方式
产量达标情况
合计
产量达标
产量不达标
有机肥料种植
60
20
80
化学肥料种植
20
20
40
合计
80
40
120
(2)解: 零假设为:不同的施肥种植方式与作物产量达标情况无关联.
根据公式,
根据小概率值的独立性检验,我们推断不成立,即认为不同的施肥种植方式与作物产量达标情况有关联,此推断犯错误的概率不大于0.05.
42.2025年7月15日,搭载天舟九号货运飞船的长征七号遥十运载火箭成功发射,标志着我国航天事业又迈上了一个新台阶.某中学为了解学生对我国航天事业发展的关注度,随机地从该校学生中抽取一个容量为200的样本进行调查,调查结果如下表:
性别
关注情况
高度关注
非高度关注
女学生
30
男学生
90
以频率估计概率,若在这200名学生中随机抽取1人,该学生高度关注我国航天事业发展的概率为.
(1)求的值;
(2)根据小概率值的独立性检验,判断该校学生对航天事业发展的高度关注是否与学生性别有关.
参考公式:,其中.
临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)该校学生高度关注我国航天事业发展与学生性别有关,
【分析】
【详解】(1)因为在这200名学生中随机抽取1人,该学生高度关注我国航天事业发展的概率为,
所以,解得.
又,解得,所以
(2)由(1)得,列联表如下:
性别
关注情况
合计
高度关注
非高度关注
女学生
70
30
100
男学生
90
10
100
合计
160
40
200
零假设为;该校学生高度关注我国航天事业发展与学生性别无关.
,
因为依据小概率值的独立性检验,判断不成立,
即认为该校学生高度关注我国航天事业发展与学生性别有关,此推断犯错误的概率不大于.
43.为研究中学生的专注力与阅读时长是否有关系,调查小组随机抽取了某城市部分中学生进行调查,所得数据统计如下表(单位:人):
每日阅读时长≥30分钟
每日阅读时长<30分钟
专注力达标
170
80
专注力不达标
100
150
(1)记“每日阅读时长≥30分钟”为事件A,“专注力达标”为事件B,求和;
(2)根据的独立性检验,能否认为中学生的专注力与阅读时长有关系?
附:.
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1),
(2)根据的独立性检验,可以认为中学生的专注力与阅读时长有关系
【分析】
【详解】(1),
,.
(2)零假设:中学生的专注力与阅读时长没有关系,
由表中数据可得,
根据的独立性检验,推断零假设不成立,即认为中学生的专注力与阅读时长有关系,
所以,根据的独立性检验,可以认为中学生的专注力与阅读时长有关系.
44.某市为了研究学生身体素质与课外体育锻炼时间的关系,在某个区随机调查了1000名学生,得到如下列联表:
课外体育锻炼时间组别
达标
不达标
合计
身体素质强
860
40
900
身体素质弱
40
60
100
合计
900
100
1000
(1)根据小概率值的独立性检验,分析课外体育锻炼时间与身体素质是否有关;
(2)如果用该区学生达标成绩的情况来估计全市学生的达标情况,现从全市学生中随机抽取3名,求恰有1人课外体育锻炼时间达标的概率.
附
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)有关
(2)
【分析】
【详解】(1)课外体育锻炼时间与身体素质无关,
,
根据小概率值的独立性检验,推断不成立,
所以有的把握认为课外体育锻炼时间与身体素质有关;
(2)由题意在某个区随机调查了1000名学生,有900人达标,达标率为,
利用频率估计概率可知该区任抽一名学生,这名学生课外体育锻炼时间达标的概率为.
记“恰有1人课外体育锻炼时间达标”为事件,
则,
所以恰有1人课外体育锻炼时间达标的概率.
45.某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据图中数据,估计强化训练前的成绩的平均数(同一组中的数据用该组区间的中点值作代表);并求强化训练后的成绩的60%分位数.
(2)规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
强化训练
是否优秀
合计
优秀
非优秀
强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?
附:,.
0.05
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)平均数为,分位数为;
(2)表格见解析,认为跳水运动员是否优秀与强化训练有关.
【分析】
【详解】(1)因为强化训练前的各组频率分别为,,,,,;
强化训练前的成绩的平均数,
强化训练后的各组频率分别为,,,,,
又因为前三组频率之和为,
前四组频率之和为,
可知分位数在内,设分位数为,
则,解得,
所以分位数约为;
(2)零假设为:跳水运动员是否优秀与强化训练无关,
补充完整的表格为
优秀人数
非优秀人数
合计
强化训练前
40
60
100
强化训练后
60
40
100
合计
100
100
200
则,
根据小概率值的独立性检验,我们推断不成立,
所以认为跳水运动员是否优秀与强化训练有关.
【题型09:独立性检验的最值】
46.某校对“学生性别和喜欢刷视频是否有关”作了一次调查,得到如下列联表:
不喜欢刷视频
喜欢刷视频
总计
男生
女生
总计
若通过计算,可得根据小概率值的独立性检验,认为学生是否喜欢刷视频与性别有关联,则正整数的最小值为( )
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
A.80 B.100 C.120 D.150
【答案】B
【详解】完成列联表如下:
不喜欢刷视频
喜欢刷视频
总计
男生
女生
总计
则,解得.
又为正整数,且是5的倍数,可得的最小值为100.
故选:B.
47.2025年7月22日是二十四节气中的第十二个节气——大暑.受今年气候等多因素的影响,全国各地高温天气持续不断.某校以“预防中暑,防止脱水”为主题举行活动.为了解男女同学对该活动的兴趣程度,对多位该校同学进行了调查,并将结果整理成如下列联表.
性别
兴趣程度
合计
感兴趣
不感兴趣
男生
女生
合计
(1)当m足够大时,估计从该校任选一名对该活动不感兴趣的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,求正整数m的最小值.
附:,其中.
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)
(2)10
【分析】
【详解】(1)由调查数据可知当m足够大时,以频率估计概率可知,
从该校任选一名对该活动不感兴趣的学生是男生的概率为.
(2)由题意可得,
若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,
则,解得
因为m为正整数,
所以m的最小值为10.
48.为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了若干人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
未患该疾病
合计
(1)记超声波检查结果不正常者患该疾病的概率为,求关系;
(2)在(1)的条件下,根据小概率值的独立性检验,分析得出超声波检查结果与患该疾病有关.求的最小值.(保留整数)
附,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)
(2)
【分析】
【详解】(1)因为超声波检查结果不正常者患该疾病的概率为,
所以,解得;
(2)将代入列联表可得:
超声波检查结果组别
正常
不正常
合计
患该疾病
未患该疾病
合计
则,
因为根据小概率值的独立性检验,
所以,解得,
因为,所以n的最小值为45,
所以,
所以m的最小值为180
一、单选题
1.有一散点图如图所示,在5个数据中去掉后,下列说法正确的是( )
A.解释变量与响应变量的线性相关性变弱 B.方差变大
C.决定系数变小 D.残差平方和变小
【答案】D
【详解】从散点图可分析出,若去掉点,则剩下的点更能集中在一条直线附近,
所以解释变量与响应变量的线性相关性变强,
数据的离散程度减小,所以方差变小,决定系数越接近1,会变大,
因为拟合效果越好,所以残差平方和变小.
故选:D
2.为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学研究性学习小组进行了调查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:
使用手机情况
成绩
合计
及格
不及格
很少
20
5
25
经常
10
15
25
合计
30
20
50
参考公式:,其中.
附表:
0.05
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
参照附表,得到的正确结论是( )
A.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”
B.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”
C.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩无关”
D.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”
【答案】D
【详解】由题中数据可得,,
所以有99.5%的把握认为“经常使用手机与数学学习成绩有关”,
即在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”.
所以C错误,D正确;
因为,
所以依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”,A错误;
因为,
所以依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”,B错误.
故选:D
3.AI模型正在改变着我们的工作和生活方法,某机构为了了解对DeepSeek的使用情况与性别的关系,随机调查了人,得到如下列联表(单位:人):
性别
使用情况
合计
经常使用
不经常使用
男性
女性
合计
依据小概率值的独立性检验认为对DeepSeek的使用情况与性别有关系,则的最小值为( )
(附:,,)
A.48 B.49 C.50 D.51
【答案】D
【详解】将列联表中的数据代入公式计算得 ,
解得 48.726,又 ,
所以 的最小值为 51 .
故选:D.
4.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取100名学生.通过测验得到如下的列联表:
单位:人
学校
数学成绩
合计
不优秀
优秀
甲
40
10
50
乙
30
20
50
合计
70
30
100
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
下列结论正确的是( )
A.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率无差异
B.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
C.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
D.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
【答案】B
【详解】零假设为:两校学生的数学成绩优秀率无差异,
A,若,因为,故有充分的证据推断不成立,
即两校学生的数学成绩优秀率有差异,故A错误;
B,若,因为,故有充分的证据推断不成立,
即两校学生的数学成绩优秀率有差异,故B正确;
C,若,因为,故没有充分的证据推断不成立,
即两校学生的数学成绩优秀率无差异,故C错误;
D,若,因为,故没有充分的证据推断不成立,
即两校学生的数学成绩优秀率无差异,故D错误.
故选:B
5.已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
【答案】A
【分析】
【详解】由题可得原数据,因过点,
则,从而.
设去掉数据后,新数据为,则
,又因,,
则,,从而.
故选:A
6.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
【答案】C
【详解】已知,把,代入可得:
,即.
因为对数函数在上单调递增,且,所以,即有最大值为.
故选:C.
二、多选题
7.中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关.为了建立茶水温度随时间变化的回归模型,小明每隔1分钟测量一次茶水温度,得到若干组数据,,…,(其中,),绘制了如图所示的散点图.小明选择了如下2个回归模型来拟合茶水温度随时间的变化情况,回归模型一:;回归模型二:,下列说法正确的是( ).
A.茶水温度与时间这两个变量负相关
B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况
C.若选择回归模型二,利用最小二乘法求得到的图象一定经过点
D.当时,通过回归模型二计算得,用温度计测得实际茶水温度为65.2,则残差为
【答案】AB
【详解】由散点图可知随时间增加,温度逐渐降低,且变化趋势趋于平缓,故为负相关且模型二拟合更好,即A、B正确;
根据非线性回归模型的拟合方法,先令,则,此时拟合为线性回归方程,
对应的回归直线过点,原曲线不一定经过,故C错误;
残差为真实值减估计值,即为65.2-65.1=0.1,故D错误.
故选:AB.
8.为研究某种树的树高和胸径的关系,甲学习小组随机测量了100棵该品种树的胸径x(单位:cm)和树高y(单位:m)的数据,已知其中一组数据为点,且,求得线性经验回归方程为,其决定系数,并绘制了如下残差图.该小组研究发现,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则下列结论正确的是( )
A.乙学习小组对这组数据进行分析,得到非线性经验回归方程,其决定系数为,则甲小组选取的模型拟合效果更好
B.数据点P对应的残差为0.9
C.该样本中树的平均树高为22.29m
D.删除数据点P后,重新求得的回归直线的斜率变小
【答案】AC
【详解】对于A:决定系数越大,模型的拟合效果越好,,选项A正确;
对于B:计算数据对应的残差,当时,,
所以残差为,选项B错误;
对于C:已知,则样本中心点的横坐标:,
将代入回归方程,可得y=0.25×29.16+15=7.29+15=22.29,
所以样本中树的平均树高为,选项C正确;
对于D:删除数据后,
因为38.4大于样本中心点的横坐标29.16,且23.7小于通过回归方程计算出的38.4对应的预测值24.6,
所以删除该点后,剩下的数据整体上可能使得树高与胸径的正相关变强,
即重新求得的回归直线的斜率变大,选项D错误.
故选:AC.
三、填空题
9.已知变量和的统计数据如下表:
2
4
5
6
8
3
4
6
5
若和线性相关,根据最小二乘法得到关于的经验回归方程为,则 .
【答案】7
【详解】由题意得,,
经验回归直线过点,
所以,
解得.
故答案为:.
10.已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 .
(附:相关系数
【答案】
【详解】设,
则有,
由相关系数公式得,
设与夹角为与夹角为,
由的样本相关系数为,的样本相关系数为,所以,
由这两个夹角均为锐角且,所以与夹角的可能性是,
则与夹角余弦值的最大值为,此时与样本相关系数最大,
即,
所以的样本线性相关系数的最大值为.
故答案为:.
四、解答题
11.某大学生在国家提供的税收、担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数(单位:万元)与时间(单位:年)的数据,列表如下:
1
2
3
4
5
2.4
2.7
4.1
6.4
7.9
依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
【答案】,理由见解析
【详解】由题可知:,,
,
,
则,
即与的线性相关程度很高,可用线性线性回归模型拟合.
12.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立与的回归方程更合适
(2)
(3)万元
【分析】
【详解】(1)由题意知,
,
因为,所以用模型建立与的回归方程更合适.
(2)令,回归方程为,
因为,
,
所以关于的回归方程为,即.
(3)由题意知
,当且仅当,即时取等号,
则,所以.当且仅当时等号成立,
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为万元.
13.某科技创新型企业自创建以来,不断加大研发投入,走科技创新之路,年利润得到较快增长,2021~2025连续五年的年利润y(单位:亿元)与年份序号x(,2,3,4,5,其中2021年记为1,2022年记为2,以此类推)满足某一元非线性回归方程,统计数据如下:
374
230
6.3
144
1.6
4
注:,.
(1)设和y的相关系数为,x和v的相关系数为,请从相关系数的角度,确定和(其中a,b,m,n均为常数,e为自然对数的底数)哪一个拟合程度更好;
(2)根据(1)的结论及表中数据,建立y关于x的回归方程.
附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为, .
②参考数据:.
【答案】(1)模型的拟合程度更好
(2).
【分析】
【详解】(1)令,则可化为,
,
令,则可化为,即,
因为,
所以,
则,因此从相关系数的角度来看,模型的拟合程度更好.
(2)由(1)知,用模型比较合适,
令,则可化为,即,
所以,
因为,,所以,
则关于的回归直线方程为,所以.
8 / 8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
第06讲 回归方程与独立性检验
内容导航——预习三步曲
第一步:学
析教材·学知识:教材精讲精析、全方位预习
练题型·强知识:核心题型举一反三精准练
【题型01:相关关系的概念和判断】
【题型02:相关系数的比较和计算】
【题型03:线性回归方程与样本中心】
【题型04:求线性回归方程】
【题型05:残差及相关指数的应用】
【题型06:非线性回归方程】
【题型07:独立性检验的理解】
【题型08:独立性检验的实际应用】
【题型09:独立性检验的最值】
第二步:记
串知识·识框架:思维导图助力掌握知识框架、学习目标复核内容掌握
第三步:测
过关测·稳提升:小试牛刀检测预习效果、查漏补缺快速提升
知识点1:相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
知识点2:回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
知识点3:独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
【题型01:相关关系的概念和判断】
1.如图是某调查小组收集的全国近十个月新能源汽车与燃油车销量的折线图,根据该折线图,下列说法错误的是( )
nn
A.新能源汽车销量与月份呈现正相关
B.可预测燃油车销量仍呈下降趋势
C.新能源汽车销量逐月增长率大致相同
D.燃油车销量与月份的相关系数接近1
2.观察下列散点图,关于两个变量的相关关系推断正确的是( )
A.(1)为正相关,(2)不相关,(3)负相关
B.(1)为正相关,(2)负相关,(3)不相关
C.(1)为负相关,(2)不相关,(3)正相关
D.(1)为负相关,(2)正相关,(3)不相关
3.在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是( )
A.样本数据由正相关变成负相关 B.样本的相关系数不变
C.样本的相关性变弱 D.样本的相关系数变大
4.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【题型02:相关系数的比较和计算】
5.在研究线性回归模型时,样本数据所对应的点均在直线上,则这组样本数据的样本相关系数为 .
6.某市环保部门研究近十年空气质量数据,得到以下结论:
结论一:PM2.5浓度与机动车保有量的样本相关系数;
结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数;
结论三:工业能耗与近地面臭氧浓度的样本相关系数.
下列说法正确的是( )
A.由结论一可知,机动车保有量增加是PM2.5浓度升高的直接原因
B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联
C.结论三表明工业能耗与近地面臭氧浓度呈正相关,且线性相关性比结论一更强
D.结论一中接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系
7.已知四组成对样本数据对应的线性相关系数分别为,,则线性相关程度最强的是( )
A.A组 B.B组 C.C组 D.D组
8.以下是标号分别为①、②、③、④的四幅散点图,它们的样本相关系数分别为,那么相关系数的大小关系为 (按由小到大的顺序排列).
9.为了让人民享受到更优质的教育服务,我国逐年加大对教育的投入.为了预测2022年全国普通本科招生数,建立了招生数y(单位:万人)与时间变量t的三个回归模型.其中根据2001年至2019年的数据(时间变量t的值依次取1,2,3,…,19)建立模型①: (决定系数)和模型②:=152.4+16.3t(相关系数0.97,决定系数).根据2014年至2019年的数据(时间变量t的值依次取1,2,3,…,6)建立模型③:=372.8+9.8t(相关系数0.99,决定系数).
(1)可以根据模型①得到2022年全国普通本科招生数的预测值为597.88万人,请你分别利用模型②③,求2022年全国普通本科招生数的预测值;
(2)你认为用哪个模型得到的预测值更可靠?说明理由(写出一个即可).
10.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:
x(年龄/岁)
26
56
39
49
61
53
27
58
41
60
y(脂肪含量/%)
14.5
31.4
21.2
26.3
34.6
29.6
17.8
33.5
25.9
35.2
根据上表中的样本数据:
(1)求和;
(2)计算样本相关系数(精确到0.01),并推断它们的相关关系及相关程度.
参考数据及公式:,,,,,相关系数
【题型03:线性回归方程与样本中心】
11.2025年11 月,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”完成搭建,该量子计算系统具备“量子计算优越性”能力.下表记录了8个团队在特定年度的研发资金投入x(单位:亿元)与芯片性能提升评估指数y,且
研发资金投入x/亿元
2
10
性能提升评估指数y
2
12
已知y与x具有较强的线性关系,通过最小二乘估计得到的经验回归方程为如果去掉样本点后,得到的新样本的经验回归方程为则( )
A.0.1 B.0.3 C.0.5 D.0.7
12.某店日盈利(单位:百元)与当天平均气温(单位:)之间有如下数据:
-2
-1
0
1
2
百元
5
4
2
2
1
小明对上述数据进行分析,发现与之间具有线性相关关系,则关于的经验回归方程为( )
A. B. C. D.
13.某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
a
25
28
35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B.
C. D.时,
14.已知变量x,y线性相关,其一组样本数据(,2,3,4,5),满足,用最小二乘法得到的线性回归方程是.现增加一个数据,重新计算得到的回归直线斜率是,时,y的估计值是( )
A.3 B. C. D.
15.已知变量的一组对应数据如下表所示:
1
2
3
4
5
0
3
2
5
且关于的经验回归方程为,则( )
A.
B.
C.当时,预测的值为7.4
D.从这5组数据中任取2组,均满足的情况有3种
16.(多选)对于变量和变量,经过随机抽样获得成对样本数据,,且,样本数据对应的散点大致分布在一条直线附近.利用最小二乘法求得线性回归方程为,分析发现样本数据对应的散点远离回归直线,将其剔除后得到新的线性回归方程,则( )
A.变量与变量的样本相关系数为1.8
B.剔除后,变量与变量的样本相关系数变大
C.新的回归直线经过点
D.若新的回归直线经过点,则其方程为
【题型04:求线性回归方程】
17.如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
18.某种产品2014年到2018年的年投资金额(万元)与年利润(万元)的数据统计如下,由散点图知,与之间的关系可以用线性回归模型拟合,已知5年利润的平均值是4.7.
年份
2014
2015
2016
2017
2018
年投资金额万元
1
2
3
4
5
年利润万元
2.4
2.7
6.4
7.9
(1)求表中实数的值;
(2)求关于的线性回归方程.
参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.
19.两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
20.如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
21.防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.
22.下表是某公司从2014年至2020年某种产品的宣传费用的近似值(单位:千元)
年份
2014
2015
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
6
7
该种产品的宣传费用y
59.3
64.1
68.8
74.0
82.1
90.0
99.1
以x为解释变量,y为预报变量,若以为回归方程,则相关指数;若以为回归方程,则相关指数.
(1)判断与,哪一个更适合作为该种产品的宣传费用的近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程(系数精确到0.1).
参考数据:.参考公式:.
【题型05:残差及相关指数的应用】
23.如果散点图中所有的散点都落在一条斜率不为0的直线上,则下列结论错误的是( )
A.解释变量和响应变量线性相关 B.相关系数
C.决定系数 D.残差平方和等于1
24.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
25.将收集到的6组数据对制作如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得回归直线方程:,相关系数为,相关指数为;残差分析确定点对应残差过大,把它去掉后,再用剩下的5组数据计算得回归直线方程:,相关系数为,相关指数为.则以下结论中,不正确的是( )
A. B.
C. D.
26.(多选)下列说法正确的有( )
A.在经验回归方程中,当解释变量x每增加1时,响应变量y平均减少2.3
B.在经验回归方程中,相对于样本点的残差为
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D.若两个变量的决定系数越大,表示残差平方和越大,即拟合效果越好
27.(多选)[多选]根据变量和的成对样本数据,由一元线性回归模型①,得到经验回归模型,对应的残差如图1所示.根据变量和的成对样本数据,由一元线性回归模型②,得到经验回归模型,对应的残差如图2所示,则( )
A.模型①的误差满足一元线性回归模型的的假设,不满足的假设
B.模型①的误差不满足一元线性回归模型的的假设,满足的假设
C.模型②的误差满足一元线性回归模型的的假设,不满足的假设
D.模型②的误差满足一元线性回归模型的的假设,满足的假设
28.某种产品的广告支出费(单位:万元)与销售量(单位:万件)之间的对应关系如下表.
广告支出x/万元
1.2
2.6
4
5.4
6.8
销售量y/万件
1.4
6
7.3
11.8
13.5
根据表中的数据可得回归直线方程,则以下说法中正确的是( )
A.第三个样本点对应的残差
B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C.销售量的变化有97%是由广告支出费引起的
D.用该回归方程可以比较准确地预测广告支出费为20万元时的销售量
【题型06:非线性回归方程】
29.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
30.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月
1
2
3
繁殖数量
A.百只 B.百只 C.百只 D.百只
31.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
32.近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
33.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
34.近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;
,,
,,,,
【题型07:独立性检验的理解】
35.某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
36.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
运动
性别
总计
男
女
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
下列结论正确的是( )
A.认为“爱好该项运用与性别有关”,犯错误的概率不超过0.01
B.认为“爱好该项运用与性别无关”,犯错误的概率不超过0.01
C.认为“爱好该项运动与性别有关”,犯错误的概率不超过0.001
D.认为“爱好该项运动与性别无关”,犯错误的概率不超过0.001
37.某医疗研究机构为了解打鼾与患心脏病的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为打鼾与患心脏病有关系的把握约为( )
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A. B. C. D.
38.某医疗研究机构为了了解免疫与注射疫苗的关系,进行一次抽样调查,得到数据如表.
免疫
不免疫
合计
注射疫苗
10
10
20
未注射疫苗
6
34
40
合计
16
44
60
则下列说法中正确的是( )(多选)
A.
B.
C.我们有99%以上的把握认为免疫与注射疫苗有关系
D.我们有99.9%以上的把握认为免疫与注射疫苗有关系
39.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
手术
心脏病
合计
又发作过
未发作过
心脏搭桥
39
157
196
血管清障
29
167
196
合计
68
324
392
试根据上述数据计算 ,能否根据小概率值的独立性检验作出这两种手术对病人又发作心脏病的影响有差别的结论 (填“能”或“不能”).
40.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是 (填序号).
①若,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
【题型08:独立性检验的实际应用】
41.某农业科研团队为探究不同的施肥种植方式对作物产量的影响,在一片试验田里,对采用有机肥料种植的作物和化学肥料种植的作物进行研究. 经统计,试验田里采用有机肥料种植的作物有800株,采用化学肥料种植的作物有400株. 现按分层随机抽样的方法,从两类施肥种植的作物中一共抽取120株进行产量检测,以每株作物产量达到500克作为达标标准,得到以下部分列联表:
单位:株
施肥种植方式
产量达标情况
合计
产量达标
产量不达标
有机肥料种植
60
化学肥料种植
20
合计
120
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的施肥种植方式与作物产量达标情况有关联?
附:,其中
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
42.2025年7月15日,搭载天舟九号货运飞船的长征七号遥十运载火箭成功发射,标志着我国航天事业又迈上了一个新台阶.某中学为了解学生对我国航天事业发展的关注度,随机地从该校学生中抽取一个容量为200的样本进行调查,调查结果如下表:
性别
关注情况
高度关注
非高度关注
女学生
30
男学生
90
以频率估计概率,若在这200名学生中随机抽取1人,该学生高度关注我国航天事业发展的概率为.
(1)求的值;
(2)根据小概率值的独立性检验,判断该校学生对航天事业发展的高度关注是否与学生性别有关.
参考公式:,其中.
临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
43.为研究中学生的专注力与阅读时长是否有关系,调查小组随机抽取了某城市部分中学生进行调查,所得数据统计如下表(单位:人):
每日阅读时长≥30分钟
每日阅读时长<30分钟
专注力达标
170
80
专注力不达标
100
150
(1)记“每日阅读时长≥30分钟”为事件A,“专注力达标”为事件B,求和;
(2)根据的独立性检验,能否认为中学生的专注力与阅读时长有关系?
附:.
0.050
0.010
0.001
k
3.841
6.635
10.828
44.某市为了研究学生身体素质与课外体育锻炼时间的关系,在某个区随机调查了1000名学生,得到如下列联表:
课外体育锻炼时间组别
达标
不达标
合计
身体素质强
860
40
900
身体素质弱
40
60
100
合计
900
100
1000
(1)根据小概率值的独立性检验,分析课外体育锻炼时间与身体素质是否有关;
(2)如果用该区学生达标成绩的情况来估计全市学生的达标情况,现从全市学生中随机抽取3名,求恰有1人课外体育锻炼时间达标的概率.
附
0.050
0.010
0.001
3.841
6.635
10.828
45.某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据图中数据,估计强化训练前的成绩的平均数(同一组中的数据用该组区间的中点值作代表);并求强化训练后的成绩的60%分位数.
(2)规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
强化训练
是否优秀
合计
优秀
非优秀
强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?
附:,.
0.05
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【题型09:独立性检验的最值】
46.某校对“学生性别和喜欢刷视频是否有关”作了一次调查,得到如下列联表:
不喜欢刷视频
喜欢刷视频
总计
男生
女生
总计
若通过计算,可得根据小概率值的独立性检验,认为学生是否喜欢刷视频与性别有关联,则正整数的最小值为( )
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
A.80 B.100 C.120 D.150
47.2025年7月22日是二十四节气中的第十二个节气——大暑.受今年气候等多因素的影响,全国各地高温天气持续不断.某校以“预防中暑,防止脱水”为主题举行活动.为了解男女同学对该活动的兴趣程度,对多位该校同学进行了调查,并将结果整理成如下列联表.
性别
兴趣程度
合计
感兴趣
不感兴趣
男生
女生
合计
(1)当m足够大时,估计从该校任选一名对该活动不感兴趣的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,求正整数m的最小值.
附:,其中.
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
48.为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了若干人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
未患该疾病
合计
(1)记超声波检查结果不正常者患该疾病的概率为,求关系;
(2)在(1)的条件下,根据小概率值的独立性检验,分析得出超声波检查结果与患该疾病有关.求的最小值.(保留整数)
附,
0.050
0.010
0.001
3.841
6.635
10.828
一、单选题
1.有一散点图如图所示,在5个数据中去掉后,下列说法正确的是( )
A.解释变量与响应变量的线性相关性变弱 B.方差变大
C.决定系数变小 D.残差平方和变小
2.为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学研究性学习小组进行了调查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:
使用手机情况
成绩
合计
及格
不及格
很少
20
5
25
经常
10
15
25
合计
30
20
50
参考公式:,其中.
附表:
0.05
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
参照附表,得到的正确结论是( )
A.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”
B.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”
C.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩无关”
D.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”
3.AI模型正在改变着我们的工作和生活方法,某机构为了了解对DeepSeek的使用情况与性别的关系,随机调查了人,得到如下列联表(单位:人):
性别
使用情况
合计
经常使用
不经常使用
男性
女性
合计
依据小概率值的独立性检验认为对DeepSeek的使用情况与性别有关系,则的最小值为( )
(附:,,)
A.48 B.49 C.50 D.51
4.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取100名学生.通过测验得到如下的列联表:
单位:人
学校
数学成绩
合计
不优秀
优秀
甲
40
10
50
乙
30
20
50
合计
70
30
100
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
下列结论正确的是( )
A.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率无差异
B.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
C.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
D.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
5.已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
6.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
二、多选题
7.中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关.为了建立茶水温度随时间变化的回归模型,小明每隔1分钟测量一次茶水温度,得到若干组数据,,…,(其中,),绘制了如图所示的散点图.小明选择了如下2个回归模型来拟合茶水温度随时间的变化情况,回归模型一:;回归模型二:,下列说法正确的是( ).
A.茶水温度与时间这两个变量负相关
B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况
C.若选择回归模型二,利用最小二乘法求得到的图象一定经过点
D.当时,通过回归模型二计算得,用温度计测得实际茶水温度为65.2,则残差为
8.为研究某种树的树高和胸径的关系,甲学习小组随机测量了100棵该品种树的胸径x(单位:cm)和树高y(单位:m)的数据,已知其中一组数据为点,且,求得线性经验回归方程为,其决定系数,并绘制了如下残差图.该小组研究发现,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则下列结论正确的是( )
A.乙学习小组对这组数据进行分析,得到非线性经验回归方程,其决定系数为,则甲小组选取的模型拟合效果更好
B.数据点P对应的残差为0.9
C.该样本中树的平均树高为22.29m
D.删除数据点P后,重新求得的回归直线的斜率变小
三、填空题
9.已知变量和的统计数据如下表:
2
4
5
6
8
3
4
6
5
若和线性相关,根据最小二乘法得到关于的经验回归方程为,则 .
10.已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 .
(附:相关系数
四、解答题
11.某大学生在国家提供的税收、担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数(单位:万元)与时间(单位:年)的数据,列表如下:
1
2
3
4
5
2.4
2.7
4.1
6.4
7.9
依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
12.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
13.某科技创新型企业自创建以来,不断加大研发投入,走科技创新之路,年利润得到较快增长,2021~2025连续五年的年利润y(单位:亿元)与年份序号x(,2,3,4,5,其中2021年记为1,2022年记为2,以此类推)满足某一元非线性回归方程,统计数据如下:
374
230
6.3
144
1.6
4
注:,.
(1)设和y的相关系数为,x和v的相关系数为,请从相关系数的角度,确定和(其中a,b,m,n均为常数,e为自然对数的底数)哪一个拟合程度更好;
(2)根据(1)的结论及表中数据,建立y关于x的回归方程.
附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为, .
②参考数据:.
8 / 8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$