内容正文:
专题07 成对数据的统计分析(回归方程、独立性检验)
目录
A题型建模・专项突破
题型一、相关关系的理解与判断 1
题型二、相关系数的计算 3
题型三、样本中心的应用(重) 7
题型四、求回归直线方程(重) 10
题型五、求非线性回归方程(重) 14
题型六、残差及相关指数 17
题型七、独立性检验的理解 21
题型八、独立性检验的实际问题(重) 25
B 综合攻坚·能力跃升 30
题型一、相关关系的理解与判断
1.下列变量之间的关系不是相关关系的是( )
A.已知二次函数,其中是常数,取为自变量,因变量为这个函数对应方程的判别式
B.光照时间和果树产量
C.降雪量和交通事故的发生率
D.土地施用肥料量和粮食产量
【答案】A
【详解】选项B,C,D中的两个变量都具有相关性,且都是一种不确定的关系,是相关关系.
而A中判别式和变量是一种确定的表达式,是一种函数关系,即一种确定的关系,所以不是相关关系.
故选:A
2.下列关系中,属于相关关系的是______(填序号).
①球的体积与该球的半径之间的关系;
②农作物的产量与施肥量之间的关系;
③一般情况下,一个人的身高和体重之间的关系.
【答案】②③
【详解】在①中,球的体积与该球的半径之间是函数关系,不是相关关系;
在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;
在③中,一般情况下,一个人的身高和体重是正相关关系.
3.观察下面各等高堆积条形图,其中两个分类变量x,y相关关系最强的是______.
【答案】③
【详解】由图可知,图③的差异最大,则相关关系最强.
4.对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】B
【详解】对于AC,散点图分布总体是斜向上,故AC中对应的两个变量之间是正相关;
对于BD,散点图分布总体是斜向下,但B中散点分布较为集中,
而D中散点分布较为分散,故B中对应的两个变量相关性较强且为负相关.
5.对四组数据进行统计获得如下散点图并对其相关系数进行比较,正确的是( )
A. B.
C. D.
【答案】B
【详解】由给定的四组数据的散点图可以看成:
图(1)和图(3)是正相关,且图(1)中的数据更加集中,更接近,所以;
图(2)和图(4)是负相关,且图(2)中的数据更加集中,更接近,所以,
综上可得,.
题型二、相关系数的计算
6.为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L),空腹血糖GLU指标值(单位:mmol/L)如表所示:
人员编号
1
2
3
4
5
6
7
8
BMI值x
25
27
30
32
33
35
40
42
TC指标值y
5.3
5.4
5.5
5.6
5.7
6.5
6.9
7.1
GLU指标值z
6.7
7.2
7.3
8.0
8.1
8.6
9.0
9.1
用变量y与x,z与x的相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度.
参考公式:
相关系数,
参考数据:,,,,,,,.
【答案】答案见解析
【详解】由题意,变量与的相关系数,
变量与的相关系数是,
可以看出TC指标值与BMI值,GLU指标值与BMI值都是高度正相关.
7.(多选)某小组探究变量x,y的关系,经统计得到了成对数据的7个样本:,,,,,,.记这组数据中变量x,y的均值分别为,,方差分别为,,样本相关系数为r;删去数据后,x,y的均值分别为,,方差分别为,,样本相关系数为.下面说法正确的是( )
附:样本相关系数
A. B.
C. D.变量x和y的相关性很弱
【答案】AC
【详解】对于A,依题意,,,
删去数据后,,,
所以,故A正确;
对于B,
,
,所以,故B错误;
对于C,
其中,
所以,
,
所以,所以,故C正确;
对于D,因为,变量x和y的线性相关性很弱,但观察数据可知,所有数据均在函数的图象上,
即变量x和y存在函数关系,其相关性最强,故D错误,
故选:AC.
8.某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
【答案】(1)平均电池容量,平均续航里程.
(2)0.995
(3)
【详解】(1)平均电池容量,
平均续航里程.
(2)
(3)由样本数据,可知续航里程与电池容量的比值约为,
故新款车型续航里程的估计值为.
9.具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
【答案】C
【详解】由题知,,
所以数据的样本中心点为
所以去掉其中样本数据,样本相关系数r不会发生改变.
10.粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.我国于2020年打赢了脱贫攻坚战,其中小麦发挥了重大作用.以2020年为第1年,我国连续5年小麦产量如下:
年份
1
2
3
4
5
产量/千万吨
13.4
13.7
13.8
13.6
14.0
现规定表示第i年的年份,表示第i年的产量,经计算得,,.
(1)求样本(,2,…,5)的相关系数(精确到0.01);
(2)现从这5年中随机抽取2年,记这2年中共有X年的小麦产量不低于13.7千万吨,求X的分布列与期望.
附:样本相关系数,.
【答案】(1)
(2)分布列见解析,
【分析】
【详解】(1),,
故样本相关系数.
(2)X的取值可以为0,1,2,
则,
,
,
于是X的分布列为
X
0
1
2
P
故.
题型三、样本中心的应用
11.某研究小组收集了60组关于“每天课外阅读时长(单位:分钟)”与“语文阅读理解得分(单位:分)”的数据,经计算,且由这60组数据拟合得到的经验回归方程为,则( )
A. B.12 C.1.2 D.12.84
【答案】C
【详解】解:.
12.(多选)为了研究某短视频平台视频投放数量(单位:条)与用户总点赞数(单位:万次)之间的关系,运营部收集了12个月的数据,计算得出线性回归方程为.已知月平均投放数量,月平均点赞数,则( )
A.线性回归方程过点 B.
C.与呈正相关 D.当投放数量为30条时,当月点赞数一定为170万次
【答案】ABC
【详解】由回归直线的性质可知A正确,
把点代入到,得,故B正确,
,与呈正相关,故C正确,
当投放数量为30条时,,当月点赞数估计为170万次,故D错误.
13.已知两个变量与对应关系如下表:
1
2
3
4
5
5
8
9
10.5
若与满足一元线性回归模型,且经验回归方程为,则( )
A.与正相关
B.
C.样本数据的第60百分位数为8.5
D.样本数据的平均数为7
【答案】AC
【详解】对于A,经验回归方程的斜率为,所以与正相关,故A正确;
对于BD,由题意得,
代入经验回归方程得,
即,解得,故BD错误;
对于C,,样本数据从小到大排列为:,
故样本数据的第60百分位数为,故C正确.
14.(多选)已知相关系数,关于的线性回归方程中斜率和截距的最小二乘估计公式分别为,,已知变量与变量的部分数据,建立由最小二乘法得到的两个回归模型:以为自变量,为因变量,得出的线性回归方程为;以为自变量,为因变量,得出的线性回归方程为,若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量的方差,则可得知变量的标准差
B.若已知变量的方差,则不可得知变量的标准差
C.若不给定其他信息,则也可得知变量与变量各自的平均值
D.若不给定其他信息,则也可得知变量与变量的相关系数
【答案】ACD
【详解】对于D,以为自变量,为因变量,得出的线性回归方程为,
故,
以为自变量,为因变量,得出的线性回归方程为,
故,
故,
且回归系数为负数,故相关系数,D正确.
对于A,设变量与变量的标准差分别为,,
则,,,
所以
即,
代入已知数据得,即,
若已知变量的方差,即可求得,进而代入上式求得,A正确.
对于B,若已知变量的方差,即可求得,进而代入求得,B错误.
对于C,线性回归直线经过样本中心点,
代入两个回归方程得与,联立解得,,
故不给定其他信息也可得知变量与变量各自的平均值,C正确.
15.已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
【答案】
【详解】,,
所以
题型四、求回归直线方程
16.2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
【答案】(1),可用线性回归模型拟合与的关系
(2),(万亿千瓦时)
【详解】(1)因为,
所以,
所以
,
故可用线性回归模型拟合与的关系;
(2),
则,
则经验回归方程为,
令,则,
故预估2026年我国全口径发电量为(万亿千瓦时)
17.某模具厂新接一批新模型制作的订单,为给订购方回复出货时间,需确定制作该批模型所花费的时间,为此进行了5次试验,收集数据如下:
制作模型数(个)
10
20
30
40
50
花费时间(分钟)
64
69
75
82
90
(注:回归方程中斜率和截距最小二乘估计公式分别为,参考数据:,).
(1)请根据以上数据,求关于的线性回归方程;
(2)若要制作60个这样的模型,请根据(1)中所求的回归方程预测所花费的时间.
【答案】(1)
(2)95.5分钟
【分析】
【详解】(1)由数据得,,
因为,,所以, ,所以关于的线性回归方程为.
(2)当时,(分钟),
因此可以预测制作60个这种模型需要花费95.5分钟.
18.近几年新能源汽车发展很快,2025年我国在世界纯电动车市场份额占,下面是某新能源汽车制造公司从2019年至2025年的利润情况表:
年份
2019
2020
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
6
7
利润亿元
29
33
36
44
48
52
59
(1)根据表中的数据,推断变量与之间是否线性相关,计算与之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出关于的经验回归方程,并预测该新能源汽车制造公司2030年的利润.
参考数据:,,.
参考公式:对于一组数据,,,,①相关系数;②经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1),可以推断变量与线性相关且相关程度很强.
(2),83亿元.
【分析】
【详解】(1)由题设,且,,,
,
由于,可以推断变量与线性相关且相关程度很强.
(2)因为,
,
所以关于的经验回归方程为,
当2030年对应的年份代码时,,即预测该新能源汽车制造公司2030年的利润为83亿元.
19.实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
【答案】(1),与完全负相关
(2)
(3)16元
【详解】(1),,
故,
故与完全负相关.
(2),
故,回归方程为.
(3)由题设,此时,故,故定价最高为16元.
20.近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
【答案】(1);
(2),预测2027年该App的在线用户数为420万人.
【分析】
【详解】(1)由题得,,
则,.
(2)由(1)可得,
则,,
所以y关于x的回归直线方程为,
当时,,所以预测2027年该App的在线用户数为420万人.
题型五、求非线性回归方程
21.为调查某企业年利润Y(单位:万元)和它的年研究费用x(单位:万元)的相关性,收集了5组成对数据(x,y),如表所示:
x
1
2
3
4
5
Y
50
60
70
80
100
由上表中数据求得Y关于x的经验回归方程为,据此计算出样本点处的残差为( )
A.4 B.5 C.-4 D.-5
【答案】C
【详解】依题意,,,
由回归方程必过样本中心,得,解得,
所以在样本点处的残差为.
22.已知变量和变量的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,经重新计算得到新回归直线的斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为__________.(残差观测值预测值)
【答案】/
【详解】由题意得,,
则,,
当增加两个样本数据和后,
变量的平均数为,变量的平均数为,
因为新回归直线的斜率为3,所以可设其方程为,
将代入得,则,
令,则,则样本数据所对应的残差为.
23.已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
【答案】D
【详解】对于①,残差图中,残差点所在水平带状区域越窄,说明残差波动越小,
即回归方程的预报精确度越高,残差点所在水平带状区域越宽,说明残差波动越大,
即回归方程的预报精确度越低,错误;
对于②,决定系数越接近1,说明模型对数据的拟合效果越好,故模型甲的拟合效果更好,错误;
对于③,回归直线过样本数据,,,的中心点,
并不一定过样本数据中的某一个点,错误;
对于④,在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强,正确.
24.某校研究性学习小组收集了某地区近几年的某种经济指标与年份的数据,经计算得经验回归方程为.若年该经济指标的实际值为,则残差为( )
A. B. C. D.
【答案】D
【详解】由经验回归方程为得:
预测值,
残差实际值预测值.
25.某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
【答案】(1),,
(2)0.99,该模型拟合效果良好
【分析】
【详解】(1),
,
将 代入可得,即.
所以经验回归方程为
因,则
又因,则
(2)
所以决定系数,故该模型拟合效果良好.
题型六、残差及相关指数
26.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
【答案】
【详解】因为,,所以,
则
27.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
【答案】(1)模型②的拟合程度更好
(2)13(百万辆)
【分析】
【详解】(1)设模型①和②的相关系数分别为,
由题意可得:,
,
所以,由相关系数的意义可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
28.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则__________,__________.
【答案】
【详解】由,两边同时取对数,可得,
因为变换后的线性回归方程为,可得,
即,所以,
又因为,且,
所以,
因为,可得,所以.
故答案为:;.
29.椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【答案】(1)
(2)644.6;258.3
【分析】
【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型,
令,先建立关于的线性回归方程,
由于 ,
则,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)当时,年销售量的预报值,
年利润的预报值.
30.经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1)
(2)
【分析】
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,
所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,
则,
由全概率公式,
所以取出“死卵”个数为1的概率为.
题型七、独立性检验的理解
31.为比较甲、乙两所学校学生的数学水平,采用了如下方法:
第1步,科学抽样.采用简单随机抽样方法从两所学校共抽取88名学生,且对这88名学生进行测验;
第2步,收集数据.测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生有7名学生数学成绩优秀,并做出了如下的列联表:
学校
数学成绩
合计
不优秀
优秀
甲校
33
10
43
乙校
38
7
45
合计
71
17
88
第3步,提出零假设.零假设:两校学生的数学成绩优秀率无差异,
第4步,计算.计算得到,
第5步:判断.根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
若将列联表中所有数据都扩大到原来的10倍,则下列说法正确的是( )
A.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
B.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
C.有99%的把握认为学生的数学成绩是否优秀与学校有关
D.学生的数学成绩是否优秀与学校有关,该推断犯错误的概率不超过0.001
【答案】C
【详解】由题,列出新的列联表如下:
学校
数学成绩
合计
不优秀
优秀
甲校
330
100
430
乙校
380
70
450
合计
710
170
880
代入卡方公式:
,其中,
所以,
,
所以认为 “学生的数学成绩是否优秀与学校有关”,且有的把握,
故AB错误.
且推断犯错误的概率不超过0.01,不是0.001,故错误.
故选:C.
32.近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
【答案】C
【详解】对A:,故新能源车主有人,故A错误;
对B:购买燃油车的人数为,
购买新能源车的人数为,
则购买燃油车的人数比新能源车的多人,故B错误;
对C、D:依据的独立性检验,即消费者的购车类型与地域有关联,
由,故此推断犯错误的概率不大于,故C正确、D错误.
33.为研究蔬菜植株感染红叶螨能否引起植株形成某种抗体,使用列联表独立性检验.随机抽取一定量植株,获得观察数据,制作列联表.提出原假设:感染与形成抗体__________;确定显著性水平;若计算得;依据,从而__________原假设,即得统计决断.( )
A.有关;拒绝 B.有关;接受 C.无关;拒绝 D.无关;接受
【答案】D
【详解】在独立性检验中,提出原假设:感染与形成抗体无关,当计算得到的统计量小于临界值时,就接受原假设.
34.下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小
【答案】C
【详解】对于A,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,A错误;
对于B,独立性检验并不能确定两个变量相关,B错误;
对于C,是指“抽烟”和“患肺病”存在关联的可能性大小,并非抽烟人中患肺病的发病率,
因此不可以说在100个吸烟的人中,有99人患肺病,C正确;
对于D,在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,D错误.
35.(多选)在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列联表:(单位:人),则( )
性别
晕机
合计
晕机者
未晕机者
男
女
合计
附:,其中.
A.
B.
C.依据小概率值的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别有关
D.依据小概率值的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别无关
【答案】AC
【详解】由题中列联表数据,知,解得,
所以得到如下列联表:
性别
晕机
合计
晕机者
未晕机者
男
女
合计
所以,即A正确;
在恶劣天气的飞行航程中,是否晕机与性别无关,
由列联表中的数据,得,
依据小概率值的独立性检验,可以推断不成立,
即在恶劣天气的飞行航程中,是否晕机与性别有关,所以B、D错误,A、C正确.
题型八、独立性检验的实际问题
36.为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
【答案】C
【详解】由题意被调查的文理科教师人数相同,设理科教师的人数为,由题意可列出列联表:
理科教师
文科教师
合计
喜欢用平板教学
不喜欢用平板教学
合计
.
由于有的把握认为是否喜欢用平板教学和文理学科有关,
所以,
解得,因为,
故的可能取值为:12,13,14,15,16,17,18,19,
即理科教师的人数可以是:12,13,14,15,16,17,18,19,且考虑到喜欢用平板的人数占理科教师总人数的,故人数为15人时,有实际意义.
故选:C
37.为了解喜爱钓鱼是否与性别有关,某同学随机在人群中抽取了若干人进行调查,抽取男性人数与女性人数相同,男性喜爱钓鱼的人数占男性人数的,女性喜爱钓鱼的人数占女性人数的,若有的把握认为是否喜爱钓鱼与性别有关,则被调查的男性中不喜爱钓鱼的至少有( )
附:,其中.
A.人 B.人 C.人 D.人
【答案】C
【详解】设被调查的男性有人,则女性有人,根据题意,可得列联表如下:
钓鱼
性别
男性
女性
总计
喜爱钓鱼
不喜爱钓鱼
总计
则,
本次调查得出“有的把握认为是否喜爱钓鱼与性别有关”的结论,
可得,解得,
又因为列联表中相关人数需为整数,则,
所以,被调查的男性中不喜爱钓鱼的至少有人.
38.为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此随机抽选了50名男生和50名女生,统计数据如下表所示:
经常锻炼
不经常锻炼
合计
男生
40
10
50
女生
30
20
50
合计
70
30
100
(1)从这100人中随机选一人,已知选到的学生不经常锻炼,求此人是女生的概率;
(2)试依据小概率值的独立性检验,判断学生体育锻炼的经常性与性别是否有关.附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)
(2)不能认为学生体育锻炼经常性与性别有关
【分析】
【详解】(1)解:记事件为“选到的学生不经常锻炼”,事件为“选到的人是女生”,
根据条件概率公式,故;
即在选到的学生不经常锻炼条件下,是女生的概率为;
(2)解:提出假设为学生体育锻炼经常性与性别无关,
则,
根据小概率值的独立性检验,
没有充分的证据推断不成立,
因此不能认为学生体育锻炼经常性与性别有关.
39.睡眠是人体生理活动的基本阶段,良好的睡眠质量能够保证身体健康、增强免疫力、提高工作和学习的效率.某科研小组为了研究平均每天使用电子产品的时间(单位:h)对睡眠质量的影响,对100位志愿者平均每天使用电子产品的时间和睡眠质量进行了调研,并统计得到了如下表格:
轻度睡眠障碍人数
1
2
3
1
2
重度睡眠障碍人数
4
3
6
4
4
睡眠质量良好人数
25
25
11
5
4
总人数
30
30
20
10
10
(1)由表中的数据求这100人平均每天使用电子产品时间的估计值(同一组中的数据用该组区间的中点值代表);
(2)从这100人中随机抽取一人,求此人在轻度睡眠障碍的前提下,平均每天使用电子产品的时间在内的概率;
(3)若平均每天使用电子产品的时间大于等于4小时为超标.按所给数据,完成下面列联表,并根据小概率值的独立性检验,能否认为睡眠质量与平均每天使用电子产品的时间有关.
睡眠质量
平均每天使用电子产品的时间
合计
超标
不超标
良好
障碍(包括轻度和重度)
合计
100
附:,
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)3.8小时
(2)
(3)表格见解析,认为睡眠质量与平均每天使用电子产品的时间有关.
【详解】(1)设这100人平均每天使用电子产品时间的估计值为,
则,
所以这100人平均每天使用电子产品时间的估计值为3.8小时.
(2)设:此人轻度睡眠障碍;:此人平均每天使用电子产品的时间在内,
则,,
所以.
(3)由表中数据得列联表如下:
睡眠质量
平均每天使用电子产品的时间
合计
超标
不超标
良好
20
50
70
障碍(包括轻度和重度)
20
10
30
合计
40
60
100
零假设为:睡眠质量与平均每天使用电子产品的时间无关,
根据列联表中的数据,计算得,
根据小概率值的独立性检验,我们推断不成立,
即认为睡眠质量与平均每天使用电子产品的时间有关.
40.某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)观众性别与喜欢的电影类型无关
(2)
【分析】
【详解】(1)零假设:观众性别与喜欢的电影类型无关.
因为.
因此依据的独立性检验,没有充分证据说明不成立,即两者无关.
(2)设事件"选出的2人中至少1名女性",事件"选出的2人都喜欢生活片",
由列联表知,;
,因此.
九、未命名分组
1.(2025·26高三上·浙江温州·开学考试)将收集到的6组数据对制作如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得回归直线方程:,相关系数为,相关指数为;残差分析确定点对应残差过大,把它去掉后,再用剩下的5组数据计算得回归直线方程:,相关系数为,相关指数为.则以下结论中,不正确的是( )
A. B.
C. D.
【答案】D
【分析】详解】从散点图可以看出,两个变量是正相关,故A正确;
从散点图可以看出,回归直线的斜率是正数,且的斜率大于的斜率,故 B和C正确;
从散点图可以看出,去掉“离群点”后,相关性更强,拟合的效果更好,
值越大,模型的拟合效果越好,所以,故D错误;
故选:D.
2.(2025·26高三上·广东深圳·阶段检测)(多选)为研究关于的线性相关关系,收集了5组样本数据(见下表),假设经验回归方程为,则( )(参考公式:相关系数为)
1
2
3
4
5
0.3
0.8
1
1.2
1.7
A.
B.当时,对应的残差为0.11
C.样本数据的上四分位数为1.2
D.去掉点后,与的样本相关系数变小
【答案】AC
【分析】详解】对于,由题意知,
由经验回归方程过样本中心点,
代入,得,故正确;
对于,当时,,残差,
故错误;
对于,将排序,因为,所以上四分位位置为第四位,
所以,故正确;
对于,
,
去掉点后,
则
,
则相关系数不变,故错误.
故选:
3.(2025·26高二下·辽宁沈阳·期中)某设备的使用年限(年)和所支出的维修费用(万元)有如下表的统计资料:
2
3
4
5
6
2.2
3.8
6.5
7.0
已知根据表中原始数据得回归直线方程为.某位工作人员在查阅资料时发现(多选)表中有个数据模糊不清了,下列说法正确的是( )
A.所支出的维修费用与使用年限正相关
B.估计使用10年维修费用是12.38万元
C.根据回归方程可推断出模糊不清的数据的值为5
D.第3年维修费用的残差为0.03万元
【答案】ABD
【分析】详解】解:因为回归直线斜率大于0,所以所支出的维修费用与使用年限正相关,A正确;
将代入回归直线方程得,B正确:
,,
则模糊数据为,C错;
时,估计值,而实际值为,
则第3年维修费用的残差为0.03万元,故D正确.
4.(2025·26高二下·上海·期中)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
【答案】21
【分析】详解】由题意得,并令,即,近似解得,即,注意到,故的最小值为.
5.(2025·26高三·全国·一轮复习)在某文化节活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,之后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,2,3,4,5,为第i次入口人流量数据(单位:百人),由此得到y关于i的回归方程.已知,根据回归方程(参考数据:),可预测下午4点时入口游客的人流量为______(结果保留整数,单位:百人).
【答案】11
【分析】详解】设,,则
所以,
,且
则,得,
所以,
下午4点对应的,此时预测游客的人流量.
故答案为:11.
6.(2025·26高二下·上海·期中)绝对零度()是一个只能逼近而不能达到的最低温度,那么这个数据是如何得到的?小张同学通过查询资料了解到:①气体温度和气体压强存在线性关系;②当气体压强为时,气体温度达到绝对零度.小张同学在实验时,记录了某种气体温度和气体压强一组相关数据:
数据
1
2
3
4
5
6
温度
4.07
16.69
29.42
45.67
57.06
73.05
压强
103.095
107.734
112.461
118.469
122.706
128.758
(1)用上表数据建立气体压强与气体温度的线性回归方程,若这组实验数据的拟合误差小于0.05,则认为得到的线性回归是理想的.求出回归方程(精确到0.001),并判断所得回归方程是否理想?附:拟合误差
(2)估计该次实验下绝对零度的数值.(精确到)
【答案】(1),回归方程是理想的
(2)
【详解】(1),
,
,
将,即代入,
解得
回归方程为 ,
,
因为 ,所以回归方程是理想的.
(2)回归方程为,
令,解得(),
预估该次实验下绝对零度的数值为.
7.(2025·26高二下·全国·课堂例题)某工厂每日生产一种产品吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨)
1
2
3
4
5
日销售额y(万元)
5
12
16
19
21
(1)请判断与中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参数公式:经验回归方程中,.
参考数据:令,,,.
【答案】(1)更适合,理由见解析
(2),日销售额为23(万元)
【详解】(1)更适合刻画,之间的关系.理由:由题表中的数据可知,的值每增加1,函数值的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数模型的增长规律,与一元线性回归模型的均匀增长存在较大差异,故更适合刻画,之间的关系.
(2)令,由题意得,
所以,
,
所以关于的回归方程为.
当时,日销售额为(万元).
8.(2025·26高二下·内蒙古呼和浩特·阶段检测)研究表明,春季早晚温差大,由于个人体质不同,可能会导致感冒患病.某医学研究小组为了解20-30岁年轻人的体质健康是否与性别有关,在4月感冒易发季节对某一小区中该年龄段的年轻人进行了随机抽样,得到如列联表.
性别
健康状况
感冒
不感冒
男
8
14
女
4
24
(1)在上述感冒的年轻人中按照性别采用分层抽样的方法抽取6人,再从这6人中随机选取3人访谈,记参与访谈的男性人数为,求的分布和期望;
(2)依上表,在犯错误的概率不超过0.05的前提下,20-30岁年轻人的体质健康与性别是否有关?
参考数据:参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)分布列见解析,
(2)答案见解析
【详解】(1)解:在上述感冒的年轻人中按照性别采用分层抽样的方法抽取人,再从这人中随机选取人访谈,记参与访谈的男性人数为,样本中感冒的男性有人,女性有人,比例为,按照性别采用分层抽样的方法抽取人,则抽取男性人,女性人,随机变量的所有取值为,2,,
,
,
,
所以的分布列为:
所以.
(2)解:提出零假设:岁年轻人的体质健康与性别无关,
根据列联表中的数据,得到,
因为,不能拒绝零假设,
所以没有的把握认为岁年轻人的体质健康与性别有关.
9.(2026·陕西榆林·模拟预测)飞机与高铁是人们远距离出行的两种方式,交通大学某班学生为了调查人们选择的远距离出行方式是否与年龄相关,随机抽取该市1000名市民进行调查,得到如下列联表:
低于40岁
不低于40岁
总计
选择飞机出行
100
选择高铁出行
300
总计
500
1000
(1)补全表中数据,依据小概率值的独立性检验,是否能够认为市民选择的远距离出行方式与年龄有关联?
(2)调查小组统计高铁站某处今天的客流量,从7:00开始,每小时作为一个时间段(为第1个时间段,为第2个时间段,……),得到如下数据:
时间段
1
2
3
4
5
客流量(千人)
1
1.5
2.5
3
3.5
若与线性相关,建立每个时间段客流量与时间段的经验回归方程,并预测的客流量.
附:,其中.
0.010
0.001
6.635
10.828
对于一组数据,,…,,其经验回归方程的斜率,.
【答案】(1)表格见解析,与年龄有关联
(2),客流量约为4.25千人
【详解】(1)列联表如下:
低于40岁
不低于40岁
总计
选择飞机出行
100
200
300
选择高铁出行
400
300
700
总计
500
500
1000
零假设为:市民选择的远距离出行方式与年龄没有关联.
由列联表中的数据,
得.
依据小概率值的独立性检验,我们推断不成立,
所以能够认为市民选择的远距离出行方式与年龄有关联.
(2),,
所以,
,
所以每个时间段客流量与时间段的经验回归方程为.
当时,,
所以预测12:00~13:00的客流量约为4.25千人.
10.(2024·25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市
A
B
C
D
E
广告支出x
1
2
3
4
5
销售额W
4
9
14
18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
【答案】(1),相关性很强
(2),0.8
(3)满足一元线性回归模型的的假设,不满足一元线性回归模型的的假设.
【详解】(1)由题知,
0
1
2
1
5
7
,
,
,
相关系数,
接近于1,可以推断两个变量正线性相关,且相关性很强;
(2)因为销售额的方差52.4,
即,
所以,
化为,
解得(舍去),
所以,
因为回归直线方程为经过样本中心点,
把代入得,
销售量关于广告支出的回归直线方程为,
当时,代入得预测值,
而观测值,所以广告支出为5(万元)时销售额度的残差:(万元);
(3)由残差图,模型误差满足一元线性回归模型的的假设,
不满足一元线性回归模型的的假设.
11.(2025·26高三下·甘肃陇南·阶段检测)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽球试验的轮次数,y表示对应的人数,部分统计数据如下:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,
参考数据:(其中).
【答案】(1)分布列见解析,
(2),
(3)证明见解析
【详解】(1)由题意可知,X的取值可能为1,2,3,
所以;
;
,
所以X的分布列为
数学期望为.
(2)令,则,由题目可知,,
所以,
,
因此,即关于的回归方程为,
所以,估计时,;估计时,;估计时,;
因此预测成功的总人数为.
(3)由题目可知,在前轮就成功的概率为,
在前轮没有成功的概率为
,
因此.
1 / 6
学科网(北京)股份有限公司
$
专题07 成对数据的统计分析(回归方程、独立性检验)
目录
A题型建模・专项突破
题型一、相关关系的理解与判断 1
题型二、相关系数的计算 3
题型三、样本中心的应用(重) 7
题型四、求回归直线方程(重) 10
题型五、求非线性回归方程(重) 14
题型六、残差及相关指数 17
题型七、独立性检验的理解 21
题型八、独立性检验的实际问题(重) 25
B 综合攻坚·能力跃升 30
题型一、相关关系的理解与判断
1.下列变量之间的关系不是相关关系的是( )
A.已知二次函数,其中是常数,取为自变量,因变量为这个函数对应方程的判别式
B.光照时间和果树产量
C.降雪量和交通事故的发生率
D.土地施用肥料量和粮食产量
2.下列关系中,属于相关关系的是______(填序号).
①球的体积与该球的半径之间的关系;
②农作物的产量与施肥量之间的关系;
③一般情况下,一个人的身高和体重之间的关系.
3.观察下面各等高堆积条形图,其中两个分类变量x,y相关关系最强的是______.
4.对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
5.对四组数据进行统计获得如下散点图并对其相关系数进行比较,正确的是( )
A. B.
C. D.
题型二、相关系数的计算
6.为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L),空腹血糖GLU指标值(单位:mmol/L)如表所示:
人员编号
1
2
3
4
5
6
7
8
BMI值x
25
27
30
32
33
35
40
42
TC指标值y
5.3
5.4
5.5
5.6
5.7
6.5
6.9
7.1
GLU指标值z
6.7
7.2
7.3
8.0
8.1
8.6
9.0
9.1
用变量y与x,z与x的相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度.
参考公式:
相关系数,
参考数据:,,,,,,,.
7.(多选)某小组探究变量x,y的关系,经统计得到了成对数据的7个样本:,,,,,,.记这组数据中变量x,y的均值分别为,,方差分别为,,样本相关系数为r;删去数据后,x,y的均值分别为,,方差分别为,,样本相关系数为.下面说法正确的是( )
附:样本相关系数
A. B.
C. D.变量x和y的相关性很弱
8.某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
9.具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
10.粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.我国于2020年打赢了脱贫攻坚战,其中小麦发挥了重大作用.以2020年为第1年,我国连续5年小麦产量如下:
年份
1
2
3
4
5
产量/千万吨
13.4
13.7
13.8
13.6
14.0
现规定表示第i年的年份,表示第i年的产量,经计算得,,.
(1)求样本(,2,…,5)的相关系数(精确到0.01);
(2)现从这5年中随机抽取2年,记这2年中共有X年的小麦产量不低于13.7千万吨,求X的分布列与期望.
附:样本相关系数,.
题型三、样本中心的应用
11.某研究小组收集了60组关于“每天课外阅读时长(单位:分钟)”与“语文阅读理解得分(单位:分)”的数据,经计算,且由这60组数据拟合得到的经验回归方程为,则( )
A. B.12 C.1.2 D.12.84
12.(多选)为了研究某短视频平台视频投放数量(单位:条)与用户总点赞数(单位:万次)之间的关系,运营部收集了12个月的数据,计算得出线性回归方程为.已知月平均投放数量,月平均点赞数,则( )
A.线性回归方程过点 B.
C.与呈正相关 D.当投放数量为30条时,当月点赞数一定为170万次
13.已知两个变量与对应关系如下表:
1
2
3
4
5
5
8
9
10.5
若与满足一元线性回归模型,且经验回归方程为,则( )
A.与正相关
B.
C.样本数据的第60百分位数为8.5
D.样本数据的平均数为7
14.(多选)已知相关系数,关于的线性回归方程中斜率和截距的最小二乘估计公式分别为,,已知变量与变量的部分数据,建立由最小二乘法得到的两个回归模型:以为自变量,为因变量,得出的线性回归方程为;以为自变量,为因变量,得出的线性回归方程为,若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量的方差,则可得知变量的标准差
B.若已知变量的方差,则不可得知变量的标准差
C.若不给定其他信息,则也可得知变量与变量各自的平均值
D.若不给定其他信息,则也可得知变量与变量的相关系数
15.已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
题型四、求回归直线方程
16.2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
17.某模具厂新接一批新模型制作的订单,为给订购方回复出货时间,需确定制作该批模型所花费的时间,为此进行了5次试验,收集数据如下:
制作模型数(个)
10
20
30
40
50
花费时间(分钟)
64
69
75
82
90
(注:回归方程中斜率和截距最小二乘估计公式分别为,参考数据:,).
(1)请根据以上数据,求关于的线性回归方程;
(2)若要制作60个这样的模型,请根据(1)中所求的回归方程预测所花费的时间.
18.近几年新能源汽车发展很快,2025年我国在世界纯电动车市场份额占,下面是某新能源汽车制造公司从2019年至2025年的利润情况表:
年份
2019
2020
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
6
7
利润亿元
29
33
36
44
48
52
59
(1)根据表中的数据,推断变量与之间是否线性相关,计算与之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出关于的经验回归方程,并预测该新能源汽车制造公司2030年的利润.
参考数据:,,.
参考公式:对于一组数据,,,,①相关系数;②经验回归直线的斜率和截距的最小二乘估计公式分别为,.
19.实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
20.近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
题型五、求非线性回归方程
21.为调查某企业年利润Y(单位:万元)和它的年研究费用x(单位:万元)的相关性,收集了5组成对数据(x,y),如表所示:
x
1
2
3
4
5
Y
50
60
70
80
100
由上表中数据求得Y关于x的经验回归方程为,据此计算出样本点处的残差为( )
A.4 B.5 C.-4 D.-5
22.已知变量和变量的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,经重新计算得到新回归直线的斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为__________.(残差观测值预测值)
23.已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
24.某校研究性学习小组收集了某地区近几年的某种经济指标与年份的数据,经计算得经验回归方程为.若年该经济指标的实际值为,则残差为( )
A. B. C. D.
25.某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
题型六、残差及相关指数
26.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
27.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
28.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则__________,__________.
29.椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
30.经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
题型七、独立性检验的理解
31.为比较甲、乙两所学校学生的数学水平,采用了如下方法:
第1步,科学抽样.采用简单随机抽样方法从两所学校共抽取88名学生,且对这88名学生进行测验;
第2步,收集数据.测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生有7名学生数学成绩优秀,并做出了如下的列联表:
学校
数学成绩
合计
不优秀
优秀
甲校
33
10
43
乙校
38
7
45
合计
71
17
88
第3步,提出零假设.零假设:两校学生的数学成绩优秀率无差异,
第4步,计算.计算得到,
第5步:判断.根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
若将列联表中所有数据都扩大到原来的10倍,则下列说法正确的是( )
A.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
B.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
C.有99%的把握认为学生的数学成绩是否优秀与学校有关
D.学生的数学成绩是否优秀与学校有关,该推断犯错误的概率不超过0.001
32.近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
33.为研究蔬菜植株感染红叶螨能否引起植株形成某种抗体,使用列联表独立性检验.随机抽取一定量植株,获得观察数据,制作列联表.提出原假设:感染与形成抗体__________;确定显著性水平;若计算得;依据,从而__________原假设,即得统计决断.( )
A.有关;拒绝 B.有关;接受 C.无关;拒绝 D.无关;接受
34.下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小
35.(多选)在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列联表:(单位:人),则( )
性别
晕机
合计
晕机者
未晕机者
男
女
合计
附:,其中.
A.
B.
C.依据小概率值的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别有关
D.依据小概率值的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别无关
题型八、独立性检验的实际问题
36.为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
37.为了解喜爱钓鱼是否与性别有关,某同学随机在人群中抽取了若干人进行调查,抽取男性人数与女性人数相同,男性喜爱钓鱼的人数占男性人数的,女性喜爱钓鱼的人数占女性人数的,若有的把握认为是否喜爱钓鱼与性别有关,则被调查的男性中不喜爱钓鱼的至少有( )
附:,其中.
A.人 B.人 C.人 D.人
38.为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此随机抽选了50名男生和50名女生,统计数据如下表所示:
经常锻炼
不经常锻炼
合计
男生
40
10
50
女生
30
20
50
合计
70
30
100
(1)从这100人中随机选一人,已知选到的学生不经常锻炼,求此人是女生的概率;
(2)试依据小概率值的独立性检验,判断学生体育锻炼的经常性与性别是否有关.附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
39.睡眠是人体生理活动的基本阶段,良好的睡眠质量能够保证身体健康、增强免疫力、提高工作和学习的效率.某科研小组为了研究平均每天使用电子产品的时间(单位:h)对睡眠质量的影响,对100位志愿者平均每天使用电子产品的时间和睡眠质量进行了调研,并统计得到了如下表格:
轻度睡眠障碍人数
1
2
3
1
2
重度睡眠障碍人数
4
3
6
4
4
睡眠质量良好人数
25
25
11
5
4
总人数
30
30
20
10
10
(1)由表中的数据求这100人平均每天使用电子产品时间的估计值(同一组中的数据用该组区间的中点值代表);
(2)从这100人中随机抽取一人,求此人在轻度睡眠障碍的前提下,平均每天使用电子产品的时间在内的概率;
(3)若平均每天使用电子产品的时间大于等于4小时为超标.按所给数据,完成下面列联表,并根据小概率值的独立性检验,能否认为睡眠质量与平均每天使用电子产品的时间有关.
睡眠质量
平均每天使用电子产品的时间
合计
超标
不超标
良好
障碍(包括轻度和重度)
合计
100
附:,
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
40.某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
1.(2025·26高三上·浙江温州·开学考试)将收集到的6组数据对制作如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得回归直线方程:,相关系数为,相关指数为;残差分析确定点对应残差过大,把它去掉后,再用剩下的5组数据计算得回归直线方程:,相关系数为,相关指数为.则以下结论中,不正确的是( )
A. B.
C. D.
2.(2025·26高三上·广东深圳·阶段检测)(多选)为研究关于的线性相关关系,收集了5组样本数据(见下表),假设经验回归方程为,则( )(参考公式:相关系数为)
1
2
3
4
5
0.3
0.8
1
1.2
1.7
A.
B.当时,对应的残差为0.11
C.样本数据的上四分位数为1.2
D.去掉点后,与的样本相关系数变小
3.(2025·26高二下·辽宁沈阳·期中)(多选)某设备的使用年限(年)和所支出的维修费用(万元)有如下表的统计资料:
2
3
4
5
6
2.2
3.8
6.5
7.0
已知根据表中原始数据得回归直线方程为.某位工作人员在查阅资料时发现(多选)表中有个数据模糊不清了,下列说法正确的是( )
A.所支出的维修费用与使用年限正相关
B.估计使用10年维修费用是12.38万元
C.根据回归方程可推断出模糊不清的数据的值为5
D.第3年维修费用的残差为0.03万元
4.(2025·26高二下·上海·期中)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
5.(2025·26高三·全国·一轮复习)在某文化节活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,之后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,2,3,4,5,为第i次入口人流量数据(单位:百人),由此得到y关于i的回归方程.已知,根据回归方程(参考数据:),可预测下午4点时入口游客的人流量为______(结果保留整数,单位:百人).
6.(2025·26高二下·上海·期中)绝对零度()是一个只能逼近而不能达到的最低温度,那么这个数据是如何得到的?小张同学通过查询资料了解到:①气体温度和气体压强存在线性关系;②当气体压强为时,气体温度达到绝对零度.小张同学在实验时,记录了某种气体温度和气体压强一组相关数据:
数据
1
2
3
4
5
6
温度
4.07
16.69
29.42
45.67
57.06
73.05
压强
103.095
107.734
112.461
118.469
122.706
128.758
(1)用上表数据建立气体压强与气体温度的线性回归方程,若这组实验数据的拟合误差小于0.05,则认为得到的线性回归是理想的.求出回归方程(精确到0.001),并判断所得回归方程是否理想?附:拟合误差
(2)估计该次实验下绝对零度的数值.(精确到)
7.(2025·26高二下·全国·课堂例题)某工厂每日生产一种产品吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨)
1
2
3
4
5
日销售额y(万元)
5
12
16
19
21
(1)请判断与中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参数公式:经验回归方程中,.
参考数据:令,,,.
8.(2025·26高二下·内蒙古呼和浩特·阶段检测)研究表明,春季早晚温差大,由于个人体质不同,可能会导致感冒患病.某医学研究小组为了解20-30岁年轻人的体质健康是否与性别有关,在4月感冒易发季节对某一小区中该年龄段的年轻人进行了随机抽样,得到如列联表.
性别
健康状况
感冒
不感冒
男
8
14
女
4
24
(1)在上述感冒的年轻人中按照性别采用分层抽样的方法抽取6人,再从这6人中随机选取3人访谈,记参与访谈的男性人数为,求的分布和期望;
(2)依上表,在犯错误的概率不超过0.05的前提下,20-30岁年轻人的体质健康与性别是否有关?
参考数据:参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
9.(2026·陕西榆林·模拟预测)飞机与高铁是人们远距离出行的两种方式,交通大学某班学生为了调查人们选择的远距离出行方式是否与年龄相关,随机抽取该市1000名市民进行调查,得到如下列联表:
低于40岁
不低于40岁
总计
选择飞机出行
100
选择高铁出行
300
总计
500
1000
(1)补全表中数据,依据小概率值的独立性检验,是否能够认为市民选择的远距离出行方式与年龄有关联?
(2)调查小组统计高铁站某处今天的客流量,从7:00开始,每小时作为一个时间段(为第1个时间段,为第2个时间段,……),得到如下数据:
时间段
1
2
3
4
5
客流量(千人)
1
1.5
2.5
3
3.5
若与线性相关,建立每个时间段客流量与时间段的经验回归方程,并预测的客流量.
附:,其中.
0.010
0.001
6.635
10.828
对于一组数据,,…,,其经验回归方程的斜率,.
10.(2024·25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市
A
B
C
D
E
广告支出x
1
2
3
4
5
销售额W
4
9
14
18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
11.(2025·26高三下·甘肃陇南·阶段检测)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽球试验的轮次数,y表示对应的人数,部分统计数据如下:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,
参考数据:(其中).
1 / 6
学科网(北京)股份有限公司
$