内容正文:
专题06 线性回归方程及独立性检验(8题型专项训练)
目录
A题型建模・专项突破
题型一、相关关系的理解与判断 1
题型二、相关系数的计算 2
题型三、样本中心的应用(重) 4
题型四、求回归直线方程(重) 8
题型五、求非线性回归方程(重) 9
题型六、残差及相关指数 12
题型七、独立性检验的理解 14
题型八、独立性检验的实际问题(重) 16
B 综合攻坚・能力跃升 20
题型一、相关关系的理解与判断
1.对变量、有观测数据,得散点图1;对变量、有观测数据,得散点图2.分别用、表示变量与、与之间的线性相关系数,则下列说法正确的是( ).
A.变量与呈现正相关,且
B.变量与呈现负相关,且
C.变量与呈现正相关,且
D.变量与呈现负相关,且
2.变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.很可能存在负相关 B.一定存在负相关
C.很可能存在正相关 D.一定不存在正相关
3.对两个变量x,y进行线性相关性检验,得线性相关系数,对两个变量u,v进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
4.在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是( )
A.图(2)(3)(4)中的y和x之间存在相关关系
B.图(2)(4)中的y和x之间呈现正相关关系
C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强
D.图(4)中的y和x之间呈现非线性相关关系
题型二、相关系数的计算
5.已知变量x,y线性相关,利用样本数据求得的回归直线方程为,且点都在直线上,则这组样本数据的相关系数( )
A.1 B. C. D.
6.某景区对2017-2022年景区内农家乐接待人数(单位:万人)进行了统计,得到数据如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号
1
2
3
4
5
6
接待人数万人
4.5
5.6
6.1
6.4
6.8
7.2
则接待人数与年份的相关系数约为( )(参考数据:)
A.0.65 B.0.71 C.0.89 D.0.97
7.春节期间,由于调整免费,车流量逐渐增加,某高速口统计了5天中的车流量与空气质量指数的关系,所得数据如下表:
车流量/万辆
12
12.5
13
13.5
14
空气质量指数
74
76
78
77
80
(1)在下图中绘制出散点图;
(2)由(1)判断与的线性相关程度,并用相关系数加以说明.
参考公式:相关系数.
参考数据:,,.
8.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
9.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
参考数据:.
参考公式:相关系数.
题型三、样本中心的应用
10.某医院用光电比色计检验尿汞时,得到尿汞含量(单位:)与消光系数的结果如下:
尿汞含量
2
4
6
8
10
消光系数
65
135
205
285
360
(1)求消光系数关于尿汞含量的回归直线方程;
(2)根据回归直线方程,估计尿汞含量为时消光系数的值.
11.年月日,由工业和信息化部、安徽省人民政府共同主办的第十七届“中国芯”集成电路产业大会在合肥成功举办.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.年,全国芯片研发单位相比年增加家,提交芯片数量增加个,均增长超过倍.某芯片研发单位用在“芯片”上研发费用占本单位总研发费用的百分比()如表所示.
年份
年份代码
(1)根据表中的数据,作出相应的折线图;并结合相关数据,计算相关系数,并推断与线性相关程度;(已知:,则认为与线性相关很强;,则认为与线性相关一般;,则认为与线性相关较弱)
.
(2)求出与的回归直线方程(保留一位小数);
(3)请判断,若年用在“芯片”上研发费用不低于万元,则该单位年芯片研发的总费用预算为万元是否符合研发要求?
附:相关数据:,,,.
相关计算公式:①相关系数;在回归直线方程中,,.
12.中国防沙治沙成绩斐然,不断书写“绿色奇迹”,截至2025年年底,中国53%的可治理沙化土地已得到有效治理,沙化土地面积净减少6500万亩,现调查统计了某荒漠地区2019~2025年绿化面积变化情况,得到如下折线图.
(附:年份代码1~7分别对应的年份是2019~2025,经计算得, ,,,)
(1)用线性回归模型拟合y与t的关系,求出相关系数r(精确到0.01);
(2)求出y关于t的回归方程;
(3)若该荒漠地区原面积共10万亩,预测该地区2026年绿化面积达到多少亩?
附:(i)相关系数:;
(ii)线性回归方程:,其中,.
13.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限(单位:年)与失效费(单位:万元)的统计数据如下表所示:
使用年限(单位:年)
2
4
5
6
8
失效费(单位:万元)
3
4
5
6
7
(1)根据上表数据,计算与的相关系数,并说明与的线性相关性的强弱.
(已知:,则认为与线性相关性很强;,则认为与线性相关性一般;,则认为与线性相关性较弱)(的结果精确到0.0001)
(2)求关于的线性回归方程,并估算该种机械设备使用10年的失效费.
附:样本的相关系数,经验回归方程的斜率和截距的最小二乘估计分别为,.
14.某景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数y(万人)与第个月的数据:
1
2
3
4
5
1.3
1.7
2.2
2.8
3.5
已知与线性相关.
(1)求关于的线性回归方程;
(2)预测第7个月的打卡人数.
参考数据:.
参考公式:线性回归方程中斜率、截距的最小二乘法估计公式为.
题型四、求回归直线方程
15.已知变量与的一组统计数据如下表:
2
4
5
6
8
27
42
62
72
87
若与线性相关,且关于的经验回归方程为.据此估计,当为9时,约为( )
A.95 B.100 C.105 D.110
16.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
17.(多选)两个具有相关关系的变量,的一组数据为,,,,其经验回归方程为,记,,相关系数为;若将数据调整为,,,,其经验回归方程为,记,相关系数为,则( )
附:,
A. B.
C. D.
18.已知儿子的身高与父亲的身高有关,某兴趣小组统计了5组父子的身高数据,如下表:
父亲身高
166
168
172
178
186
儿子身高
169
175
175
181
若关于的经验回归方程为,则 .
19.某工厂为了研究某种产品的产量y(吨)与某种催化剂x(吨)之间的相关关系,在生产过程中,得到数据如下表,通过分析可得,这两个变量满足经验回归方程,则的值为 .
x
3
4
5
6
y
2.5
3
4
4.5
题型五、求非线性回归方程
20.(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
21.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月
1
2
3
繁殖数量
A.百只 B.百只 C.百只 D.百只
22.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
23.近年来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧.某机构为研究汽油价格x(单位:元/升)与新能源汽车的月销售量y(单位:万辆)之间的关系,收集整理得到如下数据:
x
6
6.5
7
7.5
8
y
1.5
2
3
4.5
6.8
(1)若用模型模拟x与y之间关系,求出回归方程;
(2)根据建立的回归方程,预测当汽油价格上涨至9元/升时,新能源汽车的销量;
(3)假设当汽油价格为9元/升时,实际销量超过预测值的概率为0.6.现进行5次独立观测,记这5次观测中销量超过预测值的次数为,求的数学期望.
参考数据和公式:.,.
令,,,.
对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
24.某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
25.统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
题型六、残差及相关指数
26.已知相关变量和的散点图如图所示,若用与拟合时,决定系数分别为和,则比较和的大小结果为( )
A. B. C. D.不确定
27.变量关于变量的经验回归方程为.若时,的实际观测值为8,则此时的残差为( )
A. B. C.1 D.2
28.某工厂为研究某种产品的产量(单位:吨)与所需某种原材料(单位:吨)的相关性,在生产过程中收集了4组对应数据,如下表所示
3
4
6
7
2.5
3.5
4
根据表中数据,得出关于的线性回归方程为,据此计算出样本处的残差为0.25,则表中 ,处的残差为 .
29.在线性回归分析模型中,变量与相对应的四组数据为,,,,表示解释变量对于预报变量变化的贡献率,则 .
附:,,.
30.为了解某企业生产的某产品的年利润与年广告投入的关系,该企业进行了调查统计,得出相关数据如下表.
年广告投入/万元
2
3
4
5
6
年利润/万元
3
4
6
8
11
根据以上数据,研究人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲是;方程乙是.
(1)求(结果精确到0.01)与的值.
(2)为了评价两种模型的拟合效果,完成以下任务.
①完成下表;(注:称为相应于点的残差)
年广告投入/万元
2
3
4
5
6
年利润/万元
3
4
6
8
11
模型甲
估计值
残差
模型乙
估计值
残差
②分别计算模型甲与模型乙的残差平方和与,并通过比较的大小,判断哪个模型拟合效果更好.
31.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
题型七、独立性检验的理解
32.为比较甲、乙两所学校学生的数学水平,采用了如下方法:
第1步,科学抽样.采用简单随机抽样方法从两所学校共抽取88名学生,且对这88名学生进行测验;
第2步,收集数据.测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生有7名学生数学成绩优秀,并做出了如下的列联表:
学校
数学成绩
合计
不优秀
优秀
甲校
33
10
43
乙校
38
7
45
合计
71
17
88
第3步,提出零假设.零假设:两校学生的数学成绩优秀率无差异,
第4步,计算.计算得到,
第5步:判断.根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
若将列联表中所有数据都扩大到原来的10倍,则下列说法正确的是( )
A.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
B.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
C.有99%的把握认为学生的数学成绩是否优秀与学校有关
D.学生的数学成绩是否优秀与学校有关,该推断犯错误的概率不超过0.001
33.(多选)在某款盲盒内可能装有某一套玩偶的三种样式,且每个盲盒只装一个玩偶.某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有的人购买了该款盲盒,在这些购买者当中,女生占;而在未购买者当中,男生、女生各占.则下列说法中正确的是( )
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.若每个盲盒装有三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是
B.此次调查中未购买过该盲盒的女生人数为60
C.有的把握认为“购买该款盲盒与性别有关”
D.有的把握认为“购买该款盲盒与性别有关”
34.(多选)根据分类变量x与y的成对样本数据,提出零假设,并计算得到,则下列说法正确的是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:
A.零假设为:分类变量x与y独立
B.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1
C.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
D.若所有样本数据都扩大为原来的10倍,根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
35.已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍 .
36.某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到下侧列联表.已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
参考公式:,其中.
题型八、独立性检验的实际问题
37.为了了解人们对AI应用的喜爱程度,现随机抽取不同年龄段的1000人进行调查统计,得到如下2×2列联表:
年龄
AI应用
合计
不喜爱
喜爱
不超过35岁
400
600
超过35岁
300
合计
1000
(1)完成2×2列联表,并依据小概率值的独立性检验,判断人们对AI应用的喜爱程度是否与年龄有关联.
(2)从这1000名调查者中随机抽取一人,若这个人年龄不超过35岁,求该调查者是喜爱AI应用的概率.
(3)为推广AI应用,某科技公司组织了AI应用知识竞赛活动.活动规定从10道备选题中随机抽取4道题进行作答.假设在10道备选题中,甲只能正确完成其中的8道题.设随机变量X表示甲可以正确完成的题的数量,求变量X的分布列及数学期望.
附:其中.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
38.为响应国家“提升全民数字素养与技能”的号召,某市对高中生的网络信息辨别能力开展调研.研究者随机抽取了该市200名学生,按是否接受过“媒介素养”校本课程培训分为两组,并测试他们能否准确识别一些典型的网络谣言(如“某种食物含致癌物”等).测试结果如下表:
能准确识别谣言
不能准确识别谣言
接受过培训
68
32
未接受过培训
42
58
(1)分别求接受过培训和未接受过培训的学生能准确识别谣言的概率;
(2)在犯错误的概率不超过的前提下,能否认为学生识别谣言的能力与培训有关?
附:.
0.05
0.01
0.001
3.841
6.635
10.828
39.某大学想了解本校学生对食堂的满意度情况,对该大学的100名学生进行食堂满意度调查,调查结果如表所示:
满意
不满意
合计
大一或大二
20
20
40
大三或大四
40
20
60
合计
60
40
100
(1)根据小概率值的独立性检验,分析该大学的学生对食堂的满意度是否与年级有关联;
(2)从样本中对食堂满意的学生中随机抽取2人,求这2人均是大三或大四学生的概率.
附:,.
0.1
0.05
0.01
2.706
3.841
6.635
40.2025年高中“双休”政策出台后,某地区为研究高中生周末在家自律情况与学习成绩变化的关系,认定周末每天学习不低于2小时,视为“自律”;每天学习低于2小时,视为“不自律”.该地区随机调查了800名高中生周末在家学习的情况,得到如下列联表.
学习成绩变化情况
自律情况
合计
自律
不自律
进步
560
40
600
退步
40
160
200
合计
600
200
800
(1)从这800名学生中随机抽取1名学生,若该学生是自律的,求该学生的学习成绩是进步的概率;
(2)根据小概率值的独立性检验,分析学习自律是否与学习进步有关.
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
41.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下列联表:
性别
出生时间
合计
晚上
白天
男婴
30
20
50
女婴
25
25
50
合计
55
45
100
(1)根据小概率值的独立性检验,能否认为“婴儿出生的时间与性别有关联”?
(2)从样本中"晚上出生的婴儿中按性别采用比例分配的分层抽样方法抽取11个婴儿,再从这11婴儿中随机抽取3人测其体重,则三个婴儿中恰有两个女婴的概率.
附:,
0.050
0.010
0.001
3.841
6.635
10.828
42.民航招飞是指普通高校飞行技术专业通过高考招收飞行学员,对某校高三在校学生进行统计,得到如下列联表:
有报名意向
没有报名意向
合计
男学生
70
150
女学生
80
100
180
合计
250
400
(1)记该校高三女学生有报名意向的概率为,求的值;
(2)根据小概率值的独立性检验,判断该校高三在校学生是否有报名意向与性别有无关系
附:,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
1.(2024·25高三下·上海·月考)某试验田种植一批水稻,对其进行种植实验.在右表中记录了5组水稻的“播种面积”与“总产量”的相关数据并预测序号6的实验数据,若发现实验序号5的实验数据有误需剔除,则下列说法正确的是( ).
实验序号
1
2
3
4
5
6
播种面积
(单位:千公顷)
60.9
71.8
72.9
73.6
75.8
80.0
总产量
(单位:万吨)
37.8
37.4
38.9
40.1
37.3
未知
A.实验样本的相关系数将变小. B.实验样本的相关系数将不变.
C.实验序号6的预测结果将变大. D.实验序号6的预测结果将变小.
2.(2024·25高三下·云南临沧·月考)在研究性学习活动中,某位学生收集了两个变量与之间的几组数据如下表:
根据上表数据所得经验回归方程为.该同学又收集了两组数据,和,,利用这六组数据求得的经验回归方程为,则以下结论正确的是( )
参考公式:经验回归方程为,其中,.
A., B.,
C., D.,
3.(2024·25高三下·天津南开·月考)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,经验回归方程为,则下列说法错误的是( )
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.,时,成对样本数据的相关系数满足
D.必定满足经验回归方程
4.(2025·26高三上·河北衡水·期末)已知某种生物存在具有明显差异的两种类型,且两种类型的数量比为,现按分层随机抽样的方法抽取容量为25的样本,统计该种生物的两项指标和得到样本,,,2,3,…,25.已知类型样本的变量的均值,的均值,,B类型样本的变量的均值,的均值,.记总样本的均值为,的均值为,且.若与存在线性相关,其线性回归方程为,则的预测值的方差估计值 .
附:,.
5.有两个分类变量和,其中一组观测值为如下的2×2列联表:
总计
15
50
总计
20
45
65
其中,均为大于5的整数,则 时,在犯错误的概率不超过的前提下为“和之间有关系”.附:
6.某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
A. B. C. D.
7.(2025·广东·一模)(多选)一组样本数据.其中,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为,分布如图所示,且,则( )
A.样本负相关 B.
C. D.处理后的决定系数变大
8.(2025·26高三上·河北沧州·月考)定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则 .
9.(2025·26高二上·吉林长春·期末)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
62.14
1.54
2535
50.12
3.47
参考数据:.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
10.(2025·26高三上·湖南长沙·月考)海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
1 / 6
学科网(北京)股份有限公司
$
专题06 线性回归方程及独立性检验(8题型专项训练)
目录
A题型建模・专项突破
题型一、相关关系的理解与判断 1
题型二、相关系数的计算 3
题型三、样本中心的应用(重) 6
题型四、求回归直线方程(重) 12
题型五、求非线性回归方程(重) 14
题型六、残差及相关指数 20
题型七、独立性检验的理解 24
题型八、独立性检验的实际问题(重) 28
B 综合攻坚・能力跃升 34
题型一、相关关系的理解与判断
1.对变量、有观测数据,得散点图1;对变量、有观测数据,得散点图2.分别用、表示变量与、与之间的线性相关系数,则下列说法正确的是( ).
A.变量与呈现正相关,且
B.变量与呈现负相关,且
C.变量与呈现正相关,且
D.变量与呈现负相关,且
【答案】D
【详解】对于图1,散点总体斜向上分布,故变量与呈现正相关,故排除B;
对于图2,散点总体斜向上分布,故变量与呈现负相关,故排除C;
图1中散点图分布较为集中,图2中的散点图分布较为分散,故,
故选:D.
2.变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.很可能存在负相关 B.一定存在负相关
C.很可能存在正相关 D.一定不存在正相关
【答案】A
【详解】从散点图看,这些点在一条线的附近,且从左上角到右下角呈递减的趋势,
所以据此可以推断变量x与y之间可能存在负相关.
故选:A.
3.对两个变量x,y进行线性相关性检验,得线性相关系数,对两个变量u,v进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
【答案】D
【详解】由线性相关系数知x与y正相关,
由线性相关系数知u与v负相关,
又,所以变量u与变量v的线性相关性比变量x与变量y的线性相关性更强.
故选:D
4.在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是( )
A.图(2)(3)(4)中的y和x之间存在相关关系
B.图(2)(4)中的y和x之间呈现正相关关系
C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强
D.图(4)中的y和x之间呈现非线性相关关系
【答案】C
【详解】由题图,(1)中点没有明显的变化趋势,
(2)中点有从左下向右上的线性变化趋势,y和x之间呈现正相关且为线性关系,
(3)中点有从左上向右下的线性变化趋势,y和x之间呈现负相关且为线性关系,
(4)中点有从左下向右上的非线性变化趋势,y和x之间呈现正相关且为非线性关系,
但(2)(3)相关性强弱不能从图中点的分布密度直接分析得出,故(2)的相关性不一定比(3)强,
综上,A、B、D对,C错.
故选:C
题型二、相关系数的计算
5.已知变量x,y线性相关,利用样本数据求得的回归直线方程为,且点都在直线上,则这组样本数据的相关系数( )
A.1 B. C. D.
【答案】B
【详解】由题意知,点都在直线上,可得,
又由变量负相关,所以.
故选:B.
6.某景区对2017-2022年景区内农家乐接待人数(单位:万人)进行了统计,得到数据如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号
1
2
3
4
5
6
接待人数万人
4.5
5.6
6.1
6.4
6.8
7.2
则接待人数与年份的相关系数约为( )(参考数据:)
A.0.65 B.0.71 C.0.89 D.0.97
【答案】D
【详解】由题得,
所以,
故接待人数与年份的相关系数约为0.97.
故选:D.
7.春节期间,由于调整免费,车流量逐渐增加,某高速口统计了5天中的车流量与空气质量指数的关系,所得数据如下表:
车流量/万辆
12
12.5
13
13.5
14
空气质量指数
74
76
78
77
80
(1)在下图中绘制出散点图;
(2)由(1)判断与的线性相关程度,并用相关系数加以说明.
参考公式:相关系数.
参考数据:,,.
【答案】(1)散点图见解析
(2)与的线性相关程度较高
【分析】
【详解】(1)依题意,画出散点图如图.
(2)与有较强的线性相关程度.理由如下:
因为,
,
,
,
,
所以.
所以与的线性相关程度较高.
8.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【答案】(1)13;11
(2)
(3)可以用线性回归模型拟合与之间的关系,理由见解析
【分析】
【详解】(1)由题可知,;
(2)计算得,
故;
(3)由(2)可知,与的相关系数的绝对值近似为0.992,大于0.75且非常接近1,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
9.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
参考数据:.
参考公式:相关系数.
【答案】(1),
(2)
【分析】
【详解】(1)由题可知,
;
(2)计算得,
故;
题型三、样本中心的应用
10.某医院用光电比色计检验尿汞时,得到尿汞含量(单位:)与消光系数的结果如下:
尿汞含量
2
4
6
8
10
消光系数
65
135
205
285
360
(1)求消光系数关于尿汞含量的回归直线方程;
(2)根据回归直线方程,估计尿汞含量为时消光系数的值.
【答案】(1)
(2)173
【分析】
【详解】(1)通过计算可得,
,
所以,
,
所以,
所以,
因此回归直线方程为
(2)在回归直线方程中
令,可得,
因此估计尿汞含量为时消光系数的值为173.
11.年月日,由工业和信息化部、安徽省人民政府共同主办的第十七届“中国芯”集成电路产业大会在合肥成功举办.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.年,全国芯片研发单位相比年增加家,提交芯片数量增加个,均增长超过倍.某芯片研发单位用在“芯片”上研发费用占本单位总研发费用的百分比()如表所示.
年份
年份代码
(1)根据表中的数据,作出相应的折线图;并结合相关数据,计算相关系数,并推断与线性相关程度;(已知:,则认为与线性相关很强;,则认为与线性相关一般;,则认为与线性相关较弱)
.
(2)求出与的回归直线方程(保留一位小数);
(3)请判断,若年用在“芯片”上研发费用不低于万元,则该单位年芯片研发的总费用预算为万元是否符合研发要求?
附:相关数据:,,,.
相关计算公式:①相关系数;在回归直线方程中,,.
【答案】(1)图见解析,,线性相关很强
(2)
(3)符合研发要求
【分析】
【详解】(1)折线图如下:
由题意得:,
,
,
,
,与线性相关很强.
(2)由题意得:,
,
关于的回归直线方程为.
(3)年对应的年份代码,则当时,,
预测年用在“芯片”上的研发费用约为(万元),
,符合研发要求.
12.中国防沙治沙成绩斐然,不断书写“绿色奇迹”,截至2025年年底,中国53%的可治理沙化土地已得到有效治理,沙化土地面积净减少6500万亩,现调查统计了某荒漠地区2019~2025年绿化面积变化情况,得到如下折线图.
(附:年份代码1~7分别对应的年份是2019~2025,经计算得, ,,,)
(1)用线性回归模型拟合y与t的关系,求出相关系数r(精确到0.01);
(2)求出y关于t的回归方程;
(3)若该荒漠地区原面积共10万亩,预测该地区2026年绿化面积达到多少亩?
附:(i)相关系数:;
(ii)线性回归方程:,其中,.
【答案】(1)0.88
(2)
(3)55000亩
【分析】
【详解】(1)因为,
,
,
所以,
即相关系数约为0.88.
(2)因为,
,
所以.
(3)当时,,
该地区2026年绿化面积为亩.
13.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限(单位:年)与失效费(单位:万元)的统计数据如下表所示:
使用年限(单位:年)
2
4
5
6
8
失效费(单位:万元)
3
4
5
6
7
(1)根据上表数据,计算与的相关系数,并说明与的线性相关性的强弱.
(已知:,则认为与线性相关性很强;,则认为与线性相关性一般;,则认为与线性相关性较弱)(的结果精确到0.0001)
(2)求关于的线性回归方程,并估算该种机械设备使用10年的失效费.
附:样本的相关系数,经验回归方程的斜率和截距的最小二乘估计分别为,.
【答案】(1),线性相关性很强
(2),8.5万元
【分析】
【详解】(1)由表知,,,
,
,,
,
故,认为与线性相关性很强;
(2)由(1)知,,
又,,
故关于的线性回归方程为,
当时,,即估算10年的失效费为8.5万元.
14.某景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数y(万人)与第个月的数据:
1
2
3
4
5
1.3
1.7
2.2
2.8
3.5
已知与线性相关.
(1)求关于的线性回归方程;
(2)预测第7个月的打卡人数.
参考数据:.
参考公式:线性回归方程中斜率、截距的最小二乘法估计公式为.
【答案】(1)
(2)4.5万人
【分析】
【详解】(1)解:由统计表格中的数据,可得,,
且,
则,
可得,
所以关于的线性回归方程为.
(2)解:由(1)知:线性回归方程为,
当时,可得.
由此预测第7个月的打卡人数为4.5万人.
题型四、求回归直线方程
15.已知变量与的一组统计数据如下表:
2
4
5
6
8
27
42
62
72
87
若与线性相关,且关于的经验回归方程为.据此估计,当为9时,约为( )
A.95 B.100 C.105 D.110
【答案】B
【详解】由题意可得,,
由于回归直线过样本的中心点,
所以,解得,
故回归方程为,
当时,.
故选:B.
16.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
【答案】D
【详解】由回归直线过样本中心点,得,
,代入,得,
方程两边同时乘5,得.
故选:D.
17.(多选)两个具有相关关系的变量,的一组数据为,,,,其经验回归方程为,记,,相关系数为;若将数据调整为,,,,其经验回归方程为,记,相关系数为,则( )
附:,
A. B.
C. D.
【答案】BD
【详解】对于A,,A错误;
对于B,,B正确;
对于C,,则,C错误;
对于D,,D正确.
故选:BD
18.已知儿子的身高与父亲的身高有关,某兴趣小组统计了5组父子的身高数据,如下表:
父亲身高
166
168
172
178
186
儿子身高
169
175
175
181
若关于的经验回归方程为,则 .
【答案】180
【详解】由题设,,
所以,可得.
故答案为:180
19.某工厂为了研究某种产品的产量y(吨)与某种催化剂x(吨)之间的相关关系,在生产过程中,得到数据如下表,通过分析可得,这两个变量满足经验回归方程,则的值为 .
x
3
4
5
6
y
2.5
3
4
4.5
【答案】0.35/
【详解】根据表格中的数据可得:,,
又因为在直线上,所以,可得.
故答案为:.
题型五、求非线性回归方程
20.(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
【答案】AD
【详解】由两边取自然对数得:,
由变换后得到线性回归方程,
则,即,故AD正确,BC错误;
故选:AD.
21.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月
1
2
3
繁殖数量
A.百只 B.百只 C.百只 D.百只
【答案】B
【详解】由两边取自然对数得,令,
则,即与呈线性相关关系,
,,
回归直线必过样本点的中心,,解得,
,则,当时,.
故选:B
22.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立与的回归方程更合适
(2)
(3)万元
【分析】
【详解】(1)由题意知,
,
因为,所以用模型建立与的回归方程更合适.
(2)令,回归方程为,
因为,
,
所以关于的回归方程为,即.
(3)由题意知
,当且仅当,即时取等号,
则,所以.当且仅当时等号成立,
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为万元.
23.近年来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧.某机构为研究汽油价格x(单位:元/升)与新能源汽车的月销售量y(单位:万辆)之间的关系,收集整理得到如下数据:
x
6
6.5
7
7.5
8
y
1.5
2
3
4.5
6.8
(1)若用模型模拟x与y之间关系,求出回归方程;
(2)根据建立的回归方程,预测当汽油价格上涨至9元/升时,新能源汽车的销量;
(3)假设当汽油价格为9元/升时,实际销量超过预测值的概率为0.6.现进行5次独立观测,记这5次观测中销量超过预测值的次数为,求的数学期望.
参考数据和公式:.,.
令,,,.
对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)
(2)约为万辆
(3)3
【分析】
【详解】(1)因为,则,
又,,
由得,,解得,
所以回归方程为.
(2)当时,代入回归方程可得
,
价格上涨至9元/升时,新能源汽车的销量约为万辆.
(3)由题知,,所以,即的数学期望为3.
24.某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
【答案】(1)
(2),38天
【分析】
【详解】(1)由散点图知,不高于300台的样本点有5个,其中高于200台的样本点有4个,
则在2个样本点的生产量都不高于300台的条件下,2个样本点都高于200台的概率为
(2)
则由回归直线方程系数求解公式知,
,
,
故.
,
所以需要38天呼吸机日生产量可超过500台.
25.统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
【答案】(1)亿人
(2),
【分析】
【详解】(1)设,则,
因为,,,
所以,,
所以,与的拟合函数关系式为
当时,,
则估计年我国在线直播生活购物用户的规模为亿人.
(2)由题意知,所以,,
,
由,可得,
因为,解得,
所以,,.
题型六、残差及相关指数
26.已知相关变量和的散点图如图所示,若用与拟合时,决定系数分别为和,则比较和的大小结果为( )
A. B. C. D.不确定
【答案】C
【详解】由散点图知,用拟合的效果比用拟合的效果要好,
所以.
故选:C.
27.变量关于变量的经验回归方程为.若时,的实际观测值为8,则此时的残差为( )
A. B. C.1 D.2
【答案】C
【详解】当时,,
又时,的实际观测值为8,所以此时的残差为.
故选:C
28.某工厂为研究某种产品的产量(单位:吨)与所需某种原材料(单位:吨)的相关性,在生产过程中收集了4组对应数据,如下表所示
3
4
6
7
2.5
3.5
4
根据表中数据,得出关于的线性回归方程为,据此计算出样本处的残差为0.25,则表中 ,处的残差为 .
【答案】 6 0.5/
【详解】根据样本处的残差为0.25,得,
可得,即回归直线的方程为.
又,
所以,解得,故处的残差为.
故答案为:6,0.5
29.在线性回归分析模型中,变量与相对应的四组数据为,,,,表示解释变量对于预报变量变化的贡献率,则 .
附:,,.
【答案】1
【详解】依题意,
,,
则,,
因此关于的线性回归方程为,
当时,,残差;当时,,残差;
当时,,残差;当时,,残差,
因此,所以.
故答案为:1
30.为了解某企业生产的某产品的年利润与年广告投入的关系,该企业进行了调查统计,得出相关数据如下表.
年广告投入/万元
2
3
4
5
6
年利润/万元
3
4
6
8
11
根据以上数据,研究人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲是;方程乙是.
(1)求(结果精确到0.01)与的值.
(2)为了评价两种模型的拟合效果,完成以下任务.
①完成下表;(注:称为相应于点的残差)
年广告投入/万元
2
3
4
5
6
年利润/万元
3
4
6
8
11
模型甲
估计值
残差
模型乙
估计值
残差
②分别计算模型甲与模型乙的残差平方和与,并通过比较的大小,判断哪个模型拟合效果更好.
【答案】(1)
(2)①表格见解析;②,,,模型甲的拟合效果更好
【分析】
【详解】(1)对于方程甲,设,则,
,,
所以,解得.
对于方程乙,,
所以,解得.
(2)①经计算,可得下表.
年广告收入/万元
2
3
4
5
6
年利润/万元
3
4
6
8
11
模型甲
估计值
3.08
4.07
5.72
8.03
11
残差
0.28
0
模型乙
估计值
2.4
4.4
6.4
8.4
10.4
残差
0.6
0.6
②,
.
因为,所以模型甲的拟合效果更好.
31.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【分析】
【详解】(1)因为,,,
则,解得;
8月份对应的残差值.
(2)因为,
所以,
所以,
所以线性回归模型拟合程度更好.
题型七、独立性检验的理解
32.为比较甲、乙两所学校学生的数学水平,采用了如下方法:
第1步,科学抽样.采用简单随机抽样方法从两所学校共抽取88名学生,且对这88名学生进行测验;
第2步,收集数据.测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生有7名学生数学成绩优秀,并做出了如下的列联表:
学校
数学成绩
合计
不优秀
优秀
甲校
33
10
43
乙校
38
7
45
合计
71
17
88
第3步,提出零假设.零假设:两校学生的数学成绩优秀率无差异,
第4步,计算.计算得到,
第5步:判断.根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
若将列联表中所有数据都扩大到原来的10倍,则下列说法正确的是( )
A.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
B.根据小概率值的独立性检验,两校的数学成绩优秀率没有差异
C.有99%的把握认为学生的数学成绩是否优秀与学校有关
D.学生的数学成绩是否优秀与学校有关,该推断犯错误的概率不超过0.001
【答案】C
【详解】由题,列出新的列联表如下:
学校
数学成绩
合计
不优秀
优秀
甲校
330
100
430
乙校
380
70
450
合计
710
170
880
代入卡方公式:
,其中,
所以,
,
所以认为 “学生的数学成绩是否优秀与学校有关”,且有的把握,
故AB错误.
且推断犯错误的概率不超过0.01,不是0.001,故错误.
故选:C.
33.(多选)在某款盲盒内可能装有某一套玩偶的三种样式,且每个盲盒只装一个玩偶.某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有的人购买了该款盲盒,在这些购买者当中,女生占;而在未购买者当中,男生、女生各占.则下列说法中正确的是( )
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.若每个盲盒装有三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是
B.此次调查中未购买过该盲盒的女生人数为60
C.有的把握认为“购买该款盲盒与性别有关”
D.有的把握认为“购买该款盲盒与性别有关”
【答案】AC
【详解】对于A,方法1, 该同学再购买两个这款盲盒,基本事件有:
,
能收集齐这三种样式的基本事件有,所以恰好能收集齐这三种样式的概率是.故A正确;
对于B,购买了该款盲盒的人有,所以有140人没有购买,
其中男生70人,女生70人,所以未购买过该盲盒的女生人数为70.故B错误;
对于CD,在这些购买者当中,女生占,所以购买了该款盲盒的人中男生20人,
女生40人,结合B选项可知,列联表如下:
购买情况
性别
男生
女生
总计
未购买过该款盲盒
70
70
140
购买过该款盲盒
20
40
60
总计
90
110
200
,因为,
所以有90%的把握认为“购买该款盲盒与性别有关”,
没有的把握认为“购买该款盲盒与性别有关”,故C正确,D错误.
故选:AC
34.(多选)根据分类变量x与y的成对样本数据,提出零假设,并计算得到,则下列说法正确的是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:
A.零假设为:分类变量x与y独立
B.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1
C.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
D.若所有样本数据都扩大为原来的10倍,根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
【答案】ABD
【详解】对A:零假设:分类变量x与y独立.是正确的,故A正确;
对B:因为,所以根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1,故B正确;
对C:因为,根据小概率值的独立性检验,我们不能拒绝零假设,即可以认为x与y独立.故C错误;
对D:根据,当所有样本数据都扩大为原来的10倍,的值夜变成原来的10倍,且,所以根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01,故D正确.
故选:ABD
35.已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍 .
【答案】4
【详解】因为,
所以.
故答案为:4.
36.某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到下侧列联表.已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
参考公式:,其中.
【答案】3
【详解】由题设,零假设社交电商用户与性别无关,
而,
则,
所以根据的独立性检验认为是不是社交电商用户与性别有关,则的最小值3.
故答案为:3
题型八、独立性检验的实际问题
37.为了了解人们对AI应用的喜爱程度,现随机抽取不同年龄段的1000人进行调查统计,得到如下2×2列联表:
年龄
AI应用
合计
不喜爱
喜爱
不超过35岁
400
600
超过35岁
300
合计
1000
(1)完成2×2列联表,并依据小概率值的独立性检验,判断人们对AI应用的喜爱程度是否与年龄有关联.
(2)从这1000名调查者中随机抽取一人,若这个人年龄不超过35岁,求该调查者是喜爱AI应用的概率.
(3)为推广AI应用,某科技公司组织了AI应用知识竞赛活动.活动规定从10道备选题中随机抽取4道题进行作答.假设在10道备选题中,甲只能正确完成其中的8道题.设随机变量X表示甲可以正确完成的题的数量,求变量X的分布列及数学期望.
附:其中.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,依据小概率值的独立性检验,可判断人们对AI应用的喜爱程度与年龄有关联.
(2)
(3)分布列见解析,
【分析】
【详解】(1)补全的列联表如下:
年龄
AI应用
合计
不喜爱
喜爱
不超过35岁
200
400
600
超过35岁
300
100
400
合计
500
500
1000
零假设为:人们对AI应用的喜爱程度与年龄无关.
根据表中数据,计算得到.
根据小概率值的独立性检验,没有充分证据推断成立,
即认为人们对AI应用的喜爱程度与年龄有关,该推断犯错误的概率不超过0.001.
(2)从这1000名调查者中随机抽取一人,记这个人的年龄不超过35岁为事件,这个人喜爱AI应用为事件,
则,
所以.
若这个人年龄不超过35岁,则该调查者是喜爱AI应用的概率为.
(3)的所有可能取值为2,3,4,
的分布列为
2
3
4
的数学期望.
38.为响应国家“提升全民数字素养与技能”的号召,某市对高中生的网络信息辨别能力开展调研.研究者随机抽取了该市200名学生,按是否接受过“媒介素养”校本课程培训分为两组,并测试他们能否准确识别一些典型的网络谣言(如“某种食物含致癌物”等).测试结果如下表:
能准确识别谣言
不能准确识别谣言
接受过培训
68
32
未接受过培训
42
58
(1)分别求接受过培训和未接受过培训的学生能准确识别谣言的概率;
(2)在犯错误的概率不超过的前提下,能否认为学生识别谣言的能力与培训有关?
附:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1),;
(2)有关.
【分析】
【详解】(1)接受过培训的学生能准确识别谣言的概率为.
未接受过培训的学生能准确识别谣言的概率为.
(2)零假设:学生识别网络谣言的能力与培训无关.
根据列联表的数据可得.
因为,
所以在犯错误的概率不超过的前提下,认为不成立,
即认为学生识别谣言的能力与培训有关.
39.某大学想了解本校学生对食堂的满意度情况,对该大学的100名学生进行食堂满意度调查,调查结果如表所示:
满意
不满意
合计
大一或大二
20
20
40
大三或大四
40
20
60
合计
60
40
100
(1)根据小概率值的独立性检验,分析该大学的学生对食堂的满意度是否与年级有关联;
(2)从样本中对食堂满意的学生中随机抽取2人,求这2人均是大三或大四学生的概率.
附:,.
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)有关
(2)
【分析】
【详解】(1)零假设:该校学生对食堂的满意度与年级无关.
经计算得,
依据小概率值的独立性检验,推断零假设不成立,即该校学生对食堂的满意度与年级有关联,此推断犯错误的概率不大于0.1.
(2)对食堂满意的学生共60人,其中大一或大二学生:20人,大三或大四学生:40人,
抽取2人均为大三或大四学生的概率:.
40.2025年高中“双休”政策出台后,某地区为研究高中生周末在家自律情况与学习成绩变化的关系,认定周末每天学习不低于2小时,视为“自律”;每天学习低于2小时,视为“不自律”.该地区随机调查了800名高中生周末在家学习的情况,得到如下列联表.
学习成绩变化情况
自律情况
合计
自律
不自律
进步
560
40
600
退步
40
160
200
合计
600
200
800
(1)从这800名学生中随机抽取1名学生,若该学生是自律的,求该学生的学习成绩是进步的概率;
(2)根据小概率值的独立性检验,分析学习自律是否与学习进步有关.
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)
(2)学习自律与学习进步有关
【分析】
【详解】(1)解:记事件A表示“抽取1名学生,该学生是自律的”,
事件B表示“抽取1名学生,该学生的学习成绩是进步的”,
根据表格中的数据,可得,,
则,
故从这800名学生中随机抽取1名学生,若该学生是自律的,则该学生学习成绩是进步的概率为.
(2)记零假设为:学习自律与学习进步无关,
由表中数据,可得,
故根据小概率值的独立性检验,可推断不成立,
即认为学习自律与学习进步有关,该推断犯错误的概率不超过0.001.
41.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下列联表:
性别
出生时间
合计
晚上
白天
男婴
30
20
50
女婴
25
25
50
合计
55
45
100
(1)根据小概率值的独立性检验,能否认为“婴儿出生的时间与性别有关联”?
(2)从样本中"晚上出生的婴儿中按性别采用比例分配的分层抽样方法抽取11个婴儿,再从这11婴儿中随机抽取3人测其体重,则三个婴儿中恰有两个女婴的概率.
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)婴儿出生的时间与性别无关.
(2)
【分析】
【详解】(1)零假设:婴儿出生的时间与性别无关.
根据小概率值的独立性检验,我们没有充分的证据推断不成立,
即婴儿出生的时间与性别无关.
(2)根据分层抽样的性质可知:晚上出生的婴儿中男生与女生的比例为.
因此选出11人中,男婴儿人数为人,女婴儿人数为人
,
42.民航招飞是指普通高校飞行技术专业通过高考招收飞行学员,对某校高三在校学生进行统计,得到如下列联表:
有报名意向
没有报名意向
合计
男学生
70
150
女学生
80
100
180
合计
250
400
(1)记该校高三女学生有报名意向的概率为,求的值;
(2)根据小概率值的独立性检验,判断该校高三在校学生是否有报名意向与性别有无关系
附:,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1);
(2)有关.
【分析】
【详解】(1)由列联表知,女学生共计180人,其中有报名意向的有80人,所以;
(2)由列联表知,,
零假设:该校高三在校学生是否有报名意向与性别无关,
,
根据小概率值的独立性检验,我们推断不成立,
即认为该校高三在校学生是否有报名意向与性别有关.
九、单选题
1.(2024·25高三下·上海·月考)某试验田种植一批水稻,对其进行种植实验.在右表中记录了5组水稻的“播种面积”与“总产量”的相关数据并预测序号6的实验数据,若发现实验序号5的实验数据有误需剔除,则下列说法正确的是( ).
实验序号
1
2
3
4
5
6
播种面积
(单位:千公顷)
60.9
71.8
72.9
73.6
75.8
80.0
总产量
(单位:万吨)
37.8
37.4
38.9
40.1
37.3
未知
A.实验样本的相关系数将变小. B.实验样本的相关系数将不变.
C.实验序号6的预测结果将变大. D.实验序号6的预测结果将变小.
【答案】C
【详解】根据表中数据可知:1-4号的数据中,播种面积逐渐增发,总产量整体呈现上升趋势,呈现正相关,但5号数据,播种面积在增大,但产量低,偏离了正相关趋势,当剔除5号数据后,相关性会变强,故AB错误,
由于5号数据削弱了正相关性,导致回归直线的斜率变小,因此剔除后,回归直线的斜率会变大,所以对于试验6号,预测的结果将变大,故C正确,D错误.
故选:C
2.(2024·25高三下·云南临沧·月考)在研究性学习活动中,某位学生收集了两个变量与之间的几组数据如下表:
根据上表数据所得经验回归方程为.该同学又收集了两组数据,和,,利用这六组数据求得的经验回归方程为,则以下结论正确的是( )
参考公式:经验回归方程为,其中,.
A., B.,
C., D.,
【答案】D
【详解】由表格数据可得:,,,
则,,
添加两组数据,和,后,,,
,
,
所以,.
故选:D
3.(2024·25高三下·天津南开·月考)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,经验回归方程为,则下列说法错误的是( )
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.,时,成对样本数据的相关系数满足
D.必定满足经验回归方程
【答案】A
【详解】对当越大时,成对样本数据的线性相关程度越强,
例如,,对应的样本数据的线性相关程度更强,故A错误;
于选项B:当时,变量和变量正相关,则,故B正确,
对于选项C:当,时,不变且,
所以,故C正确;
对于选项D:经验回归方程必过样本中心点,
所以必定满足经验回归方程,故D正确.
故选:A.
4.(2025·26高三上·河北衡水·期末)已知某种生物存在具有明显差异的两种类型,且两种类型的数量比为,现按分层随机抽样的方法抽取容量为25的样本,统计该种生物的两项指标和得到样本,,,2,3,…,25.已知类型样本的变量的均值,的均值,,B类型样本的变量的均值,的均值,.记总样本的均值为,的均值为,且.若与存在线性相关,其线性回归方程为,则的预测值的方差估计值 .
附:,.
【答案】
【分析】
【详解】两种类型的数量比为,现按分层随机抽样的方法抽取容量为25的样本,
则两种类型的数量为,两种类型的数量为,
设类型样本的方差为,类型样本的方差为,总样本的方差为,
,,,,
,
,,
,,
,,
,
,
,,
,
,.
,,
,
,
,
,的预测值的方差估计值.
故答案为:.
5.有两个分类变量和,其中一组观测值为如下的2×2列联表:
总计
15
50
总计
20
45
65
其中,均为大于5的整数,则 时,在犯错误的概率不超过的前提下为“和之间有关系”.附:
【答案】9
【详解】解:由题意知:,
则,
解得:或,
因为:且,,
综上得:,,
所以:.
故答案为:9.
【点睛】本题考查独立性检验的应用问题.
6.某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
A. B. C. D.
【答案】ABD
【详解】由题意知,数据修正前:,
,,
,
,,
数据修正后:,
,,
,
,,,
因此,,,而,则,
所以ABD正确,C错误.
故选:ABD.
7.(2025·广东·一模)(多选)一组样本数据.其中,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为,分布如图所示,且,则( )
A.样本负相关 B.
C. D.处理后的决定系数变大
【答案】ABD
【详解】对于A,经验回归方程中斜率,则样本负相关,A正确;
对于B,原样本均值:,由,得,B正确:
对于C,由图1的数据波动较大可得比更集中,则,C错误;
对于D,由图1的残差平方和较图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.
故选:ABD
8.(2025·26高三上·河北沧州·月考)定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则 .
【答案】/
【详解】令,
所以,
由,解得.
故答案为:
9.(2025·26高二上·吉林长春·期末)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
62.14
1.54
2535
50.12
3.47
参考数据:.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【答案】(1)适宜作为投放量与年使用人次的回归方程类型,
(2)列联表见解析,认为是否报废与保养有关
【分析】
【详解】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.
设,则.
因为,,,,
所以.
把代入,得,
所以,所以,
则,
故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\
保养
未保养
合计
报废
20
未报废
80
合计
60
40
100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
10.(2025·26高三上·湖南长沙·月考)海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
【答案】(1)吨.
(2)残差表见解析;,拟合效果较好.
【分析】
【详解】(1)根据题中数据可知,,
将样本中心点的坐标代入经验回归方程得
,解得,
所以经验回归方程为.
当时,,
即当浇灌海水浓度为8‰时,该品种海水稻的亩产量为吨.
(2)(i)由经验回归方程可得
,;
,;
,;
,;
,.
所以残差表如下:
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(ii)由上数据可知,
,
所以决定系数,与1比较接近,
所以拟合效果较好.
1 / 6
学科网(北京)股份有限公司
$