专题14 成对数据的统计分析(独立性检验与线性回归直线方程)(7大题型)(期末复习专项训练)高二年级数学下学期人教A版
2026-05-26
|
2份
|
105页
|
13人阅读
|
0人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学人教A版选择性必修第三册 |
| 年级 | 高二 |
| 章节 | 小结 |
| 类型 | 题集-专项训练 |
| 知识点 | 回归分析,独立性检验 |
| 使用场景 | 同步教学-期末 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 5.77 MB |
| 发布时间 | 2026-05-26 |
| 更新时间 | 2026-05-26 |
| 作者 | 逻辑课堂 |
| 品牌系列 | 上好课·考点大串讲 |
| 审核时间 | 2026-05-26 |
| 下载链接 | https://m.zxxk.com/soft/58049854.html |
| 价格 | 4.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
聚焦独立性检验与线性回归,以分层递进题型构建统计分析能力体系,强化数据关联与模型应用的数学思维。
**专项设计**
|模块|题量/典例|题型特征|知识逻辑|
|----|-----------|----------|----------|
|独立性检验|20题|概念辨析、卡方计算与实际问题|从基础概念到实际应用,覆盖列联表构建与关联性判断|
|线性回归|27题|散点图分析、方程计算与应用|从数据可视化到回归方程构建,结合残差与预测|
|综合应用|13题|卡方与回归结合、非线性回归|从线性到非线性模型转化,提升复杂数据处理能力|
内容正文:
专题14 成对数据的统计分析
(独立性检验与线性回归直线方程)
题型1 独立性检验的概念及辨析(重点)
题型5 线性回归直线方程的计算(常考点)
题型2 卡方的计算与解决实际问题(重点)
题型6 卡方与线性回归直线方程结合(重点)
题型3 散点图
题型7 非线性回归(难点)
题型4 线性回归直线方程的相关应用(常考点)
3 / 23
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
题型一 独立性检验的概念及辨析(共10小题)
1.(24-25高二下·河南信阳·期末)调查某医院一段时间内婴儿出生的时间(白天与晚上)和性别(男与女)的关联性,对样本数据分析统计,计算得到,依据小概率值的独立性检验,下列说法正确的是( )(附:)
A.婴儿90%在白天出生
B.婴儿性别与出生时间无关联
C.有0.1的把握认为婴儿性别与出生时间有关联
D.婴儿性别与出生时间有关联,此推断犯错误的概率不大于0.1
【答案】D
【分析】求出并与比较即可求解.
【详解】因为,
依据小概率值的独立性检验,
所以婴儿性别与出生时间有关联,此推断犯错误的概率不大于0.1.
故选:D.
2.(24-25高二下·广东广州·期末)根据分类变量X与Y的成对样本数据,计算得到.已知,依据的独立性检验,结论为( )
A.变量X与Y独立
B.变量X与Y独立,这个结论犯错误的概率不超过0.005
C.变量X与Y不独立
D.变量X与Y不独立,这个结论犯错误的概率不超过0.005
【答案】A
【分析】利用独立性检验规则来进行判断即可。
【详解】因为,所以没有充分的证据推断变量X与Y不相互独立,即认为变量X与Y独立,故BCD错误,A正确;
故选:A.
3.(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【分析】求得卡方值,比对临界值,逐个判断即可.
【详解】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
4.(24-25高二下·甘肃白银·期末)假设有两个分类变量X,Y,它们的可能取值分别为和,其列联表为
合计
合计
以下各组数据中,对于同一样本能说明与有关系的可能性最大的一组为( )
A. B.
C. D.
【答案】C
【分析】计算各选项中的值,比较大小,即可得答案.
【详解】计算各选项中的值,值越大,说明相应的两个分类变量有关系的可能性越大;
对于A,,
对于B,,
对于C,,
对于D,,
由于,
故选:C
5.(24-25高二下·福建厦门·期末)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数的.若依据小概率值的独立性检验认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
其中,,.
A.20 B.30 C.35 D.40
【答案】A
【分析】设总人数为,根据给定条件,求出的观测值并建立不等式,进而求出的最小整数值得解.
【详解】设总人数为,则男生选学生物学的人数为,女生选学生物学的人数为,
则列联表为:
男生
女生
合计
选生物学
不选生物学
合计
m
m
2m
因此,
即,又为的倍数,所以男生最少有人.
故选:A
6.(24-25高二下·辽宁·期末)为了解是否喜欢羽毛球运动与性别的关系,某数学兴趣小组经统计得到如下数据,若要使是否喜欢羽毛球运动与性别无关的可能性最大,则( )
性别
羽毛球
喜欢
不喜欢
女生
男生
50
100
附:,其中.
A.4 B.2 C.1 D.
【答案】D
【分析】结合,只需,即可求得答案.
【详解】要使是否喜欢羽毛球运动与性别无关的可能性最大,则,所以,
所以.
故选:D
7.(24-25高二下·河北衡水·期末)某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】
【分析】由表中数据,根据独立性检验的解题思想,可得答案.
【详解】由题干数据即可得到:,
因为依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,
故,又因为m为正整数,故,
故答案为:
8.(23-24高二下·湖南长沙·期中)随着国家对中小学“双减”政策的逐步落实,其中增加中学生体育锻炼时间的政策引发社会的广泛关注.某教育时报为研究“支持增加中学生体育锻炼时间的政策是否与性别有关”,从某校男女生中各随机抽取80名学生进行问卷调查,得到如下数据(,)
支持
不支持
男生
女生
若通过计算得,根据小概率值的独立性检验,认为支持增加中学生体育锻炼时间的政策与性别有关,则在这被调查的80名女生中支持增加中学生体育锻炼时间的人数的最小值为__________.
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【答案】66
【分析】根据独立性检验公式列出不等式,进而求解即可.
【详解】因为有95%以上的把握认为“支持增加中学生体育锻炼时间的政策与性别有关”,
所以,
即,
因为函数在时单调递增,
且,,,
所以的最小值为16,
所以在这被调查的80名女生中支持增加中学生体育锻炼时间的人数的最小值为.
故答案为:66.
多选题
9.(24-25高二上·江苏常州·期末)为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制了下侧所示的列联表(个别数据暂用字母表示):
数学成绩
性别
合计
男
女
优秀
27
70
非优秀
58
110
合计
180
经计算得:,参照下表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
则下列选项正确的为( )
A.
B.
C.可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”
D.没有充分的证据显示“数学达到优秀等级与性别有关”
【答案】ABD
【分析】利用列联表中数据计算判断AB;结合的观测值及临界值表判断CD.
【详解】对于AB,由列联表知,,AB正确;
对于CD,由知,C错误,D正确.
故选:ABD.
10.(24-25高二下·湖北襄阳·期末)炎炎夏日,许多城市发出高温预警,凉爽的某市成为众多游客旅游的热门选择.为了解来某市旅游的游客旅行方式与年龄是否有关,随机调查了100名游客,得到如下表格.零假设H0旅行方式与年龄没有关联,则下列说法中,正确的有( )
小于40岁
不小于40岁
自由行
38
19
跟团游
20
23
附:χ2=,其中.
α
0.1
0.05
0.01
xα
2.706
3.841
6.635
A.在选择自由行的游客中随机抽取一名,其小于40岁的概率为
B.在选择自由行的游客中按年龄分层随机抽样抽取6人,再从中随机选取2人做进一步的访谈,则2人中至少有1人不小于40岁的概率为
C.根据的独立性检验,推断旅行方式与年龄没有关联,且犯错误概率不超过0.01
D.根据的独立性检验,推断旅行方式与年龄有关联,且犯错误概率不超过0.05
【答案】BD
【分析】对A,根据古典概型运算判断;对B,先根据分层抽样求出各层所抽取的人数,再根据古典概型结合对立事件运算判断;对于CD,根据题中数据求,并与临界值对比分析.
【详解】对于A,选择自由行的游客人数为,其小于40岁的概率是,故A错误;
对于B,选择自由行中小于40岁和不小于40岁的人数比为2:1,
则按年龄分层抽样抽取的6人中,有4人小于40岁,有2人不小于40岁,
设事件为“2人均小于40岁”,则2人中至少有1人不小于40岁的概率为,故B正确;
对于C,因为,
所以可推断旅行方式与年龄没有关联,但对零假设犯错误的概率是不可知的,故C错误;
对于D,因为,所以推断旅行方式与年龄有关联,且犯错误概率不超过0.05,故D正确.
故选:BD.
题型二 卡方的计算与解决实际问题(共10小题)
11.(24-25高二下·吉林长春·期末)某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师(50岁以上)20人,青年教师(49岁以下)30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个列联表;
(2)试根据小概率值的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系;
(3)以样本频率作为概率,在该校任取3位青年教师,求这3位教师中恰好有两位赞同新课程教学模式的概率.
附:,,其中 ,.
【答案】(1)答案见解析
(2)对新课程教学模式的赞同情况与教师年龄无关
(3)
【分析】(1)根据题意列出列联表即可;
(2)零假设为:对新课程教学模式的赞同情况与教师年龄无关,求出即可求解;
(3)求出青年教师对新课程教学模式赞同的频率,求出在该校任取一位青年教师赞同新课程教学模式的概率,求出3位教师中恰好有两位赞同新课程教学模式的概率.
【详解】(1)列联表如下.
对新课程教学模式
教师身份
合计
老教师
青年教师
赞同
10
24
34
不赞同
10
6
16
合计
20
30
50
(2)零假设为:对新课程教学模式的赞同情况与教师年龄无关,
由公式得,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可认为对新课程教学模式的赞同情况与教师年龄无关;
(3)青年教师对新课程教学模式赞同的频率为,
所以在该校任取一位青年教师赞同新课程教学模式的概率为,
3位教师中恰好有两位赞同新课程教学模式的概率为.
12.(24-25高二下·河北·期末)某高中新开设了游泳课,为了调查学生对课程的满意度,随机抽查了150名学生,其中不喜欢与喜欢人数比为,且男生占总人数的,女生中有的人不喜欢.
性别
满意度
合计
不喜欢
喜欢
男
女
合计
(1)补全列联表;
(2)根据小概率值的独立性检验,能否认为学生对游泳课的满意度与性别有关?
附:,.
α
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表见解析;
(2)无关,理由见解析.
【分析】(1)利用给定条件计算出喜欢与不喜欢的人数及其中的男、女生人数,得到列联表;
(2)根据列联表所给的数据,代入求值的公式,求出值并与临界值比对,即可得出结论.
【详解】(1)
性别
满意度
合计
不喜欢
喜欢
男
25
25
50
女
45
55
100
合计
70
80
150
(2)零假设为:学生对游泳课的满意度与性别无关,
,
根据小概率的独立性检验,没有充分证据判断不成立,
因此可以认为成立,即认为学生对游泳课的满意度与性别无关.
13.(24-25高二下·福建泉州·期末)近年来,由于大学生不理智消费导致财务方面的新闻层出不穷,无力偿还校园贷,跳楼自杀也偶有发生,一时间人们对大学生的消费观充满了质疑.为进一步了解大学生的消费情况,对S城某大学的10000名(其中男生6000名,女生4000名)在校本科生.按性别采用分层抽样的方式抽取了1000名学生进行了问卷调查,其中有一项是针对大学生每月的消费金额进行调查统计.通过整理得到如图所示的频率分布直方图.已知在抽取的学生中,月消费金额超过2000元的女生有150人.
参考数据与参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
,其中.
(1)求的值.
(2)估计月消费金额的中位数
(3)依据小概率值的独立性检验,分析月消费金额在2000元以上的大学生与性别是否有关?
【答案】(1)
(2)元
(3)有关.
【分析】(1)由频率分布直方图各矩形面积和为1,可得答案;
(2)由频率分布直方图估计中位数计算方式可得答案;
(3)由题可得相关列联表,然后计算对应卡方进行独立性检验即可.
【详解】(1)由直方图知,各矩形面积之和为1,
则,解得;
(2)由频率分布直方图知,
前3个矩形面积之和为:;
前4个矩形面积之和为: ,
设中位数为,∴,
∴,∴月消费金额的中位数为百元,即元;
(3)故月消费金额超过2000元的大学生人数为人,
由分层抽样知,男生、女生抽样的人数分别为600人和400人,
由题知,月消费金额超过2000元的男生人数为100人,由条件可以列出列联表:
男生
女生
合计
消费金额不超过2000元
500人
250人
750人
消费金额超过2000元
100人
150人
250人
合计
600人
400人
1000人
提出零假设:月消费金额在2000元以上的大学生与性别无关.
故,
所以在犯错的概率不超过的情况下可以判断月消费金额在2000元以上的大学生与性别有关.
14.(24-25高二下·黑龙江绥化·期末)为了解不同年龄的人员对“2025年哈尔滨冬奥会”满意度,某组织进行了一次抽样调查,分别抽取年龄超过35周岁和年龄不超过35周岁各200人作为样本,每位参与调查的都对“2025年哈尔滨冬奥会”给出满意或不满意的评价.设事件“对‘2025年哈尔滨冬奥会’满意”,事件“人员年龄不超过35周岁”,据统计,,.
(1)根据已知条件,填写下列2×2列联表并说明理由:(2×2列联表见答题卡)
(2)由(1)中2×2列联表数据,依据小概率值的独立性检验,能否认为人员对“2025年哈尔滨冬奥会”的满意度与年龄有关联?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)答案见解析
(2)认为年龄与满意度没有关联
【分析】(1)根据题意,可求出不超过35岁的人中,对“冬奥会”满意和不满意的人数;以及超过35岁的人中,对“冬奥会”满意和不满意的人数,即可完成2×2列联表.
(2)根据题意,计算卡方,与临界值比较即可求解.
【详解】(1)因为抽取的年龄不超过35周岁有200人,,
所以抽取的不超过35岁的人中,对“冬奥会”满意有人,对“冬奥会”不满意有人.
又因为抽取的不超过35岁的人中,对“冬奥会”满意有人, ,
所以抽取的人中,对“冬奥会”满意的人一共有人,
则超过35岁的人中,对“冬奥会”满意有人,
又因为抽取的年龄超过35周岁有200人,
所以超过35岁的人中,对“冬奥会”不满意有人.
由此列联表如下,
年龄
满意度
合计
满意
不满意
不超过35岁
160
40
200
超过35岁
140
60
200
合计
300
100
400
(2)零假设为:年龄与满意度无关,
根据数据,计算得到.
依据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,
即认为年龄与满意度没有关联.
15.(24-25高二下·辽宁·期末)最近育才园举行了乒乓球、羽毛球、足球等联赛、激发起了同学们的运动热情.调查小组为了解本校学生身体素质情况,决定在全校500名男生和400名女生中,按分层抽样的方法随机抽取45名学生,对他们课余参加体育锻炼时长进行问卷调查,将学生参加体育锻炼时长的情况分三类:A类(课余时间参加体育锻炼且平均每周锻炼时长超过3小时),B类(课余时间参加体育锻炼但平均每周锻炼时长不超3小时),C类(课余时间不参加体育锻炼),调查结果如下表:
类别
A类
B类
C类
男生
18
x
3
女生
8
10
(1)求出表中x,y的值;
(2)根据表格统计的数据,完成下表,并判断能否在犯错误的概率不超过的前提下,认为课余时间参加体育锻炼且平均每周锻炼时长超过3小时与性别有关.
性别
男生
女生
A类
B类和C类
附:,其中.
【答案】(1)
(2)表格见解析,能在犯错误的概率不超过的前提下,认为课余参加体育锻炼且平均每周锻炼时长超3小时与性别有关
【分析】(1)根据题意列出关于的方程组即可求解;
(2)根据题意列出列联表,计算卡方对比临界值,即可作出结论.
【详解】(1),解得;
(2)
性别
男生
女生
A类
18
8
B类和C类
7
12
;
故能在犯错误的概率不超过的前提下,认为课余参加体育锻炼且平均每周锻炼时长超3小时与性别有关.
16.(24-25高二下·山东威海·期末)在科技飞速发展的今天,人工智能(AI)领域迎来革命性的突破,各种AI工具拥有强大的解决问题的能力.某企业为了解男女员工对AI工具的使用情况,随机调查了200名员工,得到如下数据:
经常使用
不经常使用
合计
男性
80
20
100
女性
60
40
100
合计
140
60
200
(1)根据小概率值的独立性检验,分析该企业员工对AI工具的使用情况是否与性别有关;
(2)为鼓励员工使用AI工具,企业采用按性别分层抽样的方式,在被调查的经常使用AI工具的员工中,抽取了7名员工组成AI工具宣传小组.现从这7名员工中随机选出3名担任宣传组长,记选出的3名宣传组长中女员工的人数为随机变量X,求X的数学期望.
参考公式:,.
参考数据:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)企业员工对AI工具的使用情况与性别有关
(2)
【分析】(1)根据题意得到列联表;利用公式求得,结合附表即可得到结论;
(2)应用分层抽样的等比例性质确定男女人数,确定有X的所有可能取值集合为,求出对应概率,即可得分布列,进而求期望.
【详解】(1)零假设为:该企业员工对AI工具的使用情况与性别无关.
根据列联表数据计算得:
.
根据小概率值的独立性检验,我们推断不成立,
即认为“该企业员工对AI工具的使用情况与性别无关”,此推断犯错误的概率不超过.
故分析认为企业员工对AI工具的使用情况与性别有关.
(2)由题意知,抽取的7名员工中男员工有4名,女员工有3名.
则X可能的取值集合为,
因此,,
,,
所以.
17.(24-25高二下·河北沧州·期末)在某次考试中,某学校要对某年级的学习总评成绩(满分100分)和体育成绩(满分100分)进行统计分析,为研究方便,现抽取出了其中各100名学生的成绩(分为优秀和一般)进行统计.
优秀
一般
合计
学习总评成绩
体育成绩
合计
(1)若统计的数据中学习总评成绩在前十名的成绩分别为99,98,98,97,96,96,96,94,94,93,求这十个成绩的平均数和第70百分位数;
(2)统计可得,学习总评成绩优秀60人,体育成绩一般30人,填写如下列联表,依据的独立性检验,能否认为学习总评成绩优秀与体育成绩优秀有关?
参考公式:,.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)平均数为96.1,第70百分位数为97.5
(2)表格见解析,认为学习总评成绩优秀与体育成绩优秀无关.
【分析】(1)把成绩按照小到大排列,可算出第70百分位数和平均数;
(2)梳理成表格,找到的对应值,带入公式,找到对应判定区间,得到答案
【详解】(1)把学习总评成绩在前十名的成绩从小到大排列为93,94,94,96,96,96,97,98,98,99,
所以平均数为,
因为%=7,所以第70百分位数为.
(2)根据题意,填表可得,
优秀
一般
合计
学习总评成绩
60
40
100
体育成绩
70
30
100
合计
130
70
200
零假设为:学习总评成绩优秀与体育成绩优秀无关,
由表中数据可知,,
依据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为学习总评成绩优秀与体育成绩优秀无关.
18.(24-25高二下·山西吕梁·期末)某科技公司对三文鱼的传统淡水网箱养殖法和AI赋能的新型深远海智能网箱养殖法进行产量对比研究.科研人员在收获季节分别从传统养殖网箱和深远海智能养殖网箱中,各随机抽取了100个网箱,测量每箱三文鱼的产量(单位:kg),其频率分布直方图如图所示.
(1)根据频率分布直方图,补全下面列联表.
养殖法
箱产量
合计
箱产量
箱产量
传统养殖
智能养殖
30
合计
200
(2)根据小概率的独立性检验,分析箱产量与养殖方法是否有关.
(,,)
【答案】(1)填表见解析
(2)答案见解析
【分析】(1)利用频率分布直方图可计算得到新传统养殖法箱产量低于50kg和不低于50kg的数量,进而可得列联表;
(2)结合(1)中列联表计算可得,对比临界值即可得到结论.
【详解】(1)由频率分布直方图知:传统养殖法箱产量低于50kg的箱数为;
,不低于50kg的箱数为;
由此可得列联表如下:
养殖法
箱产量
合计
箱产量50kg
箱产量50kg
传统养殖
60
40
100
智能养殖
30
70
100
合计
90
110
200
(2)零假设:箱产量与养殖方法无关
因为,
所以根据小概率的独立性检验,我们推断不成立,即认为箱产量与养殖方法有关,此推断犯错误的概率不超过0.001.
19.(24-25高二下·四川绵阳·期末)某学校开设了具有地方特色的包饺子、园艺、剪纸、种植、非物质文化遗产等劳动实践课程.该校为进一步优化劳动教育课程,随机抽取了100名学生进行了一次问卷调查,了解不同性别的学生对已开设劳动课程的满意情况,得到如下列联表:
满意
不满意
合计
男生
35
15
50
女生
40
10
50
合计
75
25
100
(1)根据小概率值的独立性检验,能否认为该校学生对已开设劳动课程的满意情况与学生性别有关联?参考公式及数据:,其中.
(2)从不满意的学生中抽取2名学生进行访谈,求至少抽到一名男生的概率.
【答案】(1)认为该校劳动课程与学生性别没有有关联.
(2).
【分析】(1)根据列联表数据求出卡方,与临界值比较即可判断.
(2)结合组合数,利用古典概型概率公式求解即可,注意对于至少、至多问题一般可以直接法或者间接法两种方法求解.
【详解】(1)零假设该校劳动课程与学生性别无关联.
,
∴根据小概率值的独立性检验,没有充分证据说明不成立,
即可认为该校劳动课程与学生性别没有有关联.
(2)记至少抽到一名男生的概率为,
则(或),
∴至少抽到一名男生的概率为.
20.(24-25高二下·湖北武汉·期末)某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:
班级
成绩
合计
优秀
非优秀
一班
35
15
二班
15
25
合计
(1)请完成列联表;
(2)根据列联表中的数据,并根据小概率值的独立性检验,能否认为推广新课改与总成绩是否优秀有关系?
参考数据:
0.10
0.05
0.01
00.005
2.706
3.841
6.635
7.879
.
【答案】(1)答案见解析;
(2)能.
【分析】(1)利用已知数据求和即可得到列联表;
(2)利用卡方公式计算,再与参考数据对照,即可得出判断.
【详解】(1)
班级
成绩
合计
优秀
非优秀
一班
35
15
50
二班
15
25
40
合计
50
40
90
(2)零假设为:推广新课改与总成绩是否优秀无关.
根据列联表中的数据,得到
故根据的独立性检验,可以认为推广新课改与总成绩是否优秀有关系.
题型三 散点图(共6小题)
21.(23-24高二下·福建福州·期末)在以下4幅散点图中,和成正线性相关关系的是( )
A. B.
C. D.
【答案】B
【分析】利用散点图可直观看出是否线性相关和正相关.
【详解】对于A,由于散点图分散,估计没有线性相关关系,故A错误;
对于B,根据散点图集中在一条递增的直线附近,说明它们线性相关且是正相关,故B正确;
对于C,根据散点图集中在一条递减的直线附近,说明它们线性相关且是负相关,故C错误;
对于D,根据散点图集中在一条曲线附近,说明它们非线性相关,故D错误;
故选:B.
22.(24-25高二下·河北·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】B
【分析】根据散点图和相关性的关系,判断结果.
【详解】由散点图知,相关系数对应的散点图呈负相关,
且线性相关性比较强.
故选:B.
23.(24-25高二下·河南洛阳·期末)变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.很可能存在负相关 B.一定存在负相关
C.很可能存在正相关 D.一定不存在正相关
【答案】A
【分析】根据散点图以及相关关系的定义判断即可.
【详解】从散点图看,这些点在一条线的附近,且从左上角到右下角呈递减的趋势,
所以据此可以推断变量x与y之间可能存在负相关.
故选:A.
24.(24-25高二下·安徽芜湖·期末)下图是根据x,y的观测数据得到的散点图,则变量x,y能用一元线性回归模型来刻画的是( )
A. B.
C. D.
【答案】A
【分析】利用单调递减,结合散点图即可得出线性相关性判断.
【详解】因一元线性回归模型刻画的是递减的线性模型,
图中的A项显然满足,B项是相关性很弱,C项是非线性相关,D项是递增的线性模型.
故选:A
25.(24-25高二下·广东深圳·期末)(多选)如图是由个样本数据得到的散点图,根据这个样本数据建立y关于x的经验回归方程.下列说法正确的是( )
A.样本数据、、、、的平均数为
B.去掉后,残差平方和变小
C.经验回归直线经过点
D.相关系数用来衡量两个变量之间线性关系的强弱,越接近于,相关性越弱
【答案】ABC
【分析】利用平均数公式可判断A选项;利用回归直线拟合效果与残差平方和的关系可判断B选项;利用经验回归直线过样本中心点可判断C选项;利用相关系数与相关性的关系可判断D选项.
【详解】对于A选项,由题意可知样本数据、、、、的平均数为,A对;
对于B选项,去掉后,回归直线的拟合效果越好,残差平方和变小,B对;
对于C选项,由题意可得,
故经验回归直线经过点,C对;
对于D选项,相关系数用来衡量两个变量之间线性关系的强弱,
越接近于,相关性越强,D错.
故选:ABC.
26.(24-25高三上·山东威海·期末)下列散点图中,线性相关系数最小的是( )
A. B.
C. D.
【答案】A
【分析】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案.
【详解】观察选项A的散点图,这些点紧密地聚集在一条直线附近.其线性相关系数接近于;
选项B的散点图中,线性负相关程度不及A,比较分散,即线性相关系数要比选项A的大.
选项C的散点图里,散点呈现出一定的上升趋势,变量和之间具有强的线性相关关系,其线性相关系数为正数.
选项D的散点图中,散点比较分散,线性相关程度比选项A要弱,线性相关系数的比选项A的大.
综合比较四个选项,选项A,线性负相关程度最强,所以线性相关系数最小.
故选:A.
题型四 线性回归直线方程的相关应用(共11小题)
多选题
27.(24-25高二下·四川达州·期末)下列说法正确的是( )
A.若,两组成对样本数据的样本相关系数分别为,,则组数据比组数据的线性相关性更强
B.决定系数越接近0拟合效果越好
C.若关于的经验回归方程为,则样本数据相应的残差为
D.若关于的经验回归方程为的样本中心是,则
【答案】AD
【分析】对于A,根据相关系数的性质分析判断;对于B,根据决定系数的性质分析判断;对于C,残差计算公式计算判断;对于D,根据经验回归方程过样本中心点分析判断.
【详解】对于选项A:样本相关系数的绝对值越大,线性相关性越强,故A正确;
对于选项B:在回归分析中,越大,残差平方和越小,模型的拟合效果越好,故B错误;
对于选项C:将代入,则,则残差为,故C错误;
对于选项D:经验回归直线必过中心点,将代入则故D正确.
故选: AD.
28.(24-25高二下·新疆乌鲁木齐·期末)每年4月23 日为“世界读书日”,某学校于四月份开展“书香润泽校园,阅读提升思想”主题活动,为检验活动效果,学校收集当年二至六月的借阅数据如下表:
二月
三月
四月
五月
六月
月份代码x
1
2
3
4
5
月借阅量y (百册)
4.9
5.1
5.5
5.7
5.8
根据上表,可得y关于x的经验回归方程为,则下列结论正确的是( )
A.
B.借阅量4.9, 5.1, 5.5, 5.7, 5.8的第25百分位数为5.7
C.y与x的线性相关系数
D.七月的借阅量一定不少于6.12百册
【答案】AC
【分析】对A,根据回归直线必过样本中心点分析运算;对B,根据百分位的定义分析运算;对C,根据相关系数的概念分析理解;对D,取,代入回归直线分析运算结合回归方程的意义判断.
【详解】对于A,因为,,
所以样本中心点为,则,解得,故A正确;
对于B,因为,所以借阅量的第25百分位数为,故B错误;
对于C,因为,,所以与的线性相关系数,故C正确;
对于D,由选项A可知线性回归方程为,当,则,
所以七月的借阅量约为百册,故D错误.
故选:AC.
29.(24-25高二下·山东泰安·期末)下列说法中正确的是( )
A.如果由一组样本数据,,…得到的经验回归方程是,那么经验回归直线至少经过点,,…中的一个
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和0.3
【答案】BCD
【分析】ABC选项,根据线性回归方程,回归分析中决定系数,残差图的相关概念对选项一一判断;D选项,变形后对照系数,得到,,所以c,k的值分别是和0.3,D正确.
【详解】A选项,可能不经过点,,…中的任何一个,A错误;
B选项,回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,B正确;
C选项,残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,
说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高,C正确;
D选项,中,两边取对数,设,得,所以,,
所以c,k的值分别是和0.3,D正确.
故选:BCD
30.(24-25高二下·福建三明·期末)下列命题中,正确的是( )
A.在经验回归方程中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位
B.两个变量线性相关性越强,则相关系数r就越接近于1
C.独立性检验中,根据分类变量X与Y的成对样本数据计算得到,推断零假设不成立,即认为X与Y有关联,此推断犯错误的概率不大于0.05
D.用决定系数比较两个回归模型的拟合效果时,越大,表示残差平方和越大,模型拟合效果越差
【答案】AC
【分析】根据回归方程的意义判断A的真假;根据线性相关系数的意义判断B的真假;根据独立性检验的意义判断C的真假;根据决定系数的意义判断D的真假.
【详解】根据回归方程的意义可知A正确;
两个变量线性相关性越强,则相关系数的绝对值就越接近于1,故B错误;
根据独立性检验的意义,可得C正确;
因为决定系数越大,模型拟合效果越好,故D错误.
故选:AC
31.(24-25高二下·山东菏泽·期末)下列命题正确的有( )
A.在两个随机变量的线性相关关系中,若相关系数越大,则样本的线性相关性越强
B.若用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好
C.若以模型去拟合某组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别为3,4
D.一组成对数据,增加一对数据,其中,,线性回归方程不变(其中)
【答案】BCD
【分析】根据回归方程、残差、相关系数、非线性回归等知识对选项进行分析,从而确定正确答案.
【详解】对于A,相关系数的绝对值越大,样本的线性相关性越强,故A错误;
对于B,残差平方和越小的模型,拟合的效果越好,B选项正确;
对于C, 由,得,故C确.
对于D,新增加的数据是原数据的样本中心点,
根据线性回归方程的性质,回归直线过,增加这样一个点,样本中心点不变,
计算回归系数和的公式中,分子分母的计算结果也不会改变,所以线性回归方程不变,故D正确.
故选:BCD.
32.(24-25高二下·陕西西安·期末)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( ).
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
【答案】ACD
【分析】根据回归直线斜率知A正确;利用回归直线必过样本中心点可构造方程求得,可知B错误,D正确;将代入回归直线知C正确.
【详解】对于A,由,得,故呈负相关关系,故A正确;
对于B,,,
,解得,故B错误;
对于C,当时,,故C正确;
对于D,由得,回归直线必过点,即必过点,故D正确.
故选:ACD.
33.(24-25高二下·山东威海·期末)某位同学10次考试的物理成绩与数学成绩如下表所示:
数学成绩x
76
82
72
87
93
78
89
66
81
76
物理成绩y
80
87
75
86
100
79
93
68
85
77
已知y与x线性相关,计算可得,,回归直线方程为,则( )
A.y与x正相关
B.
C.相关系数
D.若该同学第11次考试的数学成绩为80,物理成绩为83,则以这11次成绩重新计算,得到的回归直线方程不变
【答案】ACD
【分析】根据题意,结合回归直线方程一一判断即可.
【详解】对于选项A,在中,,则y与x正相关,故选项A正确;
对于选项B,由,,则样本中心点为,代入得,解得,故选项B错误;
对于选项C,根据选项A可得相关系数,故选项C正确;
对于选项D,新增数据点为,该点恰好是原样本中心,且新增点不影响协方差和方差的计算(新增点的和均为0),所以新的回归直线方程不变,故选项D正确.
故选:ACD.
34.(24-25高二下·贵州贵阳·期末)小张同学对具有线性相关的两个变量和进行了统计分析,得到了下表,其中一些数据丢失,只记得这组数据拟合出的关于的经验回归方程为,若,,成等差数列,则( )
4
6
8
10
12
2
6
A.变量与的样本相关系数 B.
C.当时,残差为 D.当时,的预测值为11.3
【答案】ABC
【分析】由经验回归方程为即可判断A选项;根据数据先计算,结合,,成等差数列,有,在根据经验回归方程一定经过样本中心即可计算出的值,即可判断B选项,将代入经验回归直线方程中计算出的值,从而计算出此时的残差即可判断C选项,将代入经验回归直线方程中计算出预测值即可判断D选项.
【详解】由于经验回归方程为是递增的一次函数,
所以两个变量是正相关,则样本相关系数,故正确;
由表格中的数据可计算平均数:
,
,
又因为,,成等差数列,
所以,则,
根据经验回归方程为必过点,
则,解得,故B正确;
当时,,
所以残差为,故C正确;
当时,,
所以的预测值为,故D错误,
故选:ABC.
35.(24-25高二下·山西运城·期末)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.其中旱涝频繁发生、世界性与区域性温度的异常给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型(其中e为自然对数的底数)拟合,设,通过实验得到部分数据及其变换后的一组数据如下表:
x
20
23
25
27
30
y
7.39
11.02
20.09
20.09
99.48
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则( )
A.
B.模型中
C.计算得,则在温度时,产卵量y的残差为44.89
D.当时,蝗虫的产卵量y大约为
【答案】ACD
【分析】首先求得,,再结合相关概念逐一判断各个选项即可求解.
【详解】对于A,由表格数据知:,,
因为数对满足,得,故A正确;
对于B,,即,∴,∴,故B错误;
对于C,在温度时,,残差为,故C正确;
对于D,当时,蝗虫的产卵量y大约为,故D正确.
故选:ACD.
36.(24-25高二下·山东滨州·期末)某同学经过随机抽样获得的成对样本数据为,,,,数据为其中一对样本数据,经统计分析,变量x和变量y具有线性相关关系,利用最小二乘法,计算得到经验回归方程为,则下列结论正确的为( )
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:.
A.若,则
B.根据所求经验回归方程,数据的残差值为0.1
C.若将样本数据,,,调整为,,,,则调整数据后所得经验回归方程为
D.若该同学将样本数据错误的记为,则样本相关系数r将变小
【答案】ACD
【分析】由回归直线方程求中心点判断A,计算预估值后得残差判断B,根据数据的变化确定新回归直线中的系数得方程判断C,利用数据点与回归直线的远近变化确定相关系数的变化判断D.
【详解】对A,,因此,A正确;
对B,由回归直线方程知时,,因此残差为,B错;
对C,将样本数据,,,调整为,,,,根据计算公式,回归直线方程中系数不改变,但增加了3,原来是,
所以新的系数为,回归方程为,C正确;
对D,原回归直线中样本点的预估点是,现变为,远离了回归直线,因此线性相关性减弱,相关系数的绝对值变小,原来是3,因此相关系数变小,D正确。
故选:ACD.
37.(24-25高二下·甘肃白银·期末)某种细胞在培养正常的情况下,时刻(单位:分)与细胞数(单位:个)的部分数据如下表所示:
1
2
3
4
5
52
95
185
227
若与线性相关,由上表数据求得经验回归方程为,则下列说法正确的是( )
A.与正相关 B.
C.细胞数逐分增加,平均每分钟增加10个左右 D.预计10分钟后细胞数约为450个
【答案】ABD
【分析】由回归方程中的系数大于0,可判断A;再根据线性回归方程过样本中心点,可求得的值,进而可判断BCD.
【详解】由回归方程中的系数大于0,可知与正相关,故A项正确;
由表中数据可知,又因为回归方程为,
把代入回归方程中,解得,所以,解得,故B项正确;
由经验回归方程知细胞数逐分增加,平均每分钟增加44个左右,故C项错误;
将代入回归方程中,得,故D项正确.
故选:ABD.
题型五 线性回归直线方程的计算(共10小题)
38.(24-25高二下·河北石家庄·期末)一组实验数据如下:
2
5
8
9
11
12
10
8
8
7
(1)根据表中数据,计算,.
(2)根据表中数据计算样本相关系数.(保留两位小数).
(3)由数据用最小二乘法可得线性回归方程为,统计学中常用决定系数刻画回归效果,例如假设,就说明响应变量的差异有由解释变量引起.请计算本题的(保留两位小数),并指出本题中响应变量的差异在多大程度上由解释变量引起.
(附:,,,)
【答案】(1),,
(2)
(3),响应变量的差异有由解释变量引起.
【分析】(1)根据平均数的计算即可求解,
(2)根据相关系数的计算公式即可求解,
(3)根据所给公式,代入即可求解.
【详解】(1),,
(2),
(3)由于,
响应变量的差异有由解释变量引起.
39.(24-25高二下·青海海南·期末)一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:
月份
1月
2月
3月
4月
月广告费用(万元)
3
4
5
6
月销量(万件)
5
6
8
9
已知与线性相关.
(1)求关于的经验回归方程;
(2)求与的相关系数(精确到0.01).
参考公式:回归直线方程为,其中,.
相关系数.
【答案】(1)
(2)
【分析】(1)根据线性相关系数公式求解相关系数,再利用最小二乘估计求解回归方程即可;
(2)结合(1)及相关系数的公式求解即可.
【详解】(1)依题意有,,
列表可得:
可得,
,
可得,,
故y关于x的经验回归方程为.
(2)由,
所以y与x的相关系数为.
40.(24-25高二下·山东东营·期末)某人工智能公司从某年起连续年的利润情况如下表所示.
第x年
1
2
3
4
5
6
7
利润y/亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)计算出与之间的相关系数(精确到),并求出关于的回归直线方程;
(2)根据回归直线方程,分别预测该人工智能公司第年和第年的利润.
参考公式:样本的回归直线为,其中,,,,,.
【答案】(1)相关系数约为,回归方程为.
(2)第、年的利润约为亿元、亿元.
【分析】(1)求出、的值,将参考数据代入相关系数公式,可求出相关系数的值,利用最小二乘法可求出、的值,即可得出关于的回归直线方程;
(2)将、分别代入回归直线方程,可得结果.
【详解】(1)由题中数据可得,
,
,
因此,
,,
故回归直线方程为.
(2)在回归直线方程中令,得.
令,得,
因此预测第、年的利润约为亿元、亿元.
41.(24-25高二下·辽宁沈阳·期末)云计算是一种通过互联网按需提供可扩展计算资源的服务模式,其应用不限于企业ⅠT优化,更是渗透到教育、医疗、制造等垂直领域,推动智能化与高效化发展.某媒体进行“你是否了解云计算?”的问卷调查,统计了200名调查者,结果如下
男
女
不了解
35
50
了解
65
50
(1)根据调查结果回答:有的把握认为性别与是否了解云计算有关吗?
(2)下表为2020—2025年中国云计算市场规模(单位:千亿元,2025年为预测规模),其中2020—2025年的年份代码x依次为1,2,3,4,5,6
年份代码x
1
2
3
4
5
6
市场规模y
1.67
2.11
2.59
3.10
3.64
4.26
根据上表数据求得y关于x的回归方程为,用相关系数r判断该回归方程是否有价值.
(若,则认为回归方程有价值,反之则无)附:,其中.
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
【答案】(1)有
(2),该回归方程有价值.
【分析】(1)由列联表中的数据,求得,结合附表,即可得到结论;
(2)根据题意,得到的取值,求得回归方程为,求得,得到,求得,即可得到结论.
【详解】(1)解:由列联表中的数据,可得,
因为,所以有的把握认为性别与是否了解云计算有关.
(2)解:由的取值依次为1,2,3,4,5,6,可得,
因为回归方程为,
所以,
所以,
所以,故该回归方程有价值.
42.(24-25高二下·河北承德·期末)2025年4月,中国新能源汽车零售渗透率突破,进入“以电为主”的新阶段,充电桩的使用率也成为关注焦点.经调查,某市今年月份的充电桩日均使用时长(时)与新能源汽车保有量(万辆)及充电桩日均使用率(,为常数)的数据如下表所示:
月份
1
2
3
4
5
6
新能源汽车保有量(万辆)
8
13
15
18
23
25
充电桩日均使用时长(时)
5
7
10
12
15
17
充电桩日均使用率
0.15
0.21
0.3
0.36
0.45
0.51
(1)若用充电桩日均使用率近似估计一个充电桩一天内被使用的概率,设该市某个充电桩在3月份的某3天中被使用的天数为,求的分布列;
(2)求关于的样本相关系数,并说明线性相关程度的强弱;(精确到0.01)
(3)若关于的经验回归方程为,求的值(精确到0.1),并预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为多少.
参考数据:,.
参考公式:相关系数.
【答案】(1)分布列见解析
(2)0.99,与的线性相关程度较强.
(3),0.72.
【分析】(1)由题可知充电桩在3月份使用的概率为0.3,故,根据二项分布写出分布列即可;
(2)根据题意先求,利用相关系数公式,代入数据求值与1比较即可;
(3)由过回归方程可求,根据回归方程进行预测即可.
【详解】(1)由题可知的所有可能取值为,且,
则,
,
,
,
所以的分布列为
0
1
2
3
0.343
0.441
0.189
0.027
(2)由题可知,,
则,
因为接近于1,所以与的线性相关程度较强.
(3)由题可知,
解得,
所以关于的经验回归方程为.
将代入经验回归方程,得,
又因为,所以当时,,
故预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为0.72.
43.(24-25高二下·山东滨州·期末)已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
【答案】(1)分布列见解析,期望为2.4;
(2),该经验回归直线方程有价值.
【分析】(1)由,,求出各概率后得分布列,由期望公式计算出期望;
(2)根据已知数据求出,再比较可得结论.
【详解】(1)由已知,所以,,
的取值分别为3,1,,,
,
所以的分布列为
3
1
0.729
0.243
(2)由已知,
,则,
所以,
,则认为该经验回归直线方程有价值.
44.(24-25高二下·河北唐山·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
【答案】(1)变量与的线性相关程度很强
(2),38.5百亿元
【分析】(1)求出,,从而代入公式计算出,得到结论;
(2)代入公式求出y关于x的经验回归方程为,代入,预测2027年该网站“双11”当天的交易额.
【详解】(1)由题意,根据表格中的数据,
可得,,
则,
,
,
故,
所以,
非常接近,说明变量与的线性相关程度很强.
(2)由(1)可得,
所以,
则.
可得关于的经验回归方程为,
令,可得,
所以预测2027年该网站“双11”当天的交易额为38.5百亿元.
45.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),回归方程为
(2)的分布列见解析;
【分析】(1)求出,将参考数据代入相关系数公式,求出的值,即可得出结论;再将数据代入最小二乘法公式,求出的值,即可得出回归直线方程;
(2)利用全概率公式求出每个人从2号门出校园的概率,由此可知,利用二项分布可得出随机变量的分布列,利用二项分布的期望、方差公式可得出的值.
【详解】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以y与x线性相关性很强,
可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从2号门出学校”为事件A,“甲从1号门进学校”为事件B,
“甲从2号门进学校”为事件C, “甲从3号门进学校”为事件D,
由题意可得,,,
,,,
由全概率公式得:
,同理乙、丙、丁从2号门出学校的概率也为,
为4人中从2号门出学校的人数,则,
,,
,,
,
故的分布列为:
0
1
2
3
4
所以.
46.(24-25高二下·广东中山·期末)为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
【答案】(1)可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小
(2)需对当天的生产过程进行检查
(3)均值;标准差.
【分析】(1)由样本数据得相关系数,验证是否成立,然后得结论;
(2)由求得,即可得到得结论;
(3)剔除离群值,求剩下数据的平均值,即求得这条生产线当天生产的零件尺寸的均值的估计值.由得,即可求出剔除第13个数据,剩下数据的样本方差,即求得这条生产线当天生产的零件尺寸的标准差的估计值.
【详解】(1)由样本数据得相关系数:
.
,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)∵,,∴,,
抽取的第13个零件的尺寸在以外,
需对当天的生产过程进行检查.
(3)剔除离群值,即第13个数据,
剩下数据的平均数为,
即这条生产线当天生产的零件尺寸的均值的估计值为;
由得:,
剔除第13个数据,剩下数据的样本方差为,
样本标准差为,
即这条生产线当天生产的零件尺寸的标准差的估计值为.
47.(24-25高二下·辽宁鞍山·期末)自2021年起,我国居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表所示:
年份
2021
2022
2023
2024
2025
时间代号
1
2
3
4
5
储蓄存款(千亿元)
4.76
4.61
5.32
5.41
5.38
(表中部分数据已精确至0.0001,表中数据可直接代入公式进行运算) 可能用到的估计值:,,
9
25.9692
130.4246
78.48
1554.2872
(1)求关于的回归方程;
(2)用(1)所求回归方程预测该地2027年()的人民币储蓄存款额;
(3)求样本的相关系数.(精确至0.01)
附:,,
【答案】(1)
(2)5.912
(3)0.85
【分析】利用最小二乘法求出回归方程的系数,再代入方程预测未来值,最后通过协方差和标准方差计算相关系数.
【详解】(1),,
,,,
,
.
所以.
(2)当时,.
(3)
题型六 卡方与线性回归直线方程结合(共6小题)
48.(24-25高二下·江苏宿迁·期末)某景区为测试并推广一款预约游览APP,上线的第1、2两天在APP上预约可获得免费游览资格,第3天开始恢复为原票价,下表是该景区在该APP上前7天的预约情况
第t天
1
2
3
4
5
6
7
预约量y(万张)
9.03
9
8.58
8.7
8.76
8.74
8.79
经计算得:,,.
(1)由于前两天预约游览免费,所以剔除第1、2两天数据,求y关于t的线性回归方程及第5天的残差:
(2)为了调查该APP在不同年龄的人群中的推广情况,从第7天成人游客中随机抽取200人进行分析,所得的部分数据见下表:
50岁以下
50岁(含50)以上
合计
通过APP预约人数
70
其它方式购票人数
80
合计
100
①完成以上2×2列联表:
②如果有95%的把握认定游客通过APP预约游览与其年龄有关,就要进行针对性宣传,请你判断是否需要针对年龄超过50岁(含50)以上的人群进行宣传.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:,,
【答案】(1),残差为0.046
(2)①列联表见解析;②需要针对年龄超过50岁(含50)以上的人群进行宣传,理由见解析
【分析】(1)计算出剔除第1、2两天数据后的相关量,代入公式计算出线性回归方程,并计算出第5天的残差;
(2)完善列联表,代入公式,计算出卡方,与3.841比较后得到结论.
【详解】(1)剔除掉第1、2两天数据后,,
,,
,
故,
,
故y关于t的线性回归方程为,
第5天的残差为;
(2)①列联表如下:
50岁以下
50岁(含50)以上
合计
通过APP预约人数
70
50
120
其它方式购票人数
30
50
80
合计
100
100
200
②需要针对年龄超过50岁(含50)以上的人群进行宣传,理由如下:
零假设认定游客通过APP预约游览与其年龄无关,
则,
根据小概率事件原理,可知零假设不成立,故认定游客通过APP预约游览与其年龄有关,
需要针对年龄超过50岁(含50)以上的人群进行宣传.
49.(24-25高二下·广西玉林·期末)为了了解高中学生课后自主学习数学时间(分钟/每天)和他们的数学成绩(分)的关系,某实验小组做了调查,得到一些数据.
编号
1
2
3
4
5
学习时间
30
40
50
60
70
数学成绩
55
68
75
94
108
(1)请根据表中的数据,求出关于的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩.
(2)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表.依据表中数据及小概率值的独立性检验,分析周末在校自主学习与成绩进步是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
经验回归方程中斜率和截距的最小二乘估计公式分别为,
, .
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1),146
(2)有关
【分析】(1)由最小二乘法结合题设即可求回归方程,再将代入回归方程即可得预测值;
(2)先进行零假设,接着计算的值,再结合独立性检验思想即可得解.
【详解】(1)由题得,,
所以,
,
,,
故,所以当时,,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为146;
(2)零假设:周末在校自主学习与成绩进步无关,
根据数据,计算得到:
因为,,所以依据的独立性检验,不成立,
即可以认为“周末自主学习与成绩进步”有关,且该推断犯错误的概率不超过0.001.
50.(24-25高二下·广东肇庆·期末)某地区农户在推动农业机械化升级后,记录了某作物在接下来()年的增长数据(万吨),如下表所示:
1
2
3
4
5
26
37
50
64
93
(1)经探究与之间具有相关关系,求关于的经验回归方程;
(2)为了检验,两款机械设备的投放对某农作物的增收情况,在,两地区分别选取了两块相同面积的试验田来记录某年的增收情况,得到的数据如下表:
地区
用M设备
用设备
A
30
20
B
15
35
根据小概率值的独立性检验,能否认为增收情况与使用,两种不同设备有关?
参考公式:①,;
②(其中为样本容量).
参考数据:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)认为增收情况与使用,两种不同设备有关
【分析】(1)由题意分别求出,,,,从而可求解;
(2)设出零假设,再利用独立性检验即可求解.
【详解】(1)由题意得,,,
,,
.
,
故经验回归方程为.
(2)零假设为:增收情况与设备相互独立,即增收情况与使用不同设备无关联.
则.
根据小概率值的独立性检验,不成立,
所以认为增收情况与使用,两种不同设备有关.
51.(24-25高二下·湖北咸宁·期末)2025年春节档一部国产动画电影《哪吒之魔童闹海》横空出世,迅速斩获各项票房冠军,截至3月20日,该电影已进入全球票房榜前五.经权威电影机构调查,得到其前5周的票房数据如下表:
周次
第1周
第2周
第3周
第4周
第5周
周次代码
1
2
3
4
5
票房总额/亿元
40
35
25
37
7
(1)求关于的线性回归方程;
(2)该机构随机调查了某电影院2月15日200位观影人的购票情况,其中购买《哪吒之魔童闹海》的男性有90人,女性有70人,购买其他电影的男性有30人,女性有10人,完成列联表,并判断是否有99%的把握认为是否购买《哪吒之魔童闹海》与性别有关.
购买《哪吒》
购买其他电影
合计
男性
女性
合计
附:①,,在利用最小二乘法求得的线性回归方程中,,;
②,其中.
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)
(2)表格见解析,没有99%的把握认为购买《哪吒之魔童闹海》与性别有关
【分析】(1)由前5周的票房数据,分别求得,,利用回归系数的公式和样本点的坐标,求得,以及,即可得到所求的线性回归方程;
(2)根据题意,得出的列联表,利用公式求得,结合附表,即可得到结论.
【详解】(1)由前5周的票房数据,可得,
,
所以,则,
故所求的经验回归方程为.
(2)由题意,可得列联表如下.
购买《哪吒》
购买其他电影
男性
90
30
120
女性
70
10
80
合计
160
40
200
可得,
故没有99%的把握认为购买《哪吒之魔童闹海》与性别有关.
52.(24-25高二下·江西萍乡·期末)某市统计了一景点在2024年6月至10月的旅游收入(单位:万元),得到如下表格:
月份
6
7
8
9
10
旅游收入
20
22
21
22
30
(1)求与的相关系数(精确到0.001),并用相关系数说明该组数据中与之间是否可用线性回归模型进行拟合;(注:若,则认为与之间具有很强的线性相关关系)
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如图所示的列联表,请填写列联表,并判断能否有95%的把握认为“游客是否喜欢该景点与性别有关”.
喜欢
不喜欢
合计
男
100
女
40
合计
135
附:相关系数,参考数据:,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1),说明见解析
(2)列联表见解析,有95%的把握
【分析】(1)根据题意分别求出,,再结合相关系数公式即可求解;
(2)根据题意先补全二联表,然后利用独立性检验公式计算即可求解
【详解】(1)(1),,
,
,
所以,
因为,所以与之间具有很强的线性相关关系,可用线性回归模型进行拟合.
(2)列联表如下:
喜欢
不喜欢
合计
男
75
25
100
女
60
40
100
合计
135
65
200
假设:游客是否喜欢该景点与性别无关,
代入计算得:,
所以假设不成立,即有95%的把握认为“游客是否喜欢该景点与性别有关”.
53.(24-25高二下·四川广元·期末)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据如下表:
编号
1
2
3
4
5
x
10
20
30
40
50
y
70
80
100
120
130
(1)若该组数据中y与x之间的关系可用线性回归模型进行拟合,求y关于x的回归直线方程.(参考数据:)
(2)基于上述调查,某校提倡学生课后自主学习.经过一学期的实施后,抽样调查了160位学生.按照参与课后自主学习与成绩进步情况得到如下2×2列联表:
成绩没有进步
成绩有进步
合计
参与课后自主学习
5
135
140
未参与课后自主学习
5
15
20
合计
10
150
160
依据的独立性检验,分析“课后自主学习与成绩进步”是否有关.
附:回归方程中斜率和截距的最小二乘估计公式分别为:,
,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)在犯错概率不超过的前提下,认为“课后自主学习与成绩进步”有关.
【分析】(1)先计算,进而得即可求解;
(2)计算卡方,利用独立性检验思想即可求解.
【详解】(1)由题意有,
,
,
所以,,
所以;
(2)由题意有,
所以在犯错概率不超过的前提下,认为“课后自主学习与成绩进步”有关.
题型七 非线性回归(共7小题)
54.(24-25高二下·广东中山·月考)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;;
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(系数精确到0.01),并求温度为34℃时,产卵数y的预报值.
(参考数据:,,,)
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
25
2.89
646
168
422688
48.48
70308
【答案】(1)应该选择模型①,理由见解析
(2);250个
【分析】(1)由模型①的残差点比较均匀落在水平的带状区域以及带状区域的宽度窄,所以选择模型①比较合适;
(2)令,z与温度x可以用线性回归方程来拟合,则,利用公式和数据求出和,则可以得到y关于温度x的回归方程,当时,可求出产卵数y的预报值.
【详解】(1)应该选择模型①.
由于模型①残差点比较均匀地落在水平的带状区域中,
且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,
回归方程的预报精度相应就会越高,故选模型①比较合适
(2)令,z与温度x可以用线性回归方程来拟合,则.
,
所以,
则z关于x的线性回归方程为.
于是有,
所以产卵数y关于温度x的回归方程为
当时,(个).
所以,在气温在34℃时,一个红铃虫的产卵数的预报值为250个
55.(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【答案】(1)适宜作为投放量与年使用人次的回归方程类型,
(2)列联表见解析,认为是否报废与保养有关
【分析】(1)由散点图可知,应选指数函数模型,根据已知条件两边同时取对数,转化为关于与的一次函数模型,结合参考数据即可求解;
(2)根据题意完成列联表,利用独立性检验公式,计算的值可判断.
【详解】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.
设,则.
因为,,,,
所以.
把代入,得,
所以,所以,
则,
故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\
保养
未保养
合计
报废
6
14
20
未报废
54
26
80
合计
60
40
100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
56.(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1)
(2)
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)设相应事件,可得相应概率,结合全概率公式计算概率运算求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,
所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,
则,
由全概率公式,
所以取出“死卵”个数为1的概率为.
57.(24-25高二下·山东潍坊·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量y(库仑)与使用时间t(小时)的散点图,其中t为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ⅱ)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考数据:记
45
12.02
1.55
20.20
285
45.07
3.42
参考公式:.
【答案】(1)更适宜作为回归模型,理由见解析
(2)(i);(ⅱ)会报警提示,理由见解析
【分析】(1)从散点图可以看出,剩余电量y(库仑)与使用时间t(小时)不呈线性变化,故更适宜作为回归模型;
(2)(i)两边取对数得,结合数据和公式求出剩余电量y与使用时间t的回归方程;
(ⅱ)在(i)基础上,令得,故会报警提示.
【详解】(1)更适宜作为回归模型,理由如下:
从散点图可以看出,剩余电量y(库仑)与使用时间t(小时)不呈线性变化,
减小速度越来越慢,
呈线性变化,不适宜作为回归模型,故更适宜作为回归模型;
(2)(i)两边取对数得,
由于,
故,
,
即,故,
(ⅱ)会报警提示,理由如下:
中,令得
,
故会报警提示.
58.(24-25高二下·湖南·月考)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
【答案】(1)
(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆)
(3)
【分析】(1)由递推公式得到,进而判断为等差数列,即可求解;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)由得:
,
即,
所以,
即,
所以为等差数列,又,
所以公差为1,
所以,
(2)令,则,
由公式,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为.
59.(24-25高二下·黑龙江哈尔滨·期中)即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使机构的服务需求持续增长.数据显示,近年来中国市场规模迅速扩大.下表为2018年年中国市场规模(单位:百亿元),其中2018年年对应的代码依次为.
年份代码x
1
2
3
4
5
中国市场规模y
1.12
1.68
2.45
3.35
4.32
(1)由上表数据可知,可用指数函数模型拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国市场规模(单位:百亿元):
(2)从2018年年中国市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58
0.84
46.83
15.99
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:
【答案】(1)①;②12.61
(2)分布列见解析,
【分析】(1)两边同时取自然对数得,设,则,从而将非线性方程转化为线性方程,利用题中数据可求得,,可得y关于x的回归方程,进而可预测2025年中国市场规模;
(2)X的可能取值为1,2,3,计算出对应的概率,可得分布列,再利用期望公式计算期望即可.
【详解】(1)两边同时取自然对数得.
设,则,
因为,
所以.
把代入,得,
所以,则,
所以,即y关于x的回归方程为.
2025年的年份代码是8,
故预测2025年中国市场规模为(单位:百亿元)
(2)2018年年中国市场规模的5个数据中,与的差的绝对值小于1的数据有,共3个,
所以的可能取值为,
,
所以的分布列为
1
2
3
.
60.(24-25高二下·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断;
(2)利用非线性转化为线性,再求线性回归方程系数即可得解;
(3)利用基本不等式求最大值即可.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
$专题14 成对数据的统计分析
(独立性检验与线性回归直线方程)
题型1 独立性检验的概念及辨析(重点)
题型5 线性回归直线方程的计算(常考点)
题型2 卡方的计算与解决实际问题(重点)
题型6 卡方与线性回归直线方程结合(重点)
题型3 散点图
题型7 非线性回归(难点)
题型4 线性回归直线方程的相关应用(常考点)
3 / 23
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
题型一 独立性检验的概念及辨析(共10小题)
1.(24-25高二下·河南信阳·期末)调查某医院一段时间内婴儿出生的时间(白天与晚上)和性别(男与女)的关联性,对样本数据分析统计,计算得到,依据小概率值的独立性检验,下列说法正确的是( )(附:)
A.婴儿90%在白天出生
B.婴儿性别与出生时间无关联
C.有0.1的把握认为婴儿性别与出生时间有关联
D.婴儿性别与出生时间有关联,此推断犯错误的概率不大于0.1
2.(24-25高二下·广东广州·期末)根据分类变量X与Y的成对样本数据,计算得到.已知,依据的独立性检验,结论为( )
A.变量X与Y独立
B.变量X与Y独立,这个结论犯错误的概率不超过0.005
C.变量X与Y不独立
D.变量X与Y不独立,这个结论犯错误的概率不超过0.005
3.(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
4.(24-25高二下·甘肃白银·期末)假设有两个分类变量X,Y,它们的可能取值分别为和,其列联表为
合计
合计
以下各组数据中,对于同一样本能说明与有关系的可能性最大的一组为( )
A. B.
C. D.
5.(24-25高二下·福建厦门·期末)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数的.若依据小概率值的独立性检验认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
其中,,.
A.20 B.30 C.35 D.40
6.(24-25高二下·辽宁·期末)为了解是否喜欢羽毛球运动与性别的关系,某数学兴趣小组经统计得到如下数据,若要使是否喜欢羽毛球运动与性别无关的可能性最大,则( )
性别
羽毛球
喜欢
不喜欢
女生
男生
50
100
附:,其中.
A.4 B.2 C.1 D.
7.(24-25高二下·河北衡水·期末)某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
8.(23-24高二下·湖南长沙·期中)随着国家对中小学“双减”政策的逐步落实,其中增加中学生体育锻炼时间的政策引发社会的广泛关注.某教育时报为研究“支持增加中学生体育锻炼时间的政策是否与性别有关”,从某校男女生中各随机抽取80名学生进行问卷调查,得到如下数据(,)
支持
不支持
男生
女生
若通过计算得,根据小概率值的独立性检验,认为支持增加中学生体育锻炼时间的政策与性别有关,则在这被调查的80名女生中支持增加中学生体育锻炼时间的人数的最小值为__________.
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
多选题
9.(24-25高二上·江苏常州·期末)为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制了下侧所示的列联表(个别数据暂用字母表示):
数学成绩
性别
合计
男
女
优秀
27
70
非优秀
58
110
合计
180
经计算得:,参照下表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
则下列选项正确的为( )
A.
B.
C.可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”
D.没有充分的证据显示“数学达到优秀等级与性别有关”
10.(24-25高二下·湖北襄阳·期末)炎炎夏日,许多城市发出高温预警,凉爽的某市成为众多游客旅游的热门选择.为了解来某市旅游的游客旅行方式与年龄是否有关,随机调查了100名游客,得到如下表格.零假设H0旅行方式与年龄没有关联,则下列说法中,正确的有( )
小于40岁
不小于40岁
自由行
38
19
跟团游
20
23
附:χ2=,其中.
α
0.1
0.05
0.01
xα
2.706
3.841
6.635
A.在选择自由行的游客中随机抽取一名,其小于40岁的概率为
B.在选择自由行的游客中按年龄分层随机抽样抽取6人,再从中随机选取2人做进一步的访谈,则2人中至少有1人不小于40岁的概率为
C.根据的独立性检验,推断旅行方式与年龄没有关联,且犯错误概率不超过0.01
D.根据的独立性检验,推断旅行方式与年龄有关联,且犯错误概率不超过0.05
题型二 卡方的计算与解决实际问题(共10小题)
11.(24-25高二下·吉林长春·期末)某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师(50岁以上)20人,青年教师(49岁以下)30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个列联表;
(2)试根据小概率值的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系;
(3)以样本频率作为概率,在该校任取3位青年教师,求这3位教师中恰好有两位赞同新课程教学模式的概率.
附:,,其中 ,.
12.(24-25高二下·河北·期末)某高中新开设了游泳课,为了调查学生对课程的满意度,随机抽查了150名学生,其中不喜欢与喜欢人数比为,且男生占总人数的,女生中有的人不喜欢.
性别
满意度
合计
不喜欢
喜欢
男
女
合计
(1)补全列联表;
(2)根据小概率值的独立性检验,能否认为学生对游泳课的满意度与性别有关?
附:,.
α
0.1
0.01
0.001
2.706
6.635
10.828
13.(24-25高二下·福建泉州·期末)近年来,由于大学生不理智消费导致财务方面的新闻层出不穷,无力偿还校园贷,跳楼自杀也偶有发生,一时间人们对大学生的消费观充满了质疑.为进一步了解大学生的消费情况,对S城某大学的10000名(其中男生6000名,女生4000名)在校本科生.按性别采用分层抽样的方式抽取了1000名学生进行了问卷调查,其中有一项是针对大学生每月的消费金额进行调查统计.通过整理得到如图所示的频率分布直方图.已知在抽取的学生中,月消费金额超过2000元的女生有150人.
参考数据与参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
,其中.
(1)求的值.
(2)估计月消费金额的中位数
(3)依据小概率值的独立性检验,分析月消费金额在2000元以上的大学生与性别是否有关?
14.(24-25高二下·黑龙江绥化·期末)为了解不同年龄的人员对“2025年哈尔滨冬奥会”满意度,某组织进行了一次抽样调查,分别抽取年龄超过35周岁和年龄不超过35周岁各200人作为样本,每位参与调查的都对“2025年哈尔滨冬奥会”给出满意或不满意的评价.设事件“对‘2025年哈尔滨冬奥会’满意”,事件“人员年龄不超过35周岁”,据统计,,.
(1)根据已知条件,填写下列2×2列联表并说明理由:(2×2列联表见答题卡)
(2)由(1)中2×2列联表数据,依据小概率值的独立性检验,能否认为人员对“2025年哈尔滨冬奥会”的满意度与年龄有关联?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
15.(24-25高二下·辽宁·期末)最近育才园举行了乒乓球、羽毛球、足球等联赛、激发起了同学们的运动热情.调查小组为了解本校学生身体素质情况,决定在全校500名男生和400名女生中,按分层抽样的方法随机抽取45名学生,对他们课余参加体育锻炼时长进行问卷调查,将学生参加体育锻炼时长的情况分三类:A类(课余时间参加体育锻炼且平均每周锻炼时长超过3小时),B类(课余时间参加体育锻炼但平均每周锻炼时长不超3小时),C类(课余时间不参加体育锻炼),调查结果如下表:
类别
A类
B类
C类
男生
18
x
3
女生
8
10
(1)求出表中x,y的值;
(2)根据表格统计的数据,完成下表,并判断能否在犯错误的概率不超过的前提下,认为课余时间参加体育锻炼且平均每周锻炼时长超过3小时与性别有关.
性别
男生
女生
A类
B类和C类
附:,其中.
16.(24-25高二下·山东威海·期末)在科技飞速发展的今天,人工智能(AI)领域迎来革命性的突破,各种AI工具拥有强大的解决问题的能力.某企业为了解男女员工对AI工具的使用情况,随机调查了200名员工,得到如下数据:
经常使用
不经常使用
合计
男性
80
20
100
女性
60
40
100
合计
140
60
200
(1)根据小概率值的独立性检验,分析该企业员工对AI工具的使用情况是否与性别有关;
(2)为鼓励员工使用AI工具,企业采用按性别分层抽样的方式,在被调查的经常使用AI工具的员工中,抽取了7名员工组成AI工具宣传小组.现从这7名员工中随机选出3名担任宣传组长,记选出的3名宣传组长中女员工的人数为随机变量X,求X的数学期望.
参考公式:,.
参考数据:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
17.(24-25高二下·河北沧州·期末)在某次考试中,某学校要对某年级的学习总评成绩(满分100分)和体育成绩(满分100分)进行统计分析,为研究方便,现抽取出了其中各100名学生的成绩(分为优秀和一般)进行统计.
优秀
一般
合计
学习总评成绩
体育成绩
合计
(1)若统计的数据中学习总评成绩在前十名的成绩分别为99,98,98,97,96,96,96,94,94,93,求这十个成绩的平均数和第70百分位数;
(2)统计可得,学习总评成绩优秀60人,体育成绩一般30人,填写如下列联表,依据的独立性检验,能否认为学习总评成绩优秀与体育成绩优秀有关?
参考公式:,.
0.05
0.01
0.001
3.841
6.635
10.828
18.(24-25高二下·山西吕梁·期末)某科技公司对三文鱼的传统淡水网箱养殖法和AI赋能的新型深远海智能网箱养殖法进行产量对比研究.科研人员在收获季节分别从传统养殖网箱和深远海智能养殖网箱中,各随机抽取了100个网箱,测量每箱三文鱼的产量(单位:kg),其频率分布直方图如图所示.
(1)根据频率分布直方图,补全下面列联表.
养殖法
箱产量
合计
箱产量
箱产量
传统养殖
智能养殖
30
合计
200
(2)根据小概率的独立性检验,分析箱产量与养殖方法是否有关.
(,,)
19.(24-25高二下·四川绵阳·期末)某学校开设了具有地方特色的包饺子、园艺、剪纸、种植、非物质文化遗产等劳动实践课程.该校为进一步优化劳动教育课程,随机抽取了100名学生进行了一次问卷调查,了解不同性别的学生对已开设劳动课程的满意情况,得到如下列联表:
满意
不满意
合计
男生
35
15
50
女生
40
10
50
合计
75
25
100
(1)根据小概率值的独立性检验,能否认为该校学生对已开设劳动课程的满意情况与学生性别有关联?参考公式及数据:,其中.
(2)从不满意的学生中抽取2名学生进行访谈,求至少抽到一名男生的概率.
20.(24-25高二下·湖北武汉·期末)某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:
班级
成绩
合计
优秀
非优秀
一班
35
15
二班
15
25
合计
(1)请完成列联表;
(2)根据列联表中的数据,并根据小概率值的独立性检验,能否认为推广新课改与总成绩是否优秀有关系?
参考数据:
0.10
0.05
0.01
00.005
2.706
3.841
6.635
7.879
.
题型三 散点图(共6小题)
21.(23-24高二下·福建福州·期末)在以下4幅散点图中,和成正线性相关关系的是( )
A. B.
C. D.
22.(24-25高二下·河北·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
23.(24-25高二下·河南洛阳·期末)变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.很可能存在负相关 B.一定存在负相关
C.很可能存在正相关 D.一定不存在正相关
24.(24-25高二下·安徽芜湖·期末)下图是根据x,y的观测数据得到的散点图,则变量x,y能用一元线性回归模型来刻画的是( )
A. B.
C. D.
25.(24-25高二下·广东深圳·期末)(多选)如图是由个样本数据得到的散点图,根据这个样本数据建立y关于x的经验回归方程.下列说法正确的是( )
A.样本数据、、、、的平均数为
B.去掉后,残差平方和变小
C.经验回归直线经过点
D.相关系数用来衡量两个变量之间线性关系的强弱,越接近于,相关性越弱
26.(24-25高三上·山东威海·期末)下列散点图中,线性相关系数最小的是( )
A. B.
C. D.
题型四 线性回归直线方程的相关应用(共11小题)
多选题
27.(24-25高二下·四川达州·期末)下列说法正确的是( )
A.若,两组成对样本数据的样本相关系数分别为,,则组数据比组数据的线性相关性更强
B.决定系数越接近0拟合效果越好
C.若关于的经验回归方程为,则样本数据相应的残差为
D.若关于的经验回归方程为的样本中心是,则
28.(24-25高二下·新疆乌鲁木齐·期末)每年4月23 日为“世界读书日”,某学校于四月份开展“书香润泽校园,阅读提升思想”主题活动,为检验活动效果,学校收集当年二至六月的借阅数据如下表:
二月
三月
四月
五月
六月
月份代码x
1
2
3
4
5
月借阅量y (百册)
4.9
5.1
5.5
5.7
5.8
根据上表,可得y关于x的经验回归方程为,则下列结论正确的是( )
A.
B.借阅量4.9, 5.1, 5.5, 5.7, 5.8的第25百分位数为5.7
C.y与x的线性相关系数
D.七月的借阅量一定不少于6.12百册
29.(24-25高二下·山东泰安·期末)下列说法中正确的是( )
A.如果由一组样本数据,,…得到的经验回归方程是,那么经验回归直线至少经过点,,…中的一个
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和0.3
30.(24-25高二下·福建三明·期末)下列命题中,正确的是( )
A.在经验回归方程中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位
B.两个变量线性相关性越强,则相关系数r就越接近于1
C.独立性检验中,根据分类变量X与Y的成对样本数据计算得到,推断零假设不成立,即认为X与Y有关联,此推断犯错误的概率不大于0.05
D.用决定系数比较两个回归模型的拟合效果时,越大,表示残差平方和越大,模型拟合效果越差
31.(24-25高二下·山东菏泽·期末)下列命题正确的有( )
A.在两个随机变量的线性相关关系中,若相关系数越大,则样本的线性相关性越强
B.若用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好
C.若以模型去拟合某组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别为3,4
D.一组成对数据,增加一对数据,其中,,线性回归方程不变(其中)
32.(24-25高二下·陕西西安·期末)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( ).
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
33.(24-25高二下·山东威海·期末)某位同学10次考试的物理成绩与数学成绩如下表所示:
数学成绩x
76
82
72
87
93
78
89
66
81
76
物理成绩y
80
87
75
86
100
79
93
68
85
77
已知y与x线性相关,计算可得,,回归直线方程为,则( )
A.y与x正相关
B.
C.相关系数
D.若该同学第11次考试的数学成绩为80,物理成绩为83,则以这11次成绩重新计算,得到的回归直线方程不变
34.(24-25高二下·贵州贵阳·期末)小张同学对具有线性相关的两个变量和进行了统计分析,得到了下表,其中一些数据丢失,只记得这组数据拟合出的关于的经验回归方程为,若,,成等差数列,则( )
4
6
8
10
12
2
6
A.变量与的样本相关系数 B.
C.当时,残差为 D.当时,的预测值为11.3
35.(24-25高二下·山西运城·期末)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.其中旱涝频繁发生、世界性与区域性温度的异常给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型(其中e为自然对数的底数)拟合,设,通过实验得到部分数据及其变换后的一组数据如下表:
x
20
23
25
27
30
y
7.39
11.02
20.09
20.09
99.48
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则( )
A.
B.模型中
C.计算得,则在温度时,产卵量y的残差为44.89
D.当时,蝗虫的产卵量y大约为
36.(24-25高二下·山东滨州·期末)某同学经过随机抽样获得的成对样本数据为,,,,数据为其中一对样本数据,经统计分析,变量x和变量y具有线性相关关系,利用最小二乘法,计算得到经验回归方程为,则下列结论正确的为( )
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:.
A.若,则
B.根据所求经验回归方程,数据的残差值为0.1
C.若将样本数据,,,调整为,,,,则调整数据后所得经验回归方程为
D.若该同学将样本数据错误的记为,则样本相关系数r将变小
37.(24-25高二下·甘肃白银·期末)某种细胞在培养正常的情况下,时刻(单位:分)与细胞数(单位:个)的部分数据如下表所示:
1
2
3
4
5
52
95
185
227
若与线性相关,由上表数据求得经验回归方程为,则下列说法正确的是( )
A.与正相关 B.
C.细胞数逐分增加,平均每分钟增加10个左右 D.预计10分钟后细胞数约为450个
题型五 线性回归直线方程的计算(共10小题)
38.(24-25高二下·河北石家庄·期末)一组实验数据如下:
2
5
8
9
11
12
10
8
8
7
(1)根据表中数据,计算,.
(2)根据表中数据计算样本相关系数.(保留两位小数).
(3)由数据用最小二乘法可得线性回归方程为,统计学中常用决定系数刻画回归效果,例如假设,就说明响应变量的差异有由解释变量引起.请计算本题的(保留两位小数),并指出本题中响应变量的差异在多大程度上由解释变量引起.
(附:,,,)
39.(24-25高二下·青海海南·期末)一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:
月份
1月
2月
3月
4月
月广告费用(万元)
3
4
5
6
月销量(万件)
5
6
8
9
已知与线性相关.
(1)求关于的经验回归方程;
(2)求与的相关系数(精确到0.01).
参考公式:回归直线方程为,其中,.
相关系数.
40.(24-25高二下·山东东营·期末)某人工智能公司从某年起连续年的利润情况如下表所示.
第x年
1
2
3
4
5
6
7
利润y/亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)计算出与之间的相关系数(精确到),并求出关于的回归直线方程;
(2)根据回归直线方程,分别预测该人工智能公司第年和第年的利润.
参考公式:样本的回归直线为,其中,,,,,.
41.(24-25高二下·辽宁沈阳·期末)云计算是一种通过互联网按需提供可扩展计算资源的服务模式,其应用不限于企业ⅠT优化,更是渗透到教育、医疗、制造等垂直领域,推动智能化与高效化发展.某媒体进行“你是否了解云计算?”的问卷调查,统计了200名调查者,结果如下
男
女
不了解
35
50
了解
65
50
(1)根据调查结果回答:有的把握认为性别与是否了解云计算有关吗?
(2)下表为2020—2025年中国云计算市场规模(单位:千亿元,2025年为预测规模),其中2020—2025年的年份代码x依次为1,2,3,4,5,6
年份代码x
1
2
3
4
5
6
市场规模y
1.67
2.11
2.59
3.10
3.64
4.26
根据上表数据求得y关于x的回归方程为,用相关系数r判断该回归方程是否有价值.
(若,则认为回归方程有价值,反之则无)附:,其中.
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
42.(24-25高二下·河北承德·期末)2025年4月,中国新能源汽车零售渗透率突破,进入“以电为主”的新阶段,充电桩的使用率也成为关注焦点.经调查,某市今年月份的充电桩日均使用时长(时)与新能源汽车保有量(万辆)及充电桩日均使用率(,为常数)的数据如下表所示:
月份
1
2
3
4
5
6
新能源汽车保有量(万辆)
8
13
15
18
23
25
充电桩日均使用时长(时)
5
7
10
12
15
17
充电桩日均使用率
0.15
0.21
0.3
0.36
0.45
0.51
(1)若用充电桩日均使用率近似估计一个充电桩一天内被使用的概率,设该市某个充电桩在3月份的某3天中被使用的天数为,求的分布列;
(2)求关于的样本相关系数,并说明线性相关程度的强弱;(精确到0.01)
(3)若关于的经验回归方程为,求的值(精确到0.1),并预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为多少.
参考数据:,.
参考公式:相关系数.
43.(24-25高二下·山东滨州·期末)已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
44.(24-25高二下·河北唐山·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
45.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
46.(24-25高二下·广东中山·期末)为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
47.(24-25高二下·辽宁鞍山·期末)自2021年起,我国居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表所示:
年份
2021
2022
2023
2024
2025
时间代号
1
2
3
4
5
储蓄存款(千亿元)
4.76
4.61
5.32
5.41
5.38
(表中部分数据已精确至0.0001,表中数据可直接代入公式进行运算) 可能用到的估计值:,,
9
25.9692
130.4246
78.48
1554.2872
(1)求关于的回归方程;
(2)用(1)所求回归方程预测该地2027年()的人民币储蓄存款额;
(3)求样本的相关系数.(精确至0.01)
附:,,
题型六 卡方与线性回归直线方程结合(共6小题)
48.(24-25高二下·江苏宿迁·期末)某景区为测试并推广一款预约游览APP,上线的第1、2两天在APP上预约可获得免费游览资格,第3天开始恢复为原票价,下表是该景区在该APP上前7天的预约情况
第t天
1
2
3
4
5
6
7
预约量y(万张)
9.03
9
8.58
8.7
8.76
8.74
8.79
经计算得:,,.
(1)由于前两天预约游览免费,所以剔除第1、2两天数据,求y关于t的线性回归方程及第5天的残差:
(2)为了调查该APP在不同年龄的人群中的推广情况,从第7天成人游客中随机抽取200人进行分析,所得的部分数据见下表:
50岁以下
50岁(含50)以上
合计
通过APP预约人数
70
其它方式购票人数
80
合计
100
①完成以上2×2列联表:
②如果有95%的把握认定游客通过APP预约游览与其年龄有关,就要进行针对性宣传,请你判断是否需要针对年龄超过50岁(含50)以上的人群进行宣传.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:,,
49.(24-25高二下·广西玉林·期末)为了了解高中学生课后自主学习数学时间(分钟/每天)和他们的数学成绩(分)的关系,某实验小组做了调查,得到一些数据.
编号
1
2
3
4
5
学习时间
30
40
50
60
70
数学成绩
55
68
75
94
108
(1)请根据表中的数据,求出关于的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩.
(2)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表.依据表中数据及小概率值的独立性检验,分析周末在校自主学习与成绩进步是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
经验回归方程中斜率和截距的最小二乘估计公式分别为,
, .
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
50.(24-25高二下·广东肇庆·期末)某地区农户在推动农业机械化升级后,记录了某作物在接下来()年的增长数据(万吨),如下表所示:
1
2
3
4
5
26
37
50
64
93
(1)经探究与之间具有相关关系,求关于的经验回归方程;
(2)为了检验,两款机械设备的投放对某农作物的增收情况,在,两地区分别选取了两块相同面积的试验田来记录某年的增收情况,得到的数据如下表:
地区
用M设备
用设备
A
30
20
B
15
35
根据小概率值的独立性检验,能否认为增收情况与使用,两种不同设备有关?
参考公式:①,;
②(其中为样本容量).
参考数据:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
51.(24-25高二下·湖北咸宁·期末)2025年春节档一部国产动画电影《哪吒之魔童闹海》横空出世,迅速斩获各项票房冠军,截至3月20日,该电影已进入全球票房榜前五.经权威电影机构调查,得到其前5周的票房数据如下表:
周次
第1周
第2周
第3周
第4周
第5周
周次代码
1
2
3
4
5
票房总额/亿元
40
35
25
37
7
(1)求关于的线性回归方程;
(2)该机构随机调查了某电影院2月15日200位观影人的购票情况,其中购买《哪吒之魔童闹海》的男性有90人,女性有70人,购买其他电影的男性有30人,女性有10人,完成列联表,并判断是否有99%的把握认为是否购买《哪吒之魔童闹海》与性别有关.
购买《哪吒》
购买其他电影
合计
男性
女性
合计
附:①,,在利用最小二乘法求得的线性回归方程中,,;
②,其中.
0.100
0.050
0.010
2.706
3.841
6.635
52.(24-25高二下·江西萍乡·期末)某市统计了一景点在2024年6月至10月的旅游收入(单位:万元),得到如下表格:
月份
6
7
8
9
10
旅游收入
20
22
21
22
30
(1)求与的相关系数(精确到0.001),并用相关系数说明该组数据中与之间是否可用线性回归模型进行拟合;(注:若,则认为与之间具有很强的线性相关关系)
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如图所示的列联表,请填写列联表,并判断能否有95%的把握认为“游客是否喜欢该景点与性别有关”.
喜欢
不喜欢
合计
男
100
女
40
合计
135
附:相关系数,参考数据:,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
53.(24-25高二下·四川广元·期末)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据如下表:
编号
1
2
3
4
5
x
10
20
30
40
50
y
70
80
100
120
130
(1)若该组数据中y与x之间的关系可用线性回归模型进行拟合,求y关于x的回归直线方程.(参考数据:)
(2)基于上述调查,某校提倡学生课后自主学习.经过一学期的实施后,抽样调查了160位学生.按照参与课后自主学习与成绩进步情况得到如下2×2列联表:
成绩没有进步
成绩有进步
合计
参与课后自主学习
5
135
140
未参与课后自主学习
5
15
20
合计
10
150
160
依据的独立性检验,分析“课后自主学习与成绩进步”是否有关.
附:回归方程中斜率和截距的最小二乘估计公式分别为:,
,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
题型七 非线性回归(共7小题)
54.(24-25高二下·广东中山·月考)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;;
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(系数精确到0.01),并求温度为34℃时,产卵数y的预报值.
(参考数据:,,,)
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
25
2.89
646
168
422688
48.48
70308
55.(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
56.(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
57.(24-25高二下·山东潍坊·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量y(库仑)与使用时间t(小时)的散点图,其中t为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ⅱ)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考数据:记
45
12.02
1.55
20.20
285
45.07
3.42
参考公式:.
58.(24-25高二下·湖南·月考)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
59.(24-25高二下·黑龙江哈尔滨·期中)即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使机构的服务需求持续增长.数据显示,近年来中国市场规模迅速扩大.下表为2018年年中国市场规模(单位:百亿元),其中2018年年对应的代码依次为.
年份代码x
1
2
3
4
5
中国市场规模y
1.12
1.68
2.45
3.35
4.32
(1)由上表数据可知,可用指数函数模型拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国市场规模(单位:百亿元):
(2)从2018年年中国市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58
0.84
46.83
15.99
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:
60.(24-25高二下·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。