专题强化06:成对数据的统计分析解答题【五大题型 培优】训练-2025-2026学年高二下学期数学《考点•题型•技巧》精讲与精练高分突破(人教A版选择性必修第三册)
2026-06-12
|
2份
|
54页
|
260人阅读
|
5人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学人教A版选择性必修第三册 |
| 年级 | 高二 |
| 章节 | 第八章 成对数据的统计分析 |
| 类型 | 题集-专项训练 |
| 知识点 | - |
| 使用场景 | 同步教学-单元练习 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 1.90 MB |
| 发布时间 | 2026-06-12 |
| 更新时间 | 2026-06-13 |
| 作者 | 启明数学物理探究室 |
| 品牌系列 | - |
| 审核时间 | 2026-06-12 |
| 下载链接 | https://m.zxxk.com/soft/58322613.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
聚焦成对数据统计分析,以题型为纲构建“概念-方法-交汇-创新”四层训练体系,培养数据观念与模型意识。
**专项设计**
|模块|题量/典例|方法提炼|知识逻辑|
|----|-----------|----------|----------|
|相关系数计算|3题(1典例+2变式)|公式应用与线性相关性判断|从数据关系量化到相关性强弱分析|
|回归方程与最小二乘法|3题(1典例+2变式)|最小二乘法求参数及残差分析|从线性拟合到模型效果评估|
|独立性检验|3题(1典例+2变式)|列联表构建与卡方计算|从分类变量关联到统计推断|
|统计概率交汇|3题(1典例+2变式)|分布列与期望结合统计分析|从单一统计到综合概率应用|
|创新题型|3题(1典例+2变式)|实际情境中的模型构建|从常规问题到复杂情境迁移|
内容正文:
专题强化06:成对数据的统计分析解答题
【题型归纳】
· 题型一:相关系数计算
· 题型二:回归方程与最小二乘法
· 题型三:独立性检验
· 题型四:成对数据分析与统计概率交汇问题
· 题型五:成对数据的统计分析创新题型
【题型探究】
题型一:相关系数计算
【典例1】.(25-26高二下·江苏南通·阶段检测)某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间/月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列.
参考公式:;参考数据:.
【详解】(1)由题意得,,,
所以,
可得,,
则,
所以管理时间与土地使用面积线性相关.
(2)由题意,随机变量的所有可能取值为0,1,2,3,
从该县中随机抽取一位村民,取到不愿意参与管理的男性村民的概率为,
故,,
,.
故的分布列为
0
1
2
3
【变式1】.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
【详解】(1),,
,
,
,
样本相关系数:
,
因为非常接近1,所以变量x与y之间具有很强的线性相关关系.
(2)5天中取件人数小于100的天数有3天,
从这5天中随机选取3天,的可能取值为1,2,3.
,
,
,
所以的分布列为:
1
2
3
的数学期望
【变式2】.(25-26高三上·贵州贵阳·阶段检测)近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
【答案】(1),很强的线性正相关关系
(2)
X
80
150
210
P
【详解】(1)由题意,,,
则,
由,
同理,
则,则,
由接近1且为正,故变量x与y之间有很强的线性正相关关系.
(2)由题意,X的可能取值为80、150、210,则,,
,
故X的分布列为:
X
80
150
210
P
则.
题型二:回归方程与最小二乘法
【典例2】.(25-26高二下·河北衡水·阶段检测)对具有线性相关关系的两个变量,,测得一组数据如下表所示:
20
40
60
80
100
2.09
1.89
1.66
1.45
1.31
(1)求关于的经验回归方程;
(2)已知数据残差服从正态分布,其中,.若残差在范围内,则数据正常,反之异常.现该组数据中有一对数据为,判断该对数据是否正常.
参考数据:,,.
附:回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)该对数据不正常.
【详解】(1)由题表得,,
所以,
则,
所以关于的经验回归方程为.
(2)由(1)得时,;时,;
时,;时,;时,.
所以,
,
所以为.
因为时,,
所以,
所以该对数据不正常.
【变式1】.(25-26高二下·江苏·阶段检测)科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的样本数据,如下表:
(年龄/岁)
26
27
39
41
49
53
56
58
60
61
(脂肪含量/\%)
14.5
17.8
21.2
25.9
26.3
29.6
31.4
33.5
35.2
34.6
(1)计算样本相关系数(精确到0.01),并说明该成对样本数据的线性相关程度;
(2)若关于的线性回归方程为,求关于的线性回归方程(精确到0.01).并回答以下问题:
(i)计算当年龄为60岁时的残差;
(ii)计算决定系数,并说明线性回归方程的拟合效果.
附:参考数据:.
参考公式:样本相关系数,在经验回归方程中,.
【答案】(1),人体脂肪含量和年龄的相关程度很强
(2);(i);(ii),线性回归方程的拟合效果很好
【详解】(1),
,
,
由样本相关系数,可以推断人体脂肪含量和年龄的相关程度很强;
(2)因为回归方程为,即,
所以;
所以y关于x的线性回归方程为,
(i)将代入线性回归方程得,
年龄为60岁时的残差;
(ii),
因为决定系数,所以线性回归方程的拟合效果很好.
【变式2】.(25-26高二下·河南·阶段检测)某电动汽车制造企业为了提升电池性能,研发部门对一款新型号的电池进行了充放电循环测试,测试时分别收集了使用液冷技术与风冷技术的电池各250组,测试电池电容量衰减至初始容量的时所经历的充放电循环次数,若循环次数不低于2000次,则认定为A级电池,否则认定为B级电池,统计结果如下表:
A级电池
B级电池
总计
液冷技术
200
50
250
风冷技术
150
100
250
总计
350
150
500
(1)根据小概率值的独立性检验,分析“是A级电池”与“电池冷却技术类型”是否有关;
(2)现从使用液冷技术的250组电池中,按比例用分层随机抽样的方法抽取10组电池,再从这10组电池中用无放回的方式随机抽取3组电池,记为抽到的A级电池的组数,求的分布列和数学期望.
附:.
0.050
0.010
0.001
3.841
6.635
10.828
【详解】(1)零假设:“是A级电池”与“电池冷却技术类型”无关,
由题中数据得,
根据小概率值的独立性检验,可以推断零假设不成立,
所以“是A级电池”与“电池冷却技术类型”有关.
(2)从使用液冷技术的250组电池中,按比例用分层随机抽样的方法抽取10组电池,
则A级电池抽取8组,B级电池抽取2组,则的所有可能取值为,,,
,,,
故的分布列为
1
2
3
所以.
题型三:独立性检验
【典例3】.(25-26高二下·重庆·期中)为了比较甲,乙两所学校学生的数学水平,采用简单随机抽样的方法抽取了100名学生,通过测验得到了如下数据:甲校50名学生中有10名数学成绩优秀,乙校50名学生中有15名数学成绩优秀.
(1)请将列联表补充完整;
学校
数学成绩
合计
优秀
不优秀
甲校
10
乙校
15
合计
100
(2)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异.
(3)用甲校数学成绩样本的优秀率作为甲校数学成绩总体的优秀率,估计甲校的3名学生中恰好有两名学生数学成绩优秀的概率.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
学校
数学成绩
合计
优秀
不优秀
甲校
10
40
50
乙校
15
35
50
合计
25
75
100
(2)不能据此推断两校学生的数学成绩优秀率有差异
(3)
【分析】(1)根据题意完成列联表,
(2)结合零假设、卡方公式进行运算求解判断即可;
(3)利用二项分布求解即可.
【详解】(1)由已知,列联表如下:
单位:人
学校
数学成绩
合计
优秀
不优秀
甲校
10
40
50
乙校
15
35
50
合计
25
75
100
(2)零假设为:两校学生的数学成绩优秀率无差异.
根据列联表数据,计算得到
.
根据小概率值的独立性检验,没有充分证据推断不成立,
因此不拒绝原假设,即不能认为两校学生的数学成绩优秀率有差异.
(3)甲校数学成绩样本的优秀率为,作为甲校数学成绩总体的优秀率,
设甲校的3名学生中成绩优秀的人数为,则,
所求概率为.
【变式1】.(25-26高二下·重庆·期中)长跑可提高呼吸系统和心血管系统机能,为了调查学生喜欢跑步是否与性别有关,某校从高三年级选取了200名学生进行问卷调查,得到如下的列联表.已知在这200名学生中随机抽取1人抽到喜欢跑步学生的概率为0.6.
性别
跑步
喜欢跑步
不喜欢跑步
总计
男生
80
女生
20
总计
(1)完成上面表格,判断能否有90%的把握认为喜欢跑步与性别有关并说明理由?
(2)从上述不喜欢跑步的学生中用样本量按比例分配的分层随机抽样的方法抽取8名学生,再从这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布列及数学期望.
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)由题意得,200名学生中喜欢跑步的总人数为,
不喜欢跑步的总人数为,
补全2×2列联表如下:
性别
喜欢跑步
不喜欢跑步
总计
男生
80
60
140
女生
40
20
60
总计
120
80
200
计算卡方: ,
因为 (90%把握对应的临界值),
因此没有90%的把握认为喜欢跑步与性别有关.
(2)不喜欢跑步的学生中,男生60人、女生20人,比例为,
按比例分层抽取8人,因此抽取男生6人、女生2人,
表示抽取3人中女生的人数,则的可能取值为,
,,,
因此的分布列为:
数学期望: .
【变式2】(25-26高二下·河北沧州·阶段检测)2026年春节期间,电影《飞驰人生3》想看人数、讨论度、社交平台热度全程领跑,掀起全民观影热潮,总票房高达29.27亿元.某电影院为了解民众对该部热映电影的喜欢程度,随机采访了140名观影人员,得到下表:
是否成年人
是否喜欢
合计
不喜欢
喜欢
未成年人
20
60
80
成年人
40
60
合计
140
(1)根据小概率值的独立性检验,能否认为喜欢电影《飞驰人生3》与是否成年有关?
(2)用频率估计概率,现随机采访一名成年人和一名未成年人,设表示这两人中喜欢电影《飞驰人生3》的人数,求的分布列和数学期望.
参考公式:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)认为喜欢电影《飞驰人生3》与是否成年无关.
(2)
0
1
2
数学期望为.
【详解】【小题1】由数据表格可知,,,.
零假设为:喜欢电影《飞驰人生3》与是否成年无关,
根据列联表中的数据,计算得,
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为喜欢电影《飞驰人生3》与是否成年无关.
【小题2】由题意可知,未成年人喜欢该电影的概率是,不喜欢的概率是;
成年人喜欢该电影的概率是,不喜欢的概率是.
由题意,的可能取值为0,1,2,
则;;.
所以的分布列为
0
1
2
数学期望为.
题型四:成对数据分析与统计概率交汇问题
【典例4】.(25-26高二下·重庆·期中)2026年4月18日,重庆半程马拉松在嘉陵江滨江路鸣枪起跑.马拉松比赛是一项高负荷、高强度、长距离的竞技运动,对参赛运动员身体状况有较高的要求,参赛运动员应身体健康,有长期参加跑步锻炼或训练的基础.为了解市民对马拉松的喜爱程度,从成年男性和女性中各随机抽取100人,调查是否喜爱马拉松,得到了如下列联表:
性别
马拉松
合计
喜爱
不喜爱
男
60
40
100
女
40
60
100
合计
100
100
200
(1)根据列联表,并依据小概率值的独立性检验,是否可以推断喜爱马拉松与性别有关?
(2)依据统计表,用分层抽样的方法从“喜爱马拉松”的人中抽取5人,再从这5人中随机抽取3人,记其中女性人数为,求的分布列及期望.
附:.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)依据小概率值的独立性检验,不能推断喜爱马拉松与性别有关;
(2)的分布列为:
0
1
2
期望为(或).
【详解】(1)零假设为:喜爱马拉松与性别无关.经计算得,
依据小概率值的独立性检验,推断成立,即可以推断喜爱马拉松与性别无关.
(2)由题意及分层抽样性质知5人中,有3个男性,2个女性,
故的可能取值有,
,,.
所以的分布列为
0
1
2
期望.
【变式1】.(2025·四川乐山·三模)电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元)
20
30
40
50
60
70
游客满意度评分(分)
60
65
70
78
80
85
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为,.
①若甲以获胜的概率为,求的最大值;
②在①中,若,以作为的值,设甲、乙比赛的局数为,求的分布列和期望.
参考公式:相关系数,,
参考数据:.
【答案】(1)可以, (2)①;
②
3
4
5
.
【详解】(1)解:由已知得,,
可得,
,
,
所以,
因为,可以推断与正两个变量正线性相关,且相关程度很强,
可用线性回归模型拟合与的关系,
则,所以,
所以关于的线性回归方程为:.
(2)解:①若甲以获胜,则前四局中甲、乙各胜两局,且第五局甲获胜,
所以,
所以,
令,可得,当时,;
当时,,
所以在上单调递增,在上单调递减;
所以当时,取得最大值,
②由①知,,随机变量,
可得;;
,
所以随机变量的分布列为
3
4
5
所以.
【变式2】.(2025·广东·一模)近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
【答案】(1),千辆;
(2)预计最多可调整人去其他部门.
【详解】(1)由题意得,
,
所以,,
所以关于的线性回归方程为,
由题意得,年月份的月份代码为,当时,,
所以估计该地区新能源汽车在年月份的销量为千辆.
(2)记事件为“员工经过培训后,能使用人工智能工具”,
则,
设宣传部门调至其他部门人数为,则参加培训的人数为,
设为培训后能使用人工智能工具的人数,
则,故,
调整后年净利润预计为:万元,
由题意得,
解得,
所以预计最多可调整人去其他部门.
题型五:成对数据的统计分析创新题型
【典例5】.(25-26高二下·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
【答案】(1),相关程度很强 (2),残差为百人 (3)
【详解】(1)由表格中的数据可得,,
,
,
,
则,
由相关系数,可以推断入园游客量与活动开展第天相关程度很强.
(2),,
故经验回归方程为.
对于表中第个观测,入园游客量为(百人),
预测值为(百人),残差为(百人)
(3)记从通道入园的事件为,从通道离园的事件为,
由题意可得,,,,
.
【变式1】.(24-25高二下·山东淄博·期末)生活中运动对人体健康非常重要,为了了解不同年龄人群篮球运动的情况,随机调查了400人,得到如下数据:
年龄
篮球运动情况
合计
经常运动
不经常运动
40及以上
130
70
200
40以下
100
100
200
合计
230
170
400
(1)依据小概率值的独立性检验,能否认为篮球运动的情况与年龄有关?
(2)某校组织“篮球”比赛,分成了、、三组进行挑战赛,其规则如下:挑战权在任何一组,该组都可向另外两组发起挑战,且被挑战方拥有下一次的挑战权,若挑战权在组,挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,.已知首先由组发起挑战,按此规则进行了多次挑战.
①前3次挑战后,求组拥有挑战权的次数的分布列与数学期望;
②经过次挑战后,挑战权在组的概率为,求;
③数列收敛的定义:已知数列,若对于任意给定的正数,总存在正整数,使得当时,,(是一个确定的实数),则称数列收敛于.根据数列的定义证明②中收敛.
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)零假设为:篮球运动情况与年龄无关,
由列联表数据可得,
因为,,,
所以根据小概率值的独立性检验,认为不成立,即认为篮球运动与年龄有关,此推断犯错误的概率不超过.
(2)①依题意知,的可能取值为,
则,
,
,
所以的分布列为
0
1
2
.
②设第次挑战权在、组的概率分别是、,,,
依题意可得,
(1)+(3)得,
由(2)得,
所以,
即,,,其中,
所以是以为首项,为公比的等比数列,所以,即.
③证明:对任意,总存在正整数,(其中表示取整函数),
当时,,
所以收敛.
【变式2】.(25-26高二下·黑龙江大庆·期中)为了解某地区电动车的销售情况,该地区经济委员会对全区电动车销量展开调查.委员会调查了该区100位私家车主性别与购车种类的有关数据(每位车主仅购买一辆私家车),得到下表:
非电动车
电动车
总计
男性
女性
总计
100
已知调查对象中男性与女性人数相同;在男性中,购买非电动车的人数是购买电动车人数的1.5倍;在购买非电动车的车主中,仅有三分之一是女性.
(1)试补全表格,并判断在犯错误的概率不超过0.5%的情况下,能否认为购买电动车与性别有关?
(2)从该地区私家车主中随机选择一人,A表示事件“选到的车主是男性”,B表示事件“选到的车主购买了非电动车”,查阅资料可知,与的比值可以在一定程度上作为性别对购买私家车倾向的一种度量,将上述比值记作
(i)证明:
(ii)将调查数据中的各项频率视作概率,写出和的估计值,并给出的估计值.
参考公式与数据:
0.10
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
,其中
【详解】(1)由题意知,调查对象中男性50人,女性50人,
设男性中购买电动车的人数为人,则购买非电动车的人数为人,所以,解得,
即男性中购买电动车的人数为20人,则购买非电动车的人数为30人.设购买非电动车的人数为人,则,解得人,所以女性中购买非电动车的人数为人,购买电动车的人数为人.
故列联表为:
非电动车
电动车
总计
男性
30
20
50
女性
15
35
50
总计
45
55
100
假设:购买电动车与性别无关.
,因为,所以在犯错误的概率不超过0.5%的情况下,可认为假设不成立,故购买电动车与性别有关.
(2)(i)略
(ii)由表格可知,,,同理可知,,,
所以.
【专题通关】
1.(25-26高二下·辽宁沈阳·期中)为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
【答案】(1)
(2)
(3)
0
1
2
【分析】(1)根据计算求解;
(2)根据最小二乘法计算公式计算求解;
(3)列出随机变量可能取值,计算对应概率可得分布列,进而可计算数学期望.
【详解】(1)因为,
所以;
(2)由题意可知,,
,
所以,,
所以;
(3)由题意可得
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
44
37
35
27
49
45
41
37
33
29
是否有效采集数据
否
是
否
是
否
否
随机变量的可能取值为,
,
所以分布列为:
0
1
2
数学期望为.
2.(25-26高二下·吉林长春·期中)我国全面二孩政策已正式实施,这次人口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了200户有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
(1)建立变量关于的一元线性回归模型;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,现从这5个成对数据中任取3个做残差分析,求取到的数据中“次数据”个数的数学期望.
附:经验回归直线的斜率和截距的最小二乘估计公式分别为,
参考数据:.
【答案】(1)
(2)
【分析】(1)由已知求出,,利用公式求出,,即可得到关于的线性回归方程;
(2)由回归方程求出预测值,可得残差的绝对值,判断是否为“次数据”,可得“次数据”和非“次数据”个数,“次数据”个数为,求出对应概率,即可列出分布列求出数学期望.
【详解】(1),,
所以,
则, ,
所以关于的一元线性回归方程为.
(2)由(1)回归方程为,样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,
由题意,列出下表,
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
预测值
3.6
9.2
14.8
20.4
26
残差的绝对值
0.4
1.2
1.2
0.4
0
是否为“次数据”
否
是
是
否
否
则“次数据”共有2个,非“次数据”共有3个,从这5个数据中任取三个,“次数据”个数为,
则,
,
,
分布列
0
1
2
所以,数学期望为
.
3.(25-26高二下·山东泰安·阶段检测)某高科技公司开发了一款迎宾机器人,为了解市场销售情况,现统计了2025年10月至2026年2月该款迎宾机器人的月销量数据,如下表所示:
月份
2025年10月
2025年11月
2025年12月
2026年1月
2026年2月
月份代码x
1
2
3
4
5
月销量y(单位:千台)
8
10
13
20
24
(1)求出y与x的相关系数r(保留三位小数),并根据r判断该款迎宾机器人月销量y与月份代码x是否有较强的相关关系;(当时,相关性较强,当时,相关性一般)
(2)求出y关于x的经验回归方程,并估计2026年7月该款迎宾机器人的销量;
参考公式:相关系数,.
参考数据:,,
,
【答案】(1)0.979,y与x有较强的相关关系
(2),万台
【分析】(1)根据公式算出线性相关系数,并根据判断标准作出判断即可;
(2)利用最小二乘法求得,进而求得关于的经验回归方程,按规律得到2026年7月对应的值,代入可得2026年7月该款迎宾机器人的销量;
【详解】(1),,,
则
故y与x有较强的相关关系;
(2),
又,,
所以,
故经验回归方程为,
2026年7月对应的x值为10,
当时,,
故可估计2026年7月该款迎宾机器人的月销量为万台
4.(2026·陕西西安·模拟预测)某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
【答案】(1),,
(2)0.99,该模型拟合效果良好
【分析】(1)先求出,再代入求得,得回归方程,利用回归方程求得;
(2)根据公式计算出后比较可得.
【详解】(1),
,
将 代入可得,即.
所以经验回归方程为
因,则
又因,则
(2)
所以决定系数,故该模型拟合效果良好.
5.(25-26高二下·重庆·期中)近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2022年到2025年某地新能源汽车的销量(单位:千辆)
年份
2022
2023
2024
2025
年份代号x
1
2
3
4
销量y
33
69
93
129
附:线性相关系数;回归方程中斜率和截距的最小二乘法估计公式分别为,, , ,.
(1)试根据样本相关系数r的值判断该地汽车销量y与年份代号x的线性相关性强弱(,则为y与x的线性相关性较强; ,则认为y与x的线性相关性较弱);(精确到0.001)
(2)建立y关于x的线性回归方程,并预测该地2026年的新能源汽车销量.
【答案】(1)该地新能源汽车销量与年份代号的线性相关性较强;
(2)线性回归方程为 ,预测2026年新能源汽车销量为159千辆。
【详解】(1)计算年份代号的均值:
.
已知 , .
代入相关系数公式
由于 ,因此与 的线性相关性较强.
(2)由最小二乘估计公式计算斜率.
销量的均值
截距
因此 关于 的线性回归方程为.
2026年对应的年份代号为 ,代入回归方程得:
即预测2026年该地新能源汽车销量为159千辆.
6.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
【答案】(1)证明见解析
(2),具有较强的线性相关程度.
(3)关于的线性回归方程为,预测研发投入亿元时的经济收益为亿元.
【分析】(1)先利用完全平方公式展开,再根据平均数定义,即,对展开后的式子进行化简,最终推导出目标等式;
(2)先计算的均值,再分别求出、与交叉项,代入相关系数公式计算,最后根据与的大小关系判断线性相关程度;
(3)利用已求出的交叉项与计算回归系数,再根据求出截距,得到回归方程,最后将代入方程,计算并得到预测的经济收益值.
【详解】(1)已知,即,
,
所以;
(2),,
,,
,
又因为,
所以
所以研发投入与经济收益之间具有较强的线性相关性.
(3),则,
所以关于的线性回归方程为,
将代入线性回归方程,得,
所以预测研发投入亿元时的经济收益为亿元.
7.(25-26高二下·河北衡水·阶段检测)某市自2020年起,在多个社区设立“环保志愿者”岗位.每年,社区根据规模提供一定数量的志愿者名额,居民可自愿报名参加,市环保部门统计了近6年志愿者名额x与报名人数y的相关数据,如下表所示:
年份
2020
2021
2022
2023
2024
2025
志愿者名额x(个)
2
4
6
8
10
12
报名人数y(位)
参考数据:,,,,
参考公式:样本相关系数
经验回归方程中斜率的最小二乘估计公式
(1)已知该市某大型社区在2024年和2025年共有12人报名,且两年无重复报名人员,12人中有8位男性,已知2024年男性报名人数多于2025年.若从这12人中随机抽取2人,两人均为男性且分别来自2024年和2025年的概率为.现从这12人中随机抽取3人,记其中在2024年报名的男性人数为X,求X的分布列;
(2)已知变量y与x的相关系数,请用最小二乘法求出y关于x的回归直线方程,并据此预估志愿者名额为15个时报名的人数.
【答案】(1)
X
0
1
2
3
P
(2),37人
【分析】(1)根据题意结合组合数可得.分析可知X的可能取值为0,1,2,3,结合超几何分布求分布列;
(2)根据相关关系结合题中数据可得,进而可得和回归方程,代入即可得结果.
【详解】(1)设2024年报名的男性人数为m,则,
则,解得.
由题意可知:X的可能取值为0,1,2,3.
,,
,.
所以X的分布列为
X
0
1
2
3
P
(2)因为,,,
则,可得,
因为,,
即,解得.
且,可得.
所以y关于x的经验回归方程为.
当时,,所以估计志愿者名额为15个时报名的人数为37人.
8.(25-26高三上·湖南·阶段检测)某人工智能研发公司为了开拓新产品市场,从最新研发的经典A型和卓越型两款机器人中(卓越型是A型的优化版),随机各抽取30台进行越野驾驶性能对比测试,测试在同等环境中进行,评定结果分为优秀和良好两种.得到了如下数据:经典A型优秀为7台,卓越型优秀为20台.
(1)完成下面2×2列联表,并根据小概率值α=0.001的独立性检验,分析两款机器人的测试结果是否与越野驾驶性能优化有关.
款类
测试结果
总计
优秀
良好
型
20
30
A型
7
30
总计
(2)该公司为了进一步测试卓越型机器人的汉语智能性能,组织机器人队与人类队(母语为汉语)进行诗词抢答赛,每局比赛只有胜和负两种情况(无平局),每局人类战胜机器人的概率为胜者记2分,负者记1分.每个挑战者只能挑战一局,每局胜负不受其他因素的影响.
(i)求三局比赛中,人类队累计得分X的分布列和数学期望;
(ii)若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为;若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为,比较与的大小,并说明其统计意义.
参考公式:
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,认为测试结果与越野驾驶性能有关联
(2)(i)分布列见解析,4;(ii)答案见解析
【分析】(1)依题意列出2×2列联表,计算进行判断;
(2)(i)X的所有可能取值为3,4,5,6,分别求其对应概率得到分布列;(ii)设“赛满局人类队获胜”为事件C,有事件:第一阶段赛满局人类队胜,事件:第一阶段赛满局人类队负,由求解.
【详解】(1)依题意,列出2×2列联表如下:
款类
测试结果
总计
优秀
良好
型
20
10
30
A型
7
23
30
总计
27
33
60
零假设为:测试结果与越野驾驶性能优化无关.根据表中数据可得:
,
根据小概率值的独立性检验,我们推断不成立,
即认为测试结果与越野驾驶性能有关联,此推断犯错误的概率不大于0.001.
(2)(i)X的所有可能取值为3,4,5,6,
,,
,.
∴X的分布列为
3
4
5
6
∴数学期望.
(ii)设“赛满局人类队获胜”为事件C,要使事件C发生,有两种情况:第一阶段赛满局人类队胜,记为事件,和第一阶段赛满局人类队负,记为事件,
∴,,
①若第一阶段人类队胜,则人类队在前局至少胜局,分为人类队至少胜局和人类队恰好胜局,
(a)若人类队至少胜局,无论后面两局结果如何,最终人类队获胜;
(b)若人类队恰好胜局,且后面两局中人类队均负的概率为,
∴(其中).
②若第一阶段赛满局人类队负,即前局人类胜局数,要使总赛满局后人类获胜,需满足:前局胜局,且后局全胜,
前局胜局的概率为,后局全胜的概率为,
因此
所以
代入,化简得,
所以
统计意义:对于单局胜率小于的挑战者,增加比赛总场次会降低其最终获胜的概率.
9.(2024高三·全国·专题练习)高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
【详解】(1)由已知可得,
.
又因为,
,
所以,
所以,
所以,
当时,,
所以预测第6季度血压明显降低(或治愈)的大约有42人.
(2)(ⅰ)由题知的所有可能取值为0,1,2,
;
;
,
所以的分布列为
0
1
2
所以.
(ⅱ)设经过次挑战后,挑战权在乙、丙组的概率分别为,,
则当时,,,,
由后两个等式相加,得. ①
因为,所以,,
代入①式得,
即,
所以.
因为,,
所以,
所以,
所以数列是首项为,公比为的等比数列,
所以,
即,
所以由,得,即,
所以对任意给定的正数(不论它多么小),总存在正整数(表示不超过的最大整数),使得当时,,
所以数列为“聚点数列”,聚点的值为.
2
学科网(北京)股份有限公司
$
专题强化06:成对数据的统计分析解答题
【题型归纳】
· 题型一:相关系数计算
· 题型二:回归方程与最小二乘法
· 题型三:独立性检验
· 题型四:成对数据分析与统计概率交汇问题
· 题型五:成对数据的统计分析创新题型
【题型探究】
题型一:相关系数计算
【典例1】.(25-26高二下·江苏南通·阶段检测)某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间/月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列.
参考公式:;参考数据:.
【变式1】.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
【变式2】.(25-26高三上·贵州贵阳·阶段检测)近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
题型二:回归方程与最小二乘法
【典例2】.(25-26高二下·河北衡水·阶段检测)对具有线性相关关系的两个变量,,测得一组数据如下表所示:
20
40
60
80
100
2.09
1.89
1.66
1.45
1.31
(1)求关于的经验回归方程;
(2)已知数据残差服从正态分布,其中,.若残差在范围内,则数据正常,反之异常.现该组数据中有一对数据为,判断该对数据是否正常.
参考数据:,,.
附:回归直线的斜率和截距的最小二乘估计公式分别为,.
【变式1】.(25-26高二下·江苏·阶段检测)科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的样本数据,如下表:
(年龄/岁)
26
27
39
41
49
53
56
58
60
61
(脂肪含量/\%)
14.5
17.8
21.2
25.9
26.3
29.6
31.4
33.5
35.2
34.6
(1)计算样本相关系数(精确到0.01),并说明该成对样本数据的线性相关程度;
(2)若关于的线性回归方程为,求关于的线性回归方程(精确到0.01).并回答以下问题:
(i)计算当年龄为60岁时的残差;
(ii)计算决定系数,并说明线性回归方程的拟合效果.
附:参考数据:.
参考公式:样本相关系数,在经验回归方程中,.
【变式2】.(25-26高二下·河南·阶段检测)某电动汽车制造企业为了提升电池性能,研发部门对一款新型号的电池进行了充放电循环测试,测试时分别收集了使用液冷技术与风冷技术的电池各250组,测试电池电容量衰减至初始容量的时所经历的充放电循环次数,若循环次数不低于2000次,则认定为A级电池,否则认定为B级电池,统计结果如下表:
A级电池
B级电池
总计
液冷技术
200
50
250
风冷技术
150
100
250
总计
350
150
500
(1)根据小概率值的独立性检验,分析“是A级电池”与“电池冷却技术类型”是否有关;
(2)现从使用液冷技术的250组电池中,按比例用分层随机抽样的方法抽取10组电池,再从这10组电池中用无放回的方式随机抽取3组电池,记为抽到的A级电池的组数,求的分布列和数学期望.
附:.
0.050
0.010
0.001
3.841
6.635
10.828
题型三:独立性检验
【典例3】.(25-26高二下·重庆·期中)为了比较甲,乙两所学校学生的数学水平,采用简单随机抽样的方法抽取了100名学生,通过测验得到了如下数据:甲校50名学生中有10名数学成绩优秀,乙校50名学生中有15名数学成绩优秀.
(1)请将列联表补充完整;
学校
数学成绩
合计
优秀
不优秀
甲校
10
乙校
15
合计
100
(2)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异.
(3)用甲校数学成绩样本的优秀率作为甲校数学成绩总体的优秀率,估计甲校的3名学生中恰好有两名学生数学成绩优秀的概率.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式1】.(25-26高二下·重庆·期中)长跑可提高呼吸系统和心血管系统机能,为了调查学生喜欢跑步是否与性别有关,某校从高三年级选取了200名学生进行问卷调查,得到如下的列联表.已知在这200名学生中随机抽取1人抽到喜欢跑步学生的概率为0.6.
性别
跑步
喜欢跑步
不喜欢跑步
总计
男生
80
女生
20
总计
(1)完成上面表格,判断能否有90%的把握认为喜欢跑步与性别有关并说明理由?
(2)从上述不喜欢跑步的学生中用样本量按比例分配的分层随机抽样的方法抽取8名学生,再从这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布列及数学期望.
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式2】(25-26高二下·河北沧州·阶段检测)2026年春节期间,电影《飞驰人生3》想看人数、讨论度、社交平台热度全程领跑,掀起全民观影热潮,总票房高达29.27亿元.某电影院为了解民众对该部热映电影的喜欢程度,随机采访了140名观影人员,得到下表:
是否成年人
是否喜欢
合计
不喜欢
喜欢
未成年人
20
60
80
成年人
40
60
合计
140
(1)根据小概率值的独立性检验,能否认为喜欢电影《飞驰人生3》与是否成年有关?
(2)用频率估计概率,现随机采访一名成年人和一名未成年人,设表示这两人中喜欢电影《飞驰人生3》的人数,求的分布列和数学期望.
参考公式:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
题型四:成对数据分析与统计概率交汇问题
【典例4】.(25-26高二下·重庆·期中)2026年4月18日,重庆半程马拉松在嘉陵江滨江路鸣枪起跑.马拉松比赛是一项高负荷、高强度、长距离的竞技运动,对参赛运动员身体状况有较高的要求,参赛运动员应身体健康,有长期参加跑步锻炼或训练的基础.为了解市民对马拉松的喜爱程度,从成年男性和女性中各随机抽取100人,调查是否喜爱马拉松,得到了如下列联表:
性别
马拉松
合计
喜爱
不喜爱
男
60
40
100
女
40
60
100
合计
100
100
200
(1)根据列联表,并依据小概率值的独立性检验,是否可以推断喜爱马拉松与性别有关?
(2)依据统计表,用分层抽样的方法从“喜爱马拉松”的人中抽取5人,再从这5人中随机抽取3人,记其中女性人数为,求的分布列及期望.
附:.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【变式1】.(2025·四川乐山·三模)电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元)
20
30
40
50
60
70
游客满意度评分(分)
60
65
70
78
80
85
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为,.
①若甲以获胜的概率为,求的最大值;
②在①中,若,以作为的值,设甲、乙比赛的局数为,求的分布列和期望.
参考公式:相关系数,,
参考数据:.
【变式2】.(2025·广东·一模)近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
题型五:成对数据的统计分析创新题型
【典例5】.(25-26高二下·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
【变式1】.(24-25高二下·山东淄博·期末)生活中运动对人体健康非常重要,为了了解不同年龄人群篮球运动的情况,随机调查了400人,得到如下数据:
年龄
篮球运动情况
合计
经常运动
不经常运动
40及以上
130
70
200
40以下
100
100
200
合计
230
170
400
(1)依据小概率值的独立性检验,能否认为篮球运动的情况与年龄有关?
(2)某校组织“篮球”比赛,分成了、、三组进行挑战赛,其规则如下:挑战权在任何一组,该组都可向另外两组发起挑战,且被挑战方拥有下一次的挑战权,若挑战权在组,挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,.已知首先由组发起挑战,按此规则进行了多次挑战.
①前3次挑战后,求组拥有挑战权的次数的分布列与数学期望;
②经过次挑战后,挑战权在组的概率为,求;
③数列收敛的定义:已知数列,若对于任意给定的正数,总存在正整数,使得当时,,(是一个确定的实数),则称数列收敛于.根据数列的定义证明②中收敛.
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式2】.(25-26高二下·黑龙江大庆·期中)为了解某地区电动车的销售情况,该地区经济委员会对全区电动车销量展开调查.委员会调查了该区100位私家车主性别与购车种类的有关数据(每位车主仅购买一辆私家车),得到下表:
非电动车
电动车
总计
男性
女性
总计
100
已知调查对象中男性与女性人数相同;在男性中,购买非电动车的人数是购买电动车人数的1.5倍;在购买非电动车的车主中,仅有三分之一是女性.
(1)试补全表格,并判断在犯错误的概率不超过0.5%的情况下,能否认为购买电动车与性别有关?
(2)从该地区私家车主中随机选择一人,A表示事件“选到的车主是男性”,B表示事件“选到的车主购买了非电动车”,查阅资料可知,与的比值可以在一定程度上作为性别对购买私家车倾向的一种度量,将上述比值记作
(i)证明:
(ii)将调查数据中的各项频率视作概率,写出和的估计值,并给出的估计值.
参考公式与数据:
0.10
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
,其中
【专题通关】
1.(25-26高二下·辽宁沈阳·期中)为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
2.(25-26高二下·吉林长春·期中)我国全面二孩政策已正式实施,这次人口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了200户有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
(1)建立变量关于的一元线性回归模型;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,现从这5个成对数据中任取3个做残差分析,求取到的数据中“次数据”个数的数学期望.
附:经验回归直线的斜率和截距的最小二乘估计公式分别为,
参考数据:.
3.(25-26高二下·山东泰安·阶段检测)某高科技公司开发了一款迎宾机器人,为了解市场销售情况,现统计了2025年10月至2026年2月该款迎宾机器人的月销量数据,如下表所示:
月份
2025年10月
2025年11月
2025年12月
2026年1月
2026年2月
月份代码x
1
2
3
4
5
月销量y(单位:千台)
8
10
13
20
24
(1)求出y与x的相关系数r(保留三位小数),并根据r判断该款迎宾机器人月销量y与月份代码x是否有较强的相关关系;(当时,相关性较强,当时,相关性一般)
(2)求出y关于x的经验回归方程,并估计2026年7月该款迎宾机器人的销量;
参考公式:相关系数,.
参考数据:,,
,
4.(2026·陕西西安·模拟预测)某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
5.(25-26高二下·重庆·期中)近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2022年到2025年某地新能源汽车的销量(单位:千辆)
年份
2022
2023
2024
2025
年份代号x
1
2
3
4
销量y
33
69
93
129
附:线性相关系数;回归方程中斜率和截距的最小二乘法估计公式分别为,, , ,.
(1)试根据样本相关系数r的值判断该地汽车销量y与年份代号x的线性相关性强弱(,则为y与x的线性相关性较强; ,则认为y与x的线性相关性较弱);(精确到0.001)
(2)建立y关于x的线性回归方程,并预测该地2026年的新能源汽车销量.
6.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
7.(25-26高二下·河北衡水·阶段检测)某市自2020年起,在多个社区设立“环保志愿者”岗位.每年,社区根据规模提供一定数量的志愿者名额,居民可自愿报名参加,市环保部门统计了近6年志愿者名额x与报名人数y的相关数据,如下表所示:
年份
2020
2021
2022
2023
2024
2025
志愿者名额x(个)
2
4
6
8
10
12
报名人数y(位)
参考数据:,,,,
参考公式:样本相关系数
经验回归方程中斜率的最小二乘估计公式
(1)已知该市某大型社区在2024年和2025年共有12人报名,且两年无重复报名人员,12人中有8位男性,已知2024年男性报名人数多于2025年.若从这12人中随机抽取2人,两人均为男性且分别来自2024年和2025年的概率为.现从这12人中随机抽取3人,记其中在2024年报名的男性人数为X,求X的分布列;
(2)已知变量y与x的相关系数,请用最小二乘法求出y关于x的回归直线方程,并据此预估志愿者名额为15个时报名的人数.
8.(25-26高三上·湖南·阶段检测)某人工智能研发公司为了开拓新产品市场,从最新研发的经典A型和卓越型两款机器人中(卓越型是A型的优化版),随机各抽取30台进行越野驾驶性能对比测试,测试在同等环境中进行,评定结果分为优秀和良好两种.得到了如下数据:经典A型优秀为7台,卓越型优秀为20台.
(1)完成下面2×2列联表,并根据小概率值α=0.001的独立性检验,分析两款机器人的测试结果是否与越野驾驶性能优化有关.
款类
测试结果
总计
优秀
良好
型
20
30
A型
7
30
总计
(2)该公司为了进一步测试卓越型机器人的汉语智能性能,组织机器人队与人类队(母语为汉语)进行诗词抢答赛,每局比赛只有胜和负两种情况(无平局),每局人类战胜机器人的概率为胜者记2分,负者记1分.每个挑战者只能挑战一局,每局胜负不受其他因素的影响.
(i)求三局比赛中,人类队累计得分X的分布列和数学期望;
(ii)若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为;若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为,比较与的大小,并说明其统计意义.
参考公式:
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
9.(2024高三·全国·专题练习)高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
2
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。