内容正文:
第05讲 第八章 成对数据的统计分析 章末题型大总结
题型01 回归直线方程
【典例1】(2024高三·北京·专题练习)某地区2019年至2023年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2019
2020
2021
2022
2023
年份代号x
1
2
3
4
5
人均纯收入
2.3
3.3
4.1
4.4
4.9
(1)由表可知与具有线性相关关系,求关于的线性回归方程;
(2)利用(1)中的回归方程,预测该地区2025年农村居民家庭人均纯收入;
(3)用(1)中所求线性回归方程得到与对应的人均纯收入预测值,当数据对应残差的绝对值时,将该数据称作一个“好数据”,经过计算统计得到这5个数据中“好数据”有2个,不是“好数据”的有3个,现从5个数据中任选3个,求恰好有两个“好数据”的概率.
【答案】(1)
(2)千元
(3)
【知识点】求回归直线方程、计算古典概型问题的概率、根据回归方程进行数据估计
【分析】(1)根据已知数据,结合参考数据,分别求得与,即可求得结果;
(2)令,即可求得结果;
(3)根据题意求得好数据个数,再结合组合数,根据古典概型的概率计算公式求解即可.
【详解】(1)根据已知数据以及参考数据可得:,
;
又,
故,
,
故所求线性回归方程为:.
(2)根据(1)所求可得:,令,解得,
故预测该地区2025年农村居民家庭人均纯收入为千元.
(3)根据题意,结合所求线性回归方程可得如下表格:
年份
2019
2020
2021
2022
2023
年份代号x
1
2
3
4
5
人均纯收入
2.3
3.3
4.1
4.4
4.9
2.54
3.17
3.8
4.43
5.06
0.24
0.13
0.3
0.03
0.16
根据“好数据”定义,故组数据中,“好数据”有2组,不是“好数据”的有3组,
从5个数据中任选3个,恰好有两个“好数据”是事件,则.
【典例2】(24-25高三上·宁夏中卫·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”下表是某市一主干道路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:
月份
1
2
3
4
5
违章驾驶人次
125
105
100
90
80
(1)已知可用线性回归模型拟合违章人次与月份之间的关系,求关于的经验回归方程,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从这5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下表:
不礼让行人
礼让行人
合计
驾龄不超过2年
24
16
驾龄2年以上
26
24
合计
完成上面列联表,依据小概率值的独立性检验,能否认为“礼让行人”行为与驾龄有关?
(3)结合(2)中求得的结果,谈谈你对结论判断的体会.
附:,.
其中
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1);58人次;
(2)“礼让行人”行为与驾龄之间没有关联;
(3)答案见解析.
【知识点】求回归直线方程、卡方的计算、用回归直线方程对总体进行估计、独立性检验解决实际问题
【分析】(1)由已知求得,进一步套公式求出和的值,求出线性回归直线方程,再令即可.
(2)补全列联表,根据数据计算,并下结论.
【详解】(1)由表中数据知,,,
所以,,
所以,,
所以,所以令,则,
故预测该路口7月份不“礼让行人”违规驾驶人次为58人次.
(2)根据表中的列联表补全得下表:
不礼让行人
礼让行人
合计
驾龄不超过2年
24
16
40
驾龄2年以上
26
24
50
合计
50
40
90
零假设为:“礼让行人”行为与驾龄没有关联.
故,
所以依据小概率值的独立性检验,我们推断成立,即认为“礼让行人”行为与驾龄没有关联.
(3)礼让行人是一种良好的驾驶习惯,无论驾龄多少,都需要遵守规章,礼让行人.
【典例3】(24-25高三上·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到下面的统计表.
年份t
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
销量y(万辆)
11
13
18
21
27
(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能源汽车的销量最早在哪一年能突破50万辆;
(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车的人数的比例大约为.从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.
参考公式:
对于一组数据,其回归直线中斜率和截距的最小二乘估计公式分别为:.
【答案】(1),年
(2)分布列见解析,期望.
【知识点】求回归直线方程、写出简单离散型随机变量分布列、用回归直线方程对总体进行估计、求离散型随机变量的均值
【分析】(1)利用给定的数据求出相关量,再利用最小二乘法求出回归直线方程,解不等式估算即可.
(2)求出的可能值及各个值对应的概率,列出分布列并求出期望.
【详解】(1)设关于的线性回归方程,
依题意,,,
,,
因此,,
则关于的线性回归方程为,
令,解得,,取,
所以该地区新能源汽车的销量最早在年能突破万辆.
(2)依题意,按1:3分层抽样知,12人中有9人购置了传统燃油汽车,3人购置了新能源汽车,
所有可能的取值为,,,,
,,
,,
所以的分布列为:
期望.
【变式1】(24-25高三上·四川绵阳·阶段练习)为了了解某校学生每天课后自主学习数学的时间(分钟/每天)和他们的数学成绩(分)的关系,学校数学组老师进行了一些调研,得到以下数据.
学习时间
20
30
40
50
60
数学成绩
59
72
82
97
110
(1)已知与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为85分钟时的数学成绩(结果精确到整数);(参考数据:,)
(2)由于新高考改革,对于同学们自主学习提出了更高的要求,所以某校提倡学生周日下午学生返校自习,实施一段时间后,抽样调查了200位学生.按照是否参与周日自习以及成绩是否有进步,统计得到列联表.依据表中数据及小概率值的独立性检验,分析“周日自习与成绩进步”是否有关(结果精确到0.01).
没有进步
有进步
合计
参与周日自习
30
130
160
未参与周日自习
20
20
40
合计
50
150
200
附:回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1),141分;
(2)有关.
【知识点】求回归直线方程、卡方的计算、独立性检验解决实际问题、根据回归方程进行数据估计
【分析】(1)由题意可得,,再根据、的公式计算即可得回归直线方程,最后将代入求解即可;
(2)求出的值,再判断是否成立,即可得答案.
【详解】(1)由表计算可得,,
所以,
所以,
故,
当时,,
由此预测每天课后自主学习数学时间为85分钟时的数学成绩为141分.
(2),
所以小概率值的独立性检验,周日自习与成绩进步有关.
【变式2】(24-25高三上·重庆·阶段练习)(1)2015年到2025年我国把全民健身上升为国家战略,提出力争在2025年实现全民健身与竞技体育的协调发展.某高校积极响应此号召,首先以身示范,开展了以“塑造健康体魄”的年度主题活动,一段时间后,学生的身体素质明显提高,将该大学近5个月体重超重的人数进行统计,得到如下表格:
月份
1
2
3
4
5
体重超重的人数
640
540
420
300
200
若该大学体重超重人数与月份变量(月份变量依次为1,2,3,4,5,…)具有线性相关关系,请预测从第几月份开始该大学体重超重的人数降至10人以下?
(2)在该校组织的一次趣味网球比赛中,甲,乙两人比赛对决.比赛规定:一局中赢球一方作为下一局的开球方.若甲开球,则本局甲赢的概率为.若乙开球,则本局甲赢的概率为,每局比赛的结果相互独立且没有平局,经抽签决定,第一局甲开球
(i)求第4局甲开球的概率;
(ii)设前4局中,甲开球的次数为X,求X的概率分布列和均值.
附1:回归方程中斜率和截距的最小二乘估计公式分别为:;,
附2:参考数据:,.
【答案】(1)第7月份;(2)(i);(ii)分布列见解析,均值为
【知识点】求回归直线方程、写出简单离散型随机变量分布列、求离散型随机变量的均值、根据回归方程进行数据估计
【分析】(1)最小二乘求回归方程,由回归方程进行预测;
(2)(i)由互斥事件和相互独立事件的概率公式计算;
(ii)根据相互独立事件的概率公式计算X的各种取值对应的概率,得分布列,再计算数学期望;
【详解】(1),,,
,
所以,
当时,解得,
从第7月份开始,大学生体重超重人数降至10人以下.
(2)记第局甲胜为事件,
(i)第4局甲开球为事件A,
;
(ii)的取值可能为,
,
,
,
,
X的概率分布列为:
X
1
2
3
4
P
.
【变式3】(24-25高三上·湖南·开学考试)中国能源生产量和消费量持续攀升,目前已经成为全球第一大能源生产国和消费国,能源安全是关乎国家经济社会发展的全局性、战略性问题,为了助力新形势下中国能源高质量发展和能源安全水平提升,发展和开发新能源是当务之急.近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份
2019
2020
2021
2022
2023
新能源汽车购买数量(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式.
参考数值:.
【答案】(1)
(2)线性回归方程是,该地区年新能源汽车购买数量约为万辆.
【知识点】相关系数的计算、根据回归方程进行数据估计、求回归直线方程
【分析】(1)利用所提供数据求,,,,代入参考公式求即可;
(2)结合公式求,,由此可得回归方程,再利用回归方程进行预测.
【详解】(1),
,
,
.
(2)由(1)知,
,
所以关于的线性回归方程是,
当时,(万辆),
该地区年新能源汽车购买数量约为万辆.
题型02 相关系数
【典例1】(2024·陕西西安·模拟预测)之前7年,我国生活垃圾无害处理量如下表:
序号
1
2
3
4
5
6
7
年
1
2
3
4
5
6
7
处理量
通过计算,线性相关系数则( ).
A.与的线性相关性很强,用线性回归模型拟合与的关系比较好
B.与的线性相关性比较弱,可以用线性回归模型拟合与的关系
C.与不线性相关,用线性回归模型㧍合与的关系,会有很大误差
D.与不线性相关,不可以用线性回归模型拟合与的关系
【答案】A
【知识点】相关系数的计算
【分析】计算出线性相关系数,判断出与的线性相关性很强,用线性回归模型拟合与的关系比较好.
【详解】,
,
,
所以与的线性相关性很强,用线性回归模型拟合与的关系比较好.
故选:A
【典例2】(24-25高二上·河北沧州·阶段练习)近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省的发展情况,某调查机构从该省抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)试求与间的样本相关系数,并说明与是否具有较强的线性相关关系(若0.75,则认为与具有较强的线性相关关系,否则认为没有较强的线性相关关系);
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由.
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为,相关系数.
参考数据:.
【答案】(1)0.95,与具有较强的线性相关关系.
(2),估计值为4.6.
(3)需要进行治理,理由见解析
【知识点】求回归直线方程、相关系数的计算、相关指数的计算及分析、根据回归方程进行数据估计
【分析】(1)求出,求出相关系数公式中的各个量,即可得出结论;
(2)利用(1)中的数据求出,求出线性回归方程,即可求出时,的值;
(3)分别求出,的值,13与对比,即可得出结论.
【详解】(1)由题表得,.
,
所以,
,
,
所以,
因为,所以与具有较强的线性相关关系.
(2)由(1)得,
所以经验回归方程为.
当时,,
即当指标为7时,指标的估计值为4.6.
(3)该城市的交通管理部门需要进行治理.理由如下:
由题意得,
因为,所以该城市的交通管理部门需要进行治理.
【典例3】(24-25高三上·黑龙江哈尔滨·期中)为了了解高中学生课后自主学习数学时间(分钟/每天)和他们的数学成绩(分)的关系,某实验小组做了调查,得到一些数据(表一).
表一:
编号
1
2
3
4
5
学习时间
30
40
50
60
70
数学成绩
65
78
85
99
108
(1)请用相关系数说明该组数据中变量与变量之间的关系可以用线性回归模型拟合(结果精确到0.001);
(2)求关于的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;
(3)基于上述调查,某校提倡学生周六在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周六在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周六在校自主学习与成绩进步”是否有关.
表二:
没有进步
有进步
合计
参与周六在校自主学习
35
130
165
未参与周六不在校自主学习
25
30
55
合计
60
160
220
(参考数据:的方差为的方差为230.8,)
附:,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)详见解析;
(2)分.
(3)有关
【知识点】相关系数的计算、卡方的计算、求回归直线方程、独立性检验解决实际问题
【分析】(1)依据公式计算即可求得相关系数;
(2)利用最小二乘法求得回归方程,再令即可得解;
(3)根据公式求得,再对照临界值表即可得解.
【详解】(1)
,
又的方差为的方差为230.8,
则
r值非常接近于1,故变量与变量之间的关系可以用线性回归模型拟合.
(2),
,
故,当时,,
故预测每天课后自主学习数学时间为100分钟时的数学成绩为分.
(3)
,
因为,所以依据的独立性检验,
可以认为“周六在校自主学习与成绩进步”有关.
【变式1】(23-24高二下·江苏扬州·期末)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 .
参考公式:.
【答案】/1.875
【知识点】相关系数的计算、线性回归
【分析】根据参考数据及公式先利用相关系数求出,再求即可.
【详解】因为,
所以,
由,
解得,
所以.
故答案为:
【变式2】(24-25高二上·四川眉山·期中)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有关联
(2),该经验回归方程有价值.
【知识点】相关系数的计算、卡方的计算、完善列联表
【分析】(1)先补全列联表,再计算卡方,根据独立性检验原则即可判断;
(2)通过给出的经验回归方程公式求相关系数,再判断.
【详解】(1)2×2列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
零假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,我们推断不成立,即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,得,,
因为经验回归方程为,
所以,
所以,
所以.
因为,所以该经验回归方程有价值.
【变式3】(23-24高三上·青海海南·期末)文旅部门统计了某网红景点在2022年3月至7月的旅游收入y(单位:万),得到以下数据:
月份x
3
4
5
6
7
旅游收入y
10
12
11
12
20
(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由(精确到0.001);
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,并判断能否有的把握认为“游客是否喜欢该网红景点与性别有关”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,参考数据:,线性回归方程:,其中,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1)可用线性回归模型拟合与的关系,.
(2)列联表见解析,有的把握认为游客是否喜欢该网红景点与性别有关.
【知识点】完善列联表、相关系数的计算、独立性检验解决实际问题、求回归直线方程
【分析】(1)先依据已知条件依次计算、、、和,进而计算,从而得出可用线性回归模型拟合与的关系,再根据最小二乘法求出即可得解.
(2)由已知数据即可填写列联表;根据表格数据计算,再结合独立性检验基本思想方法即可得解.
【详解】(1)由已知得:,,
所以,
,
,
所以,
因为,说明与的线性相关关系很强,可用线性回归模型拟合与的关系,
所以,
所以关于的线性回归方程为:.
(2)列联表如下所示:
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
零假设:游客是否喜欢该网红景点与性别无关,
根据列联表中数据,,
依据小概率值的独立性检验推断不成立,
即有的把握认为游客是否喜欢该网红景点与性别有关.
题型03 相关指数计算
【典例1】(23-24高二下·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【答案】
【知识点】相关指数的计算及分析、非线性回归
【分析】将两边同时取对数可得,结合所给经验回归方程求出,由所给参考数据求出,即可求出决定系数.
【详解】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
【典例2】(23-24高二下·安徽蚌埠·期中)若一组观测值之间满足,且恒为0,则为 ;(参考公式:)
【答案】1
【知识点】相关指数的计算及分析
【分析】由恒为0,可得,再结合公式可求.
【详解】由恒为0,知恒成立,即恒成立,故.
故答案为:1
【典例3】(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
【答案】
【知识点】相关指数的计算及分析、根据样本中心点求参数
【分析】根据回归直线方程必过样本中心点求出,即可求出,再根据决定系数公式求出.
【详解】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
【变式1】(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
【答案】0.96
【知识点】相关指数的计算及分析
【分析】依据决定系数的公式计算即可.
【详解】因为.
故答案为:.
【变式2】(23-24高三下·重庆·阶段练习)已知成对样本数据,,…,中,,…,不全相等,且所有样本点都在直线上,则这组成对样本数据的样本相关系数r= ,其决定系数= .
【答案】 1
【知识点】相关系数的意义及辨析、相关指数的计算及分析
【分析】由所有样本点都在一条直线上,结合相关系数的意义,可得出答案.
【详解】由所有样本点都在直线上,
又,
由题易知,.
故答案为:
【变式3】(24-25高三上·陕西西安·阶段练习)2022年11月29日23时03分.我国酒泉卫星发射中心用长征二号F遥十五运载火箭,成功将神舟十五号载人飞船送入预定轨道,顺利将费俊龙、邓清明、张陆3名航天员送入太空,发射取得圆满成功.11月30日7时33分,神舟十五号3名航天员顺利进驻中国空间站,与神舟十四号航天员乘组首次实现“太空会师”.某公司负责生产的A型材料是神舟十五号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:
序号
1
2
3
4
5
6
7
x
2
3
4
6
8
10
13
y
15
22
27
40
18
54
60
建立了y与x的两个回归模型:模型①:,模型②:;
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
回归模型
模型①
模型②
79.31
20.2
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
【答案】(1)
(2)模型②拟合精度更高、更可靠,72.93亿元
【知识点】用回归直线方程对总体进行估计、相关指数的计算及分析
【分析】(1)由已知数据计算相关指数即可;
(2)当越大时,回归方程的拟合效果越好.即可判断模型②更可靠,然后估计即可.
【详解】(1)对于模型①,
对应的,
故对应的,
故对应的相关指数,对于模型②,
同理对应的相关指数,.
(2)模型②拟合精度更高、更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为(亿元).
题型04 残差分析
【典例1】(多选)(24-25高三上·广东·开学考试)变量之间的相关数据如下表所示,其经验回归直线经过点,且相对于点的残差为,则( )
A. B. C. D.残差和为
【答案】AD
【知识点】根据样本中心点求参数、残差的计算
【分析】结合回归方程的性质和残差的定义列方程求,判断A,B,C,求残差和判断D.
【详解】因为经验回归直线经过点,
所以,,
因为相对于点的残差为,
所以,
所以,,,A正确,B错误,C错误,
所以,
当时,,
当时,,
当时,,
当时,,
当时,,
所以残差和为,D正确.
故选:AD.
【典例2】(24-25高二上·河北沧州·阶段练习)近年来,政府相关部门引导乡村发展旅游业的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲、乙两名同学一起收集了6家农户的数据,进行回归分析,得到两个回归模型:模型①;模型②.对以上两个回归方程进行残差分析,得到下表:
种植面积亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
0.38
0.28
模型②
估计值
26.84
20.17
18.83
17.31
16.46
残差
0.83
3.17
注:表中.
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求其经验回归方程.
参考公式:.
【答案】(1)表格见解析,模型①拟合效果更好.
(2)
【知识点】求回归直线方程、残差的计算、线性回归
【分析】(1)根据回归模型①②分别代入求出相应每亩种植管理成本的估计值,再由实际值与估计值的差求出相应残差,然后分别计算残差平方和,比较大小判断拟合效果即可;
(2)根据残差的绝对值剔除异常数据,由参考公式求解可得经验回归方程.
【详解】(1)当时,
当时,,
完成表格如下:
种植面积/亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
16
14
模估计值
25.27
23.62
21.97
20.32
17.02
13.72
①残差
0.38
1.68
.02
0.28
模估计值
26.84
22.39
20.17
18.83
17.31
16.46
②残差
.84
1.61
0.83
3.17
注:表中.
模型①的残差平方和为5.0994,
模型②的残差平方和为24.4832,
因为,
即模型①的残差平方和比模型②的残差平方和小,所以模型①拟合效果更好.
(2)由题意及(1)可知,模型①中仅第四组数据残差的绝对值超过1.5,
故应剔除第四组数据,剔除后,
则,
所以
,
则,
所以所求经验回归方程为.
【典例3】(23-24高二下·山东泰安·期末)2023年全国竞走大奖赛,暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:s)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步频为0.30的残差.
参考数据:,.参考公式:,.
【答案】(1),秒
(2)
【知识点】残差的计算、求回归直线方程
【分析】(1)根据最小二乘法即可求解,
(2)由残差的计算公式即可求解.
【详解】(1)依题意可得,,
, ,
所以回归直线方程为,
将代入得,解得,所以当步长为时,步频约是秒.
(2)根据(1)得到,;
所以步长为0.30残差和为.
【变式1】(24-25高三·上海·课堂例题)从某大学中随机选取8名女大学生,其身高(单位:cm)与体重(单位:kg)的数据如下表:
165
165
157
170
175
165
155
170
48
57
50
54
64
61
43
59
若已知与的线性回归方程为,那么选取的女大学生身高为175cm时,相应的残差为 .
【答案】0.96
【知识点】根据回归方程进行数据估计、残差的计算
【分析】由线性回归方程先求时的值,再根据残差的计算公式即可求解.
【详解】令得,所以残差为
故答案为:
【变式2】(23-24高二下·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
【答案】
【知识点】根据样本中心点求参数、残差的计算
【分析】由表格计算可得,,把,代入回归方程可得,进而得出残差.
【详解】由表格可得:,,
把代入,解得,
,
把代入解得,
在样本处的残差为.
故答案为:.
【变式3】(24-25高二下·全国·课后作业)今年全国两会召开前,有人大代表提议:要大力提高国产芯片的应用率,推动“卡脖子”及高端芯片的研发及应用,并加大政策刺激力度,在芯片的研发端、应用端等多方面研究和出台针对国产芯片全产业链条的鼓励措施.芯片作为集成电路上的载体,是影响一个国家现代工业的重要因素.某公司过去七年在芯片技术上的研发投入x(单位:亿元)与收益y(单位:亿元)的数据统计如图:
(1)由折线图可知y与x的关系可以用一元线性回归模型拟合,请根据折线图的数据,求出y关于x的经验回归方程(数据均保留整数);
(2)利用(1)中经验回归方程,求折线图中数据残差的平方和.
附:.
【答案】(1)
(2)201
【知识点】残差的计算、求回归直线方程
【分析】(1)由统计图的数据,求得的值,以及,代入回归系数的公式,求得和,即可求得回归直线方程;
(2)由统计图中的数据,以及(1)中的回归直线方程,得出统计图表,结合残差的计算公式,即可求解.
【详解】(1)解:由统计图的数据,可得,
,
又由
所以,
所以关于的经验回归方程为.
(2)解:由统计图中的数据,以及(1)中的回归直线方程,可得如图所示的统计表:
2
3
4
6
8
10
13
13
22
31
42
50
56
58
19
23
27
35
43
51
63
残差
4
7
7
5
所以该组数据残差的平方和为.
题型05 非线性拟合
【典例1】(24-25高三上·陕西西安·阶段练习)为践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高三年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.为了解活动效果,该年级对开展活动以来近6个月体重超重的人数进行了调查,调查结果统计如图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出
月份x
1
2
3
4
5
6
体重超标人数y
98
77
54
48
32
27
(1)该年级体重超重人数y与月份x之间的经验回归方程系数的最终结果精确到;
(2)预测从开展活动以来第几个月份开始该年级体重超标的人数降至10人以下.
附:经验回归方程:中,,;参考数据:,,,
【答案】(1)
(2)从第十个月开始
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)由计算公式与参考数据,求出则可得回归方程;
(2)根据经验回归方程建立不等式,解出不等式则可预测.
【详解】(1)由得,
由题意得,,
所以,
,
所以,
即y关于x的经验回归方程为
(2)令,
所以,
又由于,所以解得,且,
所以从第十个月开始,该年级体重超标的人数降至10人以下.
【典例2】(23-24高三下·湖北十堰·阶段练习)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业年至年的利润(单位:亿元),得到如图所示的散点图.其中年至年对应的年份代码依次为.
我们给定一些参考公式和数据:,
,,,,
(1)根据散点图判断,和哪一个适宜作为企业利润(单位:亿元)关于年份代码x的回归方程类型.(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立关于的回归方程;
(3)根据(2)的结果,估计年的企业利润.
【答案】(1)适宜
(2)
(3)亿元
【知识点】解释回归直线方程的意义、用回归直线方程对总体进行估计、求回归直线方程
【分析】(1)利用散点图选择合适的模型即可.
(2)利用最小二乘法求解回归方程即可.
(3)利用回归方程合理估计即可.
【详解】(1)适宜,
由散点图可知,相关点并不聚集在一条直线上,
所以要用非线性模型拟合,故用适宜.
(2)由题意得,,
,
,
所以.
(3)令,
所以估计2024年的企业利润为亿元.
【典例3】(23-24高二下·内蒙古乌兰察布·期末)水果店的销售额与所售水果的价格、质量及该店被附近居民的认可度密不可分.已知某水果店于2023年1月开张,前6个月的销售额(单位:万元)如下表所示:
月份
1月
2月
3月
4月
5月
6月
时间代码
1
2
3
4
5
6
销售额
(单位:万元)
2.0
4.0
5.2
6.1
6.8
7.4
(1)根据题目信息,与哪一个更适合作为销售额关于时间的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果,求出销售额关于时间的回归方程.(注:数据保留整数);
(3)为进一步了解该水果店的销售情况,从前6个月中任取3个月进行分析,表示取到的3个月中每月销售额不低于5万元的月份个数,求随机变量的分布列和数学期望.
参考公式与数据:,,,,,
样本数据的线性回归方程的斜率和截距的最小二乘法估计分别为,.
【答案】(1)
(2)
(3)分布列见解析,.
【知识点】求回归直线方程、求离散型随机变量的均值、解释回归直线方程的意义、写出简单离散型随机变量分布列
【分析】(1)根据表中的数据,可得关于时间的变化不是直线型,即可选择类型;
(2)根据已知数据求的值,可得销售额关于时间的回归方程;
(3)随机变量的所有可能取值为1,2,3,计算每个可能取值的概率,并写出分布列及数学期望即可.
【详解】(1)根据表中的数据,可得关于时间的变化不是直线型,
所以更适合作为销售额关于时间的回归方程类型;
(2),,
,
,
所以,销售额关于时间的回归方程为;
(3)的所有可能取值为1,2,3,
则,
,
.
所以,的分布列为
1
2
3
,
即的数学期望为2.
【变式1】(24-25高三上·山东滨州)我国自主研发的某种产品,其厚度越小,则该种产品越优良,为此,某科技研发团队经过较长时间的实验研发,不断地对该产品的生产技术进行改造提升,最终使该产品的优良厚度达到领先水平,并获得了生产技术专利;
(1)在研发过程中,对研发时间上x(月)和该产品的厚度y(nm)进行统计,其中1~7月的数据资料如下:
x月
1
2
3
4
5
6
7
y(nm)
99
99
45
32
30
24
21
现用作为y关于x的回归方程类型,请利用表中数据,求出该回归方程,并估计该产品的最小厚度约为多少?
(2)某企业现有3条老旧的该产品的生产线,迫于竞争压力,决定关闭并出售生产线.现有以下两种售卖方案可供选择:
方案一:直接售卖,则每条生产线可卖6万元;
方案二:先花22万元购买技术专利并对老旧生产线进行改造,使其达到生产领先水平后再售卖.已知在改造过程中,每条生产线改造成功的概率均为,且相互独立.若改造成功,则每条生产线可卖20万元;若改造失败,则卖价为0万元.
①设3条老旧生产线中改造成功的生产线条数为X,求X的分布列和数学期望;
②请判断该企业应选择哪种售卖方案可能更为有利?并说明理由.
参考数据:
设,.;
参考公式:对于一组数据,,…,,其回归直线的斜率和纵截距的最小二乘法估计的计算公式为,.
【答案】(1),13nm
(2)①分布列见解析,;②方案二,理由见解析
【知识点】求回归直线方程、求离散型随机变量的均值、写出简单离散型随机变量分布列、根据回归方程进行数据估计
【分析】(1)设,则,利用回归直线公式可得,则关于的回归方程为,可以估计该产品的"理想"优良厚度约为13nm;
(2)①由已知,可得,分别求出X取值时的概率,即可列出分布列,进而求出数学期望;
②分别计算两种方案的收益,比较即得.
【详解】(1)设,则,
所以,
,
所以,
所以关于的回归方程为,
所以可以估计该产品的"理想"优良厚度约为13nm.
(2)X的取值为,
因为每条生产线改造成功的概率均为,且相互独立,
所以,
所以;
;
;
;
所以的分布列为
0
1
2
3
所以.
②当实施方案一时,设3条生产线的卖价为万元,则;
当实施方案二时,设3条生产线的卖价为万元,则,
所以的数学期望.
因为,
所以该企业应选择方案二售卖可能更为有利.
【变式2】(24-25高二下·全国·课后作业)某书业出版集团为适应新时期学生的需要,不断改革创新,得到了广大师生的一致认可与好评,该集团为应对教材改革的需要,为今后的工作做好准备,为此特别统计了近9年以来数学学科教辅材料的年销售额(单位:十万本,),得到如图所示的散点图及一些统计量的值:(其中1~9对应的年份是2014~2022)
2.72
19
139.09
1095
表中,.
(1)从9个样本点中任意选取2个,在2个点的年销售额都不高于三十万本的条件下,求2个点都高于二十万本的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求关于的回归方程,并估计该书业出版集团从哪一年开始数学教辅材料的年销售额超过四十万本.
参考公式:回归直线方程中,,
参考数据:.
【答案】(1)
(2),2027年
【知识点】求回归直线方程、计算条件概率、计算古典概型问题的概率、根据回归方程进行数据估计
【分析】(1)设事件,利用古典概型概率公式计算,利用条件概率公式计算即得;
(2)由可得,,依次求出,,结合题中数据代入的计算公式,即得回归方程,依题列出不等式,求解即得.
【详解】(1)9个样本点的年销售额中不高于三十万本的有5个,高于二十万本且不高于三十万本的有3个,
设事件“所取2个点的年销售额都不高于三十万本”,
事件“所取2个点的年销售额高于二十万本”,
则事件“所取2个点的年销售额高于二十万本且不高于三十万本”,
依题得,,,
故.
(2)由可得,,
则,,
于是,,
,.
令,
解得,,
即该书业出版集团从2027年开始数学教辅材料的年销售额超过四十万本.
【变式3】(23-24高二下·重庆长寿·期末)混凝土具有原材料丰富、抗压强度高、耐久性好等特点,是目前使用量最大的土木建筑材料.抗压强度是混凝土质量控制的重要技术参数,也是实际工程对混凝土要求的基本指标.为了解某型号某批次混凝土的抗压强度(单位:)随龄期(单位:天)的发展规律,质检部门在标准试验条件下记录了10组混凝土试件在龄期分别为时的抗压强度的值,并对数据作了初步处理,得到下面的散点图及一些统计量的值.
9.4
29.7
2
366
5.5
439.2
55
表中.
(1)根据散点图判断与哪一个适宜作为抗压强度关于龄期的回归方程类型?选择其中的一个模型,并根据表中数据,建立关于的回归方程;
(2)工程中常把龄期为28天的混凝土试件的抗压强度视作混凝土抗压强度标准值.已知该型号混凝土设置的最低抗压强度标准值为.
(i)试预测该批次混凝土是否达标?
(ii)由于抗压强度标准值需要较长时间才能评定,早期预测在工程质量控制中具有重要的意义.经验表明,该型号混凝土第7天的抗压强度与第28天的抗压强度具有线性相关关系,试估计在早期质量控制中,龄期为7天的试件需达到的抗压强度.
附:
参考数据:.
【答案】(1)适宜,.
(2)(i)达标;(ii).
【知识点】求回归直线方程、根据回归方程进行数据估计、用回归直线方程对总体进行估计
【分析】(1)先换元再根据已知数据求出即可求出回归直线;
(2)根据回归直线预测即可.
【详解】(1)由散点图可以判断,适宜作为抗压强度关于龄期的回归方程类型.
令,先建立关于的线性回归方程,
由于
所以关于的线性回归方程为,
因此关于的线性回归方程为.
(2)(i)由(1)知,当龄期为28天,即时,
抗压强度的预报值,
因为,所以预测该批次混凝土达标.
(ii)令,得.
所以估计龄期为7天的混凝土试件需达到的抗压强度为.
题型06独立性检验
【典例1】(24-25高二上·黑龙江齐齐哈尔·阶段练习)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.
(1)求的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在的居民称为青年组,年龄在的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面列联表,依据的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
中老年
合计
0.15
0.1
0.05
0.025
0.01
2.072
2.706
3.841
5.024
6.635
【答案】(1)a的值为0.035,通过电子阅读的居民的平均年龄为41.5岁
(2)列联表见解析,能认为阅读方式与年龄有关联
【知识点】由频率分布直方图估计平均数、卡方的计算、完善列联表、独立性检验解决实际问题
【分析】(1)根据频率分布直方图中所有小矩形的面积之后为得到方程求出,再根据频率分布直方图中平均数的求法计算可得;
(2)首先完善列联表,再计算卡方,即可判断.
【详解】(1)由题图可得,,解得.
各组的频率依次为,,,,,
所以通过电子阅读的居民的平均年龄为:
(岁).
所以a的值为,通过电子阅读的居民的平均年龄为岁.
(2)因为200人中通过电子阅读与纸质阅读的人数之比为,
所以通过电子阅读的有150人,通过纸质阅读的有50人.
因为年龄在的居民称为青年组,年龄在的居民称为中老年组,
所以电子阅读的青年有(人),
中老年有(人).
补全列联表如下:(单位:人)
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
90
20
110
中老年
60
30
90
合计
150
50
200
零假设为:阅读方式与年龄无关.
根据表中数据,计算得.
所以依据的独立性检验,我们推断不成立,即认为阅读方式与年龄有关联.
【典例2】(2024高三·全国·专题练习)微生物生态学的研究表明,水生生物中存在大量的有益微生物,这些有益水生微生物对于维持水质平衡具有非常重要的作用.研究人员为了研究某种有益水生微生物在特定营养物质浓度下的增长速率与水体类型(淡水或咸水)的关系,对100个水体环境样本中的有益水生微生物在一段时间内的数量进行了观察,经统计得到如下的列联表:
水体环境类型
增长情况
合计
快速增长
未快速增长
淡水环境
25
咸水环境
10
合计
100
已知从这100个水体环境样本中随机抽取1个,该水体环境中的有益水生微生物属于“快速增长”的概率为.
(1)求;
(2)根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?
附:,
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1),;
(2)答案见解析.
【知识点】卡方的计算、独立性检验解决实际问题、完善列联表、用频率估计概率
【分析】(1)根据已知概率值及频率估计概率求参数a,再由样本总数求参数b即可;
(2)根据(1)完善列联表,应用卡方公式求卡方值,结合独立性检验的基本思想得结论.
【详解】(1)因为从这100个样本中随机抽取1个,该有益水生微生物属于“快速增长”的概率为,
则,解得,又,解得,
所以,.
(2)由(1)得,列联表如下:
水体环境类型
增长情况
合计
快速增长
未快速增长
淡水环境
30
25
55
咸水环境
10
35
45
合计
40
60
100
令零假设为:该有益水生微生物“快速增长”与水体环境类型无关,
由,根据小概率值的独立性检验,推断不成立,
即认为该有益水生微生物“快速增长”与水体环境类型有关,此推断犯错误的概率不超过0.01.
因为,根据小概率值的独立性检验,没有充分证据推断不成立,
即认为成立,即认为该有益水生微生物“快速增长”与水体环境类型无关.
【典例3】(24-25高三上·广西河池·阶段练习)中药是中华民族的瑰宝,除用来治病救人外,在调理身体、预防疾病等方面也发挥着重要的作用.某研究机构为了解草药A对某疾病的预防效果,随机调查了100名人员,数据如下:
未患病
患病
合计
服用草药
48
12
60
未服用草药
22
18
40
合计
70
30
100
(1)依据小概率值的独立性检验,分析草药对预防该疾病是否有效;
(2)已知草药对该疾病的治疗有效的概率的数据如下:对未服用草药的患者治疗有效的概率为,对服用草药的患者治疗有效的概率为.若用频率估计概率,现从患此疾病的人中随机抽取1人使用草药进行治疗,求治疗有效的概率.
附:参考公式:,其中.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有效
(2)
【知识点】卡方的计算、利用全概率公式求概率
【分析】(1)由列联表中数据求得的值,再与临界值表对照下结论;
(2)分别求得患者未服用草药A和已服用草药A”的概率,利用全概率公式求解.
【详解】(1)解:由列联表中数据得:,
根据小概率值的独立性检验,可以推断零假设不成立,
即认为草药对预防该疾病有效;
(2)设事件M表示“草药B的治疗有效”,事件表示“患者未服用草药A”,事件表示“患者已服用草药A”,
则,
,
所以由全概率公式得:,
.
【变式1】(2024·四川成都·模拟预测)已知某学校为提高学生课外锻炼的积极性,开展了丰富的课外活动,为了解学生对开展的课外活动的满意程度,该校随机抽取了350人进行调查,整理得到如下列联表:
性别
课外活动
合计
满意
不满意
男
150
100
250
女
50
50
100
合计
200
150
350
(1)根据小概率值的独立性检验,能否认为该校学生对课外活动的满意情况与性别因素有关联?
(2)从这350名样本学生中任选1名学生,设事件A=“选到的学生是男生”,事件B=“选到的学生对课外活动满意”,比较和的大小,并解释其意义,
附:
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)认为该校学生对课外活动的满意情况与性别因素无关联
(2),意义:男生对课外活动满意的概率比女生对课外活动满意的概率大;或者男生对课外活动满意的人数比女生对课外活动满意的人数多等等
【知识点】独立性检验解决实际问题、计算条件概率
【分析】(1)同过列联表中数据计算的值,再与小概率值进行比较得出结论;
(2)根据条件概率公式本别计算和的值并比较两值的大小,并根据条件概率的含义说明所得结论在本题对应的意义.
【详解】(1)提出零假设:该校学生对课外活动的满意情况与性别因素无关联,
根据表中数据,得到,
所以根据小概率值的独立性检验,没有充分证据推断不成立,
即认为该校学生对课外活动的满意情况与性别因素无关联.
(2)解法1:依题意得,,
,
则.
解法2: 依题意得,,,
,,
所以,,
则.
意义:男生对课外活动满意的概率比女生对课外活动满意的概率大;或者男生对课外活动满意的人数比女生对课外活动满意的人数多等等.
【变式2】(24-25高三上·广东·阶段练习)目前,国际上常用身体质量指数()来衡量人体胖瘦程度. 我国的值标准如下.
BMI 值
(0,18.5)
等级
偏瘦
正常
偏胖
肥胖
某单位采用分层随机抽样的方法抽取了 50 名男员工,30 名女员工, 其中 30 名女员工的值如下.
编号
1
2
3
4
5
6
7
8
9
10
值
21.6
18.4
16.5
16.1
24.5
19.4
21. 3
21.6
26.6
30. 6
编号
11
12
13
14
15
16
17
18
19
20
值
21.8
18.7
26.6
20.8
28.8
27. 1
20.9
32.2
22.4
17.9
编号
21
22
23
24
25
26
27
28
29
30
值
26.2
19.8
22.3
29.7
30. 3
24.5
18.8
23.3
28.2
18.4
(1)以频率估计概率,若在该单位任选 3 名女员工,求这 3 人中至少有 1 人的 值处于肥胖等级的概率;
(2)若被抽中的 50 名男员工中有 14 人的值处于肥胖等级,根据这 80 人的 值,将 列联表补充完整,并根据小概率值 的独立性检验,能否认为该单位员工的性别与肥胖有关?
肥胖
不肥胖
总计
女员工
30
男员工
50
总计
80
附: ,其中 .
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)
(2)列联表见解析,认为该单位员工的性别与肥胖之间无关联
【知识点】独立性检验解决实际问题、独立重复试验的概率问题、完善列联表、计算古典概型问题的概率
【分析】(1)由古典概型概率计算公式求得女员工的值处于肥胖等级的概率,再由独立事件及对立事件概率计算公式即可求解;
(2)求得,结合附表,即可判断.
【详解】(1)由表格数据可知 30 名女员工中, BMI 值处于肥胖等级的有 6 人,则估计该单位女员工的 BMI 值处于肥胖等级的概率 .
在该单位任选 3 名女员工,则这 3 人中至少有 1 人的值处于肥胖等级的概率
(2) 列联表如下:
肥胖
不肥胖
总计
女员工
6
24
30
男员工
14
36
50
总计
20
60
80
零假设为 : 该单位员工的性别与肥胖之间无关联.
根据小概率值 的独立性检验,没有充分证据推断 不成立,因此可以认为 成立,即认为该单位员工的性别与肥胖之间无关联.
【变式3】 (24-25高三上·广西南宁·阶段练习)米接力短跑作为田径运动的重要项目,展现了一个国家短跑运动的团体最高水平.每支队伍都有自己的一个或几个明星队员,现有一支米接力短跑队,张三是其队员之一,经统计该队伍在参加的所有比赛中,张三是否上场时该队伍是否取得第一名的情况如下表.如果依据小概率值的独立性检验,可以认为队伍是否取得第一名与张三是否上场有关,则认为张三是这支队伍的明星队员.
张三是否上场
队伍是否取得第一名的情况
取得第一名
未取得第一名
上场
10
40
未上场
6
合计
24
(1)完成列联表,并判断张三是否是这支队伍的明星队员.
(2)米接力短跑分为一棒、二棒、三棒、四棒4个选手位置.张三可以作为一棒、二棒或四棒选手参加比赛.当他上场参加比赛时,他作为一棒、二棒、四棒选手参赛的概率分别为,相应队伍取得第一名的概率分别为.当张三上场参加比赛时,队伍取得第一名的概率为0.7.
(i)求的值;
(ii)当张三上场参加比赛时,在队伍取得某场比赛第一名的条件下,求张三作为四棒选手参加比赛的概率.
附:.
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
【答案】(1)列联表见解析,是
(2)(i)(ii)
【知识点】计算条件概率、利用全概率公式求概率、卡方的计算
【分析】(1)由已知条件直接给出列联表,再求得,即可判断;
(2)由全概率计算公式及条件概率计算公式即可求解.
【详解】(1)根据题意,可得的列联表:
张三是否上场
队伍是否取得第一名的情况
合计
取得第一名
未取得第一名
上场
30
10
40
未上场
6
14
20
合计
36
24
60
零假设:队伍是否取得第一名与张三是否上场无关;
,
依据小概率值的独立性检验,可以认为队伍是否取得第一名与张三是否上场有关;
故张三是这支队伍的明星队员.
(2)由张三上场时,作为一棒、二棒、四棒选手参赛的概率分别为,
相应队伍取得第一名的概率分别为.
设事件:张三作为一棒参赛,事件:张三作为二棒参赛,
事件C:张三作为四棒参赛,事件D:张三上场且队伍获得第一名;
则;
(i)由全概率公式:
,
即,又,
联立解得:.
(ii)由条件概率公式:.
原创精品资源学科网独家享有版权,侵权必究!13
学科网(北京)股份有限公司
$$
第05讲 第八章 成对数据的统计分析 章末题型大总结
题型01 回归直线方程
【典例1】(2024高三·北京·专题练习)某地区2019年至2023年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2019
2020
2021
2022
2023
年份代号x
1
2
3
4
5
人均纯收入
2.3
3.3
4.1
4.4
4.9
(1)由表可知与具有线性相关关系,求关于的线性回归方程;
(2)利用(1)中的回归方程,预测该地区2025年农村居民家庭人均纯收入;
(3)用(1)中所求线性回归方程得到与对应的人均纯收入预测值,当数据对应残差的绝对值时,将该数据称作一个“好数据”,经过计算统计得到这5个数据中“好数据”有2个,不是“好数据”的有3个,现从5个数据中任选3个,求恰好有两个“好数据”的概率.
【典例2】(24-25高三上·宁夏中卫·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”下表是某市一主干道路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:
月份
1
2
3
4
5
违章驾驶人次
125
105
100
90
80
(1)已知可用线性回归模型拟合违章人次与月份之间的关系,求关于的经验回归方程,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从这5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下表:
不礼让行人
礼让行人
合计
驾龄不超过2年
24
16
驾龄2年以上
26
24
合计
完成上面列联表,依据小概率值的独立性检验,能否认为“礼让行人”行为与驾龄有关?
(3)结合(2)中求得的结果,谈谈你对结论判断的体会.
附:,.
其中
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【典例3】(24-25高三上·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到下面的统计表.
年份t
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
销量y(万辆)
11
13
18
21
27
(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能源汽车的销量最早在哪一年能突破50万辆;
(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车的人数的比例大约为.从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.
参考公式:
对于一组数据,其回归直线中斜率和截距的最小二乘估计公式分别为:.
【变式1】(24-25高三上·四川绵阳·阶段练习)为了了解某校学生每天课后自主学习数学的时间(分钟/每天)和他们的数学成绩(分)的关系,学校数学组老师进行了一些调研,得到以下数据.
学习时间
20
30
40
50
60
数学成绩
59
72
82
97
110
(1)已知与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为85分钟时的数学成绩(结果精确到整数);(参考数据:,)
(2)由于新高考改革,对于同学们自主学习提出了更高的要求,所以某校提倡学生周日下午学生返校自习,实施一段时间后,抽样调查了200位学生.按照是否参与周日自习以及成绩是否有进步,统计得到列联表.依据表中数据及小概率值的独立性检验,分析“周日自习与成绩进步”是否有关(结果精确到0.01).
没有进步
有进步
合计
参与周日自习
30
130
160
未参与周日自习
20
20
40
合计
50
150
200
附:回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式2】(24-25高三上·重庆·阶段练习)(1)2015年到2025年我国把全民健身上升为国家战略,提出力争在2025年实现全民健身与竞技体育的协调发展.某高校积极响应此号召,首先以身示范,开展了以“塑造健康体魄”的年度主题活动,一段时间后,学生的身体素质明显提高,将该大学近5个月体重超重的人数进行统计,得到如下表格:
月份
1
2
3
4
5
体重超重的人数
640
540
420
300
200
若该大学体重超重人数与月份变量(月份变量依次为1,2,3,4,5,…)具有线性相关关系,请预测从第几月份开始该大学体重超重的人数降至10人以下?
(2)在该校组织的一次趣味网球比赛中,甲,乙两人比赛对决.比赛规定:一局中赢球一方作为下一局的开球方.若甲开球,则本局甲赢的概率为.若乙开球,则本局甲赢的概率为,每局比赛的结果相互独立且没有平局,经抽签决定,第一局甲开球
(i)求第4局甲开球的概率;
(ii)设前4局中,甲开球的次数为X,求X的概率分布列和均值.
附1:回归方程中斜率和截距的最小二乘估计公式分别为:;,
附2:参考数据:,.
【变式3】(24-25高三上·湖南·开学考试)中国能源生产量和消费量持续攀升,目前已经成为全球第一大能源生产国和消费国,能源安全是关乎国家经济社会发展的全局性、战略性问题,为了助力新形势下中国能源高质量发展和能源安全水平提升,发展和开发新能源是当务之急.近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份
2019
2020
2021
2022
2023
新能源汽车购买数量(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式.
参考数值:.
题型02 相关系数
【典例1】(2024·陕西西安·模拟预测)之前7年,我国生活垃圾无害处理量如下表:
序号
1
2
3
4
5
6
7
年
1
2
3
4
5
6
7
处理量
通过计算,线性相关系数则( ).
A.与的线性相关性很强,用线性回归模型拟合与的关系比较好
B.与的线性相关性比较弱,可以用线性回归模型拟合与的关系
C.与不线性相关,用线性回归模型㧍合与的关系,会有很大误差
D.与不线性相关,不可以用线性回归模型拟合与的关系
【典例2】(24-25高二上·河北沧州·阶段练习)近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省的发展情况,某调查机构从该省抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)试求与间的样本相关系数,并说明与是否具有较强的线性相关关系(若0.75,则认为与具有较强的线性相关关系,否则认为没有较强的线性相关关系);
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由.
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为,相关系数.
参考数据:.
【典例3】(24-25高三上·黑龙江哈尔滨·期中)为了了解高中学生课后自主学习数学时间(分钟/每天)和他们的数学成绩(分)的关系,某实验小组做了调查,得到一些数据(表一).
表一:
编号
1
2
3
4
5
学习时间
30
40
50
60
70
数学成绩
65
78
85
99
108
(1)请用相关系数说明该组数据中变量与变量之间的关系可以用线性回归模型拟合(结果精确到0.001);
(2)求关于的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;
(3)基于上述调查,某校提倡学生周六在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周六在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周六在校自主学习与成绩进步”是否有关.
表二:
没有进步
有进步
合计
参与周六在校自主学习
35
130
165
未参与周六不在校自主学习
25
30
55
合计
60
160
220
(参考数据:的方差为的方差为230.8,)
附:,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式1】(23-24高二下·江苏扬州·期末)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 .
参考公式:.
【变式2】(24-25高二上·四川眉山·期中)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式3】(23-24高三上·青海海南·期末)文旅部门统计了某网红景点在2022年3月至7月的旅游收入y(单位:万),得到以下数据:
月份x
3
4
5
6
7
旅游收入y
10
12
11
12
20
(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由(精确到0.001);
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,并判断能否有的把握认为“游客是否喜欢该网红景点与性别有关”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,参考数据:,线性回归方程:,其中,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
题型03 相关指数计算
【典例1】(23-24高二下·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【典例2】(23-24高二下·安徽蚌埠·期中)若一组观测值之间满足,且恒为0,则为 ;(参考公式:)
【典例3】(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
【变式1】(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
【变式2】(23-24高三下·重庆·阶段练习)已知成对样本数据,,…,中,,…,不全相等,且所有样本点都在直线上,则这组成对样本数据的样本相关系数r= ,其决定系数= .
【变式3】(24-25高三上·陕西西安·阶段练习)2022年11月29日23时03分.我国酒泉卫星发射中心用长征二号F遥十五运载火箭,成功将神舟十五号载人飞船送入预定轨道,顺利将费俊龙、邓清明、张陆3名航天员送入太空,发射取得圆满成功.11月30日7时33分,神舟十五号3名航天员顺利进驻中国空间站,与神舟十四号航天员乘组首次实现“太空会师”.某公司负责生产的A型材料是神舟十五号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:
序号
1
2
3
4
5
6
7
x
2
3
4
6
8
10
13
y
15
22
27
40
18
54
60
建立了y与x的两个回归模型:模型①:,模型②:;
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
回归模型
模型①
模型②
79.31
20.2
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
题型04 残差分析
【典例1】(多选)(24-25高三上·广东·开学考试)变量之间的相关数据如下表所示,其经验回归直线经过点,且相对于点的残差为,则( )
A. B. C. D.残差和为
【典例2】(24-25高二上·河北沧州·阶段练习)近年来,政府相关部门引导乡村发展旅游业的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲、乙两名同学一起收集了6家农户的数据,进行回归分析,得到两个回归模型:模型①;模型②.对以上两个回归方程进行残差分析,得到下表:
种植面积亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
0.38
0.28
模型②
估计值
26.84
20.17
18.83
17.31
16.46
残差
0.83
3.17
注:表中.
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求其经验回归方程.
参考公式:.
【典例3】(23-24高二下·山东泰安·期末)2023年全国竞走大奖赛,暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:s)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步频为0.30的残差.
参考数据:,.参考公式:,.
【变式1】(24-25高三·上海·课堂例题)从某大学中随机选取8名女大学生,其身高(单位:cm)与体重(单位:kg)的数据如下表:
165
165
157
170
175
165
155
170
48
57
50
54
64
61
43
59
若已知与的线性回归方程为,那么选取的女大学生身高为175cm时,相应的残差为 .
【变式2】(23-24高二下·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
【变式3】(24-25高二下·全国·课后作业)今年全国两会召开前,有人大代表提议:要大力提高国产芯片的应用率,推动“卡脖子”及高端芯片的研发及应用,并加大政策刺激力度,在芯片的研发端、应用端等多方面研究和出台针对国产芯片全产业链条的鼓励措施.芯片作为集成电路上的载体,是影响一个国家现代工业的重要因素.某公司过去七年在芯片技术上的研发投入x(单位:亿元)与收益y(单位:亿元)的数据统计如图:
(1)由折线图可知y与x的关系可以用一元线性回归模型拟合,请根据折线图的数据,求出y关于x的经验回归方程(数据均保留整数);
(2)利用(1)中经验回归方程,求折线图中数据残差的平方和.
附:.
题型05 非线性拟合
【典例1】(24-25高三上·陕西西安·阶段练习)为践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高三年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.为了解活动效果,该年级对开展活动以来近6个月体重超重的人数进行了调查,调查结果统计如图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出
月份x
1
2
3
4
5
6
体重超标人数y
98
77
54
48
32
27
(1)该年级体重超重人数y与月份x之间的经验回归方程系数的最终结果精确到;
(2)预测从开展活动以来第几个月份开始该年级体重超标的人数降至10人以下.
附:经验回归方程:中,,;参考数据:,,,
【典例2】(23-24高三下·湖北十堰·阶段练习)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业年至年的利润(单位:亿元),得到如图所示的散点图.其中年至年对应的年份代码依次为.
我们给定一些参考公式和数据:,
,,,,
(1)根据散点图判断,和哪一个适宜作为企业利润(单位:亿元)关于年份代码x的回归方程类型.(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立关于的回归方程;
(3)根据(2)的结果,估计年的企业利润.
【典例3】(23-24高二下·内蒙古乌兰察布·期末)水果店的销售额与所售水果的价格、质量及该店被附近居民的认可度密不可分.已知某水果店于2023年1月开张,前6个月的销售额(单位:万元)如下表所示:
月份
1月
2月
3月
4月
5月
6月
时间代码
1
2
3
4
5
6
销售额
(单位:万元)
2.0
4.0
5.2
6.1
6.8
7.4
(1)根据题目信息,与哪一个更适合作为销售额关于时间的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果,求出销售额关于时间的回归方程.(注:数据保留整数);
(3)为进一步了解该水果店的销售情况,从前6个月中任取3个月进行分析,表示取到的3个月中每月销售额不低于5万元的月份个数,求随机变量的分布列和数学期望.
参考公式与数据:,,,,,
样本数据的线性回归方程的斜率和截距的最小二乘法估计分别为,.
【变式1】(24-25高三上·山东滨州)我国自主研发的某种产品,其厚度越小,则该种产品越优良,为此,某科技研发团队经过较长时间的实验研发,不断地对该产品的生产技术进行改造提升,最终使该产品的优良厚度达到领先水平,并获得了生产技术专利;
(1)在研发过程中,对研发时间上x(月)和该产品的厚度y(nm)进行统计,其中1~7月的数据资料如下:
x月
1
2
3
4
5
6
7
y(nm)
99
99
45
32
30
24
21
现用作为y关于x的回归方程类型,请利用表中数据,求出该回归方程,并估计该产品的最小厚度约为多少?
(2)某企业现有3条老旧的该产品的生产线,迫于竞争压力,决定关闭并出售生产线.现有以下两种售卖方案可供选择:
方案一:直接售卖,则每条生产线可卖6万元;
方案二:先花22万元购买技术专利并对老旧生产线进行改造,使其达到生产领先水平后再售卖.已知在改造过程中,每条生产线改造成功的概率均为,且相互独立.若改造成功,则每条生产线可卖20万元;若改造失败,则卖价为0万元.
①设3条老旧生产线中改造成功的生产线条数为X,求X的分布列和数学期望;
②请判断该企业应选择哪种售卖方案可能更为有利?并说明理由.
参考数据:
设,.;
参考公式:对于一组数据,,…,,其回归直线的斜率和纵截距的最小二乘法估计的计算公式为,.
【变式2】(24-25高二下·全国·课后作业)某书业出版集团为适应新时期学生的需要,不断改革创新,得到了广大师生的一致认可与好评,该集团为应对教材改革的需要,为今后的工作做好准备,为此特别统计了近9年以来数学学科教辅材料的年销售额(单位:十万本,),得到如图所示的散点图及一些统计量的值:(其中1~9对应的年份是2014~2022)
2.72
19
139.09
1095
表中,.
(1)从9个样本点中任意选取2个,在2个点的年销售额都不高于三十万本的条件下,求2个点都高于二十万本的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求关于的回归方程,并估计该书业出版集团从哪一年开始数学教辅材料的年销售额超过四十万本.
参考公式:回归直线方程中,,
参考数据:.
【变式3】(23-24高二下·重庆长寿·期末)混凝土具有原材料丰富、抗压强度高、耐久性好等特点,是目前使用量最大的土木建筑材料.抗压强度是混凝土质量控制的重要技术参数,也是实际工程对混凝土要求的基本指标.为了解某型号某批次混凝土的抗压强度(单位:)随龄期(单位:天)的发展规律,质检部门在标准试验条件下记录了10组混凝土试件在龄期分别为时的抗压强度的值,并对数据作了初步处理,得到下面的散点图及一些统计量的值.
9.4
29.7
2
366
5.5
439.2
55
表中.
(1)根据散点图判断与哪一个适宜作为抗压强度关于龄期的回归方程类型?选择其中的一个模型,并根据表中数据,建立关于的回归方程;
(2)工程中常把龄期为28天的混凝土试件的抗压强度视作混凝土抗压强度标准值.已知该型号混凝土设置的最低抗压强度标准值为.
(i)试预测该批次混凝土是否达标?
(ii)由于抗压强度标准值需要较长时间才能评定,早期预测在工程质量控制中具有重要的意义.经验表明,该型号混凝土第7天的抗压强度与第28天的抗压强度具有线性相关关系,试估计在早期质量控制中,龄期为7天的试件需达到的抗压强度.
附:
参考数据:.
题型06独立性检验
【典例1】(24-25高二上·黑龙江齐齐哈尔·阶段练习)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.
(1)求的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在的居民称为青年组,年龄在的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面列联表,依据的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
中老年
合计
0.15
0.1
0.05
0.025
0.01
2.072
2.706
3.841
5.024
6.635
【典例2】(2024高三·全国·专题练习)微生物生态学的研究表明,水生生物中存在大量的有益微生物,这些有益水生微生物对于维持水质平衡具有非常重要的作用.研究人员为了研究某种有益水生微生物在特定营养物质浓度下的增长速率与水体类型(淡水或咸水)的关系,对100个水体环境样本中的有益水生微生物在一段时间内的数量进行了观察,经统计得到如下的列联表:
水体环境类型
增长情况
合计
快速增长
未快速增长
淡水环境
25
咸水环境
10
合计
100
已知从这100个水体环境样本中随机抽取1个,该水体环境中的有益水生微生物属于“快速增长”的概率为.
(1)求;
(2)根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?
附:,
0.01
0.005
0.001
6.635
7.879
10.828
【典例3】(24-25高三上·广西河池·阶段练习)中药是中华民族的瑰宝,除用来治病救人外,在调理身体、预防疾病等方面也发挥着重要的作用.某研究机构为了解草药A对某疾病的预防效果,随机调查了100名人员,数据如下:
未患病
患病
合计
服用草药
48
12
60
未服用草药
22
18
40
合计
70
30
100
(1)依据小概率值的独立性检验,分析草药对预防该疾病是否有效;
(2)已知草药对该疾病的治疗有效的概率的数据如下:对未服用草药的患者治疗有效的概率为,对服用草药的患者治疗有效的概率为.若用频率估计概率,现从患此疾病的人中随机抽取1人使用草药进行治疗,求治疗有效的概率.
附:参考公式:,其中.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式1】(2024·四川成都·模拟预测)已知某学校为提高学生课外锻炼的积极性,开展了丰富的课外活动,为了解学生对开展的课外活动的满意程度,该校随机抽取了350人进行调查,整理得到如下列联表:
性别
课外活动
合计
满意
不满意
男
150
100
250
女
50
50
100
合计
200
150
350
(1)根据小概率值的独立性检验,能否认为该校学生对课外活动的满意情况与性别因素有关联?
(2)从这350名样本学生中任选1名学生,设事件A=“选到的学生是男生”,事件B=“选到的学生对课外活动满意”,比较和的大小,并解释其意义,
附:
0.1
0.05
0.01
2.706
3.841
6.635
【变式2】(24-25高三上·广东·阶段练习)目前,国际上常用身体质量指数()来衡量人体胖瘦程度. 我国的值标准如下.
BMI 值
(0,18.5)
等级
偏瘦
正常
偏胖
肥胖
某单位采用分层随机抽样的方法抽取了 50 名男员工,30 名女员工, 其中 30 名女员工的值如下.
编号
1
2
3
4
5
6
7
8
9
10
值
21.6
18.4
16.5
16.1
24.5
19.4
21. 3
21.6
26.6
30. 6
编号
11
12
13
14
15
16
17
18
19
20
值
21.8
18.7
26.6
20.8
28.8
27. 1
20.9
32.2
22.4
17.9
编号
21
22
23
24
25
26
27
28
29
30
值
26.2
19.8
22.3
29.7
30. 3
24.5
18.8
23.3
28.2
18.4
(1)以频率估计概率,若在该单位任选 3 名女员工,求这 3 人中至少有 1 人的 值处于肥胖等级的概率;
(2)若被抽中的 50 名男员工中有 14 人的值处于肥胖等级,根据这 80 人的 值,将 列联表补充完整,并根据小概率值 的独立性检验,能否认为该单位员工的性别与肥胖有关?
肥胖
不肥胖
总计
女员工
30
男员工
50
总计
80
附: ,其中 .
0.1
0.01
0.001
2.706
6.635
10.828
【变式3】 (24-25高三上·广西南宁·阶段练习)米接力短跑作为田径运动的重要项目,展现了一个国家短跑运动的团体最高水平.每支队伍都有自己的一个或几个明星队员,现有一支米接力短跑队,张三是其队员之一,经统计该队伍在参加的所有比赛中,张三是否上场时该队伍是否取得第一名的情况如下表.如果依据小概率值的独立性检验,可以认为队伍是否取得第一名与张三是否上场有关,则认为张三是这支队伍的明星队员.
张三是否上场
队伍是否取得第一名的情况
取得第一名
未取得第一名
上场
10
40
未上场
6
合计
24
(1)完成列联表,并判断张三是否是这支队伍的明星队员.
(2)米接力短跑分为一棒、二棒、三棒、四棒4个选手位置.张三可以作为一棒、二棒或四棒选手参加比赛.当他上场参加比赛时,他作为一棒、二棒、四棒选手参赛的概率分别为,相应队伍取得第一名的概率分别为.当张三上场参加比赛时,队伍取得第一名的概率为0.7.
(i)求的值;
(ii)当张三上场参加比赛时,在队伍取得某场比赛第一名的条件下,求张三作为四棒选手参加比赛的概率.
附:.
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
原创精品资源学科网独家享有版权,侵权必究!13
学科网(北京)股份有限公司
$$