内容正文:
专题01 成对数据的统计分析
目录
【题型一 求相关系数】 2
【题型二 决定系数】 9
【题型三 求线性回归方程】 15
【题型四 曲线拟合】 21
【题型五 独立性检验】 26
一、相关关系的强弱
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
二、一元线性回归模型参数的最小二乘法
(1)经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
三、决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
四、独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【题型一 求相关系数】
1.(24-25高三·上海·课堂例题)某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,得到的实验数据经整理得到如下的折线图:
参考数据:,,.
(1)由图可以看出,这种酶的活性指标值与温度具有较强的线性相关性,请用相关系数加以说明;
(2)求关于的线性回归方程,并预测当温度为30℃时,这种酶的活性指标值.(计算结果精确到0.01)
【答案】(1)理由见解析
(2),13.22
【知识点】根据回归方程进行数据估计、相关系数的计算、求回归直线方程
【分析】(1)根据折线图中的数据求出,,然后根据已知数据和公式可求出相关系数,从而进行判断;
(2)根据已知的数据结合公式求出,从而可求出回归方程,把代入回归方程可预测当温度为30℃时,这种酶的活性指标值.
【详解】(1)由题可知,
,
,
则,
因为非常接近1,所以酶的活性与温度具有较强的线性相关性;
(2)由题可知,,
,
,
所以关于的线性回归方程为,
当时,.
故预测当温度为30℃时,这种酶的活性指标值为13.22.
2.(24-25高三·上海·课堂例题)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(,),其中表示年龄,表示脂肪含量,并计算得到,,,,.
请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求关于的线性回归方程(、的计算结果保留两位小数).
【答案】说明见解析,
【知识点】求回归直线方程、相关系数的计算
【分析】利用相关系数的计算公式求相关系数,根据结果可判断与具有相关关系,再结合公式求回归方程.
【详解】由已知,,,,,,
所以,
因为与的相关系数的绝对值接近1,
所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合;
由题可得,,
,
所以.
3.(24-25高三·上海·课堂例题)下面的数据是年龄在40到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平(满分100),以及每天花在看电视上的平均时间(小时).
看电视的平均时间
4.4
4.6
2.7
5.8
0.2
4.6
心脏功能水平
52
53
69
57
89
65
(1)求心脏功能水平与每天花在看电视上的平均时间之间的相关系数;
(2)求心脏功能水平与每天花在看电视上的平均时间的线性回归方程,并讨论方程是否有意义;(系数保留两位小数)
(3)估计平均每天看电视3小时的男子的心脏功能水平.
【答案】(1)
(2),有意义
(3)69
【知识点】求回归直线方程、相关系数的计算、根据回归方程进行数据估计
【分析】(1)根据相关系数公式求解即可;
(2)计算线性回归方程,再根据相关系数的绝对值判断即可;
(3)将x=3代入回归直线方程判断即可.
【详解】(1)由题意,,,
,
,
,
心脏功能水平与每天花在看电视上的平均时间之间的相关系数:
;
(2),
,
心脏功能水平与每天花在看电视上的平均时间的线性回归方程为.
因为,样本相关系数的绝对值接近1,
所以可以推断心脏功能水平与每天花在看电视上的平均时间两个变量线性相关,
且相关程度很强,所以这个线性回归方程是有意义的.
(3)将代入线性回归方程,可得,
即平均每天看电视3小时,心脏功能水平约为69.
4.(25-26高三上·上海·单元测试)为了监控某种医疗物资的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个医疗物资,并测量其尺寸(单位:).下面是检验员在一天内依次抽取的16个医疗物资的尺寸:
抽取次数
1
2
3
4
5
6
7
8
医疗物资尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次数
9
10
11
12
13
14
15
16
医疗物资尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,,,,其中为抽取的第个医疗物资的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的医疗物资尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为医疗物资尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检医疗物资中,如果出现了尺寸在之外的医疗物资,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
【答案】(1),可以认为
(2)需对当天的生产过程进行检查
【知识点】相关系数的计算、相关系数的意义及辨析、计算几个数据的极差、方差、标准差、计算几个数的平均数
【分析】(1)利用公式计算出相关系数,再根据,则可以认为医疗物资尺寸不随生产过程的进行而系统地变大或变小进行判断;
(2)计算出,,进一步得出的区间范围,观察样本数据看零件的尺寸在以外就需要对当天的生产过程进行检查.
【详解】(1)由样本数据得的相关系数为
.
由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小;
(2)由于,,
故的区间范围为,
由样本数据可以看出抽取的第13个零件的尺寸在以外,
因此需对当天的生产过程进行检查.
5.(2024·湖北武汉·模拟预测)随着科技发展的日新月异,人工智能融入了各个行业,促进了社会的快速发展.其中利用人工智能生成的虚拟角色因为拥有更低的人工成本,正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货销售金额得到逐步提升,以下为该公司自2023年8月使用虚拟角色直播带货后的销售金额情况统计.
年月
2023年8月
2023年9月
2023年10月
2023年11月
2023年12月
2024年1月
月份编号
1
2
3
4
5
6
销售金额/万元
15.4
25.4
35.4
85.4
155.4
195.4
若与的相关关系拟用线性回归模型表示,回答如下问题:
(1)试求变量与的样本相关系数(结果精确到0.01);
(2)试求关于的经验回归方程,并据此预测2024年2月份该公司的销售金额.(,均保留一位小数)
附:经验回归方程,其中,
样本相关系数
参考数据:.
【答案】(1)0.96
(2)万元
【知识点】求回归直线方程、相关系数的计算、根据回归方程进行数据估计
【分析】(1)由题意根据参考公式线分别算得以及,进一步代入相关系数公式即可求解;
(2)根据(1)中的数据以及参数数据依次算得,由此即可得经验回归方程并预测.
【详解】(1)
,
所以.
(2)由题意,
所以,
所以关于的经验回归方程为,
所以预测2024年2月份该公司的销售金额为万元.
6.(23-24高二上·上海·课后作业)为了解某市高中男生身高与体重的关系,随机抽取5所高中学校,并获得这些学校全部男生的身高(单位:cm)与体重(单位:kg)的数据.为了减少篇幅,从中随机选取10名高中男生的身高与体重的数据,如表所示.试根据表中数据绘制散点图,计算相关系数并判断学生身高与体重的相关程度..
10名高中男生的身高与体重如下表:
编号
1
2
3
4
5
6
7
8
9
10
身高/cm
174
176
176
181
182
179
169
168
171
180
体重/kg
55
58
62
74
88
68
54
52
56
86
附:相关系数,
【答案】答案见解析
【知识点】绘制散点图、相关系数的计算
【分析】按步骤绘制散点图,根据公式即可计算出值,则可判断相关性.
【详解】将表中的数据输入计算机电子表格办公软件的工作簿,
先选中身高与体重两行(或两列)数据,再选择插入统计图中的散点图,选择图形样式,就完成了散点图的绘制,如图所示.
从图中可以看出,总体上来说,样本学生的身高和体重之间具有明显的相关性,个子高的学生往往更重一些.
为了计算相关系数,设表示身高,表示体重,则
,
,
,
,
,
,
这说明样本学生的身高与体重之间具有很高的相关性.
【题型二 决定系数】
1.(23-24高二下·福建·期末)某企业拟对手机芯片进行科技升级,根据市场调研,得到科技升级投入(亿元)与科技升级直接收益(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
2
3
4
6
9
11
13
15
17
19
13
22
31
42
50
56
58
62
63
65
根据表格中的数据,当 时,建立了与的两个回归模型:模型①:;模型②:;当 时,确定与满足的线性回归方程为.
(1)根据下列表格中的数据,比较当 时,模型①、②的相关指数的大小,并选择拟合精度更高、更可靠的模型;
回归模型
模型①
模型②
回归方程
(附:刻画回归效果的相关指数)
(2)为鼓励科技创新,当科技升级的投入不少于亿元时,国家给予公司补贴亿元,比较根据市场调研科技升级投入亿元直接收益与投入亿元时科技升级实际收益的预测值的大小;
(附:用最小二乘法求线性回归方程的系数:)
(3)科技升级后,芯片的效率大幅提高,经实际试验得大致服从正态分布.公司对科技升级团队的奖励方案如下:若芯片的效率不超过,不予奖励;若芯片的效率超过,但不超过,每部芯片奖励元;若芯片的效率超过,每部芯片奖励元,记为每部芯片获得的奖励额,求(精确到).
(附:若随机变量,,.)
【答案】(1)模型②的相关指数大于模型①的相关指数,模型②
(2)技术升级投入亿元时,公司的实际收益更大
(3)
【知识点】求离散型随机变量的均值、根据回归方程进行数据估计、相关指数的计算及分析、3δ原则
【分析】(1)比较两个模型相关指数的大小,即可得出结论;
(2)计算出当时,关于的回归方程,可求出当时,实际收益的预测值,再与市场调研科技升级投入亿元直接收益比较大小,可得出结论;
(3)根据原则计算出、的值,结合题意可求得的值.
【详解】(1)解:由表格中的数据,,
所以,,则,
则模型②的相关指数大于模型①的相关指数,故回归模型②的拟合效果更好.
(2)解:当时,由已知可得.
,
因为,所以,,解得,
所以当时,与满足的线性回归方程为,
当时,根据市场调研科技升级投入亿元直接收益亿元.
当时,科技升级直接收益的预测值为亿元,
所以实际收益的预测值为亿元,
所以技术升级投入亿元时,公司的实际收益更大.
(3)解:,,
.
.
(元).
2.(23-24高二下·黑龙江哈尔滨·阶段练习)某果园种植“糖心苹果”已有十余年,为了提高利润,该果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图是2013年至2022年,该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图:
该果园为了预测2023年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由图中样本点的分布,可以认为样本点集中在曲线:的附近,对投资金额做交换,令,则,且有,,,.
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测投资金额为20万元时的年利润增量(结果保留两位小数).
回归模型
模型①
模型②
回归方程
102.28
36.19
附:,;
相关指数.
参考数据:,.
【答案】(1);
(2)模型①的小于模型②,选择模型②;(万元).
【知识点】相关指数的计算及分析、根据回归方程进行数据估计、求回归直线方程、相关系数的计算
【分析】(1)根据已知条件,结合最小二乘法和线性回归方程的公式,计算即可;
(2)根据已知条件,结合相关系数公式,即可得两模型的相关指数的大小,并选择拟合效果好的模型,再将,代入计算即可得答案.
【详解】(1)解:由,,得,
所以 ,
,
所以,模型②中,关于的回归方程为;
(2)解:由表中的数据,有,
则,
所以模型①的小于模型②,说明回归模型②刻画的拟合效果更好;
当时,模型②的年利润增量的预测值为:(万元).
3.(23-24高二下·湖南)红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度和产卵数的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①与回归模型②中选择一个来进行拟合.
表Ⅰ
温度x/℃
20
22
25
27
29
31
35
产卵数y/个
7
11
21
24
65
114
325
(1)请借助表Ⅱ中的数据,求出回归模型①的方程:
表Ⅱ(注:表中)
189
567
25.27
162
78106
11.06
3040
41.86
825.09
(2)类似的,可以得到回归模型②的方程为,试求两种模型下温度为时的残差;
(3)若求得回归模型①的相关指数,回归模型②的相关指数,请结合(2)说明哪个模型的拟合效果更好.
参考数据:.
附:回归方程中,
相关指数.
【答案】(1)(或)
(2)模型①:1.01;模型②:65.54
(3)模型①
【知识点】求回归直线方程、相关指数的计算及分析、残差的计算、非线性回归
【分析】(1)利用两边取自然对数,利用表中的数据即可求解;
(2)分别计算模型①、②在时残差;
(3)根据相关指数的大小判断模型①、②的残差平方和,再得出那个模型的拟合效果更好.
【详解】(1)由,得,
令,得,
由表Ⅱ数据可得,,
,
所以,
所以回归方程为(或).
(2)由题意可知,模型①在时残差为,
模型②在时残差为.
(3)因为,即模型①的相关指数大于模型②的相关指数,由相关指数公式知,模型①的残差平方和小于模型②的残差平方和,因此模型①得到的数据更接近真实数据,所以模型①的拟合效果更好.
4.(2024·山东·模拟预测)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
【答案】(1);
(2)①用比拟合效果更好;②190个.
【知识点】求回归直线方程、相关指数的计算及分析、非线性回归、根据回归方程进行数据估计
【分析】(1)利用最小二乘法即得;
(2)根据线性回归方程结合的值,即可比较拟合效果,然后将代入回归方程计算即得.
【详解】(1)由题意可知,
;
∴y关于x的线性回归方程是;
(2)①用指数回归模型拟合y与x的关系,相关指数,
线性回归模型拟合y与x的关系,相关指数,
且,
∴用比拟合效果更好.
②中,令,
则,
故预测温度为时该昆虫产卵数约为190个.
【题型三 求线性回归方程】
1.(25-26高三上·上海·单元测试)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2016
2017
2018
2019
2020
时间代号
1
2
3
4
5
储蓄存款/千亿元
5
6
7
8
10
(1)求关于的线性回归方程;
(2)用所求回归方程预测该地区2022年()的人民币储蓄存款.
【答案】(1)
(2)(千亿元)
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)由已知,求出,,再求出,,则可求出,,即可求出关于的线性回归方程;
(2)将代入回归方程,即可求出该地区2022年的人民币储蓄存款.
【详解】(1)根据题意得:,,
,
,
,,
所以关于的线性回归方程;
(2)当时,(千亿元),
即该地区2022年()的人民币储蓄存款为12千亿元.
2.(24-25高三·上海·课堂例题)某电商分析了近8年“双十一”期间的宣传费用(单位:万元)和利润(单位:万元)之间的关系,得到下列数据:
2
3
4
5
6
8
9
11
1
2
3
3
4
5
6
8
请回答:
(1)由表中数据,求线性回归方程,并预测当时,对应的利润为多少(、、精确到0.1)
参考数据:,.
(2)为了更好地完成任务,某电商决定让宣传部门的3名成员各自制订两个方案,从中任选2个方案进行宣传,求这2个方案出自同一个人的概率.
【答案】(1),9.6万元
(2)
【知识点】求回归直线方程、计算古典概型问题的概率、根据回归方程进行数据估计
【分析】(1)先求出,再结合已知的数据和公式求出,从而可求出回归方程,然后将代入回归方程可求出对应的利润;
(2)利用列举法求解即可.
【详解】(1)因为,,,,
所以
因为,
所以回归直线方程为,
当时,,
即利润约为9.6万元;
(2)记3名成员的方案分别、;、;、.
从中任选2个方案的基本事件含有:、、、、,
、、、、、、、、
、共15种.
其中这2个方案出自同一个人的基本事件含有、、,共3种.
所以.
3.(24-25高三上·上海·单元测试)现有某高新技术企业年研发费用投入(百万元)与企业年利润(百万元)之间具有线性相关关系,近5年的年研发费用和年利润的具体数据如表:
年研发费用(百万元)
1
2
3
4
5
年利润(百万元)
2
3
4
4
7
数据表明与之间有较强的线性关系.
(1)求对的回归直线方程;
(2)如果该企业某年研发费用投入8百万元,预测该企业获得年利润为多少?
【答案】(1)
(2)9.5百万元
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)由已知求得与的值,则线性回归方程可求得;
(2)根据(1)的回归方程中,取求得值即可.
【详解】(1)由题意可知,,
,
,
所以,
所以,
所以所求回归直线的方程为;
(2)在(1)中的方程中,令,得,
故如果该企业某年研发费用投入百万元,预测该企业获得年利润为百万元.
4.(24-25高三·上海·课堂例题)某饮料店为了推广“秋天的第一杯奶茶”,需了解一天的平均气温与奶茶销量之间的关系,为此记录了周一至周五的平均气温与奶茶销量(杯)的数据,如表所示:
9
11
12
10
8
23
26
30
25
21
(1)画出散点图;
(2)根据上表提供的数据,求出关于的经验回归方程;
(3)试根据(2)中求出的经验回归方程,预测平均气温约为时该饮料店的奶茶销量.
【答案】(1)作图见解析
(2)
(3)46杯
【知识点】绘制散点图、根据回归方程进行数据估计、求回归直线方程
【分析】(1)根据表格数据画出散点图即可;
(2)求出、、、得、可得答案;
(3)代入可得答案.
【详解】(1)画出散点图如下.
(2),
,
,
,
所以,,
所以;
(3)当时,.
故预测平均气温约为时该饮料店的奶茶销量为46杯.
5.(24-25高三·上海·课堂例题)2020年1月15日,教育部制定出台了《关于在部分高校开展基础学科招生改革试点工作的意见》(也称“强基计划”),选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生,由试点高校自主命题,校考过程中通过笔试后才能进入面试环节.
(1)为了更好地服务于高三学生,某研究机构对随机抽取的5名高三学生的记忆力和判断力进行统计分析,得到下表数据:
6
8
9
10
12
2
3
4
5
6
请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求关于的线性回归方程(精确到0.01);
(2)现有甲、乙两所大学的笔试环节都设有三门考试科目且每门科目是否通过相互独立,若某考生报考甲大学,每门笔试科目通过的概率均为,该考生报考乙大学,每门笔试科目通过的概率依次为、、,其中,根据规定每名考生只能报考强基计划的一所试点高校,若以笔试过程中通过科目数的期望为依据作出决策,求该考生更希望通过乙大学笔试时的取值范围.
【答案】(1)说明见解析,
(2)
【知识点】求回归直线方程、由离散型随机变量的均值求参数、相关系数的计算、二项分布的均值
【分析】(1)根据表格中的数据,求得相关系数,得到与之间的关系可用线性回归模型进行拟合,进而求得,即可求的回归直线的方程;
(2)通过甲大学的考试科目数,得到,设通过乙大学的考试科目数可能的取值为0,1,2,3,求得相应的概率,求得,根据考生更希望通过乙大学的笔试考试,列出不等式,即可求解.
【详解】(1)根据表格中的数据,可得
,,
,
,
,
可得相关系数,
故与之间的关系可用线性回归模型进行拟合,
又由,
可得.
综上回归直线方程.
(2)通过甲大学的考试科目数,则,
设通过乙大学的考试科目数为,则可能的取值为0、1、2、3,
则,
,
,
,
所以,
因为该考生更希望通过乙大学的笔试考试,
所以,即,
又由,解得,
即为该考生更希望通过乙大学的笔试时的范围为.
【题型四 曲线拟合】
1.(2023·上海长宁·二模)某地新能源汽车保有量符合阻沛型增长模型,其中为自统计之日起,经过t年后该地新能源汽车保有量、和r为增长系数、M为饱和量.
下表是该地近6年年底的新能源汽车的保有量(万辆)的统计数据:
年份
2018
2019
2020
2021
2022
t
0
1
2
3
4
保有量
9.6
12.9
17.1
23.2
31.4
假设该地新能源汽车饱和量万辆.
(1)若,假设2018年数据满足公式,计算的值(精确到0.01)并估算2023年年底该地新能源汽车保有量(精确到0.1万辆);
(2)设,则与t线性相关.请依据以上表格中相关数据,利用线性回归分析确定和r的值(精确到0.01).
附:线性回归方程中回归系数计算公式如下:.
【答案】(1),万辆
(2),
【知识点】利用给定函数模型解决实际问题、非线性回归、求回归直线方程
【分析】(1)根据题意代入即可求出,代入利用公式估算即可得解;
(2)设设,转化为关于的线性回归问题,利用公式求出即可.
【详解】(1)由题意可知,2018年对应,,
满足,所以,解得,
因为年对应的,
所以
所以估计2023年底该地新能源汽车保有量为40.3万辆.
(2),
设,则,
t
0
1
2
3
4
9.6
12.9
17.1
23.2
31.4
3.37
3.07
2.77
2.44
2.11
,,
,
所以,
因为,
所以.
(该题无参考数据,需要计算器计算)
2.(23-24高二上·浙江宁波·期中)经观测,某种昆虫的产卵数y与温度x有关,现将收集到的温度和产卵数()的10组观测数据作了初步处理,得到如下图的散点图及一些统计量表.
275
731.1
21.7
150
2368.36
30
表中,.
(1)根据散点图判断,,与哪一个适宜作为y与x之间的回归方程模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,试求y关于x的回归方程.
【答案】(1)
(2)
【知识点】根据散点图判断是否线性相关、非线性回归
【分析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,结合给定的回归方程模型的特征即可判断;
(2)对变换得:,变换后得样本点分布在一条直线附近,即可用线性回归方程来拟合,即可求出关于回归方程.
【详解】(1)适宜作为y与x之间的回归方程模型;
理由如下:
回归方程模型适用于散点图呈直线型;
回归方程模型适用于散点图上升,且上升趋势越来越慢;
回归方程模型适用于散点图上升,且上升趋势越来越快,呈指数型变化;
根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为y与x之间的回归方程模型.
(2)令,则,
由表中数据可得,;
,∴;
∴y关于x的回归方程为.
3.(24-25高二上·黑龙江哈尔滨·期末)2024年初,哈尔滨利用得天独厚的冰雪资源,成功火出圈,吸引了大批游客前来旅游.2024年底,第26届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.超级冰滑梯作为园区最具人气的娱乐项目,每年冬天都会吸引众多游客慕名前来体验,坐上专用爬犁,上演冰雪版的速度与激情,让游客大呼过瘾.为了提升游客的游玩体验,园区决定增加超级冰滑梯的滑道数量.现有开放滑道数量和游客平均排队等待时间的数据如下:
滑道数量
11
12
13
14
15
平均等待时间(分钟)
88
81
75
70
66
(1)通过回归分析,可以利用模型对与的关系进行拟合.利用表中数据,求出关于的回归方程,并依据该模型预测,为了让游客的平均等待时间不超过40分钟,至少应开放多少条滑道?
(2)园区内超级冰滑梯和雪花摩天轮2个项目每个项目的平均排队时间为60分钟,冰雪世界等4个体验项目每个项目的平均排队时间为40分钟,梦想大舞台等3个演出活动每个项目的平均排队时间为30分钟.由于天气原因,小红决定选择其中的3个项目进行游玩,求小红排队时间总和恰为120分钟的概率;
(3)为吸引游客,园区开展了抽奖活动.现有一家三口参加该抽奖活动,有两种抽奖方式可供选择:
方式①:三人独立抽奖,每人抽奖一次,每人中奖的概率为30%;
方式②:三人组队抽奖,共抽奖三次,第一次中奖的概率为20%,若某次抽奖不中,那么下一次中奖的概率会增加10%,若已中奖,那么下一次中奖的概率恢复到20%.为使三人中奖次数的期望更大,应选择哪种抽奖方式?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:设,,,,,,,,,,.
【答案】(1),21条
(2)
(3)方式一
【知识点】非线性回归、均值的实际应用、计算古典概型问题的概率、二项分布的均值
【分析】(1)根据所给的数据,利用最小二乘估计法求和,即可求解回归方程,再根据方程转化为不等式,即可求解;
(2)根据古典概型概率公式,结合组合公式,即可求解;
(3)分别求两个方式的分布,以及期望,比较大小,即可判断.
【详解】(1)设,
则,,∴
令,,∴至少应开放21条滑道
(2)设事件“小红排队时间总和恰为120分钟”
则4个体验项目选取3个,或是超级冰滑梯和雪花摩天轮选1个,或是梦想大舞台3个中选2个,则
,
(3)方式①:中奖次数,
方式二:设中奖次数为
,
,
,所以选方式一
4.(2024高三·全国·专题练习)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
【答案】(1)
(2),38天
【知识点】求回归直线方程、计算条件概率、非线性回归
【分析】(1)先在散点图中找到不高于300台的样本点数,然后再找到不高于200台的样本点数,然后求概率即可;
(2)先,然后利用求回归直线的方式求解该方程中的参数,然后利用不等式求解即可.
【详解】(1)由散点图知,不高于300台的样本点有5个,其中高于200台的样本点有4个,
则在2个样本点的生产量都不高于300台的条件下,2个样本点都高于200台的概率为
(2)
则由回归直线方程系数求解公式知,
,
,
故.
,
所以需要38天呼吸机日生产量可超过500台.
【题型五 独立性检验】
1.(24-25高三上·上海·期中)2024年某瓷器公司计划向市场推出两种高档中国红瓷杯A和,已知A和烧制成功率分别为和,烧制成功一个A,盈利30元,否则亏损10元;烧制成功一个,盈利80元,否则亏损20元.
(1)设为烧制一个A和一个所得的利润之和,求随机变量的分布和数学期望;
(2)求烧制4个A所得的利润不少于80元的概率;
(3)公司将用户对中国红瓷器的喜欢程度分为“非常满意”(得分不低于85分)和“满意”(得分低于85分)两类,通过调查完成下表.
年龄低于45岁
6
14
42
31
7
年龄不低于45岁
4
6
47
35
8
根据调查数据完成下列列联表,并依据显著性水平的独立性检验,判断居民对瓷器的喜欢程度是否与年龄有关联?
非常满意
满意
合计
年龄低于45岁
年龄不低于45岁
合计
附:,,,与的若干对应数值见下表:
0.25
0.05
0.005
1.323
3.841
7.879
【答案】(1)分布列见详解;元
(2)0.8192
(3)列联表见解析,居民对瓷器的喜欢程度是否与年龄有关联
【知识点】独立性检验解决实际问题、建立二项分布模型解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)分析可知随机变量的可能取值为,结合独立事件概率求法求分布列,进而可得期望;
(2)设相应随机变量,分析可知,根据题意可得,结合二项分布运算求解即可;
(3)完善列联表,求,并与临界值对比分析即可.
【详解】(1)由题意可知:A和烧制成功率分别为0.8和0.9,
随机变量的可能取值为,则有:
,
,
所以随机变量的分布列为
10
70
110
0.02
0.08
0.18
0.72
随机变量的期望(元).
(2)设烧制4个A成功的件数为,则,
设烧制4个A所得的利润为,则,
令,解得,
所以.
(3)根据题意完善列联表可得:
非常满意
满意
合计
年龄低于45岁
80
20
100
年龄不低于45岁
90
10
100
合计
30
170
200
零假设:居民对瓷器的喜欢程度是否与年龄没有关联,
则,
依据显著性水平的独立性检验,可知零假设不成立,
所以居民对瓷器的喜欢程度是否与年龄有关联.
2.(24-25高三上·上海·阶段练习)为了了解广大消费者购买新能源汽车意向与年龄是否具有相关性,某汽车APP采用问卷调查形式对400名消费者进行调查,数据显示这400人中中老年人共有150人,且愿意购买新能源车的人数是愿意购买燃油车的2倍;青年中愿意购买新能源车的人数是愿意购买燃油车的4倍.
年龄段
购车意向
合计
愿意购买新能源车
愿意购买燃油车
青年
中老年
合计
(1)完善2×2列联表,请根据小概率值的独立性检验,分析消费者对新能源车和燃油车的意向购买与年龄是否有关;
(2)采用分层随机抽样从愿意购买新能源车的消费者中抽取9人,再从这9人中随机抽取5人,求这5人中青年人数的分布和期望.
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)列联表见解析,有关
(2)分布列见解析,
【知识点】卡方的计算、求离散型随机变量的均值、完善列联表、写出简单离散型随机变量分布列
【分析】(1)根据题意分别求出愿意购买新能源车的中年人数和青年人数以及愿意购买燃油车中年人数和青年人数,即可补全列联表,再根据公式计算出,根据表格即可判断;
(2)先求出抽取9人中青年人数和中年人数,求出青年人数的可能取值及其对应的概率,即可求出分布列,再由数学期望公式即可求解.
【详解】(1)中老年共有150人,且愿意购买新能源车的人数是愿意购买燃油车的2倍,
所以愿意购买新能源车的中老年人数为100人,愿意购买燃油车的中老年人数为50人,
青年共有250人,愿意购买新能源车是愿意购买燃油车的4倍,
所以青年中愿意购买新能源车为200人,愿意购买燃油车为50人,
故2×2列联表如下:
年龄段
购车意向
合计
愿意购买新能源车
愿意购买燃油车
青年
200
50
250
中老年
100
50
150
合计
300
100
400
零假设:消费者购买新能源车和燃油车的意向与年龄无关,
根据小概率值的独立性检验,我们推断不成立,
即认为消费者购买新能源车和燃油车的意向与年龄有关;
(2)愿意购买新能源车的共有300人,青年人与中老年人的比例为,
所以分层随机抽样抽取的9人中6人是青年人,3人是中老年人,记这5人中,
青年的人数为,则的可能取值为,
,
.
所以的分布列如下:
X
2
3
4
5
P
则,
所以这5人中青年人数的期望为.
3.(2024·四川乐山·三模)某学校举办了一次主题为“科技兴国,强国有我”的知识竞赛,并从所有参赛学生中随机抽取了男、女生各50人,统计他们的竞赛成绩(满分100分,每名参赛学生至少得60分),并将成绩分成4组:,,,(单位:分),得到如下的频率分布直方图.
(1)现将竞赛成绩不低于90分的学生称为“科技知识达人”,成绩低于90分的学生称为“非科技知识达人”.把随机抽取的参赛学生数据统计如下,将下列列联表补充完整,并判断是否有95%的把握认为能否获得“科技知识达人”称号与性别有关.
科技知识达人
非科技知识达人
合计
男生
15
女生
合计
(2)将频率视为概率,从所有参赛学生中随机抽取3人进行访谈,记这3人中是“科技知识达人”的人数为,求的分布列与数学期望.
附:(其中).
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,有的把握认为能否获得“科技知识达人”称号与性别有关
(2)分布列见解析,期望
【知识点】独立性检验解决实际问题、二项分布的均值
【分析】(1)补充完整列联表,计算的值,再与临界值比较即可;
(2)由题意可知,的可能取值为0,1,2,3,利用二项分布的概率公式求出相应的概率,进而得到的分布列,再结合期望公式求解.
【详解】(1)列联表补充完整如下:
科技知识达人
非科技知识达人
合计
男生
15
35
50
女生
5
45
50
合计
20
80
100
零假设:能否获得“科技知识达人”称号与性别无关,
则,
所以依据小概率值的独立性检验,我们推断不成立,即有的把握认为能否获得“科技知识达人”称号与性别有关;
(2)从所有参赛学生中任取一人是“科技知识达人”的概率,
由题意可知:,的可能取值为0,1,2,3,
则,
,
,
,
所以的分布列为:
0
1
2
3
所以.
4.(23-24高三下·上海·阶段练习)某报刊对男女学生是否喜欢书法进行了一次随机调查,调查的数据如下表所示:
喜欢书法
不喜欢书法
总计
男学生
24
32
56
女学生
16
24
40
总计
40
56
96
(1)根据表中的数据回答:是否喜欢书法与学生性别有关吗?
附:,显著性水平取0.05,.
(2)现从上述96人中,按是否喜欢书法采用分层抽样的方法抽取12人进行问卷调查.若从这12人中任选4人,记“喜欢书法”与“不喜欢书法”的人数之差的绝对值为,求的分布列及数学期望.
【答案】(1)无关;
(2)分布列见解析,.
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、卡方的计算、求离散型随机变量的均值
【分析】(1)利用给定的数表,求出的观测值,再与临界值比对得解.
(2)利用分层抽样求出12人中“喜欢书法”与“不喜欢书法”的人数,再求出的可能值,并求出各个值对应的概率,列出分布列并求出期望.
【详解】(1)零假设喜欢书法与学生性别无关,
则,即有,
所以支持原假设,即认为无关.
(2)抽取的12人中,喜欢书法的有人,不喜欢书法的有人,
的可能值为,
,,,
所以的分布列为:
0
2
4
数学期望.
5.(23-24高二下·上海松江·期末)某超市为促进消费推出优惠活动,为预估活动期间客户投入的消费金额,采用随机抽样统计了200名客户的消费金额,分组如下:(单位:元),得到如图所示频率分布直方图:
活跃客户
非活跃客户
总计
男
20
女
60
总计
(1)若把消费金额不低于800元的客户,称为“活跃客户”,经数据处理,现在列联表中得到一定的相关数据,求列联表中的值,并根据列联表判断是否有的把握认为“活跃客户”与性别有关?
(2)为感谢客户,该超市推出免单福利,方案如下:从“活跃客户”中按分层抽样的方法抽取12人,从中抽取2人进行免单,试写出免单总单金额的分布列及其期望.(每一组消费金额按该组中点值估计,期望结果保留至整数)
附:
0.150
0.100
0.050
0.010
0.005
k
2.072
2.706
3.841
6.635
7.879
【答案】(1)40;80;有关
(2)分布列见解析,1933
【知识点】卡方的计算、求离散型随机变量的均值、超几何分布的分布列、求超几何分布的概率
【分析】(1)先完善列联表,再求卡方,即可作出判断;(2)先用分层抽样,然后用超几何分布的概率公式计算,即可得分布列与期望.
【详解】(1)消费金额不低于800元的人数为:人,
则活跃客户共有60人,所以,,
列联表如下
活跃客户
非活跃客户
总计
男
20
80
100
女
40
60
100
总计
60
140
200
计算,
因此有的把握与性别有关.
(2)从“活跃客户”中用分层抽样,抽出消费900元:人,消费1100元:人,
从中抽取2人免单总金额的取值有:,
则,,,
所以的分布列为:
即.
一、填空题
1.(25-26高三上·上海·单元测试)现调查得到本系列手机上市时间和市场占有率(单位:%)的几组相关对应数据,绘制如图所示的折线图,图中的,分别代表该手机上市的4月份,以及5月份,6月份,7月份,8月份,….据此数据得出关于的回归方程为,用此方程预测该系列手机市场占有率的变化趋势,要使该系列手机的市场占有率超过0.5%,最早会在初次上市后的第 个月.
【答案】13
【知识点】根据回归方程进行数据估计
【分析】先求出样本中心点,代入中,求得的值,再解不等式,即可.
【详解】,,
样本中心点为,
将其代入,得,解得,
,
当时,有,解得,
应取,
故答案为:13.
2.(24-25高三·上海·随堂练习)随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
【答案】3.968
【知识点】卡方的计算
【分析】由题意,根据列联表中所给数据补全列表,将数据代入公式得,计算即可得到答案.
【详解】补全列联表
室外工作
室内工作
总计
有呼吸系统疾病
150
200
350
无呼吸系统疾病
50
100
150
总计
200
300
500
.
故答案为:3.968.
3.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
【答案】
【知识点】独立性检验的基本思想、卡方的计算
【分析】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.
【详解】由题意可知,
则,
解得或,而,
故m的最小值为44.
故答案为:44.
4.(23-24高二上·上海·课后作业)在研究硝酸钠的可溶性程度时,观测它在不同温度(单位:)的水中的溶解度(单位:),得到如下观测结果:
温度
溶解度
由此得到回归直线的斜率是 .
【答案】
【知识点】求回归直线方程
【分析】求出、的值,将表格中的数据代入最小二乘法公式,可求得回归直线的斜率.
【详解】由表格中的数据可得,
,
,
,
所以,回归直线的斜率为.
故答案为:.
5.(2023·上海静安·二模)某运动生理学家在一项健身活动中选择了10名男性参与者,以他们的皮下脂肪厚度来估计身体的脂肪含量,其中脂肪含量以占体重(单位:kg)的百分比表示.得到脂肪含量和体重的数据如下
个体编号
体重x(kg)
脂肪含量y(%)
1
89
28
2
88
27
3
66
24
4
59
23
5
93
29
6
73
25
7
82
29
8
77
25
9
100
30
10
67
23
建立男性体重与脂肪含量的回归方程为: .(结果中回归系数保留三位小数)
【答案】
【知识点】求回归直线方程
【分析】根据表格数据,结合最小二乘估计求解相关数据,即可得回归方程.
【详解】由表格数据可得:
,,,,
设回归直线方程为,其斜率和截距的最小二乘估计公式分别为,,
所以,,
故回归方程为.
故答案为:.
6.(22-23高三上·江西新余·期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用表示天数,表示每天核酸检测为阳性的人数,统计数据如下表所示:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据散点图判断,核酸检测为阳性的人数关于天数的回归方程适合用来表示,则其回归方程为 .
参考数据:设,,,
参考公式:对于一组数据,,….其回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】
【知识点】求回归直线方程、非线性回归
【分析】由题可得,然后根据最小二乘法即得.
【详解】由,可得,
设,则,
因为,,
,
所以,
,
所以,
所以.
故答案为:.
7.(2022·安徽蚌埠·模拟预测)已知变量,的关系可以用模型拟合,设,其变换后得到一组数据如下:
4
6
8
10
2
3
5
6
由上表可得线性回归方程,则 .
【答案】/
【知识点】非线性回归、根据样本中心点求参数
【分析】根据表格数据求,代入回归方程求参数a,结合得,由方程的形式可知,即可求c.
【详解】由表格数据知:.
由,得,则.
∴,
由,得,
∴,即.
故答案为:.
8.(2025高三下·全国·专题练习)中国是茶的故乡,也是茶文化的发源地.茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“金萱排骨茶”,为了解每壶“金萱排骨茶”中所放茶叶量(单位:克)与食客的满意率的关系,通过调查研究发现选择函数模型来拟合与的关系,根据以下数据:
茶叶量克
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
可求得关于的回归方程为 .
(附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为).
【答案】
【知识点】求回归直线方程
【分析】将整理为,然后利用公式计算即可.
【详解】对等式两边同时取对数,可得:,
易知:,,
则,
,
,
,
综上,可得:,
又有:,
可得.
故答案为:.
9.(24-25高三上·吉林·期末)已知和之间的一组数据如右表;与线性相关,且回归方程为,为的方差的0.6倍,则当时, .
0
1
2
3
5
【答案】/
【知识点】计算样本的中心点、根据回归方程进行数据估计、根据样本中心点求参数
【分析】由题意求得两个变量的平均值,即样本中心,将其代入回归直线,可得斜率,进而可得答案.
【详解】由表格可得的平均值,
则,
由表格可得的平均值,
将代入回归直线,可得,解得,
则,当,则.
故答案为:.
10.(24-25高三下·安徽淮南·开学考试)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的 ,女生追星的人数占女生人数的 ,若根据的独立性检验,认为中学生追星与性别有关,则男生至少有 人.
附: , 其中, .
【答案】30
【知识点】卡方的计算、独立性检验解决实际问题
【分析】设男生人数为x,由题意得列联表,计算,对照临界值列出不等式,求出x的取值范围.
【详解】设男生人数为x,由题意得列联表如下;
喜欢追星
不喜欢追星
合计
男生
x
女生
合计
计算
解得
又,
所以 ,
即根据 的独立性检验,认为中学生追星与性别有关,所以男生至少有30人.
故答案为:30.
11.(23-24高二下·四川眉山·期末)以曲线拟合一组数据时,经代换后的线性回归方程为,则 .
【答案】
【知识点】对数的运算、非线性回归
【分析】利用对数的运算法则,再结合回归方程即可求解.
【详解】因为,
所以,
令,则,
又因为,
所以,,
所以.
故答案为:.
二、单选题
12.(24-25高三下·湖南常德·开学考试)蚊虫的繁殖生长与气温有密切关系,某地科研机构通过观测数据得到该地蚊虫密度与年平均气温(单位:)的关系可用模型来拟合,利用观测数据求得,且,若,则的最大值为( )
A. B. C. D.
【答案】D
【知识点】基本不等式求和的最小值、根据样本中心点求参数
【分析】根据回归直线必过样本点中心求出的值,再利用基本不等式求解即可.
【详解】由,得,
由点在回归直线上,得,解得,
所以,
当且仅当时取等号,所以的最大值为.
故选:D.
13.(24-25高三上·浙江·期末)年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
【答案】D
【知识点】求回归直线方程
【分析】根据所给数据,及参考公式,求线性回归方程即可.
【详解】由题中的数据可知
所以
所以
所以y关于x的线性回归方程为
故选:D
14.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
工作时间
2
4
5
6
8
工资
30
40
50
70
若对的线性回归方程为,则的值为( )
A.56.5 B.58 C.60 D.62.5
【答案】C
【知识点】计算样本的中心点、根据样本中心点求参数
【分析】求出样本中心点,代入回归直线即可求得结果.
【详解】由表格数据知:,,
由线性回归方程为,
,解得.
故选:C.
15.(24-25高三下·山西·开学考试)已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
【答案】D
【知识点】线性回归、残差的计算
【分析】先计算新数据的平均值,然后计算新数据的回归方程,进而根据残差定义计算.
【详解】因为过点,将代入得.
增加两个样本点后x的平均数为,,.
所以新的经验回归方程为,当时,.
所以样本的残差是,解得.
故选:D.
16.(23-24高二下·江苏南京·阶段练习)为了研究关于的线性相关关系,收集了组样本数据(见下表):
若已求得一元线性回归方程为,则下列选项中正确的是( )
(其中相关系数)
A.
B.当时,的预测值为
C.样本数据的第40百分位数为
D.去掉样本点后,与的样本相关系数不会改变
【答案】D
【知识点】相关系数的计算、根据回归方程进行数据估计、根据样本中心点求参数、总体百分位数的估计
【分析】A项,求出,将样本中心点代入回归直线方程可求;B项,利用回归直线方程代值运算预测即可;C项,按百分位数求法步骤求解;D项,新样本平均值没有变化,由相关系数公式可知.
【详解】A项,,
所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
B项,当时,的预测值为,故B错误;
C项,由为整数,则样本数据的第40百分位数为,故C错误;
D项,去掉样本点后,新样本数据的平均值没有变化,即仍然成立,
不妨设为第组数据,即,则,其余数据没有变化.
则由相关系数公式可知,
即新样本数据与的相关系数与原数据相关系数相等,
即与的样本相关系数不会改变,故D正确.
故选:D.
17.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【答案】B
【知识点】求回归直线方程、非线性回归、根据样本中心点求参数
【分析】令,由,得,因为,所以
则,即可求解.
【详解】令,则,
又,由,得,
因为,所以
则,
下午4点时对应的是,
可得,
故选:B
三、解答题
18.(24-25高三上·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员调查班级学生是否愿意参加健美操,得到如下的列联表.
性别
愿意
不愿意
男生
6
10
女生
18
6
(1)根据该列联表,并依据显著水平的独立性检验,判断能否认为“学生性别与是否愿意参加健美操有关”;
(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人作为领队,记这2人中女生人数为随机变量,求的分布及期望.
附:.
【答案】(1)能
(2)分布列见解析,
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)完善列联表,作出零假设,根据独立性检验公式计算的值,推断出零假设成立与否,从而得出判断;
(2)根据列联表得出选取8人中男生与女生人数,由超几何分布计算出对应概率值,得出随机变量的分布列,求出数学期望.
【详解】(1)列联表如下:
性别
愿意
不愿意
合计
男生
6
10
16
女生
18
6
24
合计
24
16
40
零假设为:是否愿意参加健美操与学生性别无关.
根据列联表中的数据,可得,
根据小概率值的独立性检验,我们推断不成立,
既认为是否愿意参加健美操与学生性别有关联,此判断犯错误的概率不大于0.005.
(2)根据列联表可得愿意参加健美操的学生中女生占全部的,
∴选取的8人中,女生有人,男生有人,
∴随机变量的可取值:0,1,2.
∴,,.
∴随机变量的分布列:
0
1
2
数学期望.
19.(24-25高三·上海·课堂例题)“日行万步”正成为健康生活的代名词.某地一研究团队统计了该地区1000位居民的日行步数,得到如下表格:
日行步数(单位:千步)
人数(人)
20
60
170
200
300
200
50
(1)为研究日行步数与居民年龄的关系,以日行步数是否超过8千步为标准进行分层抽样,从上述1000位居民中抽取200人,得到如下列联表,请将列联表补充完整,并根据2列联表判断是否有95%把握认为日行步数与居民年龄超过40岁有关;
日行步数千步
日行步数>8千步
总计
40岁以上(人)
100
40岁以下(含40岁)(人)
50
总计
200
0.50
0.40
0.25
0.15
0.010
0.05
0.025
0.010
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
(2)以这1000位居民日行步数超过8千步的频率,代替该地区1位居民日行步数超过8千的概率,每位居民日行步数是否超过8千相互独立.为了深入研究,该研究团队随机调查了20位居民,其中日行步数超过8千的最有可能(即概率最大)是多少位居民?
【答案】(1)列联表见解析,没有
(2)
【知识点】独立性检验解决实际问题、服从二项分布的随机变量概率最大问题
【分析】(1)根据表中数据可以将列联表补充完整,进而可以求出卡方值,进而可以判断是否有把握;
(2)依题意列出不等式,解不等式即可.
【详解】(1)1000人中,步数不超过8千步的有人,超过8千步有550人,
按分层抽样,抽取的人数中不超过8千步的有90人,超过8千步的有110人,
列联表如下:
日行步数千步
日行步数>8千步
总计
40岁以上
40
60
100
40岁以下(含40岁)
50
50
100
总计
90
110
200
零假设 日行步数与居民年龄超过40岁无关.
.
故没有95%把握认为日行步数与居民年龄超过40岁有关;
(2)每位居民步数超过8千的概率为,设步数超过8千的最有可能是位居民,
所以
所以,因为,所以,即最有可能是11位居民.
20.(25-26高三上·上海·单元测试)某地用简单随机抽样的方法抽取15个村进行验收调查,调查得到的样本数据,其中和分别表示第个村中村户的年平均收入(单位:万元)和产业资金投入数量(单位:万元),并计算得到,,,,.
(1)试估计该地被调查村的村户年平均收入;
(2)根据样本数据,求该地被调查村中村户年平均收入与产业资金投1的相关系数;(精确到0.01)
(3)根据现有统计资料,各被调查村产业资金投入差异很大.为了准确地进行验收,请给出一种你认为更合理的抽样方法,并说明理由.
【答案】(1)(万元)
(2)
(3)采用分层抽样,理由见解析
【知识点】分层抽样的特征及适用条件、计算几个数的平均数、相关系数的计算
【分析】(1)利用样本平均数的计算公式求解即可,(2)利用样本平均数的计算公式求解即可.(3)结合题意根据调查总体的分布特征选择分层抽样进行调查即可.
【详解】(1)该地被调查村的村户年平均收入的估计值为(万元);
(2)样本的相关系数为
;
(3)采用分层抽样,理由如下:
由(2)知被调查村的村户年平均收入与该村的产业投入资金有很强的正相关性,
由于各被调查村产业资金投入差异很大,因此被调查村的村户年平均收入差异也很大,
所以采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地更准确的验收估计.
21.(2025·上海·模拟预测)为了检查一批零件的质量是否合格,检查员计划从中依次随机抽取零件检查:第次检查抽取号零件,测量其尺寸(单位:厘米).检查员共进行了100次检查,整理并计算得到如下数据:,,.
(1)这批零件共有1000个.若在抽查过程中,质量合格的零件共有60个,估计这批零件中质量合格的零件数量;
(2)若变量与存在线性关系,记,求回归系数的值;
(3)在抽出的100个零件中,检查员计划从中随机抽出20个零件进行进一步检查,记抽出的20个零件中有对相邻序号的零件,求的数学期望.
示例零件序号为“1、2、4、5”与“1、2、3、5”时均恰有2对相邻序号的零件.
参考公式:(1)线性回归方程:,其中,.
(2)期望的线性性质:,其中是若干随机变量.
【答案】(1)600个
(2)
(3)个
【知识点】求回归直线方程、计算古典概型问题的概率、均值的性质
【分析】(1)利用样本质量合格的频率估计总体的概率,求总体中质量合格的零件数量.
(2)根据给出的公式可求的值.
(3)根据期望的线性性质求解.
【详解】(1)因为在这100个零件中,合格的零件为60个,
故质量合格的零件所占样本比例为.
而在这1000个零件中,质量合格的零件数为:(个).
(2)由可得,,
又因为,,
因此可得:.
代入数据可得:.
(3)用表示抽查的结果,若第个零件与第个零件被选中,则记;
若结果是其余情况,则记,.
由线性期望的性质可得:
(个).
1 / 2
学科网(北京)股份有限公司
$$
专题01 成对数据的统计分析
目录
【题型一 求相关系数】 2
【题型二 决定系数】 7
【题型三 求线性回归方程】 11
【题型四 曲线拟合】 14
【题型五 独立性检验】 18
一、相关关系的强弱
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
二、一元线性回归模型参数的最小二乘法
(1)经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
三、决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
四、独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【题型一 求相关系数】
1.(24-25高三·上海·课堂例题)某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,得到的实验数据经整理得到如下的折线图:
参考数据:,,.
(1)由图可以看出,这种酶的活性指标值与温度具有较强的线性相关性,请用相关系数加以说明;
(2)求关于的线性回归方程,并预测当温度为30℃时,这种酶的活性指标值.(计算结果精确到0.01)
2.(24-25高三·上海·课堂例题)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(,),其中表示年龄,表示脂肪含量,并计算得到,,,,.
请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求关于的线性回归方程(、的计算结果保留两位小数).
3.(24-25高三·上海·课堂例题)下面的数据是年龄在40到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平(满分100),以及每天花在看电视上的平均时间(小时).
看电视的平均时间
4.4
4.6
2.7
5.8
0.2
4.6
心脏功能水平
52
53
69
57
89
65
(1)求心脏功能水平与每天花在看电视上的平均时间之间的相关系数;
(2)求心脏功能水平与每天花在看电视上的平均时间的线性回归方程,并讨论方程是否有意义;(系数保留两位小数)
(3)估计平均每天看电视3小时的男子的心脏功能水平.
4.(25-26高三上·上海·单元测试)为了监控某种医疗物资的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个医疗物资,并测量其尺寸(单位:).下面是检验员在一天内依次抽取的16个医疗物资的尺寸:
抽取次数
1
2
3
4
5
6
7
8
医疗物资尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次数
9
10
11
12
13
14
15
16
医疗物资尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,,,,其中为抽取的第个医疗物资的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的医疗物资尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为医疗物资尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检医疗物资中,如果出现了尺寸在之外的医疗物资,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
5.(2024·湖北武汉·模拟预测)随着科技发展的日新月异,人工智能融入了各个行业,促进了社会的快速发展.其中利用人工智能生成的虚拟角色因为拥有更低的人工成本,正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货销售金额得到逐步提升,以下为该公司自2023年8月使用虚拟角色直播带货后的销售金额情况统计.
年月
2023年8月
2023年9月
2023年10月
2023年11月
2023年12月
2024年1月
月份编号
1
2
3
4
5
6
销售金额/万元
15.4
25.4
35.4
85.4
155.4
195.4
若与的相关关系拟用线性回归模型表示,回答如下问题:
(1)试求变量与的样本相关系数(结果精确到0.01);
(2)试求关于的经验回归方程,并据此预测2024年2月份该公司的销售金额.(,均保留一位小数)
附:经验回归方程,其中,
样本相关系数
参考数据:.
6.(23-24高二上·上海·课后作业)为了解某市高中男生身高与体重的关系,随机抽取5所高中学校,并获得这些学校全部男生的身高(单位:cm)与体重(单位:kg)的数据.为了减少篇幅,从中随机选取10名高中男生的身高与体重的数据,如表所示.试根据表中数据绘制散点图,计算相关系数并判断学生身高与体重的相关程度..
10名高中男生的身高与体重如下表:
编号
1
2
3
4
5
6
7
8
9
10
身高/cm
174
176
176
181
182
179
169
168
171
180
体重/kg
55
58
62
74
88
68
54
52
56
86
附:相关系数,
【题型二 决定系数】
1.(23-24高二下·福建·期末)某企业拟对手机芯片进行科技升级,根据市场调研,得到科技升级投入(亿元)与科技升级直接收益(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
2
3
4
6
9
11
13
15
17
19
13
22
31
42
50
56
58
62
63
65
根据表格中的数据,当 时,建立了与的两个回归模型:模型①:;模型②:;当 时,确定与满足的线性回归方程为.
(1)根据下列表格中的数据,比较当 时,模型①、②的相关指数的大小,并选择拟合精度更高、更可靠的模型;
回归模型
模型①
模型②
回归方程
(附:刻画回归效果的相关指数)
(2)为鼓励科技创新,当科技升级的投入不少于亿元时,国家给予公司补贴亿元,比较根据市场调研科技升级投入亿元直接收益与投入亿元时科技升级实际收益的预测值的大小;
(附:用最小二乘法求线性回归方程的系数:)
(3)科技升级后,芯片的效率大幅提高,经实际试验得大致服从正态分布.公司对科技升级团队的奖励方案如下:若芯片的效率不超过,不予奖励;若芯片的效率超过,但不超过,每部芯片奖励元;若芯片的效率超过,每部芯片奖励元,记为每部芯片获得的奖励额,求(精确到).
(附:若随机变量,,.)
2.(23-24高二下·黑龙江哈尔滨·阶段练习)某果园种植“糖心苹果”已有十余年,为了提高利润,该果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图是2013年至2022年,该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图:
该果园为了预测2023年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由图中样本点的分布,可以认为样本点集中在曲线:的附近,对投资金额做交换,令,则,且有,,,.
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测投资金额为20万元时的年利润增量(结果保留两位小数).
回归模型
模型①
模型②
回归方程
102.28
36.19
附:,;
相关指数.
参考数据:,.
3.(23-24高二下·湖南)红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度和产卵数的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①与回归模型②中选择一个来进行拟合.
表Ⅰ
温度x/℃
20
22
25
27
29
31
35
产卵数y/个
7
11
21
24
65
114
325
(1)请借助表Ⅱ中的数据,求出回归模型①的方程:
表Ⅱ(注:表中)
189
567
25.27
162
78106
11.06
3040
41.86
825.09
(2)类似的,可以得到回归模型②的方程为,试求两种模型下温度为时的残差;
(3)若求得回归模型①的相关指数,回归模型②的相关指数,请结合(2)说明哪个模型的拟合效果更好.
参考数据:.
附:回归方程中,
相关指数.
4.(2024·山东·模拟预测)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
【题型三 求线性回归方程】
1.(25-26高三上·上海·单元测试)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2016
2017
2018
2019
2020
时间代号
1
2
3
4
5
储蓄存款/千亿元
5
6
7
8
10
(1)求关于的线性回归方程;
(2)用所求回归方程预测该地区2022年()的人民币储蓄存款.
2.(24-25高三·上海·课堂例题)某电商分析了近8年“双十一”期间的宣传费用(单位:万元)和利润(单位:万元)之间的关系,得到下列数据:
2
3
4
5
6
8
9
11
1
2
3
3
4
5
6
8
请回答:
(1)由表中数据,求线性回归方程,并预测当时,对应的利润为多少(、、精确到0.1)
参考数据:,.
(2)为了更好地完成任务,某电商决定让宣传部门的3名成员各自制订两个方案,从中任选2个方案进行宣传,求这2个方案出自同一个人的概率.
3.(24-25高三上·上海·单元测试)现有某高新技术企业年研发费用投入(百万元)与企业年利润(百万元)之间具有线性相关关系,近5年的年研发费用和年利润的具体数据如表:
年研发费用(百万元)
1
2
3
4
5
年利润(百万元)
2
3
4
4
7
数据表明与之间有较强的线性关系.
(1)求对的回归直线方程;
(2)如果该企业某年研发费用投入8百万元,预测该企业获得年利润为多少?
4.(24-25高三·上海·课堂例题)某饮料店为了推广“秋天的第一杯奶茶”,需了解一天的平均气温与奶茶销量之间的关系,为此记录了周一至周五的平均气温与奶茶销量(杯)的数据,如表所示:
9
11
12
10
8
23
26
30
25
21
(1)画出散点图;
(2)根据上表提供的数据,求出关于的经验回归方程;
(3)试根据(2)中求出的经验回归方程,预测平均气温约为时该饮料店的奶茶销量.
5.(24-25高三·上海·课堂例题)2020年1月15日,教育部制定出台了《关于在部分高校开展基础学科招生改革试点工作的意见》(也称“强基计划”),选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生,由试点高校自主命题,校考过程中通过笔试后才能进入面试环节.
(1)为了更好地服务于高三学生,某研究机构对随机抽取的5名高三学生的记忆力和判断力进行统计分析,得到下表数据:
6
8
9
10
12
2
3
4
5
6
请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求关于的线性回归方程(精确到0.01);
(2)
现有甲、乙两所大学的笔试环节都设有三门考试科目且每门科目是否通过相互独立,若某考生报考甲大学,每门笔试科目通过的概率均为,该考生报考乙大学,每门笔试科目通过的概率依次为、、,其中,根据规定每名考生只能报考强基计划的一所试点高校,若以笔试过程中通过科目数的期望为依据作出决策,求该考生更希望通过乙大学笔试时的取值范围.
【题型四 曲线拟合】
1.(2023·上海长宁·二模)某地新能源汽车保有量符合阻沛型增长模型,其中为自统计之日起,经过t年后该地新能源汽车保有量、和r为增长系数、M为饱和量.
下表是该地近6年年底的新能源汽车的保有量(万辆)的统计数据:
年份
2018
2019
2020
2021
2022
t
0
1
2
3
4
保有量
9.6
12.9
17.1
23.2
31.4
假设该地新能源汽车饱和量万辆.
(1)若,假设2018年数据满足公式,计算的值(精确到0.01)并估算2023年年底该地新能源汽车保有量(精确到0.1万辆);
(2)设,则与t线性相关.请依据以上表格中相关数据,利用线性回归分析确定和r的值(精确到0.01).
附:线性回归方程中回归系数计算公式如下:.
2.(23-24高二上·浙江宁波·期中)经观测,某种昆虫的产卵数y与温度x有关,现将收集到的温度和产卵数()的10组观测数据作了初步处理,得到如下图的散点图及一些统计量表.
275
731.1
21.7
150
2368.36
30
表中,.
(1)根据散点图判断,,与哪一个适宜作为y与x之间的回归方程模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,试求y关于x的回归方程.
3.(24-25高二上·黑龙江哈尔滨·期末)2024年初,哈尔滨利用得天独厚的冰雪资源,成功火出圈,吸引了大批游客前来旅游.2024年底,第26届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.超级冰滑梯作为园区最具人气的娱乐项目,每年冬天都会吸引众多游客慕名前来体验,坐上专用爬犁,上演冰雪版的速度与激情,让游客大呼过瘾.为了提升游客的游玩体验,园区决定增加超级冰滑梯的滑道数量.现有开放滑道数量和游客平均排队等待时间的数据如下:
滑道数量
11
12
13
14
15
平均等待时间(分钟)
88
81
75
70
66
(1)通过回归分析,可以利用模型对与的关系进行拟合.利用表中数据,求出关于的回归方程,并依据该模型预测,为了让游客的平均等待时间不超过40分钟,至少应开放多少条滑道?
(2)园区内超级冰滑梯和雪花摩天轮2个项目每个项目的平均排队时间为60分钟,冰雪世界等4个体验项目每个项目的平均排队时间为40分钟,梦想大舞台等3个演出活动每个项目的平均排队时间为30分钟.由于天气原因,小红决定选择其中的3个项目进行游玩,求小红排队时间总和恰为120分钟的概率;
(3)为吸引游客,园区开展了抽奖活动.现有一家三口参加该抽奖活动,有两种抽奖方式可供选择:
方式①:三人独立抽奖,每人抽奖一次,每人中奖的概率为30%;
方式②:三人组队抽奖,共抽奖三次,第一次中奖的概率为20%,若某次抽奖不中,那么下一次中奖的概率会增加10%,若已中奖,那么下一次中奖的概率恢复到20%.为使三人中奖次数的期望更大,应选择哪种抽奖方式?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:设,,,,,,,,,,.
4.(2024高三·全国·专题练习)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
【题型五 独立性检验】
1.(24-25高三上·上海·期中)2024年某瓷器公司计划向市场推出两种高档中国红瓷杯A和,已知A和烧制成功率分别为和,烧制成功一个A,盈利30元,否则亏损10元;烧制成功一个,盈利80元,否则亏损20元.
(1)设为烧制一个A和一个所得的利润之和,求随机变量的分布和数学期望;
(2)求烧制4个A所得的利润不少于80元的概率;
(3)公司将用户对中国红瓷器的喜欢程度分为“非常满意”(得分不低于85分)和“满意”(得分低于85分)两类,通过调查完成下表.
年龄低于45岁
6
14
42
31
7
年龄不低于45岁
4
6
47
35
8
根据调查数据完成下列列联表,并依据显著性水平的独立性检验,判断居民对瓷器的喜欢程度是否与年龄有关联?
非常满意
满意
合计
年龄低于45岁
年龄不低于45岁
合计
附:,,,与的若干对应数值见下表:
0.25
0.05
0.005
1.323
3.841
7.879
2.(24-25高三上·上海·阶段练习)为了了解广大消费者购买新能源汽车意向与年龄是否具有相关性,某汽车APP采用问卷调查形式对400名消费者进行调查,数据显示这400人中中老年人共有150人,且愿意购买新能源车的人数是愿意购买燃油车的2倍;青年中愿意购买新能源车的人数是愿意购买燃油车的4倍.
年龄段
购车意向
合计
愿意购买新能源车
愿意购买燃油车
青年
中老年
合计
(1)完善2×2列联表,请根据小概率值的独立性检验,分析消费者对新能源车和燃油车的意向购买与年龄是否有关;
(2)采用分层随机抽样从愿意购买新能源车的消费者中抽取9人,再从这9人中随机抽取5人,求这5人中青年人数的分布和期望.
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
3.(2024·四川乐山·三模)某学校举办了一次主题为“科技兴国,强国有我”的知识竞赛,并从所有参赛学生中随机抽取了男、女生各50人,统计他们的竞赛成绩(满分100分,每名参赛学生至少得60分),并将成绩分成4组:,,,(单位:分),得到如下的频率分布直方图.
(1)现将竞赛成绩不低于90分的学生称为“科技知识达人”,成绩低于90分的学生称为“非科技知识达人”.把随机抽取的参赛学生数据统计如下,将下列列联表补充完整,并判断是否有95%的把握认为能否获得“科技知识达人”称号与性别有关.
科技知识达人
非科技知识达人
合计
男生
15
女生
合计
(2)将频率视为概率,从所有参赛学生中随机抽取3人进行访谈,记这3人中是“科技知识达人”的人数为,求的分布列与数学期望.
附:(其中).
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
4.(23-24高三下·上海·阶段练习)某报刊对男女学生是否喜欢书法进行了一次随机调查,调查的数据如下表所示:
喜欢书法
不喜欢书法
总计
男学生
24
32
56
女学生
16
24
40
总计
40
56
96
(1)根据表中的数据回答:是否喜欢书法与学生性别有关吗?
附:,显著性水平取0.05,.
(2)现从上述96人中,按是否喜欢书法采用分层抽样的方法抽取12人进行问卷调查.若从这12人中任选4人,记“喜欢书法”与“不喜欢书法”的人数之差的绝对值为,求的分布列及数学期望.
5.(23-24高二下·上海松江·期末)某超市为促进消费推出优惠活动,为预估活动期间客户投入的消费金额,采用随机抽样统计了200名客户的消费金额,分组如下:(单位:元),得到如图所示频率分布直方图:
活跃客户
非活跃客户
总计
男
20
女
60
总计
(1)若把消费金额不低于800元的客户,称为“活跃客户”,经数据处理,现在列联表中得到一定的相关数据,求列联表中的值,并根据列联表判断是否有的把握认为“活跃客户”与性别有关?
(2)为感谢客户,该超市推出免单福利,方案如下:从“活跃客户”中按分层抽样的方法抽取12人,从中抽取2人进行免单,试写出免单总单金额的分布列及其期望.(每一组消费金额按该组中点值估计,期望结果保留至整数)
附:
0.150
0.100
0.050
0.010
0.005
k
2.072
2.706
3.841
6.635
7.879
一、填空题
1.(25-26高三上·上海·单元测试)现调查得到本系列手机上市时间和市场占有率(单位:%)的几组相关对应数据,绘制如图所示的折线图,图中的,分别代表该手机上市的4月份,以及5月份,6月份,7月份,8月份,….据此数据得出关于的回归方程为,用此方程预测该系列手机市场占有率的变化趋势,要使该系列手机的市场占有率超过0.5%,最早会在初次上市后的第 个月.
2.(24-25高三·上海·随堂练习)随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
3.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
4.(23-24高二上·上海·课后作业)在研究硝酸钠的可溶性程度时,观测它在不同温度(单位:)的水中的溶解度(单位:),得到如下观测结果:
温度
溶解度
由此得到回归直线的斜率是 .
5.(2023·上海静安·二模)某运动生理学家在一项健身活动中选择了10名男性参与者,以他们的皮下脂肪厚度来估计身体的脂肪含量,其中脂肪含量以占体重(单位:kg)的百分比表示.得到脂肪含量和体重的数据如下
个体编号
体重x(kg)
脂肪含量y(%)
1
89
28
2
88
27
3
66
24
4
59
23
5
93
29
6
73
25
7
82
29
8
77
25
9
100
30
10
67
23
建立男性体重与脂肪含量的回归方程为: .(结果中回归系数保留三位小数)
6.(22-23高三上·江西新余·期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用表示天数,表示每天核酸检测为阳性的人数,统计数据如下表所示:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据散点图判断,核酸检测为阳性的人数关于天数的回归方程适合用来表示,则其回归方程为 .
参考数据:设,,,
参考公式:对于一组数据,,….其回归直线的斜率和截距的最小二乘估计公式分别为:,
7.(2022·安徽蚌埠·模拟预测)已知变量,的关系可以用模型拟合,设,其变换后得到一组数据如下:
4
6
8
10
2
3
5
6
由上表可得线性回归方程,则 .
8.(2025高三下·全国·专题练习)中国是茶的故乡,也是茶文化的发源地.茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“金萱排骨茶”,为了解每壶“金萱排骨茶”中所放茶叶量(单位:克)与食客的满意率的关系,通过调查研究发现选择函数模型来拟合与的关系,根据以下数据:
茶叶量克
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
可求得关于的回归方程为 .
(附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为).
9.(24-25高三上·吉林·期末)已知和之间的一组数据如右表;与线性相关,且回归方程为,为的方差的0.6倍,则当时, .
0
1
2
3
5
10.(24-25高三下·安徽淮南·开学考试)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的 ,女生追星的人数占女生人数的 ,若根据的独立性检验,认为中学生追星与性别有关,则男生至少有 人.
附: , 其中, .
11.(23-24高二下·四川眉山·期末)以曲线拟合一组数据时,经代换后的线性回归方程为,则 .
二、单选题
12.(24-25高三下·湖南常德·开学考试)蚊虫的繁殖生长与气温有密切关系,某地科研机构通过观测数据得到该地蚊虫密度与年平均气温(单位:)的关系可用模型来拟合,利用观测数据求得,且,若,则的最大值为( )
A. B. C. D.
13.(24-25高三上·浙江·期末)年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
14.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
工作时间
2
4
5
6
8
工资
30
40
50
70
若对的线性回归方程为,则的值为( )
A.56.5 B.58 C.60 D.62.5
15.(24-25高三下·山西·开学考试)已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
16.(23-24高二下·江苏南京·阶段练习)为了研究关于的线性相关关系,收集了组样本数据(见下表):
若已求得一元线性回归方程为,则下列选项中正确的是( )
(其中相关系数)
A.
B.当时,的预测值为
C.样本数据的第40百分位数为
D.去掉样本点后,与的样本相关系数不会改变
17.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
三、解答题
18.(24-25高三上·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员调查班级学生是否愿意参加健美操,得到如下的列联表.
性别
愿意
不愿意
男生
6
10
女生
18
6
(1)根据该列联表,并依据显著水平的独立性检验,判断能否认为“学生性别与是否愿意参加健美操有关”;
(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人作为领队,记这2人中女生人数为随机变量,求的分布及期望.
附:.
19.(24-25高三·上海·课堂例题)“日行万步”正成为健康生活的代名词.某地一研究团队统计了该地区1000位居民的日行步数,得到如下表格:
日行步数(单位:千步)
人数(人)
20
60
170
200
300
200
50
(1)为研究日行步数与居民年龄的关系,以日行步数是否超过8千步为标准进行分层抽样,从上述1000位居民中抽取200人,得到如下列联表,请将列联表补充完整,并根据2列联表判断是否有95%把握认为日行步数与居民年龄超过40岁有关;
日行步数千步
日行步数>8千步
总计
40岁以上(人)
100
40岁以下(含40岁)(人)
50
总计
200
0.50
0.40
0.25
0.15
0.010
0.05
0.025
0.010
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
(2)以这1000位居民日行步数超过8千步的频率,代替该地区1位居民日行步数超过8千的概率,每位居民日行步数是否超过8千相互独立.为了深入研究,该研究团队随机调查了20位居民,其中日行步数超过8千的最有可能(即概率最大)是多少位居民?
20.(25-26高三上·上海·单元测试)某地用简单随机抽样的方法抽取15个村进行验收调查,调查得到的样本数据,其中和分别表示第个村中村户的年平均收入(单位:万元)和产业资金投入数量(单位:万元),并计算得到,,,,.
(1)试估计该地被调查村的村户年平均收入;
(2)根据样本数据,求该地被调查村中村户年平均收入与产业资金投1的相关系数;(精确到0.01)
(3)根据现有统计资料,各被调查村产业资金投入差异很大.为了准确地进行验收,请给出一种你认为更合理的抽样方法,并说明理由.
21.(2025·上海·模拟预测)为了检查一批零件的质量是否合格,检查员计划从中依次随机抽取零件检查:第次检查抽取号零件,测量其尺寸(单位:厘米).检查员共进行了100次检查,整理并计算得到如下数据:,,.
(1)这批零件共有1000个.若在抽查过程中,质量合格的零件共有60个,估计这批零件中质量合格的零件数量;
(2)若变量与存在线性关系,记,求回归系数的值;
(3)在抽出的100个零件中,检查员计划从中随机抽出20个零件进行进一步检查,记抽出的20个零件中有对相邻序号的零件,求的数学期望.
示例零件序号为“1、2、4、5”与“1、2、3、5”时均恰有2对相邻序号的零件.
参考公式:(1)线性回归方程:,其中,.
(2)期望的线性性质:,其中是若干随机变量.
1 / 2
学科网(北京)股份有限公司
$$