内容正文:
完成时间: 月 日 今日打卡:☐ 已完成
用时: min 自评勋章:
暑假作业21 成对数据的统计分析
【知识点1 一元线性回归模型及其应用】
1.一元线性回归模型
在研究两个变量线性相关时,我们常利用成对样本数据建立统计模型,并利用模型进行预测. ①
我们称①式为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量,x称为自变量或解释变量;
a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
2.一元线性回归模型参数的最小二乘估计回归直线方程过样本点的中心,是回归直线方程最常用的一个特征.
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计,其中
3.回归分析
(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测称为残差.
(2)刻画回归效果的方式:
①残差图法:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,说明模型拟合精度越高;
②残差平方和法,称为残差平方和,残差平方和越小,模型的拟合效果越好;
③决定系数R2比较法:,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
④相关系数r比较法:|r|越接近1,变量线性相关性越强;越接近0,线性相关性越弱;
【知识点2 列联表与独立性检验】
1.分类变量与列联表
①分类变量:为了表述的方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
②列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
___
____
合计
__
__
__
2.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
3.独立性检验
①计算公式:,其中.
②临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
③独立性检验:,通常称为零假设或原假设.基于小概率值的检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立.这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
④临界值表
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
【题型1 结合散点图分析两个变量的相关性】
1.(24-25高二下·北京丰台·期末)下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
【答案】D
【详解】A,B,C中各点有非线性拟合趋势,D中具有线性相关且为负相关.
故选:D
2.(25-26高二下·河北·阶段检测)对四组数据进行统计,获得如下散点图,将四组数据相应的相关系数进行比较,正确的是( )
A. B. C. D.
【答案】A
【详解】由给出的四组数据的散点图可以看出,
图1和图3是负相关,相关系数小于0,
图2和图4是正相关,相关系数大于0,
图1和图2的点相对更加集中,所以相关性要强,所以接近于,接近于1,
由此可得.
3.(2026·上海静安·三模)观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
【答案】A
【详解】①分析图1的相关系数观察图1,散点图中的点大致分布在从左上到右下的带状区域内;
随着的增大,总体呈减小趋势,根据相关系数的定义,
两个变量呈负相关,故;
②分析图2的相关系数观察图2,散点图中的点大致分布在从左下到右上的带状区域内;
随着的增大,总体呈增大趋势;
根据相关系数的定义,两个变量呈正相关,故;
此外,观察图2中点的分布比图1更紧密地围绕在一条直线附近,
说明图2的线性相关性更强,即
选项,已知且,且,故 成立;
选项,因为且,所以,故选项B错误;
选项,因为且,则,选项C错误;
选项,因为且,则,显然不可能大于1,故选项D错误.
4.(2026·天津·高考真题)调查候鸟和温度的关系,在不同温度下统计候鸟的数量,所得数据如图所示,其中相关系数,根据最小二乘法算得:,下列说法正确的是( )
A.与负相关 B.当时,一定为1359
C.当时,一定小于1359 D.两变量无线性关系
【答案】A
【详解】因为相关系数,且散点图从左到右呈现下降趋势,且整体分布在较窄的带状区域,
所以y与x负相关,所以A正确,D错误;
当时,,所以约为,
所以B,C错误.
5.(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
【答案】A
【分析】根据数据的散点图,结合回归系数概念与含义,逐项判定,即可求解.
【详解】去掉点后,散点图中点的分布更接近一条直线,因此变量与的线性相关程度变强,故选项B错误;
由散点图,点的分布从左下角到右上角,故变量与呈正相关,故选项D错误;
因为变量与呈正相关,且相关性变强,所以相关系数变大,故A正确,C错误.
故选:A.
【题型2 相关系数与决定系数的计算】
1.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
【答案】
【分析】根据表中数据求出,进而得出的值,代入公式计算即可得出答案.
【详解】由已知可得,,
,
则,
,
所以,.
故答案为:.
2.(24-25高二下·江西抚州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
【答案】0.96/
【详解】,故,
,
.
故答案为:0.96
3.(2026·江苏南通·三模)某科研团队研发新一代硫化物固态锂电池,测试了5块同批次电池的循环次数x(次)与剩余容量y(单位:),得到如下数据:
x(次)
100
200
300
400
500
y(Ah)
9.8
9.5
9.2
8.9
8.6
(1)求y关于x的线性回归方程,预测当循环次数为1000次时电池的剩余容量;并计算样本相关系数r,据此说明线性回归模型拟合x与y关系的合理性.
(2)该团队另有10块同批次电池,其中改性优化电池6块,普通电池4块;改性优化电池中有4块循环寿命超过1000次,普通电池循环寿命均未超过1000次,规定循环寿命超过1000次为达标.现从这10块电池中随机抽取3块进行破坏性安全测试,记抽取的3块中达标的电池数为,求的分布列和数学期望.
参考公式:回归直线的斜率和截距的最小二乘估计分别为
,,
相关系数
【答案】(1)线性回归方程为:;当循环次数为1000次时电池的剩余容量为;相关系数,用线性回归模型拟合二者关系是完全合理的.
(2)分布列如下:
数学期望为.
【详解】(1)由题意得:
,,
,,所以,
则,所以线性回归方程为:,
将代入得:,即:当循环次数为1000次时电池的剩余容量为.
又因为,所以相关系数,
,表示完全负线性相关,说明循环次数与剩余容量之间存在极强的负线性关系,因此用线性回归模型拟合二者关系是完全合理的。
(2)由题意可知:10块同批次电池中,4块达标,6块未达标,抽取的3块中达标的电池数为,则可能取值为0,1,2,3.
,,,,
所以达标的电池数的分布列为:
数学期望.
4.(25-26高三下·甘肃武威·阶段检测)某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
【答案】(1)平均电池容量,平均续航里程.
(2)0.995
(3)
【详解】(1)平均电池容量,
平均续航里程.
(2)
(3)由样本数据,可知续航里程与电池容量的比值约为,
故新款车型续航里程的估计值为.
5.(2026·陕西西安·模拟预测)某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
【答案】(1),,
(2)0.99,该模型拟合效果良好
【知识点】决定系数的计算及分析、根据样本中心点求参数、根据回归方程求原数据中的值
【分析】(1)先求出,再代入求得,得回归方程,利用回归方程求得;
(2)根据公式计算出后比较可得.
【详解】(1),
,
将 代入可得,即.
所以经验回归方程为
因,则
又因,则
(2)
所以决定系数,故该模型拟合效果良好.
【题型3 一元线性回归方程求解与实际问题的预测】
1.(24-25高二下·贵州黔西南·期末)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x(元/kg)
日需求量y(kg)
8
6
5
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,当价格元/kg时,日需求量y的预测值为多少?
参考公式:线性回归方程,其中,.
【答案】(1);(2)kg.
【详解】(1)由题知,,
,
.
,.
综上,y关于x的线性回归方程为:.
(2)由(1)知回归方程为.
所以当时,.
故当价格元/kg时,日需求量y的预测值为kg.
2.(25-26高二下·山东泰安·阶段检测)某高科技公司开发了一款迎宾机器人,为了解市场销售情况,现统计了2025年10月至2026年2月该款迎宾机器人的月销量数据,如下表所示:
月份
2025年10月
2025年11月
2025年12月
2026年1月
2026年2月
月份代码x
1
2
3
4
5
月销量y(单位:千台)
8
10
13
20
24
(1)求出y与x的相关系数r(保留三位小数),并根据r判断该款迎宾机器人月销量y与月份代码x是否有较强的相关关系;(当时,相关性较强,当时,相关性一般)
(2)求出y关于x的经验回归方程,并估计2026年7月该款迎宾机器人的销量;
参考公式:相关系数,.
参考数据:,,
,
【答案】(1)0.979,y与x有较强的相关关系
(2),万台
【详解】(1),,,
则
故y与x有较强的相关关系;
(2),
又,,
所以,
故经验回归方程为,
2026年7月对应的x值为10,
当时,,
故可估计2026年7月该款迎宾机器人的月销量为万台
3.(25-26高三下·湖南衡阳·阶段检测)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对年某区域的企业发布的所有大模型中随机抽取了款进行标准化测试,由测试数据得到下面的散点图:
若t为时间变量,y为分数,根据多模态模型数据(,表示
年1月份,表示年6月份,…),计算得,,
.
(1)由最小二乘法建立y关于t的线性回归方程;
(2)根据语言模型的数据建立的回归方程为,该区域的某家企业在年4月发布了1款标准化测试得分为分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由;
(3)现从该区域年已经发布的大模型中随机抽取3款,假设各款模型类型相互独立,根据年大模型的分布情况,用频率估计概率,求抽取的3款大模型中恰有2款是多模态模型的概率.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
【答案】(1)
(2)已知年4月,则,计算多模态模型的预测值和残差,
,残差为:,
,
再计算语言模型的预测值和残差,,残差为:,
,,
根据Q值越小的大模型发生的可能性越大,所以该款大模型更有可能是语言模型
(3)
【详解】(1),,,
表示年1月份,表示年6月份,
,,,,
,,
,根据,
y关于t的线性回归方程为:.
(2)略
(3)由年的数据可知,随机抽取了款大模型,其中多模态模型有6款,用频率估计概率,
多模态模型的频率为,
该区域发布的大模型是多模态模型的概率为,
设抽取的3款大模型中多模态模型有X款,则,
故.
4.(2026·陕西西安·模拟预测)某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
【答案】(1),,(2)0.99,该模型拟合效果良好
【详解】(1),
,
将 代入可得,即.
所以经验回归方程为
因,则
又因,则
(2)
所以决定系数,故该模型拟合效果良好.
【题型4 非线性回归模型的应用】
1.(25-26高二下·全国·期末)一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度
21
23
24
27
29
32
产卵数个
6
11
20
27
57
77
经计算得:,,,,,线性回归模型的残差平方和,,其中分别为观测数据中的温度和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且决定指数.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为,;决定系数.
【答案】(1)
(2)(i)非线性回归模型拟合效果更好;(ii)
【详解】(1)由题意,则,,
,,
所以y关于x的线性回归方程为:.
(2)(i)对于线性回归模型,,,
决定系数为,
因为,所以用非线性回归模型拟合效果更好.
(ii)当时,(个)
所以温度为时,该种药用昆虫的产卵数估计为190个.
2.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
【答案】(1)分布列见解析,;
(2).
【详解】(1)由题意可知:
第1轮:盒子中共有3个小球(2白1黑),
所以成功的概率为,所以失败的概率为;
第2轮:盒子中共有4个小球(3白1黑),
所以成功的概率为,所以失败的概率为;
第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮;
所以,,,
所以的分布列如下:
所以
(2)设,则回归方程为,
因为,,,,,
且,
所以,
所以.
所以回归方程为,
又因为,
所以回归方程为.
3.(25-26高二下·辽宁朝阳·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
【答案】(1)更适宜作为回归模型.
(2)(i);(ii)会报警提示,理由见解析
【详解】(1)函数是均匀变化的,图象是一条直线,
函数的图象是一条曲线,选择恰当的可使更好拟合散点图.
所以更适宜作为回归模型.
(2)(i)两边取对数得,
由于,故,
,
即,故,
(ii)会报警提示,理由如下:
中,令得,
故会报警提示
4.(2025·云南·模拟预测)自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
核心产值规模
1.5
2.5
3.4
4.9
7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3
4.02
16.16
104.91
1.24
22.54
1.1
1.5
11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
【答案】(1)
(2)①,,②预测2025年该地区的人工智能核心产值规模为(亿元).
【详解】(1)由题意可得,
所以决定系数
(2)将两边取对数,可得,
设,则模型为,其中,
因为,
所以
,
所以,
则,
所以,,
因为该模型下的决定系数,大于线性模型下的决定系数,
故指数模型拟合效果更好,
令,可得(亿元),
故预测2025年该地区的人工智能核心产值规模为(亿元).
【题型5 回归方程的应用】
1.(25-26高二下·海南·期中)已知线性相关的两个变量的取值如表所示,如果其线性回归方程为,那么当时的残差为( )
3
4
6
7
20
40
80
A.5 B. C.4 D.
【答案】D
【详解】由表格可得,
因样本中心点满足回归方程,
即,解得.
当时,,
此时残差为.
2.(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是( )
时间x(月)
1
2
3
4
5
销售量y(万件)
1
1.6
2.0
a
3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
【答案】A
【详解】依题意,,
而y与x的回归直线方程为:,则,
解得,,表中数据的样本中心点为,BC正确;
由,得y和x成正相关,D正确;
2024年1月份,即,由回归直线方程,得,
因此2024年1月份该地区的销售量约为6.8万件,A错误.
故选:A
3.(24-25高三下·云南临沧·阶段检测)在研究性学习活动中,某位学生收集了两个变量与之间的几组数据如下表:
根据上表数据所得经验回归方程为.该同学又收集了两组数据,和,,利用这六组数据求得的经验回归方程为,则以下结论正确的是( )
参考公式:经验回归方程为,其中,.
A., B.,
C., D.,
【答案】D
【详解】由表格数据可得:,,,
则,,
添加两组数据,和,后,,,
,
,
所以,.
故选:D
4.(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【答案】A
【详解】由题意得,解得,
因此,
由两边取对数,得,
又,所以,即.
故选:A.
5.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2
3
4
5
6
1.02
1.20
1.42
1.62
1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
【答案】D
【详解】由表格中数据得,
,
代入方程得,,解得,因此.
由两边取对数,得.
又,所以,,即.
故选:D
【题型6 2×2列联表与独立性检验问题】
1.(24-25高二下·四川绵阳·期末)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表如表所示:
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
附:,其中n=a+b+c+d.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
则以下结论正确的是( )
A.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关
【答案】A
【详解】零假设:我们认为爱好跳绳与性别无关,
因为,,
所以我们的假设成立,即根据小概率值α=0.001的独立性检验,
我们认为爱好跳绳与性别无关,故A正确;
在犯错误的概率不超过0.001前提下,我们认为爱好跳绳与性别无关,故B错误;
又因为,所以我们的假设不成立,
即根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别有关,故C错误;
在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别有关,故D错误.
故选:A
2.(25-26高二下·辽宁抚顺·期中)某学校开展阅读兴趣调查,随机采访男生、女生各100人,得到下面列联表:
喜欢文学类书籍
喜欢科普类书籍
男生
30
70
女生
50
50
(1)估计该校男生和女生喜欢科普类书籍的概率分别是多少;
(2)能否有的把握认为学生喜欢文学类书籍还是科普类书籍与性别有关?
附:.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)该校男生喜欢科普类书籍的概率为, 该校女生喜欢科普类书籍的概率为.
(2)有的把握认为学生喜欢文学类书籍还是科普类书籍与性别有关.
【详解】(1)该校男生喜欢科普类书籍的概率为,
该校女生喜欢科普类书籍的概率为.
(2)将列联表补充完整,得
喜欢文学类书籍
喜欢科普类书籍
合计
男生
30
70
100
女生
50
50
100
合计
80
120
200
零假设:学生喜欢文学类书籍还是科普类书籍与性别无关
,
所以根据小概率值判断,不成立,即有的把握认为学生喜欢文学类书籍还是科普类书籍与性别有关.
3.(25-26高二上·陕西汉中·期末)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表:
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
配方材料试样
20
合计
140
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联?
附:,其中,
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
15
90
配方材料试样
30
20
50
合计
105
35
140
(2)认为材料配方与耐热疲劳性能有关联
【详解】(1)由已知合金部件应抽取件,合金部件应抽取件,由此可得列联表如下
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
15
90
配方材料试样
30
20
50
合计
105
35
140
(2)零假设为:材料配方与耐热疲劳性能无关联,
由表知,,,,,,
代入公式得,
根据小概率值的独立性检验,我们推断不成立,
即认为材料配方与耐热疲劳性能有关联,此推断犯错误的概率不大于0.05.
【题型7 统计案例中的综合性问题】
1.(22-23高二下·山东东营·期末)2021年4月7日,“学习强国”上线“强国医生”功能,提供智能导诊、疾病自查、疾病百科、健康宣传等多种医疗健康服务.
(1)为了解“强国医生”使用次数的多少与性别之间的关系,某调查机构调研了200名“强国医生”的使用者,得到表中数据,根据所给数据完成上述表格,并判断是否有 99.9%的把握认为“强国医生”的使用次数与性别有关;
男
女
总计
使用次数多
40
使用次数少
30
总计
90
200
(2)该机构统计了“强国医生”上线7天内每天使用该服务的女性人数,“强国医生”上线的第x天,每天使用“强国医生”的女性人数为y,得到以下数据:
x
1
2
3
4
5
6
7
y
6
11
21
34
66
100
195
通过观察散点图发现样本点集中于某一条曲线的周围,求y关于x的回归方程,并预测“强国医生”上线第12天使用该服务的女性人数.
附:随机变量
0.05
0.02
0.01
0.005
0.001
3.841
5.024
6.635
7.879
10.828
其中参考公式:对于一组数据其回归直线 的斜率和截距的最小二乘估计公式分别为
61.9
1.6
51.8
2522
3.98
【答案】(1)表格见解析,有99.9%的把握认为“强国医生”的使用次数与性别有关
(2),3980人
【详解】(1)
男
女
总计
使用次数多
40
80
120
使用次数少
50
30
80
总计
90
110
200
,
所以有99.9%的把握认为“强国医生”的使用次数与性别有关;
(2)将两边同时取常用对数得
,
设,则,
因为,
所以,
所以,
所以y关于x的回归方程为
把代入回归方程,得,
所以“强国医生”上线第12天,使用该服务的女性约有3980人.
2.(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
【答案】(1)列联表见解析,有关联;
(2),,有价值;
【详解】(1)补全列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,推断不成立,
即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,可得,
因为经验回归方程为,可得,
则,求得,
所以,
所以,,
所以,
因为,所以该经验回归方程有价值.
3.(25-26高二下·湖南长沙·期中)随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.
(1)为了更好了解大众对新能源汽车的接受程度,某城市汽车行业协会依据年龄采用分层随机抽样的方式,从40岁以下和40岁及以上两个年龄层中各抽取100名市民进行调查,并对他们选择新能源汽车,还是选择传统汽车进行意向调查,得到了如下列联表:
选择新能源汽车
选择传统汽车
总计
40岁以下
70
30
100
40岁及以上
40
60
100
总计
110
90
200
(i)记选择新能源汽车者中年龄在40岁以下的概率为,求的估计值;
(ii)依据小概率值的独立性检验,分析选择新能源汽车是否与年龄有关.
(2)为了了解该地区新能源汽车的销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销售量(单位:万台)关于年份的线性回归方程,且销售量的方差为,年份的方差为.求与间的样本相关系数,并据此判断该地区新能源汽车销售量与年份的线性相关性强弱.
附:(i)在线性回归方程中,,;
(ii)样本相关系数,若,则可判断与线性相关性很强;
(iii),其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)(i)(ii)可以认为选择新能源汽车与年龄有关系
(2),与线性相关性很强
【详解】(1)(i)由题可知,样本中选择新能源汽车者中年龄在40岁以下的频率为,
由样本估计总体可得选择新能源汽车者中年龄在40岁以下的概率.
(ii)零假设为:选择新能源汽车与年龄无关,
由列联表中数据代入计算得:,
所以依据小概率值的独立性检验,推断不成立,
即可以认为选择新能源汽车与年龄有关系,此推断犯错误的概率不超过.
(2)因为,,
所以,
故与线性相关性很强.
4.(19-20高二下·江苏淮安·期末)冠状病毒是一个大型病毒家族,今年出现的新型冠状病毒(nCoV)是以前从未在人体中发现的冠状病毒新毒株.
(1)某科研团队为研究潜伏期与新冠肺炎患者年龄的关系,组织专家统计了该地区新冠肺炎患者新冠病毒潜伏期的相关信息,其中被统计的患者中60岁以下的人数与60岁以上的人数相同,60岁以下且潜伏期在7天以下的人数约占,60岁以上且潜伏期在7天以下的人数约占,若研究得到在犯错误概率不超过0.010的前提下,认为潜伏期与新冠肺炎患者年龄有关,现设被统计的60岁以上的人员人数为5x,请完成下面2×2列联表并计算被统计的60岁以上的人员至少多少人?
潜伏期7天以下
潜伏期7天以上
合计
60岁以下
60岁以上
合计
附1:,其中
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
(2)某地区的新冠肺炎治愈人数y(人)与3月份的时间x(日)满足回归直线方程,统计数据如下:
3月日期(日)
2
3
4
5
6
治愈人数(人)
25
30
40
45
已知,,,请利用所给数据求t和回归直线方程;
附2:,.
【答案】(1)填表见解析;被统计的60岁以上的人员人数至少为20人;(2);.
【详解】解:(1)因为被统计的患者中60岁以下的人数与60岁以上的人数相同,
60岁以下且潜伏期在7天以下的人数约占,
60岁以上且潜伏期在7天以下的人数约占,
由被统计的60岁以上的人员人数为,
填写列联表如下;
潜伏期7天以下
潜伏期7天以上
合计
60岁以下
60岁以上
合计
计算,
因为犯错误概率不超过0.010的前提,所以,,
所以被统计的60岁以上的人员人数至少为20人.
(2)由统计数据如下表,
3月日期(日
2
3
4
5
6
治愈人数(人
25
30
40
45
且,,,
由,得,
所以,
;
所以关于的回归方程为.
1.(25-26高二下·天津滨海新区·期中)对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
【答案】C
【详解】两个图的散点都大致分布在直线附近,因此两组数据都具有线性相关关系,故A正确;
图1中,整体随增大而增大,是正相关,即;图2中,整体随增大而减小,是负相关,即,故B正确;
因为,,正数一定大于负数,因此,故C不正确;
相关系数的绝对值越接近1,线性相关性越强,散点越贴近直线. 图2的散点比图1更贴近直线,因此,故D正确.
2.(2026·天津河东·二模)“明数理”数学兴趣小组通过调查,整理出天津市三月份每日最高气温与最低气温的数据,绘制了气温与日期关系的散点图(如图),并进行统计学分析,下列说法正确的是( )
A.小明根据散点图判断气温与日期无相关关系
B.小华利用最小二乘法计算最高气温与日期的经验回归方程为,其中x为日期(3月1日为,3月31日为)
C.小红计算出最低气温与日期的相关系数为0.9397,以此判断两者的相关程度很弱
D.小强判断无论是最高气温与日期,还是最低气温与日期都正线性相关
【答案】D
【详解】对于A,观察散点图,横轴代表日期,纵轴代表气温,图中的散点分布并不是杂乱无章的,而是呈现出一种带状分布,
且整体趋势是随着日期的增加,气温也在逐渐升高,这种趋势表明气温与日期之间存在密切的联系,即存在相关关系,故A错误;
对于B,回归直线方程中,斜率反映了变量随的变化趋势,
若表示变量随的增大而增大,为正相关,若表示变量随的增大而减小,为负相关;
由散点图可知,气温随日期的增大而升高,属于正相关,所以回归方程的斜率应为正数,
而小华计算最高气温与日期的经验回归方程斜率为,故B错误;
对于C,的值越大,相关性越强,小红计算出最低气温与日期的相关系数为0.9397,以此判断两者的相关程度很强,故C错误;
对于D,由散点图可知,无论是最高气温还是最低气温,其数据点都呈现出随日期增加而上升的趋势,为正线性相关,故D正确.
3.(22-23高三上·河南·开学考试)某企业秉承“科学技术是第一生产力”的发展理念,投入大量科研经费进行技术革新,该企业统计了最近6年投入的年科研经费x(单位:百万元)和年利润y(单位:百万元)的数据,并绘制成如图所示的散点图.已知x,y的平均值分别为,.甲统计员得到的回归方程为;乙统计员得到的回归方程为;若甲、乙二人计算均未出现错误,有下列四个结论:
①当投入年科研经费为20(百万元)时,按乙统计员的回归方程可得年利润估计值为75.6(百万元)(取);
②;
③方程比方程拟合效果好;
④y与x正相关.
以上说法正确的是( )
A.①③④ B.②③ C.②④ D.①②④
【答案】D
【详解】解:将代入,得,①正确;
将,代入得,②正确;
由散点图可知,回归方程比的拟合效果更好,③错误;
因为随的增大而增大,所以与正相关,④正确.故①②④正确.
故选:D.
4.(25-26高二下·河北邢台·阶段检测)已知某旗舰店近五年“十一”黄金周期间的成交额如下表:
年份
年份代号
成交额万元
根据表中数据可知具有较强的线性相关关系,其经验回归方程为,则下列结论正确的是( )
A.年“十一”黄金周期间该旗舰店的成交额一定为万元
B.
C.当时,残差为
D.点一定在经验回归直线上
【答案】C
【详解】 因,,
因为必过样本中心点,则有,解得.
对于A:年对应,代入得,但该预测值不是确定值,故A错误;
对于B:计算得,故B错误;
对于C:当时,实际值,预测值,残差,故C正确;
对于D:时,点为即,代入回归方程得,
故点不在回归直线上,故D错误.
5.(25-26高二下·河北衡水·阶段检测)用模型拟合一组数,若,,设,得变换后的经验回归方程为,则( )
A. B. C. D.
【答案】A
【详解】由,得,
令,则与满足线性关系,
由,得,
由,
得,
所以,
过样本中心点,即,解得,
对比和,,解得,,
所以.
6.(多选)(25-26高二下·山东临沂·阶段检测)下列说法中正确的有( )
A.若样本数据的方差,则所有的都相等
B.在做回归分析时,残差图中残差点均匀分布在横轴两侧,且分布的带状区域的宽度越窄表示回归效果越好
C.以模型去拟合一组数据时,设,求得经验回归方程为,则的值分别是4和0.3
D.利用变量的经验回归方程进行预测,当时,,当时,,则
【答案】ABD
【详解】对于A,令数据的平均数为,
则由,可得,
所以,
所以,
即所有的都相等,A正确;
对于B,在做回归分析时,残差图中残差点均匀分布在横轴两侧,
且分布的带状区域的宽度越窄,说明选用的模型拟合精度越高,
表示回归效果越好,B正确;
对于C,,左右两边取对数得,
设,求得线性回归方程为,
则,,C错误;
对于D,,解得,故D正确.
7.(多选)(2026·江西南昌·模拟预测)某研究机构为调查“高中生睡眠质量与经常使用电子设备是否有关”,分别去两个学校调查.甲校随机抽取300名学生,乙校随机抽取600名学生,分别得到以下数据:
甲校(300人)
睡眠好
睡眠差
合计
经常使用电子设备
60
40
100
不经常使用电子设备
140
60
200
合计
200
100
300
乙校(600人)
睡眠好
睡眠差
合计
经常使用电子设备
120
80
200
不经常使用电子设备
280
120
400
合计
400
200
600
记由甲校、乙校上述数据计算的卡方统计量分别为 .下列说法正确的有( )
A.甲乙两校样本中经常使用电子设备的学生比例均为
B.甲乙两校样本经常使用电子设备的学生中睡眠差的比例均为
C.相比甲校数据,乙校数据更容易得出“睡眠质量与使用电子设备有关”的结论
D.若将甲、乙两校合并为一个容量为 900 人的样本,则合并后的卡方统计量
【答案】ABC
【详解】对于选项A,样本中甲校学生经常使用电子设备的比例为,
样本中乙校学生经常使用电子设备的比例为,A正确,
对于选项B,样本中甲校经常使用电子设备的学生中睡眠差的比例为,
样本中乙校经常使用电子设备的学生中睡眠差的比例为,B正确,
对于选项C,分别计算甲,乙校的卡方统计量,
甲校:,
乙校:,
而越大,越有把握认为“睡眠质量与使用电子设备有关”,因此乙校更容易得出该结论,C正确,
对于选项D,合并两校数据后的列联表为:
睡眠好
睡眠差
合计
经常使用电子设备
180
120
300
不经常使用电子设备
420
180
600
合计
600
300
900
计算得合并后卡方,D错误.
8.(2026·江苏苏州·三模)已知下表中是关于变量,的5组观测数据,甲同学根据表中数据通过模型得到经验回归方程为,则______.
1
2
3
4
5
【答案】
【详解】令,则,
,两边同时取对数得,即,
因为回归直线经过样本中心点,所以有,
即,,解得.
9.(2025高二·全国·专题练习)已知x与y之间的几组数据如下表.
x
1
2
3
4
y
4
m
n
1
表中y的平均值为2.5,若某同学对m赋了三个值,分别为3.5,3,2.5,得到三条线性回归直线的方程,分别为,对应的相关系数分别为,则下列结论中正确的是_______.(填序号)①在同一个坐标系中,三条回归直线可以围成一个封闭图形;②;③;④相关系数中,最大.
参考公式:线性回归方程,其中;相关系数;.
【答案】② ④
【详解】由题意知,即..
① 若,则,
,
,
,
则,.
② 若,则,则
,
,,
则,.
③ 若,则,
,
,,
则,.
由样本点的中心相同知三条回归直线交于同一个点,不可能围成封闭三角形,所以①不正确.
由以上计算可得,所以②正确,③不正确.
相关系数中,最大,所以④正确.
故答案为:②④.
10.(24-25高二下·广东湛江·期末)为了解学生身体素质的情况,学校随机抽取了100位同学组织了一次体测,结果有20%的同学合格,经过调查,抽取的学生中只有10%的学生每日运动量能达标,每日运动量能达标的学生体测合格率有50%.
(1)完成列联表,并根据小概率值的独立性检验,能否认为体测成绩与每日运动量之间有关;
体测合格
体测不合格
合计
运动量达标
运动量未达标
合计
(2)从该校随机抽取三人,三人中体育项目测试相互独立,求三人中合格人数的分布列和期望;
(3)为提升学生身体素质,学校决定给每个班级安排任务,规则如下:每天班主任从箱子里抽球,里面有2个白球和2个红球(大小、材质相同),抽到红球放回,且学生就需要跑步1km;抽到白球则休息,抽完的球不放回,再往里放入一个红球,直至箱子里全部都是红球后结束,记天后任务结束的概率为.求.
附:,.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,体测成绩与每日运动量之间有关
(2)分布列见解析,
(3).
【详解】(1)依题意,完成下列2×2列联表如下:
体测合格
体测不合格
合计
运动量达标
5
5
10
运动量未达标
15
75
90
合计
20
80
100
零假设 体测成绩与每日运动量之间无关,
因,
根据小概率值的独立性检验,零假设不成立,即体测成绩与每日运动量之间有关,此推断犯错误的概率不大于0.05.
(2)该校随机抽取三人,每个人合格的概率为20%,设抽取的三人中合格人数为X,
则,由于测试相互独立,则,
故, ,
,,
则随机变量的分布列为:
0
1
2
3
故的数学期望为.
(3)设“第次操作取出白球”, “第次操作取出红球”,,
依题意,,
当时,若天后任务结束,
则第n次取出的是白球,前次操作中,有一次取出白球,其余次均取出红球,
则
,
经检验,,均满足该式,
所以.
11.(24-25高二下·上海·期末)某工厂生产了一批高精尖仪器,为确保仪器的可靠性,工厂安排了一批专家对仪器进行检测,每台仪器被每位专家评议为"可靠"的概率均为,且每台仪器是否可靠及每位专家检测的结果相互独立.
(1)为调查某零件A的品质对仪器可靠性的影响,现抽取了50台仪器检测,请根据
下述列联表,判断是否有的把握认为“仪器可靠”与“某零件A达优等”有关?
仪器可靠
仪器不可靠
合计
零件A达优等
41
4
45
零件A未达优等
2
3
5
合计
43
7
50
附:;
0.10
0.01
0.001
2.706
6.65
10.828
(2)若,现从某批100台仪器中抽取4台,安排一位专家进行检测,记检测结果可靠的仪器台数为,求的分布列、数学期望和方差;
(3)为进一步提高出厂仪器的可靠性,工厂决定每台仪器都由三位专家进行检测,只有三位专家都检验仪器可靠,则仪器通过检测.若三位专家中至少有两位检测结果为不可靠,则仪器报废.其余情况,仪器需要回厂返修.拟定每台仪器检测费用为100元,若回厂返修,每台仪器还需要额外花费300元的维修费.现以此方案实施,且抽检仪器为100台,工厂预算2.3万元用于检测和维修,试用表示每台机器所需费用的期望,并估计,100台机器所需的总费用是否有可能会超过预算2.3万元?说明理由.
【答案】(1)无关.
(2)分布列见解析,.
(3)会超过预算,理由见解析.
【详解】(1)设零假设为:“仪器可靠”与“某零件A达优等”无关.
确定显著性水平,计算
统计决断:由,而,则零假设不成立,
故有把握判定“仪器可靠性”与“某零件A达优等”有关.
(2)由题意知的所有可能取值为,且服从参数为的二项分布,所以.
,,
,,
故的分布列为:
0
1
2
3
4
由二项分布期望公式和方差公式得.
(3)每台仪器所需费为元,则的可能取值为100,400.
,
.
所以,
化简得,
令,解得,
当,,在区间上单调递增,
当在区间上单调递减,
所以当时,的最大值为.
故实施此方案,最高费用为元元,可能会超过预算.
1.(多选)(25-26高二下·河南南阳·期中)已知相关系数,关于的线性回归方程中斜率和截距的最小二乘估计公式分别为,,已知变量与变量的部分数据,建立由最小二乘法得到的两个回归模型:以为自变量,为因变量,得出的线性回归方程为;以为自变量,为因变量,得出的线性回归方程为,若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量的方差,则可得知变量的标准差
B.若已知变量的方差,则不可得知变量的标准差
C.若不给定其他信息,则也可得知变量与变量各自的平均值
D.若不给定其他信息,则也可得知变量与变量的相关系数
【答案】ACD
【详解】对于D,以为自变量,为因变量,得出的线性回归方程为,
故,
以为自变量,为因变量,得出的线性回归方程为,
故,
故,
且回归系数为负数,故相关系数,D正确.
对于A,设变量与变量的标准差分别为,,
则,,,
所以
即,
代入已知数据得,即,
若已知变量的方差,即可求得,进而代入上式求得,A正确.
对于B,若已知变量的方差,即可求得,进而代入求得,B错误.
对于C,线性回归直线经过样本中心点,
代入两个回归方程得与,联立解得,,
故不给定其他信息也可得知变量与变量各自的平均值,C正确.
2.(22-23高三上·广东深圳·期中)红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215
17713
714
27
81.3
3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
【答案】(1)更适宜
(2)
(3)选择方案1最佳,理由见解析
【详解】(1)由散点图可以判断,更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将两边同时取自然对数,可得,
由题中的数据可得,,,
所以,
则,
所以z关于x的线性回归方程为,
故y关于x的回归方程为;
(3)用,和分别表示选择三种方案的收益.
采用第1种方案,无论气温如何,产值不受影响,收益为万,即
采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为万,
如果发生,则收益为万,即,
同样,采用第3种方案,有
所以,,
,
.
显然,最大,所以选择方案1最佳.
3.(25-26高二上·浙江宁波·期末)在汽车生产过程中,合金钢的性能直接影响车身结构的安全性和耐久性.其中,碳含量是影响合金钢屈服强度的关键因素之一.为研究二者之间的关系,某实验室制备了9组不同碳含量的合金钢样本,并测量了对应的屈服强度(MPa),数据如下表所示:
编号
1
2
3
4
5
6
7
8
9
碳含量
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
屈服强度
481
512
532
573
604
635
656
687
719
(1)求合金钢屈服强度关于碳含量的回归方程,并预测碳含量为(即)时的合金钢屈服强度;
(2)为了综合评估材料性能,需要同时考虑强度收益、脆性损失和冶炼成本2x,为此工程师定义了一个综合性能指标.为便于运算,屈服强度用近似计算(其中为(1)问中计算所得数据,[]表示不小于的最小整数),请根据上述优化模型计算最大的综合性能指标值.
附:参考数据:
参考公式:对于一组数据,其经验回归方程的斜率和截距的最小二乘估计分别为.
【答案】(1),碳含量为时的合金钢屈服强度为(MPa)
(2)最大综合性能指标值约为
【详解】(1)由题意可得,,,
由参考公式可得,,
,
所以回归方程为,
当时,.
(2)由(1)可得,,,所以近似公式中的系数为:
,,,
所以屈服强度近似为:,
又综合性能指标为:,
所以,,
所以,,
令,则,化简可得,,
即,解得或(舍去),
当时,,
当时,,
当时,,
综上所述,在时,取得最大值,最大值为,
所以最大综合性能指标值约为.
4.(23-24高二下·山西长治·期中)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:)有关,根据以往在某地收集到的7组数据作出散点图,发现两个变量并不呈现线性相关关系,现分别用模型①与模型②作为平均产卵数和平均温度的回归方程来建立两个变量之间的关系.
平均温度
21
23
25
27
29
32
35
平均产卵数个
5
9
22
25
65
118
324
441
529
625
729
841
1024
1225
1.61
2.20
3.09
3.22
4.17
4.77
5.78
27.43
773.43
81.14
3.55
20.03
0.37
0.29
0.0052
其中.
(1)根据表中数据,经计算得出模型①,请建立模型②下关于的回归方程;并在两个模型下分别估计温度为时的产卵数;(与估计值均精确到小数点后两位)(参考数据:)
(2)模型①,②的决定系数分别为,请根据决定系数判断哪个模型的拟合效果更好;
(3)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
【答案】(1)答案见解析
(2)模型②的拟合效果更好
(3)①;②
【详解】(1)令,则,
所以与呈线性相关关系,
由题,, ,
所以,故,
所以,故,
所以模型②下关于的回归方程为;
当时,
经模型①计算估计产卵数为,
经模型②计算估计产卵数为.
(2)因为模型①,②的决定系数分别为,故,
所以模型②的拟合效果更好.
(3)①由题,
所以
,
令得,
所以当时,;当时,,
所以在上单调递增,在上单调递减,
所以取得最大值时对应的概率.
②由①知,当时取最大值,
所以当时,,
则由题意可知每年需要人工防治的概率为,且,
所以.
5.(24-25高二下·山东淄博·期末)生活中运动对人体健康非常重要,为了了解不同年龄人群篮球运动的情况,随机调查了400人,得到如下数据:
年龄
篮球运动情况
合计
经常运动
不经常运动
40及以上
130
70
200
40以下
100
100
200
合计
230
170
400
(1)依据小概率值的独立性检验,能否认为篮球运动的情况与年龄有关?
(2)某校组织“篮球”比赛,分成了、、三组进行挑战赛,其规则如下:挑战权在任何一组,该组都可向另外两组发起挑战,且被挑战方拥有下一次的挑战权,若挑战权在组,挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,.已知首先由组发起挑战,按此规则进行了多次挑战.
①前3次挑战后,求组拥有挑战权的次数的分布列与数学期望;
②经过次挑战后,挑战权在组的概率为,求;
③数列收敛的定义:已知数列,若对于任意给定的正数,总存在正整数,使得当时,,(是一个确定的实数),则称数列收敛于.根据数列的定义证明②中收敛.
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)能
(2)①分布列见解析,;②;③证明见解析
【详解】(1)零假设为:篮球运动情况与年龄无关,
由列联表数据可得,
因为,,,
所以根据小概率值的独立性检验,认为不成立,即认为篮球运动与年龄有关,此推断犯错误的概率不超过.
(2)①依题意知,的可能取值为,
则,
,
,
所以的分布列为
0
1
2
.
②设第次挑战权在、组的概率分别是、,,,
依题意可得,
(1)+(3)得,
由(2)得,
所以,
即,
,
,其中,
所以是以为首项,为公比的等比数列,
所以,即.
③证明:对任意,总存在正整数,(其中表示取整函数),
当时,,
所以收敛.
6.(23-24高二下·江苏扬州·期末)为了解某挑战赛中是否接受挑战与受邀者的性别是否有关系(假设每个人是否接受挑战互不影响,且受邀者男性与女性的比例为),某机构进行了随机抽样调查,得到如下调查数据(单位:人):
接受挑战
不接受挑战
合计
男性
40
20
60
女性
16
24
40
合计
56
44
100
(1)根据表中数据,判断是否有的把握认为比赛中是否接受挑战与受邀者的性别有关;
(2)现从这100人中任选1人,表示“受邀者接受挑战”,表示“受邀者是男性”,记,则可表示受邀者接受挑战与受邀者的性别相关程度的一项度量指标,请利用样本数据求出的值;
(3)用频率估计概率,在所有受邀者中按“男性”和“女性”进行分层抽样,随机抽取5名受邀选手、若再从这5名选手中随机抽取2人进行访谈,求这2名被访谈的选手中接受挑战的男性的人数的分布列和数学期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)有的把握认为是否接受挑战与受邀者的性别有关.
(2)3
(3)分布列见解析,.
【详解】(1)假设:是否接受挑战与受邀者的性别无关.
根据列联表中的数据可以求得
,
由于,且当成立时,,
所以有的把握认为是否接受挑战与受邀者的性别有关.
(2),
同理,所以.
(3)由分层抽样知,随机抽取的5名受邀选手中,男性有3人,女性有2人.
根据频率估计概率知,男性选手接受挑战的概率为,不接受挑战的概率为.
可能得取值为,
3名被抽取的男性选手中,恰抽到人被访谈记为事件,
则,
被访谈的2名选手中接受挑战的男性人数恰好为人记为事件,
则,
,
所以
,
,
.
故的分布列如下:
0
1
2
.
1 / 2
学科网(北京)股份有限公司
$
完成时间: 月 日 今日打卡:☐ 已完成
用时: min 自评勋章:
暑假作业21 成对数据的统计分析
【知识点1 一元线性回归模型及其应用】
1.一元线性回归模型
在研究两个变量线性相关时,我们常利用成对样本数据建立统计模型,并利用模型进行预测. ①
我们称①式为Y关于x的 . 其中,Y称为 或 ,x称为 或 ;
a和b为模型的未知参数,a称为 ,b称为 ;e是Y与bx+a之间的 . 如果 ,那么Y与x之间的关系就可用一元线性函数模型来描述.
2.一元线性回归模型参数的最小二乘估计回归直线方程过样本点的中心,是回归直线方程最常用的一个特征.
我们将称为关于的 ,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做 ,求得的叫做b,a的 ,其中
3.回归分析
(1)残差:对于响应变量Y,通过观测得到的数据称为 ,通过经验回归方程得到的称为预测值,观测值减去预测称为 .
(2)刻画回归效果的方式:
①残差图法:残差点比较均匀地落在水平的 中,说明选用的模型比较合适,带状区域的宽度 ,说明模型拟合精度越高;
②残差平方和法,称为残差平方和,残差平方和 ,模型的拟合效果越好;
③决定系数R2比较法:,R2越大,模型的拟合效果 ,R2越小,模型的拟合效果 .
④相关系数r比较法:|r|越接近 ,变量线性相关性越强;越接近 ,线性相关性越弱;
【知识点2 列联表与独立性检验】
1.分类变量与列联表
①分类变量:为了表述的方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为 .
②列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
合计
2.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
3.独立性检验
①计算公式:,其中.
②临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值 .
③独立性检验:,通常称为 或 .基于小概率值的检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立.这种利用的取值推断分类变量和是否独立的方法称为 ,读作“卡方独立性检验”,简称 .
④临界值表
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
【题型1 结合散点图分析两个变量的相关性】
1.(24-25高二下·北京丰台·期末)下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
2.(25-26高二下·河北·阶段检测)对四组数据进行统计,获得如下散点图,将四组数据相应的相关系数进行比较,正确的是( )
A. B. C. D.
3.(2026·上海静安·三模)观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
4.(2026·天津·高考真题)调查候鸟和温度的关系,在不同温度下统计候鸟的数量,所得数据如图所示,其中相关系数,根据最小二乘法算得:,下列说法正确的是( )
A.与负相关 B.当时,一定为1359
C.当时,一定小于1359 D.两变量无线性关系
5.(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
【题型2 相关系数与决定系数的计算】
1.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
2.(24-25高二下·江西抚州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
3.(2026·江苏南通·三模)某科研团队研发新一代硫化物固态锂电池,测试了5块同批次电池的循环次数x(次)与剩余容量y(单位:),得到如下数据:
x(次)
100
200
300
400
500
y(Ah)
9.8
9.5
9.2
8.9
8.6
(1)求y关于x的线性回归方程,预测当循环次数为1000次时电池的剩余容量;并计算样本相关系数r,据此说明线性回归模型拟合x与y关系的合理性.
(2)该团队另有10块同批次电池,其中改性优化电池6块,普通电池4块;改性优化电池中有4块循环寿命超过1000次,普通电池循环寿命均未超过1000次,规定循环寿命超过1000次为达标.现从这10块电池中随机抽取3块进行破坏性安全测试,记抽取的3块中达标的电池数为,求的分布列和数学期望.
参考公式:回归直线的斜率和截距的最小二乘估计分别为
,,
相关系数
4.(25-26高三下·甘肃武威·阶段检测)某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
5.(2026·陕西西安·模拟预测)某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
【题型3 一元线性回归方程求解与实际问题的预测】
1.(24-25高二下·贵州黔西南·期末)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x(元/kg)
日需求量y(kg)
8
6
5
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,当价格元/kg时,日需求量y的预测值为多少?
参考公式:线性回归方程,其中,.
2.(25-26高二下·山东泰安·阶段检测)某高科技公司开发了一款迎宾机器人,为了解市场销售情况,现统计了2025年10月至2026年2月该款迎宾机器人的月销量数据,如下表所示:
月份
2025年10月
2025年11月
2025年12月
2026年1月
2026年2月
月份代码x
1
2
3
4
5
月销量y(单位:千台)
8
10
13
20
24
(1)求出y与x的相关系数r(保留三位小数),并根据r判断该款迎宾机器人月销量y与月份代码x是否有较强的相关关系;(当时,相关性较强,当时,相关性一般)
(2)求出y关于x的经验回归方程,并估计2026年7月该款迎宾机器人的销量;
参考公式:相关系数,.
参考数据:,,
,
3.(25-26高三下·湖南衡阳·阶段检测)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对年某区域的企业发布的所有大模型中随机抽取了款进行标准化测试,由测试数据得到下面的散点图:
若t为时间变量,y为分数,根据多模态模型数据(,表示
年1月份,表示年6月份,…),计算得,,
.
(1)由最小二乘法建立y关于t的线性回归方程;
(2)根据语言模型的数据建立的回归方程为,该区域的某家企业在年4月发布了1款标准化测试得分为分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由;
(3)现从该区域年已经发布的大模型中随机抽取3款,假设各款模型类型相互独立,根据年大模型的分布情况,用频率估计概率,求抽取的3款大模型中恰有2款是多模态模型的概率.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
4.(2026·陕西西安·模拟预测)某种农作物可以生长在滩涂和盐碱地,将海水稀释后对其进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
绘制散点图发现,可以用一元线性回归模型拟合与的相关关系,用最小二乘法计算得关于的经验回归方程为.
(1)求,,的值;
(2)请计算该回归模型的决定系数(精确到0.01),并评价其拟合效果.(若,就认为拟合效果好;若,就认为拟合效果一般;若,就认为拟合效果差)
附:决定系数,其中.
【题型4 非线性回归模型的应用】
1.(25-26高二下·全国·期末)一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度
21
23
24
27
29
32
产卵数个
6
11
20
27
57
77
经计算得:,,,,,线性回归模型的残差平方和,,其中分别为观测数据中的温度和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且决定指数.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为,;决定系数.
2.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
3.(25-26高二下·辽宁朝阳·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
4.(2025·云南·模拟预测)自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
核心产值规模
1.5
2.5
3.4
4.9
7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3
4.02
16.16
104.91
1.24
22.54
1.1
1.5
11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
【题型5 回归方程的应用】
1.(25-26高二下·海南·期中)已知线性相关的两个变量的取值如表所示,如果其线性回归方程为,那么当时的残差为( )
3
4
6
7
20
40
80
A.5 B. C.4 D.
2.(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是( )
时间x(月)
1
2
3
4
5
销售量y(万件)
1
1.6
2.0
a
3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
3.(24-25高三下·云南临沧·阶段检测)在研究性学习活动中,某位学生收集了两个变量与之间的几组数据如下表:
根据上表数据所得经验回归方程为.该同学又收集了两组数据,和,,利用这六组数据求得的经验回归方程为,则以下结论正确的是( )
参考公式:经验回归方程为,其中,.
A., B.,
C., D.,
4.(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
5.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2
3
4
5
6
1.02
1.20
1.42
1.62
1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
【题型6 2×2列联表与独立性检验问题】
1.(24-25高二下·四川绵阳·期末)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表如表所示:
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
附:,其中n=a+b+c+d.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
则以下结论正确的是( )
A.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关
2.(25-26高二下·辽宁抚顺·期中)某学校开展阅读兴趣调查,随机采访男生、女生各100人,得到下面列联表:
喜欢文学类书籍
喜欢科普类书籍
男生
30
70
女生
50
50
(1)估计该校男生和女生喜欢科普类书籍的概率分别是多少;
(2)能否有的把握认为学生喜欢文学类书籍还是科普类书籍与性别有关?
附:.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
3.(25-26高二上·陕西汉中·期末)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表:
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
配方材料试样
20
合计
140
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联?
附:,其中,
0.05
0.01
0.001
3.841
6.635
10.828
【题型7 统计案例中的综合性问题】
1.(22-23高二下·山东东营·期末)2021年4月7日,“学习强国”上线“强国医生”功能,提供智能导诊、疾病自查、疾病百科、健康宣传等多种医疗健康服务.
(1)为了解“强国医生”使用次数的多少与性别之间的关系,某调查机构调研了200名“强国医生”的使用者,得到表中数据,根据所给数据完成上述表格,并判断是否有 99.9%的把握认为“强国医生”的使用次数与性别有关;
男
女
总计
使用次数多
40
使用次数少
30
总计
90
200
(2)该机构统计了“强国医生”上线7天内每天使用该服务的女性人数,“强国医生”上线的第x天,每天使用“强国医生”的女性人数为y,得到以下数据:
x
1
2
3
4
5
6
7
y
6
11
21
34
66
100
195
通过观察散点图发现样本点集中于某一条曲线的周围,求y关于x的回归方程,并预测“强国医生”上线第12天使用该服务的女性人数.
附:随机变量
0.05
0.02
0.01
0.005
0.001
3.841
5.024
6.635
7.879
10.828
其中参考公式:对于一组数据其回归直线 的斜率和截距的最小二乘估计公式分别为
61.9
1.6
51.8
2522
3.98
2.(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
3.(25-26高二下·湖南长沙·期中)随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.
(1)为了更好了解大众对新能源汽车的接受程度,某城市汽车行业协会依据年龄采用分层随机抽样的方式,从40岁以下和40岁及以上两个年龄层中各抽取100名市民进行调查,并对他们选择新能源汽车,还是选择传统汽车进行意向调查,得到了如下列联表:
选择新能源汽车
选择传统汽车
总计
40岁以下
70
30
100
40岁及以上
40
60
100
总计
110
90
200
(i)记选择新能源汽车者中年龄在40岁以下的概率为,求的估计值;
(ii)依据小概率值的独立性检验,分析选择新能源汽车是否与年龄有关.
(2)为了了解该地区新能源汽车的销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销售量(单位:万台)关于年份的线性回归方程,且销售量的方差为,年份的方差为.求与间的样本相关系数,并据此判断该地区新能源汽车销售量与年份的线性相关性强弱.
附:(i)在线性回归方程中,,;
(ii)样本相关系数,若,则可判断与线性相关性很强;
(iii),其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
4.(19-20高二下·江苏淮安·期末)冠状病毒是一个大型病毒家族,今年出现的新型冠状病毒(nCoV)是以前从未在人体中发现的冠状病毒新毒株.
(1)某科研团队为研究潜伏期与新冠肺炎患者年龄的关系,组织专家统计了该地区新冠肺炎患者新冠病毒潜伏期的相关信息,其中被统计的患者中60岁以下的人数与60岁以上的人数相同,60岁以下且潜伏期在7天以下的人数约占,60岁以上且潜伏期在7天以下的人数约占,若研究得到在犯错误概率不超过0.010的前提下,认为潜伏期与新冠肺炎患者年龄有关,现设被统计的60岁以上的人员人数为5x,请完成下面2×2列联表并计算被统计的60岁以上的人员至少多少人?
潜伏期7天以下
潜伏期7天以上
合计
60岁以下
60岁以上
合计
附1:,其中
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
(2)某地区的新冠肺炎治愈人数y(人)与3月份的时间x(日)满足回归直线方程,统计数据如下:
3月日期(日)
2
3
4
5
6
治愈人数(人)
25
30
40
45
已知,,,请利用所给数据求t和回归直线方程;
附2:,.
1.(25-26高二下·天津滨海新区·期中)对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
2.(2026·天津河东·二模)“明数理”数学兴趣小组通过调查,整理出天津市三月份每日最高气温与最低气温的数据,绘制了气温与日期关系的散点图(如图),并进行统计学分析,下列说法正确的是( )
A.小明根据散点图判断气温与日期无相关关系
B.小华利用最小二乘法计算最高气温与日期的经验回归方程为,其中x为日期(3月1日为,3月31日为)
C.小红计算出最低气温与日期的相关系数为0.9397,以此判断两者的相关程度很弱
D.小强判断无论是最高气温与日期,还是最低气温与日期都正线性相关
3.(22-23高三上·河南·开学考试)某企业秉承“科学技术是第一生产力”的发展理念,投入大量科研经费进行技术革新,该企业统计了最近6年投入的年科研经费x(单位:百万元)和年利润y(单位:百万元)的数据,并绘制成如图所示的散点图.已知x,y的平均值分别为,.甲统计员得到的回归方程为;乙统计员得到的回归方程为;若甲、乙二人计算均未出现错误,有下列四个结论:
①当投入年科研经费为20(百万元)时,按乙统计员的回归方程可得年利润估计值为75.6(百万元)(取);
②;
③方程比方程拟合效果好;
④y与x正相关.
以上说法正确的是( )
A.①③④ B.②③ C.②④ D.①②④
4.(25-26高二下·河北邢台·阶段检测)已知某旗舰店近五年“十一”黄金周期间的成交额如下表:
年份
年份代号
成交额万元
根据表中数据可知具有较强的线性相关关系,其经验回归方程为,则下列结论正确的是( )
A.年“十一”黄金周期间该旗舰店的成交额一定为万元
B.
C.当时,残差为
D.点一定在经验回归直线上
5.(25-26高二下·河北衡水·阶段检测)用模型拟合一组数,若,,设,得变换后的经验回归方程为,则( )
A. B. C. D.
6.(多选)(25-26高二下·山东临沂·阶段检测)下列说法中正确的有( )
A.若样本数据的方差,则所有的都相等
B.在做回归分析时,残差图中残差点均匀分布在横轴两侧,且分布的带状区域的宽度越窄表示回归效果越好
C.以模型去拟合一组数据时,设,求得经验回归方程为,则的值分别是4和0.3
D.利用变量的经验回归方程进行预测,当时,,当时,,则
7.(多选)(2026·江西南昌·模拟预测)某研究机构为调查“高中生睡眠质量与经常使用电子设备是否有关”,分别去两个学校调查.甲校随机抽取300名学生,乙校随机抽取600名学生,分别得到以下数据:
甲校(300人)
睡眠好
睡眠差
合计
经常使用电子设备
60
40
100
不经常使用电子设备
140
60
200
合计
200
100
300
乙校(600人)
睡眠好
睡眠差
合计
经常使用电子设备
120
80
200
不经常使用电子设备
280
120
400
合计
400
200
600
记由甲校、乙校上述数据计算的卡方统计量分别为 .下列说法正确的有( )
A.甲乙两校样本中经常使用电子设备的学生比例均为
B.甲乙两校样本经常使用电子设备的学生中睡眠差的比例均为
C.相比甲校数据,乙校数据更容易得出“睡眠质量与使用电子设备有关”的结论
D.若将甲、乙两校合并为一个容量为 900 人的样本,则合并后的卡方统计量
8.(2026·江苏苏州·三模)已知下表中是关于变量,的5组观测数据,甲同学根据表中数据通过模型得到经验回归方程为,则______.
1
2
3
4
5
9.(2025高二·全国·专题练习)已知x与y之间的几组数据如下表.
x
1
2
3
4
y
4
m
n
1
表中y的平均值为2.5,若某同学对m赋了三个值,分别为3.5,3,2.5,得到三条线性回归直线的方程,分别为,对应的相关系数分别为,则下列结论中正确的是_______.(填序号)①在同一个坐标系中,三条回归直线可以围成一个封闭图形;②;③;④相关系数中,最大.
参考公式:线性回归方程,其中;相关系数;.
10.(24-25高二下·广东湛江·期末)为了解学生身体素质的情况,学校随机抽取了100位同学组织了一次体测,结果有20%的同学合格,经过调查,抽取的学生中只有10%的学生每日运动量能达标,每日运动量能达标的学生体测合格率有50%.
(1)完成列联表,并根据小概率值的独立性检验,能否认为体测成绩与每日运动量之间有关;
体测合格
体测不合格
合计
运动量达标
运动量未达标
合计
(2)从该校随机抽取三人,三人中体育项目测试相互独立,求三人中合格人数的分布列和期望;
(3)为提升学生身体素质,学校决定给每个班级安排任务,规则如下:每天班主任从箱子里抽球,里面有2个白球和2个红球(大小、材质相同),抽到红球放回,且学生就需要跑步1km;抽到白球则休息,抽完的球不放回,再往里放入一个红球,直至箱子里全部都是红球后结束,记天后任务结束的概率为.求.
附:,.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
11.(24-25高二下·上海·期末)某工厂生产了一批高精尖仪器,为确保仪器的可靠性,工厂安排了一批专家对仪器进行检测,每台仪器被每位专家评议为"可靠"的概率均为,且每台仪器是否可靠及每位专家检测的结果相互独立.
(1)为调查某零件A的品质对仪器可靠性的影响,现抽取了50台仪器检测,请根据
下述列联表,判断是否有的把握认为“仪器可靠”与“某零件A达优等”有关?
仪器可靠
仪器不可靠
合计
零件A达优等
41
4
45
零件A未达优等
2
3
5
合计
43
7
50
附:;
0.10
0.01
0.001
2.706
6.65
10.828
(2)若,现从某批100台仪器中抽取4台,安排一位专家进行检测,记检测结果可靠的仪器台数为,求的分布列、数学期望和方差;
(3)为进一步提高出厂仪器的可靠性,工厂决定每台仪器都由三位专家进行检测,只有三位专家都检验仪器可靠,则仪器通过检测.若三位专家中至少有两位检测结果为不可靠,则仪器报废.其余情况,仪器需要回厂返修.拟定每台仪器检测费用为100元,若回厂返修,每台仪器还需要额外花费300元的维修费.现以此方案实施,且抽检仪器为100台,工厂预算2.3万元用于检测和维修,试用表示每台机器所需费用的期望,并估计,100台机器所需的总费用是否有可能会超过预算2.3万元?说明理由.
1.(多选)(25-26高二下·河南南阳·期中)已知相关系数,关于的线性回归方程中斜率和截距的最小二乘估计公式分别为,,已知变量与变量的部分数据,建立由最小二乘法得到的两个回归模型:以为自变量,为因变量,得出的线性回归方程为;以为自变量,为因变量,得出的线性回归方程为,若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量的方差,则可得知变量的标准差
B.若已知变量的方差,则不可得知变量的标准差
C.若不给定其他信息,则也可得知变量与变量各自的平均值
D.若不给定其他信息,则也可得知变量与变量的相关系数
2.(22-23高三上·广东深圳·期中)红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215
17713
714
27
81.3
3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
3.(25-26高二上·浙江宁波·期末)在汽车生产过程中,合金钢的性能直接影响车身结构的安全性和耐久性.其中,碳含量是影响合金钢屈服强度的关键因素之一.为研究二者之间的关系,某实验室制备了9组不同碳含量的合金钢样本,并测量了对应的屈服强度(MPa),数据如下表所示:
编号
1
2
3
4
5
6
7
8
9
碳含量
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
屈服强度
481
512
532
573
604
635
656
687
719
(1)求合金钢屈服强度关于碳含量的回归方程,并预测碳含量为(即)时的合金钢屈服强度;
(2)为了综合评估材料性能,需要同时考虑强度收益、脆性损失和冶炼成本2x,为此工程师定义了一个综合性能指标.为便于运算,屈服强度用近似计算(其中为(1)问中计算所得数据,[]表示不小于的最小整数),请根据上述优化模型计算最大的综合性能指标值.
附:参考数据:
参考公式:对于一组数据,其经验回归方程的斜率和截距的最小二乘估计分别为.
4.(23-24高二下·山西长治·期中)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:)有关,根据以往在某地收集到的7组数据作出散点图,发现两个变量并不呈现线性相关关系,现分别用模型①与模型②作为平均产卵数和平均温度的回归方程来建立两个变量之间的关系.
平均温度
21
23
25
27
29
32
35
平均产卵数个
5
9
22
25
65
118
324
441
529
625
729
841
1024
1225
1.61
2.20
3.09
3.22
4.17
4.77
5.78
27.43
773.43
81.14
3.55
20.03
0.37
0.29
0.0052
其中.
(1)根据表中数据,经计算得出模型①,请建立模型②下关于的回归方程;并在两个模型下分别估计温度为时的产卵数;(与估计值均精确到小数点后两位)(参考数据:)
(2)模型①,②的决定系数分别为,请根据决定系数判断哪个模型的拟合效果更好;
(3)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
5.(24-25高二下·山东淄博·期末)生活中运动对人体健康非常重要,为了了解不同年龄人群篮球运动的情况,随机调查了400人,得到如下数据:
年龄
篮球运动情况
合计
经常运动
不经常运动
40及以上
130
70
200
40以下
100
100
200
合计
230
170
400
(1)依据小概率值的独立性检验,能否认为篮球运动的情况与年龄有关?
(2)某校组织“篮球”比赛,分成了、、三组进行挑战赛,其规则如下:挑战权在任何一组,该组都可向另外两组发起挑战,且被挑战方拥有下一次的挑战权,若挑战权在组,挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,,若挑战权在组,则挑战、组的概率为,.已知首先由组发起挑战,按此规则进行了多次挑战.
①前3次挑战后,求组拥有挑战权的次数的分布列与数学期望;
②经过次挑战后,挑战权在组的概率为,求;
③数列收敛的定义:已知数列,若对于任意给定的正数,总存在正整数,使得当时,,(是一个确定的实数),则称数列收敛于.根据数列的定义证明②中收敛.
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
6.(23-24高二下·江苏扬州·期末)为了解某挑战赛中是否接受挑战与受邀者的性别是否有关系(假设每个人是否接受挑战互不影响,且受邀者男性与女性的比例为),某机构进行了随机抽样调查,得到如下调查数据(单位:人):
接受挑战
不接受挑战
合计
男性
40
20
60
女性
16
24
40
合计
56
44
100
(1)根据表中数据,判断是否有的把握认为比赛中是否接受挑战与受邀者的性别有关;
(2)现从这100人中任选1人,表示“受邀者接受挑战”,表示“受邀者是男性”,记,则可表示受邀者接受挑战与受邀者的性别相关程度的一项度量指标,请利用样本数据求出的值;
(3)用频率估计概率,在所有受邀者中按“男性”和“女性”进行分层抽样,随机抽取5名受邀选手、若再从这5名选手中随机抽取2人进行访谈,求这2名被访谈的选手中接受挑战的男性的人数的分布列和数学期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
1 / 2
学科网(北京)股份有限公司
$