内容正文:
专题02 统计中的必考七类问题(举一反三专项训练)
【苏教版】
【类型1 变量的相关关系】 3
【类型2 相关系数的计算及应用】 5
【类型3 残差分析】 7
【类型4 一元线性回归分析】 9
【类型5 非线性回归】 12
【类型6 列联表与独立性检验】 15
【类型7 独立性检验与其他知识交汇】 18
知识点1 线性回归分析
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量之间具有一定的联系,但又没有确定性函数关系,这种关系称为相关关系.
2.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
3.求线性回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其线性回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据线性回归直线过样本点的中心计算;
(4)写出线性回归方程.
求线性回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的线性回归方程才有意义.
4.残差分析
对于响应变量y,通过观测得到的数据称为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
5.回归分析的三大常用结论
(1)求解线性回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据线性回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
知识点2 独立性检验
1.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
2.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【方法技巧与总结】
1.线性回归方程过点.
2.求时,常用公式.
3.线性回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【类型1 变量的相关关系】
1.(24-25高二下·天津西青·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
2.(24-25高二下·重庆·期末)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有负相关关系的是( )
A. B.
C. D.
3.(2025·天津河西·一模)对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
4.(24-25高二·全国·课堂例题)下列关系中,是相关关系的有_________.
①正方形的边长与面积之间的关系;
②广告费支出与销售额之间的关系;
③人的身高与体重之间的关系.
5.(24-25高二·全国·课堂例题)试判断下列各个问题中两个变量之间是否具有相关关系:
(1)商品的销售价格与其供应量;
(2)汽车的行驶速度与耗油量;
(3)真空中自由降落的小球,位移(单位:m)与时间(单位:s);
(4)日降雨量(单位:cm)与空气中污染物浓度(单位:).
6.(24-25高二下·江苏·课后作业)某种木材体积与树木的树龄之间有如下的对应关系:
树龄
2
3
4
5
6
7
8
体积
30
34
40
60
55
62
70
(1)请作出这些数据的散点图;
(2)你能由散点图发现木材体积与树木的树龄近似成什么关系吗?
【类型2 相关系数的计算及应用】
7.(24-25高二下·全国·课后作业)某景区对2017-2022年景区内农家乐接待人数(单位:万人)进行了统计,得到数据如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号
1
2
3
4
5
6
接待人数万人
4.5
5.6
6.1
6.4
6.8
7.2
则接待人数与年份的相关系数约为( )(参考数据:)
A.0.65 B.0.71 C.0.89 D.0.97
8.(24-25高二下·广东珠海·月考)一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
9.(24-25高二上·全国·课后作业)部门所属的10个工业企业生产性固定资产价值与工业增加值数据如下(单位:百万元):
固定资产价值
3
3
5
6
6
7
8
9
9
10
工业增加值
15
17
25
28
30
36
37
42
40
45
根据上表数据计算的相关系数为( )
A.0 B.-0.8973 C.1.0228 D.0.9918
10.(2025·山西·模拟预测)A市某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了市淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数(万人)与第个月的数据:
1
2
3
4
5
23.1
37.0
62.1
111.6
150.8
根据表中数据可用一元线性回归模型刻画变量与变量之间的线性相关关系,且回归方程中的,则相关系数__________(精确到0.01).
参考公式:相关系数.回归方程中斜率的最小二乘法估计公式为;
参考数据:,,,,.
11.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
12.(24-25高三上·广东广州·月考)某专营店统计了最近天到该店购物的人数和时间第天之间的数据,列表如下:
(1)由表中给出的数据,判断是否可用线性回归模型拟合人数与时间之间的关系?(若,则认为线性相关程度高,可用线性回归模型拟合;否则,不可用线性回归模型拟合.计算时精确到)
(2)该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满元可减元;方案二,购物金额超过元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打折,中奖两次打折,中奖三次打折.某顾客计划在此专营店购买一件价值元的商品,请从实际付款金额的数学期望的角度分析,选哪种方案更优惠?
参考数据:.附:相关系数.
【类型3 残差分析】
13.(24-25高二下·山东青岛·月考)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
14.(24-25高二下·福建泉州·月考)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
15.(24-25高三下·山西·开学考试)已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
16.(24-25高二下·黑龙江大庆·期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
6
6.5
若由表中数据得到经验回归直线方程为,则时的残差为____________.
17.(2025·云南丽江·三模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
18.(24-25高二下·河北保定·月考)某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
【类型4 一元线性回归分析】
19.(24-25高二下·陕西渭南·期末)2023年第5届藏博会在拉萨举行,藏博会上本地核桃油深受大家喜爱,某商家统计了最近5个月销量,如表所示:
时间x
1
2
3
4
5
销售量y/万瓶
5.7
4.8
3.8
3.2
2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.样本中心点为
C.可以预测当时销量约为1.8万瓶 D.线性回归方程中
20.(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
21.(24-25高二下·天津和平·期末)《哪吒之魔童闹海》在内地市场的票房突破了154亿大关,成为全球单一电影市场票房的最高记录.一款哪吒变脸玩具深受大家喜爱,某商家统计了最近5个月销量,如表所示:若与线性相关,且线性回归方程为,则下列说法不正确的是( )
时间
1
2
3
4
5
销售量/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量与负相关
B.线性回归方程中
C.当时,残差为0.2
D.可以预测当时销量约为2.1万只
22.(24-25高三下·上海虹口·期中)某公司为了解用电量y(单位:千瓦时)与气温x(单位:摄氏度)之间的关系,随机统计了4天的用电量与当天气温,绘制了如下表格,由表中数据可得回归方程,则实数___________.
x
10
13
18
y
62
38
34
m
23.(24-25高二下·山东青岛·期末)某企业调研后,得到研发投入(万元)与产品收益(万元)的数据如下:
1
2
3
4
5
9
12
17
21
26
(1)若与线性相关,请根据样本相关系数推断它们的相关程度;(若,则相关程度一般;若,则相关程度很强)
(2)求出关于的经验回归方程,并预测当研发投入6万元时的产品收益.
参考数据:.
参考公式:,,.
24.(2025·甘肃平凉·模拟预测)高血脂症是指脂肪代谢或者运转异常使人体血液中的血脂含量超过正常范围,表现为血中胆固醇或甘油三酯过高或高密度脂蛋白过低,现代医学称“血脂异常”.高血脂症是常见病、多发病,更是导致心脑血管疾病的元凶.最新的调查显示,中国成人高血脂的患病率为41.1%,大概每五位成人中就有两位是高血脂患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血脂水平下降,高血脂发病率降低,控制高血脂的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动起5个季度社区高血脂患者的血脂情况统计.
季度
1
2
3
4
5
血脂明显降低(或治愈)人数/人
100
150
210
270
320
已知血脂明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,试求出与的经验回归方程,并预测第6季度血脂明显降低(或治愈)者大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组去参加徒步走比赛.若比赛分为初赛和决赛,其中初赛有两轮,只有两轮都获胜才能进入决赛.已知甲组在每轮比赛中获胜的概率均为;乙组在第一轮和第二轮比赛中获胜的概率分别为和;丙组在第一轮和第二轮获胜的概率分别为和.设进入决赛的组数为,求的分布列与数学期望.
附:经验回归方程中斜率和截距的最小二乘估计公式分别为:,
【类型5 非线性回归】
25.(24-25高三下·山东·开学考试)为研究某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设与的数据如表格所示:得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A.-2 B.-1 C. D.
26.(24-25高三下·广东梅州·月考)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
27.(24-25高二下·江西萍乡·期末)汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎面磨损.某实验室通过实验测得行驶里程与某品牌轮胎凹槽深度的数据,建立了如下回归模型,通过实验数据分析与计算得到如下结论:①;②,令,,则回归方程应为__________.
28.(24-25高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1
5
7
8
9
2
3
6
8
11
0.7
1.1
1.8
2.1
2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和3.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
29.(2025·辽宁·模拟预测)某公司统计了该公司销售部员工工龄(单位:年)与一年中的月均销售额(单位:万元)的数据,得到下面的散点图及一些统计量的值.
15.1
4.84
24.2
94.9
155.5
82.5
表中.
(1)由散点图知,可用经验回归方程拟合y与x的关系,试根据提供的有关数据,预测月均销售额超过20万元的工龄最小值;
(2)该公司为激励销售部员工,规定每月的销售冠军奖励1万元,其他名次无奖励.甲为该公司销售部的员工,他在第一季度(每年的前3个月)的第一个月成为销售冠军的概率为,从第二个月开始,若上个月不是销售冠军,则这个月为销售冠军的概率为;若上个月为销售冠军,则这个月仍为销售冠军的概率为.求他在第一季度所得奖励金额X的分布列和数学期望.
附:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,,,,,,.
30.(24-25高三上·重庆沙坪坝·月考)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
【类型6 列联表与独立性检验】
31.(24-25高二下·广东韶关·期末)为了检测某种药物对预防疾病的效果,进行了小动物试验,得到如下列联表:
药物
疾病
合计
未患病
患病
服用
18
7
25
未服用
12
8
20
合计
30
15
45
已知,.根据小概率值的独立性检验,则下列结论正确的是( )
A.药物对预防疾病有效果
B.药物对预防疾病有效果,这个结论犯错误的概率不超过0.05
C.药物对预防疾病无效果
D.药物对预防疾病无效果,这个结论犯错误的概率不超过0.05
32.(24-25高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
33.(24-25高二下·山东·月考)北京冬奥会的举办掀起了一阵冰雪运动的热潮.某高校在本校学生中对“喜欢滑冰是否与性别有关”做了一次调查,参与调查的学生中,男生人数是女生人数的3倍,有的男生喜欢滑冰,有的女生喜欢滑冰.若根据独立性检验的方法,有95%的把握认为是否喜欢滑冰和性别有关,则参与调查的男生人数可能为( )
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
2.706
3.841
5.024
6.635
A.12 B.34 C.36 D.48
34.(24-25高二下·河北衡水·期末)某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
35.(24-25高二下·湖北武汉·期末)某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:
班级
成绩
合计
优秀
非优秀
一班
35
15
二班
15
25
合计
(1)请完成列联表;
(2)根据列联表中的数据,并根据小概率值的独立性检验,能否认为推广新课改与总成绩是否优秀有关系?
参考数据:
0.10
0.05
0.01
00.005
2.706
3.841
6.635
7.879
.
36.(24-25高二下·福建泉州·期末)为考察国产14纳米光刻机和进口14纳米光刻机的光刻效果,随机抽取了500台14纳米光刻机,对两种光刻机的良品、次品进行对比,得到如下列联表:
良品
次品
合计
国产14纳米光刻机
170
80
进口14纳米光刻机
150
100
250
合计
180
500
(1)求,的值,并以频率估计概率,估计国产14纳米光刻机的次品率;
(2)根据小概率值的独立性检验,能否判断国产14纳米光刻机与进口14纳米光刻机质量有差异?
附:,其中为样本容量.
0.05
0.01
0.001
3.841
6.635
10.828
【类型7 独立性检验与其他知识交汇】
37.(2026高三·全国·专题练习)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是( )
日落云里走夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
参考公式:
临界值参照表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关
D.出现“日落云里走”,有99%的把握判断夜晚会下雨
38.(24-25高二下·天津和平·期末)为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了100人,得到成对样本观测数据的分类统计结果,如下列联表所示(单位:人),根据数据计算得,依据小概率值的独立性检验,小概率值相应的临界值为,则下列结论不正确的是( )
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
25
10
35
吸烟者
15
65
合计
40
60
100
A.
B.若从这100人中随机抽取2人,则2人都是非肺癌患者的概率为
C.在犯错误的概率不超过0.001的前提下,认为吸烟与患肺癌有关联
D.在犯错误的概率不超过0.001的前提下,认为吸烟与患肺癌无关联
39.(25-26高二上·全国·单元测试)米接力短跑作为田径运动的重要项目,展现了一个国家短跑运动的团体最高水平.每支队伍都有自己的一个或几个明星队员,现有一支米接力短跑队,张三是其队员之一,经统计该队伍在参加的所有比赛中,张三是否上场时该队伍是否取得第一名的情况如下表.若已知张三上场,则该队伍取得第一名的概率约为___________.若有的把握认为该队伍是否取得第一名与张三是否上场有关,则认为张三是这支队伍的明星队员,则依据表中数据可判断张三___________(填“是”或“不是”)这支队伍的明星队员.
张三上场情况
队伍取得第一名的情况
取得第一名
未取得第一名
总计
上场
未上场
总计
40.(24-25高二下·青海西宁·期末)某机构为了解科技工作者对deepseek的使用情况与年龄是否有关,从甲市科技工作者中抽取了200人进行调查,得到下表.
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
中老年人(40周岁以上)
30
80
总计
200
(1)补全表中数据,根据小概率值的独立性检验,是否可以认为科技工作者对deepseek的使用情况与年龄有关联?
(2)将样本中使用deepseek的频率作为甲市科技工作者中使用该软件的概率,从甲市科技工作者中随机抽取3人,记为这3人中使用deepseek的人数,求的分布列和数学期望.
附:,其中.
0.010
0.005
0.001
6.635
7.879
10.828
41.(24-25高二下·福建福州·期末)春夏之交因昼夜温差大,细菌、病毒等活跃,是流感高发季节.某校高二年级某组团统计了流感暴发前的半个月与流感暴发后的半个月的学生请假情况,得到如下数据:
因发烧请假
非发烧请假
合计
流感暴发前
15
40
流感暴发后
15
合计
100
(1)完成列联表,并依据的独立性检验,判断能否认为流感暴发对请假的同学中发烧的人数有影响.
(2)后经过了解,在全校因发烧请假的同学中男生占比为,且的因发烧请假的男生需要输液治疗,的因发烧请假的女生需要输液治疗.已知学校随机选择一名因发烧请假在医院输液的同学进行慰问,求这名同学是女生的概率.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
42.(24-25高二下·山东菏泽·期末)为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取80名学生.通过测试得到了表中数据:
学校
数学成绩
合计
不优秀
优秀
甲校
10
30
40
乙校
20
20
40
合计
30
50
80
(1)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异?如果表中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因;
(2)现从所抽取的数学成绩优秀学生中利用分层抽样的方法抽取5人,再从这5人中随机选取3人,设这3人中来自乙校的人数为,求的分布列和期望.
附:①,其中.
②临界值表
0.1
0.01
0.005
2.706
6.635
7.879
2 / 30
学科网(北京)股份有限公司
$
专题02 统计中的必考七类问题(举一反三专项训练)
【苏教版】
【类型1 变量的相关关系】 3
【类型2 相关系数的计算及应用】 6
【类型3 残差分析】 11
【类型4 一元线性回归分析】 16
【类型5 非线性回归】 21
【类型6 列联表与独立性检验】 27
【类型7 独立性检验与其他知识交汇】 33
知识点1 线性回归分析
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量之间具有一定的联系,但又没有确定性函数关系,这种关系称为相关关系.
2.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
3.求线性回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其线性回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据线性回归直线过样本点的中心计算;
(4)写出线性回归方程.
求线性回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的线性回归方程才有意义.
4.残差分析
对于响应变量y,通过观测得到的数据称为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
5.回归分析的三大常用结论
(1)求解线性回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据线性回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
知识点2 独立性检验
1.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
2.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【方法技巧与总结】
1.线性回归方程过点.
2.求时,常用公式.
3.线性回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【类型1 变量的相关关系】
1.(24-25高二下·天津西青·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】D
【解题思路】由散点图的特征,结合相关系数的定义即可得到答案.
【解答过程】由散点图的趋势可知,,,,
又图一的散点图比图三的散点图更为集中,则,所以,
又图二的散点图比图四的散点图更为集中,则,所以,
所以.
故选:D.
2.(24-25高二下·重庆·期末)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有负相关关系的是( )
A. B.
C. D.
【答案】C
【解题思路】根据散点图的特征得到答案.
【解答过程】A中的散点杂乱无章,无规律可言,看不出两个变量有什么相关性;
B中呈正相关关系,C中两个变量具有负相关关系;
D中两个变量具有相关性,但不是正相关,也不是负相关.
故选:C.
3.(2025·天津河西·一模)对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【答案】B
【解题思路】根据散点图点的变化关系确定正负相关性即可.
【解答过程】由变量,的散点图,知随增大,也增大,变量与正相关,
由变量,的散点图,知随增大,减小,与负相关.
故选:B.
4.(24-25高二·全国·课堂例题)下列关系中,是相关关系的有_________.
①正方形的边长与面积之间的关系;
②广告费支出与销售额之间的关系;
③人的身高与体重之间的关系.
【答案】②③
【解题思路】由相关关系的概念即可判断;
【解答过程】①正方形的边长与面积之间的关系是函数关系;
②广告费支出与销售额之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系;
③人的身高并不能确定体重,但一般来说“身高者,体也重”,我们说身高与体重这两个变量具有相关关系.
故答案为:②③.
5.(24-25高二·全国·课堂例题)试判断下列各个问题中两个变量之间是否具有相关关系:
(1)商品的销售价格与其供应量;
(2)汽车的行驶速度与耗油量;
(3)真空中自由降落的小球,位移(单位:m)与时间(单位:s);
(4)日降雨量(单位:cm)与空气中污染物浓度(单位:).
【答案】(1)具有相关关系
(2)具有相关关系
(3)具有函数关系
(4)具有相关关系
【解题思路】(1)根据相关关系的概念判断即可;
(2)根据相关关系的概念判断即可;
(3)根据函数关系的概念判断即可;
(4)根据相关关系的概念判断即可.
【解答过程】(1)商品的销售价格与其供应量之间具有相关关系.一般来说,在品质相当的情况下,供应量越大,
价格就越低;供应量越小,价格就越高.某些品牌商品限量供应,就是保持较高价位的销售策略.
(2)汽车的行驶速度与耗油量之间具有相关关系.通常情况下,当速度很慢或速度很快时,耗油较多,
而在中等车速(不同的汽车范围不一定一样)时,速度稍高,耗油反而较少.
(3)根据自由落体运动方程,可知自由降落的小球,位移与时间之间是函数关系.
(4)日降雨量与空气中污染物浓度之间具有相关关系.通常情况下,降雨量越大,空气中污染物浓度就越低.
6.(24-25高二下·江苏·课后作业)某种木材体积与树木的树龄之间有如下的对应关系:
树龄
2
3
4
5
6
7
8
体积
30
34
40
60
55
62
70
(1)请作出这些数据的散点图;
(2)你能由散点图发现木材体积与树木的树龄近似成什么关系吗?
【答案】(1)答案见解析
(2)木材的体积与树龄线性近似成线性相关关系且呈正相关.
【解题思路】(1)根据数据画出散点图即可;
(2)根据散点图判断近似成线性相关关系且呈正相关.
【解答过程】(1)以x轴表示树木的树龄,y轴表示树木的体积,可得相应的散点图如图所示:
(2)由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树龄线性近似成线性相关关系且呈正相关.
【类型2 相关系数的计算及应用】
7.(24-25高二下·全国·课后作业)某景区对2017-2022年景区内农家乐接待人数(单位:万人)进行了统计,得到数据如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号
1
2
3
4
5
6
接待人数万人
4.5
5.6
6.1
6.4
6.8
7.2
则接待人数与年份的相关系数约为( )(参考数据:)
A.0.65 B.0.71 C.0.89 D.0.97
【答案】D
【解题思路】根据已知数据分别计算各个量得出的值即可.
【解答过程】由题得,
所以,
故接待人数与年份的相关系数约为0.97.
故选:D.
8.(24-25高二下·广东珠海·月考)一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
【答案】D
【解题思路】运用相关系数公式进行求解即可.
【解答过程】因为,,所以,
,
故选:D.
9.(24-25高二上·全国·课后作业)部门所属的10个工业企业生产性固定资产价值与工业增加值数据如下(单位:百万元):
固定资产价值
3
3
5
6
6
7
8
9
9
10
工业增加值
15
17
25
28
30
36
37
42
40
45
根据上表数据计算的相关系数为( )
A.0 B.-0.8973 C.1.0228 D.0.9918
【答案】D
【解题思路】根据已知条件,结合相关系数的公式,即可求解.
【解答过程】由表中数据可得,,,
,,
,
故.
故选:D.
10.(2025·山西·模拟预测)A市某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了市淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数(万人)与第个月的数据:
1
2
3
4
5
23.1
37.0
62.1
111.6
150.8
根据表中数据可用一元线性回归模型刻画变量与变量之间的线性相关关系,且回归方程中的,则相关系数__________(精确到0.01).
参考公式:相关系数.回归方程中斜率的最小二乘法估计公式为;
参考数据:,,,,.
【答案】0.98
【解题思路】运用给出的公式计算样本中心,再计算相关系数即可.
【解答过程】由题设,,,
,
所以.
故答案为:.
11.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
【答案】(1);变量x与y之间具有很强的线性相关关系
(2)分布列见解析;期望:1.8
【解题思路】(1)使用相关系数计算公式求相关系数,根据求解结果判断线性相关关系的强弱;
(2)结合超几何分布的概率公式求分布列,再由期望公式求期望.
【解答过程】(1),,
,
,
,
样本相关系数:
,
因为非常接近1,所以变量x与y之间具有很强的线性相关关系.
(2)5天中取件人数小于100的天数有3天,
从这5天中随机选取3天,的可能取值为1,2,3.
,
,
,
所以的分布列为:
1
2
3
的数学期望.
12.(24-25高三上·广东广州·月考)某专营店统计了最近天到该店购物的人数和时间第天之间的数据,列表如下:
(1)由表中给出的数据,判断是否可用线性回归模型拟合人数与时间之间的关系?(若,则认为线性相关程度高,可用线性回归模型拟合;否则,不可用线性回归模型拟合.计算时精确到)
(2)该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满元可减元;方案二,购物金额超过元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打折,中奖两次打折,中奖三次打折.某顾客计划在此专营店购买一件价值元的商品,请从实际付款金额的数学期望的角度分析,选哪种方案更优惠?
参考数据:.附:相关系数.
【答案】(1)可以,理由见解析
(2)方案二更优惠,理由见解析
【解题思路】(1)计算出、的值,将表格中的数据代入相关系数公式,求出的值,即可得出结论;
(2)设方案一的实际付款金额为元,方案二的实际付款金额为元,计算出、的值,比较大小后可得出结论.
【解答过程】(1)解:,,
所以,,
,,
所以,,
所以,与的线性相关性很强,故可用线性回归模型拟合人数与时间之间的关系.
(2)解:设方案一的实际付款金额为元,方案二的实际付款金额为元,
由题意可知,(元),
的可能取值有、、、,
,,
,,
所以,,
所以,方案二更优惠.
【类型3 残差分析】
13.(24-25高二下·山东青岛·月考)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
【答案】C
【解题思路】由条件先求原数据的变量的平均值,再求除去杂点数据后的新数据组的,再由样本中心点在回归直线上求修正后的回归方程,再结合残差定义求解.
【解答过程】由题意可得回归方程为,所以,
因为,所以,所以,
若减少一个杂点数据后,剩余样本数量为10,
修正后的,,
又修正后的回归方程的纵截距为,
设修正后的回归方程为,
可得,
所以修正后回归方程为,
当时,,
所以数据的残差为.
故选:C.
14.(24-25高二下·福建泉州·月考)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【答案】D
【解题思路】利用回归方程过样本点,可求参数,然后再根残差概念即可求解.
【解答过程】由表格中数据可求得:,
,
根据关于的经验回归方程必过点得:
,故经验回归方程为,
当时,预报值,
所以在样本点处的残差为,
故选:D.
15.(24-25高三下·山西·开学考试)已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
【答案】D
【解题思路】先计算新数据的平均值,然后计算新数据的回归方程,进而根据残差定义计算.
【解答过程】因为过点,将代入得.
增加两个样本点后x的平均数为,,.
所以新的经验回归方程为,当时,.
所以样本的残差是,解得.
故选:D.
16.(24-25高二下·黑龙江大庆·期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
6
6.5
若由表中数据得到经验回归直线方程为,则时的残差为____________.
【答案】
【解题思路】先求出回归直线方程,代入得到估计值后可得残差.
【解答过程】,
,
故,得,
当时,,
故残差为:,
故答案为:.
17.(2025·云南丽江·三模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
【答案】(1);
(2)各样本的残差依次为:0.05,-0.15,0.15,-0.05.
(3)小时.
【解题思路】(1)根据表中数据求出、、、,进而由参考公式求出线性回归方程;
(2)计算每个对应的预测值,计算残差 ;
(3)将代入回归方程
【解答过程】(1)
,,
∴所求线性回归方程为.
(2)计算每个对应的预测值:
,
,
,
;
计算残差:
所以,各样本的残差依次为:.
(3)当时,,
∴预测加工个零件需要小时.
18.(24-25高二下·河北保定·月考)某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
【答案】(1);
(2);
(3).
【解题思路】(1)由得到,再由平均数的求法列方程,即可得;
(2)根据已知可得、,结合(1)及已知得,再应用最小二乘法求回归直线方程;
(3)由(2)所得方程估计,对应数据,再由残差的求法求残差,即可得.
【解答过程】(1),可得,
所以,则,即;
(2)由,且,
所以,可得,结合,,,所以,
则 ,
,
所以,则,
所以回归直线为;
(3)当,,则,
当,,则,
所以.
【类型4 一元线性回归分析】
19.(24-25高二下·陕西渭南·期末)2023年第5届藏博会在拉萨举行,藏博会上本地核桃油深受大家喜爱,某商家统计了最近5个月销量,如表所示:
时间x
1
2
3
4
5
销售量y/万瓶
5.7
4.8
3.8
3.2
2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.样本中心点为
C.可以预测当时销量约为1.8万瓶 D.线性回归方程中
【答案】C
【解题思路】对于A,利用表中的数据变化情况分析判断,对于B,利用计算平均数即可求出样本中心点,对于C,利用回归方程可求出预测值,对于D,利用回归方程一定过样本中心点即可求解.
【解答过程】对于A,从表中的数据看,随的增大而减小,所以变量负相关,所以A正确,
对于B,,则样本中心点为,所以B正确,
对于C,当时,,
所以可以预测当时销量约为1.6万瓶,所以C错误,
对于D,由选项B可得,得,所以D正确.
故选:C.
20.(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
【答案】D
【解题思路】由题意求得样本中心,从而求得回归直线方程,代入数据,可得答案.
【解答过程】依题意,.
又线性回归方程为必过点,所以,解得,
所以,2026年的年份代号为6,所以当时,,
所以根据回归方程预测该店2026年“五一”黄金周的销售额是111万元.
故选:D.
21.(24-25高二下·天津和平·期末)《哪吒之魔童闹海》在内地市场的票房突破了154亿大关,成为全球单一电影市场票房的最高记录.一款哪吒变脸玩具深受大家喜爱,某商家统计了最近5个月销量,如表所示:若与线性相关,且线性回归方程为,则下列说法不正确的是( )
时间
1
2
3
4
5
销售量/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量与负相关
B.线性回归方程中
C.当时,残差为0.2
D.可以预测当时销量约为2.1万只
【答案】C
【解题思路】对于A,利用表中数据变化情况或看回归方程的正负均可求解;对于B,利用样本中心点求出线性回归方程,即可判断;对于C,利用回归方程即可求出预测值,进而可求出残差,即可判断;对于D,利用回归方程即可求出预测值即可判断.
【解答过程】对于A,从数据看,随的增大而减小,所以变量与负相关,故A正确;
对于B,由表中数据知,,
所以样本中心点为,将样本中心点代入中,
得,所以线性回归方程为,故B正确;
对于C,当时,,残差为,故C错误;
对于D,当时销量约为(万只),故D正确.
故选:C.
22.(24-25高三下·上海虹口·期中)某公司为了解用电量y(单位:千瓦时)与气温x(单位:摄氏度)之间的关系,随机统计了4天的用电量与当天气温,绘制了如下表格,由表中数据可得回归方程,则实数___________.
x
10
13
18
y
62
38
34
m
【答案】24
【解题思路】求出样本中心点的坐标,将样本中心点的坐标代入回归直线方程,可得出实数的值.
【解答过程】由题意,,
,
所以样本中心点为,
将样本中心点的坐标代入回归直线方程可得,解得.
故答案为:24.
23.(24-25高二下·山东青岛·期末)某企业调研后,得到研发投入(万元)与产品收益(万元)的数据如下:
1
2
3
4
5
9
12
17
21
26
(1)若与线性相关,请根据样本相关系数推断它们的相关程度;(若,则相关程度一般;若,则相关程度很强)
(2)求出关于的经验回归方程,并预测当研发投入6万元时的产品收益.
参考数据:.
参考公式:,,.
【答案】(1)变量与的相关程度很强
(2),约为万元
【解题思路】(1)根据所给数据,求出相关系数,即可判断;
(2)由公式求出,得出线性回归方程,再由方程预测收益即可.
【解答过程】(1)由表格数据可得,,
所以,
,
所以,
可知变量与的相关程度很强.
(2)由(1)可知,,
,
所以,
则,
可得关于的经验回归方程为,
令,可得,
即预测研发投入6万元时,产品收益约为万元.
24.(2025·甘肃平凉·模拟预测)高血脂症是指脂肪代谢或者运转异常使人体血液中的血脂含量超过正常范围,表现为血中胆固醇或甘油三酯过高或高密度脂蛋白过低,现代医学称“血脂异常”.高血脂症是常见病、多发病,更是导致心脑血管疾病的元凶.最新的调查显示,中国成人高血脂的患病率为41.1%,大概每五位成人中就有两位是高血脂患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血脂水平下降,高血脂发病率降低,控制高血脂的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动起5个季度社区高血脂患者的血脂情况统计.
季度
1
2
3
4
5
血脂明显降低(或治愈)人数/人
100
150
210
270
320
已知血脂明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,试求出与的经验回归方程,并预测第6季度血脂明显降低(或治愈)者大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组去参加徒步走比赛.若比赛分为初赛和决赛,其中初赛有两轮,只有两轮都获胜才能进入决赛.已知甲组在每轮比赛中获胜的概率均为;乙组在第一轮和第二轮比赛中获胜的概率分别为和;丙组在第一轮和第二轮获胜的概率分别为和.设进入决赛的组数为,求的分布列与数学期望.
附:经验回归方程中斜率和截距的最小二乘估计公式分别为:,
【答案】(1),378人
(2)分布列见解析,
【解题思路】(1)首先计算和,再代入参考公式,求回归方程,代入,即可求解;
(2)确定的取值,再根据随机变量的意义,结合独立事件概率公式,即可求分布列,最后代入期望公式,即可求解.
【解答过程】(1),.
,
,
所以,
所以,
所以,
当时,,
所以第6季度血脂明显降低(或治愈)者大约有378人.
(2)由题知的可能取值为0,1,2,3.
依题意,甲组、乙组、丙组进入决赛的概率分别为,,,
所以,
,
,
.
所以随机变量的分布列为:
0
1
2
3
所以.
【类型5 非线性回归】
25.(24-25高三下·山东·开学考试)为研究某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设与的数据如表格所示:得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A.-2 B.-1 C. D.
【答案】C
【解题思路】根据已知条件,求得,进而代入回归方程可求得,从而得出,联立,即可求得本题答案.
【解答过程】由已知可得,,,
所以,有,解得,
所以,,
由,得,
所以,,则.
故选:C.
26.(24-25高三下·广东梅州·月考)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
【答案】D
【解题思路】根据给定条件,利用决定系数大小关系排除AB;再利用数表中数据求出斜率判断CD.
【解答过程】由用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,
得,则指数型回归模型最适宜拟合y与x关系,排除AB;
设y与x之间关系的函数为,两边取对数得,设,则,
因此,,
即,,C错误,D正确.
故选:D.
27.(24-25高二下·江西萍乡·期末)汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎面磨损.某实验室通过实验测得行驶里程与某品牌轮胎凹槽深度的数据,建立了如下回归模型,通过实验数据分析与计算得到如下结论:①;②,令,,则回归方程应为__________.
【答案】.
【解题思路】由题意,根据对数的运算性质,以及所提供的信息,列出等式,即可求解.
【解答过程】因为回归模型为,
因为,可得,
两边同时取对数,可得,
令,此时,
又因为,,所以,即,
所以.
故答案为:.
28.(24-25高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1
5
7
8
9
2
3
6
8
11
0.7
1.1
1.8
2.1
2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和3.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
【答案】(1),
(2)模型②拟合效果更好,11.94万件
【解题思路】(1)求出变量的均值后,根据经验回归方程中的公式计算即可求出系数,得到回归方程;
(2)根据残差平方和选择模型,利用模型的回归方程预测时的销售量即可.
【解答过程】(1)由题知,
所以,
所以,,
所以模型①的经验回归方程为,
由,两边取自然对数可得,即,
所以,,
所以模型②的经验回归方程为
(2)因为,即②的残差平方和较小,所以,模型②的拟合效果更好.
所以当时,,
即当年投入金额为10万元时的年销售量的估计值为11.94万件.
29.(2025·辽宁·模拟预测)某公司统计了该公司销售部员工工龄(单位:年)与一年中的月均销售额(单位:万元)的数据,得到下面的散点图及一些统计量的值.
15.1
4.84
24.2
94.9
155.5
82.5
表中.
(1)由散点图知,可用经验回归方程拟合y与x的关系,试根据提供的有关数据,预测月均销售额超过20万元的工龄最小值;
(2)该公司为激励销售部员工,规定每月的销售冠军奖励1万元,其他名次无奖励.甲为该公司销售部的员工,他在第一季度(每年的前3个月)的第一个月成为销售冠军的概率为,从第二个月开始,若上个月不是销售冠军,则这个月为销售冠军的概率为;若上个月为销售冠军,则这个月仍为销售冠军的概率为.求他在第一季度所得奖励金额X的分布列和数学期望.
附:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,,,,,,.
【答案】(1)12
(2)分布列见解析,0.87
【解题思路】(1)设,则,计算出、的值,将数据代入最小二乘法公式,求出、的值,可得出关于的经验回归方程,进而得到关于的经验回归方程,根据提供的数据即可得解;
(2)确定随机变量取值,计算出随机变量在不同取值下的概率,得出随机变量的分布列,进而运用期望公式可求解.
【解答过程】(1)设,则,则,
,
因为,,
所以经验回归方程为,
因为,,在区间内单调递增,
所以预测月均销售额超过20万元的工龄最小值为12.
(2)由题意得的可能取值为0,1,2,3,
记甲在第一季度的第月成为销售冠军为事件,
则,
,
,
的分布列为
0
1
2
3
,
所以甲在第一季度所得奖励金额的数学期望为0.87万元.
30.(24-25高三上·重庆沙坪坝·月考)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
【答案】(1)模型中与的相关性较强.
(2)(i);(ii)27.1亿元.
【解题思路】(1)分别将表中数据代入相关系数公式求出,比较大小即可判断;
(2)(i)由取对数,换元得,由表中数据分别求和,得经验回归方程,利用指数式和对数式的互化,即得;
(ii)将代入回归方程,利用题设条件,即可预测下一年的研发资金投入量.
【解答过程】(1)由题意知
.
因为,所以,
故从样本相关系数的角度,模型中与的相关性较强.
(2)(i)由,得,即.
因为,
所以,
故关于的经验回归方程为,即
,所以.
(ii)将代入得.
,故得,解得,
故预测下一年的研发资金投入量是27.1亿元.
【类型6 列联表与独立性检验】
31.(24-25高二下·广东韶关·期末)为了检测某种药物对预防疾病的效果,进行了小动物试验,得到如下列联表:
药物
疾病
合计
未患病
患病
服用
18
7
25
未服用
12
8
20
合计
30
15
45
已知,.根据小概率值的独立性检验,则下列结论正确的是( )
A.药物对预防疾病有效果
B.药物对预防疾病有效果,这个结论犯错误的概率不超过0.05
C.药物对预防疾病无效果
D.药物对预防疾病无效果,这个结论犯错误的概率不超过0.05
【答案】C
【解题思路】通过计算列联表的统计量,与给定的临界值比较,来判断药物对预防疾病是否有效果.
【解答过程】零假设:药物对预防疾病无效果,
根据列联表数据,,
根据,将数据代入可得:
,
,根据小概率值的独立性检验,,
所以我们没有充分证据拒绝原假设,即认为药物对预防疾病无效果.
故选:C.
32.(24-25高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
【答案】D
【解题思路】根据成绩优秀的概率求得,进而求得,结合比例判断出正确答案.
【解答过程】依题意,解得,由解得.
补全列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
甲班的优秀率为,乙班的优秀率为,
,所以成绩与班级有关.所以D选项正确,ABC选项错误.
故选:D.
33.(24-25高二下·山东·月考)北京冬奥会的举办掀起了一阵冰雪运动的热潮.某高校在本校学生中对“喜欢滑冰是否与性别有关”做了一次调查,参与调查的学生中,男生人数是女生人数的3倍,有的男生喜欢滑冰,有的女生喜欢滑冰.若根据独立性检验的方法,有95%的把握认为是否喜欢滑冰和性别有关,则参与调查的男生人数可能为( )
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
2.706
3.841
5.024
6.635
A.12 B.34 C.36 D.48
【答案】C
【解题思路】设男生人数为,则女生人数为,且,写出列联表并根据卡方计算公式,结合题意确定卡方值的范围,即可确定的取值范围,进而确定男生可能人数.
【解答过程】设男生人数为,则女生人数为,且,
可得列联表如下:
男生
女生
合计
喜欢滑冰
不喜欢滑冰
合计
则,
由有的把握认为是否喜欢滑冰和性别有关,得,解得,
由可得,所以参与调查的男生人数为.
故选:C.
34.(24-25高二下·河北衡水·期末)某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】
【解题思路】由表中数据,根据独立性检验的解题思想,可得答案.
【解答过程】由题干数据即可得到:,
因为依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,
故,又因为m为正整数,故,
故答案为:.
35.(24-25高二下·湖北武汉·期末)某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:
班级
成绩
合计
优秀
非优秀
一班
35
15
二班
15
25
合计
(1)请完成列联表;
(2)根据列联表中的数据,并根据小概率值的独立性检验,能否认为推广新课改与总成绩是否优秀有关系?
参考数据:
0.10
0.05
0.01
00.005
2.706
3.841
6.635
7.879
.
【答案】(1)答案见解析;
(2)能.
【解题思路】(1)利用已知数据求和即可得到列联表;
(2)利用卡方公式计算,再与参考数据对照,即可得出判断.
【解答过程】(1)
班级
成绩
合计
优秀
非优秀
一班
35
15
5
二班
15
25
40
合计
50
40
90
(2)零假设为:推广新课改与总成绩是否优秀无关.
根据列联表中的数据,得到
故根据的独立性检验,可以认为推广新课改与总成绩是否优秀有关系.
36.(24-25高二下·福建泉州·期末)为考察国产14纳米光刻机和进口14纳米光刻机的光刻效果,随机抽取了500台14纳米光刻机,对两种光刻机的良品、次品进行对比,得到如下列联表:
良品
次品
合计
国产14纳米光刻机
170
80
进口14纳米光刻机
150
100
250
合计
180
500
(1)求,的值,并以频率估计概率,估计国产14纳米光刻机的次品率;
(2)根据小概率值的独立性检验,能否判断国产14纳米光刻机与进口14纳米光刻机质量有差异?
附:,其中为样本容量.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1),,
(2)根据小概率值的独立性检验,国产14纳米光刻机与进口14纳米光刻机质量无差异.
【解题思路】(1)补充列联表即可得出,,根据列联表中国产14纳米光刻机的次品频率除以总频率即可估计次品概率;
(2)根据给定条件计算出的观测值,结合临界表即可得出结论.
【解答过程】(1)由题意得,.
样品中,国产14纳米光刻机次品的频率为,
所以国产14纳米光刻机的次品率约为.
(2)零假设:国产14纳米光刻机与进口14纳米光刻机质量无差异,
根据列联表中的数据,经计算得到:
.
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即国产14纳米光刻机与进口14纳米光刻机质量无差异.
【类型7 独立性检验与其他知识交汇】
37.(2026高三·全国·专题练习)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是( )
日落云里走夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
参考公式:
临界值参照表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关
D.出现“日落云里走”,有99%的把握判断夜晚会下雨
【答案】D
【解题思路】利用频率估算概率,结合观测值对照附表,对选项进行判断即可.
【解答过程】选项A:根据列联表可知:100天中有50天下雨,50天未下雨,
因此夜晚下雨的概率约为,故选项A正确;
选项B:未出现“日落云里走”,夜晚下雨的概率约为,故选项B正确;
选项C:因为 ,所以据小概率值的独立性检验,
可以认为“日落云里走”是否出现与夜晚天气有关,故选项C正确;
选项D:依据小概率值的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率小于0.01,但不代表一定会下雨,故选项D错误.
故选:D.
38.(24-25高二下·天津和平·期末)为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了100人,得到成对样本观测数据的分类统计结果,如下列联表所示(单位:人),根据数据计算得,依据小概率值的独立性检验,小概率值相应的临界值为,则下列结论不正确的是( )
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
25
10
35
吸烟者
15
65
合计
40
60
100
A.
B.若从这100人中随机抽取2人,则2人都是非肺癌患者的概率为
C.在犯错误的概率不超过0.001的前提下,认为吸烟与患肺癌有关联
D.在犯错误的概率不超过0.001的前提下,认为吸烟与患肺癌无关联
【答案】D
【解题思路】由列联表求出判断A;利用古典概型计算判断B;利用独立性检验思想判断CD.
【解答过程】对于A,由列联表得,,A正确;
对于B,非肺癌患者的概率为,B正确;
对于CD,由,得在犯错误的概率不超过0.001的前提下,
认为吸烟与患肺癌有关联,D错误,C正确.
故选:D.
39.(25-26高二上·全国·单元测试)米接力短跑作为田径运动的重要项目,展现了一个国家短跑运动的团体最高水平.每支队伍都有自己的一个或几个明星队员,现有一支米接力短跑队,张三是其队员之一,经统计该队伍在参加的所有比赛中,张三是否上场时该队伍是否取得第一名的情况如下表.若已知张三上场,则该队伍取得第一名的概率约为___________.若有的把握认为该队伍是否取得第一名与张三是否上场有关,则认为张三是这支队伍的明星队员,则依据表中数据可判断张三___________(填“是”或“不是”)这支队伍的明星队员.
张三上场情况
队伍取得第一名的情况
取得第一名
未取得第一名
总计
上场
未上场
总计
【答案】;是
【解题思路】完善列联表,结合条件概率公式可求得所求事件的概率;计算出的观测值,结合独立性检验可得结论,
【解答过程】根据题意,可得列联表如下(列完列联表后注意检查数据是否正确):
张三上场情况
队伍取得第一名的情况
取得第一名
未取得第一名
总计
上场
未上场
总计
设“张三上场”为事件,“该队伍取得第一名”为事件,
由表中数据,得,,则,
即已知张三上场,该队伍取得第一名的概率约为,
由表中数据,得,
故有的把握认为该队伍是否取得第一名与张三是否上场有关,
则认为张三是这支队伍的明星队员.
故答案为:;是.
40.(24-25高二下·青海西宁·期末)某机构为了解科技工作者对deepseek的使用情况与年龄是否有关,从甲市科技工作者中抽取了200人进行调查,得到下表.
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
中老年人(40周岁以上)
30
80
总计
200
(1)补全表中数据,根据小概率值的独立性检验,是否可以认为科技工作者对deepseek的使用情况与年龄有关联?
(2)将样本中使用deepseek的频率作为甲市科技工作者中使用该软件的概率,从甲市科技工作者中随机抽取3人,记为这3人中使用deepseek的人数,求的分布列和数学期望.
附:,其中.
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1)列联表见解析,可以认为两者相关联
(2)分布列见解析,
【解题思路】(1)先根据题意补全列联表,写出零假设,求得卡方值并与对应的小概率值比较即得结论;
(2)先求出样本中使用deepseek的频率,依题可得,求出二项分布的分布列,利用随机变量的期望公式或二项分布的概率期望公式即可求得.
【解答过程】(1)依题意,补全列联表如下:
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
20
120
中老年人(40周岁以上)
50
30
80
总计
150
50
200
零假设为:科技工作者对deepseek的使用情况与年龄无关联,
由列联表中的数据,得.
根据小概率值的独立性检验,可以推出不成立,即可以认为科技工作者对deepseek的使用情况与年龄有关联.
(2)样本中使用deepseek的频率为,由题意可知,
的可能取值为,
, ,
, .
所以的分布列为:
0
1
2
3
或.
41.(24-25高二下·福建福州·期末)春夏之交因昼夜温差大,细菌、病毒等活跃,是流感高发季节.某校高二年级某组团统计了流感暴发前的半个月与流感暴发后的半个月的学生请假情况,得到如下数据:
因发烧请假
非发烧请假
合计
流感暴发前
15
40
流感暴发后
15
合计
100
(1)完成列联表,并依据的独立性检验,判断能否认为流感暴发对请假的同学中发烧的人数有影响.
(2)后经过了解,在全校因发烧请假的同学中男生占比为,且的因发烧请假的男生需要输液治疗,的因发烧请假的女生需要输液治疗.已知学校随机选择一名因发烧请假在医院输液的同学进行慰问,求这名同学是女生的概率.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)表格见解析,认为流感暴发对请假的同学中发烧的人数有影响
(2)
【解题思路】(1)根据题意完成列联表,计算,再与临界值比较进行独立性检验即可.
(2)先设出对应事件,再利用全概率公式求解,最后利用条件概率公式求解即可.
【解答过程】(1)零假设流感暴发对请假的同学中发烧的人数无关.完成列联表如下
因发烧请假
非发烧请假
合计
流感暴发前
15
25
40
流感暴发后
45
15
60
合计
60
40
100
由列联表可得,
依据小概率值的独立性检验,我们推断不成立;
即认为流感暴发对请假的同学中发烧的人数有影响,此推断犯错误的概率不大于.
(2)设事件A表示“请假的学生是女生”,表示“请假的学生是男生”;事件B表示“需要输液治疗”,
依题意得,,,
由全概率公式得,
则
故这名同学是女生的概率为.
42.(24-25高二下·山东菏泽·期末)为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取80名学生.通过测试得到了表中数据:
学校
数学成绩
合计
不优秀
优秀
甲校
10
30
40
乙校
20
20
40
合计
30
50
80
(1)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异?如果表中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因;
(2)现从所抽取的数学成绩优秀学生中利用分层抽样的方法抽取5人,再从这5人中随机选取3人,设这3人中来自乙校的人数为,求的分布列和期望.
附:①,其中.
②临界值表
0.1
0.01
0.005
2.706
6.635
7.879
【答案】(1)认为两校学生中数学成绩优秀率之间没有差异,不一样,因为样本容量的不同,导致推断结论发生了变化
(2)分布列见解析,
【解题思路】(1)求出观测值,再与临界值比对即可得解.
(2)由分层抽样确定5人中来自乙校的人数,然后确定的所有取值为0,1,2,计算出各概率的分布列,再由期望公式计算期望.
【解答过程】(1)零假设:两校学生中数学成绩优秀率之间没有差异.
因为,
依据小概率值的独立性检验,没有充分的理由推断不成立,
所以认为两校学生中数学成绩优秀率之间没有差异.
所有数据都扩大10倍后:
.
依据小概率值的独立性检验,可以认为不成立,即学校与数学成绩有关联
结论不一样,主要是因为样本容量的不同,导致推断结论发生了变化.
(2)由分层随机抽样可知,抽取的5名学生中有2名来自乙校.
所有可能的取值为0,1,2,
知,,,
所以的分布列为:
0
1
2
故.
2 / 30
学科网(北京)股份有限公司
$