摘要:
**基本信息**
以12大题型为载体,系统整合相关关系、回归分析、独立性检验知识,通过知识清单构建“概念-方法-应用”逻辑链,培养数据观念与模型意识。
**专项设计**
|模块|题量/典例|方法提炼|知识逻辑|
|----|-----------|----------|----------|
|相关关系与相关系数|3题型/15题|散点图判断法、相关系数计算公式与意义辨析|从定性(散点图)到定量(相关系数)刻画变量关系|
|回归分析|6题型/30题|最小二乘法步骤、残差计算、R²拟合效果评估|模型建立(回归方程)→参数估计→效果检验的完整流程|
|独立性检验|3题型/15题|列联表完善、χ²计算与临界值比较|分类变量关系的统计推断,体现数学思维的严谨性|
内容正文:
专题05 成对数据的统计分析(12大重点题型+思维导图+知识清单)(期末专项训练)
【人教A版】
题型归纳
【知识清单1 变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
【知识清单2 样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
【知识清单3 一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.随机误差
在线性回归模型Y=bx+a+e中,a和b为模型的未知参数,e是Y与bx+a之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方程D(e)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高.
【知识清单4 一元线性回归模型参数的最小二乘估计】
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算;
(4)写出经验回归方程.
求经验回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【注】
1.经验回归直线过点.
2.求时,常用公式.
【知识清单5 分类变量与列联表】
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道两个分类变量有关系的概率大小.
【知识清单6 独立性检验】
1.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值,如下表所示.
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
2.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【注】
1.独立性检验是基于成对样本观测数据进行估计或推断,得出的结论可能犯错误.
题型1
判断两个变量的相关关系
1.(24-25高二下·吉林·期末)下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
【答案】D
【解题思路】根据相关关系的定义判断即可.
【解答过程】对于A:人的身高与受教育的程度不具有相关关系,故A错误;
对于B:人的体重与眼睛的近视程度不具有相关关系,故B错误;
对于C:企业员工的工号与工资不具有相关关系,故C错误.
对于D:儿子的身高与父亲的身高具有相关关系,故D正确.
故选:D.
2.(24-25高二下·重庆·期末)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有负相关关系的是( )
A. B.
C. D.
【答案】C
【解题思路】根据散点图的特征得到答案.
【解答过程】A中的散点杂乱无章,无规律可言,看不出两个变量有什么相关性;
B中呈正相关关系,C中两个变量具有负相关关系;
D中两个变量具有相关性,但不是正相关,也不是负相关.
故选:C.
3.(24-25高二下·天津西青·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】D
【解题思路】由散点图的特征,结合相关系数的定义即可得到答案.
【解答过程】由散点图的趋势可知,,,,
又图一的散点图比图三的散点图更为集中,则,所以,
又图二的散点图比图四的散点图更为集中,则,所以,
所以.
故选:D.
4.(24-25高二下·全国·课后作业)观察下列散点图,有三种情况:①正相关,②负相关,③不相关.与散点图的位置相对应的序号依次是_________.
【答案】①③②
【解题思路】由图象分析即可得到答案.
【解答过程】第一个图大体趋势从左向右上升,故是正相关,
第二个图不相关,
第三个图大体趋势从左向右下降,故是负相关.
故答案为:①③②.
5.(24-25高二下·江苏·课后作业)某种木材体积与树木的树龄之间有如下的对应关系:
树龄
2
3
4
5
6
7
8
体积
30
34
40
60
55
62
70
(1)请作出这些数据的散点图;
(2)你能由散点图发现木材体积与树木的树龄近似成什么关系吗?
【答案】(1)答案见解析
(2)木材的体积与树龄线性近似成线性相关关系且呈正相关.
【解题思路】(1)根据数据画出散点图即可;
(2)根据散点图判断近似成线性相关关系且呈正相关.
【解答过程】(1)以x轴表示树木的树龄,y轴表示树木的体积,可得相应的散点图如图所示:
(2)由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树龄线性近似成线性相关关系且呈正相关.
题型2
样本相关系数的意义及辨析
6.(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
【答案】A
【解题思路】根据散点图中点的分布,即可判断答案.
【解答过程】由散点图可知,并且第一个图中的点更为集中,更贴近某条直线分布,
第三、四个图中的点的分布更为分散,
因此更接近于1,,的绝对值更接近于0,即最大的是.
故选:A.
7.(24-25高二下·山东济南·期末)对四组数据进行统计,获得以下散点图,将四组数据对应的相关系数进行比较,则( )
A. B.
C. D.
【答案】A
【解题思路】根据给定的散点图,结合相关系数的意义判断即得.
【解答过程】由图知,对应的与负相关,且对应的相关性更强,即;
对应的与正相关,且对应的相关性更强,即,
所以.
故选:A.
8.(24-25高二下·四川乐山·期末)已知变量与,与分别都成线性相关关系,且与相关系数满足,且与相关系数满足,下列结论正确的是( )
A.与负相关,与负相关,且与的相关性更强
B.与负相关,与正相关,且与的相关性更强
C.与负相关,与正相关,且与的相关性更弱
D.与正相关,与负相关,且与的相关性更弱
【答案】C
【解题思路】根据相关系数的概念判断.
【解答过程】由题可知,且,
与成负相关关系,与成正相关关系,且与的相关性更弱.
故选:C.
9.(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
【答案】A
【解题思路】根据数据的散点图,结合回归系数概念与含义,逐项判定,即可求解.
【解答过程】去掉点后,散点图中点的分布更接近一条直线,因此变量与的线性相关程度变强,故选项B错误;
由散点图,点的分布从左下角到右上角,故变量与呈正相关,故选项D错误;
因为变量与呈正相关,且相关性变强,所以相关系数变大,故A正确,C错误.
故选:A.
10.(24-25高二上·陕西渭南·期末)下列结论正确的是__________.
①变量间的线性相关系数的取值范围为;
②变量间的线性相关系数的绝对值越接近于0,则变量间的线性相关程度越弱:
③变量间的相关系数越小,则变量间的相关程度越弱.
【答案】①②
【解题思路】由相关系数的概念以及意义逐一判断即可求解.
【解答过程】对于①,相关系数满足,即变量间的线性相关系数的取值范围为,①正确;
对于②,根据相关系数的性质,,且越接近于1,相关程度越强,越接近于0,相关程度越弱,②正确;
对于③,比如时,变量间的相关系数越小,则变量间的相关程度越强,③错误.
故答案为:①②.
题型3
相关系数的计算及应用
11.(24-25高二下·湖北·月考)已知变量x和变量y的3对随机观测数据,,,则该组样本数据点的相关系数( )
(参考公式:)
A. B. C. D.1
【答案】B
【解题思路】由题目数据结合参考公式可得答案.
【解答过程】由题可得,,
则.
,
,
则.
故选:B.
12.(24-25高二下·贵州黔西南·期末)已知变量和变量的3对随机观测数据为,则这组样本数据的样本相关系数为( )
A. B. C.1 D.
【答案】C
【解题思路】作出散点图,结合图形即可得解.
【解答过程】作出散点图,如图:
观察图形,得点在一条直线上,
所以这组样本数据的样本相关系数为1.
故选:C.
13.(24-25高二下·山东枣庄·期末)下列四组成对数据:①,,,,;②,,,,;③,,,,;④,,,,.其中样本相关系数最小的是( )(附:样本相关系数)
A.① B.② C.③ D.④
【答案】C
【解题思路】观察数据,对于①,样本相关系数为1,对于③,样本相关系数为-1,再对②和④进行观察和计算,最终可得答案.
【解答过程】对于①,数据均在上,故样本相关系数为1,
对于③,数据均在上,故样本相关系数为-1,
对于②,可看出其数据为正相关,故样本相关系数大于0,
对于④,显然所有数据无法落在某一个一次函数上,故,
事实上,
,
其中,故,
故,
综上,样本相关系数最小的是③.
故选:C.
14.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
【答案】
【解题思路】根据表中数据求出,进而得出的值,代入公式计算即可得出答案.
【解答过程】由已知可得,,
,
则 ,
,
所以, .
故答案为:.
15.(24-25高二下·广东中山·期末)为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
【答案】(1)可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小
(2)需对当天的生产过程进行检查
(3)均值;标准差.
【解题思路】(1)由样本数据得相关系数,验证是否成立,然后得结论;
(2)由求得,即可得到得结论;
(3)剔除离群值,求剩下数据的平均值,即求得这条生产线当天生产的零件尺寸的均值的估计值.由得,即可求出剔除第13个数据,剩下数据的样本方差,即求得这条生产线当天生产的零件尺寸的标准差的估计值.
【解答过程】(1)由样本数据得相关系数:
.
,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)∵,,∴,,
抽取的第13个零件的尺寸在以外,
需对当天的生产过程进行检查.
(3)剔除离群值,即第13个数据,
剩下数据的平均数为,
即这条生产线当天生产的零件尺寸的均值的估计值为;
由得:,
剔除第13个数据,剩下数据的样本方差为,
样本标准差为,
即这条生产线当天生产的零件尺寸的标准差的估计值为.
题型4
根据回归方程进行数据估计
16.(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
【答案】D
【解题思路】由题意求得样本中心,从而求得回归直线方程,代入数据,可得答案.
【解答过程】依题意,.
又线性回归方程为必过点,所以,解得,
所以,2026年的年份代号为6,所以当时,,
所以根据回归方程预测该店2026年“五一”黄金周的销售额是111万元.
故选:D.
17.(24-25高二下·陕西渭南·期末)2023年第5届藏博会在拉萨举行,藏博会上本地核桃油深受大家喜爱,某商家统计了最近5个月销量,如表所示:
时间x
1
2
3
4
5
销售量y/万瓶
5.7
4.8
3.8
3.2
2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.样本中心点为
C.可以预测当时销量约为1.8万瓶 D.线性回归方程中
【答案】C
【解题思路】对于A,利用表中的数据变化情况分析判断,对于B,利用计算平均数即可求出样本中心点,对于C,利用回归方程可求出预测值,对于D,利用回归方程一定过样本中心点即可求解.
【解答过程】对于A,从表中的数据看,随的增大而减小,所以变量负相关,所以A正确,
对于B,,则样本中心点为,所以B正确,
对于C,当时,,
所以可以预测当时销量约为1.6万瓶,所以C错误,
对于D,由选项B可得,得,所以D正确.
故选:C.
18.(24-25高二下·广东梅州·期末)我国新能源汽车的卓越性能赢得全球人民的信赖,某品牌新能源汽车凭借科研创新、广告宣传和可靠的售后保障,在全球赢得了很好的营销局面,下表为该品牌新能源汽车的科研经费投入和全球市场规模统计.
科研经费(单位:百亿元)
2
4
6
12
16
市场规模(单位:百万辆)
1
1.5
2
3
3.5
如此得到y关于x的经验回归方程:,估计当该品牌新能源汽车的科研经费投入20(百亿元)时,全球市场规模将达到( )百万辆.
A.4 B.4.14 C.4.36 D.4.58
【答案】C
【解题思路】求出样本中心代入方程可得值,即可根据代入求解.
【解答过程】由表中数据可得,
故样本中心为,
故,
故当时,,
故选:C.
19.(24-25高二下·陕西咸阳·期末)经验表明,一般树的胸径(树的主干在地面以上处的直径)越大,树就越高.在研究树高与胸径之间的关系时,某同学收集了某种树的5组观测数据(如下表):
胸径
8
9
10
11
12
树高
8.2
10
11
12
13.8
假设树高与胸径满足的经验回归方程为,则当胸径时,树高的预测值为_________.
【答案】17.6
【解题思路】根据经验回归方程必过样本中心点,即将平均数求出代入即可解,再将代入即可求解.
【解答过程】根据表中数据可求:,.
将其代入方程解得.
所以经验回归方程为.
将代入解得.
所以树高的预测值为 .
故答案为:.
20.(24-25高二下·河北唐山·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
【答案】(1)变量与的线性相关程度很强
(2),38.5百亿元
【解题思路】(1)求出,,从而代入公式计算出,得到结论;
(2)代入公式求出y关于x的经验回归方程为,代入,预测2027年该网站“双11”当天的交易额.
【解答过程】(1)由题意,根据表格中的数据,
可得,,
则,
,
,
故,
所以,
非常接近,说明变量与的线性相关程度很强.
(2)由(1)可得,
所以,
则.
可得关于的经验回归方程为,
令,可得,
所以预测2027年该网站“双11”当天的交易额为38.5百亿元.
题型5
残差的计算
21.(24-25高二下·福建泉州·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【解题思路】利用线性回归方程必过样本中心点这个性质来求解,结合残差为实际值减去预测值,即可作出判断.
【解答过程】由回归直线方程为必过点,所以,
由于去掉两个样本点和后,
得到新的样本数据的平均数为:
因为新的回归直线的斜率为3,根据必过点,
可得回归直线方程为:,即,
当时,,
在新的经验回归方程下,样本的残差为,
故选:B.
22.(24-25高二下·四川绵阳·期末)已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
【答案】C
【解题思路】利用样本中心在回归直线上求参数判断A;根据回归直线一次项系数判断B;计算残差判断C;由回归直线的实际意义判断D.
【解答过程】由题设,所以,可得,故A错误;
所以,又,即与正相关,则样本相关系数,故B错误;
由时,,残差为,故C正确;
由回归方程说明随变化值的变化趋势,不能说变量每增加一个单位,的值一定增加个单位,故D错误.
故选:C.
23.(24-25高二下·山东青岛·期末)已知变量,线性相关,其一组样本数据满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到新的经验回归方程,则此时数据的残差为( )
A. B. C.1 D.2
【答案】D
【解题思路】根据已知数据求原数据的样本中心,再确定新数据的样本中心,进而得出新的回归直线方程,再结合残差的定义计算即可.
【解答过程】由题意可知,旧数据,则,
增加数据后,,,
将点代入中得, ,即,则,
当时,,故残差为.
故选:D.
24.(24-25高二下·重庆长寿·期末)我区物价部门对某商品在各商场的售价(元)及其一天的销售量(件)进行调查,得到了若干对数据,经过分析,计算,得到关于的经验回归方程为,则样本点的残差为___________.
【答案】
【解题思路】根据题意,令时,求得,结合残差的概念,即可求得样本点的残差,得到答案.
【解答过程】由关于的回归方程为,且样本点,
当时,可得,所以残差为.
故答案为:.
25.(24-25高二下·河北·期末)某农科研究所想要研究某种农产品的产量与施肥量之间的关系,通过调研得到一些数据如下表:
施肥量x
8
10
12
14
16
18
产量y
6
8
m
t
11
12
已知,,x,y的样本相关系数,说明x,y满足线性回归.
(1)求的值;
(2)求出y关于x的经验回归方程;
(3)若施肥量为12,14时的残差分别为,求的值.
参考公式:经验回归方程的斜率和截距的最小二乘估计公式分别为,,样本相关系数.
【答案】(1).
(2)
(3)
【解题思路】(1)先根据,求出;再根据平均数公式即可求解.
(2)先根据表格求出,,再结合相关系数与回归系数之间的关系,根据题目条件求出,进而可求出回归系数,,得出y关于x的经验回归方程.
(3)先根据回归方程计算出预测值;再根据残差的定义求出残差,进而可求解.
【解答过程】(1)由表格可得:,.
因为,,
所以,即,解得:.
(2)由表格可得:,
.
因为,,
所以,
则,,
所以y关于x的经验回归方程为:.
(3)当时,,残差为;
当时,,残差为;
所以,即.
题型6
刻画回归效果的方式
26.(24-25高二下·安徽蚌埠·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
【答案】C
【解题思路】根据各个变量的意义作出判断,得到答案.
【解答过程】A选项,残差图带状区域越宽,说明误差大,模型的拟合效果越差,A错误;
B选项,残差平方和越小,模型的拟合效果越好,B错误;
C选项,决定系数越大,模型的拟合效果越好,C正确;
D选项,相关系数越大,说明两个变量线性相关性越强,与模型的拟合效果无关,D错误.
故选:C.
27.(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】C
【解题思路】结合题意,由决定系数、相关系数、残差平方和及相关性的概念和性质作出判断.
【解答过程】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
对于A:决定系数越接近1,拟合的回归方程越优,
故去掉点后变大,越趋于1,故A错误;
对于B:相关系数越趋于1,拟合的回归方程越优,
由图可得与正相关,故会越接近1,即相关系数的值变大,故B错误;
对于C:残差平方和变小,拟合效果越好,故C正确;
对于D:解释变量与预报变量相关性增强,故D错误.
故选:C.
28.(24-25高二下·山东枣庄·期末)下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
【答案】A
【解题思路】由残差平方和越小的模型,拟合的效果越好可判断A;x与y线性相关越强,在线性回归直线上的点不一定越多,可判断B;两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,可判断C;值越大,则模型的拟合效果越好,可判断D.
【解答过程】对于A,残差平方和越小的模型,拟合的效果越好,故A正确;
对于B,x与y线性相关越强,在线性回归直线上的点不一定越多,故B错误;
对于C,两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故C错误;
对于D,值越大,则模型的拟合效果越好,故D错误.
故选:A.
29.(24-25高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则____________.(参考公式:决定系数)
【答案】0.96
【解题思路】依据决定系数的公式计算即可.
【解答过程】因为.
故答案为:.
30.(24-25高二下·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天)
1
2
3
4
5
订单数y(件)
13
21
45
55
66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
【答案】(1)
(2)①甲小组的线性回归模型拟合效果更好 ;②138件
【解题思路】(1)根据公式求,可得回归方程.
(2)计算甲小组模型的决定系数,比较决定系数的大小,可得结论;把代入线性回归方程,可预测该区域第10天的订单数.
【解答过程】(1)由题可知:
,,
,,
关于x的回归方程为.
(2)①由(1)知,从而有.
x
1
2
3
4
5
12
26
40
54
68
,
,
,
,从来看甲小组的线性回归模型拟合效果更好.
②当时,.预测第10天的订单数为138件.
题型7
求回归直线方程
31.(24-25高二下·广东广州·期末)随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
【答案】D
【解题思路】利用正负相关的概念即可作出选项A的判断,利用经验回归直线经过样本中心点,可通过计算判断B,利用公式求参数和,即可判断C,利用相关系数接近于1可判断D.
【解答过程】由样本相关系数可得y与x呈正相关关系,故A错误;
由数据可得: ,
故经验回归直线经过点,故B错误;
由,
则,故经验回归方程为,故C错误;
由于样本相关系数较接近于1,则y与x的线性相关程度较强,故D正确;
故选:D.
32.(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【答案】D
【解题思路】对于A,由回归方程可判断变量y与x的负相关;对于B,利用回归方程过可判断选项正误;对于C,由回归方程及残差定义可判断选项正误;对于D,由回归方程可得预测值.
【解答过程】对于A,因回归方程斜率为负值,则变量y与x负相关,故A正确;
对于B,,,
因回归方程过,则,故B正确;
对于C,当时,由B分析,,则残差为:
故C正确;
对于D,当,由B分析,,故D错误.
故选:D.
33.(24-25高二下·甘肃临夏·期末)某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
a
25
28
35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B.
C. D.时,
【答案】C
【解题思路】根据回归直线过样本中心点即可依次求出和估计值.
【解答过程】由题,
所以,所以回归直线方程,
所以当时,.
故ABD正确,C错误.
故选:C.
34.(24-25高二下·山东青岛·期末)新冠肺炎疫情,是新中国成立以来在我国发生的传播速度最快、感染范围最广防控难度最大的一次重大突发公共卫生事件中华民族历史上经历过很多磨难,但从来没有被压垮过,而是愈挫愈勇,不断在磨难中成长,从磨难中奋起在这次疫情中,全国人民展现出既有责任担当之勇、又有科学防控之智,某市某校学生也运用数学知识展开了对这次疫情的研究,一名同学在疫情初期数据统计中发现,从2020年2月1日至2月7日期间,日期x和全国累计报告确诊病例数量y(单位:万人)之间的关系如下表:
日期x
1
2
3
4
5
6
7
确诊病例数量y(万人)
1.4
1.7
2.0
2.4
2.8
3.1
3.5
根据表中的数据,适宜作为确诊病例数量关于日期的回归方程类型,则此线性回归方程___________.(精确到0.01)
参考数据:①;②.其中,.
参考公式:对于一组数据,,…,其回归方程中斜率和截距的最小二乘估计公式分别为:①,②.
【答案】
【解题思路】利用给定的已知数据,结合公式即可求解.
【解答过程】由题意得:,,
根据公式得:,
再由,
则此线性回归方程为,
故答案为:.
35.(24-25高二下·贵州黔西南·期末)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x(元/kg)
日需求量y(kg)
8
6
5
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,当价格元/kg时,日需求量y的预测值为多少?
参考公式:线性回归方程,其中,.
【答案】(1);
(2)kg.
【解题思路】(1)直接根据最小二乘法估计求回归方程;
(2)直接根据回归方程计算预测值.
【解答过程】(1)由题知,,
,
.
,.
综上,y关于x的线性回归方程为:.
(2)由(1)知回归方程为.
所以当时,.
故当价格元/kg时,日需求量y的预测值为kg.
题型8
非线性回归分析
36.(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【答案】A
【解题思路】由题意得,求出,从而可求得线性回归方程,给两边取对数化简,对照回归方程可求得答案.
【解答过程】由题意得,解得,
因此,
由两边取对数,得,
又,所以,即.
故选:A.
37.(24-25高二下·河北石家庄·期末)一个调查学生记忆力的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t(分钟)和答对人数y的统计表格如下:
时间t(分钟)
10
20
30
40
50
60
70
80
90
100
答对人数y
98
70
52
36
30
20
15
11
5
5
1.99
1.85
1.72
1.56
1.48
1.30
1.18
1.04
0.7
0.7
时间t与答对人数y和的散点图如下:
附:,,,,,对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为:,.请根据表格数据回答下列问题:
(1)根据散点图判断,与哪个更适宜作为线性回归模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立y与的回归方程;(a,b或c,d的计算结果均保留到小数点后三位)
(3)根据(2)请估算要想答对人数不少于75人,至多间隔多少分钟需要重新记忆一遍.(结果四舍五入保留整数)(参考数据:,).
【答案】(1)更适宜作为线性回归类型;
(2);
(3)19分钟.
【解题思路】(1)根据给定的两个散点图即可得答案.
(2)先求得的线性回归方程,再将对数式化为指数式即得与的回归方程.
(3))解不等式 即可得答案.
【解答过程】(1)观察两个散点图知,更适宜作为线性回归类型.
(2)依题意,,,
由(1)知,,根据最小二乘法得:
,
,于是,
因此y与的回归方程.
(3)依题意,,即,则,
而,于是,解得,
所以要想答对人数不少于75人,至多间隔19分钟需要重新记忆一遍.
38.(24-25高二下·福建泉州·期末)随着中美关税战的不断升级,某企业大大加强科技研发投入的力度,为确定下一年对某产品进行科技升级的研发费用,需了解该产品年研发费用(单位:千万元)对年销售量(单位:千万件)的影响.根据市场调研与模拟,对收集的数据进行初步处理,得到散点图及一些统计量的值如
30.5
15
15
46.5
表中,.
(1)根据散点图判断,与哪一个更适合作为年销售量关于年研发费用的回归方程模型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程,并估计年研发费用为27千万元时年销售量的值;
(3)科技升级后,该产品的效率大幅提高,经试验统计得大致服从正态分布.企业对科技升级团队的奖励方案如下:若不超过50%,不予奖励;若超过50%,但不超过53%,每件产品奖励2元;若超过53%,每件产品奖励4元.记为每件产品获得的奖励,求(精确到0.01).
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
②若随机变量,则,.
③.
【答案】(1)更适合
(2),8.1千万件
(3)
【解题思路】(1)根据散点图可判断,更适合;
(2)对两边取对数可得,再结合表中数据,即可求解;
(3)由正态分布的概率公式代入计算,再由期望的计算公式即可得到结果.
【解答过程】(1)根据散点图可判断,更适合作为关于的回归方程模型.
(2)由得:,即,
由表中数据得:,
所以,
所以,所以,
所以关于的回归方程为.
当时,,即年研发费用为27千万元时年销售量为8.1千万件.
(3)因为,,
所以
,
所以,
所以(元).
39.(24-25高二下·山西太原·期末)山西某地打造旅游特色村,鼓励当地村民将自己闲置房改造成民宿出租,增加农民收入.为了解在旅游淡季民宿的出租情况,随机选取6间民宿进行调查,统计它们在淡季的100天里的出租情况,得到每间民宿租金(单位:元/日)与其出租率(出租天数)的对应关系表和散点图如下:
租金
88
128
188
288
388
488
出租率
0.9
0.7
0.5
0.3
0.2
0.15
(1)请根据散点图判断,与哪个更适合此模型(不用证明),并根据下表数据(表中),求其相应的经验回归方程(保留小数点后一位).
261.3
0.46
5.4
121437.86
1.97
-221.19
-1.04
(2)已知该地一年旅游淡季按100天计算,在此期间,民宿无论是否出租,每天都要支出租金的的费用.若民宿出租,则每天需要再支付租金的的开支.请用(1)中结论的模型,计算租金为多少元时,该民宿在这100天内的收益最大.
附:;对于一组数据,其经验回归方程为.
【答案】(1)选,;
(2)元.
【解题思路】(1)观察散点图确定回归模型,换元,利用最小二乘法公式求出回归方程.
(2)结合(1)求出收益的函数关系,利用导数探讨单调性并求出取最大值时的x值.
【解答过程】(1)由散点图知,应选更合适.
由,得,则,
,
所以.
(2)依题意,
,求导得,
令,得,解得,
当时,,随着的增大而增大,当时,,随着的增大而减小,
所以当元时,民宿在这100天内的收益最大.
40.(24-25高二下·山东聊城·期末)某医疗团队统计了某款疫苗接种后人体内抗体浓度y(单位:)与时间(单位:月)的数据如下表所示:
x
1
2
3
4
5
6
y
48.7
32.6
17.2
12.0
7.0
4.4
(1)判断,哪一个适宜作为y关于x的回归模型(给出判断即可,不必说明理由),并求出y关于x的回归方程;
(2)当抗体浓度降至以下时,需接种加强针疫苗以维持免疫效果.现有两种疫苗可供选择:接种疫苗A需花费100元,接种后产生抗体的概率为0.7;接种疫苗B需花费300元,接种后产生抗体的概率为0.9.无论接种哪种疫苗,产生抗体后被病毒感染的概率都是0.1;若没产生抗体,被感染的概率都是0.4.被感染后需花费2000元的治疗费用.请你从经济角度分析应该接种哪种疫苗?
参考数据:令
20.3
2.7
274.9
47.95
17.5
参考公式:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)模型更适宜;.
(2)应该选择接种疫苗A.
【解题思路】(1)观察表中的数据信息确定适宜选择模型,对两边取自然对数,将回归方程化成,代值计算求得和,代入后可得y关于x的回归方程.
(2)依题意,分别计算两种疫苗的期望总成本,比较其大小即得结论.
【解答过程】(1)根据表中的的值随着的值的变化情况,呈现从快到慢的递减趋势,故适宜把作为y关于x的回归模型.
对两边取自然对数,可得,令,
则,,
,
,
故y关于x的回归方程为.
(2)需要比较接种疫苗和疫苗的期望总成本(包括疫苗接种费用和可能的感染治疗费用)
①疫苗的期望总成本:
疫苗接种费用:100元;
产生抗体的概率为,此时被感染的概率为,治疗费用期望为元,
未被感染的概率为,治疗费用为元,故产生抗体时的期望治疗费用为元;
未产生抗体的概率为,此时被感染的概率为,治疗费用期望为元,
未被感染的概率为,治疗费用为元,故未产生抗体时的期望治疗费用为元.
故疫苗的期望总成本为:元.
②疫苗的期望总成本:
疫苗接种费用:300元;
产生抗体的概率为,此时被感染的概率为,治疗费用期望为元,
未被感染的概率为,治疗费用为元,故产生抗体时的期望治疗费用为元;
未产生抗体的概率为,此时被感染的概率为,治疗费用期望为元,
未被感染的概率为,治疗费用为,故未产生抗体时的期望治疗费用为元.
故疫苗的期望总成本为:元.
综上,疫苗的期望总成本为480元,低于疫苗的期望总成本560元,故应该选择接种疫苗A.
题型9
回归分析与其他知识交汇
41.(24-25高二下·江苏南京·期末)“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
【答案】(1),186
(2)分布列见解析,600
【解题思路】(1)求出、,从而求出回归方程,将代入求出即可;
(2)计算对应的概率的值,求出其分布列和期望值即可.
【解答过程】(1),
,
,
当时,(元),
即某天售出8箱水的预计收益是186元.
(2)X的取值可能为0,300,500,600,800,1000,
,,
,,
,,
即X的分布列为
X
0
300
500
600
800
1000
P
X的数学期望
(元).
42.(24-25高二下·新疆喀什·期末)随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升,小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:
附:回归直线中.
【答案】(1)
(2)0.7
【解题思路】(1)由数据求得回归方程系数,即可求解;
(2)由全概率公式即可求解.
【解答过程】(1),,
由参考数据
所以
故广告费投入y关于年销售量x的回归方程为.
(2)设“在甲汽车店购买汽车”,“在乙汽车店购买汽车”,
“购买的是新能源汽车”,
,,,
由全概率公式得,.
43.(24-25高二下·重庆·期末)近年来,全国各地出现了多起电信诈骗案件,为了加强全国人民的防诈意识,构建和谐安全的社会环境,某市公安局组织宣传防诈小分队进行防诈法律法规宣传,该宣传小分队记录了10周以来普及的人数,得到下表:
时间x/周
1
2
3
4
5
6
7
8
9
10
每周普及的人数y
85
105
130
150
185
195
220
230
320
380
并计算得,,.
(1)从这10周的数据中任选3周的数据,以X表示3周中每周普及宣传人数不少于210的周数,求X的分布列和数学期望;
(2)试用上表数据求出每周普及的人数y关于周数x的线性回归方程,并预测第18周大约能普及多少人?(、精确到0.1).
附:线性回归方程中,.
【答案】(1)分布列见解析,数学期望为1.2
(2),570人
【解题思路】(1)首先确定所有可能的取值,根据超几何分布概率公式可求得每个取值对应的概率,由此可得分布列;根据数学期望公式可求得数学期望;
(2)求得线性回归方程,将代入回归直线方程,可得出结果.
【解答过程】(1)由题可知,每周普及宣传人数不少于210的有4周,可取,
则,,,,
则X的分布列为:
0
1
2
3
则数学期望为.
(2),
,
所以线性回归方程,
当时,,
所以预测第18周大约能普及570人.
44.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),回归方程为
(2)的分布列见解析;
【解题思路】(1)求出,将参考数据代入相关系数公式,求出的值,即可得出结论;再将数据代入最小二乘法公式,求出的值,即可得出回归直线方程;
(2)利用全概率公式求出每个人从2号门出校园的概率,由此可知,利用二项分布可得出随机变量的分布列,利用二项分布的期望、方差公式可得出的值.
【解答过程】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以y与x线性相关性很强,
可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从2号门出学校”为事件A,“甲从1号门进学校”为事件B,
“甲从2号门进学校”为事件C, “甲从3号门进学校”为事件D,
由题意可得,,,
,,,
由全概率公式得:
,同理乙、丙、丁从2号门出学校的概率也为,
为4人中从2号门出学校的人数,则,
,,
,,
,
故的分布列为:
0
1
2
3
4
所以.
45.(24-25高二下·江西吉安·期末)某高科技公司在产品研发的过程中,为了研究芯片性能指标与原材料中某种关键成分的含量(单位:)之间的关系,研发团队进行了一系列实验,现随机抽取了部分实验数据如下表:
2
4
6
8
10
30
40
60
50
70
(1)请根据上述数据,求出与的线性回归方程;(参考公式:,)
(2)经研究发现,该芯片在正常工作时,其性能指标服从正态分布,其中,当芯片的性能指标在之间时,芯片的工作状态最佳.若由(1)中回归方程预测,当关键成分含量为12时,芯片性能指标为.
(i)假设在一次产品检验中,从该批次芯片中随机抽取2000个,估计性能指标不在范围内的芯片个数(结果保留整数);(附:若,则,)
(ii)某机器的控制系统使用了个芯片,其中每个芯片处在最佳工作状态的概率为,各个芯片工作相互独立,如果系统中有超过一半的芯片处在最佳工作状态,则控制系统的工作效率最高,其概率记为.若在控制系统中增加一个芯片,控制系统工作效率最高的概率记为,试判断与的大小关系并证明.
【答案】(1)
(2)(i)635;(ii)答案见解析
【解题思路】(1)先求出的平均值,然后根据公式求出回归方程的系数,从而得到回归方程.
(2)(i)根据正态分布的性质先求出性能指标不在范围内的概率,进而可求出性能指标不在范围内的芯片个数.(ii)根据二项分布的性质求解和的关系即可.
【解答过程】(1)由题意得,,
所以,
,
故,
所以关于的线性回归方程为.
(2)(i)当时,,即
已知,则或,
所以从该批次芯片中随机抽取2000个,性能指标不在范围内的芯片个数约为
个.
(ii)记为原系统中工作最佳的芯片个数,为增加一个芯片后系统中工作最佳的芯片个数.
由条件可知
当时,则原系统中,新系统中.
由题意可知,
所以
即;
当时,则原系统中,新系统中.
由题意可知,
所以,
即;
综上,当为奇数时,;当为偶数时,.
题型10
列联表的完善与分析
46.(24-25高二·全国·课堂例题)一个列联表如下:
合计
35
45
7
合计
73
则表中,的值分别是 ( )
A.10,38 B.17,45 C.10,45 D.17,38
【答案】B
【解题思路】由列联表数据,列出等式即可求解;
【解答过程】由,得.
由,得.
由,得.
由,得.
故选:B.
47.(24-25高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
【答案】D
【解题思路】根据成绩优秀的概率求得,进而求得,结合比例判断出正确答案.
【解答过程】依题意,解得,由解得.
补全列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
甲班的优秀率为,乙班的优秀率为,
,所以成绩与班级有关.所以D选项正确,ABC选项错误.
故选:D.
48.(24-25高二下·广西河池·期末)假设有两个变量x与y的列联表如下表:
a
b
c
d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【答案】B
【解题思路】计算每个选项中的值,最大的即对同一样本能说明x与y有关系的可能性最大.
【解答过程】对于A, ,
对于B,,
对于C,,
对于D,
显然B中最大,该组数据能说明x与y有关系的可能性最大,
故选:B.
49.(24-25高二下·甘肃酒泉·期末)下面是一个2×2列联表:
项目
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则由上表可得__________.
【答案】74
【解题思路】根据联表性质计算求解.
【解答过程】由题意知,所以.
故答案为:.
50.(24-25高二下·广西钦州·期末)如下是一个列联表,则___________.
yx
总计
总计
【答案】
【解题思路】根据列联表的概念,可得答案.
【解答过程】由题意可得,则,可得,所以.
故答案为:.
题型11
独立性检验
51.(24-25高二下·福建厦门·期末)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数的.若依据小概率值的独立性检验认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
其中,,.
A.20 B.30 C.35 D.40
【答案】A
【解题思路】设总人数为,根据给定条件,求出的观测值并建立不等式,进而求出的最小整数值得解.
【解答过程】设总人数为,则男生选学生物学的人数为,女生选学生物学的人数为,
则列联表为:
男生
女生
合计
选生物学
不选生物学
合计
m
m
2m
因此,
即,又为的倍数,所以男生最少有人.
故选:A.
52.(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【解题思路】求得卡方值,比对临界值,逐个判断即可.
【解答过程】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
53.(24-25高二下·广东广州·期末)为了解性别(变量x)与体育锻炼(变量y)是否有关,采取简单随机抽样的方法抽取50名学生,得到成对样本观测数据的分类统计结果,如表所示(单位:人),根据数据计算,并依据小概率值的独立性检验,附:,,下列结论不正确的是( )
锻炼
合计
不经常
经常
女生
15
5
20
男生
10
m
n
合计
25
25
50
A.
B.若从这50人中随机抽取1人,则经常锻炼的概率为
C.变量x与变量y独立,此推断犯错误的概率不超过0.005
D.变量x与变量y不独立,此推断犯错误的概率不超过0.005
【答案】C
【解题思路】AB选项,根据表中数据得到,概率为;CD选项,计算出卡方,与7.879比较后的结论.
【解答过程】A选项,根据表中数据可知,A正确;
B选项,若从这50人中随机抽取1人,则经常锻炼的概率为,B正确;
CD选项,,,
故变量x与变量y不独立,此推断犯错误的概率不超过0.005,C错误,D正确.
故选:C.
54.(24-25高二下·河北衡水·期末)某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】
【解题思路】由表中数据,根据独立性检验的解题思想,可得答案.
【解答过程】由题干数据即可得到:,
因为依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,
故,又因为m为正整数,故,
故答案为:.
55.(24-25高二下·西藏林芝·期末)为了推动智慧课堂的普及和应用,市现对全市中小学智慧课堂的应用情况进行抽样调查,统计数据如下表:
经常应用
偶尔应用或者不应用
总计
农村学校
40
城市学校
80
总计
100
160
(1)补全上面的列联表;
(2)依据小概率的独立性检验,能否判断学校所在区域对智慧课堂的应用有影响?
附:,其中.
0.100
0.050
0.005
2.706
3.841
7.879
【答案】(1)答案见解析
(2)学校所在区域对智慧课堂的应用有影响.
【解题思路】(1)根据表格数据直接计算即可;
(2)利用卡方公式计算出卡方值,再对比表格数据即可.
【解答过程】(1)补全的列联表如下:
经常应用
偶尔应用或者不应用
总计
农村学校
40
40
80
城市学校
60
20
80
总计
100
60
160
(2)零假设:学校所在区域对智慧课堂的应用无影响.
根据列联表中的数据,经计算得到
根据小概率的独立性检验,我们推断不成立,因此能判断学校所在区域对智慧课堂的应用有影响.
题型12
独立性检验与其他知识交汇
56.(24-25高二下·河南南阳·月考)我国古代劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,例如“日落云里走,雨在半夜后”.某同学为了验证该谚语的准确性,随机观察了他所在地区的100天日落情况和后半夜天气,得到如下列联表:
日落云里走
后半夜天气
总计
下雨
未下雨
出现
25
5
30
未出现
25
45
70
总计
50
50
100
附表:
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
经计算,则下列对该地区天气的判断不正确的是( )
A.在样本数据中,后半夜下雨的概率约为
B.若出现“日落云里走”,则后半夜未下雨的概率约为
C.有99%的把握认为“日落云里走”是否出现与当晚后半夜是否下雨有关
D.根据独立性检验计算可知,若出现“日落云里走”,则有99%的把握认为后半夜会下雨
【答案】D
【解题思路】利用频率估计概率和独立性检验的理论,即可得到答案;
【解答过程】对A,把频率看作概率,可得后半夜下雨的概率约为,故A正确;
对B,出现“日落云里走”时,后半夜未下雨的概率约为,故B正确;
对C,由,知有99%的把握认为“‘日落云里走’是否出现”与“后半夜是否下雨”有关,故C正确;
根据独立性检验的意义易知D错误.
故选:D.
57.(24-25高二下·河南三门峡·期末)已知下列说法:
①对于经验回归方程,变量增加一个单位时,平均增加3个单位;
②甲、乙两个模型的分别为0.98和0.80,则模型甲的拟合效果更好;
③对分类变量与,随机变量越大,则判断“与有关系”的把握程度越大;
④两个随机变量的线性相关性越强,则相关系数就越接近1.
其中说法错误的个数为( )
A.1 B.2 C.3 D.4
【答案】B
【解题思路】根据回归方程、相关指数、卡方值、相关系数的实际意义判断各项的正误即可.
【解答过程】①对于经验回归方程,变量增加一个单位时,平均减少5个单位,错;
②甲、乙两个模型的分别为0.98和0.80,由甲模型的值较大,故模型甲的拟合效果更好,对;
③对分类变量与,随机变量越大,变量的相关性越强,则判断“与有关系”的把握程度越大,对;
④两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1,错.
所以,错误的共有2个.
故选:B.
58.(24-25高二下·新疆乌鲁木齐·期末)某药物研究机构为考察药物A对疾病S的效果,随机抽取了600只动物进行实验,得到如下列联表:
药物(疾病)
未患病
患病
未服药
150
150
服药
200
100
(1)根据小概率值的独立性检验,能否认为药物A对疾病S有效?
(2)现从参与试验服药的300只动物中,按是否患疾病S采用分层抽样的方法抽取6只动物;再从这6只动物中随机抽取3只动物进一步试验,记抽取的3只动物中患病的只数为X,求X的分布列以及数学期望.
附:(其中)
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)认为该药物对预防疾病有效,此推断犯错误的概率不大于0.001
(2)分布列见解析,
【解题思路】(1)根据公式求出后,对照临界值即可求解.
(2)先求得未患病的只数为4,患病的只数为2,的所有可能取值为0,1,2,求出对应的概率,写出分布列,从而求出数学期望.
【解答过程】(1)零假设:患病与服用药物无关,即药物无效.
根据列联表可得.
因为当假设成立时,,
所以根据小概率值的独立性检验,我们推断不成立,
即认为该药物A对预防疾病有效,此推断犯错误的概率不大于0.001.
(2)从参与试验服药的300只动物中,按是否患病S通过分层抽样方法随机取出6只,
其中未患病的只数为,患病的只数为,
则的所有可能取值为0,1,2,
,
所以的分布列为
0
1
2
故随机变量的数学期望为.
59.(24-25高二下·福建泉州·期末)近年来,由于大学生不理智消费导致财务方面的新闻层出不穷,无力偿还校园贷,跳楼自杀也偶有发生,一时间人们对大学生的消费观充满了质疑.为进一步了解大学生的消费情况,对S城某大学的10000名(其中男生6000名,女生4000名)在校本科生.按性别采用分层抽样的方式抽取了1000名学生进行了问卷调查,其中有一项是针对大学生每月的消费金额进行调查统计.通过整理得到如图所示的频率分布直方图.已知在抽取的学生中,月消费金额超过2000元的女生有150人.
参考数据与参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
,其中.
(1)求的值.
(2)估计月消费金额的中位数
(3)依据小概率值的独立性检验,分析月消费金额在2000元以上的大学生与性别是否有关?
【答案】(1)
(2)元
(3)有关.
【解题思路】(1)由频率分布直方图各矩形面积和为1,可得答案;
(2)由频率分布直方图估计中位数计算方式可得答案;
(3)由题可得相关列联表,然后计算对应卡方进行独立性检验即可.
【解答过程】(1)由直方图知,各矩形面积之和为1,
则,解得;
(2)由频率分布直方图知,
前3个矩形面积之和为:;
前4个矩形面积之和为: ,
设中位数为,∴,
∴,∴月消费金额的中位数为百元,即元;
(3)故月消费金额超过2000元的大学生人数为人,
由分层抽样知,男生、女生抽样的人数分别为600人和400人,
由题知,月消费金额超过2000元的男生人数为100人,由条件可以列出列联表:
男生
女生
合计
消费金额不超过2000元
500人
250人
750人
消费金额超过2000元
100人
150人
250人
合计
600人
400人
1000人
提出零假设:月消费金额在2000元以上的大学生与性别无关.
故,
所以在犯错的概率不超过的情况下可以判断月消费金额在2000元以上的大学生与性别有关.
60.(24-25高二下·山东菏泽·期末)为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取80名学生.通过测试得到了表中数据:
学校
数学成绩
合计
不优秀
优秀
甲校
10
30
40
乙校
20
20
40
合计
30
50
80
(1)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异?如果表中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因;
(2)现从所抽取的数学成绩优秀学生中利用分层抽样的方法抽取5人,再从这5人中随机选取3人,设这3人中来自乙校的人数为,求的分布列和期望.
附:①,其中.
②临界值表
0.1
0.01
0.005
2.706
6.635
7.879
【答案】(1)认为两校学生中数学成绩优秀率之间没有差异,不一样,因为样本容量的不同,导致推断结论发生了变化
(2)分布列见解析,
【解题思路】(1)求出观测值,再与临界值比对即可得解.
(2)由分层抽样确定5人中来自乙校的人数,然后确定的所有取值为0,1,2,计算出各概率的分布列,再由期望公式计算期望.
【解答过程】(1)零假设:两校学生中数学成绩优秀率之间没有差异.
因为,
依据小概率值的独立性检验,没有充分的理由推断不成立,
所以认为两校学生中数学成绩优秀率之间没有差异.
所有数据都扩大10倍后:
.
依据小概率值的独立性检验,可以认为不成立,即学校与数学成绩有关联
结论不一样,主要是因为样本容量的不同,导致推断结论发生了变化.
(2)由分层随机抽样可知,抽取的5名学生中有2名来自乙校.
所有可能的取值为0,1,2,
知,,,
所以的分布列为:
0
1
2
故.
2 / 30
学科网(北京)股份有限公司
$
专题05 成对数据的统计分析(12大重点题型+思维导图+知识清单)(期末专项训练)
【人教A版】
题型归纳
【知识清单1 变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
【知识清单2 样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
【知识清单3 一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.随机误差
在线性回归模型Y=bx+a+e中,a和b为模型的未知参数,e是Y与bx+a之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方程D(e)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高.
【知识清单4 一元线性回归模型参数的最小二乘估计】
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算;
(4)写出经验回归方程.
求经验回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【注】
1.经验回归直线过点.
2.求时,常用公式.
【知识清单5 分类变量与列联表】
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道两个分类变量有关系的概率大小.
【知识清单6 独立性检验】
1.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值,如下表所示.
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
2.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【注】
1.独立性检验是基于成对样本观测数据进行估计或推断,得出的结论可能犯错误.
题型1
判断两个变量的相关关系
1.(24-25高二下·吉林·期末)下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
2.(24-25高二下·重庆·期末)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有负相关关系的是( )
A. B.
C. D.
3.(24-25高二下·天津西青·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
4.(24-25高二下·全国·课后作业)观察下列散点图,有三种情况:①正相关,②负相关,③不相关.与散点图的位置相对应的序号依次是_________.
5.(24-25高二下·江苏·课后作业)某种木材体积与树木的树龄之间有如下的对应关系:
树龄
2
3
4
5
6
7
8
体积
30
34
40
60
55
62
70
(1)请作出这些数据的散点图;
(2)你能由散点图发现木材体积与树木的树龄近似成什么关系吗?
题型2
样本相关系数的意义及辨析
6.(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
7.(24-25高二下·山东济南·期末)对四组数据进行统计,获得以下散点图,将四组数据对应的相关系数进行比较,则( )
A. B.
C. D.
8.(24-25高二下·四川乐山·期末)已知变量与,与分别都成线性相关关系,且与相关系数满足,且与相关系数满足,下列结论正确的是( )
A.与负相关,与负相关,且与的相关性更强
B.与负相关,与正相关,且与的相关性更强
C.与负相关,与正相关,且与的相关性更弱
D.与正相关,与负相关,且与的相关性更弱
9.(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
10.(24-25高二上·陕西渭南·期末)下列结论正确的是__________.
①变量间的线性相关系数的取值范围为;
②变量间的线性相关系数的绝对值越接近于0,则变量间的线性相关程度越弱:
③变量间的相关系数越小,则变量间的相关程度越弱.
题型3
相关系数的计算及应用
11.(24-25高二下·湖北·月考)已知变量x和变量y的3对随机观测数据,,,则该组样本数据点的相关系数( )
(参考公式:)
A. B. C. D.1
12.(24-25高二下·贵州黔西南·期末)已知变量和变量的3对随机观测数据为,则这组样本数据的样本相关系数为( )
A. B. C.1 D.
13.(24-25高二下·山东枣庄·期末)下列四组成对数据:①,,,,;②,,,,;③,,,,;④,,,,.其中样本相关系数最小的是( )(附:样本相关系数)
A.① B.② C.③ D.④
14.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
15.(24-25高二下·广东中山·期末)为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
题型4
根据回归方程进行数据估计
16.(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
17.(24-25高二下·陕西渭南·期末)2023年第5届藏博会在拉萨举行,藏博会上本地核桃油深受大家喜爱,某商家统计了最近5个月销量,如表所示:
时间x
1
2
3
4
5
销售量y/万瓶
5.7
4.8
3.8
3.2
2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.样本中心点为
C.可以预测当时销量约为1.8万瓶 D.线性回归方程中
18.(24-25高二下·广东梅州·期末)我国新能源汽车的卓越性能赢得全球人民的信赖,某品牌新能源汽车凭借科研创新、广告宣传和可靠的售后保障,在全球赢得了很好的营销局面,下表为该品牌新能源汽车的科研经费投入和全球市场规模统计.
科研经费(单位:百亿元)
2
4
6
12
16
市场规模(单位:百万辆)
1
1.5
2
3
3.5
如此得到y关于x的经验回归方程:,估计当该品牌新能源汽车的科研经费投入20(百亿元)时,全球市场规模将达到( )百万辆.
A.4 B.4.14 C.4.36 D.4.58
19.(24-25高二下·陕西咸阳·期末)经验表明,一般树的胸径(树的主干在地面以上处的直径)越大,树就越高.在研究树高与胸径之间的关系时,某同学收集了某种树的5组观测数据(如下表):
胸径
8
9
10
11
12
树高
8.2
10
11
12
13.8
假设树高与胸径满足的经验回归方程为,则当胸径时,树高的预测值为_________.
20.(24-25高二下·河北唐山·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
题型5
残差的计算
21.(24-25高二下·福建泉州·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
22.(24-25高二下·四川绵阳·期末)已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
23.(24-25高二下·山东青岛·期末)已知变量,线性相关,其一组样本数据满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到新的经验回归方程,则此时数据的残差为( )
A. B. C.1 D.2
24.(24-25高二下·重庆长寿·期末)我区物价部门对某商品在各商场的售价(元)及其一天的销售量(件)进行调查,得到了若干对数据,经过分析,计算,得到关于的经验回归方程为,则样本点的残差为___________.
25.(24-25高二下·河北·期末)某农科研究所想要研究某种农产品的产量与施肥量之间的关系,通过调研得到一些数据如下表:
施肥量x
8
10
12
14
16
18
产量y
6
8
m
t
11
12
已知,,x,y的样本相关系数,说明x,y满足线性回归.
(1)求的值;
(2)求出y关于x的经验回归方程;
(3)若施肥量为12,14时的残差分别为,求的值.
参考公式:经验回归方程的斜率和截距的最小二乘估计公式分别为,,样本相关系数.
题型6
刻画回归效果的方式
26.(24-25高二下·安徽蚌埠·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
27.(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
28.(24-25高二下·山东枣庄·期末)下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
29.(24-25高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则____________.(参考公式:决定系数)
30.(24-25高二下·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天)
1
2
3
4
5
订单数y(件)
13
21
45
55
66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
题型7
求回归直线方程
31.(24-25高二下·广东广州·期末)随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
32.(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
33.(24-25高二下·甘肃临夏·期末)某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
a
25
28
35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B.
C. D.时,
34.(24-25高二下·山东青岛·期末)新冠肺炎疫情,是新中国成立以来在我国发生的传播速度最快、感染范围最广防控难度最大的一次重大突发公共卫生事件中华民族历史上经历过很多磨难,但从来没有被压垮过,而是愈挫愈勇,不断在磨难中成长,从磨难中奋起在这次疫情中,全国人民展现出既有责任担当之勇、又有科学防控之智,某市某校学生也运用数学知识展开了对这次疫情的研究,一名同学在疫情初期数据统计中发现,从2020年2月1日至2月7日期间,日期x和全国累计报告确诊病例数量y(单位:万人)之间的关系如下表:
日期x
1
2
3
4
5
6
7
确诊病例数量y(万人)
1.4
1.7
2.0
2.4
2.8
3.1
3.5
根据表中的数据,适宜作为确诊病例数量关于日期的回归方程类型,则此线性回归方程___________.(精确到0.01)
参考数据:①;②.其中,.
参考公式:对于一组数据,,…,其回归方程中斜率和截距的最小二乘估计公式分别为:①,②.
35.(24-25高二下·贵州黔西南·期末)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x(元/kg)
日需求量y(kg)
8
6
5
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,当价格元/kg时,日需求量y的预测值为多少?
参考公式:线性回归方程,其中,.
题型8
非线性回归分析
36.(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
37.(24-25高二下·河北石家庄·期末)一个调查学生记忆力的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t(分钟)和答对人数y的统计表格如下:
时间t(分钟)
10
20
30
40
50
60
70
80
90
100
答对人数y
98
70
52
36
30
20
15
11
5
5
1.99
1.85
1.72
1.56
1.48
1.30
1.18
1.04
0.7
0.7
时间t与答对人数y和的散点图如下:
附:,,,,,对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为:,.请根据表格数据回答下列问题:
(1)根据散点图判断,与哪个更适宜作为线性回归模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立y与的回归方程;(a,b或c,d的计算结果均保留到小数点后三位)
(3)根据(2)请估算要想答对人数不少于75人,至多间隔多少分钟需要重新记忆一遍.(结果四舍五入保留整数)(参考数据:,).
38.(24-25高二下·福建泉州·期末)随着中美关税战的不断升级,某企业大大加强科技研发投入的力度,为确定下一年对某产品进行科技升级的研发费用,需了解该产品年研发费用(单位:千万元)对年销售量(单位:千万件)的影响.根据市场调研与模拟,对收集的数据进行初步处理,得到散点图及一些统计量的值如
30.5
15
15
46.5
表中,.
(1)根据散点图判断,与哪一个更适合作为年销售量关于年研发费用的回归方程模型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程,并估计年研发费用为27千万元时年销售量的值;
(3)科技升级后,该产品的效率大幅提高,经试验统计得大致服从正态分布.企业对科技升级团队的奖励方案如下:若不超过50%,不予奖励;若超过50%,但不超过53%,每件产品奖励2元;若超过53%,每件产品奖励4元.记为每件产品获得的奖励,求(精确到0.01).
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
②若随机变量,则,.
③.
39.(24-25高二下·山西太原·期末)山西某地打造旅游特色村,鼓励当地村民将自己闲置房改造成民宿出租,增加农民收入.为了解在旅游淡季民宿的出租情况,随机选取6间民宿进行调查,统计它们在淡季的100天里的出租情况,得到每间民宿租金(单位:元/日)与其出租率(出租天数)的对应关系表和散点图如下:
租金
88
128
188
288
388
488
出租率
0.9
0.7
0.5
0.3
0.2
0.15
(1)请根据散点图判断,与哪个更适合此模型(不用证明),并根据下表数据(表中),求其相应的经验回归方程(保留小数点后一位).
261.3
0.46
5.4
121437.86
1.97
-221.19
-1.04
(2)已知该地一年旅游淡季按100天计算,在此期间,民宿无论是否出租,每天都要支出租金的的费用.若民宿出租,则每天需要再支付租金的的开支.请用(1)中结论的模型,计算租金为多少元时,该民宿在这100天内的收益最大.
附:;对于一组数据,其经验回归方程为.
40.(24-25高二下·山东聊城·期末)某医疗团队统计了某款疫苗接种后人体内抗体浓度y(单位:)与时间(单位:月)的数据如下表所示:
x
1
2
3
4
5
6
y
48.7
32.6
17.2
12.0
7.0
4.4
(1)判断,哪一个适宜作为y关于x的回归模型(给出判断即可,不必说明理由),并求出y关于x的回归方程;
(2)当抗体浓度降至以下时,需接种加强针疫苗以维持免疫效果.现有两种疫苗可供选择:接种疫苗A需花费100元,接种后产生抗体的概率为0.7;接种疫苗B需花费300元,接种后产生抗体的概率为0.9.无论接种哪种疫苗,产生抗体后被病毒感染的概率都是0.1;若没产生抗体,被感染的概率都是0.4.被感染后需花费2000元的治疗费用.请你从经济角度分析应该接种哪种疫苗?
参考数据:令
20.3
2.7
274.9
47.95
17.5
参考公式:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为,.
题型9
回归分析与其他知识交汇
41.(24-25高二下·江苏南京·期末)“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
42.(24-25高二下·新疆喀什·期末)随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升,小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:
附:回归直线中.
43.(24-25高二下·重庆·期末)近年来,全国各地出现了多起电信诈骗案件,为了加强全国人民的防诈意识,构建和谐安全的社会环境,某市公安局组织宣传防诈小分队进行防诈法律法规宣传,该宣传小分队记录了10周以来普及的人数,得到下表:
时间x/周
1
2
3
4
5
6
7
8
9
10
每周普及的人数y
85
105
130
150
185
195
220
230
320
380
并计算得,,.
(1)从这10周的数据中任选3周的数据,以X表示3周中每周普及宣传人数不少于210的周数,求X的分布列和数学期望;
(2)试用上表数据求出每周普及的人数y关于周数x的线性回归方程,并预测第18周大约能普及多少人?(、精确到0.1).
附:线性回归方程中,.
44.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
45.(24-25高二下·江西吉安·期末)某高科技公司在产品研发的过程中,为了研究芯片性能指标与原材料中某种关键成分的含量(单位:)之间的关系,研发团队进行了一系列实验,现随机抽取了部分实验数据如下表:
2
4
6
8
10
30
40
60
50
70
(1)请根据上述数据,求出与的线性回归方程;(参考公式:,)
(2)经研究发现,该芯片在正常工作时,其性能指标服从正态分布,其中,当芯片的性能指标在之间时,芯片的工作状态最佳.若由(1)中回归方程预测,当关键成分含量为12时,芯片性能指标为.
(i)假设在一次产品检验中,从该批次芯片中随机抽取2000个,估计性能指标不在范围内的芯片个数(结果保留整数);(附:若,则,)
(ii)某机器的控制系统使用了个芯片,其中每个芯片处在最佳工作状态的概率为,各个芯片工作相互独立,如果系统中有超过一半的芯片处在最佳工作状态,则控制系统的工作效率最高,其概率记为.若在控制系统中增加一个芯片,控制系统工作效率最高的概率记为,试判断与的大小关系并证明.
题型10
列联表的完善与分析
46.(24-25高二·全国·课堂例题)一个列联表如下:
合计
35
45
7
合计
73
则表中,的值分别是 ( )
A.10,38 B.17,45 C.10,45 D.17,38
47.(24-25高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
48.(24-25高二下·广西河池·期末)假设有两个变量x与y的列联表如下表:
a
b
c
d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
49.(24-25高二下·甘肃酒泉·期末)下面是一个2×2列联表:
项目
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则由上表可得__________.
50.(24-25高二下·广西钦州·期末)如下是一个列联表,则___________.
yx
总计
总计
题型11
独立性检验
51.(24-25高二下·福建厦门·期末)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数的.若依据小概率值的独立性检验认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
其中,,.
A.20 B.30 C.35 D.40
52.(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
53.(24-25高二下·广东广州·期末)为了解性别(变量x)与体育锻炼(变量y)是否有关,采取简单随机抽样的方法抽取50名学生,得到成对样本观测数据的分类统计结果,如表所示(单位:人),根据数据计算,并依据小概率值的独立性检验,附:,,下列结论不正确的是( )
锻炼
合计
不经常
经常
女生
15
5
20
男生
10
m
n
合计
25
25
50
A.
B.若从这50人中随机抽取1人,则经常锻炼的概率为
C.变量x与变量y独立,此推断犯错误的概率不超过0.005
D.变量x与变量y不独立,此推断犯错误的概率不超过0.005
54.(24-25高二下·河北衡水·期末)某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
55.(24-25高二下·西藏林芝·期末)为了推动智慧课堂的普及和应用,市现对全市中小学智慧课堂的应用情况进行抽样调查,统计数据如下表:
经常应用
偶尔应用或者不应用
总计
农村学校
40
城市学校
80
总计
100
160
(1)补全上面的列联表;
(2)依据小概率的独立性检验,能否判断学校所在区域对智慧课堂的应用有影响?
附:,其中.
0.100
0.050
0.005
2.706
3.841
7.879
题型12
独立性检验与其他知识交汇
56.(24-25高二下·河南南阳·月考)我国古代劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,例如“日落云里走,雨在半夜后”.某同学为了验证该谚语的准确性,随机观察了他所在地区的100天日落情况和后半夜天气,得到如下列联表:
日落云里走
后半夜天气
总计
下雨
未下雨
出现
25
5
30
未出现
25
45
70
总计
50
50
100
附表:
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
经计算,则下列对该地区天气的判断不正确的是( )
A.在样本数据中,后半夜下雨的概率约为
B.若出现“日落云里走”,则后半夜未下雨的概率约为
C.有99%的把握认为“日落云里走”是否出现与当晚后半夜是否下雨有关
D.根据独立性检验计算可知,若出现“日落云里走”,则有99%的把握认为后半夜会下雨
57.(24-25高二下·河南三门峡·期末)已知下列说法:
①对于经验回归方程,变量增加一个单位时,平均增加3个单位;
②甲、乙两个模型的分别为0.98和0.80,则模型甲的拟合效果更好;
③对分类变量与,随机变量越大,则判断“与有关系”的把握程度越大;
④两个随机变量的线性相关性越强,则相关系数就越接近1.
其中说法错误的个数为( )
A.1 B.2 C.3 D.4
58.(24-25高二下·新疆乌鲁木齐·期末)某药物研究机构为考察药物A对疾病S的效果,随机抽取了600只动物进行实验,得到如下列联表:
药物(疾病)
未患病
患病
未服药
150
150
服药
200
100
(1)根据小概率值的独立性检验,能否认为药物A对疾病S有效?
(2)现从参与试验服药的300只动物中,按是否患疾病S采用分层抽样的方法抽取6只动物;再从这6只动物中随机抽取3只动物进一步试验,记抽取的3只动物中患病的只数为X,求X的分布列以及数学期望.
附:(其中)
0.050
0.010
0.001
3.841
6.635
10.828
59.(24-25高二下·福建泉州·期末)近年来,由于大学生不理智消费导致财务方面的新闻层出不穷,无力偿还校园贷,跳楼自杀也偶有发生,一时间人们对大学生的消费观充满了质疑.为进一步了解大学生的消费情况,对S城某大学的10000名(其中男生6000名,女生4000名)在校本科生.按性别采用分层抽样的方式抽取了1000名学生进行了问卷调查,其中有一项是针对大学生每月的消费金额进行调查统计.通过整理得到如图所示的频率分布直方图.已知在抽取的学生中,月消费金额超过2000元的女生有150人.
参考数据与参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
,其中.
(1)求的值.
(2)估计月消费金额的中位数
(3)依据小概率值的独立性检验,分析月消费金额在2000元以上的大学生与性别是否有关?
60.(24-25高二下·山东菏泽·期末)为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取80名学生.通过测试得到了表中数据:
学校
数学成绩
合计
不优秀
优秀
甲校
10
30
40
乙校
20
20
40
合计
30
50
80
(1)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异?如果表中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因;
(2)现从所抽取的数学成绩优秀学生中利用分层抽样的方法抽取5人,再从这5人中随机选取3人,设这3人中来自乙校的人数为,求的分布列和期望.
附:①,其中.
②临界值表
0.1
0.01
0.005
2.706
6.635
7.879
2 / 30
学科网(北京)股份有限公司
$