内容正文:
清单05 一元线性回归模型与独立性检验
【考点题型一】相关关系的意义及辨析
1、变量与变量之间的关系常见的有两类:一类是函数关系,即变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了另一类是相关关系,即变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性.
2、线性相关,正相关,负相关
变量x与变量r之间的关系可以近似地用一次函数来刻画,则x称与y线性相关.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
3、两个变量相关的判断方法:
(1)根据实际经验.借助积累的经验进行分析判断;
(2)利用散点图.通过散点图,观察点的分布是否存在一定的规律,直观地进行判断,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【例1】(23-24高二下·辽宁·期中)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量 B.举重运动员所能举起的最大重量与他的体重
C.某正方形的边长与此正方形的面积 D.人的身高与体重
【变式1-1】(23-24高二下·河北张家口·月考)观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【变式1-2】(23-24高二上·安徽淮北·期末)对于变量,有以下四个散点图,由这四个散点图可以判断变量与成负相关的是( )
A. B.
C. D.
【变式1-3】(23-24高二下·北京·期中)某校地理小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图,则下列说法不正确的是( )
A.气压与海拔高度呈正相关 B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关 D.沸点与海拔高度、沸点与气压的相关性都很强
【考点题型二】相关系数的计算
1、线性相关系数:若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
2、相关系数的性质
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
【例2】(2022高二下·河南南阳·专题练习)在一组样本数据为,,,(,,,,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C.1 D.-1
【变式2-1】(23-24高二下·山西忻州·月考)已知5对成对样本数据成线性关系,样本相关系数为,去掉1对数据后,剩下的4对成对样本数据成线性关系,样本相关系数为,则( )
A. B. C. D.的大小无法确定
【变式2-2】(23-24高二下·黑龙江大庆·期中)某统计部门对四组数据进行统计分析后获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【变式2-3】(22-23高二下·江苏·单元测试)一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,,,,,则y与x的相关系数r的绝对值为( )
A.0.6 B.0.5 C.0.4 D.0.3
【考点题型三】样本中心点的应用
回归直线方程的性质
(1)回归直线一定过样本中心点.
(2)一次函数的单调性由决定,函数递增的充要条件是,函数递减的充要条件是,这说明:与正相关的充要条件是;与负相关的充要条件是.
(3)在回归直线方程中,是回归直线的斜率,是截距.代表每增大一个单位,增大的单位数.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,减小个单位.
【例3】(23-24高二下·天津·期中)已知某种商品的广告费投入与销售额之间有如下对应数据:根据上表可得回归方程,计算得,则当投入为6时,销售额的预报值为( )
2
4
5
6
8
30
40
50
60
70
A.50 B.60 C.57 D.85
【变式3-1】(2024·江西宜春·模拟预测)色差和色度是衡量毛绒玩具质量优劣的重要指标.现抽检一批毛绒玩具,测得的色差和色度数据如表所示:
色差x
21
23
25
27
色度y
m
18
19
20
根据表中数据可得色度关于色差的经验回归方程为,则( )
A.14 B.15 C.16 D.17
【变式3-2】(23-24高二下·河南·月考)已知由样本数据组成的一个样本,变量具有线性相关关系,其经验回归方程为,并计算出变量之间的相关系数为,则经验回归直线经过( )
A.第一、二、三象限 B.第二、三、四象限
C.第一、二、四象限 D.第一、三、四象限
【变式3-3】(23-24高二下·河南南阳·月考)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
【考点题型四】线性回归模型的应用
回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
【例4】(23-24高二下·河北张家口·月考)桹据统计得到某蔬菜基地茄子亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明;(若,则线性相关程度很高,可用线性回归模型拟合)
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为10千克时,茄子亩产量的增加量y约为多少?
附:相关系数公式,参考数据:,回归方程中斜率的最小二乘估计公式为:.
【变式4-1】(23-24高二下·浙江丽水·期中)浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
【变式4-2】(23-24高二下·贵州遵义·期中)某地2019年至2023年五年新能源汽车保有量如下表.
年份
2019
2020
2021
2022
2023
年份编号
1
2
3
4
5
保有量(万辆)
18
20
23
25
29
(1)请用相关系数说明与的线性相关程度;
(2)求关于的回归直线方程,并预测2025年该地新能源汽车保有量.
附:相关系数.
在回归直线方程中,.取.
【变式4-3】(23-24高二下·吉林长春·月考)现有4个分别标有甲、乙、丙、丁的盒子和4个相同的小球.
(1)将4个球全部随机放入四个盒子中,且每个盒子容纳球数不限,记盒子甲中的小球个数为随机变量X,求X的分布列和数学期望;
(2)公司提前10天公布了年会小游戏规则:每轮在2米开外将4个小球分别投向4个盒子,投完4个小球即一轮结束,三轮为一局,三局结束后累计投进盒子的球数超过6个就中奖.小李为了带动组员积极性,每天利用午休时练习投球,每次三局,随着投球的视角和力度的把控,水平逐渐得到提高,现将其前7天每天累计投进盒子的球个数y和时间t(第t天用编号t表示)绘制下表:
时间(t)
1
2
3
4
5
6
7
累计投入球数(y)
3
4
3
4
7
6
8
其中累计投进盒子的球数(y)与时间(t)具有线性相关关系,求累计投进盒子的球的个数y关于时间t的经验回归方程;(精确到0.01)
(3)试估算第10天能投进盒子的累计球数.(四舍五入取整数)
参考公式:,.
【考点题型五】残差与相关指数问题
1、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
2、相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
【例5】(23-24高二下·山西·月考)在建立两个变量的回归模型中,分别选择4个不同模型,求出它们相对应的决定系数如下表,则其中拟合效果最好的模型是( )
模型
1
2
3
4
0.67
0.85
0.49
0.23
A.模型1 B.模型2 C.模型3 D.模型4
【变式5-1】(23-24高二下·湖南长沙·月考)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,我市物价部门对某商品在5家商场的售价(元)及其一天的销售量(件)进行调查,得到五对数据,经过分析、计算,得,关于的经验回归方程为,则相应于点的残差为( )
A. B.1 C. D.3
【变式5-2】(23-24高二下·广西·月考)下列说法错误的是( )
A.在经验回归方程中,当解释变量每增加1个单位时,响应变量平均增加2个单位
B.若变量和之间的样本相关系数为,则变量和之间的负相关很强
C.残差平方和越小的模型,拟合的效果越好
D.决定系数越大,模型的拟合效果越好
【变式5-3】(23-24高二下·河北张家口·月考)(多选)如下图所示,5个数据,去掉后,下列说法正确的是( )
A.相关系数r变大 B.残差平方和变大
C.决定系数变小 D.解释变量x与响应变量y的相关性变强
【考点题型六】非线性回归分析
对于非线性回归问题,可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象做比较,挑选一种跟散点图中的点拟合得最好的函数,然后采用适当的变量变换,把问题转化为线性回归问题,使之得到解决.
【例6】(23-24高二下·吉林长春·月考)用模型拟合一组数,若,,设,得变换后的线性回归方程为,则( )
A.20240 B. C. D.2024
【变式6-1】(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;,,,,,,
【变式6-2】(23-24高二下·广东江门·月考)数据显示,某企业近年加大了科技研发资金的投入,其科技投入(百万元)与收益(百万元)的数据统计如下:
科技投入
1
2
3
4
5
6
7
收益
19
20
22
31
40
50
70
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
5
140
1239
149
2134
130
其中,.
(1)请根据表中数据,建立关于的回归方程(系数精确到0.1);
(2)①乙认为样本点分布在直线的周围,并计算得线性回归方程为,以及该回归模型的决定系数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)
附:对于一组数据,,……,,其线性回归直线的斜率和截距的最小二乘法估计公式分别为,,决定系数:.参考数据:.
【变式6-3】(22-23高二上·福建漳州·月考)已知关于的一组有序数对分别为,,,,,,,对应的散点图如下.
(1)根据散点图,判断(,)和(,)中哪个模型的拟合效果更好;
(2)请用你在(1)中选出的模型对变量,的关系进行拟合,求出关于的回归方程.
参考数据:,,,.
参考公式:在线性回归方程中,,.
【考点题型七】独立性检验的概念辨析
1、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
2、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
【例7】(23-24高二下·上海·期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【变式7-1】(23-24高二下·陕西·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
0.15
0.10
0.05
0.025
0.010
k
2.072
2.706
3.841
5.024
6.635
A. B. C. D.
【变式7-2】(23-24高二下·河南南阳·月考)(多选)如表,在两个变量与的列联表中,已知,其中,下列结论正确的是( )
总计
a
b
c
d
总计
A.若每个数据a,b,c,d均变为原来的2倍,则的值不变
B.越大,两个变量有关联的可能性越大
C.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越大
D.若计算得到,则有的把握认为与有关
【变式7-3】(23-24高二下·河南驻马店·月考)①线性回归方程必过;②独立性检验的统计假设是各事件之间相互独立③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是 .(把你认为正确的结论都写在横线上)
【考点题型八】独立性检验综合应用
独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【例8】(22-23高二下·陕西榆林·期末)某学校共有1000名学生参加“一带一路”知识竞赛,其中男生400人,为了解该校学生在知识竞赛中的情况,采用分层随机抽样的方法抽取了100名学生进行调查,分数分布在450分~950分之间,将分数不低于750分的学生称为“高分选手”.已知样本中“高分选手”有25人,其中女生有10人.
(1)试完成下面列联表;
属于“高分选手”
不属于“高分选手”
合计
男生
女生
合计
(2)判断是否有97.5%的把握认为该校学生属于“高分选手”与“性别”有关?
参考公式:,其中.
0.150
0.100
0.050
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【变式8-1】(23-24高二下·河北张家口·月考)乒乓球,被称为中国的“国球”.某中学对学生参加乒乓球运动的情况进行调查,将每周参加乒乓球运动超过2小时的学生称为“乒乓球爱好者”,否则称为“非乒乓球爱好者”.
(1)从调查结果中随机抽取100份进行分析,得到数据如下表所示:
乒乓球爱好者
非乒乓球爱好者
总计
男
40
16
56
女
20
24
44
总计
60
40
100
依据小概率值的独立性检验,分析抽样数据,能否推断“乒乓球爱好者”与性别有关?
(2)随机抽取了50位女生和位男生进行调查,得到如下数据:
乒乓球爱好者
非乒乓球爱好者
总计
男
20
女
30
总计
若根据小概率值的独立性检验,认为“乒乓球爱好者”与性别有关,求实数m的最小值,附:.
0.050
0.010
0.001
3.841
6.635
10.828
【变式8-2】(23-24高二下·吉林长春·期中)甲、乙两个车间生产同一种产品,为了解这两个车间的产品质量情况,随机抽查了两个车间生产的80件产品,得到下面列联表:
非特等品件数
特等品件数
甲车间
32
8
乙车间
35
5
(1)根据上表,分别估计这两个车间生产的产品的特等品率;
(2)依据小概率值的独立性检验,能否推断两个车间生产的产品特等品率有差异?并对(1)的结果作出解释.
附:
0.100
0.050
0.010
2.706
3.841
6.635
【变式8-3】(23-24高二下·山西忻州·月考)某生产企业对原有的生产线进行技术升级,在技术升级前后,分别从其产品中随机抽取样本数据进行统计,制作了如下列联表:
合格品
不合格品
合计
升级前
120
80
200
升级后
150
50
200
合计
270
130
400
(1)根据上表,依据小概率值的独立性检验,能否认为产品的合格率与技术是否升级有关?
(2)在抽取的所有合格品中,按升级前后合格品的比例进行分层随机抽样,抽取9件产品,然后从这9件产品中随机抽取4件,记其中属于升级前生产的有件,属于升级后生产的有件,求的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2
学科网(北京)股份有限公司
$$
清单05 一元线性回归模型与独立性检验
【考点题型一】相关关系的意义及辨析
1、变量与变量之间的关系常见的有两类:一类是函数关系,即变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了另一类是相关关系,即变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性.
2、线性相关,正相关,负相关
变量x与变量r之间的关系可以近似地用一次函数来刻画,则x称与y线性相关.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
3、两个变量相关的判断方法:
(1)根据实际经验.借助积累的经验进行分析判断;
(2)利用散点图.通过散点图,观察点的分布是否存在一定的规律,直观地进行判断,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【例1】(23-24高二下·辽宁·期中)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量 B.举重运动员所能举起的最大重量与他的体重
C.某正方形的边长与此正方形的面积 D.人的身高与体重
【答案】C
【解析】C中的两个变量之间是确定的函数关系,
A,B,D中的两个变量之间的关系都是相关关系.故选:C
【变式1-1】(23-24高二下·河北张家口·月考)观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【答案】A
【解析】根据给定的散点图,可得a中的数据分布在左下方到右上方的区域里,为正相关,
b中的数据分布在左上方到右下方的区域里,为负相关,
c中的数据各点分布不成带状,相关性不明确,不相关.故选:A.
【变式1-2】(23-24高二上·安徽淮北·期末)对于变量,有以下四个散点图,由这四个散点图可以判断变量与成负相关的是( )
A. B.
C. D.
【答案】B
【解析】A:各点分布没有明显相关性,不符;
B:各点分布在一条直线附近,且有负相关性,符合;
C:各点分布在一条抛物线附近,变量之间先呈正相关,后呈负相关,不符;
D:各点分布在一条直线附近,且有正相关性,不符.故选:B
【变式1-3】(23-24高二下·北京·期中)某校地理小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图,则下列说法不正确的是( )
A.气压与海拔高度呈正相关 B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关 D.沸点与海拔高度、沸点与气压的相关性都很强
【答案】A
【解析】由图1知气压随海拔高度的增加而减小,由图2知沸点随气压的升高而升高,
所以气压与海拔高度呈负相关,沸点与气压呈正相关,沸点与海拔高度呈负相关.
由于两个散点图中的点都呈线性分布,
所以沸点与海拔高度、沸点与气压的相关性都很强,故B,C,D正确,A错误.故选:A.
【考点题型二】相关系数的计算
1、线性相关系数:若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
2、相关系数的性质
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
【例2】(2022高二下·河南南阳·专题练习)在一组样本数据为,,,(,,,,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C.1 D.-1
【答案】C
【解析】所有样本点都在直线上,
所以这组样本数据的相关系数为1.故选:C.
【变式2-1】(23-24高二下·山西忻州·月考)已知5对成对样本数据成线性关系,样本相关系数为,去掉1对数据后,剩下的4对成对样本数据成线性关系,样本相关系数为,则( )
A. B. C. D.的大小无法确定
【答案】B
【解析】由题意可知,,,
所以样本点中心是,所以去掉样本点中心后,数据的相关性变弱,
并且由散点图可知,相关系数是正数,即,故选:B
【变式2-2】(23-24高二下·黑龙江大庆·期中)某统计部门对四组数据进行统计分析后获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【答案】C
【解析】由图可知:所对应的图中的散点呈现正相关,
而且对应的相关性比对应的相关性要强,故;
所对应的图中的散点呈现负相关,且根据散点的分布情况可知,
因此,故选:C.
【变式2-3】(22-23高二下·江苏·单元测试)一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,,,,,则y与x的相关系数r的绝对值为( )
A.0.6 B.0.5 C.0.4 D.0.3
【答案】D
【解析】因为,,所以,
,故选:D.
【考点题型三】样本中心点的应用
回归直线方程的性质
(1)回归直线一定过样本中心点.
(2)一次函数的单调性由决定,函数递增的充要条件是,函数递减的充要条件是,这说明:与正相关的充要条件是;与负相关的充要条件是.
(3)在回归直线方程中,是回归直线的斜率,是截距.代表每增大一个单位,增大的单位数.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,减小个单位.
【例3】(23-24高二下·天津·期中)已知某种商品的广告费投入与销售额之间有如下对应数据:根据上表可得回归方程,计算得,则当投入为6时,销售额的预报值为( )
2
4
5
6
8
30
40
50
60
70
A.50 B.60 C.57 D.85
【答案】C
【解析】由题意可得:,
可知回归方程过样本中心点,且,
则,解得,可知,
令,可得,即销售额的预报值为57.故选:C.
【变式3-1】(2024·江西宜春·模拟预测)色差和色度是衡量毛绒玩具质量优劣的重要指标.现抽检一批毛绒玩具,测得的色差和色度数据如表所示:
色差x
21
23
25
27
色度y
m
18
19
20
根据表中数据可得色度关于色差的经验回归方程为,则( )
A.14 B.15 C.16 D.17
【答案】B
【解析】由题可得,
,
因为经验回归直线必过样本中心点,
所以,解得.故选:B.
【变式3-2】(23-24高二下·河南·月考)已知由样本数据组成的一个样本,变量具有线性相关关系,其经验回归方程为,并计算出变量之间的相关系数为,则经验回归直线经过( )
A.第一、二、三象限 B.第二、三、四象限
C.第一、二、四象限 D.第一、三、四象限
【答案】B
【解析】由相关系数为,知负相关,所以.
又,求得样本中心点为,
由于在经验回归直线上,且点在第三象限,
所以经验回归直线经过第二、三、四象限.故选:B.
【变式3-3】(23-24高二下·河南南阳·月考)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
【答案】D
【解析】由题意可得,假设甲输入的为,
则,则,
且,则,
则改为正确数据时,,即,
,即,所以样本中心点为,
将点代入回归直线方程,得.故选:D
【考点题型四】线性回归模型的应用
回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
【例4】(23-24高二下·河北张家口·月考)桹据统计得到某蔬菜基地茄子亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明;(若,则线性相关程度很高,可用线性回归模型拟合)
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为10千克时,茄子亩产量的增加量y约为多少?
附:相关系数公式,参考数据:,回归方程中斜率的最小二乘估计公式为:.
【答案】(1),,线性相关程度很高,可用线性回归模型拟合与的关系.
(2),当时,.
【解析】(1)通过散点图可知,,,
所以,
,
,
所以,
因为,所以线性相关程度很高,可用线性回归模型拟合与的关系.
(2)由(1)可知,,,
所以.
当时,.
所以预测液体肥料每亩使用量为10千克时,茄子亩产量的增加量约为6.5千克.
【变式4-1】(23-24高二下·浙江丽水·期中)浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
【答案】(1)证明见解析;(2),预测当年份序号为7时该校的招生人数为4.5千人
【解析】(1)由,,,
所以,
因为与1非常接近,故可用线性回归模型拟合与的关系.
(2),
所以关于的回归直线方程为.
当时,,
由此预测当年份序号为7时该校的招生人数为4.5千人
【变式4-2】(23-24高二下·贵州遵义·期中)某地2019年至2023年五年新能源汽车保有量如下表.
年份
2019
2020
2021
2022
2023
年份编号
1
2
3
4
5
保有量(万辆)
18
20
23
25
29
(1)请用相关系数说明与的线性相关程度;
(2)求关于的回归直线方程,并预测2025年该地新能源汽车保有量.
附:相关系数.
在回归直线方程中,.取.
【答案】(1)与的线性相关程度较强;(2),33.8万辆.
【解析】(1)因为,,
所以
,
,
,
所以.
因为的值越接近1,随机变量之间的线性相关程度越强,
所以与的线性相关程度较强.
(2)因为,,
,
,
所以,,
所以回归直线方程为.
当时,,
所以预测2025年该地新能源汽车保有量为万辆.
【变式4-3】(23-24高二下·吉林长春·月考)现有4个分别标有甲、乙、丙、丁的盒子和4个相同的小球.
(1)将4个球全部随机放入四个盒子中,且每个盒子容纳球数不限,记盒子甲中的小球个数为随机变量X,求X的分布列和数学期望;
(2)公司提前10天公布了年会小游戏规则:每轮在2米开外将4个小球分别投向4个盒子,投完4个小球即一轮结束,三轮为一局,三局结束后累计投进盒子的球数超过6个就中奖.小李为了带动组员积极性,每天利用午休时练习投球,每次三局,随着投球的视角和力度的把控,水平逐渐得到提高,现将其前7天每天累计投进盒子的球个数y和时间t(第t天用编号t表示)绘制下表:
时间(t)
1
2
3
4
5
6
7
累计投入球数(y)
3
4
3
4
7
6
8
其中累计投进盒子的球数(y)与时间(t)具有线性相关关系,求累计投进盒子的球的个数y关于时间t的经验回归方程;(精确到0.01)
(3)试估算第10天能投进盒子的累计球数.(四舍五入取整数)
参考公式:,.
【答案】(1)分布列见解析;1;(2);(3)10
【解析】(1)由题意,的值可以为:0,1,2,3,4
且;; ;
;.
所以的分布列为:
0
1
2
3
4
所以.
(2)由题意:,.
所以,,所以.
,
所以.
(3)当时,,
所以估算第10天投进盒子的累计球数为10.
【考点题型五】残差与相关指数问题
1、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
2、相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
【例5】(23-24高二下·山西·月考)在建立两个变量的回归模型中,分别选择4个不同模型,求出它们相对应的决定系数如下表,则其中拟合效果最好的模型是( )
模型
1
2
3
4
0.67
0.85
0.49
0.23
A.模型1 B.模型2 C.模型3 D.模型4
【答案】B
【解析】在线性回归分析中,越大拟合效果越好,越小拟合效果越差,
而,所以模型2的拟合效果最好.故选:B
【变式5-1】(23-24高二下·湖南长沙·月考)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,我市物价部门对某商品在5家商场的售价(元)及其一天的销售量(件)进行调查,得到五对数据,经过分析、计算,得,关于的经验回归方程为,则相应于点的残差为( )
A. B.1 C. D.3
【答案】A
【解析】因为回归直线过样本点中心即,
将其代入,可得,解得,
当时,,所以残差为.故选:A
【变式5-2】(23-24高二下·广西·月考)下列说法错误的是( )
A.在经验回归方程中,当解释变量每增加1个单位时,响应变量平均增加2个单位
B.若变量和之间的样本相关系数为,则变量和之间的负相关很强
C.残差平方和越小的模型,拟合的效果越好
D.决定系数越大,模型的拟合效果越好
【答案】A
【解析】对于选项A:因为回归方程的一次项系数为,
所以当解释变量每增加1个单位时,响应变量平均减少2个单位,故A错误;
对于选项B:因为相关系数为,且很接近于1,
所以变量和之间的负相关很强,故B正确;
对于选项C:残差平方和越小的模型,拟合的效果越好,故C正确;
对于选项D:决定系数越大,模型的拟合效果越好,故D正确;故选:A.
【变式5-3】(23-24高二下·河北张家口·月考)(多选)如下图所示,5个数据,去掉后,下列说法正确的是( )
A.相关系数r变大 B.残差平方和变大
C.决定系数变小 D.解释变量x与响应变量y的相关性变强
【答案】AD
【解析】由散点图知,去掉离群点后,与的相关性变强,且为正相关,
所以相关系数的值变大,决定系数的值变大,残差平方和变小.故选:AD.
【考点题型六】非线性回归分析
对于非线性回归问题,可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象做比较,挑选一种跟散点图中的点拟合得最好的函数,然后采用适当的变量变换,把问题转化为线性回归问题,使之得到解决.
【例6】(23-24高二下·吉林长春·月考)用模型拟合一组数,若,,设,得变换后的线性回归方程为,则( )
A.20240 B. C. D.2024
【答案】C
【解析】由条件可知,代入,
则,故C正确.故选:C
【变式6-1】(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;,,,,,,
【答案】(1)适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型
(2);(3)估计2024年的企业利润为93.3亿元
【解析】(1)由散点图的变化趋势,
知适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型;
(2)由题意得:,,
,
,
所以;
(3)令,,
估计2024年的企业利润为99.25亿元.
【变式6-2】(23-24高二下·广东江门·月考)数据显示,某企业近年加大了科技研发资金的投入,其科技投入(百万元)与收益(百万元)的数据统计如下:
科技投入
1
2
3
4
5
6
7
收益
19
20
22
31
40
50
70
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
5
140
1239
149
2134
130
其中,.
(1)请根据表中数据,建立关于的回归方程(系数精确到0.1);
(2)①乙认为样本点分布在直线的周围,并计算得线性回归方程为,以及该回归模型的决定系数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)
附:对于一组数据,,……,,其线性回归直线的斜率和截距的最小二乘法估计公式分别为,,决定系数:.参考数据:.
【答案】(1)
(2)① ;甲建立的回归模型拟合效果更好;② 科技投入的费用至少要9.3百万元.
【解析】(1)将两边取对数得:,令,则,
∵,∴根据最小二乘估计可知:,
∴,
∴回归方程为,即.
(2)①甲建立的回归模型的.
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
设,解得:,解得:.
∴科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿.
【变式6-3】(22-23高二上·福建漳州·月考)已知关于的一组有序数对分别为,,,,,,,对应的散点图如下.
(1)根据散点图,判断(,)和(,)中哪个模型的拟合效果更好;
(2)请用你在(1)中选出的模型对变量,的关系进行拟合,求出关于的回归方程.
参考数据:,,,.
参考公式:在线性回归方程中,,.
【答案】(1)(,)的拟合效果更好;(2).
【解析】(1)根据散点图判断,用(,)的拟合效果更好.
(2)根据进行拟合,
两边同时取对数得,
故,则.
因为,,,,
所以.
把代入,得,
所以,,
则,
即关于的回归方程为.
【考点题型七】独立性检验的概念辨析
1、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
2、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
【例7】(23-24高二下·上海·期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【答案】D
【解析】只有时才能在犯错误的概率不超过的前提下
认为该电视栏目是否优秀与改革有关系,
而即使也只是对“该电视栏目是否优秀与改革有关系”
这个论断成立的可能性大小的推论,与是否有的人等无关.故A,B不正确.
由于,故C错误,D正确.故选:D.
【变式7-1】(23-24高二下·陕西·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
0.15
0.10
0.05
0.025
0.010
k
2.072
2.706
3.841
5.024
6.635
A. B. C. D.
【答案】B
【解析】因为,结合表格可知,
所以认为“性别与喜欢数学有关”犯错误的概率不超过0.010.故选:B
【变式7-2】(23-24高二下·河南南阳·月考)(多选)如表,在两个变量与的列联表中,已知,其中,下列结论正确的是( )
总计
a
b
c
d
总计
A.若每个数据a,b,c,d均变为原来的2倍,则的值不变
B.越大,两个变量有关联的可能性越大
C.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越大
D.若计算得到,则有的把握认为与有关
【答案】BCD
【解析】对于A,若列联表中的每个数字均变成原来的2倍,
则,
此时的值变为原来的2倍,所以A错误;
对于B,同一个样本中,越小,说明两个变量的关系越弱,
越大,说明两个变量有关的关系越强,所以B正确;
对于C,独立性检验中,随机变量的值越小,
判定“两变量有关系”犯错误的概率越大,所以C正确;
对于D,根据独立性检验的意义可知,
所以有的把握认为与有关,所以正确.故选:BCD.
【变式7-3】(23-24高二下·河南驻马店·月考)①线性回归方程必过;②独立性检验的统计假设是各事件之间相互独立③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是 .(把你认为正确的结论都写在横线上)
【答案】①②④
【解析】①线性回归方程过样本点中心,正确;
②独立性检验的统计假设是各事件之间相互独立,正确;
③相关系数的绝对值越小,表明两个变量相关性越弱,错误;
④④在一个列联表中,由计算得,
则有的把握认为这两个变量间有关系,正确.
故答案为:①②④
【考点题型八】独立性检验综合应用
独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【例8】(22-23高二下·陕西榆林·期末)某学校共有1000名学生参加“一带一路”知识竞赛,其中男生400人,为了解该校学生在知识竞赛中的情况,采用分层随机抽样的方法抽取了100名学生进行调查,分数分布在450分~950分之间,将分数不低于750分的学生称为“高分选手”.已知样本中“高分选手”有25人,其中女生有10人.
(1)试完成下面列联表;
属于“高分选手”
不属于“高分选手”
合计
男生
女生
合计
(2)判断是否有97.5%的把握认为该校学生属于“高分选手”与“性别”有关?
参考公式:,其中.
0.150
0.100
0.050
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析;(2)有
【解析】(1)由题可知,样本中男生40人,女生60人,
属于“高分选手”的有25人,其中女生10人,得出以下列联表:
属于“高分选手”
不属于“高分选手”
合计
男生
15
25
40
女生
10
50
60
合计
25
75
100
(2)∵,
∴有97.5%的把握认为该校学生属于“高分选手”与“性别”有关.
【变式8-1】(23-24高二下·河北张家口·月考)乒乓球,被称为中国的“国球”.某中学对学生参加乒乓球运动的情况进行调查,将每周参加乒乓球运动超过2小时的学生称为“乒乓球爱好者”,否则称为“非乒乓球爱好者”.
(1)从调查结果中随机抽取100份进行分析,得到数据如下表所示:
乒乓球爱好者
非乒乓球爱好者
总计
男
40
16
56
女
20
24
44
总计
60
40
100
依据小概率值的独立性检验,分析抽样数据,能否推断“乒乓球爱好者”与性别有关?
(2)随机抽取了50位女生和位男生进行调查,得到如下数据:
乒乓球爱好者
非乒乓球爱好者
总计
男
20
女
30
总计
若根据小概率值的独立性检验,认为“乒乓球爱好者”与性别有关,求实数m的最小值,附:.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)能推断“乒乓球爱好者”与性别有关;(2)57
【解析】(1)由题意:,
因为,
所以依据小概率值的独立性检验,能推断“乒乓球爱好者”与性别有关.
(2)依题意,列联表如下:
乒乓球爱好者
非乒乓球爱好者
总计
男
20
女
20
30
50
总计
50
所以,
设()
则,
因为,所以.所以在上单调递增.
所以:越大,的值越大,
又当时,,
当时, ;
当时,;
所以根据小概率值的独立性检验,
认为“乒乓球爱好者”与性别有关,则,即的最小值为57.
【变式8-2】(23-24高二下·吉林长春·期中)甲、乙两个车间生产同一种产品,为了解这两个车间的产品质量情况,随机抽查了两个车间生产的80件产品,得到下面列联表:
非特等品件数
特等品件数
甲车间
32
8
乙车间
35
5
(1)根据上表,分别估计这两个车间生产的产品的特等品率;
(2)依据小概率值的独立性检验,能否推断两个车间生产的产品特等品率有差异?并对(1)的结果作出解释.
附:
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)甲车间的特等品率约为,乙车间的特等品率约为;
(2)认为两车间生产的产品特等品率没有差异
【解析】(1)根据表中数据,甲车间共抽查40件产品,其中特等品8件,
乙车间共抽查40件产品,其中特等品5件,
由此估计甲车间的特等品率约为,
乙车间的特等品率约为,
(2)列联表
非特等品件数
特等品件数
合计
甲车间
32
8
40
乙车间
35
5
40
合计
67
13
80
零假设为:两车间生产的产品特等品率没有差异
根据表中数据,
依据小概率值的独立性检验,没有充分的证明推断不成立,
因此可以认为成立,即认为两车间生产的产品特等品率没有差异.
依据(1)的结果两车间生产的产品特等品率是有差异的,
这个差异很有可能是由样本的随机性导致的,
因此,只根据频率的差异得出两车间生产的产品特等品率有差异的结论是不可靠的,
用的独立性检验得到的结果更理性,更全面,理论依据也更充分.
【变式8-3】(23-24高二下·山西忻州·月考)某生产企业对原有的生产线进行技术升级,在技术升级前后,分别从其产品中随机抽取样本数据进行统计,制作了如下列联表:
合格品
不合格品
合计
升级前
120
80
200
升级后
150
50
200
合计
270
130
400
(1)根据上表,依据小概率值的独立性检验,能否认为产品的合格率与技术是否升级有关?
(2)在抽取的所有合格品中,按升级前后合格品的比例进行分层随机抽样,抽取9件产品,然后从这9件产品中随机抽取4件,记其中属于升级前生产的有件,属于升级后生产的有件,求的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有关;(2)
【解析】(1)零假设为:产品的合格率与技术是否升级无关.
,
根据小概率值的独立性检验,推断不成立,
即认为产品的合格率与技术是否升级有关.
(2)由题意,升级前后合格品的比例为4:5,故抽取的9件中有4件属于升级前生产的,
有5件属于升级后生产的.
包括和两种情况:
当,时,,
当,时,,
则的概率.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2
学科网(北京)股份有限公司
$$