内容正文:
专题07 线性回归分析与独立性检验
(二大模块三类知识整理+分类例题解析+变式训练)
1 【考点题型一】线性回归分析
知识点01:线性回归分析
知识点02:非线性回归分析
2 【考点题型二】独立性检验
知识点01:独立性检验
、
【考点题型一】 离散型随机变量及分布列
知识点01:线性回归分析
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
二、回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
【典例分析】
【例题1】(23-24高二下·福建三明·期中)某统计部门对四组数据进行统计分析后获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【例题2】(多选题)(23-24高二下·辽宁沈阳·阶段练习)已知之间的回归直线方程为,且变量的数据如表所示,则下列说法正确的是( )
6
8
10
12
6
3
2
A.变量之间呈负相关关系 B.的值等于5
C.变量之间的相关系数 D.该回归直线必过点
【例题3】(23-24高二下·浙江丽水·期中)浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
强化练习:
一 单选题(23-24高二下·山西运城·期中)已知变量与的数据如下表所示,若关于的经验回归方程是,则表中( )
1
2
3
4
5
10
11
13
15
A.11 B.12 C.12.5 D.13
2(23-24高二下·河南南阳·阶段练习)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
3.(23-24高二下·陕西·阶段练习)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,且,,则( )
A.和之间呈正线性相关关系,且和的线性相关程度强于和的线性相关程度
B.和之间呈负线性相关关系,且和的线性相关程度强于和的线性相关程度
C.和之间呈负线性相关关系,且和的线性相关程度弱于和的线性相关程度
D.和之间呈正线性相关关系,且和的线性相关程度弱于和的线性相关程度
二、多选题
4.(23-24高二下·福建泉州·期中)下列说法中,正确的命题是( )
A.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别是和.
B.在线性回归模型拟合中,若相关系数的绝对值越小,则样本的线性相关性越强.
C.在回归分析中,决定系数的值越大,说明残差平方和越大.
D.在具有线性相关关系的两个变量的统计数据所得的回归直线方程中,,则.
5.(23-24高二下·浙江宁波·期中)已知具有相关关系的两个变量x,y的一组观测数据,,,,由此得到的线性回归方程为,则下列说法中正确的是( )
A.回归直线至少经过点,,,中的一个点
B.若点,,,都落在直线上,则变量x,y的样本相关系数
C.若散点图的散点均落在一条斜率非0的直线上,则决定系数
D.若, ,则相应于样本点的残差为
三、解答题
6(23-24高二下·云南曲靖·阶段练习)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中为年份代号,(单位:万吨)代表新增碳排放量.
年份
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
新增碳排放万吨
6.1
5.2
4.9
4
3.8
(1)请计算并用相关系数的数值说明与之间的线性相关性的强弱(保留小数点后两位);
(2)求关于的线性回归方程,并据此估计该地区2024年的新增碳排放数量.
参考数据:,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,
知识点02:非线性回归分析
非线性经验回归
当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
1.确定研究对象,明确哪个是解释变量,哪个是响应变量;
2.由经验确定非线性经验回归方程的模型;
3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
4.按照公式计算经验回归方程中的参数,得到经验回归方程;
5.消去新元,得到非线性经验回归方程;
6.得出结果后分析残差图是否有异常 .
知识点二:非线性经验回归类型
非线性回归方程主要分为三大类,指数型,对数型,幂函数型,做题关键在于变量之间的转换
1、指数型:
①类型一,,处理方式是对方程两边取对数(具体取什么对数观察参考数据,自然对数和常用对数用的较多),比如e为底数,取ln,则现在方程变为,,将进行换元,,则非线性回归方程变成线性回归直线方程;
②类型二,,此为类型一的变式,多了常数项部分,常见的变化形式为(具体取什么对数观察参考数据,自然对数和常用对数用的较多),令,则非线性回归方程变成线性回归直线方程
2、对数型:
①类型一,形如,则令,则非线性回归方程变成线性回归直线方程
②类型二,,两边同时消掉对数,(取什么底数判断方法同上)取,令,则非线性回归方程变成线性回归直线方程
3、幂函数型:
①类型一,,,等等,处理方式是将方程中幂函数部分换成一个新变量,比如,,,然后将非线性回归方程变成线性回归直线方程
②类型二,,做法同指数型,变化方式为两边取对数(底数判断方式同上),令,则非线性回归方程变成线性回归直线方程
【典例分析】
【例题1】(23-24高二下·广东·期中)某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
年收入(千元)
59
61
64
68
73
(1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数)
(2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由.
参考数据及公式:,.设,则,.
【例题2】(23-24高三下·重庆·开学考试)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响我们的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量y(单位:千件)的数据统计表.
1
2
3
4
5
6
1
1.5
3
6
12
(1)公司拟分别用①和②两种方案作为年销售量关于年投入额的回归分析模型,请根据已知数据,确定方案①和②的经验回归方程;(计算过程保留到小数点后两位,最后结果保留到小数点后一位)
(2)根据下表数据,用决定系数(只需比较出大小)比较两种模型的拟合效果哪种更好,并选择拟合精度更高的模型,预测年投入额为百万元时,产品的销售量是多少?
经验回归方程
残差平方和
参考公式及数据:,,,,,,,, .
强化练习:
1.(23-24高二下·陕西西安·阶段练习)近年来,长安区大力发展大花卉产业,其中玫瑰既有观赏价值也能加工成食品和高档化妆品而得到环山路一带农民大面种植.已知玫瑰的株高y(单位:cm)与一定范围内的温度x(单位:)有关,现收集了玫瑰的13组观测数据,得到如下的散点图:
现根据散点图利用或建立y关于x的回归方程,令,得到如下数据:
10.15
109.94
3.04
0.16
13.94
11.67
0.21
21.22
且与的相关系数分别为,,且.
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知玫瑰的利润z与x、y的关系为,当x为何值时,z的预期最大.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
2 (2024·内蒙古包头·二模)某企业拟对某产品进行科技升级,根据市场调研与模拟,得到科技升级投入(万元)与科技升级直接收益(万元)的数据统计如下:
序号
1
2
3
4
5
6
7
2
3
4
6
8
10
13
13
22
31
42
50
56
58
根据表格中的数据,建立了与的两个回归模型:模型①:模型②:.
(1)根据下列表格中的数据,比较模型①、②的相关指数的大小,并选择拟合精度更高、更可靠的模型;
(2)根据(1)选择的模型,预测对该产品科技升级的投入为100万元时的直接收益.
回归模型
模型①
模型②
回归方程
182.4
79.2
(附:刻画回归效果的相关指数越大,模型的拟合效果越好)
【考点题型二】独立性检验
知识点01:独立性检验
一、分类变量
1、分类变量:为了方便,用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。
2、取值:分类变量的取值可以用实数表示。
3、范围:本节主要讨论取值于的分类变量的关联性问题。
4、判断分类变量之间关系的方法
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否相关是判断变量是否相关的常见方法;
(2)在等高堆积条形图中,与相差越大,两个分类变量有关系的可能性就越大。
二、列联表
列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
合计
列联表给出了成对分类变量数据的交叉分类频数。
三、等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
四、独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【典例分析】
【例题1】(23-24高二下·陕西西安·阶段练习)下列说法中正确的个数是( )
①设有一个回归方程,变量x增加1个单位时,y平均增加5个单位;
②将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
③某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按简单随机抽样的方法抽取为200人,则每个女生被抽到的概率为;
④具有线性相关关系的两个变量x,y的相关系数为r,则越接近于0,x,y之间的线性相关程度越高;
⑤在一个列联表中,由计算得出,而,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系
A.1 B.2 C.3 D.4
【例题2】(23-24高二下·江苏·期中)下列命题正确的是( )
A.若随机变量满足,则
B.以模型去拟合一组数据时,为了求出线性回归方程,设,求得线性回归方程为,则c,k的值分别是和2
C.已知,若,则事件M,N相互独立
D.根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验(),可判断X与Y有关联,此推断犯错误的概率不大于0.05
【例题3】(23-24高二下·辽宁大连·阶段练习)为了解居民体育锻炼情况,某地区对辖区内居民体育锻炼进行抽样调查.统计其中400名居民体育锻炼的次数与年龄,得到如下的频数分布表.
年龄次数
每周0~2次
70
55
36
59
每周3~4次
25
40
44
31
每周5次及以上
5
5
20
10
(1)若把年龄在的锻炼者称为青年,年龄在的锻炼者称为中年,每周体育锻炼不超过2次的称为体育锻炼频率低,不低于3次的称为体育锻炼频率高,根据数据回答:是否有的把握认为体育锻炼频率的高低与年龄有关;
(2)从每周体育锻炼5次及以上的样本锻炼者中,按照表中年龄段采用按比例分配的分层随机抽样,抽取8人,再从这8人中随机抽取3人,记这3人中年龄在与的人数分别为,求ξ的分布列与期望;
(3)已知小明每周的星期六、星期天都进行体育锻炼,且两次锻炼均在跑步、篮球、羽毛球3种运动项目中选择一种,已知小明在某星期六等可能选择一种运动项目,如果星期六选择跑步、篮球、羽毛球,则星期天选择跑步的概率分别为,求小明星期天选择跑步的概率.
参考公式:
附:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
强化练习:
一、单选题
1(21-22高二下·山东烟台·期中)下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,根据小概率值的独立性检验,认为吸烟与患肺病有关系时,则我们可以说在个吸烟的人中,有人患肺病
D.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越大
二、多选题
2.(2024·广西南宁·一模)下列说法中,正确的是( )
A.一组数据的第40百分位数为12
B.若样本数据的方差为8,则数据的方差为2
C.已知随机变量服从正态分布,若,则
D.在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立
3.(23-24高三上·云南·阶段练习)下列命题正确的是( )
A.若样本数据的方差为3,则数据的方差为12
B.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则
C.若某校高三(1)班8位同学身高(单位)分别为:,,,,,,,,则这组数据的下四分位数(即第25百分位数)为170
D.根据变量与的样本数据计算得到,根据的独立性检验,可判断与有关,且犯错误的概率不超过0.05
三、解答题
4(23-24高二下·广东深圳·阶段练习)时下流行的直播带货与主播的学历层次有某些相关性,某调查小组就两者的关系进行调查,从网红的直播中得到容量为200的样本,将所得直播带货和主播的学历层次的样本观测数据整理如下:
主播的学历层次
直播带货评级
合计
优秀
良好
本科及以上
60
40
100
专科及以下
30
70
100
合计
90
110
200
(1)依据小概率值的独立性检验,分析直播带货的评级与主播学历层次是否有关?
(2)现从主播学历层次为本科及以上的样本中,按分层抽样的方法选出5人组成一个小组,从抽取的5人中再抽取3人参加主播培训,求这3人中,主播带货优秀的人数的概率分布和数学期望;
(3)统计学中常用表示在事件条件下事件发生的优势,称为似然比,当时,我们认为事件条件下发生有优势.现从这200人中任选1人,表示“选到的主播带货良好”,表示“选到的主播学历层次为专科及以下”,请利用样本数据,估计的值,并判断事件条件下发生是否有优势.
附:,
0.050
0.010
0.001
3.841
6.635
10.828
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
专题07 线性回归分析与独立性检验
(二大模块三类知识整理+分类例题解析+变式训练)
1 【考点题型一】线性回归分析
知识点01:线性回归分析
知识点02:非线性回归分析
2 【考点题型二】独立性检验
知识点01:独立性检验
、
【考点题型一】 离散型随机变量及分布列
知识点01:线性回归分析
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
二、回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
【典例分析】
【例题1】(23-24高二下·福建三明·期中)某统计部门对四组数据进行统计分析后获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【答案】C
【分析】根据题中给出的散点图,先判断是正相关还是负相关,然后根据散点图的集中程度分析相关系数的大小.
【详解】由图可知:所对应的图中的散点呈现正相关 ,而且对应的相关性比对应的相关性要强,故;
所对应的图中的散点呈现负相关,且根据散点的分布情况可知,因此,
故选:C.
【例题2】(23-24高二下·辽宁沈阳·阶段练习)已知之间的回归直线方程为,且变量的数据如表所示,则下列说法正确的是( )
6
8
10
12
6
3
2
A.变量之间呈负相关关系 B.的值等于5
C.变量之间的相关系数 D.该回归直线必过点
【答案】ABD
【分析】对于A,由正负可进行判断,根据回归方程过样本中心点可判断BD,根据相关系数公式计算即可判断C.
【详解】因为,所以,变量之间呈负相关关系,故A对;
由题意,,
所以样本中心为,代入回归方程得,样本中心为,故B、D对;
由题相关系数,
故C错.故选:ABD.
【例题3】(23-24高二下·浙江丽水·期中)浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
【答案】(1)证明见解析
(2),预测当年份序号为7时该校的招生人数为4.5千人
【分析】(1)求出,结合公式求出r,即可下结论;
(2)利用最小二乘法求出回归直线方程,令计算,即可求解.
【详解】(1)由,,
,
所以,
因为与1非常接近,故可用线性回归模型拟合与的关系.
(2),
所以关于的回归直线方程为.
当时,,
由此预测当年份序号为7时该校的招生人数为4.5千人
强化练习:
单选题(23-24高二下·山西运城·期中)已知变量与的数据如下表所示,若关于的经验回归方程是,则表中( )
1
2
3
4
5
10
11
13
15
A.11 B.12 C.12.5 D.13
【答案】A
【分析】利用样本中心点求解即可.
【详解】,
因为经验回归方程经过样本中心,
所以,
解得.
故选:A.
2(23-24高二下·河南南阳·阶段练习)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
【答案】D
【分析】根据题意,甲输入的为,即可求得以及,然后将正确数据代入,即可求得样本中心点,代入回归直线即可得到结果.
【详解】由题意可得,假设甲输入的为,
则,则,
且,则,
则改为正确数据时,,即,
,即,所以样本中心点为,
将点代入回归直线方程,得.故选:D
3.(23-24高二下·陕西·阶段练习)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,且,,则( )
A.和之间呈正线性相关关系,且和的线性相关程度强于和的线性相关程度
B.和之间呈负线性相关关系,且和的线性相关程度强于和的线性相关程度
C.和之间呈负线性相关关系,且和的线性相关程度弱于和的线性相关程度
D.和之间呈正线性相关关系,且和的线性相关程度弱于和的线性相关程度
【答案】D
【分析】根据对变量间的相关系数的意义和辨析即可得出结果.
【详解】由线性相关系数,可知变量与之间呈负线性相关关系,
由线性相关系数,可知变量与之间呈正线性相关关系,
又,
所以变量与的线性相关程度比变量与的线性相关程度强.
故选:D.
二、多选题
4.(23-24高二下·福建泉州·期中)下列说法中,正确的命题是( )
A.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别是和.
B.在线性回归模型拟合中,若相关系数的绝对值越小,则样本的线性相关性越强.
C.在回归分析中,决定系数的值越大,说明残差平方和越大.
D.在具有线性相关关系的两个变量的统计数据所得的回归直线方程中,,则.
【答案】AD
【分析】对选项A,两边取对数,可得,即可判断A正确,对选项B,根据相关系数的性质即可判断B错误,对选项C,根据的性质即可判断C错误,对选项D,根据回归直线方程过点,即可判断D正确.
【详解】对于A,,两边取对数,可得,则,
,,,故A正确,
对于B,若越大,则样本的线性相关性越强,故B错误;
对于C,在回归分析中,相关指数越大,残差平方和越小,回归效果就越好,故C错误;
对于D,回归直线方程中,,故D正确;
故选:AD
5.(23-24高二下·浙江宁波·期中)已知具有相关关系的两个变量x,y的一组观测数据,,,,由此得到的线性回归方程为,则下列说法中正确的是( )
A.回归直线至少经过点,,,中的一个点
B.若点,,,都落在直线上,则变量x,y的样本相关系数
C.若散点图的散点均落在一条斜率非0的直线上,则决定系数
D.若, ,则相应于样本点的残差为
【答案】BCD
【分析】A:根据回归方程不一定过样本点判断;B:根据样本相关系数定义,结合直线斜率判断即可;C:根据决定系数定义结合残差平方和得,即可判断;D:样本点的残差等于该点的实际值减去模拟出的预测值,即可判断.
【详解】A:线性回归方程为不一定经过,,,中的任何一个点,
但一定会经过样本中心点,故A错误;
B:直线的斜率,且所有样本点都落在直线上,
所以这组样本数据完全负相关,且相关系数达到最小值,
即样本相关系数,故B正确;
C:若散点图的散点均落在一条斜率非0的直线上,
所以残差平方和为,则决定系数,C正确;
D:样本点的残差为,故D正确.
故选:BCD.
三、解答题
6(23-24高二下·云南曲靖·阶段练习)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中为年份代号,(单位:万吨)代表新增碳排放量.
年份
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
新增碳排放万吨
6.1
5.2
4.9
4
3.8
(1)请计算并用相关系数的数值说明与之间的线性相关性的强弱(保留小数点后两位);
(2)求关于的线性回归方程,并据此估计该地区2024年的新增碳排放数量.
参考数据:,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,
【答案】(1),线性相关程度较高;
(2),估计该地区2024年的新增碳排放数量为万吨.
【分析】(1)通过计算相关系数来确定正确答案;
(2)根据回归方程的求法求出回归方程,并由此作出预测.
【详解】(1)由题意得,
,
,
,
即得,所以线性相关程度较高.
(2),
,
所以,
当时,万吨.
所以估计该地区2024年的新增碳排放数量为万吨.
知识点02:非线性回归分析
非线性经验回归
当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
1.确定研究对象,明确哪个是解释变量,哪个是响应变量;
2.由经验确定非线性经验回归方程的模型;
3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
4.按照公式计算经验回归方程中的参数,得到经验回归方程;
5.消去新元,得到非线性经验回归方程;
6.得出结果后分析残差图是否有异常 .
知识点二:非线性经验回归类型
非线性回归方程主要分为三大类,指数型,对数型,幂函数型,做题关键在于变量之间的转换
1、指数型:
①类型一,,处理方式是对方程两边取对数(具体取什么对数观察参考数据,自然对数和常用对数用的较多),比如e为底数,取ln,则现在方程变为,,将进行换元,,则非线性回归方程变成线性回归直线方程;
②类型二,,此为类型一的变式,多了常数项部分,常见的变化形式为(具体取什么对数观察参考数据,自然对数和常用对数用的较多),令,则非线性回归方程变成线性回归直线方程
2、对数型:
①类型一,形如,则令,则非线性回归方程变成线性回归直线方程
②类型二,,两边同时消掉对数,(取什么底数判断方法同上)取,令,则非线性回归方程变成线性回归直线方程
3、幂函数型:
①类型一,,,等等,处理方式是将方程中幂函数部分换成一个新变量,比如,,,然后将非线性回归方程变成线性回归直线方程
②类型二,,做法同指数型,变化方式为两边取对数(底数判断方式同上),令 ,则非线性回归方程变成线性回归直线方程
【典例分析】
【例题1】1.(23-24高二下·广东·期中)某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
年收入(千元)
59
61
64
68
73
(1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数)
(2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由.
参考数据及公式:,.设,则,.
【答案】(1)
(2)拟合效果符合要求,理由见解析
【分析】(1)设,根据数据计算,根据最小二乘法公式计算即可;
(2)先利用(1)的方程计算预测值,再利用残差的定义计算残差平方和判定结果即可.
【详解】(1)根据农户近5年种植药材的平均收入情况的统计数据可得:
,,
设,则,所以,
则,.
所以,回归方程为.
(2)将值代入可得估计值分别为59,60.8,63.8,68,73.4,
则残差平方和为.
因为,所以回归方程拟合效果符合要求.
【例题2】(23-24高三下·重庆·开学考试)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响我们的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量y(单位:千件)的数据统计表.
1
2
3
4
5
6
1
1.5
3
6
12
(1)公司拟分别用①和②两种方案作为年销售量关于年投入额的回归分析模型,请根据已知数据,确定方案①和②的经验回归方程;(计算过程保留到小数点后两位,最后结果保留到小数点后一位)
(2)根据下表数据,用决定系数(只需比较出大小)比较两种模型的拟合效果哪种更好,并选择拟合精度更高的模型,预测年投入额为百万元时,产品的销售量是多少?
经验回归方程
残差平方和
参考公式及数据:,,,,,,,, .
【答案】(1),
(2)②的拟合效果好,预测销售量是千件
【分析】(1)根据经验回归方程的求法求得正确答案.
(2)通过计算决定系数确定拟合效果较好的方案,并由此进行预测.
【详解】(1),
所以,
所以.
由,两边取以为底的对数得,即,
,
所以,所以.
(2),
对于,;对于,,
所以②的拟合效果好,当时,预测值千件.
强化练习:
1.(23-24高二下·陕西西安·阶段练习)近年来,长安区大力发展大花卉产业,其中玫瑰既有观赏价值也能加工成食品和高档化妆品而得到环山路一带农民大面种植.已知玫瑰的株高y(单位:cm)与一定范围内的温度x(单位:)有关,现收集了玫瑰的13组观测数据,得到如下的散点图:
现根据散点图利用或建立y关于x的回归方程,令,得到如下数据:
10.15
109.94
3.04
0.16
13.94
11.67
0.21
21.22
且与的相关系数分别为,,且.
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知玫瑰的利润z与x、y的关系为,当x为何值时,z的预期最大.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型更合适
(2)
(3)当温度为时,z的预期最大
【分析】(1)求出,比较的大小即可判断哪个模型更合适;
(2)直接根据回归方程的公式求解即可;
(3)先写出利润函数,再利用基本不等式求最值以及最值的成立条件.
【详解】(1)由已知,
则,
所以利用模型建立y关于x的回归方程更合适;
(2)由(1)得,,
则y关于x的回归方程为;
(3)由已知,利润函数,
由基本不等式,当且仅当,即时等号成立,
所以当温度为时,z的预期最大.
2 (2024·内蒙古包头·二模)某企业拟对某产品进行科技升级,根据市场调研与模拟,得到科技升级投入(万元)与科技升级直接收益(万元)的数据统计如下:
序号
1
2
3
4
5
6
7
2
3
4
6
8
10
13
13
22
31
42
50
56
58
根据表格中的数据,建立了与的两个回归模型:模型①:模型②:.
(1)根据下列表格中的数据,比较模型①、②的相关指数的大小,并选择拟合精度更高、更可靠的模型;
(2)根据(1)选择的模型,预测对该产品科技升级的投入为100万元时的直接收益.
回归模型
模型①
模型②
回归方程
182.4
79.2
(附:刻画回归效果的相关指数越大,模型的拟合效果越好)
【答案】(1)模型①的相关指数小于模型②的相关指数,即模型②的拟合效果精度更高、更可靠.
(2)198.6
【分析】(1)利用相关指数的定义判断相关性即可.
(2)将给定数值代入拟合模型中求预测值即可.
【详解】(1)由表格中的数据,,
所以,模型①的相关指数小于模型②的相关指数,
即模型②的拟合效果精度更高、更可靠.
(2)当万元时,科技升级直接收益的预测值为:
(万元)
【考点题型二】独立性检验
知识点01:独立性检验
一、分类变量
1、分类变量:为了方便,用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。
2、取值:分类变量的取值可以用实数表示。
3、范围:本节主要讨论取值于的分类变量的关联性问题。
4、判断分类变量之间关系的方法
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否相关是判断变量是否相关的常见方法;
(2)在等高堆积条形图中,与相差越大,两个分类变量有关系的可能性就越大。
二、列联表
列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
合计
列联表给出了成对分类变量数据的交叉分类频数。
三、等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
四、独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【典例分析】
【例题1】(23-24高二下·陕西西安·阶段练习)下列说法中正确的个数是( )
①设有一个回归方程,变量x增加1个单位时,y平均增加5个单位;
②将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
③某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按简单随机抽样的方法抽取为200人,则每个女生被抽到的概率为;
④具有线性相关关系的两个变量x,y的相关系数为r,则越接近于0,x,y之间的线性相关程度越高;
⑤在一个列联表中,由计算得出,而,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系
A.1 B.2 C.3 D.4
【答案】B
【分析】对于①:根据回归方程直接判断;对于②:根据方差的公式特点判断;对于③:利用古典概型的性质判断;对于④:直接根据相关系数r对相关程度的影响来判断;对于⑤:根据相关关系直接判断.
【详解】对于①:回归方程,变量增加个单位时,平均减少5个单位,故①错误;
对于②:一组数据中的每一个数据都加上或减去同一个常数后,它的平均数也会都加上或减去同一个常数,故方差不变,故②正确;
对于③:古典概型中,每个个体被抽到的概率都是一样的,都等于,故③错误;
对于④:具有线性相关关系的两个变量x,y的相关系数为r,则越接近于0,x,y之间的线性相关程度越低,故④错误;
对于⑤:在一个列联表中,由计算得出,而则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系,故⑤正确 ;
故选:B.
【例题2】(23-24高二下·江苏·期中)下列命题正确的是( )
A.若随机变量满足,则
B.以模型去拟合一组数据时,为了求出线性回归方程,设,求得线性回归方程为,则c,k的值分别是和2
C.已知,若,则事件M,N相互独立
D.根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验(),可判断X与Y有关联,此推断犯错误的概率不大于0.05
【答案】BCD
【分析】对于A,给出反例,即可判断;对于B,利用得到即可判断;对于C,利用事件独立的定义即可判断;对于D,利用独立性检验的相关知识即可判断.
【详解】对于A,若恒有,,则,且.
所以,故A错误;
对于B,由于有线性回归方程,故,即,所以,,故B正确;
对于C,由于,故,即,所以事件M,N相互独立,C正确;
对于D,由于,故有的把握判断X与Y有关联,即判断错误的概率不超过,D正确.
故选:BCD
【例题3】
6.(23-24高二下·辽宁大连·阶段练习)为了解居民体育锻炼情况,某地区对辖区内居民体育锻炼进行抽样调查.统计其中400名居民体育锻炼的次数与年龄,得到如下的频数分布表.
年龄次数
每周0~2次
70
55
36
59
每周3~4次
25
40
44
31
每周5次及以上
5
5
20
10
(1)若把年龄在的锻炼者称为青年,年龄在的锻炼者称为中年,每周体育锻炼不超过2次的称为体育锻炼频率低,不低于3次的称为体育锻炼频率高,根据数据回答:是否有的把握认为体育锻炼频率的高低与年龄有关;
(2)从每周体育锻炼5次及以上的样本锻炼者中,按照表中年龄段采用按比例分配的分层随机抽样,抽取8人,再从这8人中随机抽取3人,记这3人中年龄在与的人数分别为,求ξ的分布列与期望;
(3)已知小明每周的星期六、星期天都进行体育锻炼,且两次锻炼均在跑步、篮球、羽毛球3种运动项目中选择一种,已知小明在某星期六等可能选择一种运动项目,如果星期六选择跑步、篮球、羽毛球,则星期天选择跑步的概率分别为,求小明星期天选择跑步的概率.
参考公式:
附:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有的把握认为体育锻炼频率的高低与年龄有关.
(2)分布列见解析;期望为(3)
【详解】(1)解:由题意,可得的列联表,如下表所示:
青年
中年
合计
体育锻炼频率低
125
95
220
体育锻炼频率高
75
105
180
合计
200
200
400
可得,
所以有的把握认为体育锻炼频率的高低与年龄有关.
(2)解:由表中的数据,利用分层抽样的方法抽取的8人中,年龄在与的人数分别为人和人,
根据题意,可得随机变量的可能取值为,
则,
,
,
所以随机变量的分布列为:
所以随机变量的数学期望为.
(3)解:记小明在某一星期六选择跑步、篮球、羽毛球,分别为事件,星期天选择跑步为事件,
则,,
所以,
所以小明星期天选择跑步的概率为.
强化练习:
一、单选题
1(21-22高二下·山东烟台·期中)下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,根据小概率值的独立性检验,认为吸烟与患肺病有关系时,则我们可以说在个吸烟的人中,有人患肺病
D.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越大
【答案】D
【分析】根据独立性检验的意义分别判断各选项.
【详解】对于A,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,故错误;
对于B,独立性检验并不能确定两个变量相关,故错误;
对于C,是指“抽烟”和“患肺病”存在关联的可能性,并非抽烟人中患肺病的发病率,故错误;
对于D,根据卡方计算的定义可知该选项正确;
故选:D.
二、多选题
2.(2024·广西南宁·一模)下列说法中,正确的是( )
A.一组数据的第40百分位数为12
B.若样本数据的方差为8,则数据的方差为2
C.已知随机变量服从正态分布,若,则
D.在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立
【答案】BC
【详解】对A,由于共10个数据,且,
故第40百分位数为第4,5个数据的平均数为,故A错误;
对B,设数据的平均数为,方差为,
则数据的平均数为,
方差为
,所以,故B正确;
对C,则,即,由正态分布的性质可得,故C正确;
对D,在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立.故D错误.故选:BC
3.(23-24高三上·云南·阶段练习)下列命题正确的是( )
A.若样本数据的方差为3,则数据的方差为12
B.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则
C.若某校高三(1)班8位同学身高(单位)分别为:,,,,,,,,则这组数据的下四分位数(即第25百分位数)为170
D.根据变量与的样本数据计算得到,根据的独立性检验,可判断与有关,且犯错误的概率不超过0.05
【答案】AB
对于A,根据,可得数据的方差为,故A正确;
对于B,对两边同时取对数可得,
因为,,所以,所以,故B正确;
对于C,从小到大可得这组数据为,
,则这组数据的下四分位数(即第25百分位数)为,故C错误;
对于D,因为,在犯错误的概率不超过0.05的情况下,不能判断与有关,故D错误,故选:AB.
三、解答题
4(23-24高二下·广东深圳·阶段练习)时下流行的直播带货与主播的学历层次有某些相关性,某调查小组就两者的关系进行调查,从网红的直播中得到容量为200的样本,将所得直播带货和主播的学历层次的样本观测数据整理如下:
主播的学历层次
直播带货评级
合计
优秀
良好
本科及以上
60
40
100
专科及以下
30
70
100
合计
90
110
200
(1)依据小概率值的独立性检验,分析直播带货的评级与主播学历层次是否有关?
(2)现从主播学历层次为本科及以上的样本中,按分层抽样的方法选出5人组成一个小组,从抽取的5人中再抽取3人参加主播培训,求这3人中,主播带货优秀的人数的概率分布和数学期望;
(3)统计学中常用表示在事件条件下事件发生的优势,称为似然比,当时,我们认为事件条件下发生有优势.现从这200人中任选1人,表示“选到的主播带货良好”,表示“选到的主播学历层次为专科及以下”,请利用样本数据,估计的值,并判断事件条件下发生是否有优势.
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)有;(2)分布列见解析,;(3),在事件条件下发生有优势
【详解】(1)由题意得,
由于,依据小概率值的独立性检验,
可以认为直播带货的评级与主播的学历层次有关联;
(2)按照分层抽样,直播带货优秀的有3人,直播带货良好的有2人,
随机变量的可能取值为1,2,3,
,,
,
所以的分布列为:
1
2
3
所以数学期望;
(3),
因为,所以认为在事件条件下发生有优势.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$