内容正文:
第56讲 变量的相关性与一元线性回归模型
复习目标
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据的关系.
2.结合实例,会通过相关系数比较多组成对数据的相关性.
教材梳理夯基础
主干知识
知识点1 变量的相关关系
相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
知识点2 相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
知识点3 样本相关系数
(1)样本相关系数
r==.
(2)样本相关系数r的取值范围为[-1,1],是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征,它的绝对值大小可以反映成对样本数据之间线性相关的程度:
①当r>0时,成对样本数据正相关;
②当r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据线性相关程度越强;
④当|r|越接近0时,成对样本数据线性相关程度越弱.
知识点4 一元线性回归模型与最小二乘法
(1)一元线性回归模型
称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
(2)最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中
知识点5 刻画回归效果的方式
(1)残差图法
在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为(yi-i)2,残差平方和越小,模型拟合效果越好.
(3)决定系数法
R2=1-(其中=yi).R2的值越趋近于1,模型的拟合效果越好.
常用结论
1.经验回归直线过点(,).
2.求时,常用=.
基础自测
类型
回源教材
澄清盲点
结论应用
题号
2,4
1
3
1.(易错辨析)正确的画“√”,错误的画“×”.
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(2)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( √ )
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( × )
(4)经验回归方程=x+中,若<0,则变量x和y负相关.( × )
2.(选择性必修第三册P103·练习T3变式)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为( )
A. B.-1 C.0 D.-
【解析】选B.因为测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),所以=1.5,=1,=22,
=56,xiyi=-20,样本相关系数r==-1.
3.(多选题)在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的经验回归方程为=x+,那么下列说法正确的是( )
A.直线=x+必经过点(,)
B.直线=x+表示最接近y与x之间真实关系的一条直线
C.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
D.用决定系数R2来刻画回归效果,R2越小说明拟合效果越好
【解析】选ABC.直线=x+必过样本点中心即点(,),故A正确;
直线=x+是采用最小二乘法求解出的直线方程,最接近真实关系,故B正确;
相关系数r的绝对值越接近于1,表示相关程度越强,越接近于0,相关程度越弱,故C正确;
用决定系数R2来刻画回归效果,R2越大,说明模型的拟合效果越好,故D错误.
4.(选择性必修第三册P113·练习T2变式)从某学校随机选取8名女大学生,关于其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高
172 cm的女大学生的体重约为________kg.
【解析】当x=172时,=0.849×172-85.712=60.316.
答案:60.316
考点突破强技能
考点一成对数据的相关性 题组练通
1.(2023·天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 5
【解析】选C.因为相关系数r=0.824 5,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以选项A,B错误,选项C正确;
因为相关系数与样本的数据有关,所以当样本发生变化时,相关系数也会发生变化,所以选项D错误.
2.(2025·杭州模拟)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉D(10,2),则下列说法正确的是( )
A.相关系数r变小
B.决定系数R2变小
C.残差平方和变大
D.解释变量x与响应变量y的相关性变强
【解析】选D.可知点D偏离程度较大,去掉点D后,相关系数r变大,决定系数R2变大,残差平方和变小,解释变量x与响应变量y的相关性变强.
3.(2023·上海卷)已知某校50名学生的身高与体重的散点图如图所示,则下列说法正确的是( )
A.身高越高,体重越重
B.身高越高,体重越轻
C.身高与体重成正相关
D.身高与体重成负相关
【解析】选C.由题图可知,身高越高的体重不一定就越重或越轻,但总体上来说,样本学生的身高和体重之间具有明显的相关性,个子高的学生往往更重一些,所以身高与体重成正相关.
4.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C.- D.1
【解析】选A.因为样本点在直线y=-x+1上,呈现负相关,样本相关系数为-1.
解题技法
判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量呈现正相关;点的分布从左上角到右下角,两个变量呈现负相关.
(2)样本相关系数:当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;|r|越接近于1,成对样本数据的线性相关程度越强.
(3)决定系数法:利用决定系数判定,R2越接近1,模型的拟合效果越好,相关性越强.
考点二回归模型及其应用
角度1 一元线性回归模型
【例1】“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量y(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算y与x的相关系数r(保留三位小数);
(2)求y关于x的线性回归方程,并预测该地区2026年新能源汽车购买数量.
参考公式r=,=,=-.
参考数值:≈3.605 6,(xi-)(yi-)=3.6.
【解析】(1)==2021,
==1.10,
=(-2)2+(-1)2+02+12+22=10,
=(-0.7)2+(-0.4)2+02+0.42+0.72=1.3,
r===≈0.998.
(2)由(1)知===0.36,
=-=1.1-2021×0.36=-726.46,
所以y关于x的线性回归方程是=0.36x-726.46,当x=2026时,=0.36×2026-726.46=2.90(万辆),该地区2026年新能源汽车购买数量约为2.90万辆.
解题技法
一元线性回归分析问题的解题步骤
(1)求经验回归方程.
①根据散点图判断两变量是否线性相关(已知相关时不必再验证).
②利用公式,求出系数.
③利用经验回归直线过点(,)求系数.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值作为预测值.
【训练1】 (1)已知两个变量x和y之间有线性相关关系,经调查得到样本数据:
x
3
4
5
6
7
y
3.5
2.4
1.1
-0.2
-1.3
根据表格中的数据求得经验回归方程为=x+,则下列说法中正确的是( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
【解析】选B.由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,所以<0.又=×(3+4+5+6+7)=5,=×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5+,所以=1.1-5>0.
(2)某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:
广告费用x(万元)
2
3
5
6
销售额y(万元)
28
31
41
48
根据此表可得经验回归方程为=5x+,据此模型预测广告费用为8万元时,销售额为________万元.
【解析】由题中表格,得==4,
==37,
所以37=5×4+,即=17,
所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).
答案:57
角度2 非线性回归模型
【例2】近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展健康产业,蕲艾产业化种植已经成为该县主要产业之一.已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:
现根据散点图利用y=a+b或y=c+建立y关于x的经验回归方程,令s=,t=得到如下数据:
10.15
109.94
3.04
0.16
siyi-13·
tiyi-13·
-13
-13
-13
13.94
-2.1
11.67
0.21
21.22
且(si,yi)与(ti,yi)(i=1,2,3,…,13)的相关系数分别为r1,r2,且r2=-0.995 3.
(1)用相关系数说明哪种模型建立y与x的回归方程更合适.
(2)根据(1)的结果及表中数据,建立关于x的回归方程.
(3)已知蕲艾的利润z与x,y的关系为z=20y-x,当x为何值时,z的预报值最大?
附:参考数据和公式:0.21×21.22=4.456 2,11.67×21.22=247.637 4,≈15.736 5,对于一组数据(ui,vi)(i=1,2,3,…,n),其回归直线方程=+u的斜率和截距的最小二乘估计公式分别为=,=-,
相关系数r=.
【解析】(1)由题意知r2=-0.995 3,
r1==≈≈0.885 8,因为|r1|<|r2|<1,所以用y=c+模型建立y与x的回归方程更合适.
(2)因为t=,所以=+t.
因为===-10,
=-=109.94+10×0.16=111.54,
所以关于x的回归方程为=111.54-.
(3)由题意知=20-x=20×(111.54-)-x=2 230.8-(+x)≤2 230.8-20=2 210.8,所以≤2 210.8,当且仅当x=20时等号成立,
所以当x=20时这种草药的利润最大.
解题技法
非线性回归分析的步骤
【训练2】 (1)用模型y=a(a>0)拟合一组数据时,令z=ln y,将其变换后得到经验回归方程=2x+,则=( )
A.e B. C. D.2
【解析】选D.对y=a(a>0)两边同时取对数,则ln y=ln (a)=ln a+bx+1,令z=ln y,则z=bx+ln a+1,所以⇒所以=2.
(2)已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2的图象附近,设z=ln y,将其变换后得到经验回归方程为=x+,则mn=________.
【解析】由z=ln y,则ln y=ln 2,即z=ln 2+ln =ln 2+2x+1,则z=2x+ln 2+1,故m=2,n=ln 2+1,所以mn=2ln 2+2.
答案:2ln 2+2
考点三残差分析
【例3】(1)(多选题)下列说法正确的是( )
A.在经验回归方程=-0.85x+2.3中,当解释变量x每增加1个单位时,响应变量平均减少2.3个单位
B.在经验回归方程=-0.85x+2.3中,相对于样本点(1,1.2)的残差为-0.25
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D.若两个变量的决定系数R2越大,表示残差平方和越小,即模型的拟合效果越好
【解析】选BCD.对于A,根据经验回归方程,当解释变量x每增加1个单位时,响应变量平均减少0.85个单位,故A错误;
对于B,当解释变量x=1时,响应变量=1.45,则样本点(1,1.2)的残差为-0.25,故B正确;
对于C,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C正确;
对于D,由决定系数R2的意义可知,R2越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.
(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
月份代码x
1
2
3
4
5
碳酸锂价格y(万元/kg)
0.5
0.6
1
m
1.5
根据表中数据,得出y关于x的经验回归方程为=0.28x+,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m=________.
【解析】由题设,1.5-=1.5-(0.28×5+)=-0.06,可得=0.16.
又==3,
==,
所以0.28×3+0.16=,可得m=1.4.
答案:1.4
解题技法
检验回归模型的拟合效果的两种方法
(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
【训练3】 色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中,已知该产品的色度y和色差x之间满足线性相关关系,且=0.8x+,现有一对测量数据为(30,23.6),则该数据的残差为( )
色差x
21
23
25
27
色度y
15
18
19
20
A.-0.96 B.-0.8
C.0.8 D.0.96
【解析】选C.由题意可知,==24,==18,
将(24,18)代入=0.8x+,
即18=0.8×24+,解得=-1.2,
所以=0.8x-1.2,
当x=30时,=0.8×30-1.2=22.8,
所以该数据的残差为23.6-22.8=0.8.
- 14 -
学科网(北京)股份有限公司
$