内容正文:
第九章
§9.3 一元线性回归模型及其应用
课标要求
1.了解相关系数的统计含义.
2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.
3.针对实际问题,会用一元线性回归模型进行预测.
内容索引
第一部分 落实主干知识
第二部分 探究核心题型
课时精练
第一部分
落实主干知识
1.变量的相关关系
(1)相关关系:如果两个变量所取的值之间存在着既有某种规律性而又不十分确定的关系,则称这两个变量之间存在着相关关系.
(2)相关关系的分类: 和 .
(3)线性相关:如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系,简称相关关系.
正相关
负相关
知识梳理
5
2.相关系数
知识梳理
(2)性质:
①rxy的取值范围是[-1,1].当0<rxy≤1时,称变量x和变量y ;当-1≤rxy<0时,称变量x和变量y .
②|rxy|越接近于1,变量x,y的线性相关程度越高,这时数据(x1,y1),(x2,y2),…,(xn,yn)分散在一条直线附近.
③|rxy|越接近于0,变量x,y的线性相关程度越低.
④rxy具有对称性,即rxy=ryx.
正相关
负相关
知识梳理
⑤rxy仅仅是变量x与y之间线性相关程度的一个度量.rxy=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系.
知识梳理
3.一元线性回归模型
知识梳理
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
常用结论
1.判断下列结论是否正确.(请在括号中打“√”或“×”)
(1)相关关系是一种非确定性关系.( )
(2)散点图是判断两个变量相关关系的一种重要方法和手段.( )
√
×
√
(4)相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.
( )
√
自主诊断
B.回归直线就是散点图中经过样本数据点最多的那条直线
C.当相关系数r>0时,两个变量正相关
D.两个变量的线性相关性越弱,|r|越接近于0
2.(多选)(2024·石嘴山模拟)下列有关回归分析的说法中正确的是
√
√
√
自主诊断
回归直线在散点图中可能不经过任一样本数据点,故B错;
当相关系数r>0时,两个变量正相关,故C对;
两个变量的线性相关性越弱,|r|越接近于0,故D对.
自主诊断
3.(2023·洛阳联考)甲、乙、丙、丁四位同学分别对一组变量进行线性相关试验,并分别计算出相关系数r,则线性相关程度最高的是
A.甲 B.乙 C.丙 D.丁
√
|r|越接近于1,两个变量的线性相关程度越高.0.91>0.87>0.83>0.58,则线性相关程度最高的是乙.
甲 乙 丙 丁
r 0.87 -0.91 0.58 -0.83
自主诊断
4.(2023·福州统考)已知变量x和y的统计数据如表:
x 6 7 8 9 10
y 3.5 4 5 6 6.5
8.2
自主诊断
返回
x 6 7 8 9 10
y 3.5 4 5 6 6.5
自主诊断
第二部分
探究核心题型
题型一 成对数据的相关性
例1 (1)(2023·天津)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.824 5,则下列说法正确的是
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部
分的样本相关系数一定是0.824 5
√
根据散点的集中程度可知,花瓣长度和花萼长度有相关性,故A错误;
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈正相关,故B错误,C正确;
由于r=0.824 5是全部数据的样本相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的样本相关系数不一定是0.824 5,故D错误.
(2)(多选)(2023·湛江模拟)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图,
√
√
=173.5,
因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,
所以去掉离群点后回归直线的截距变小而斜率变大,
去掉离群点后样本数据的线性相关程度更强,拟合效果会更好,
所以r1<r2,所以C正确,D错误.
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
思维升华
跟踪训练1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到样本数据如表所示:
√
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
由已知数据可知y随着x的增大而减小,
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的相关系数分别为r1,r2则比较r1,r2的大小结果为
A.r1>r2 B.r1=r2 C.r1<r2 D.不确定
√
由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|,
又因为x,y负相关,所以-r1>-r2,即r1<r2.
题型二 回归模型
命题点1 一元线性回归模型
例2 (2024·九江模拟)2023年,国家不断加大对科技创新的支持力度,极大鼓舞了企业投入研发的信心,增强了企业的创新动能.某企业在国家一系列优惠政策的大力扶持下,通过技术革新和能力提升,极大提升了企业的影响力和市场知名度,订单数量节节攀升,如表为该企业今年1~4月份接到的订单数量.
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
(1)试根据相关系数r的值判断订单数量y与月份t的线性相关性强弱(0.75 ≤|r|≤1,则认为y与t的线性相关性较强;|r|<0.75,则认为y与t的线性相关性较弱);(结果保留两位小数)
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
∴订单数量y与月份t的线性相关性较强.
(2)建立y关于t的回归直线方程,并预测该企业5月份接到的订单数量.
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
即该企业5月份接到的订单数量预计为6.05万件.
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
命题点2 非线性回归模型
例3 汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎面磨损.某实验室通过实验测得行驶里程与某品牌轮胎凹槽深度的数据,建立了如下回归模型y= ,通过实验数据分析与计算得到如下结论:①c2=-0.18;② =10,令u=ln y, =0.35,则回归直线方程应为____________.
y=e2.15-0.18x
因为回归模型为y= ,
且c2=-0.18,则y=c1e-0.18x,
两边同时取对数,可得ln y=ln (c1e-0.18x)
=ln c1-0.18x,
令u=ln y,此时u=ln c1-0.18x,
所以ln c1=0.35+0.18×10=2.15,即c1=e2.15,
所以y=e2.15·e-0.18x=e2.15-0.18x.
求回归直线方程的步骤
思维升华
跟踪训练2 2023年是全面贯彻落实党二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.2023年8月4日,贵州省工业和信息化厅召开推进贵州刺梨产业高质量发展专题会议,安排部署加快推进特色优势产业刺梨高质量发展工作,集中资源、力量打造“贵州刺梨”公共品牌.贵州省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合产值的各项数据如表所示:
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
综合产值y (亿元) 23.1 37.0 62.1 111.6 150.8
(1)根据表格中的数据,可用一元线性回归模型刻画变量y与x之间的线性相关关系,请用相关系数加以说明(精确到0.01);
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
综合产值y (亿元) 23.1 37.0 62.1 111.6 150.8
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
综合产值y (亿元) 23.1 37.0 62.1 111.6 150.8
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
综合产值y (亿元) 23.1 37.0 62.1 111.6 150.8
故可用一元线性回归模型刻画变量y与x之间的线性相关关系.
(2)求出y关于x的回归直线方程,并预测2023年底贵州省刺梨产业的综合产值.
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
综合产值y (亿元) 23.1 37.0 62.1 111.6 150.8
即预计2023年底贵州省刺梨产业的综合产值为175.64亿元.
返回
课时精练
一、单项选择题
1.下列有关线性回归的说法,不正确的是
A.具有相关关系的两个变量不是因果关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任一组数据都有回归直线方程
√
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
根据两个变量具有相关关系的概念,可知A正确;
散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;
具有相关关系的成对样本数据才有回归直线方程,所以D不正确.
2.(2024·南宁模拟)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
1
2
3
4
5
6
7
8
9
10
11
12
√
1
2
3
4
5
6
7
8
9
10
11
12
r1,r3都是正线性相关,所以r1>0,r3>0,
并且r1相关性最强,所以r1>r3;
r2,r4都是负线性相关,所以r2<0,r4<0,
且r2相关性强,所以|r2|>|r4|,
所以r2<r4,所以r2<r4<0<r3<r1.
√
1
2
3
4
5
6
7
8
9
10
11
12
x 3 4 5 6 7 8
y -3.0 -2.0 0.5 -0.5 2.5 4.0
1
2
3
4
5
6
7
8
9
10
11
12
如图,从整体上看这些点大致分布在一条直线的周围,且该回归直线的斜率为正,在y轴上的截距为负,
1
2
3
4
5
6
7
8
9
10
11
12
√
则这组样本数据完全正相关,且相关系数为1.
5.某市物价局派人对5个商场某商品同一天的销售量及其价格进行调查,得到该商品的售价x(元)和销售量y(件)之间的一组数据如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
用最小二乘法求得y关于x的回归直线方程是 ,相关系数r=-0.992 3,则下列说法不正确的是
A.变量x与y负相关且相关性很强 B.
C.当x=85时,y的估计值为15 D.回归直线过点(100,8)
√
价格x(元) 90 95 100 105 110
销售量y(件) 11 10 8 6 5
1
2
3
4
5
6
7
8
9
10
11
12
由回归直线方程可得变量x与y 负相关,且由相关系数|r|=0.992 3,可知相关性很强,故A正确;
价格x(元) 90 95 100 105 110
销售量y(件) 11 10 8 6 5
1
2
3
4
5
6
7
8
9
10
11
12
价格x(元) 90 95 100 105 110
销售量y(件) 11 10 8 6 5
A.e3百只 B.e3.5百只
C.e4百只 D.e4.5百只
6.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量y(单位:百只)的数据,通过相关理论进行分析,知可用回归模型y=e1+at(a∈R)对y与t的关系进行拟合,则根据该回归模型,预测第6个月该物种的繁殖数量为
√
1
2
3
4
5
6
7
8
9
10
11
12
第t个月 1 2 3
繁殖数量y e1.4 e2.2 e2.4
1
2
3
4
5
6
7
8
9
10
11
12
由题意,y=e1+at两边取自然对数得ln y=1+at,
令u=ln y,则u=1+at.
第t个月 1 2 3
繁殖数量y e1.4 e2.2 e2.4
当t=6时,y=e4.
二、多项选择题
7.(2024·长沙模拟)6个数据(x,y)构成的散点图如图所示,采用一元线性回归模型建立回归直线方程,若在6个数据中去掉E(5,6)后,下列说法正确的是
A.x与y的相关性变强
B.x与y的相关性变弱
C.相关系数变大
D.相关系数变小
1
2
3
4
5
6
7
8
9
10
11
12
√
√
1
2
3
4
5
6
7
8
9
10
11
12
去掉E(5,6)后,x与y的相关性变强,故A正确;
但由于散点的分布是从左上到右下,故变量x和y负相关,所以相关系数r变小,故D正确.
8.某商店的某款商品近5个月的月销售量y(单位:千瓶)如表:
第x个月 1 2 3 4 5
月销售量y 2.5 3.2 4 4.8 5.5
C.相关系数r<0
D.预计该款商品第6个月的销售量为7 800瓶
1
2
3
4
5
6
7
8
9
10
11
12
√
√
1
2
3
4
5
6
7
8
9
10
11
12
第x个月 1 2 3 4 5
月销售量y 2.5 3.2 4 4.8 5.5
对于C,因为0.76>0,所以变量x与y成正相关,所以相关系数r>0,所以C错误;
1
2
3
4
5
6
7
8
9
10
11
12
第x个月 1 2 3 4 5
月销售量y 2.5 3.2 4 4.8 5.5
三、填空题
9.(2023·辽宁实验中学模拟)为了比较甲、乙、丙、丁四组数据的线性相关性的强弱,小明分别计算了甲、乙、丙、丁四组数据的相关系数,其数值分别为-0.95,-0.87,0.76,0.92,则这四组数据中线性相关性最强的是____组数据.
甲
根据题意,因为相关系数的绝对值越大,线性相关性越强.
甲、乙、丙、丁四组数据的相关系数分别为-0.95,-0.87,0.76,0.92,
所以甲组数据的线性相关性最强.
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
10.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如表所示的数据:
根据表中的数据,得到销量y(单位:件)与单价x(单位:元)之间的回归直线方程为 =-16x+216,则m=______.
75
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 83 78 m
1
2
3
4
5
6
7
8
9
10
11
12
四、解答题
11.(2023·绵阳模拟)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.如图是2018-2022年移动物联网连接数w与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5.
1
2
3
4
5
6
7
8
9
10
11
12
(1)根据散点图推断两个变量是否线性相关.计算相关系数(精确到0.01),并推断它们的相关程度;
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
由图可知,两个变量线性相关.
1
2
3
4
5
6
7
8
9
10
11
12
因此,两个变量具有很强的线性相关性.
1
2
3
4
5
6
7
8
9
10
11
12
(2)求w关于t的回归直线方程,并预测2024年移动物联网连接数.
即预测2024年移动物联网连接数为31.4亿户.
1
2
3
4
5
6
7
8
9
10
11
12
12.(2023·德州统考)网民的智慧与活力催生新业态,网络购物、APP买菜等进入我们的生活,改变了我们的生活方式,随之电信网络诈骗形势也非常严峻.自“国家反诈中心APP”推出后,某地区采取多措并举的推广方式,努力为人民群众构筑一道防诈反诈的“防火墙”.经统计,该地区网络诈骗月报案数与推广时间有关,并记录了经推广x个月后月报案件数y的数据,如表所示.
x(个) 1 2 3 4 5 6 7
y(件) 891 888 351 220 200 138 112
1
2
3
4
5
6
7
8
9
10
11
12
(1)根据以上数据,判断y=bx+a与y= +a(a,b∈R)哪一个适宜作为回归方程模型?根据判断结果,求出y关于x的回归方程;(6分)
x(个) 1 2 3 4 5 6 7
y(件) 891 888 351 220 200 138 112
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
x(个) 1 2 3 4 5 6 7
y(件) 891 888 351 220 200 138 112
x(个) 1 2 3 4 5 6 7
y(件) 891 888 351 220 200 138 112
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
(2)若该地区一直推广下去,分析两年后能否将网络诈骗月报案数降至75件以下.(6分)
故两年后网络诈骗月报案数能降至75件以下.
返回
(1)公式:rxy=.
我们将=x+称为y关于x的一元线性回归方程,
其中
1.回归直线过点(,).
2.求时,常用公式=.
(3)回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
A.回归直线必过点(,)
回归直线必过点(,),故A对;
若由表中数据得到回归直线方程为=0.8x+,则当x=12时,预测y的值为________.
==8,
==5,
则=5-0.8×8=-1.4,所以=0.8x-1.4,
当x=12时,=0.8×12-1.4=8.2.
由最小二乘法计算得到回归直线l1的方程为=1x+1,相关系数为r1;经过分析确定(168,89)为离群点,把它去掉后,再用剩下的9对数据计算得到回归直线l2的方程为=2x+2,相关系数为r2.则以下结论中正确的有
A.1>2 B.1>2
C.r1<r2 D.r1>r2
身高的平均数为
所以1>2,1<2,所以A正确,B错误;
(3)回归直线方程:当>0时,正相关;当<0时,负相关.
根据表格中的数据求得回归直线方程为=x+,则下列说法中正确的是
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
则变量x和y之间存在负相关关系,所以<0.
又=×(3+4+5+6+7)=5,=×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5+,所以=1.1-5>0.
附:相关系数:r=;
回归直线=+x的斜率和截距的最小二乘估计分别为=,=-;≈1.14.
==2.5,
=×(5.2+5.3+5.7+5.8)=5.5,
(ti-)(yi-)=(-1.5)×(-0.3)+(-0.5)×(-0.2)+0.5×0.2+1.5×0.3=1.1,
(ti-)2=(-1.5)2+(-0.5)2+0.52+1.52=5,
(yi-)2=(-0.3)2+(-0.2)2+0.22+0.32=0.26,
∴r==≈≈0.96>0.75,
∵===0.22,
∴=-=5.5-0.22×2.5=4.95,
∴回归直线方程为=0.22t+4.95,
令t=5,=0.22×5+4.95=6.05(万件),
又因为=10,=0.35,
参考公式:相关系数r=,回归直线=x+的斜率和截距的最小二乘估计公式分别为=,=-;
参考数据:i=384.6,≈77,=55,≈40 954,iyi=1 483.8,113 090≈336.32.
由题设==3,
则(xi-)(yi-)=iyi-5≈1 483.8-5×3×77=328.8,
(xi-)2=-52=55-5×9=10,
(yi-)2=-52≈40 954-5×772=11 309,
所以r≈≈≈0.98,两个变量线性相关程度很强,
由(1)得=≈=32.88,=77-32.88×3=-21.64,
所以=32.88x-21.64,
当x=6时,则=32.88×6-21.64=175.64(亿元).
3.根据表中的样本数据,得到回归直线方程=x+,则
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
则<0,>0.
4.(2023·黄冈中学模拟)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,
…,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=
x-5上,则这组样本数据的相关系数为
A.- B. C.-1 D.1
由题意可知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x-5上,
=-0.32x+
=40
由表中数据可得=×(90+95+100+105+110)=100,=×(11+10+8+6+5)=8,故经验回归直线过点(100,8),
故8=-0.32×100+,解得=40,故B正确;
当x=85时,=-0.32×85+40=12.8,故C错误.
=(ln y1+ln y2+ln y3)×=2,=(t1+t2+t3)×=2,
∵回归直线必过点(,),
∴u=1+,则 .
∴2=2a+1,解得a=,
若变量y和x之间具有线性相关关系,用最小二乘法求得的回归直线方程为=0.76x+,则下列说法正确的是
A.点(3,4)一定在回归直线=0.76x+上
B.=1.72
对于A,x=×(1+2+3+4+5)=3,y=×(2.5+3.2+4+4.8+5.5)=4,所以样本中心(3,4)一定在回归直线=0.76x+上,所以A正确;
对于B,因为样本中心(3,4)一定在回归直线=0.76x+上,所以4=0.76×3+,解得=1.72,所以B正确;
对于D,当x=6时,=0.76×6+1.72=6.28,预计该款商品第6个月的销售量为6 280瓶,所以D错误.
因为=8.5,所以=80,
即=80,解得m=75.
附:相关系数r=,
=,=-,≈41.7.
由已知条件可得==3,
==15,
所以(ti-)(wi-)=16+3+0+4+18=41,
==,==,
所以相关系数r=≈≈0.98,
结合(1)可知,==4.1,
=-·=15-4.1×3=2.7,
所以回归直线方程是=4.1t+2.7,
当t=7时,有=4.1×7+2.7=31.4,
参考数据:其中ti=,iyi=7 212,iyi=1 586,=0.37,-72=0.55.
参考公式:对于一组数据(x1,y1),(x2,y2),(x3,y3),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计公式分别为=,=-.
由表中数据可得y=+a更适宜.
=×(891+888+351+220+200+138+112)=400,令t=,
设y关于t的线性回归方程为=t+,
则===1 000,
则=400-1 000×0.37=30,
故y关于x的非线性回归方程为=+30.
由非线性回归方程=+30可知,随x的增大,y逐渐减少,
当x=24时,=+30≈71.7<75,
$