第九章 3 第三节 一元线性回归模型及其应用(教师用书word)-【金版新学案】2026年高考数学高三总复习大一轮复习讲义(人教A版)
2025-12-02
|
12页
|
69人阅读
|
2人下载
教辅
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | - |
| 年级 | 高三 |
| 章节 | - |
| 类型 | 教案-讲义 |
| 知识点 | 回归分析 |
| 使用场景 | 高考复习-一轮复习 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | DOCX |
| 文件大小 | 315 KB |
| 发布时间 | 2025-12-02 |
| 更新时间 | 2025-12-02 |
| 作者 | 山东正禾大教育科技有限公司 |
| 品牌系列 | 金版新学案·高考大一轮复习讲义 |
| 审核时间 | 2025-11-10 |
| 下载链接 | https://m.zxxk.com/soft/54796275.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
该高中数学高考复习资料聚焦一元线性回归模型及其应用,涵盖变量相关关系、样本相关系数、回归方程等核心考点,按课标要求构建知识体系。通过考点梳理、方法指导、真题训练等环节,帮助学生突破相关关系判定、回归参数估计等难点,体现复习的系统性和针对性。
资料以实例分析培养学生数学眼光与思维,如通过散点图观察相关性、公式推导训练逻辑推理。设置分层练习与多维探究活动,如非线性回归换元转化,提升建模与预测能力,为教师把控复习节奏、学生高效备考提供有力支撑。
内容正文:
第三节 一元线性回归模型及其应用
【课标研读】 1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法. 2.针对实际问题,会用一元线性回归模型进行预测. 3.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系. 4.结合实例,会通过相关系数比较多组成对数据的相关性.
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式:
r==.
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,其中
(2)决定系数
R2=1-,R2的值越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
【常用结论】
(1)经验回归直线过点(,).
(2)求时,常用公式=.
(3)回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【自主检测】
1.(多选)下列说法正确的是( )
A.相关关系是一种非确定性关系
B.散点图是判断两个变量相关关系的一种重要方法和手段
C.经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点D.样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强
答案:ABD
2.(链接人教A选择性必修三P103T1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
答案:D
解析:观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.故选D.
3.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是( )
A.-0.82 B.0.78
C.-0.69 D.0.87
答案:D
解析:由样本相关系数的绝对值|r|越大,变量间的线性相关性越强知,各选项中r=0.87的绝对值最大.故选D.
4.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的经验回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
答案:A
解析:由题意,x与y正相关,故排除C、D,将(,)代入经验回归方程检验得A正确.故选A.
考点一 成对数据的相关性 自主练透
1.(2023·上海卷)已知某校50名学生的身高与体重的散点图如图所示,则下列说法正确的是( )
A.身高越高,体重越重
B.身高越高,体重越轻
C.身高与体重成正相关
D.身高与体重成负相关
答案:C
解析:由题图可知,身高越高的体重不一定就越重或越轻,但总体上来说,样本学生的身高和体重之间具有明显的相关性,个子高的学生往往更重一些,所以身高与体重成正相关.故选C.
2.已知两个变量x和y之间有线性相关关系,经调查得到如下样本数据:
x
3
4
5
6
7
y
3.5
2.4
1.1
-0.2
-1.3
根据表格中的数据求得经验回归方程为=x+,则下列说法中正确的是( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
答案:B
解析:由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,所以<0.又=×=5,=×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5+,所以=1.1-5>0.故选B.
3.(2024·天津卷)下列图中,线性相关系数最大的是( )
答案:A
解析:观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1.故选A.
4.已知相关变量x和y的散点图如图所示,若用y=b1ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2,则比较r1,r2的大小结果为( )
A.r1>r2 B.r1=r2
C.r1<r2 D.不确定
答案:C
解析:由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为x,y负相关,所以-r1>-r2,即r1<r2.故选C.
判定两个变量相关性的方法
1.画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
2.样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
3.经验回归方程:当>0时,正相关;当<0时,负相关.
考点二 样本相关系数 师生共研
为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导,根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下:
x(千克)
2
4
5
6
8
y(千克)
300
400
400
400
500
(1)由上表数据可知,可用经验回归模型拟合y与x的关系,请计算样本相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用经验回归模型拟合);
(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?
附:相关系数r=,
经验回归方程=+x的斜率和截距的最小二乘估计公式分别为
=,=-,≈3.16.
解:(1)由已知数据可得==5,
==400,
所以(xi-)(yi-)=(-3)×(-100)+(-1)×0+0×0+1×0+3×100=600,
==2,
==100,
所以样本相关系数r===≈0.95>0.75.
所以可用经验回归模型拟合y与x的关系.
(2)===30,
=400-5×30=250,
所以经验回归方程为=30x+250.
当x=15时,=30×15+250=700(千克),
即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700千克.
样本相关系数r的统计含义及应用
1.由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关.
2.可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测.
对点练1.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数r=,≈1.414.
解:(1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数r===≈0.94.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
考点三 回归模型及其应用 多维探究
角度1 回归模型的辨析
(1)一组实验数据构成的散点图如图,以下函数中适合作为y 与x 的回归方程模型的是( )
A.=ax+b B.=ax2+c
C.=blogax+c D.=bax+c
(2)(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20) 得到如图所示的散点图.
由此散点图,在10 ℃ 至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
答案:(1)D (2)D
解析:(1)由散点图中各点的变化趋势知,各点不在一条直线上,排除A;由散点图中各点呈单调递减趋势,排除B;又图中点的横坐标有正有负,故排除C.故选D.
(2)由散点图可以看出,随着温度x 的增加,发芽率y 增加到一定程度后,变化率越来越慢,符合对数型函数的图象特征.故选D.
角度2 一元线性回归模型
某研究机构为调查人的最大可视距离y(单位:米)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:
x
20
25
30
35
40
y
167
160
150
143
130
(1)根据上表提供的数据,求出y关于x的经验回归方程=x+;
(2)根据(1)中求出的经验回归方程,估计年龄为50岁的人的最大可视距离.
参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.
解:(1)由题意可得==30,==150,
xiyi=20×167+25×160+30×150+35×143+40×130=22 045,
=202+252+302+352+402=4 750,
所以===-1.82,
则=-=150+1.82×30=204.6,
故所求经验回归方程为=-1.82x+204.6.
(2)当x=50时,=-1.82×50+204.6=113.6,即年龄为50岁的人的最大可视距离约为113.6米.
角度3 非线性回归模型
数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:
x(天)
1
2
3
4
5
6
7
y(秒)
990
990
450
320
300
240
210
(1)现用y=a+作为经验回归模型,请利用表中数据,求出该经验回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒?
参考数据:tiyi=1 845,≈0.37,-7≈0.55.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=-·.
解:(1)由题意得=×(990+990+450+320+300+240+210)=500,
令t=,设y关于t的经验回归方程为=t+,
则有=≈=1 000,≈500-1 000×0.37=130,
所以=1 000t+130,
又t=,所以y关于x的经验回归方程为=+130.
(2)当x=100时,=140,
所以经过100天训练后,小明每天解题的平均速度约为140秒.
1.线性回归分析问题的解题策略
(1)利用公式,求出回归系数.
(2)利用经验回归直线过样本点的中心求系数.
(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值.
2.有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.
对点练2.已知变量x与y,且观测数据如下表(其中6.5>a>4>b>1,a+b=6),则由该观测数据算得的经验回归方程可能是( )
x
1
2
3
4
5
y
6.5
a
4
b
1
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+0.44
答案:C
解析:由题意==3,==3.5,把代入各方程,A中,=0.4×3+2.3=3.5,同理有B中,=3.6,C中,=3.5,D中,=-0.46,又表格中数据随着x的增大,y减小,因此它们负相关,x的系数为负.故选C.
对点练3.“绿水青山就是金山银山”的理念推动了新能源汽车产业的迅速发展.以下表格和散点图反映了近几年某新能源汽车的年销售量情况.
年份
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
某新能源汽车
年销售量y/万辆
1.5
5.9
17.7
32.9
55.6
(1)请根据散点图判断,y=bx+a与y=cx2+d中哪一个更适宜作为年销售量y关于年份代码x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并预测2025年该新能源汽车的年销售量.(精确到0.1)
参考数据:=22.72,(wi-)2=374,(wi-)(yi-)=851.2(其中wi=).
解:(1)根据散点图可知,y=cx2+d更适宜作为年销售量y关于年份代码x的回归方程类型.
(2)令w=x2,则=w+.
易知=11,==≈2.28,
=-≈22.72-2.28×11=-2.36,
所以=2.28w-2.36,
所以y关于x的经验回归方程为=2.28x2-2.36.
令x=6,得=79.72≈79.7.
故预测2025年该新能源汽车的年销售量为79.7万辆.
[真题再现] (2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
根部横截面积xi
材积量yi
1
0.04
0.25
2
0.06
0.40
3
0.04
0.22
4
0.08
0.54
5
0.08
0.51
6
0.05
0.34
7
0.05
0.36
8
0.07
0.46
9
0.07
0.42
10
0.06
0.40
总和
0.6
3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
解:(1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量===0.39.
(2)(xi-)(yi-)=xiyi-10=0.013 4,
(xi-)2=-10=0.002,
(yi-)2=-10=0.094 8,
所以 ==≈0.01×1.377=0.013 77,
所以样本相关系数r=≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
[教材呈现] (人教A选择性必修三P101例1)在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示.表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.
编号
1
2
3
4
5
6
7
年龄/岁
23
27
39
41
45
49
50
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
编号
8
9
10
11
12
13
14
年龄/岁
53
54
56
57
58
60
61
脂肪含量/%
29.6
30.2
31.4
30.8
33.5
35.2
34.6
根据上表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
点评:该高考题考查相关系数的求法,考查计算能力,与课本中例题相似度较高.
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。