内容正文:
4.3 统计模型
4.3.1 一元线性回归模型
第四章 概率与统计
栏目导航
第四章 概率与统计
1
栏目导航
课前案•自主学习
01
课堂案•互动探究
02
课后案•学业评价
03
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
课前案•自主学习
栏目导航
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
确定
随机性
相关关系
栏目导航
第四章 概率与统计
1
一次函数
线性相关
正相关
负相关
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
最小值
回归直线方程
最小二乘法
栏目导航
第四章 概率与统计
1
斜率
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
r>0
r<0
线性相关性越弱
越没有价值
相关性越强
越有价值
成对数据构成的点都在回归直线上
栏目导航
第四章 概率与统计
1
非线性相关关系
非线性回归方程
猜测
预测
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
课堂案•互动探究
栏目导航
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
栏目导航
第四章 概率与统计
1
课后案•学业评价
栏目导航
点击进入Word
栏目导航
第四章 概率与统计
1
谢谢观看
栏目导航
第四章 概率与统计
1
学业标准
素养目标
1.理解散点图、线性相关、正相关、负相关的概念.(重点)
2.理解并掌握回归直线方程的概念和性质,会求线性相关的两个变量的回归直线方程.(重点、难点)
3.理解并掌握相关系数的概念及性质,并能判断两个变量之间线性相关性的强弱.(重点、难点)
4.了解非线性回归的相关概念.
1.通过对数据的分析、统计,培养数据分析等核心素养.
2.借助变量间相关关系的研究,提升数学抽象、数学运算等核心素养.
3.借助求回归直线方程和相关系数,培养学生数学建模、数据分析及数学运算等核心素养.
导学1 相关关系
考查下列问题中两个变量之间的关系,想一想,它们之间的关系是函数关系吗?为什么?
(1)商品销售收入与广告支出经费;
(2)粮食产量与施肥量;
(3)人体脂肪含量与年龄.
[提示] 都不是函数关系.因为当其中一个变量变化时,另一个变量的变化还受其他因素的影响.
◎结论形成
1.两个变量的关系
(1)一类是两变量之间的关系具有确定性,当一个变量确定后,另一个变量就______了.
(2)另一类是变量之间具有一定的关系,但没有达到可以相互决定的程度.它们之间的关系带有一定的_________,这些两个变量之间的关系,在统计学上都称为____________.
2.线性相关正相关、负相关
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用_________来刻画,则称x与y_________.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量_______;如果一个变量增大,另一个变量大体上减少,则称这两个变量_________.
导学2 回归直线方程
如图给出了四个散点图,在图中哪些是线性相关关系?是正相关还是负相关?
[提示] ①③是线性相关关系;其中①正相关,③是负相关.
◎结论形成
1.回归直线方程:一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数i=x+能使(1-y1)2+(2-y2)2+…+(n-yn)2= (yi-i)2取得_________,则=x+称为y关于x的__________________(对应的直线称为回归直线),因为使得平方和最小,所以其中涉及的方法称为_______________.
2.回归直线方程的求法及作用
给定两个变量y与x的一组数据后,回归直线方程=x+总是存在的,而且
其中,称为回归系数.它实际上是回归方程的______.回归直线方程确定之后,就可以预测.其中,=xi,=yi.
<0
3.回归直线方程的性质
(1)回归直线一定过点___________.
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是________.这说明:y与x正相关的充要条件是________,y与x负相关的充要条件是________.
(3)当x增大一个单位时,增大_____个单位,这就是回归系数的实际意义.
(,)
>0
>0
导学3 相关系数
下图是一位同学数学成绩和物理成绩;数学成绩和英语成绩的散点图,观察散点图回答相应的问题.
(1)数学成绩和物理成绩,数学成绩和英语成绩哪个线性相关强?
(2)能求它们之间的回归直线方程吗?
[提示] (1)数学成绩和物理成绩的线性相关性强.
(2)给定一组成对的数据,总能得到一个回归直线方程,不难想到,如果变量之间的线性相关很弱,那么得到的回归直线方程价值是有限的,甚至是没有价值的.
◎结论形成
1.线性相关系数
r==
来衡量y与x的线性相关强弱,这里的r称为线性相关系数(简称相关系数).
2.相关系数r的性质
(1)|r|≤1,且y与x正相关的充要条件是________,y与x负相关的充要条件是________.
(2)|r|越小,两个变量之间的_______________,也就是得出的回归直线方程____________,即方程越不能反映真实的情况;|r|越大,两个变量之间的线性_____________,也就是得出的回归直线方程__________.
(3)|r|=1的充要条件是__________________________________.
3.非线性回归
随机变量y与x不再是线性相关关系时,称为___________________,所得到的方程称为_____________________.一般地,非线性回归方程的曲线类型可以通过作出散点图进行______,而回归方程有时可以通过变量替换后,借助求回归直线的过程确定.当然,确定了非线性回归方程之后,也可以利用它进行______.
1.判断正误(正确的打“√”,错误的打“×”)
(1)相关关系是两个变量之间的一种确定的关系.( )
(2)选取一组数据的部分点得到的回归方程与由整组数据得到的回归方程一定相同.( )
(3)相关系数r越小,两个变量之间的线性相关性越弱.( )
(4)回归直线方程=x+一定经过点(,).( )
答案 (1)× (2)× (3)× (4)√
2.已知某车间加工零件的个数x与所花费时间y(h)之间的回归直线方程为=0.01x+0.5,则加工600个零件大约需要( )
A.6.5 h B.5.5 h
C.3.5 h D.0.5 h
解析 把x=600代入回归直线方程中得,=0.01×600+0.5=6.5,
故选A.
答案 A
3.设有一个回归直线方程=2-1.5x,则变量x增加一个单位时( )
A.平均增加1.5个单位 B.平均增加2个单位
C.平均减少1.5个单位 D.平均减少2个单位
解析 (2-1.5x1)-(2-1.5x2)=-1.5(x1-x2),若变量x增加一个单位,即x1-x2=1,则平均减少1.5个单位.
答案 C
4.在研究硝酸钠的可溶性程度时,观测它在不同温度的水中的溶解度,得观测结果如下表:
温度/x
0
10
20
50
70
溶解度/y
66.7
76.0
85.0
112.3
128.0
则由此得到回归直线的斜率为________.
解析 把表中的数据代入公式=xiyi-=0.880 9.
答案 0.880 9
题型一 变量间的相关关系及判断
(1)(多选题)两个变量成正相关的是( )
A.汽车的重量和汽车每消耗1升汽油所行驶的平均路程
B.平均日学习时间和平均学习成绩
C.某人每日吸烟量和其身体健康情况
D.汽车的重量和百公里耗油量
(2)(多选题)两个变量x,y与其线性相关系数r,有下列说法,其中正确的是( )
A.若r>0,则x增大时,y也随之相应增大
B.若r<0,则x增大时,y也相应增大
C.若r=1或r=-1,则x与y的关系完全对应(有函数关系)
D.若相关系数r=0,则两变量x,y之间没有关系
[解析] (1)其中A,C成负相关关系,B,D成正相关关系,故选BD.
(2)根据两个变量的相关性与其相关系数r之间的关系知,A,C正确,B,D错误,选AC.
[答案] (1)BD (2)AC
相关关系的判断方法
(1)散点图法:通过作散点图,并观察所给的数据列成的点是否在一条直线附近来判定,这样做既直观又方便,因而在解决相关性检验问题时比较常用.
(2)表格、关系式法:结合表格或关系式进行判断.
(3)相关系数法:利用相关系数r来检验两个变量之间线性相关关系的强弱.
[触类旁通]
1.(1)(2024·天津卷)下列图中,线性相关系数最大的是( )
(2)(2024·上海卷)已知沿海地区气温和海水表层温度相关,且样本相关系数为正数,对此描述正确的是( )
A.沿海地区气温高,海水表层温度就高
B.沿海地区气温高,海水表层温度就低
C.随着沿海地区气温由低到高,海水表层温度呈上升趋势
D.随着沿海地区气温由低到高,海水表层温度呈下降趋势
解析 (1)选项A中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集中在一条直线的附近,故选项A中的线性相关系数最大,故选A.
(2)因为沿海地区气温和海水表层温度相关,且样本相关系数为正数,所以随着沿海地区气温由低到高,海水表层温度呈上升趋势,故选C.
答案 (1)A (2)C
题型二 回归直线方程 一题多变
下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的回归直线方程=x+.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
[解析] (1)作散点图如图所示:
(2)==4.5,==3.5,
xiyi=3×2.5+4×3+5×4+6×4.5=66.5,
x=32+42+52+62=86,
所以===0.7,
=-=3.5-0.7×4.5=0.35.
所以所求的回归直线方程为=0.7x+0.35.
[母题变式]
1.(变结论)若本例条件不变,已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)中求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?
解析 当x=100时,y=0.7×100+0.35=70.35(吨标准煤),90-70.35=19.65(吨标准煤).即生产100吨甲产品的生产能耗比技改前降低了19.65吨标准煤.
2.(变条件)如果把本例中的y的值2.5及4.5分别改为2和5,如何求回归直线方程.
解析 散点坐标分别为(3,2),(4,3),(5,4),(6,5).可验证这四点共线,斜率k==1,所以直线方程为y-2=x-3.即回归直线方程为y=x-1.
[素养聚焦] 通过求回归直线方程,提升数学运算、数据分析等核心素养.
求回归直线方程的基本步骤
[触类旁通]
2.某班5名学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
解析 (1)散点图如图.
(2)=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8.
xiyi=88×78+76×65+73×71+66×64+63×61=25 054.
x=882+762+732+662+632=27 174.
∴==≈0.625.
=-≈67.8-0.625×73.2=22.05.
∴y对x的回归直线方程是=0.625x+22.05.
(3)x=96,则=0.625×96+22.05≈82,
即可以预测他的物理成绩是82.
题型三 相关性检验
下面的数据是从年龄在40到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平y(满分100)以及每天花在看电视上的平均时间x(小时).
看电视的平均时间x/小时
4.4
4.6
2.7
5.8
0.2
4.6
心脏的功能水平y/分
52
53
69
57
89
65
(1)求心脏的功能水平y与每天花在看电视上的平均时间x之间的样本相关系数r;
(2)求心脏的功能水平y与每天花在看电视上的平均时间x的回归直线方程,并讨论方程是否有意义;
(3)估计平均每天看电视3小时的男子的心脏的功能水平.
[解析] (1)n=6,=(4.4+4.6+…+4.6)≈3.716 7,
=(52+53+…+65)≈64.166 7,
x-62=(4.42+4.62+…+4.62)-6×3.716 72≈19.766 8,
y-62=(522+532+…+652)-6×64.166 72≈964.807 7,
xiyi-6=(4.4×52+4.6×53+…+4.6×65)-6×3.716 7×64.166 7≈-124.630 2.
心脏的功能水平y与每天花在看电视上的平均时间x之间的相关系数
r=≈
≈-0.902 5.
(2)=≈≈-6.305 0,
=-≈64.166 7+6.305 0×3.716 7≈87.600 5,
所以心脏的功能水平y与每天花在看电视上的平均时间x的回归直线方程为=-6.305 0x+87.600 5.
查表n-2=4,r0.05=0.811,因为|r|≈0.902 5>0.811,
所以有95%以上的把握认为y与x之间有线性相关关系,这个方程是有意义的.
(3)将x=3代入回归直线方程=-6.305 0x+87.600 5可得≈69(分).
因此估计平均每天看电视3小时的男子的心脏的功能水平为69分.
进行回归分析前必须进行相关性检验,相关性检验主要有以下两种方法:一是通过作散点图,观察由所给的数据确定的点是否在一条直线附近,这样既直观又方便,因而在解决相关性检验问题中比较常用;二是利用相关系数r来检验两个变量之间线性相关关系的强弱,利用相关系数r来检验线性相关关系,适用于任何情况,但计算繁琐.
[触类旁通]
3.某网店经销某商品,为了解该商品的月销量y(单位:千件)与售价x(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到下表:
x
5
6
7
8
9
y
8
6
4.5
3.5
3
统计学中用样本相关系数r来衡量两个变量之间线性相关关系的强弱,若|r|∈[0.75,1],则认为相关性很强;若|r|∈[0.3,0.75),则认为相关性一般;若|r|∈[0,0.3),则认为相关性较弱.请根据表中数据计算y与x之间样本相关系数r,并说明y与x之间的线性相关关系的强弱(精确到0.01).
参考数据:≈12.85.
参考公式:
样本相关系数r=.
解析 由题意得,=7,=5,
所以 (xi-)2=10, (yi-)2=16.5,
(xi-)(yi-)=-12.5,
所以r=≈-0.97.
因为|r|=0.97∈[0.75,1],
所以y与x之间的线性相关关系很强.
题型四 非线性回归分析
菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表.
x
1
2
3
4
5
y
58
54
39
29
10
(1)令ω=x2,利用给出的参考数据求出y关于ω的回归方程=ω+;(,精确到0.1)
参考数据:ωi=55, (ωi-)(yi-)=-751, (ωi-)2=374,其中ωi=x,=ωi.
(2)对于某种残留在蔬菜上的农药,当它的残留量不高于20微克时对人体无害,为了放心食用该蔬菜,至少需要用多少千克的清水清洗1千克蔬菜?(精确到0.1,参考数据≈2.24)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
[解析] (1)由题意得,=11,=38.
==-≈-2.0,
=-=60.0,所以=-2.0ω+60.0.
(2)由(1)得,=-2.0ω+60.0,
所以=-2.0x2+60.0,
当≤20时,即-2.0x2+60.0≤20,
解得x≥2≈4.5,
所以为了放心食用该蔬菜,估计需要用4.5千克的清水清洗1千克蔬菜.
求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出回归直线方程.
(4)根据相应的变换,写出非线性回归方程.
[触类旁通]
4.某电器企业统计了近10年的年利润额y(千万元)与投入的年广告费用x(十万元)的相关数据,散点图如图,对数据作出如下处理:令ui=ln xi,vi=ln yi,得到相关数据如表所示.
uivi
ui
vi
u
30.5
15
15
46.5
(1)从①y=bx+a,②y=m·xk(m>0,k>0)两个函数中选择一个作为年广告费用x和年利润额y的回归类型,判断哪个类型符合,不必说明理由;
(2)根据(1)中选择的回归类型求出y与x的回归方程.
参考公式:=,=-.
解析 (1)由散点图知,年广告费用x和年利润额y的回归类型并不是直线型的,而是曲线型的,且y与x呈正相关.
所以选择回归类型y=m·xk更好.
(2)对y=m·xk两边取自然对数,
得ln y=ln m+k ln x,
因为v=ln y,u=ln x,则v=ln m+ku,
由表中数据得,===,
所以ln m=- =1.5-×1.5=1,
所以m=e,
所以年广告费用x和年利润额y的回归方程为=e·x.
[缜密思维提能区] 易错辨析
求回归方程
在一化学反应过程中,某化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了如表所示的8组数据,则y与x的回归方程是________.
催化剂量x(g)
15
18
21
24
27
30
33
36
化学物质反应速度y(g/min)
6
8
30
27
70
205
65
350
[错解] 由表中数据可得=25.5,=95.125,
x=5580,xiyi=24 297,所以=≈12.94,
=-=-234.845.
所以回归方程为=-234.845+12.94x.
[答案] =-234.845+12.94x
[正解] 根据收集的数据作散点图,如图所示.
根据样本点的分布情况,可选用指数型函数模型y=c1ec2x(c1,c2为待定的参数),令z=ln y,则z=c2x+ln c1,即变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的周围,由y与x的数据表得z与x的数据表如下:
x
15
18
21
24
27
30
33
36
z
1.792
2.079
3.401
3.296
4.248
5.323
4.174
5.858
作出z与x的散点图,如图所示,由图可以看出变换后的样本点分布在一条直线附近,所以可用线性回归直线方程来解决.
由表中数据可得≈0.181 2,≈-0.848 5,
故=0.181 2x-0.848 5,所以=e0.181 2x-0.848 5.
因此该化学物质的反应速度与催化剂的量的非线性回归方程为
=e0.181 2x-0.848 5.
[答案] =e0.181 2x-0.848 5
[纠错心得]
1.错因:未画散点图来确定回归类型,题中要求回归方程但不一定是回归直线方程,错解中盲目地求成了回归直线方程.
2.回归分析时,必须画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.
知识落实
技法强化
1.相关关系,线性相关正相关、负相关.
2.回归直线方程及其性质.
3.线性相关系数及其性质.
1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
2.回归直线=+x过点(,),
其中=xi,=yi.
3.相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.
$$