内容正文:
数学 选择性必修 第二册 RJ
第2课时 相关系数及非线性回归
(教师独具内容)
课程标准:1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.2.结合实例,会通过相关系数比较多组成对数据的相关性.
教学重点:1.相关系数的计算.2.求非线性回归方程及利用非线性回归方程进行预测.
教学难点:利用非线性回归方程解决实际问题.
核心素养:1.通过比较相关系数,判断两变量相关性的强弱培养逻辑推理素养和数学运算素养.2.通过利用非线性回归方程解决实际问题培养数学建模素养.
知识点一 相关系数的概念
统计学里一般用r==来衡量y与x的,这里的r称为线性相关系数(简称为相关系数).
知识点二 相关系数的性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
知识点三 非线性回归
y与x存在相关关系,但不是线性相关关系,则y与x的关系称为非线性相关关系.一般地,可以通过变量替换后,借助线性相关的内容求出方程,所得到的方程称为非线性回归方程.
1.(相关系数的性质)甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性做试验,并分别求得相关系数r,如下表:
相关系数
甲
乙
丙
丁
r
-0.82
0.78
0.69
0.87
则哪位同学的试验结果体现两变量有更强的线性相关性?( )
A.甲 B.乙
C.丙 D.丁
答案:D
2.(相关系数的计算)一唱片公司欲知唱片费用x(单位:十万元)与唱片销售量y(单位:千张)之间的关系,从其所发行的唱片中随机抽取了10张,得到如下的资料:xi=28,x=303.4,yi=75,y=598.5,xiyi=237,则y与x的相关系数r为________.
答案:0.3
3.(非线性回归方程)用y=cekx来描述两个变量之间的关系时,为了求出非线性回归方程,设z=ln y,经计算得到回归直线方程=0.3x+4,则c=________,k=________.
答案:e4 0.3
题型一 相关系数的性质
例1 (1)对相关系数r,下列说法正确的是( )
A.r越大,线性相关性越强
B.r越小,线性相关性越强
C.|r|越大,线性相关性越弱;|r|越接近于0,线性相关性越强
D.|r|≤1,且|r|越接近于1,线性相关性越强;|r|越接近于0,线性相关性越弱
[解析] 两个变量之间的相关系数r的绝对值越接近于1,表示两个变量的线性相关性越强;r的绝对值越接近于0,表示两个变量的线性相关性越弱,此时两个变量之间几乎不存在线性相关关系.故选D.
[答案] D
(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
[解析] 由相关系数的性质以及散点图可知r2<r4<0<r3<r1.故选A.
[答案] A
【感悟提升】
1.线性相关性强弱的判断方法
(1)相关系数(绝对值越大,线性相关性越强).
(2)散点图(越接近直线,线性相关性越强).
2.相关系数的两个关注点
(1)相关系数的绝对值越大,只能说明两个变量之间的关系用一次函数刻画时,效果越好,但这并不能保证两个变量之间存在因果关系.
(2)当相关系数为0时,只能说明两个变量之间没有线性相关关系,但不排除它们之间有其他相关关系.
【跟踪训练】
1.(1)变量X与Y相对应的一组数据为(1,1),(2,1.5),(3,2),(4,4);变量U与V相对应的一组数据为(1,6),(2,2),(3,0),(4,-4).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
答案:C
解析:对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0.故r2<0<r1.
(2)在一组样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的相关系数为( )
A.-1 B.0
C. D.1
答案:A
解析:根据题意,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据完全负相关,其相关系数是-1.故选A.
题型二 相关系数的计算及应用
例2 要分析学生初中升学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取10名学生,得到他们入学的数学成绩和高一期末的数学成绩如下表所示:
学生编号
1
2
3
4
5
6
7
8
9
10
入学数学成绩x/分
63
67
45
88
81
71
52
99
58
76
高一期末数学成绩y/分
65
78
52
82
92
89
73
98
56
75
(1)画出散点图;
(2)计算入学数学成绩x与高一期末数学成绩y的相关系数(精确到0.001);
(3)如果x与y之间具有线性相关关系,求出回归直线方程(回归系数精确到0.001).
参考公式:相关系数r=,回归直线方程=x+中,=,=-.
[解] (1)作散点图如图所示.
(2)因为=×(63+67+…+76)=70,
=×(65+78+…+75)=76,
所以 (xi-)(yi-)=1894,
(xi-)2=2474, (yi-)2=2056.
因此求得相关系数为
r=≈0.840.
(3)由(2)知r≈0.840,这说明入学数学成绩与高一期末数学成绩存在很强的线性相关关系.
设回归直线方程为=x+,
则=≈0.766,
=-≈76-0.766×70=22.380.
因此所求的回归直线方程是=0.766x+22.380.
【感悟提升】 求相关系数的注意点
(1)求相关系数时题目一般给出计算公式,注意根据数据代入合适的公式进行计算.
(2)利用计算出的相关系数可以推断出两个变量间线性相关性的强弱,从而可以明确有无必要建立两变量间的回归直线方程.
【跟踪训练】
2.《交通安全法》实施后,某市交通管理部门以周为单位,记录的每周查处的酒驾人数与该周出现的交通事故数量如下:
酒驾人数x
80
147
121
100
96
103
87
交通事故数量y
19
31
30
23
25
24
20
根据表中的数据,推断酒驾人数与交通事故数量这两个变量是否线性相关,计算相关系数(借助计算器计算,精确到0.01),并推断它们的线性相关性强弱.
参考公式:相关系数r=.
解:画出散点图,如图所示.
从散点图可以看出成对数据构成的点从左向右呈带状分布,且在一条直线附近,由此推断酒驾人数与交通事故数量这两个变量线性相关.
由表中数据计算,得相关系数
r=≈0.94.
由此可以推断酒驾人数与交通事故数量这两个变量正相关,且线性相关性很强.
题型三 非线性回归方程
例3 某汽车销售公司2025年经济收入在短期内逐月攀升,该公司在1月份至6月份的销售收入y(单位:百万元)关于月份x的数据如下表:
月份x
1
2
3
4
5
6
收入y/百万元
6.6
8.6
16.1
21.6
33.0
41.0
根据以上数据绘制散点图,如图所示.
(1)根据散点图判断,y=ax+b与y=cedx(a,b,c,d均为常数)哪一个适合作为该公司销售收入y关于月份x的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的结果及表中数据,求出y关于x的回归方程(回归系数精确到0.01),并预测该公司8月份的销售收入.
参考数据:
(xi-)2
(xi-)·(yi-)
(xi-)·(ui-)
3.5
21.15
2.85
17.5
125.35
6.73
其中设u=ln y,ui=ln yi(i=1,2,3,4,5,6).
参考公式和数据:对于一组具有线性相关关系的数据(xi,vi)(i=1,2,3,…,n),其回归直线=x+的斜率和截距的最小二乘法估计公式分别为=,=-,e4.56≈95.58,e4.58≈97.51.
[解] (1)y=cedx,散点图中点的分布不是一条直线,相邻两点在y轴上差距是增大的趋势,故用y=cedx表示更合适.
(2)由y=cedx,得ln y=ln cedx=ln c+dx,
∵u=ln y,∴u=ln c+dx,
∵=3.5, (xi-)2=17.5, (xi-)(ui-)=6.73,=2.85,
∴==≈0.38,
ln c=-≈2.85-0.38×3.5=1.52,
∴ln =1.52+0.38x,
则=e1.52+0.38x,
则回归方程为=e1.52+0.38x,
预测该公司8月份的销售收入=e1.52+0.38×8=e4.56≈95.58百万元.
【感悟提升】 非线性回归方程的求法
(1)根据原始数据作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)作恰当变换,将其转化成一次函数,求回归直线方程.
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
【跟踪训练】
3.某校高二数学兴趣小组的同学,对某公司的一种产品的年销量与定价进行了统计,得到如下数据和散点图:
定价x/(元/kg)
10
20
30
40
50
60
年销量y/kg
1150
643
424
262
165
86
z=2ln y
14.1
12.9
12.1
11.1
10.2
8.9
(1)根据散点图判断,y与x,z与x哪一对具有较强的线性相关性(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及数据,求y关于x的回归方程(结果中精确到0.01,精确到1).
参考数据: (xi-)(yi-)=-34580,
(xi-)(zi-)=-175.5, (xi-)2=1750, (yi-)2=776840, (yi-)(zi-)=3465.2.
解:(1)由散点图,可知z与x具有较强的线性相关性.
(2)由统计数据,得=35,=11.55,
==≈-0.10,
则=-≈11.55+0.10×35≈15,
所以=15-0.10x,
所以y关于x的回归方程为=e=e7.5-0.05x.
1.(多选)关于相关关系,下列说法正确的是( )
A.相关关系是一种非确定关系
B.相关系数r越大,两个变量的线性相关性越弱
C.当两个变量相关且相关系数r>0时,表明两个变量正相关
D.相关系数r的绝对值越接近1,表明两个变量的线性相关性越强
答案:ACD
解析:对于A,相关关系不同于函数关系,它是一种非确定关系,A正确;对于B,相关系数r的绝对值越大,两个变量的线性相关性越强,B错误;对于C,当两个变量相关且相关系数r>0时,表明两个变量正相关,C正确;对于D,相关系数r的绝对值越接近1,表明两个变量的线性相关性越强,D正确.故选ACD.
2.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y与温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
答案:D
解析:由散点图可知,成对数据构成的点分布在一个对数型函数图象的附近,因此最适宜作为发芽率y与温度x的回归方程类型的是y=a+bln x.故选D.
3.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到回归直线方程=1x+1,相关系数为r1;方案二:剔除点(10,21),根据剩下的数据得到回归直线方程=2x+2,相关系数为r2,则( )
A.0<r1<r2<1 B.0<r2<r1<1
C.-1<r1<r2<0 D.-1<r2<r1<0
答案:D
解析:由题中散点图可知两变量负相关,所以r1<0,r2<0,因为剔除点(10,21)后,剩下的数据线性相关性更强,|r2|更接近1,所以-1<r2<r1<0.故选D.
4.在一次试验中,测得(x,y)的四组值分别是(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为________.
答案:-1
解析:解法一:易知这四组值满足方程y=-2x+4,所以y与x的相关系数为-1.
解法二:由题意得=1.5,=1,x=22,y=56,xiyi=-20,则相关系数
r=
==-1.
5.对两个具有非线性相关关系的变量x,y进行回归分析,设u=ln y,v=(x-4)2,利用最小二乘法得到u关于v的回归直线方程为=-0.5v+2,则的最大值是________.
答案:e2
解析:将u=ln y,v=(x-4)2代入回归直线方程=-0.5v+2,得=e-0.5(x-4)2+2.当x=4时,=e-0.5×(4-4)2+2=e2,即的最大值为e2.
课后课时精练
基础题(占比50%) 中档题(占比40%) 拔高题(占比10%)
题号
1
2
3
4
5
6
7
难度
★
★
★
★
★★
★
★
对点
散点图与相关系数的关系
由相关系数判断正相关、负相关、线性相关性强弱
相关系数的性质
二次函数型非线性回归方程
利用散点图判断相关系数的大小、回归方程中系数的值或范围
非线性回归方程变量代换求参数
相关系数的计算
题号
8
9
10
11
12
13
14
难度
★★
★
★★
★★
★★
★★
★★★
对点
利用指数型非线性回归方程进行预测
作散点图、计算相关系数并判断线性相关性强弱
回归类型的选择、幂函数型非线性回归方程的求解
由散点图判断相关关系并选择模型;残差的概念
由相关系数求回归系数
相关系数的计算及应用、线性回归方程的综合应用
相关系数的计算及应用、非线性回归方程的综合应用
一、选择题
1.(天津高考)下列图中,线性相关系数最大的是( )
答案:A
解析:观察题中4幅图可知,A图散点分布比较集中,且大体分布在某一条直线附近,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他3幅图更接近1.故选A.
2.对两个变量x,y进行线性相关分析,得线性相关系数r1=0.7859,对两个变量u,v进行线性相关分析,得线性相关系数r2=-0.9568,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
答案:C
解析:由线性相关系数r1=0.7859>0,知变量x与y正相关.由线性相关系数r2=-0.9568<0,知变量u与v负相关.又|r1|<|r2|,∴变量u与v的线性相关性比变量x与y的线性相关性强.故选C.
3.在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的回归直线方程为=x+,若(x1,y1),(x2,y2),…,(xn,yn)都在回归直线上,则( )
A.r=0 B.r=1
C.r=-1 D.|r|=1
答案:D
解析:成对数据构成的点都在回归直线上的充要条件是|r|=1.故选D.
4.已知一组成对数据(xi,yi)(i=1,2,…,6)中y关于x的一元非线性回归方程为=x2+1,若x=12,xi=4,yi=18,则=( )
A.3 B.1
C.-1 D.-3
答案:B
解析:由x=2,yi=3,得3=×2+1,可得=1.故选B.
5.(多选)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为l1:=0.68x+,计算其相关系数为r1.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到回归直线的方程为l2:=x+0.68,相关系数为r2,下列结论中正确的是( )
A.r1>0,r2>0 B.r1>r2
C.=0.12 D.0<<0.68
答案:ACD
解析:由图可知两变量呈正相关,故r1>0,r2>0,去掉“离群点”F后,两变量的线性相关性更强,故r1<r2,故A正确,B错误;又回归直线l1:=0.68x+必经过点(3.5,2.5),所以=2.5-0.68×3.5=0.12,故C正确;回归直线l2:=x+0.68必经过点(3,2),所以2=×3+0.68,所以=0.44,也可直接根据图象判断0<<0.68(比较两直线的倾斜程度),故D正确.故选ACD.
二、填空题
6.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2x+1的图象附近,设z=ln y,将其变换后得到线性方程z=mx+n,则mn=________.
答案:2ln 2+2
解析:由z=ln y,得ln y=ln (2e2x+1),即z=ln 2+ln e2x+1=ln 2+2x+1,则z=2x+ln 2+1,故m=2,n=ln 2+1,∴mn=2ln 2+2.
7.已知 (yi-)2是 (xi-)2的4倍, (xi-)(yi-)是(xi-)2的1.5倍,则样本相关系数r的值为________.
答案:0.75
解析:r=
==0.75.
8.已知变量y关于x的非线性回归方程为=ex-0.5,其一组数据如下表所示:
x
1
2
3
4
y
e
e3
e4
e6
若x=5,则预测y的值为________.
答案:e
解析:将式子两边取对数,得到ln =x-0.5,令=ln ,得到=x-0.5,列出x,z的取值对应的表格如下:
x
1
2
3
4
z
1
3
4
6
则==2.5,==3.5,∵(,)满足=x-0.5,∴3.5=×2.5-0.5,解得=1.6,∴=1.6x-0.5,∴=e1.6x-0.5,当x=5时,=e1.6×5-0.5=e.
三、解答题
9.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x/百万元
2
4
6
8
y/百万元
30
40
50
70
(1)画出散点图;
(2)计算x与y之间的相关系数(精确到0.0001),并刻画它们的线性相关性强弱.
解:(1)画出散点图如图所示.
(2)=5,=47.5,x=120,y=9900,xiyi=1080,
故相关系数r=
=
≈0.9827.
由相关系数r≈0.9827,可以推断生产原料耗费x与销售额y这两个变量正相关,且线性相关性很强.
10.某电器企业统计了近10年的年利润额y(单位:千万元)与投入的年广告费用x(单位:十万元)的相关数据,散点图如图.
对数据作出如下处理:令ui=ln xi,vi=ln yi,得到相关数据如表所示:
uivi
ui
vi
u
30.5
15
15
46.5
(1)判断①y=bx+a,②y=m·xk(m>0,k>0)哪一个适宜作为年广告费用x和年利润额y的回归方程类型;
(2)根据(1)中的判断结果及表中数据,求出y关于x的回归方程.
参考公式:==,=-.
解:(1)由散点图知,年广告费用x和年利润额y的回归方程类型并不是直线型的,而是曲线型的,且y与x呈正相关.
所以选择y=m·xk作为年广告费用x和年利润额y的回归方程类型更好.
(2)对y=m·xk两边取自然对数,
得ln y=ln m+kln x,
因为v=ln y,u=ln x,则v=ln m+ku,
由表中数据,得
===,
所以ln m=-=1.5-×1.5=1,
所以m=e,
所以年利润额y关于年广告费用x的回归方程为=e·x.
11.(多选)中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关.为了建立茶水温度y(单位:℃)随时间x(单位:min)变化的回归模型,小明每隔1 min测量一次茶水温度,得到若干组数据(x1,y1),(x2,y2),…,(xn,yn)(其中=xi,=yi),绘制了如图所示的散点图.小明选择了如下两个回归模型来拟合茶水温度y随时间x的变化情况,回归模型一:y=kx+b(k<0,x≥0);回归模型二:y=kax+b(k>0,0<a<1,x≥0),下列说法正确的是( )
A.茶水温度与时间这两个变量负相关
B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好地拟合茶水温度随时间的变化情况
C.若选择回归模型二,利用最小二乘法求得的y=kax+b的图象一定经过点(a,)
D.当x=5时,通过回归模型二计算得y=65.1,用温度计测得实际茶水温度为65.2 ℃,则残差为-0.1
答案:AB
解析:由散点图可知随时间增加,温度逐渐降低,且变化趋势趋于平缓,故为负相关且模型二拟合得更好,即A,B正确;根据非线性回归模型的拟合方法,先令t=ax,则y=kt+b,此时拟合为回归直线方程,对应的回归直线过点(,),原曲线不一定经过点(a,),故C错误;残差为真实值减估计值,即为65.2-65.1=0.1,故D错误.故选AB.
12.将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标xi和某植物分布的数量yi(i=1,2,…,6),得到样本(xi,yi),且其相关系数r=,记y关于x的回归直线方程为=+x.经计算可知:=9,x=550, (yi-)2=256,则=________.
参考公式:=,
r=.
答案:
解析:因为=9,x=550,所以 (xi-)2=x-62=550-6×92=64,由r===,解得 (xi-)(yi-)=120,所以===.
13.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y(单位:万件)的统计表:
月份代码t
1
2
3
4
5
6
7
销售量y/万件
y1
y2
y3
y4
y5
y6
y7
但其中数据污损不清,经查证,yi=9.32,tiyi=40.17,=0.55.
(1)请用相关系数说明销售量y与月份代码t之间有很强的线性相关关系;
(2)求y关于t的回归直线方程(回归系数精确到0.01);
(3)公司经营期间的广告宣传费(单位:万元)xi=(i=1,2,…),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由(毛利润=销售金额-广告宣传费).
参考公式及数据:≈2.65,≈1.41,相关系数r=,回归直线方程为=t+,=,=-.
解:(1)由题意,得=4, (ti-)2=28,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89.
∴r=≈≈0.99,
∵|r|很接近1,
∴销售量y与月份代码t之间有很强的线性相关关系.
(2)∵=≈1.33,
==≈0.10,
∴=-≈1.33-0.10×4=0.93,
∴y关于t的回归直线方程为=0.10t+0.93.
(3)当t=8时,=0.10×8+0.93=1.73,
而10×1.73-≈17.3-2×1.41=14.48,
∴第8个月的毛利润约为14.48万元.
又14.48<15,
∴第8个月的毛利润不能突破15万元.
14.二手车经销商小王对其所经营的A型号二手车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
z关于x的折线图如图所示.
(1)由折线图可以看出,可以用线性回归模型描述z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程(回归系数精确到0.01),并预测某辆A型号二手车使用年数为9时,售价约为多少?
参考公式:=
=,=-,
r=.
参考数据:xiyi=187.4,xizi=47.64,
x=139,=4.18,
=13.96,=1.53,ln 1.46≈0.38.
解:(1)由题意,知=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
又xizi=47.64,=4.18,
=1.53,
∴r==-≈-0.99,
∴z与x的相关系数大约为-0.99,说明z与x的线性相关性很强.
(2)==-≈-0.36,
∴=-≈2+0.36×4.5=3.62,
∴z关于x的回归直线方程是=-0.36x+3.62,
又z=ln y,
∴y关于x的回归方程是=e-0.36x+3.62.
令x=9,得=e-0.36×9+3.62=e0.38,
∵ln 1.46≈0.38,
∴≈1.46,即预测某辆A型号二手车使用年数为9时,售价约为1.46万元.
20
学科网(北京)股份有限公司
$