内容正文:
4.3.1一元线性回归模型(课时2)
1、 学习目标
1. 了解两个变量间的线性相关系数r,并能利用公式求相关系数r
2. 能利用相关系数r判断两个变量线性相关程度的大小
3. 掌握非线性回归方程的概念,会求非线性回归方程,并作出预测.
2、 重难点
重点:利用相关系数r判断两个变量线性相关程度的大小,会求非线性回归方程
难点:求非线性回归方程
新知识导入
由上节课所学可知,给定一组成对数据后,总能得到一个回归直线方程.不难想到,如果变量之间本身的线性相关关系很弱,那么得到的回归直线方程价值是有限的,甚至是没有价值的.
怎样来刻画两个变量之间线性相关关系的强弱呢?
三、知识梳理
1.统计学里一般用来衡量 y 与 x 的 ,这里的 r 称为 (简称为 ).
2.相关系数的性质:
(1),且 y 与 x 正相关的充要条件是 ,y 与 x 负相关的充要条件是 .
(2) 越小,说明两个变量之间的线性相关性 ,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况; 越大,说明两个变量之间的线性相关性 ,也就是得出的回归直线方程越有价值;
(3) 的充要条件是成对数据构成的点都在 上.
3. y 与 x 的关系,不是线性相关关系,称为 ,所得到的方程称为 .一般地,非线性回归方程的曲线类型可以通过作出 进行猜测,而回归方程有时可以通过变量替换后,借助求 的过程确定. 当然,确定了非线性回归方程之后,也可以利用它进行预测.
四、例题讲解
例1 某人工智能公司从某年起7年的利润情况如下表所示.
第x年
1
2
3
4
5
6
7
利润y/亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)计算出y与x之间的相关系数(精确到0.01),并求出y关于x的回归直线方程;
(2)根据回归直线方程,预测人工智能公司第8年、第9年的利润
例2 设某幼苗从观察之日起,第x天的高度为y cm,测得一些数据如下表.
第x天
1
4
9
16
25
36
49
高度y/cm
0
4
7
9
11
12
13
作出这组数的散点图,并通过散点图思考:近似描述y与x的关系,除使用一次函数外,还可以用其他函数吗?具体应该怎样操作?
五、课堂练习
1.关于样本相关系数,下列说法正确的是( )
A.样本相关系数
B.当样本相关系数时,称成对数据成正相关
C.两个随机变量线性相关越弱,则相关系数越接近-1
D.两个随机变量线性相关越强,则相关系数越接近1
2.(多选)关于相关系数r,下面说法正确的是( )
A.
B.若,则两个变量线性不相关
C.若,则一个变量增加,另一个变量有减少的趋势
D.|r|越小,变量之间的线性相关程度越高
3.在研究线性回归模型时,成对样本数据所对应的点均在直线上,则样本相关系数( )
A. B.1 C. D.无法确定
4.下列图中,相关性系数最大的是( )
A.B.C.D.
5.对四组数据进行统计,获得如下散点图,将四组数据相应的相关系数进行比较,正确的是( )
A. B. C. D.
6.通过计算样本相关系数可以反映两个随机变量之间的线性相关程度,以下四个选项中分别计算出四个样本的相关系数r,则反映样本数据成正相关,并且线性相关程度最强的是( )
A. B. C. D.
7.甲,乙,丙,丁各自研究两个随机变量的数据,若甲,乙,丙,丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中,________研究的两个随机变量的线性相关程度最高.
六、课后练习
1.对于相关系数r,下列说法中正确的是( )
A.r越大,线性相关程度越强
B.越小,线性相关程度越强
C.越大,线性相关程度越弱,越小,线性相关程度越强
D.,且越接近1,线性相关程度越强,越接近0,线性相关程度越弱
2.对变量X,Y有观测数据,,,,,对变量U,V有观测数据,,,,,表示变量X,Y之间的线性相关系数,表示变量U,V之间的线性相关系数,则( )
A. B. C. D.
3.(多选)关于样本相关系数,下列说法错误的是( )
A.样本相关系数
B.当样本相关系数时,称成对数据成正相关
C.两个随机变量线性相关越弱,则相关系数越接近-1
D.两个随机变量线性相关越强,则相关系数越接近1
4.某学校高一年级学生某次考试成绩进行统计,从全体高一学生中抽出名学生的数学成绩和物理成绩,数据经过处理后,得到一些统计数据和数据关系:,,,其中、分别表示学生的数学成绩和物理成绩,其中.通过计算得到与的相关系数.
(1)求y与x的线性回归方程;
(2)已知同学甲的此次数学成绩为125分,根据回归方程估计其物理成绩是否会超过80分?
参考公式:,;相关系数.
5.高质量发展是全面建设社会主义现代化国家的首要任务,创新研发是高质量发展的重要前提.某公司研发新产品的投入x(单位:百万元)与该产品的收益y(单位:百万元)的5组统计数据如下表所示,且经验回归方程为.
x
5
6
8
9
12
y
16
20
25
28
m
(1)求m的值;
(2)若将图表中的点去掉,判断样本相关系数r是否改变,并说明你的理由.
参考数据:样本相关系数
答案及解析
三、知识梳理
1.线性相关性强弱 线性相关系数 相关系数
2. 越弱 越强 回归直线
3.非线性相关关系 非线性回归方程 散点图 回归直线
四、例题讲解
例题1
解:(1)可求得
列表计算得
因此
回归直线方程为
(2)
在回归方程中令x=8得,
所以预测第8年的利润为6.3亿元
类似地,可预测第9年的利润为 6.8 亿元.
例题2
分析:从散点图中可以看出,这些数据集中在图中橙色的曲线附近,曲线的形状与函数 的图像很相似,则可用的表达式来描述y与x的关系
解:令,则可变为,即y与u的关系可看成线性相关关系.
令,构造新的成对数据,如下表所示.
x
1
4
9
16
25
36
49
1
2
3
4
5
6
7
y
0
4
7
9
11
12
13
算得:,通过列表计算得
因此
故y关于u的回归直线方程为 ,代入 ,则
五、课堂练习
1.答案:A
解析:根据相关系数,可知A正确;
时,数据成负相关,时,数据成正相关,故B错误;
越接近1,线性相关性越强,越接近0,相关性越弱,故C错误;
对于D,两个随机变量线性相关越强,相关系数也可能接近,故D错误.
故选:A.
2.解析:,故A正确;
若,则两个变量线性不相关,故B正确;
若,则一个变量增加,另一个变量有减少的趋势,C正确;
越大,变量之间的线性相关程度越高,故D错误.故选ABC.
3.答案:B
解析:因成对样本数据所对应的点均在直线上,
则,又直线的斜率为,满足正相关,故.
故选:B.
4.答案:A
解析:变量间的相关性越强,越接近于1,
根据散点图可知,A选项是正相关,且分布比较集中,大体接近一条直线,
则线性回归模型拟合效果比较好,相关性强,故A选项的相关性系数最大.
故选:A.
5.答案:A
解析:由给出的四组数据的散点图可以看出,
图1和图3是正相关,相关系数大于0,
图2和图4是负相关,相关系数小于0,
图1和图2的点相对更加集中,所以相关性要强,所以接近于1,接近于,
由此可得.
故选:A.
6.答案:A
解析:因为相关系数的绝对值越大,线性相关程度越强,且为正相关,
所以时,线性相关程度最强,且为正相关,
故选:A.
7.答案:甲
解析:因为,所以这四人中,甲研究的两个随机变量的线性相关程度最高.
故答案为:甲.
六、课后练习
1.答案:D
解析:对于选项A,越大,线性相关程度越强,即A错误;
对于选项B,越小,线性相关程度越弱,即B错误;
对于选项C,越大,线性相关程度越强,越小,线性相关程度越弱, 即C错误;
对于选项D,,且越接近1,线性相关程度越强,越接近,线性相关程度越弱,即D正确,
故选:D.
2.解析:由条件可知:第一组中的数据负相关,相关系数小于零;第二组中的数据正相关,相关系数大于零.所以有.故选C.
3.解析:根据相关系数,可知A正确;
时,数据成负相关,时,数据成正相关,故B错误;
越接近1,线性相关性越强,越接近0,相关性越弱,故C错误;
对于D,两个随机变量线性相关越强,相关系数也可能接近-1,故D错误.
故选:BCD.
4.答案:(1)
(2)同学甲物理成绩不会超过80分.
解析:(1)由题中数据可得,,,
由得,
,
所以,
所以线性回归方程为.
(2)当时,,即同学甲物理成绩不会超过分.
5.解:(1)由题设,,
所以,可得;
(2)由(1)知,,故去掉点后样本中心仍然是,
去掉点前,
去掉点后
,
显然前后数值没有改变,同理,的值都没有变化,
所以相关系数r不变.
学科网(北京)股份有限公司
$