内容正文:
8.2.1 一元线性回归模型
第八章 成对数据的统计分析
人教A版2019选择性必修第三册
前情回顾
0
样本相关系数的性质
①r 的正负:反映成对样本数据的变化趋势
r=0时,只表明成对样本数据间无线性相关关系,但不排除它们有其他相关关系.
③样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
②|r |的大小:反映成对样本数据线性相关的程度(即散点集中于某条直线的程度):
|r |越接近1:线性相关程度越强;
|r |越接近0:线性相关程度越弱.
前情回顾
0
研究统计问题的一般流程:
单一数据
成对数据
单一数据
成对数据
成对数据
学习目标
1
2
3
结合具体实例,了解一元线性回归模型的含义.
了解模型参数的统计意义,了解最小二乘原理.
理解一元线性回归模型随机误差产生的原因.
0
新课引入
0
恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对成对样本数据建立一个模型进行预测?
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是表示生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
读教材
0
阅读课本P105-P106,5分钟后完成下列问题:
1.一元线性回归模型和函数模型的区别?
我们一起来探究“一元线性回归模型”吧!
2.一元线性回归模型的随机误差来源可能有哪些?
01
03
02
目录
1 一元线性回归模型
学习过程
2 题型训练
1
新知探究
探究1 生活经验告诉我们,儿子的身高与父亲的身高相关:一般来说,父亲的身高较高时,儿子的身高通常也较高;为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的
关系可以用函数模型刻画吗?
1
新知探究
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用
函数模型刻画吗?
…
172
…
父亲身高
…
176
174
…
儿子身高
儿子身高不是父亲身高的函数
1
新知探究
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用
函数模型刻画吗?
父亲身高不是儿子身高的函数
…
170
…
儿子身高
…
173
169
166
…
父亲身高
1
新知探究
思考2:经过刚才的分析,你觉得儿子身高与父亲身高的关系是怎样的?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
通过计算得到样本相关系数r≈0.886.
儿子身高与父亲身高呈正线性相关关系
1
新知探究
思考3:由于其他因素的存在,使得儿子身高和父亲身高有关系但不是函数关系,那么影响儿子身高的其他因素是什么?
母亲的身高
生活的环境
饮食习惯
...
营养补充
体育锻炼
1
新知探究
思考4:不考虑上述随机因素的影响,你能否用类似于函数的表达式来表示父亲身高x和儿子身高Y的关系?
事实上,相关系数 ,故称
加上随机误差后可以记作
e:随机误差
母亲身高
生活环境
饮食习惯
体育锻炼
测量误差
1
新知探究
思考5:理想状态下,我们希望随机误差怎么样呢?
由于随机误差表示大量已知和未知的各种影响之和,理想状态下它们会相互抵消,为使问题简洁,可以假设随机误差的均值为0,方差为与父亲身高无关的定值,即.
误差观测值
如果随机误差是一个不为0的常数,则可以将合并到截距项a中,则模型无法确定,即参数没有唯一解;另外,如果不为0,则表示存在系统误差,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差.
1
新知1--一元线性回归模型
一元线性回归模型
如果用x表示父亲身高,Y表示儿子身高,表示随机误差.假定随机误差的均值为0,方差为与父亲身高无关的定值,则它们之间的关系可以表示为:
称为关于的一元线性回归模型.
称为因变量或响应变量;
称为自变量或解释变量;
:称为截距参数,
称为斜率参数;
是与之间的随机误差.
1
新知探究
思考5:函数模型与回归模型之间的差别?
函数模型:
回归模型:
一元线性回归模型Y=bx+a+e增加了随机误差项e,因变量Y 的值由自变量x
和随机误差项e共同确定, 即自变量x只能解释部分Y的变化.
变量之间具有的函数关系,是一种确定性的关系
变量之间具有的相关关系,是一种不确定性关系
思考6:对于父亲身高为 xi 的某一名男大学生,他的身高 yi 一定是 bxi+a 吗?
对于父亲身高为 xi 的某一名男大学生,他的身高 yi 并不一定为 bxi+a,它仅是该子总体中的一个观测值,这个观测值与均值有一个误差项这 ei=yi-(bxi+a).
1
新知探究
思考7:结合父亲与儿子身高的实例,说明回归模型(1)的意义?
对于父亲身高 x 和儿子身高 Y 的一元线性回归模型(1),可以解释为:
父亲身高为 xi 的所有男大学生的身高组成一个子总体,该子总体的均值为 bxi+a,即该子总体的均值与父亲身高是线性函数关系.
思考8:如何理解随机误差 e 对儿子身高的影响?
对于任意一组(xi,Yi),都有一个ei与之对应
随机误差 e 的特征
随机误差e是一个随机变量
①可取正或取负
②有些无法测量
③不可事先设定
学以致用
例1 已知人的年龄x与人体脂肪含量的百分数y的经验回归方程为y=0.577x-0.448,如果某人36岁,那么这个人的脂肪含量( )
A.一定是20.3% B.在20.3%附近的可能性比较大
C.无任何参考数据 D.以上解释都无道理
解:将x=36代入经验回归方程得y=0.577×36-0.448≈20.3,
故这个人的脂肪含量在20.3%附近的可能性较大,故选B.
B
学以致用
例2 工人工资y(元)与劳动生产率x(千元)的相关关系的经验回归方程为 =50+80x,
下列判断正确的是( )
A.劳动生产率为1 000元时,工人工资为130元
B.劳动生产率提高1 000元时,工人工资平均提高80元
C.劳动生产率提高1 000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2 000元
B
解:因为经验回归方程的斜率为80, 所以x每增加1,y平均增加80,
即劳动生产率提高1 000元时,工人工资平均提高80元.
学以致用
例3 在一元线性回归模型y=bx+a+e中,下列说法正确的是( )
A.y=bx+a+e是一次函数
B.因变量y是由自变量x唯一确定的
C.因变量y除了受自变量x的影响外,可能还受到其它因素的影响,这些因素会导致
随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
解:这是一元线性回归模型,是不确定关系,故A,B错误,
由随机误差的产生原因可知C正确,且随机误差不可避免,故D错误。
C
01
03
02
目录
1 一元线性回归模型
学习过程
2 题型训练
2
例1 (多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
解:AC中的点分布在一条直线附近,适合线性回归模型.
题型1--一元线性回归模型的应用
AC
2
例2 判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画? 为什么?
解:(1),(2),(3),(4),(5)回归模型:两个变量之间的关系不确定;
(6),(7)函数模型:变量之间有确定关系。
题型1--一元线性回归模型的应用
(1)某公司的销售收入和广告支出;
(2)某城市写字楼的出租率和每平米月租金;
(3)航空公司的顾客投诉次数和航班正点率;
(4)某地区的人均消费水平和人均国内生产总值(GDP);
(5)学生期末考试成绩和考前用于复习的时间;
(6)一辆汽车在某段路程中的行驶速度和行驶时间;
(7)正方形的面积与周长.
2
例3 两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A.y=a·xb B.y=a+bln x
C.y=a·ebx D.y=a·
解:由散点图可知,此曲线类似对数函数型曲线,
因此可用函数y=a+bln x模型进行拟合.故选B.
题型1--一元线性回归模型的应用
B
2
例4 若某地财政收入 x 与支出 y 满足一元线性回归模型 y=bx+a+e (单元:亿元),
其中 b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入 10 亿元,年支出预计
不会超过多少?
解:因为财政收入 x 与支出 y 满足一元线性回归模型 y=bx+a+e,
其中 b=0.7,a=3,所以得到 y=0.7 x+3+e,
当 x=10 时,得 y=0.7×10+3+e=10+e,
而 |e| ≤0.5,即-0.5≤ e ≤0.5,所以 9.5≤ y ≤10.5,
所以年支出预计不会超过 10.5 亿元.
题型1--一元线性回归模型
课堂小结
一元线性回归模型
如果用x表示父亲身高,Y表示儿子身高,表示随机误差.假定随机误差的均值为0,方差为与父亲身高无关的定值,则它们之间的关系可以表示为:
称为关于的一元线性回归模型.
称为因变量或响应变量;
称为自变量或解释变量;
:称为截距参数,
称为斜率参数;
是与之间的随机误差.
$$