内容正文:
第九章 统计
9.1&9.2线性回归分析与独立性检验
【必备知识】
知识点1:线性回归分析
1.变量之间的相关性
(1) 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是 一种非确定性关系.
(2) 从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在 左上角到右下角的区域内,两个变量的相关关系为负相关.
2.线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具 有线性相关关系,这条直线叫做回归直线.
(2)回归方程为(其中 .
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离 的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当时,表明两个变量正相关;当 时,表明两个变量负相关.
的绝对值越接近于1,表明两个变量的线性相关性越强.的绝对值越接近于0时,表明两个变量之间几乎 不存在线性相关关系.通常大于0.75时,认为两个变量有很强的线性相关性
【典例1】某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程是,则( )
A. B. C. D.
【答案】A
【详解】
由表格中的数据可得,,
则样本中心点的坐标为,
将样本中心点的坐标代入回归直线方程可得,解得.
故选:A.
【典例2】已知某品牌客车的使用年限(年)与维护费用(千元)之间有如下数据:
使用年限(年)
2
3
4
5
6
维护费用(千元)
2
2.5
4.5
5
6.5
若与之间具有线性相关关系,且关于的线性回归方程为,据此估计,使用年限为8年时,维护费用约为( )
A.7.55千元 B.8.7千元
C.9.7千元 D.10.25千元
【答案】B
【详解】
由题意得:,,
由于回归直线过样本的中心点,即,解得,
∴回归直线方程为,
当时,(千元).
故选:B.
【典例3】某动漫影视制作公司长期坚持文化自信,不断挖掘中华优秀传统文化中的动漫题材,创作出一批又一批的优秀动漫影视作品,获得市场和广大观众的一致好评,同时也为公司赢得丰厚的利润.该公司2014年至2020年的年利润y关于年份代号x的统计数据知下表(已知该公司的年利润与年份代号线性相关):
年份
2014
2015
2016
2017
2018
2019
2020
年份代号
1
2
3
4
5
6
7
年利润y(单位:亿元)
29
33
36
44
48
52
59
(1)求y关于x的线性回归方程;
(2)预测该公司2021年(年份代号记为8)的年利润;
参考公式:,.
【答案】(1);
(2)该公司2021年的年利润预测值为63亿元.
【解析】
(1)由表格数据可得:,,
∴,故,
∴y关于x的线性回归方程为.
(2)当时,(亿元),
∴该公司2021年的年利润预测值为63亿元;
知识点2:独立性检验
1.假定通过简单随机抽样得到了和的抽样数据列联表,如下表所示.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则.
2.利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
3.独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
4.在独立性检验中,统计量有两个临界值:3.841和6.635 .当时,至少有的把握说明两个事件有关,当时,至少有的把握说明两个事件有关,当时,认为两个事件无关.
【典例4】微信和是中国最受欢迎的两个即时通讯软件,作为具有同样功能的软件,二者的业务不可避免地重叠,但是从大众分析调查来看,二者的受众人群有着一些小区别.某机构用简单随机抽样方法调查了100位社区网络员手机即时通讯软件的使用情况,结果如下表,
35岁以上
35岁以下
总计
微信
45
20
65
13
22
35
总计
58
42
100
附:,
0.050
0.010
0.001
3.841
6.635
10.828
则下列结论正确的是( )
A.在犯错误的概率不超过0.1%的前提下,认为“使用即时通讯工具与年龄有关”
B.在犯错误的概率不超过0.1%的前提下,认为“使用即时通