内容正文:
课题:统计案例—回归分析
知识点:
1.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频率分布直方图等.
(2)作频率分布直方图的步骤
①求极差;②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.
2.样本数字特征
(1)平均数:= (x1+x2+…+xn).
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时).
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据).
(4)方差和标准差
①方差:s2= (xi-)2或-2. ②标准差:s=.
3.相关关系的强弱
(1)样本相关系数:现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里用
来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质:①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为;当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.
4.一元线性回归模型参数的最小二乘法:回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
5.残差:对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
6.决定系数:(1)残差平方和残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.
典型例题
例1“关注夕阳、爱老敬老”—某马拉松协会从2017年开始每年向敬老院捐赠物资和现金.下表记录了第年(2017年是第一年)与捐赠的现金(万元)的对应数据,由此表中的数据得到了关于的线性回归方程,则预测2023年捐赠的现金大约是
A.万元 B.万元 C.万元 D.万元
例2(多选)已知与线性相关,且求得回归方程为,变量,的部分取值如表所示,则( )
A.与负相关 B.
C.时,的预测值为 D.处的残差为
例3人类已进入大数据时代,目前,全球年数据产生量已经从级别跃升到,乃至级别(,,,).由国际数据公司的研究结果得到2011年至2023年全球年数据产生量(单位:)的散点图.根据散点图,下面四个选项中最适宜刻画2011年至2023年全球年数据产生量和实际的函数模型是( )
A. B. C. D.
例4网购是现代年轻人重要的购物方式,截止:2022年12月,我国网络购物用户规模达8.42亿,较2021年12月增长5968万,占网民整体的81.6%.某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与时间第年进行了统计得如下数据:
1
2
3
4
5
2.6
3.1
4.5
6.8
8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合y与t的关系?请计算相关系数r并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润y与时间t的回归方程,并预测当时的利润额.
附:,
,.
参考数据:,,,.
例5小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积x(单位:)和日均客流量y(单位:百人)的数据,并计算得,,,.
(1)求y关于x的回归直线方程;
(2)已知服装店每天的经济效益,该商场现有的商铺出租,根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
附:回归直线的斜率和截距的最小二乘估计分别为:,.
例6为促进新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下表格:
年份编号x
1
2
3
4
5
年份
2018
2019
2020
2021
2022
新能源汽车充电站数量y/个
37
104
147
186
226
(1)已知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)求y关于x的线性回归方