内容正文:
第八章 成对数据的统计分析(知识归纳+题型突破)
1.通过具体案例,引导学生理解两个随机变量的相关性可以通过成对样本数据进行分析,了解样本相关系数的统计含义.
2.理解利用一元线性回归模型可以研究变量之间的相关关系,并进行预测.
3.了解 列联表,理解利用列联表可以检验两个随机变量的独立性.
4.运用散点图、相关系数、最小二乘思想、小概率原理、频率估计概率、假设检验基本原理等解决简单的实际问题,会利用统计软件进行数据分析.
知识点1:相关关系的强弱
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
知识点2:经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
知识点3:残差
(1)残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(3)残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
知识点4:决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
知识点5:分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点6:独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
题型一:相关系数的意义及辨析
【例1】.(2022下·河南南阳·高二校联考专题练习)在一组样本数据为,,,(,,,,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C.1 D.-1
【例2】(2024上·江西吉安·高一江西省新干中学期末)对于样本相关系数,下列说法错误的是( )
A.可以用来判断成对样本数据相关的正负性
B.可以是正的,也可以是负的
C.样本相关系数越大,成对样本数据的线性相关程度也越高
D.取值范围是
巩固训练
1.(2023·四川乐山·统考一模)对四组数据进行统计,获得如下散点图,关于其相关系数的比较,说法正确的是( )
A. B.
C. D.
2.(2022下·辽宁大连·高二大连八中校考阶段练习)设两个变量和之间具有线性相关关系,它们的相关系数为关于的回归直线方程为,则( )
A.与的符号相反 B.与的符号相同
C.与的符号相同 D.与的符号相反
题型二:相关系数计算
【例1】(2024上·天津·高三校联考期末)学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记