内容正文:
第九章 统计(知识归纳+题型突破)
1.结合实例,体会两个变量间的相关关系.
2.掌握相关关系的判断,能根据散点图对线性相关关系进行判断.
3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.
4.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,针对实际问题,会用一元线性回归模型进行预测.
5.通过实例,理解2×2列联表的统计意义.
6.通过实例,了解独立性检验及其应用.
1.相关关系
两个变量之间具有一定的联系,但又没有确定性函数关系,这种关系称为相关关系.
注意点:
变量的相关关系与函数关系的异同点
(1)相同点:两者均是两个变量之间的关系;
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系;相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系.
2.散点图与相关性
(1)线性相关关系
通过散点图观察,若所有的点散布在一条直线附近,说明这些点的横坐标与纵坐标之间具有相关关系,我们将具有这种特性的相关关系称为线性相关关系.
(2)正相关与负相关
如果具有相关关系的两个变量的散点图呈从左下向右上方向发展的趋势,我们称这两个变量之间正相关.同理,如果具有相关关系的两个变量的散点图呈从左上逐渐向右下方向发展的趋势,则称这两个变量之间负相关.
温馨提醒 散点图的作用
注意点:
散点图的作用
(1)散点图具有直观、简明的特点,能体现样本数据的密切程度,可以根据散点图判断变量间是否具有相关关系.
(2)通过散点图不但可以从点的位置判断测量值的大小、高低、变动范围与趋势,还可以通过观察剔除异常数据,提高估计相关程度的准确性.
3.相关系数
(1)相关系数r的计算公式r=
=
(2)相关系数r具有的性质
①-1≤r≤1;
②r>0时y与x呈正相关关系,r<0时y与x呈负相关关系;
③|r|越接近1,y与x相关的程度就越强,|r|越接近0,y与x相关的程度就越弱.
通常情况下,当|r|>0.5时,认为线性相关关系显著;当|r|<0.3时,认为几乎没有线性相关关系.
注意点:
相关系数r的计算公式还可以写成下列形式
r=,
其中=xi,=yi.
4.线性回归模型
(1)随机误差
具有线性相关关系的两个变量x,y,其中y的值不能由x完全确定,可将x,y之间的关系表示为y=a+bx+ε,其中a+bx是确定性函数,ε称为随机误差.
(2)随机误差产生的主要原因
①所用的确定性函数不恰当引起的误差;
②忽略了某些因素的影响;
③存在观测误差.
(3)y=a+bx+ε称为线性回归模型.
(4)回归直线和线性回归方程
把a,b的估计值记为,,则
由此得到的直线=+x称为回归直线,此直线方程称为线性回归方程,称为回归截距,称为回归系数,称为回归值.
上述求回归直线方程的方法称为“最小二乘法”.
注意点:
(1)回归直线过样本点的中心(,).
(2)用最小二乘法求回归直线方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程无意义.
5.非线性回归问题
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题转化为线性回归分析问题,使之得到解决.
一般步骤为:
注意点:
考试时往往会给出散点图,或将画散点图这一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
6.2×2列联表
一般地,对于两个分类变量 Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病(简称患病)和未患呼吸道疾病(简称未患病)).我们得到如下列联表所示的抽样数据:
患病
未患病
合计
吸烟
a
b
a+b
不吸烟
c
d
c+d
合计
a+c
b+d
a+b+c+d
上述表格称为2×2列联表.
注意点:(1)2×2列联表主要用于研究两个事件之间是相互独立的还是存在某种关联性,它适用于分析两个事件之间的关系.
(2)2×2列联表有助于直观地观测数据之间的关系.
(3)可以通过2×2列联表中与值的大小粗略地判断两个事件之间有无关系.一般其值相差越大,两个事件有关系的可能性越大.
7.独立性检验
(1)定义:用χ2统计量研究两个变量X和Y是否有关的方法称为独立性检验.
(2)χ2统计量:
χ2=.
(3)独立性检验的步骤
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
①提出假设H0:Ⅰ与Ⅱ没有关系;
②根据2×2列联表及χ2公式,计算χ2的值;
③根据临界值,做出判断.
其中临界