内容正文:
新教材 湘教版2019版 数学选择性必修第二册
第4章 知识点清单
目录
第4章 统计
4. 1 成对数据的统计相关性
4. 2 一元线性回归模型
4. 3 独立性检验
2 / 2
第4章 统计
4. 1 成对数据的统计相关性
一、散点图
1. 散点图
将成对观测数据用直角坐标系中的点表示,这些点称为散点,由坐标系及散点形成的数据图叫作散点图,散点图直观地描述了变量之间的关系形态.
2. 线性相关关系
如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系,简称为相关关系.
3. 线性相关
如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,则称它们线性相关,这实际上就是函数关系.
二、相关系数
1. 定义
一般地,对n个成对观测数据(x1,y1),(x2,y2),…,(xn,yn),我们用{xi}表示数据x1,x2,…,xn,{yi}表示数据y1,y2,…,yn,用=,= 分别表示{}与{}的均值,用,分别表示{}与{}的标准差.
记,则当时,我们称为{xi}和{yi}的相关系数.
2. 相关系数的性质
(1)rxy的取值范围是[-1,1]. 当0<rxy<1时,称{xi}和{yi}正相关;当-1<rxy<0时,称{xi}和{yi}负相关;当rxy=0时,称{xi}和{yi}不相关.
(2)|rxy|越接近于1,变量x,y的线性相关程度越高,这时数据 (x1,y1),(x2,y2),…,(xn,yn)分散在一条直线附近.
(3)|rxy|越接近于0,变量x,y的线性相关程度越低.
(4) rxy具有对称性,即rxy=ryx.
(5) rxy仅仅是变量x与y之间线性相关程度的一个度量. rxy=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系.
三、相关系数与向量夹角
1. 利用向量夹角的余弦值表示相关系数
把两组成对数据分别看作n维空间的两个向量(x1,x2,…,xn),(y1,y2,…,yn),再将向量的每个元素都减去均值,形成a=(x1-,x2-,…,xn-),b=(y1-,y2-,…,yn-),从而有cos<a,b>=
2. 相关程度与向量夹角的关系
(1)当<a,b>∈时,余弦值越大表示两个向量的夹角越小,两组数据的正相关
程度越高;余弦值越小表示两个向量的夹角越大,两组数据的正相关程度越低.
(2)当<a,b>∈时,余弦值越大表示两个向量的夹角越小,两组数据的负相关
程度越低;余弦值越小表示两个向量的夹角越大,两组数据的负相关程度越高.
(3)当<a,b>=时,余弦值为0,这说明两组数据不相关.
四、两个变量相关性的判断
1. 利用散点图判断两个变量的相关性
若散点落在一条直线附近,则认为这两个变量有线性相关关系. 一般地,如果变量x和y正相关,那么大多数散点将分布在第一、三象限,对应的成对数据同号的居多;如果变量x和y负相关,那么大多数散点将分布在第二、四象限,对应的成对数据异号的居多.
2. 利用相关系数判断两个变量的相关性
|rxy|刻画了样本点集中于某条直线的程度. |rxy|越接近于1,散点图中的散点分布越接近于一条直线,两个变量的线性相关程度越高.
3. 利用向量的夹角判断两个变量的相关性
由相关系数rxy=cos<a,b>,结合相关程度与向量夹角的关系可直接判断两个变量的相关性.
4. 2 一元线性回归模型
一、回归直线方程
1. 回归直线与回归直线方程
我们常常用一条直线来反映所给出的散点图的分布趋势,找出与散点图中各点散布趋势相似的直线,使各点经过或充分靠近该直线,这样所得到的直线就可以比较科学地反映实际问题中两个变量之间的相关关系. 这条直线叫作回归直线,这条直线的方程叫作回归直线方程.
2. 回归分析
(1)由散点图求出回归直线并进行统计推断的过程叫作回归分析.
(2)在回归分析中,被预测或被解释的变量称为因变量,用y表示. 用来预测或解释因变量的变量称为自变量,用x表示.
二、一元线性回归模型
1. 一元线性回归方程
如果具有相关关系的两个变量x,y可用方程y=a+bx来近似刻画,则称此式为y关于x的一元线性回归方程,其中a,b称为回归系数.
由于我们是利用样本数据(一组观测值)去估计总体的回归直线方程,因此我们在a,b,y的上方加记号“”以区别实际的a,b,y,此时得到估计的回归直线方程形式为=+x,它是根据样本数据求出的回归方程的估计.
2. 一元线性回归模型
(1)当自变量x取值xi(i=1,2,…,n)时,我们将根据回归直线方程估计出的与实际观
测值yi的误差,即yi- =yi-(+xi)(i=1,2,…,n),称为随机误差,记作ei.
(2)我们把yi=+xi+e