内容正文:
8.1.2样本相关系数
高二人教A版选择性必修第三册第八章
——STR课堂教学模式
结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系。
结合实例,会通过样本相关系数比较多组成对数据的相关性。
重点: 样本相关系数的含义,通过相关系数比较多组成对数据的相关性;
难点: 样本相关系数的定义合理性、样本相关系数与标准化数据向量夹角的关系。
环节一、学习目标
【学习任务一】
通过P97“思考”、P98“思考”,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.
【学习任务二】
了解P99“思考”,会通过样本相关系数比较多组成对数据的相关性.通过P101“例1”学会利用样本相关系数推断两个变量之间的相关性.
【学习任务三】
通过P101“例2”“例3”学会合理利用样本相关系数推断两个变量之间的相关性,并解释其在具体情境中的含义.
环节二、自学内容(10分钟)
在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表所示,表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.
根据上述数据,人体的脂肪含量与年龄之间存在怎样的关系呢?
编号 1 2 3 4 5 6 7
年龄/岁 23 27 39 41 45 49 50
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄/岁 53 54 56 57 58 60 61
脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6
知识回顾
环节三、小组展示(1)(5分钟)
由散点图可知,人体的脂肪含量与年龄之间呈正相关关系,这种相关性
是强还是弱呢?
散点图虽然直观, 但无法确切地反映成对样本数据的相关程度, 也就无法量化两个变量之间相关程度的大小。
能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入
一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
新课讲授
问题1:在必修课程中,是如何定义一组数据的标准差?
一、知识建构:探求刻画相关关系程度的数字特征
对象
叠加平均
去除量纲的影响
平移构造
1.将成对样本数据平移
成对样本数据
平移后的成对样本数据
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 平均值
年龄 23 27 39 41 45 49 50 53 54 56 57 58 60 61 48.1
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6 27.3
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 平均值
年龄 -25.1 -21.1 -9.1 -7.1 -3.1 0.9 1.9 4.9 5.9 7.9 8.9 9.9 11.9 12.9 0.0
脂肪 -17.8 -9.5 -6.1 -1.4 0.2 -1.0 0.9 2.3 2.9 4.1 3.5 6.2 7.9 7.3 0.0
问题:观察以上散点图,散点的分布有什么规律?
大多数散点分布在第一、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一、第三象限,对应的成对数据同号的居多,如图 (1) 所示;
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二、第四象限,对应的成对数据异号的居多,如图 (2) 所示.
思考:根据以上分析,类比标准差的定义过程,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
2.叠加平均
一般情形下, 表明成对样本数据正相关, 表明成对样本数据负相关。
思考:你认为, 的大小一定能度量出成对样本数据的相关程度吗?
因为 的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米
3.“标准化”处理后的成对样本数据再构造
平移
标准化
平均叠加
(均值为0,方差为1)
定义:样本相关系数
样本标准差 样本相关系数
样本标准差与样本相关系数的定义比较
样本标准差 样本相关系数
对象
叠加平均
标准化
平移
构造
二、知识建构:探求样本相关系数的取值范围
样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可以反映成对样本数据的变化特征.
当r>0时,称成对数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小。
样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下r的取值范围.
二、知识建构:探求样本相关系数的取值范围
定义:n维向量的数量积
思考:观察r的结构,联系二维向量、三维向量数量积的坐标表示,你有什么发现?
从向量的角度如何理解样本相关系数
从向量的角度如何理解样本相关系数
思考:当|r|=1时,成对样本数据之间具有怎样的关系呢?
环节四、小组展示(2)(5分钟)
小结:关于样本相关系数,我们应该知道的:
追问:样本相关系数r=0时,样本一定是无相关关系吗?
r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
答:
小贴士:利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著.
图(1)是正线性相关,
图(2)是负线性相关;
图(1)中的线性相关程度要比图(2)中强一些;
图(3)和图(4)中的线性相关程度很弱,
其中图(4)中线性相关程度极弱.
样本
总体
抽样
成对样本数据的样本相关系数
两个随机变量
的相关性
计算
分析
解释
对于简单随机样本而言,样本具有随机性,因此样本相关系数r 也具有随机性.
一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
三、知识建构:总体相关系数与样本相关系数的关系
例1:根据下表中脂肪含量和年龄的样本数据,画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数判断年龄和脂肪的相关程度和变化趋势的异同?
四、知识运用——回归情境问题
编号 1 2 3 4 5 6 7
年龄/岁 23 27 39 41 45 49 50
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄/岁 53 54 56 57 58 60 61
脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6
解:先画出散点图,如下图所示:
观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关。
由样本相关系数 ,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。脂肪含量与年龄变化趋势相同。
例2:有人收集了某城市居民年收入(即所有居民在一年内收人的总和)与A商品销售额的10年数据,如下表所示.
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数判断居民年收入与A商品销售额的相关程度和变化趋势的异同.
环节五、小组展示(3)(5分钟)
解:画出成对样本数据的散点图(如上图). 从散点图看,A商品销售额与居民年收人的样本数据呈现出线性相关关系.
由样本数据计算得样本相关系数r≈0. 95.由此可以推断,A商品销售额与居民年收人正线性相关,即A商品销售额与居民年收人有相同的变化趋势,且相关程度很强.
课堂练习
课本P103:第1-4题.
环节六、尝试运用 (5分钟)
请4个小组安排代表书写解答过程,
各自选一题
课堂练习
课本P103:第1-4题.
环节七、小组展示 (2分钟)
1.由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的相关关系?为什么?
答.样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系。
一般来说, 样本量越大,根据样本相关系数推断变量之间相关的正负性及线性相关的程度越可靠,而样本量越小则越不可靠。
一个极端的情况是,无论两个变量之间是什么关系,如果样本量取2,则计算可得样本相关系数的绝对值都是1 (在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的。
环节八、组内核对 (2分钟)
2.已知变量x和变量y的3对随机观测数据(2, 2),(3,-1),(5, -7),计算两个变量的样本相关系数.能据此推出这两个变量几乎处处线性相关吗?为什么?
虽然样本相关系数为-1,三个样本点在一条直线上, 但是由于样本量太小,据此推断两个变量完全线性相关并不可靠.
从散点图看,以上各组成对样本数据都表现出很强的相关性.但从样本相关系数看,差别很大,(1)中线性相关的成对数据样本相关系数最大,(4) 中对称性的数据样本相关系数最小,其他介于二者之间。可见,样本相关系数主要刻画的是成对样本数据线性相关的程度.
4.解:先画销售额与广告支出的散点图,如图所示.从散点分布可以看出销售额与广告支出正相关.计算可得样本相关系数r≈0.83,可以推断销售额与广告支出正线性相关,且相关程度较强.销售额与广告支出的变化趋势相同,但随着广告支出超过10万元后,销售额增加幅度变缓.
引例:年龄与脂肪含量相关性研究
定性研究
定量研究
散点图
相关系数
横向理解
定义的几何意义
(向量的夹角余弦值)
实例应用
纵向理解
相关系数定义
(标准差的定义)
环节九、课堂小结
P103习题8.1:2、3
环节十、课后作业
对变量和变量,设经过随机抽样获得的成对样本数据,其中和的均值分别为和,则两个变量的样本相关系数为:
将向量的维数推广到维,维向量的数量积的定义为
,
其中为向量的夹角.
类似于平面或空间向量的坐标表示,对于向量和,我们有
4、的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.当越接近于1时,成对样本数据的线性相关程度越强;
当越接近于0时,成对样本数据的线性相关程度越弱.
1、两个随机变量的相关性可以通过成对样本数据进行分析,样本相关系数可以反映两个随机变量之间的线性相关程度.
2、.
3、的符号反映了相关关系的正负性.
为正时,表明变量和线性正相关;为负时,表明变量和线性负相关.
$$