内容正文:
8.1 成对数据的统计相关性
课时2 样本相关系数
学习目标
课程目标 学科核心素养
了解样本相关系数与标准化数据向量夹角的关系 通过样本相关系数与标准化数据向量夹角关系的探究,培养数学抽象、数学运算素养
结合实例,会通过样本相关系数比较多组成对数据的相关性 借助样本相关系数比较多组成对数据的线性相关程度,培养数据分析、数学运算素养
情境导学
一般来说,通过散点图可以推断两个变量之间是否存在相关关系,是正相关还是负相关,是线性相关还是非线性相关,但这些推断是定性的推断.另外由于在作图过程中存在误差,有时很难判断这些点是否在同一条直线上,也就无法量化两个变量之间相关程度的大小. 能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?为了从定量的角度刻画成对样本数据的线性相关程度,我们需要定义合适的数字特征进而推断两个变量的线性相关程度.想一想,这个数字特征该如何定义更合理.
初探新知
【活动1】
样本相关系数的初构造
问题1
设年龄与脂肪含量分别为x,y,则变量x和变量y具有相关关系,经过随机抽样得到的成对数据为(x1,y1),(x2,y2),…,(xn,yn),其中=,=,将数据以(,)为零点进行平移,得到平移后的成对数据是什么?对应的散点图有何特点?
问题2
根据问题1的分析,你能构造一个数字特征量描述成对样本数据是正相关还是负相关的吗?
初探新知
【活动2】
样本相关系数的再构造
问题3
你认为Lxy的大小一定能度量出成对样本数据的相关程度吗?对均值、方差等数字特征描述单变量数据进行分析比较,成对样本数据会出现什么新情况?我们应该如何改进使之更为合理?
初探新知
【活动3】
样本相关系数刻画成对数据相关程度的探究
问题4
样本相关系数r的大小与成对数据的相关程度有什么内在联系呢?
问题5
在问题4的探究过程中,|x'|=|y'|=是怎样得来的?样本相关系数r的取值范围是什么?
问题6
当|r|=1时,成对样本数据之间具有怎样的关系?
初探新知
【活动4】
样本相关系数刻画成对数据相关程度的探究
问题7
样本数据线性相关程度用什么量来刻画?样本相关系数具有哪些性质呢?
问题8
若成对数据的样本相关系数r=0,则这两个变量没有相关关系.这种说法是否正确?为什么?
典例精析
【思路点拨】根据题意将样本相关系数公式适当变形,能够减少一定的计算量.
【例1】某种机械设备随着使用年限的增加,使用价值逐年减少,通常把它使用价值逐年减少的量换算成费用,称之为折旧费.某种机械设备的使用年限x(单位:年)与折旧费y(单位:万元)的统计数据如表.
根据上表数据,计算y与x的样本相关系数r,并说明y与x的线性相关程度的强弱.(若0.75≤≤1,则认为y与x线性相关程度很强;若0.25≤<0.75,则认为y与x线性相关程度一般;若<0.25,则认为y与x线性相关程度较弱)
附:=
典例精析
【解】
已知,
=×(2+4+5+6+8)=5,=×(3+4+5+6+7)=5,=2×3+4×4+5×5+6×6+8×7=139,
=22+42+52+62+82=145,=32+42+52+62+72=135,
所以r===≈0.99,
因为0.75≤r≤1,所以认为y与x的线性相关程度很强.
典例精析
【方法规律】
确将样本相关系数r的计算公式变形,明“算理”,细心计算.即
==.
证明如下:分子:=
=--+=-+
=-
分母:==
==.同理=
典例精析
【变式训练1】[教材改编题]科研人员在对人体脂肪含量y和年龄x之间关系的研究中,获得了一组年龄x和脂肪含量y的样本数据,如表.
根据表中的样本数据,计算样本相关系数(结果保留两位小数),并描述它们的线性相关程度.
附:=27,=13527.8,=23638,=7759.6,
典例精析
【解】
根据题表中的样本数据知,==47,则样本相关系数
r===
==≈0.98.
由样本相关系数r≈0.98,可以推断人体脂肪含量和年龄的相关程度很强.
典例精析
【思路点拨】利用样本相关系数公式和题给数据计算样本相关系数,判断线性相关程度.
【例2】 互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中的一部分.某市一调查机构针对该市市场占有率较高的甲、乙两家网络外卖企业(以下称甲、乙)的日接单量进行了调查,调查结果如表.
(1) 试根据表格中这五天的日接单量,从统计的角度说明这两家外卖企业的经营状况;
(2) 据统计表明,y与x之间具有线性相关关系,请用样本相关系数r对y与x之间线性相关程度的强弱进行判断.(若>0.75,则可认为y与x线性相关程度较强)
附:
典例精析
【解】
(1) 由题意可得==7