内容正文:
4.1 成对数据的统计相关性
课程内容标准
学科素养凝练
1.会作散点图,并利用散点图判断两个变量之间是否具有相关关系.
2.结合具体实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.
3.结合实例,会通过相关系数比较多组成对样本数据的相关性.
利用散点图判断两个变量之间是否具有相关关系以及学习样本相关系数等概念并通过相关系数比较多组成对样本数据的相关性的过程中,提升数学抽象、数学运算、数据分析、数学建模的核心素养.
[对应学生用书P122]
1.对成对样本数据(Hi,Wi),以Hi的值为横坐标,以Wi的值为纵坐标,建立直角坐标系,则每对数据(Hi,Wi)都可以在直角坐标系中用一个点Pi(i=1 , 2,…)表示,这些点称为散点,由坐标系及散点形成的数据图叫做散点图.
2.如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系,简称为相关关系.
一般地,对n个成对观测数据(x1,y1),(x2,y2),…,(xn,yn),用{xi}表示数据x1,x2,…,xn,用{yi}表示数据y1,y2,…,yn,用=xi与=yi分别表示{xi}和{yi}的均值,用sx=,sy=分别表示{xi}与{yi}的标准差,
记 sxy=-
=(xi-)(yi-).
则当xsy≠0时,我们称
rxy==
=
=为{xi}和{yi}的相关系数.
1.rxy的取值范围是[-1,1],当0<rxy<1时,称{xi}和{yi}正相关;当-1<rxy<0时,称{xi}和{yi}负相关;当rxy=0时,称{xi}和{yi}不相关.
2.|rxy|越接近于1,变量x, y的线性相关程度越强,这时数据(x1,y1),(x2,y2),…,(xn,yn)分散在一条直线附近.
3.|rxy|越接近于0,变量x, y的线性相关程度越低.
4.rxy具有对称性,即rxy=ryx.
5.rxy仅仅是变量x,y之间线性相关程度的一个度量.rxy=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系.
统计经验告诉我们,当rxy>0.8时,y有随着x的增加而增加的趋势,这时我们认为{xi}和{yi}是高度正相关的;当rxy<-0.8时,y有随着x的增加而减少的趋势,这时我们称{xi}和{yi}是高度负相关的.
对多组成对数据之间的相关性讨论,可将其分成几个不同的两组数据分别进行相关性分析.
设a=(x1-,x2-,…,xn-), b=( y1-,y2-,…,yn-),
则有cos 〈a,b〉==.
当夹角属于[0,)时,余弦值越大表示两个向量的夹角越小,两组数据的正相关程度越高;余弦值越小表示两个向量的夹角越大,两组数据的正相关程度越低.
当夹角属于(,π]时,余弦值越大表示两个向量的夹角越小,两组数据的负相关程度越低;余弦值越小表示两个向量的夹角越大,两组数据的负相关程度越高.
当夹角为时,余弦值为0,这说明两组数据不相关.
1.判断下列说法是否正确,正确的在它后面的括号里画“√”,错误的画“×”.
(1)样本(线性)相关系数r的取值范围是(-1,1).( )
(2)|r|值越接近1,随机变量之间的线性相关程度越弱.( )
(3)当r<0时,两个随机变量负相关.( )
(4)一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.( )
答案:(1)× (2)× (3)√ (4)√
2.已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是( )
A.-0.95 B.-0.13
C.0.15 D.0.96
A 解析:相关系数r<0时,成对数据负相关,且|r|越大,两个变量之间的线性相关程度越强.
3.下列现象中线性相关程度最强的是( )
A.商店的职工人数与商品销售额之间的线性相关系数为0.87
B.流通费用率与商业利润率之间的线性相关系数为-0.94
C.商品销售额与商业利润率之间的线性相关系数为0.51
D.商品销售额与流通费用率之间的线性相关系数为0.70
B 解析:线性相关系数r的绝对值越接近于1,两个变量间的线性相关程度越强.
4.某企业的某种产品产量与单位成本数据如下表:
产量x/千件
2
3
4
3
4
5
单位成本y/ (元/件)
73
72
71
73
69
68
则相关系数rxy=________.
-0.91 解析:i=21,i=426,=79,
=30 268,iyi=1 481,=3.5,=71,
所以rxy=
=≈-0.91.
[对应学生用书P124]
在研究两个变量y与x的相关关系时,分别选择了四组不同的数据,由这四组不同的数据得到的相关系数r分别为0.25,0.50,