内容正文:
单击此处添加文本具体内容
第八章 成对数据的统计分析
8.1 成对数据的统计相关性
8.1.2 样本相关系数
[学习任务]
1.结合实例,会通过相关系数比较多组成对数据的相关性.
2.了解样本相关系数与标准化数据向量夹角的关系.
8.1.2 样本相关系数
[对应学生用书第82页]
知识点 样本相关系数
1.样本相关系数计算公式
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和,将数据以(,)为零点进行平移,得到平移后的成对数据为(x1-,y1-),(x2-,y2-),…,(xn-,yn-),则变量x和变量y的样本相关系数
8.1.2 样本相关系数
r==
8.1.2 样本相关系数
2.样本相关系数的意义
样本相关系数r可以反映两个随机变量之间的线性相关程度:r 的符号反映了相关关系的正负性;|r|的大小反映了两个变量线性相关的程度,即成对样本数据在直角坐标系中所对应的散点集中于一条直线的程度,因此用成对样本数据中变量x和变量y的样本相关系数r这一数据特征估计总体的相关系数,从而了解两个变量之间的相关程度.
8.1.2 样本相关系数
3.样本相关系数的性质
(1)|r|≤1;
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;
(3)当|r|越接近于1时,成对样本数据的线性相关程度越强;
当|r|越接近于0时,成对样本数据的线性相关程度越弱.特别是,当|r|=1时,说明成对样本数据都落在一条直线上.
8.1.2 样本相关系数
1.下面对相关系数r描述正确的是 ( )
A.r>0表明两个变量负相关
B.r>1表明两个变量正相关
C.r只能大于零
D.|r|越接近于0,两个变量相关关系越弱
8.1.2 样本相关系数
答案 D
解析 因r>0表明两个变量正相关,故A错误;又因r∈[-1,1],故B,C错误;两个变量之间的相关系数r的绝对值越接近于1,表明两个变量的线性相关性越强,r的绝对值越接近于0,表示两个变量之间的线性相关性越弱,故D正确.
8.1.2 样本相关系数
2.(多选)下面的各图中,散点图与相关系数r符合的是 ( )
解析 因为相关系数r的绝对值越接近1,线性相关程度越高,且r>0时正相关,r<0时负相关,故观察各选项,易知B不符合,A,C,D均符合,故选ACD.
答案 ACD
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
[对应学生用书第83页]
探究一 线性相关性的检验
[例1] 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩x(分)与入学后第一次考试的数学成绩y(分)如下:
学生号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
8.1.2 样本相关系数
请问:这10名学生的两次数学成绩是否具有线性相关关系?
[解] =(120+108+…+99+108)=107.8,
=(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116584,
=842+642+…+572+712=47384,
xiyi=120×84+108×64+…+99×57+108×71=73796.
8.1.2 样本相关系数
所以相关系数为r≈0.7506.
由此可看出这10名学生的两次数学成绩具有线性相关关系.
8.1.2 样本相关系数
利用相关系数r判断线性相关关系,需要应用公式计算出r的值,由于数据较大,需要借助计算器.
8.1.2 样本相关系数
1.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
已知=90,=140.78,xiyi=112.3.
8.1.2 样本相关系数
(1)求,;
解 (1)==4,
==5.
8.1.2 样本相关系数
解 (2)xiyi-5 =112.3-5×4×5=12.3,
-5=90-5×42=10,
-5=140.78-125=15.78,
所以r=≈0.979.
所以x与y之间具有很强的线性相关关系.
(2)对x,y进行线性相关性检验.
8.1.2 样本相关系数
探究二 判断线性相关的强弱
[例2] 为利于分层教学,某学校根据学生的情况分成了A,B,C三类,经过一段时间的学习后在三类学生中分别随机抽取了1个学生的5次考试成绩,其统计表如下:
A类
第x次 1 2 3 4 5
分数y(满分150) 145 83 95 72 110
8.1.2 样本相关系数
(xi-)2=10, ·≈180;
B类
第x次 1 2 3 4 5
分数y(满分150) 85 93 90 76 101
(xi-)2=10, ·≈60;
8.1.2 样本相关系数
C类
第x次 1 2 3 4 5
分数y(满分150) 85 92 101 100 112
(xi-)2=10, ·≈63;
8.1.2 样本相关系数
经计算已知A,B的相关系数分别为r1=-0.45,r2=0.25.请计算出C类学生的(xi,yi)(i=1,2,3,4,5)的相关系数,并通过数据的分析回答抽到的哪类学生学习成绩最稳定(结果保留两位有效数字,|r|越大认为成绩越稳定).
附:相关系数r=.
8.1.2 样本相关系数
[解] 根据C类学生的数据,求得相应的相关数据=3,=98,则(xi-)(yi-)=62,所以r3≈≈0.98,从上述所求相关系数可知,从C类学生中抽到的学生的成绩最稳定.
8.1.2 样本相关系数
当r>0时,表明成对样本数据正相关;当r<0时,表明成对样本数据负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
未能明辨相关系数的意义致错
[典例] 下列现象的线性相关程度最强的是 ( )
A.某商店的职工人数与商品销售额之间的相关系数为0.87
B.流通费用率与商业利润率之间的相关系数为-0.94
C.商品销售额与商业利润率之间的相关系数为0.51
D.商品销售额与流通费用率之间的相关系数为0.81
8.1.2 样本相关系数
[错解] A
[错因分析] 这类题易错误地认为r的值越接近1,相关程度越强,从而误选A.
[正解] B
8.1.2 样本相关系数
线性相关程度指的是相关系数r的绝对值接近1的程度,相关系数r的绝对值越接近1,则线性相关程度越强.
8.1.2 样本相关系数
[对应学生用书第85页]
1.(多选)关于回归分析,下列说法正确的是 ( )
A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的也可以是负的
C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
解析 选项D中,样本的相关系数应满足-1≤r≤1,故D错误,其余都正确.
答案 ABC
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
8.1.2 样本相关系数
3.(陕西咸阳高二期中)甲、乙、丙、丁四位同学分别对一组变量进行线性相关试验,并分别计算出相关系数r,则线性相关程度最高的是( )
甲
乙
丙
丁
r
0.87
0.91
0.58
0.83
A.甲 B.乙
C.丙
D.丁
解析 因为相关系数|r|越大,线性相关程度就越强,所以线性相关程度最高的是乙.故选B.
答案 B
4.(河南五市联考)变量x与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量u与v相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1为变量x与y的样本相关系数,r2为变量u与v的样本相关系数,则( )
A.r2<r1<0
B.r2<0<r1
C.0<r2<r1
D.r2=r1
解析 由变量x与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),可得变量x与y正相关,因此r1>0;由变量u与v相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),可得变量u与v负相关,因此r2<0.故r2<0<r1.
答案 B
探究二 判断线性相关的强弱
2.(陕西武功月考)某食品加工厂新研制出一种袋装食品(规格:500 g/袋),下面是近六个月每袋的出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号
1
2
3
4
5
6
每袋的出厂价格x(元)
10.5
10.9
11
11.5
12
12.5
月销售量y(万袋)
2.2
2
1.9
1.8
1.5
1.4
(1)计算该食品加工厂这六个月内这种袋装食品平均每袋的出厂价格、平均月销售量和平均月销售收入;
(2)求每袋的出厂价格与月销售量的样本相关系数(精确到0.01);
(3)若|r|≥0.75,则认为相关性很强,试判断该食品加工厂研制的袋装食品每袋的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数
r= eq \f(\i\su(i=1,n, )(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,n, )(xi-\x\to(x))2)\r(\i\su(i=1,n, )(yi-\x\to(y))2)) , eq \r(0.322) ≈0.57.
解 (1)由题表得,该食品加工厂这六个月内这种袋装食品平均每袋的出厂价格为 eq \f(1,6) ×(10.5+10.9+11+11.5+12+12.5)=11.4(元).平均月销售量为 eq \f(1,6) ×(2.2+2+1.9+1.8+1.5+1.4)=1.8(万袋),平均月销售收入为 eq \f(1,6)
eq \i\su(i=1,6,x) iyi= eq \f(1,6) ×(10.5×2.2+10.9×2+11×1.9+11.5×1.8+12×1.5+12.5×1.4)= eq \f(61,3) (万元).
(2)由题表及(1)得 eq \i\su(i=1,6,x) eq \o\al(\s\up1(2),\s\do1(i)) =782.56, eq \i\su(i=1,6,y) eq \o\al(\s\up1(2),\s\do1(i)) =19.9, eq \i\su(i=1,6,x) iyi=122, eq \x\to(x) =11.4, eq \x\to(y) =1.8,所以样本相关系数
r= eq \f(\i\su(i=1,6, )(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,6, )(xi-\x\to(x))2)\r(\i\su(i=1,6, )(yi-\x\to(y))2))
=eq \o\al(\s\up1(2),\s\do1(i)) eq \f(\i\su(i=1,6,x)iyi-6\x\to(x) \x\to(y),\r(\i\su(i=1,6,x)-6\o(x,\s\up6(-))2)\r(\i\su(i=1,6,y) eq \o\al(\s\up1(2),\s\do1(i)) -6\o(y,\s\up6(-))2))
= eq \f(122-6×11.4×1.8,\r((782.56-6×11.42)×(19.9-6×1.82)))
= eq \f(-1.12,\r(2.8×0.46)) =- eq \f(1.12,2\r(0.322)) ≈- eq \f(1.12,2×0.57) ≈-0.98.
(3)因为|r|≈0.98>0.75,所以该食品加工厂研制的袋装食品每袋的出厂价格与月销售量有较强的相关性.
2.(山东菏泽期末)对四组不同数据进行统计,获得如图所示的散点图,对它们的样本相关系数进行比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
解析 由给出的四组数据的散点图可以看出,图①和图③中的成对数据是正相关的,样本相关系数大于0,图②和图④中的成对数据是负相关的,样本相关系数小于0,图①和图②中的点相对更加集中于一条直线附近,所以相关性更强,所以r1接近于1,r2接近于-1,由此可得r2<r4<0<r3<r1.
答案 A
3.(天津)调查某种群花萼长度和花瓣长度如图①,所得数据如图②所示.其中样本相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.824 5
解析 因为样本相关系数r=0.824 5,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以选项A,B错误,选项C正确;因为样本相关系数与样本的数据有关,所以当样本发生变化时,样本相关系数也会发生变化,所以选项D错误.
答案 C
4.为了对2020年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩x
68
72
78
81
85
88
91
93
物理成绩y
70
66
81
83
79
80
92
89
用变量y与x的样本相关系数r(精确到0.01)说明物理成绩y与数学成绩x的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据: eq \i\su(i=1,8,x) iyi=52 957,
eq \o\al(\s\up1(2),\s\do1(i)) eq \r(\i\su(i=1,8,x)-8\o(x,\s\up6(-))2)
eq \r(\i\su(i=1,8,y) eq \o\al(\s\up1(2),\s\do1(i)) -8\o(y,\s\up6(-))2)
≈545.82.
解 eq \x\to(x) = eq \f(68+72+78+81+85+88+91+93,8) =82,
eq \x\to(y) = eq \f(70+66+81+83+79+80+92+89,8) =80,
r=eq \o\al(\s\up1(2),\s\do1(i)) eq \f(\i\su(i=1,8,x)iyi-8\x\to(x) \x\to(y),\r(\i\su(i=1,8,x)-8\o(x,\s\up6(-))2)\r(\i\su(i=1,8,y) eq \o\al(\s\up1(2),\s\do1(i)) -8\o(y,\s\up6(-))2))
≈ eq \f(52 957-8×82×80,545.82) = eq \f(477,545.82) ≈
0.87>0.所以,由样本估计总体,可知物理成绩y与数学成绩x的线性相关程度较强,且呈正相关,它们的变化趋势相同.
$$