内容正文:
8.1.2 样本相关系数
课标要求
1.结合实例,了解样本相关系数的统计含义(数学抽象).
2.结合实例,会通过样本相关系数判断多组成对样本数据的相关性(数学运算、数据分析).
情境导入
散点图可以说明变量间有无线性相关关系,但无法量化两个变量之间的相关程度的大小,更不能精确地说明成对样本数据之间关系的密切程度,那么我们如何才能寻找到这样一个合适的量来对成对样本数据的相关程度进行定量分析呢?
知识点一|样本相关系数
问题 (1)观察如下散点图,你能判断出图1的相关性与图2的相关性哪一个更强吗?
提示:根据散点图不一定能判定.
(2)设x1,x2,…,xn和y1,y2,…,yn的均值分别为和.将每个变量的观测数据减去其均值,得到成对数据为(x1-,y1-),(x2-,y2-),…,(xn-,yn-),并绘制散点图,则绘制的散点图有什么特征?你能利用正负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
提示:由散点图(图略),发现正相关时关于均值平移后的散点大多数分布在第一象限、第三象限,负相关时关于均值平移后的散点大多数分布在第二象限、第四象限.构造一个量:
Lxy=[(x1-)(y1-)+(x2-)(y2-)+…+(xn-)(yn-)].
一般情形下,Lxy>0表明成对样本数据正相关;Lxy<0表明成对样本数据负相关.
(3)你认为Lxy的大小一定能度量出成对样本数据的相关程度吗?
提示:不一定.因为Lxy的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小.
【知识梳理】
相关系数:对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和.r==,称r为变量x和变量y的样本相关系数.
提醒:样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映出成对样本数据的变化特征.当r>0时,称成对样本数据正相关; 当r<0时,称成对样本数据负相关.
【例1】 为了对某班考试成绩进行分析,现从全班同学中随机抽取8位同学,他们的数学、物理成绩对应如表.根据表中数据计算y与x之间的样本相关系数,并判断y与x是正相关关系还是负相关关系.
学生编号
1
2
3
4
5
6
7
8
数学分数x
60
65
70
75
80
85
90
95
物理分数y
72
77
80
85
88
90
93
95
解:由表中数据得,=×(60+65+70+75+80+85+90+95)=77.5,
=×(72+77+80+85+88+90+93+95)=85.
(xi-)(yi-)=685,(xi-)2=1 050,(yi-)2=456.
所以r==≈0.99,y与x之间具有正相关关系.
【规律方法】
样本相关系数的计算步骤
(1)求出,的值;
(2)求出(xi-)(yi-),(xi-)2,(yi-)2的值;
(3)代入公式计算得结果.
训练1 暑期社会实践中,小娴所在的小组调查了某地家庭人口数x与每天对生活必需品的消费y的情况,得到的数据如下表:
x/人
2
4
5
6
8
y/元
20
30
50
50
70
计算y与x之间的样本相关系数,并判断y与x是正相关关系还是负相关关系.
参考数据:≈4.359.
解:由表中数据,计算得=×(2+4+5+6+8)=5,
=×(20+30+50+50+70)=44,
=22+42+52+62+82=145,
=202+302+502+502+702=11 200,
xiyi=2×20+4×30+5×50+6×50+8×70=1 270,代入r的计算公式得
r=≈0.975.
所以y与x之间具有正相关关系.
知识点二|线性相关的强弱
【知识梳理】
样本相关系数r的绝对值大小反映成对样本数据之间线性相关的程度.
(1)当|r|越接近1时,成对样本数据的线性相关程度 越强 ;
(2)当|r|越接近0时,成对样本数据的线性相关程度 越弱 ;
(3)当r=0时,成对样本数据间没有 线性相关 关系,但不排除它们之间有其他相关关系;
(4)当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系.
【例2】 (链接教材P101例1)根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示.依据散点图可以看出,变量x与y线性相关,请计算y与x的样本相关系数r,并说明变量x与y是否具有较强的线性相关关系(若r>0.75,则线性相关程度很强).
附:样本相关系数r==.
解:由所给数据可得==5,
==5,
(xi-)(yi-)=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,
(xi-)2=(-3)2+(-1)2+02+12+32=20,
(yi-)2=(-2)2+(-1)2+02+12+22=10,
∵r===>0.75.
∴变量x与y具有较强的线性相关关系.
【规律方法】
判断线性相关程度强弱的基本方法
(1)散点图:散点图只是粗略作出判断,其图象越接近直线,相关性越强;
(2)样本相关系数:样本相关系数能够较准确地判断相关的程度,其绝对值越接近于1,相关性越强.
训练2 两个变量x,y的样本相关系数r1=0.785 9,两个变量u,v的样本相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
解析:C 由样本相关系数r1=0.785 9>0知x与y正相关,由样本相关系数r2=-0.956 8<0知u,v负相关.又|r1|<|r2|,∴变量u与v的线性相关性比x与y的线性相关性强.
知识点三|样本相关系数的实际应用
【例3】 (链接教材P101例2)以下是收集到的新房屋的销售价格y(万元)和房屋的大小x(m2)的数据.
房屋大小x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)画出数据的散点图;
解:(1)画出散点图如图所示.
(2)求样本相关系数r,并作出评价.(精确到0.01,已知=60 975,=2 756.8,xiyi=12 952)
解:(2)由表中数据得==109,==23.2,
r=
=
=≈0.96,
由此可知,新房屋的销售价格和房屋的大小这两个变量正线性相关,且相关程度很强.
【规律方法】
相关关系强弱的定量分析与定性分析
(1)定量分析:样本相关系数r的范围为-1≤r≤1,r为正时,成对样本数据正相关;r为负时,成对样本数据负相关;|r|越接近1,成对样本数据的线性相关程度越强;|r|越接近0,成对样本数据的线性相关程度越弱;当|r|=1时,所有数据点都在一条直线上;
(2)定性分析:相关关系的强弱体现在散点图中就是样本点越集中在某条直线附近,两变量的线性相关程度越强;样本点在某条直线附近越分散,两变量的线性相关程度越弱.
训练3 为利于分层教学,某学校根据学生的情况分成了A,B,C三类,经过一段时间的学习后在三类学生中分别随机抽取了1个学生的5次考试成绩,其统计表如下:
A类
第x次
1
2
3
4
5
分数y(满分150)
145
83
95
72
110
B类
第x次
1
2
3
4
5
分数y(满分150)
85
93
90
76
101
C类
第x次
1
2
3
4
5
分数y(满分150)
85
92
101
100
112
经计算知A,B的样本相关系数分别为r1=-0.45,r2=0.25.请计算出C类学生的样本相关系数,并通过数据的分析回答抽到的哪类学生的学习成绩最稳定.(结果保留两位有效数字,|r|越大认为成绩越稳定)
C类的参考数据:·≈64,
样本相关系数r=.
解:根据C类学生的数据,得=3,=98,则(xi-)·(yi-)=62,所以相应的样本相关系数r3≈≈0.97,从上述所求样本相关系数可知,从C类学生中抽到的学生的成绩最稳定.
1.关于两个变量x,y与其样本相关系数r,有下列说法:
①若r>0,则x增大时,y也相应增大;②若|r|越接近于1,则x与y的线性相关程度越强;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.
其中正确的有( )
A.①② B.②③
C.①③ D.①②③
解析:D 根据样本相关系数的定义,变量之间的相关关系可利用样本相关系数r进行判断.当r为正数时,表示两个变量x,y正相关;当r为负数时,表示两个变量x,y负相关;|r|越接近于1,相关程度越强;|r|越接近于0,相关程度越弱.故可知①②③正确.
2.两个变量x,y的样本相关系数r=-0.996 2,则下列说法中正确的是( )
A.x与y正相关
B.x与y具有较强的线性相关关系
C.x与y不具有线性相关关系
D.x与y的线性相关关系还需进一步确定
解析:B x与y负相关,又|r|非常接近1,所以x与y具有较强的线性相关关系,故选B.
3.如图1、2分别表示样本容量均为7的A,B两组成对数据的散点图,已知A组成对数据的样本相关系数为r1,B组成对数据的样本相关系数为r2,则r1与r2的大小关系为( )
A.r1=r2 B.r1<r2
C.r1>r2 D.无法判断
解析:C 由题图1可知,散点几乎在一条直线上,且呈正相关,∴r1>0,由题图2可知,散点分布在一条直线附近,且呈正相关,∴r2>0.又A组成对数据的线性相关程度比B组强,∴r1>r2,故选C.
4.某厂生产A产品的产量x(单位:件)与相应的耗电量y(单位:度)的统计数据如表所示:
x
2
3
4
5
6
y
2
3
5
7
8
经计算≈16.12.则(xi,yi)(i=1,2,3,4,5)的样本相关系数r约为 0.99 .(结果保留两位小数)
解析:从表中数据可知,=4,=5,所以(xi-)·(yi-)=16,所以r=≈≈0.99.
课堂小结
1.理清单
(1)样本相关系数;
(2)线性相关的强弱;
(3)样本相关系数的实际应用.
2.应体会
利用公式法计算样本相关系数.
3.避易错
样本相关系数绝对值的大小与相关程度的关系.
1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并分别求得样本相关系数r如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
解析:D 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知,丁的线性相关性最强.
2.下面的散点图与样本相关系数r一定不符合的是( )
A.①②③ B.①②④
C.①③④ D.②③④
解析:C ①中,由散点图可得,两相关变量呈负相关,样本相关系数r<0,故①错误;②中,由散点图可得,两相关变量呈正相关,则样本相关系数可能是r=0.75;③中,若样本相关系数r=-1,则所有的点应该分布在一条直线上,散点图显然不符合,故③错误;④中,若样本相关系数r=1,则所有的点应该分布在一条直线上,散点图显然不符合,故④错误.
3.第一组样本点为(-5,-8.9),(-4,-7.2),(-3,-4.8),(-2,-3.3),(-1,-0.9),第二组样本点为(1,8.9),(2,7.2),(3,4.8),(4,3.3),(5,0.9),第一组变量的线性相关系数为r1,第二组变量的线性相关系数为r2,则( )
A.r1>0>r2 B.r2>0>r1
C.r1<r2<0 D.r2>r1>0
解析:A 观察第一组样本点,y随x的增大而增大,故r1>0;观察第二组样本点,y随x的增大而减小,故r2<0.综上:r1>0>r2.故选A.
4.在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1 B.y=x-1
C.y=x+1 D.y=-x2
解析:A ∵这组成对样本数据的样本相关系数为-1,∴这组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关.∴可排除B、C、D.
5.〔多选〕对于样本相关系数r,下列结论正确的为( )
A.r∈[-1,-0.75]时,两变量负相关很强
B.r∈[0.75,1]时,两变量正相关很强
C.r∈(-0.75,-0.3]或[0.3,0.75)时,两变量相关性一般
D.r=0.1时,两变量相关性很强
解析:ABC 由相关系数的性质,A、B、C正确;D中r=0.1时,两变量相关性较弱,D不正确.
6.现求得甲、乙、丙3组不同的成对样本数据的样本相关系数分别为0.81,-0.98,0.63,其中 乙 (填甲、乙、丙中的一个)组成对样本数据的线性相关程度最强.
解析:因为成对样本数据的样本相关系数的绝对值越接近1,相关程度越强,由题意得,乙组的样本相关系数的绝对值最接近1,所以乙组成对样本数据的线性相关程度最强.
7.已知(yi-)2是(xi-)2的4倍,(xi-)·(yi-)是(xi-)2的1.5倍,则样本相关系数r= 0.75 .
解析:由r=,得r=0.75.
8.在我国,大学生就业压力日益严峻,伴随着政府政策引导与社会观念的转变,大学生创业意识、就业方向也悄然发生转变.某大学生在国家提供的税收、担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数y(单位:万元)与时间t(单位:年)的数据,列表如下:
t
1
2
3
4
5
y
2.4
2.7
4.1
6.4
7.9
依据表中给出的数据,判断y与t的线性相关程度,请计算样本相关系数r并加以说明.(计算结果精确到0.01,若|r|≥0.75,则线性相关程度很高)
附:样本相关系数r=.
参考数据:≈7.547.
解:由题表可知,=3,=4.7,
则r===≈0.97>0.75,
故创收利润数y与时间t的线性相关程度很高.
9.对两组呈线性相关的变量进行回归分析,得到不同的两组样本数据,第一组和第二组对应的线性相关系数分别为r1,r2,则r1>r2是第一组变量比第二组变量线性相关程度强的( )
A.充分不必要条件
B.必要不充分条件
C.充要条件
D.既不充分也不必要条件
解析:D 因为r1>r2,但不确定r1,r2的正负情况,所以不能推出第一组变量和第二组变量的相关程度;若第一组变量比第二组变量相关程度强,则|r1|>|r2|,所以r1>r2是第一组变量比第二组变量线性相关程度强的既不充分也不必要条件.故选D.
10.已知两组数据a1,a2,…,a10和b1,b2,…,b10,其中1≤i≤10且i∈Z时,ai=i;1≤i≤9且i∈Z时,bi=ai,b10=a,我们研究这两组数据的相关性,在集合{8,11,12,13}中取一个元素作为a的值,使得相关性最强,则a=( )
A.8 B.11 C.12 D.13
解析:B 设点的坐标为(ai,bi),1≤i≤10且i∈Z,由题意得前9个点位于直线y=x上,a10=10,则要使相关性更强,b10应更接近10,四个选项中11更接近10,故选B.
11.已知某个样本点中的变量x,y线性相关,相关系数r<0,则在以(,)为坐标原点的坐标系下的散点图中,大多数的点落在第 二、四 象限.
解析:由r=<0,则(xi-)(yi-)<0,所以大多数点xi-与yi-异号,又(,)为坐标原点,故大多数的点落在第二、四象限.
12.某生物小组为了研究温度对某种酶的活性的影响进行了一组试验,试验数据经整理得到如图所示的折线图,由图可以看出,这种酶的活性指标值y与温度x具有较强的线性相关关系,请用样本相关系数加以说明.
附:(xi-)(yi-)=85,=5.5,≈2.65.
解:由题意得=×(8+11+14+20+23+26)=17,(xi-)2=(8-17)2+(11-17)2+(14-17)2+(20-17)2+(23-17)2+(26-17)2=252,∴r===≈0.97,
由此可得这种酶的活性指标值y与温度x具有较强的线性相关关系.
13.某公司是一家集无人机特种装备的研发、制造与技术服务的综合型科技创新企业,产品主要应用于森林消防、物流运输、航空测绘、军事侦察等领域,获得市场和广大观众的一致好评,该公司生产的甲、乙两种类型无人运输机性能都比较出色,但操控水平需要十分娴熟,才能发挥更大的作用.该公司分别收集了甲、乙两种类型无人运输机在5个不同的地点测试的某项指标数xi,yi(i=1,2,3,4,5),数据如表所示:
地点
1
地点
2
地点
3
地点
4
地点
5
甲型无人运输
机指标数x
2
4
5
6
8
乙型无人运输
机指标数y
3
4
4
4
5
(1)试求y与x间的样本相关系数r,并利用r说明y与x是否具有较强的线性相关关系;(若|r|>0.75,则线性相关程度很高)
(2)从这5个地点中任抽2个地点,求抽到的这2个地点,甲型无人运输机指标数均高于乙型无人运输机指标数的概率.
附:相关公式及数据:
r=,≈0.95.
解:(1)==5,==4,
所以(xi-)(yi-)=-3×(-1)+(-1)×0+0×0+1×0+3×1=6,
=9+1+0+1+9=20,=1+0+0+0+1=2,
样本相关系数r===≈0.95,
因为r>0.75,所以y与x具有较强的线性相关关系.
(2)从这5个地点中任抽2个地点,共有=10个样本点,其中在地点3,4,5,甲型无人运输机指标数均高于乙型无人运输机指标数,即所求事件含有3个样本点,故所求事件的概率为.
1 / 2
学科网(北京)股份有限公司
$