内容正文:
第4章
统 计
4.1
成对数据的统计相关性
[教学方式:深化学习课——梯度进阶式教学]
课时目标
1.通过实例,能够理解两个变量的线性相关关系以及正相关、负相关.
2.利用给出的数据会画两个变量的散点图,通过散点图能够判断出两个变量的相关性.
3.了解两个随机变量间的相关系数r,会利用公式求相关系数r,并能利用相关系数r判断两个随机变量间线性相关程度的强弱.
CONTENTS
目录
1
2
3
课前预知教材·自主落实基础
课堂题点研究·迁移应用融通
课时跟踪检测
课前预知教材·自主落实基础
01
1.散点图
以两个变量x,y的取值分别为横、纵坐标建立直角坐标系,则每对数据(xi,yi)都可在直角坐标系中用一个点Pi(i=1,2,…,k)表示.这些点称为散点,由_________及_____形成的数据图叫作散点图.
坐标系
散点
2.相关系数的定义
3.相关系数的性质
(1)rxy的取值范围是_________.当0<rxy<1时,称{xi}和{yi}___________;当-1<rxy<0时,称{xi}和{yi}_______;当rxy=0时,称{xi}和{yi}________.
(2)|rxy|越接近于1,变量x,y的线性相关程度越____,这时数据(x1,y1),(x2,y2),…,(xn,yn)分散在一条直线附近.
(3)|rxy|越接近于0,变量x,y的线性相关程度______.
(4)rxy具有对称性,即rxy=ryx.
(5)rxy仅仅是变量x与y之间线性相关程度的一个度量.rxy=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系.
[-1,1]
正相关
负相关
不相关
高
越低
4.相关系数与向量夹角
为了两个向量表达的一致性,用余弦来刻画两个向量的相关关系时,通常将向量的每个元素都减去均值,形成a=(x1- ,x2- ,…,xn- ),b=(y1- ,y2- ,…,yn- ),
由上可知,用两组成对数据表示的向量在原点处夹角的余弦值与相关系数公式本质上是一致的.
当夹角属于 时,余弦值越大表示两个向量的夹角越小,两组数据的正相关程度越高;余弦值越小表示两个向量的夹角越大,两组数据的正相关程度越低.
当夹角属于 时,余弦值越大表示两个向量的夹角越小,两组数据的负相关程度越低;余弦值越小表示两个向量的夹角越大,两组数据的负相关程度越高.
当夹角为 时,余弦值为0,这说明两组数据不相关.
1.试从下面四个图中的点在散点图上的分布状态,直观上初步判断两个变量之间有线性相关关系的是 ( )
基础落实训练
√
2.某部门所属的10个工业生产性固定资产价值与工业增加值资料如下表(单位:百万元):
固定资
产价值 3 3 5 6 6 7 8 9 9 10
工业
增加值 15 17 25 28 30 36 37 42 40 45
根据上表资料计算得相关系数r=0.991 8,则固定资产价值与工业增加值之间的线性相关程度________.(填“较强”或“较弱”)
解析:由于相关系数r=0.991 8接近于1,所以固定资产价值与工业增加值之间的线性相关程度较强.
较强
课堂题点研究·迁移应用融通
02
题型(一) 散点图及应用
[例1] 两对变量A和B,C和D的取值分别对应如表1和表2,画出散点图,判断它们是否有相关关系;若具有相关关系,说出它们相关关系的区别.
表1
A 26 18 13 10 4 -1
B 20 24 34 38 50 64
表2
C 0 5 10 15 20 25 30 35
D 541.67 602.66 672.09 704.99 806.71 908.59 975.42 1 034.75
解:作出散点图分别如图①②所示.
从图中可以看出两图中的点都分布在一条直线附近,因此两图中的变量都具有相关关系.
图①中A的值由大变小时,B的值却是由小变大.
图②中C的值由小变大时,D的值也是由小变大.
|思|维|建|模| 画散点图的一般步骤
(1)建立平面直角坐标系,注意,两轴的长度单位可以不一致;
(2)将n个数据点(xi,yi)(i=1,2,3,…,n)描在平面直角坐标系中,描出的点可以是实心点,也可以是空心点;
(3)画直线时,一定要画在多数点经过的区域.具体作直线时,用一条透明的直尺边缘尽量靠近或经过大多数点,然后画出直线.
针对训练
1.对某种鸡胚胎的生长进行研究,测得5日~20日鸡的日龄与胚胎的质量如下表:
日龄/天 5 6 7 8 9 10 11 12
胚重/g 0.250 0.498 0.846 1.288 1.656 2.662 3.100 4.576
日龄/天 13 14 15 16 17 18 19 20
胚重/g 6.518 7.486 9.948 14.522 15.610 19.914 23.736 26.472
(1)请作出这些数据的散点图;
解:以鸡胚胎的日龄为x轴,以胚重为y轴,作出散点图如图所示.
(2)关于这两个变量的关系,你能得出什么结论?
解:从散点图观察,许多点不在同一直线附近,但可以看出随着时间的增加,胚重增长得越来越快,所以具有相关关系.
题型(二) 相关系数的性质
[例2] 对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断 ( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:由这两个散点图中的点的散布情况可以判断,变量x与y负相关,u与v正相关,故选C.
√
|思|维|建|模|
解决此类问题的关键是掌握相关系数的性质,牢记相关系数的绝对值越接近1,两变量的相关性越强.
针对训练
2.已知四组不同数据的两个变量的相关系数r如下:数据组①的相关系数r1=0;数据组②的相关系数r2=-0.95;数据组③的相关系数|r3|=0.89;数据组④的相关系数r4=0.75.则下列说法正确的是 ( )
A.数据组①对应的数据点都在同一直线上
B.数据组②中的两个变量线性相关性最强
C.数据组③中的两个变量线性相关性最强
D.数据组④中的两个变量线性相关性最强
√
解析:因为r1=0,所以数据组①中的两个变量不是线性相关关系,对应的数据点不可能都在同一直线上,故A不正确;因为|r2|最大,所以数据组②中的两个变量线性相关性最强,故B正确,C、D不正确.
3.[多选]下面的散点图与相关系数r一定不符合的是 ( )
√
√
√
解析:根据|r|的值越接近于1时,两个变量的相关关系越明显,|r|越接近于0时,两个变量的相关关系越不明显,对四个选项一一判断:
对于A,变量x,y的散点图从左到右是向下的带状分布,所以相关系数-1<r<0,所以A不符合;对于B,变量x,y的散点图从左向右是上升的,所以相关系数r>0,故B不符合;对于C,变量x,y的散点图从左到右是向下的带状分布,所以相关系数-1<r<0,所以C符合;对于D,变量x,y的散点图从左向右是上升的带状分布,所以相关系数0<r<1,故D不符合.
题型(三) 相关系数的计算及应用
[例3] 潜叶蝇是南方地区水稻容易遭受的虫害之一,成虫将虫卵产在叶片里,待虫卵孵化之后幼虫会在叶片中啃食叶肉,使得秧苗的叶片呈现白色的状态,进而降低水稻产量.经研究,每只潜叶蝇的平均产卵数y(单位:个)和夏季平均温度x(单位:℃)有关,现收集了某地区以往6年的数据,得到下面数据统计表格.
夏季平均温度xi/℃ 21 23 25 27 29 31
产卵数yi/个 7 11 21 22 64 115
根据相关系数rxy判断潜叶蝇的平均产卵数y与夏季平均温度x是否具有相关关系.
|思|维|建|模|
利用相关系数r进行相关关系的判断时,需要应用公式计算出r的值,由于数据较大,需要借助计算器,但计算时应该特别细心,避免出现计算错误.
针对训练
4.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x 2 4 6 8
y 30 40 50 70
(1)画出(x,y)的散点图;
解:画出(x,y)的散点图如图所示.
(2)计算x与y之间的相关系数,并判断它们的相关程度.
题型(四) 向量夹角与相关关系
[例4] 近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在M省的发展情况,M省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的A,B,C三项指标数据xi,yi,zi(i=1,2,3,4,5),数据如表所示:
城市编号i 1 2 3 4 5
A指标xi 4 6 2 8 5
B指标yi 4 4 3 5 4
C指标zi 3 6 2 5 4
利用向量夹角来分析y与x之间及z与x之间的相关关系.
记a=(x1- ,x2- ,x3- ,x4- ,x5- ),b=(y1- ,y2- ,y3- ,y4- ,y5- ),
c=(z1- ,z2- ,z3- ,z4- ,z5- ).
则a=(-1,1,-3,3,0),b=(0,0,-1,1,0),c=(-1,2,-2,1,0).
a·b=-1×0+1×0+(-3)×(-1)+3×1+0×0=6,a·c=-1×(-1)+1×2+ (-3)×(-2)+3×1+0×0=12,
针对训练
5.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了9次试验,收集数据如表所示.
零件数Hi/个 10 20 30 40 50 60 70 80 90
加工时间
Wi/min 62 68 75 81 89 95 102 108 112
用向量夹角来分析表中两组数据的相关关系.
课时跟踪检测
03
1
3
4
5
6
7
8
9
10
2
1.下列两个变量中,成正相关的两个变量是 ( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
√
解析:一般情况下,汽车越重,则每公里耗油量越多,成正相关,故A正确;正方形的面积与边长是函数关系,故B错误;一般情况下,若花费在体育活动上面的时间越长,则期末考试数学成绩可能会降低,故不为正相关,故C错误;期末考试随机编排的准考证号与期末考试成绩总分没有相关关系,故D错误.
1
5
6
7
8
9
10
2
3
4
√
2.通过随机抽样,我们绘制了如图所示的某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的散点图.若去掉图中右下方的点A后,则下列说法正确的是 ( )
A.“每千克价格”与“年需求量”
这两个变量由负相关变为正相关
B.“每千克价格”与“年需求量”
这两个变量的线性相关程度不变
C.“每千克价格”与“年需求量”
这两个变量的线性相关系数变大
D.“每千克价格”与“年需求量”
这两个变量的线性相关系数变小
1
5
6
7
8
9
10
2
3
4
解析:去掉图中右下方的点A后,根据图象,两个变量还是负相关,A错误;去掉图中右下方的点A后,相对来说数据会集中,相关程度会更高,但因为是负相关,相关系数会更接近-1,相关系数会变小,故D正确,B、C错误.
1
5
6
7
8
9
10
3
4
2
3.给定y与x的一组成对数据,求得相关系数rxy=-0.690,则 ( )
A.y与x不相关 B.y与x正相关
C.y与x负相关 D.以上都不对
√
解析:因为rxy=-0.690<0,所以y与x负相关.
1
5
6
7
8
9
10
3
4
2
4.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度 ( )
√
x 5 10 15 20 25
y 103 105 110 111 114
1
5
6
7
8
9
10
3
4
2
1
5
6
7
8
9
10
3
4
2
5.(5分)如图所示,有5组(x,y)数据的散点图,去掉___________组数据后,剩下的4组数据的线性相关系数最大.
解析:因为A,B,C,E四点分布在一条直线附近且贴近某一直线,D点离得远,即去掉D点剩下的4组数据的相关性最大,所以应该去掉D.
D
1
5
6
7
8
9
10
3
4
2
0.849
1
5
6
7
8
9
10
3
4
2
7.(5分)已知某个样本点中的变量x,y线性相关,相关系数r<0,则在以()为坐标原点的坐标系下的散点图中,大多数的点都落在第________象限.
二、四
=
1
5
6
7
8
9
10
3
4
2
8.(10分)在一次对人体的脂肪含量和年龄之间的关系的研究中,研究人员获得了多组成对数据如表.
年龄/岁 23 27 39 41 45 49 50
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2
年龄/岁 53 54 56 57 58 60 61
脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6
其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数.根据上述数据,你能推断出人体的脂肪含量与年龄之间存在怎样的关系吗?
1
5
6
7
8
9
10
3
4
2
解:用横轴表示年龄,纵轴表示脂肪含量,可将成对数据用直角坐标系中的点表示出来,得到相应的统计图如图所示,图中的点散布在从左下角到右上角的区域,大致在一条直线附近,推断脂肪含量变量和年龄变量之间存在着相关关系.
1
5
6
7
8
9
10
3
4
2
9.(10分)某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量x(单位:件)与相应的生产总成本y(单位:万元)的五组对照数据:
产量x/件 1 2 3 4 5
生产总成本y/万元 3 7 8 10 12
1
5
6
7
8
9
10
3
4
2
解:==3,==8,=
=,
=
=,
(xi-)(yi-)=(1-3)×(3-8)+(2-3)×(7-8)+(3-3)×(8-8)+(4-3) ×(10-8)
+(5-3)×(12-8)=21,
故相关系数rxy=≈0.98,
∵rxy≈0.98>0.8,∴y与x高度正相关.
1
5
6
7
8
9
10
3
4
2
10.(15分)我国风云系列卫星可以检测气象和国土资源情况.某地区水文研究人员为了了解汛期人工测雨量x(单位:dm)与遥测雨量y(单位:dm)的关系,统计得到该地区10组雨量数据如下:
样本号i 1 2 3 4 5 6 7 8 9 10
人工测
雨量xi 5.38 7.99 6.37 6.71 7.53 5.53 4.18 4.04 6.02 4.23
遥测
雨量yi 5.43 8.07 6.57 6.14 7.95 5.56 4.27 4.15 6.04 4.49
|xi-yi| 0.05 0.08 0.2 0.57 0.42 0.03 0.09 0.11 0.02 0.26
并计算得≈353.6,≈361.7,≈357.3,≈33.62,≈34.42, ≈34.02.
1
5
6
7
8
9
10
3
4
2
(1)求该地区汛期遥测雨量y与人工测雨量x的相关系数(精确到0.01),并判断它们是否具有较强的线性相关关系(若|r|≥0.75,则认为两个变量有较强的线性相关关系);(5分)
解:因为r= ≈
=
≈0.98>0.75.所以该地区汛期遥测雨量y与人工测雨量x有很强的线性相关关系.
1
5
6
7
8
9
10
3
4
2
(2)规定:数组(xi,yi)满足|xi-yi|<0.1为“Ⅰ类误差”,满足0.1≤|xi-yi| <0.3为“Ⅱ类误差”,满足|xi-yi|≥0.3为“Ⅲ类误差”.为进一步研究,该地区水文研究人员从“Ⅰ类误差”、“Ⅱ类误差”中随机抽取3组数据与“Ⅲ类误差”数据进行对比,记抽到“Ⅰ类误差” 的数据的组数为X,求X的分布列与数学期望.(10分)
附:≈17.4.
1
5
6
7
8
9
10
3
4
2
解:10组数据中,“Ⅰ类误差”有5组,“Ⅱ类误差”有3组,“Ⅲ类误差”有2组,由题意,X的所有可能取值为0,1,2,3,
则P(X=0)==,P(X=1)==,P(X=2)===,
P(X=3)===.所以X的分布列为
X 0 1 2 3
P
所以X的数学期望E(X)=1×+2×+3×=.
本课结束
更多精彩内容请登录:www.zghkt.cn
从而有cos<a,b>==.
解:=xi==26,
=yi==40,
rxy===≈≈0.89>0.8.故可以判断潜叶蝇的平均产卵数y与夏季平均温度x具有很强的正相关关系.
解:=5,=47.5,=120,=9 900,xiyi=1 080,
故相关系数rxy==≈0.982 7.
由相关系数rxy≈0.982 7,可以判断生产原料耗费与销售额这两个变量正相关,且相关程度很高.
解:由已知得==5,==4,
==4,
将题表中x,y,z的相关数据分别减去,,,
|a|==2,|b|==,
|c|==,于是cos<a,b>==≈0.95,
cos<a,c>==≈0.85,
所以y与x,z与x正相关.又cos<a,b>>cos<a,c>,则y与x之间的相关性比z与x之间的相关性强.
解:由于=50,=88,将表中的两组数据分别减去,,
记h=(H1-,H2-,…,H9-),w=(W1-,W2-,…,W9-).
则h=(-40,-30,-20,-10,0,10,20,30,40),w=(-26,-20,-13,-7,1,7,14,20,24),
∴h·w=3 880,|h|=20,|w|=2.∴cos<h,w>==≈0.999.
由此看出,其余弦值接近于1,也就是两向量的夹角接近于0,这说明这两组数据高度正相关.
(参考数据:=1 375,=59 051,xiyi=8 285)
A.很强 B.很弱
C.无相关 D.不确定
解析:由题可得=×(5+10+15+20+25)=15,
=×(103+105+110+111+114)=108.6,
则rxy==
≈0.982 6,因为相关系数很接近于1,故两个变量的线性相关程度很强.
6.(5分)在成对数据中,已知(xi-)2是(yi-)2的2倍,(xi-)(yi-)是(yi-)2的1.2倍,则这组数据的相关系数rxy≈_________.(精确到0.001,≈1.414)
解析:由题意可知,(xi-)2=2(yi-)2,(xi-)(yi-)=1.2(yi-)2,相关系数rxy===≈≈0.849.
解析:由r<0,则(xi-)(yi-)<0,
所以大多数点xi-与yi-异号,又()为坐标原点,
故大多数的点都落在第二、四象限.
参考公式:rxy=.
参考数据:≈10.7.
$