内容正文:
第八章
a
P=2+2W
成对数据的统计分析
ax
8.1
成对数据的统计相关性
【素养要求】
通过对两个变量相关关系及样本相关系数的学习,发展直观想象及数据分析素养
必备知识·自主梳理
预习新知夯实基础
(一)变量的相关关系
A.x与y正相关,u与v正相关
1.相关关系
B.x与y正相关,u与v负相关
两个变量有关系,但又没有确切到可由其中的一
C.x与y负相关,u与v正相关
个去精确地决定另一个的程度,这种关系称为相
D.x与y负相关,u与v负相关
关关系。
(二)样本相关系数
2.散点图
1.样本相关系数
将成对样本数据用
表示出来,
2(x,-x)(y:一
由这些点组成的统计图就叫做散点图
3.正相关与负相关
2(y:-y)2
从整体上看,当一个变量的值增加时,另一个变
量的相应值也呈现
的趋势,就称这两个
Sxiyi-nzy
r为变量x和变量y
变量正相关;当一个变量的值增加时,另一个变
x-√②
-ny2
量的相应值呈现
的趋势,就称这两个变
的样本相关系数
量负相关
2.样本相关系数r的特征
4.线性相关
(1)r∈
一般地,如果两个变量的取值呈现正相关或负相
(2)当>0时,称成对样本数据
相关;
关,而且散点落在
附近,则称这两个变
当r<0时,称成对样本数据
相关
量线性相关,
(3)当|r越接近1时,成对样本数据的线性相关
[即学即练]
程度
;当r越接近0时,成对样本数据
1.(多选)下列变量之间的关系是相关关系的是
的线性相关程度
[即学即练]
(
A.正方形的表面积与体积
)1.下面对相关系数,描述正确的是
A.r>0表明两个变量负相关
B.光照时间与果树的产量
B.r>1表明两个变量正相关
C.粮食产量与施肥量
C.r只能大于零
D.某运动会中某代表团的足球队的比赛成绩与:
D.x越接近于0,两个变量相关关系越弱
乒乓球队的比赛成绩
:2.已知r1表示变量X与Y之间的样本相关系数,
2.对变量x,y有观测数据(xy:)(i=1,2,3,…,
r2表示变量U与V之间的样本相关系数,且
10),得散点图1;对变量u,v有观测数据(u;,:)
r1=0.837,r2=-0.957,则
()
(i=1,2,3,…,10),得散点图2,由这两个散点图
A.变量X与Y之间呈正相关关系,且X与Y之
可以断定
间的相关性强于U与V之间的相关性
B.变量X与Y之间呈负相关关系,且X与Y之
30
60
间的相关性强于U与V之间的相关性
40
C.变量U与V之间呈负相关关系,且X与Y之
0..
2
间的相关性弱于U与V之间的相关性
D.变量U与V之间呈正相关关系,且X与Y之
1234567x
01234567u
图1
图2
间的相关性弱于U与V之间的相关性
54
第八章成对数据的统计分析
关键能力·合作探究
讲练设计探究重,点
题点一对相关性的理解
判断x与y之间是否有相关关系.如果有,是正
[典例]对两个变量的相关性描述正确的是
相关还是负相关?如果没有,请说明理由.
(
听课记录
A.若两个变量有相关性,则一定线性相关
B.若两个具有线性相关关系的变量x,y满足:
Lxv<0,则这两个变量正相关
C.两个变量负相关,则一个变量增大时,另外
个变量也增大
D.两个具有线性相关关系的变量,若样本相关系
数r的值越接近1,则相关性越强
听课记录
…/方法技巧/
在研究两个变量之间是否存在某种关系时,
般从散点图入手,而对于散点图可以作出如下
判断:
(1)如果所有的样本点都落在某一曲线上,就用
该曲线对应的函数来描述变量之间的关系,即
变量之间具有函数关系.
(2)如果所有的样本点都落在某一曲线附近,那
:-/方法技巧/
么变量之间具有相关关系:
对于两个变量之间的相关关系的判断,有以下
(3)如果所有的样本点都落在某一直线附近,那
两种方法:
么变量之间具有线性相关关系
(1)可以根据生活、学习经验进行相应的判断,
(4)如果没有明显的变化趋势,就认为变量之间
因为“经验之中有规律”;
没有明确的相关关系
(2)根据两个变量相应值的对应关系进行判断·
对点训练
对点训练
某种树木体积与树木的树龄之间有如下的对应
(多选)下列两个变量存在相关关系的为(
关系:
A.扇形的半径与面积之间的关系
树龄
3
4
5
6
7
8
B.降雪量与交通事故的发生率之间的关系
体积30
34
40
60
55
62
70
C.人的身高与体重之间的关系
D.家庭的支出与收人之间的关系
(1)请作出这些数据的散点图;
反思感悟函数关系是一种确定的关系,而相关
(2)你能由散点图发现树木体积与树木的树龄近
关系是非随机变量与随机变量的关系.函数关系:
似呈什么关系吗?
是一种因果关系,而相关关系不一定是因果关
系,也可能是伴随关系
题点二散点图及应用
[典例]某超市为了解气温对某产品销售量的影
响,随机记录了该超市12月份中5天的日销售
量y(单位:kg)与该地当日最低气温x(单位:℃):
的数据,如下表所示
10
55
数学选择性必修第三册
题点三样本相关系数
…/方法技巧/
[典例]在随机调查某校高三男生的身高和臂展
相关系数是判断两个变量相关关系强弱的重要
时,得到下面的数据:
标志,解决此类问题时,要对数据进行整理,要
身高x/cm17617116517816917217616817317118o191179
正确使用相关关系公式,注意计算的准确性,
臂展v/cm1691621641707270811611741641828882
(1)绘制身高与臂展的散点图,初步判断二者之
对点训练
间的关系;
(2023·天津卷,7)调查某种群花萼长度和花瓣
(2)计算x与y之间的相关系数,并根据计算结
长度,所得数据如图所示,其中相关系数r=
果说出你的判断,
0.8245,下列说法正确的是
()
听课记录
◆花瓣长度
0
花萼长度
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数
一定是0.8245
素养演练·提升技能
达标训练素养提高
1.变量X与Y相对应的一组样本数据为(10,1),:3.(多选)下面的各图中,散点图与样本相关系数r
(11.3,2),(11.8,3),(12.5,4),(13,5);变量U
符合的是
(
与V相对应的一组样本数据为(10,5),(11.3,
.-1<r<0r=0
4),(11.8,3),(12.5,2),(13,1).m1为变量X与
Y之间的样本相关系数,r2为变量U与V之间:
D
的样本相关系数,则
4.以下是收集到的某物品的销售价格y和物品的
A.r2<r1<0
B.r2<0<r1
大小x的数据:
C.0<r2<r1
D.r2=r1
物品大小/m
11.5
110
80
135
105
2.最新《交通安全法》实施后,某市管理部门以周为
单位,记录的每周查处的酒驾人数与该周内出现
销售价格/万元
4.8
21.6
18.4
29.2
22
的交通事故数量如下:
则根据数据可以判断x,y
相关关系
(填“有”或“无”)
酒驾人数x
80
147
121
100
96
103
87
5.在成对样本数据中,已知2(x,-x)2是(
交通事故数y
19
31
30
23
25
24
20
y)2的2倍,(x:-)(0-y)是2(y-)2的
通过表中数据可知,酒驾人数x与交通事故数y
1.2倍,则这组数据的样本相关系数r约为
之间是
(
(精确到0.001)
A.正相关
B.负相关
温馨提示
请做课时分层检测(十八)》
C.不相关
D.函数关系
56P(X=5000)
号
C
=20,P(X)=7000)
cc
8,P(X=
↓题点二
典例解根据题意绘制出散点图如图所示
CIC
8800)
,P(X=10000)=1
1
1691
↑y/kg
8
4
1201
208
故X的分布列为,
X
5000
7000
8800
10000
68101214x/℃
从图中可以看出这些点分布在一条直线附近,因此两个变量之间具
P
1
1
23
20
8
40
有相关关系,而且当变量工变大时,y的值由大变小,所以工与y负
相关.
所以E(X)=5000X
23
·对点训练
20
+7000×
8
+8800×
年+10000×
40
解(1)以工轴表示树木的树龄,y轴表示树木的体积,可得相应的
9075(元).
散点图如图所示」
若选择方案二,设摸到红球的个数为Y,付款金颜为Z,则Z=
↑体积
10000-1500Y,
80
由已知可得YB(3,号)故EY)=3X合=号
所以E(Z)=E(10000-1500Y)=10000-1500E(Y)=9100(元)
8
因为E(X)<E(Z),所以该顾客选择第一种抽奖方案更合算.
10
12.AC[依题意E()=c-a>0,E()=a一c<0,∴.E()>E(7),故
123456789树龄
A正确,B错误:D()=a(-1-c十a)2十b(c-a)2十c(1-c十a)2
(2)由散点图发现树木体积随着树龄的增加呈现增加的趋势,且散
=a十c+2ac-a2-c2,
点大致落在一条直线附近,所以树木的体积与树龄近似呈线性相关
同理D(7)=c(-1十c-a)2+b(-c十a)2十a(1十c-a)2=a十c十
关系
2ac-a2-c2,.D(7)=D().故C正确,D错误.综上选择AC.]题点三
13.16[根据正态曲线的对称性知:要使误差n在(一0.5,0.5)内的!典例解(1)身高与臂展的散点图如下,
概率不小于0.683,
190叶臂展/cm
则(-6,十o)C(-0.5,0.5)且4=0,o=
4
185
,所以0.5≥
180
175
,可得n≥16.故答案为:16.]
170
n
165
第八章成对数据的统计分析
16060165i70175180185190身商7m
8.1成对数据的统计相关性
初步判断身高与臂展呈线性相关关系,臂展随着身高的增加而
增加,
必备知识·自主梳理
(一)
(2)身高的平均数x=(176+171+165+178+169+172+176+
2.直角坐标系中的点3.增加减少4,一条直线
168+173+171+180+191+179)≈174.5,
即学即练
1,BC[选项A中是确定的函数关系,D项中足球队的比赛成绩与乒
臂展的平均数=方3169+162+164+170+172+170+181+161+
乓球队的比赛成绩没有关系.]
174+164+182+188+182)≈172.2,
2.C[由题图1可知,点散布在从左上角到右下角的区城,各点整体
呈递减趋势,故x与y负相关;由题图2可知,点散布在从左下角到
(5,-)(-0578.4,
=1
右上角的区域,各点整体呈递增趋势,故“与口正相关.]
(二)
(G-)≈535.25,5(y-≈906.32.
=1
=1
2.(1)[-1,1](2)正负(3)越强越弱
即学即练
=1
1.D[因r>0表明两个变量正相关,故A错误;又因r∈[一1,1],故
所以身高与臂展的相关系数r
B,C错误:两个变量之间的相关系数r的绝对值越接近于1,表明两
)
个变量的线性相关性越强,x的绝对值越接近于0,表示两个变量之
t.
间的线性相关性越弱,故D正确.]
0.83,说明工与y具有很强的线性相关关系.
2.C[因为样本相关系数1=0.837,2=一0.957,所以变量X与y对点训练
之间呈正相关关系,变量U与V之间呈负相关关系,X与Y之间的
C[根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A
相关性弱于U与V之间的相关性,]
选项错误:散点的分布是从左下到右上,从而花瓣长度和花萼长度
呈现正相关性,B选项错误,C选项正确:由于r=0.8245是全部数
关键能力·合作探究
据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即
题点一
取出的数据的相关系效不一定是0.8245,D选项错误,故选C.]
典例解析变量间的相关关系有线性相关和非线性相关,故A错素养演练·提升技能
误:若L<0,则这两个变量负相关,故B错误:两个变量负相关,则1,B[由变量X与Y相对应的一组样本最据为(10,1),(1山,3,2)
一个变量增大时,另外一个变量通常会减小,故C错误:样本相关系·
(11.8,3),(12.5,4),(13,5),可得变量X与Y之间成正相关关系,
数r的值越接近1,这两个变量的相关性就越强,故D正确.故!
因此1>0:由变量U与V相对应的一组样本数据为(10,5),
选D.
(11.3,4),(11.8,3),(12.5,2),(13,1),可得变量U与V之间成负
答案D
相关关系,因此r2<0.故r2<0<r1.]
对点训练
!2,A[由表格中的数据,在直角坐标系中描出数据的散点图,如图所
BCD[扇形的半径与面积之间的关系是函数关系,其余均为相关:示,直观判断散点从左向右成带状分布,在一条直线附近,所以具有
关系.]
线性相关关系,且是正相关.故选A.]
172
+交通事故数
!2.解(1)由表格中数据可得,工=9,少=14.
2
(x:一)(一)
∴.b==1
63≈0.95.
2
66
24H
22
20·
a=y征=14-8器×9≈5,41.
8090100110120130140150酒驾人数
∴,就诊人数y关于昼夜温差x的经验回归方程为v=0.95.x十5.41.
3.ACD[因为样本相关系数r的绝对值越接近1,线性相关程度越
(2)由(1)知,当x=15时,y=0.95×15+5.41=19.66,
强,且r>0时正相关,r<0时负相关,故观察各选项,易知B不符
合,A,C,D均符合.]
当x=5时,=0.95×5+5.41=10.16.
4.有[物品大小的值由小变大时,销售价格也由小变大,因此两个变
|19.66-19|=0.662,10.16-9|=1.162.
量有相关关系.]
∴,所求的经验回归方程是理想的
a,-)(y,
题点二
=1
5.0.849[r
二,设2(-)2=a,剥典例解计算可得x=5×14+16+18+20+2)=18,
=1
=号×12+10+7+5+3)=7.4
1.2a
(a,(y)=1.2a,2C)=2a,故
/2a·a
2x2=142+162+182+202+222=1660,
=
1.2≈0.849.]
√2
24,y=14×12+16×10+18×7+20×5+22×3=620,
8.2.1&8.2.2一元线性回归模型
一元线性回归模型参数的最小二乘估计
6名切04
必备知识·自主梳理
1660-5×182
(一)
Y=bx十a十eE(e)=0,D(e)=a2响应变量解释变量斜率参数:
a=v-6x=7.4+1.15×18=28.1,
即学即练
所以所求经验回归方程是y=一1.15x十28.1.
ABD[在回归模型中,x是解释变量,y是响应变量,当解释变量取
列出残差表:
值一定时,响应变量的取值带有一定的随机性.]
12
10
5
(二)
1.y=bx+a 2.y-b
12
9.7
7.4
5.1
2.8
即学即练
y-y
0
0.3
-0.4
-0.1
0.2
1.A[易求r=2.5,v=3.5,且6=1,所以a=3.5-1×2.5=1,因此
经验回归方程为y=x十1.]
所以2(y-)2=0.3,又∑(y-)2=53.2,
=1
2.12.1[=0.8x十0.1,∴y=0.8×15十0.1=12.1(亿元).]
(三)
2(,一)
即学即练
所以R2=1-
≈0.994.
1.B[样本中心点坐标为(26,19),代入经验回归方程得到b=12.5,
(y,-)2
=1
所以y=0.25.x十12.5,将x=32代入,求解得到对应的预测值为1
故回归模型的拟合效果很好
20.5,因而其残差为21.25-20.5=0.75.]
·对点训练
2.0.96[当x=175cm时,y=0.85×175-85.71=63.04(kg),.相:
解(1)作散点图,直观看之与t具有线性相关关系」
应残差e=64一63.04=0.96(kg).]
关键能力·合作探究
题点一
3
2
具解题客520+15+13+3+2牛(+0千
(-18]=号,
0123451
=g[6.5+3.5+3.5+1.5+0.5+(-0.5)+(-2.5)+
根据:关于1的表格数据,得
(-35】=号
1=1+2+3+4+5)=3
含x,-8324-8X子×是
9
1
b=
9
(0+1+2+3+5)=2,2,
2x-82
1256-8×
5
,所以a=5一
8
且24=45,19=5
×号=,故经险回归方程为=宁十
(2)由题意,设该同学的物理成绩为山,则物理偏差为一91.5.
6e
45-5×3×2.2=1.2,
55-5×9
石载学偏送为128-120=8w91.5=子×8+号解得a=94.
34-5i2
所以,可以预测这位同学的物理成绩为94分
a=x-bt=2.2-1.2×3=-1.4.
对点训练
所以:关于t的经验回归方程为:=1.21-1.4.
1,D[因为财政收入x与支出y满足一元线性回归模型y=bx十a十!
(2)2=1.21-1.4,代入1=x-2017,2=y-5,
e,其中b=0.7,a=3,所以y=0.7x十3+e.当x=10时,得y=
得y-5=1.2(x-2017)-1.4,
0.7×10十3十e=10十e,又|e0.5,即-0.5≤e≤0.5,所以9.5≤{
即y=1.2x-2416.8.
v≤10.5,所以年支出预计不会超过10.5亿元.]
故y关于x的回归方程为y=1.2x一2416.8.
173