内容正文:
第八章 成对数据的
统计分析
8.1 成对数据的统计相关性
8.1.2 样本相关系数
15分钟对点练
30分钟综合练
目录
15分钟对点练
知识点一 样本相关系数的性质
1.关于两个变量x,y与其线性相关系数r,有下列说法:
①若r>0,则x增大时,y通常也相应增大;②若|r|越趋近于1,则x与y的线性相关程度越强;③若r=1或r=-1,则x与y有函数关系,在散点图上各个散点均在一条直线上.其中说法正确的是( )
A.①② B.②③ C.①③ D.①②③
解析 根据相关系数的定义,变量之间的相关关系可利用相关系数r进行判断:当r为正数时,表示变量x,y正相关;当r为负数时,表示两个变量x,y负相关;|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱;|r|=1时,x与y有函数关系,故①②③正确.
1
2
3
4
5
6
15分钟对点练
4
2.下列现象中线性相关程度最强的是( )
A.商店的职工人数与商品销售额之间的线性相关系数为0.87
B.流通费用率与商业利润率之间的线性相关系数为-0.94
C.商品销售额与商业利润率之间的线性相关系数为0.51
D.商品销售额与流通费用率之间的线性相关系数为-0.70
解析 线性相关系数r的绝对值越接近于1,两个变量间的线性相关程度越强.
1
2
3
4
5
6
15分钟对点练
5
3.[多选]某统计部门对两组成对样本数据进行统计分析后,获得如下散点图,关于样本相关系数的比较,其中正确的是( )
A.r2<0<r1 B.r1<0<r2
C.|r2|<|r1| D.|r2|=|r1|
1
2
3
4
5
6
15分钟对点练
6
解析 由散点图可知,图1两变量是正相关,图2两变量是负相关,且图1两变量比图2两变量线性相关程度强,所以r2<0<r1,|r2|<|r1|.故选AC.
1
2
3
4
5
6
15分钟对点练
7
知识点二 样本相关系数的计算及应用
4.为考察两个变量x,y的相关性,搜集数据如下表,则两个变量的线性相关程度( )
A.很强 B.很弱
C.无相关 D.不确定
x 5 10 15 20 25
y 103 105 110 111 114
1
2
3
4
5
6
15分钟对点练
8
1
2
3
4
5
6
15分钟对点练
9
5.某运动员训练次数x与运动成绩y之间的数据关系如下:
根据样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
x 30 33 35 37 39 44 46 50
y 30 34 37 39 42 46 48 51
1
2
3
4
5
6
15分钟对点练
10
1
2
3
4
5
6
15分钟对点练
11
6.某种产品的广告支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
(1)画出散点图;
(2)请推断销售额与广告支出之间的相关关系的类型、相关程度和变化趋势的特征.
x 2 4 5 6 8
y 30 40 60 50 70
1
2
3
4
5
6
15分钟对点练
12
1
2
3
4
5
6
15分钟对点练
13
30分钟综合练
一、选择题
1.若变量y与x之间的相关系数为r=-0.9362,则变量y与x之间( )
A.不具有线性相关关系 B.具有线性相关关系
C.y随x的增大而增大 D.不确定
解析 由r=-0.9362可知y与x具有较强的线性相关关系,且y与x负相关.
1
2
3
4
5
6
7
8
9
10
30分钟综合练
15
组别 第一组 第二组 第三组 第四组
相关系数r -0.98 0.80 0.50 -0.25
2.研究两个变量y与x的相关关系,分别计算了4组数据的相关系数r(如下表所示),其中相关程度最强的是( )
A.第一组 B.第二组
C.第三组 D.第四组
解析 样本相关系数的绝对值|r|越接近于1,成对样本数据的线性相关程度越强.
1
2
3
4
5
6
7
8
9
10
30分钟综合练
16
解析 因为r>0,即x与y正相关,所以平移后大多数的点都落在第一、三象限.
1
2
3
4
5
6
7
8
9
10
30分钟综合练
17
4.如图(1),(2),(3)分别为不同样本数据的散点图,其对应的样本相关系数分别是r1,r2,r3,那么r1,r2,r3之间的关系为( )
A.r3<r2<r1 B.r2<r3<r1
C.r3<r1<r2 D.r1<r3<r2
1
2
3
4
5
6
7
8
9
10
30分钟综合练
18
解析 由散点图(1)可得,变量x与变量y之间呈现正相关,所以r1>0;由散点图(2)可得,变量x与变量y之间呈现负相关,所以r2<0;由散点图(3)可得,变量x与变量y之间不相关,所以r3=0,所以r2<r3<r1.
1
2
3
4
5
6
7
8
9
10
30分钟综合练
19
5.[多选]为了对变量x与y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,下列说法中错误的是( )
A.若所有样本点都在直线y=-2x+1上,则r=1
B.若所有样本点都在直线y=-2x+1上,则r=-2
C.若|r|越大,则变量x与y的线性相关性越强
D.若|r|越小,则变量x与y的线性相关性越强
解析 若所有样本点都在直线y=-2x+1上,直线的斜率为负数,则r=-1,故A,B均错误;若|r|越大,则变量x与y的线性相关性越强,故C正确,D错误.
1
2
3
4
5
6
7
8
9
10
30分钟综合练
20
二、填空题
6.对两个变量x,y进行线性相关检验,得相关系数r1=0.7895,对变量x,z进行线性相关检验,得r2=0.9321,则x与_______的线性相关性较强.
解析 |r|越接近于1,线性相关程度越强.
z
1
2
3
4
5
6
7
8
9
10
30分钟综合练
21
7.如图,在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若去掉样本点B,则这组样本数据的样本相关系数变________(填“大”或“小”).
解析 由散点图可知,变量x与y具有线性相关关系,且负相关,则其样本相关系数r1<0,去掉样本点B后,线性相关程度变强,记其样本相关系数为r2,则|r1|<|r2|<1,又r1<0,r2<0,所以-1<r2<r1,所以样本数据的相关系数会变小.
小
1
2
3
4
5
6
7
8
9
10
30分钟综合练
22
8.某10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):
根据上表资料计算的相关系数约为________(精确到0.01).
固定资产价值x 3 3 5 6 6 7 8 9 9 10
工业增加值y 15 17 25 28 30 36 37 42 40 45
0.99
1
2
3
4
5
6
7
8
9
10
30分钟综合练
23
三、解答题
9.下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车辆数是否有线性相关关系.
机动车辆数x/千辆 95 110 112 120 129 135 150 180
交通事故数y/千件 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13.0
1
2
3
4
5
6
7
8
9
10
30分钟综合练
24
1
2
3
4
5
6
7
8
9
10
30分钟综合练
25
10.小家电指除大功率、大体积家用电器(如冰箱、洗衣机、空调等)以外的家用电器,运用场景广泛,近年来随着科技发展,智能小家电市场规模呈持续发展趋势,下表为连续5年中国智能小家电市场规模(单位:千亿元),其中年份对应的代码依次为1~5.
年份代码x 1 2 3 4 5
市场规模y/千亿元 1.30 1.40 1.62 1.68 1.80
1
2
3
4
5
6
7
8
9
10
30分钟综合练
26
1
2
3
4
5
6
7
8
9
10
30分钟综合练
27
1
2
3
4
5
6
7
8
9
10
30分钟综合练
28
R
解析 eq \o(∑,\s\up12(5),\s\do10(i=1))xi=75,eq \o(∑,\s\up12(5),\s\do10(i=1))yi=543,eq \o(∑,\s\up12(5),\s\do10(i=1))xeq \o\al(2,i)=1375,eq \o(∑,\s\up12(5),\s\do10(i=1))xiyi=8285,eq \o(∑,\s\up12(5),\s\do10(i=1))yeq \o\al(2,i)=59051,eq \o(x,\s\up12(-))=15,eq \o(y,\s\up12(-))=108.6,r=2,i)eq \f(\o(∑,\s\up12(5),\s\do10(i=1))xiyi-5\o(x,\s\up12(-))\o(y,\s\up12(-)),\r(\o(∑,\s\up12(5),\s\do10(i=1))x-5\o(x,\s\up12(-))2)\r(\o(∑,\s\up12(5),\s\do10(i=1))yeq \o\al(2,i)-5\o(y,\s\up12(-))2))
=eq \f(8285-5×15×108.6,\r(1375-5×152)×\r(59051-5×108.62))
≈0.9826,故相关程度很强.
解析 作出该运动员训练次数(x)与运动成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
计算可得eq \o(x,\s\up12(-))=39.25,eq \o(y,\s\up12(-))=40.875,eq \o(∑,\s\up12(8),\s\do10(i=1))xeq \o\al(2,i)=12656,eq \o(∑,\s\up12(8),\s\do10(i=1))yeq \o\al(2,i)=13731,eq \o(∑,\s\up12(8),\s\do10(i=1))xiyi=13180,所以
r=2,i)eq \f(\o(∑,\s\up12(8),\s\do10(i=1))xiyi-8\o(x,\s\up12(-))\o(y,\s\up12(-)),\r(\o(∑,\s\up12(8),\s\do10(i=1))x-8\o(x,\s\up12(-))2)\r(\o(∑,\s\up12(8),\s\do10(i=1))yeq \o\al(2,i)-8\o(y,\s\up12(-))2))
=eq \f(13180-8×39.25×40.875,\r(12656-8×39.252)×\r(13731-8×40.8752))≈0.99.
由此可得它们的相关程度很强.
解 (1)根据表中所列数据可得散点图如下:
(2)由散点图可得,销售额与广告支出正线性相关.计算得eq \o(x,\s\up12(-))=5,eq \o(y,\s\up12(-))=50,eq \o(∑,\s\up12(5),\s\do10(i=1))xeq \o\al(2,i)=145,eq \o(∑,\s\up12(5),\s\do10(i=1))yeq \o\al(2,i)=13500,eq \o(∑,\s\up12(5),\s\do10(i=1))xiyi=1380.
所以r=2,i)eq \f(\o(∑,\s\up12(5),\s\do10(i=1))xiyi-5\o(x,\s\up12(-))\o(y,\s\up12(-)),\r(\o(∑,\s\up12(5),\s\do10(i=1))x-5\o(x,\s\up12(-))2)\r(\o(∑,\s\up12(5),\s\do10(i=1))yeq \o\al(2,i)-5\o(y,\s\up12(-))2))
=eq \f(1380-5×5×50,\r(145-5×52)×\r(13500-5×502))≈0.92.
由此可得销售额与广告支出之间的相关程度很强,销售额与广告支出有相同的变化趋势.
3.已知某个样本点中的变量x,y线性相关,相关系数r>0,平移坐标系,则在以(eq \o(x,\s\up12(-)),eq \o(y,\s\up12(-)))为坐标原点的坐标系下的散点图中,大多数的点都落在( )
A.第一、二象限
B.第三、四象限
C.第一、三象限
D.第二、四象限
解析 由表中数据计算可得eq \o(x,\s\up12(-))=6.6,eq \o(y,\s\up12(-))=31.5,eq \o(∑,\s\up12(10),\s\do10(i=1))xeq \o\al(2,i)=490,eq \o(∑,\s\up12(10),\s\do10(i=1))yeq \o\al(2,i)=10877,eq \o(∑,\s\up12(10),\s\do10(i=1))xiyi=2305,则r=2,i)eq \f(\o(∑,\s\up12(10),\s\do10(i=1))xiyi-10\o(x,\s\up12(-))\o(y,\s\up12(-)),\r(\o(∑,\s\up12(10),\s\do10(i=1))x-10\o(x,\s\up12(-))2)\r(\o(∑,\s\up12(10),\s\do10(i=1))yeq \o\al(2,i)-10\o(y,\s\up12(-))2))
≈0.99.
解 计算可得eq \o(x,\s\up12(-))=128.875,eq \o(y,\s\up12(-))=8.95,eq \o(∑,\s\up12(8),\s\do10(i=1))xiyi=9611.7,eq \o(∑,\s\up12(8),\s\do10(i=1))xeq \o\al(2,i)=137835,eq \o(∑,\s\up12(8),\s\do10(i=1))yeq \o\al(2,i)=671,
则r=eq \f(9611.7-8×128.875×8.95,\r((137835-8×128.8752)×(671-8×8.952)))≈0.99.
因为r接近于1,所以交通事故数y与机动车辆数x有较强的线性相关关系.
由上表数据可知,可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明(若|r|≥0.75,则线性相关程度较高,r精确到0.01).
参考公式和数据:样本相关系数r=eq \f(\o(∑,\s\up12(n),\s\do10(i=1)) (xi-\o(x,\s\up12(-)))(yi-\o(y,\s\up12(-))),\r(\o(∑,\s\up12(n),\s\do10(i=1)) (xi-\o(x,\s\up12(-)))2)\r(\o(∑,\s\up12(n),\s\do10(i=1)) (yi-\o(y,\s\up12(-)))2)),eq \o(∑,\s\up12(5),\s\do10(i=1)) (xi-eq \o(x,\s\up12(-)))(yi-eq \o(y,\s\up12(-)))=1.28,eq \o(∑,\s\up12(5),\s\do10(i=1)) (yi-eq \o(y,\s\up12(-)))2≈0.17,eq \r(1.7)≈1.3.
解 由表知x的平均数为eq \o(x,\s\up12(-))=eq \f(1+2+3+4+5,5)=3,
所以eq \o(∑,\s\up12(5),\s\do10(i=1)) (xi-eq \o(x,\s\up12(-)))2=(1-3)2+(2-3)2+…+(5-3)2=10,
r=eq \f(\o(∑,\s\up12(5),\s\do10(i=1)) (xi-\o(x,\s\up12(-)))(yi-\o(y,\s\up12(-))),\r(\o(∑,\s\up12(5),\s\do10(i=1)) (xi-\o(x,\s\up12(-)))2)\r(\o(∑,\s\up12(5),\s\do10(i=1)) (yi-\o(y,\s\up12(-)))2))≈eq \f(1.28,\r(10)×\r(0.17))=eq \f(1.28,\r(1.7))≈eq \f(1.28,1.3)≈0.98,
因为y与x的相关系数近似为0.98,说明y与x的线性相关程度较高,所以可用线性回归模型拟合y与x的关系.
$$