内容正文:
§2 成对数据的线性相关性
2.1 相关系数 2.2 成对数据的线性相关性分析
[基础达标练]
1.在两个变量Y 与X 的回归模型中,分析
选择了四个不同的模型,它们的相关系
数r如下,其中直线拟合效果最好的为
( )
A.模型①的相关系数为0.8765
B.模型②的相关系数为0.7351
C.模型③的相关系数为0.0012
D.模型④的相关系数为0.2151
2.若回归直线方程中的回归系数b=0,则
相关系数为 ( )
A.r=1 B.r=-1
C.r=0 D.无法确定
3.两个变量满足如下表关系.
X 5 10 15 20 25
Y 103 105 110 111 114
则两个变量线性相关程度 ( )
A.较高 B.较低
C.不相关 D.不确定
4.(多选)为研究需要,统计了两个变量
X,Y 的数据情况如下:
X x1 x2 x3 xn
Y y1 y2 y3 yn
其中数据x1,x2,x3,,xn 和数据y1,
y2,y3,,yn 的平均数分别为x 和y,
并且计算相关系数r=-0.8,线性回归
方程为Y=̂bX+̂a,下列结论正确的有
( )
A.将以上数据的每个数据都加一个相
同的常数后,方差不变
B.变量X,Y 的相关性强
C.当X=x1,则必有Y=y1
D.̂b<0
5.(多选)下列关于相关系数r的说法正确
的是 ( )
A.相关系数r越大两个变量间相关性
越强;
B.相关系数r的取值范围为[-1,1];
C.相关系数r>0时两个变量正相关,r
<0时两个变量负相关;
D.相关系数r=1时,样本点在同一直
线上.
6.已知两个变量x,y与其线性相关系数
r,下列说法正确的是 ( )
①若r>0,则x增大时,y也相应增大;
②若r<0,则x增大时,y也相应增大;
③若r=1或r=-1,则x与y 的关系
完全相关(有函数关系),在散点图上各
个散点均在一条直线上.
A.①② B.②③
C.①③ D.①②③
7.已知求得甲、乙、丙3组不同数据的线性
相关系数分别为0.81,-0.98,0.63,其中
(填甲、乙、丙中的一个)组数据
的线性相关性最强.
8.在一组样本数据(x1,y1),(x2,y2),,
(xn,yn)(x1,x2xn 不全相等)的散点
图中,若所有样本点(xi,yi)(i=1,2,
,n)都在直线Y=-3X+1上,则这
组样本数据的样本相关系数为
9.部门所属的10个工业企业生产性固定
资产价值与工业增加值资料如下表(单
位:百万元):
固定资
产价值
3 3 5 6 6 7 8 9 9 10
工业增
加值
15 17 25 28 30 36 37 42 40 45
根据 上 表 资 料 计 算 的 相 关 系 数 为
.
373
第七章 统计案例
10.某厂的生产原料耗费 X(单位:百万
元)与销售额Y(单位:百万元)之间有
如下的对应关系:
X 2 4 6 8
Y 30 40 50 70
X 与Y 之间是否具有线性相关关系?
若有,判断相关性的强弱.
[能力提升练]
11.测 得 10 对 父 子 身 高(单 位:英 寸)
如下:
父亲
身高(X)
60 62 64 65 66 67 68 70 72 74
儿子
身高(Y)
636652 66 65566967167468370170
(1)利用相关系数判断变量Y 与X 具
有 (较 强 或 较 弱)线 性 相
关性;
(2)如果Y 与X 之间具有相关关系,
则回归直线方程 ;
(3)如果父亲身高为73英寸,试估计
儿子的身高 .
参考数据:x=668,y=67.01,∑
10
i=1
x2i=
44794,
∑
10
i=1
y2i=4494193,x2=446224,y2=
449034,
∑
10
i=1
xiyi=448424.
12.一唱片公司欲知打歌费用X(十万元)
与唱片销售量Y(千张)之间的关系,
乃从其所发行的唱片中随机抽取了10
张,得如下的资料,∑
10
i=1
xi=28,∑
10
i=1
x2i=
3034,∑
10
i=1
yi=75,∑
10
i=1
y2i=598.5,∑
10
i=1
xiyi
=237,则Y 与X 的相关系数r的绝对
值为 .
13.下面的数据是年龄在40到60岁的男
子中随机抽出的6个样本,分别测定了
心脏的功能水平Y(满分100),以及每天
花在看电视上的平均时间X(小时).
看电视的
平均时间X
44 46 27 58 02 46
心脏功
能水平Y
52 53 69 57 89 65
(1)求心脏功能水平Y 与每天花在看
电视上的平均时间X 之间的相关系
数r;
(2)求心脏功能水平Y 与每天花在看
电视上的平均时间X 的线性回归方
程,并讨论方程是否有意义;(系数保
留两位小数)
(3)估计平均每天看电视3小时的男
子的心脏功能水平.
473
选择性必修第一册
[素养培优练]
14.商务部会同海关总署、国家药监局于3
月31日发布关于有序开展医疗物资
出口的公告.如医疗物资出口中出现
质量问题,将认真调查,发现一起,查
处一起,切实维护“中国制造”的形象,
更好地发挥医疗物资对支持全球疫情
防控的重要作用.为了监控某种医疗
物资的一条生产线的生产过程,检验
员每隔30min从该生产线上随机抽取
一个医疗物资,并测量其尺寸(单位:
cm).下面是检验员在一天内依次抽取
的16个医疗物资的尺寸:
抽取
次数
1 2 3 4 5 6 7 8
医疗物
资尺寸
9.9510.129.969.9610.019.929.9810.04
抽取
次数
9 10 11 12 13 14 15 16
医疗物
资尺寸
10.269.9110.1310.029.2210.0410.059.95
经计 算 得 x= 116∑
16
i=1
xi =9.97,s=
1
16∑
16
i=1
(xi-x)2=
1
16
(∑
16
i=1
x2i-16x2)≈
0.212, ∑
16
i=1
(i-8.5)2≈18.439,∑
16
i=1
x2i
≈1591.137,∑
16
i=1
(xi-x)(i-8.5)=
-2.78,其中xi 为抽取的第i个医疗
物资的尺寸,i=1,2,3,,16.
(1)求(xi,i)(i=1,2,,16)的相关系
数r,并回答是否可以认为这一天生产
的医疗物资尺寸不随生产过程的进行
而系统地变大或变小(若|r|<0.25,
则可以认为医疗物资尺寸不随生产过
程的进行而系统地变大或变小).
(2)一天内抽检医疗物资中,如果出现
了尺寸在(x-3s,x+3s)之外的医疗
物资,就认为这条生产线在这一天的
生产过程中可能出现了异常情况,需
对当天的生产过程进行检查.从这一
天抽检的结果看,是否需对当天的生
产过程进行检查?
附:样本(xi,yi)(i=1,2,,n)的相关
系数
r=
∑
16
i=1
(xi-x)(yi-y)
∑
16
i=1
(xi-x)2 ∑
16
i=1
(yi-y)2
573
第七章 统计案例
= 2.2+6.6+4×5.8+5×6.7-4×3×4.51+4+16+25-4×9 =
11.5
10 =
1.15,∴̂a=y-̂bx=4.5-1.15×3=1.05,
∴线性回归方程为Y=115X+105.]
4.B 由题意可得x=15×
(10+20+30+40+50)=30,
设模糊不清的数据为t,则有y=15×
(62+t+75+81+
89)=15
(t+307),因为线性回归方程Y=0.67X+54.9
过样本点的中心(x,y),所以 15
(t+307)=067×30+
54.9,解得t=68.
5.B [散点图呈曲线,排除 A选项,且增长速度变慢,排除
选项 C、D.]
6.C [x=14×
(3+4+5+6)=4.5,y=14
(30+40+60
+50)=45,
则样本点的中心的坐标为(4.5,45),代入Y=̂bX+̂a中,
得45=8×4.5+̂a,可得â=9.
∴Y=8X+9.取X=7,可得Y=8×7+9=65.]
7.解析:由表格得(x,y)为(10,38),又(x,y)在回归直线Y
=̂bX+̂a上,且b̂=-2,所以38=-2×10+̂a,̂a=58,所
以Y=-2X+58,当x=6时,Y=-2×6+58=46.
答案:46
8.解析:由题意知x=2,y=3,b=6.5,所以a=y-bx=3
-6.5×2= -10,即 回 归 直 线 的 方 程 为Y= -10+
6.5X.]
答案:Y=-10+6.5X
9.B [因为x1+x2++x7=7,
所以x=x1+x2+
+x7
7 =1
,则z=x+4=5,
即1
7
(lny1+lny2++lny7)=5,
即ln(y1y2y7)=35,所以y1y2y7=e35.]
10.解:(1)散点图如图所示.
(2)x=1+2+3+44 =
5
2
,y=1+3+4+54 =
13
4
,
4
i=1
xiyi=1+6+12+20=39,
4
i=1
x2i=1+4+9+16=30,
b̂=
39-4×52×
13
4
30-4× 52( )
2 =
13
10
,
â=134-
13
10×
5
2=0
,
所以Y=1310X
即为所求的线性回归方程.
11.AC [由题意可知x=15×
(8.3+8.6+9.9+11.1+
12.1)=10,所以 A正确;
y=15×
(5.9+7.8+8.1+8.4+9.8)=8,所以 B不正
确;可得â=y-̂bx=8-0.78×10=0.2,所以 C正确;
当X=15时,Y=078×15+02=1190,所 以 D 不
正确.]
12.解析:因为Y=cekX ,所以lnY=ln(cekX )=lnc+lnekX
=lnc+kX,令Z=lnY,
则Z=lnc+kX,又Z=0.3X+4,所以lnc=4,k=0.3,
则c=e4,k=0.3.
答案:e4 0.3
13.解:(1)由数据求得,x=12,y=27.
由公式求得,̂b=52
,̂a=y-̂bx=-3.
所以Y 关于X 的线性回归方程为Y=52X-3.
(2)当X=10时,Y=52×10-3=22
,|22-23|<2;
当X=8时,Y=52×8-3=17
,|17-16|<2.
所以该研究所得到的线性回归方程是可靠的.
14.解:(1)由散点图可知,Y=c+dlnX 适宜作为大棚蔬
菜产量Y 关于光照时长X 的回归方程类型;
(2)记w=lnX,则Y=c+dlnX化为Y=dw+c,
由表中数据可知,w=120∑
20
i=1
wi=26,
y=120∑
20
i=1
yi=
1
20×102.4=5.12
,
∴̂d=
∑
20
i=1
wiyi-20wy
∑
20
i=1
w2i-20w2
=272.1-20×2.6×5.12
137-20×2.62
=5.861.8
≈3.26,̂c=y-̂dw=5.12-3.26×2.6≈-3.36.
∴Y 关于X 的回归方程为Y=3.26lnX-3.36;
(3)在Y=3.26lnX-3.36中,取X=e2,可得Y=3.26
lne2-3.36=6.52lne-3.36=6.52×1-3.36=3.16.
估计当光照时长为e2 小时时,大棚蔬菜亩产约为3.16
千斤.
§2 成对数据的线性相关性
2.1 相关系数
2.2 成对数据的线性相关性分析
1.A [由于相关系数越接近1,拟合效果越好,所以选 A.]
2.C [当b=0时,有
n
i=1
(xi-x)(yi-y)=0,故相关系数r
=0.]
3.A [∑
5
i=1
xi=75,∑
5
i=1
yi=543,∑
5
i=1
x2i=1375,
∑
5
i=1
xiyi=8285,∑
5
i=1
y2i=59051,x=15,y=108.6.
r=
∑
5
i=1
xiyi-5xy
∑
5
i=1
x2i-5x2 ∑
5
i=1
y2i-5y2
= 8285-5×15×108.6
1375-5×152× 59051-5×108.62
≈0.9826.故两
个变量间的线性相关程度较高.]
4.ABD [对 A,因为方差是表示数据波动大小的量,将一
组数据的每个数都加一个相同的常数后,方差不变,所以
A正确;相关系数r=-0.8,|r|>0.75,变量x,y的相关性
强,所以B正确;当X=x1 时,不一定有Y=y1,因此 C错
误;因为r=-0.8<0,是负相关,所以b̂<0,D正确.]
5.BCD [根据相关系数的意义对每个结论进行分析、判断
可得正确的结论.
对于相关系数r,有以下结论:①当r>0时,表明两个变
量正相关;当r<0时,表明两个变量负相关.②r的绝对
值越接近于1,表明两个变量的线性相关性越强;r的绝
对值越接近于0,表明两个变量之间几乎不存在线性相
关关系.
434
选择性必修第一册
对于 A,当r<0时此结论不成立,所以 A不正确.
对于B,由相关系数的性质可得-1≤r≤1,所以B正确.
对于 C,由相关系数的性质可得正确.
对于 D,由相关系数的性质可得正确.]
6.C [若两个变量正相关,则因变量随着 自 变 量 的 增 大
(减小)而增大(减小),此时相关系数r>0;若两个变量
负相关,则 因 变 量 随 自 变 量 的 增 大 (减 小)而 减 小 (增
大),此时 相 关 系 数r<0;若|r|=1,则 两 个 变 量 完 全
相关.]
7.解析:两个变量y与x 的相关系数的绝对值越接近于1,
它的线性 相 关 性 越 强.在 甲、乙、丙 中,所 给 的 数 值 中
0.98是相关系数最大的值,即乙的线性相关性最强.
答案:乙
8.解析:因为所有样本点(xi,yi)(i=1,2,,n)都在直线Y
=-3X+1上,所以回归直线方程是Y=-3X+1,可得
这两个变量是负相关,故这组样本数据的样本相关系数
为负值,且所有样本点(xi,yi)(i=1,2,,n),都在直线
上,则有|r|=1,∴相关系数r=-1.
答案:-1
9.解析:x=3+3+5+6+6+7+8+9+9+1010 =6.6.
y = 15+17+25+28+30+36+37+42+40+4510 =
31.5.
∴r=
10
i=1
(xi-x)(yi-y)
10
i=1
(xi-x)2
10
i=1
(yi-y)2
=0.9918.
答案:0.9918
10.解:画出散点图如图所示,由图可知x,y有线性关系.
x=5,y=47.5,∑
4
i=1
x2i=120,∑
4
i=1
y2i=9900,
∑
4
i=1
xiyi=1080,
r=
∑
4
i=1
xiyi-4xy
(∑
4
i=1
x2i-4x2)(∑
4
i=1
y2i-4y2)
= 1080-4×5×47.5
(120-4×55)(9900-4×47.55)
≈0.9827.
故x与y 之间具有很强的正相关关系.
11.解析:(1)r=
∑
10
i=1
xiyi-10xy
∑
10
i=1
x2i-10x2( ) ∑
10
i=1
y2i-10y2( )
≈0.9804,
因为r≈0.9804非常接近于1,所以Y 与X 之间具有
较强的线性相关关系.
(2)设回归直线方程为Y=bX+a,̂b=
∑
10
i=1
xiyi-10xy
∑
10
i=1
x2i-10x2
≈
0.4646,̂a=y-̂bx≈35.97,所以回归直线方程为Y=
04646X+3597.
(3)X=73时,Y=69.9,所以父亲身高为73英寸时,儿
子的身高约为699英寸.
答案:(1)较强 (2)Y=04646X+3597 (3)约为
699英寸
12.解析:由公式r=
∑
10
i=1
xiyi-10xy
(∑
10
i=1
x2i-10x2)(∑
10
i=1
y2i-10y2)
得r=
237-10×2.8×7.5
(303.4-10×2.82)×(598.5-10×7.52)
=0.3,
即|r|=0.3.
答案:0.3
13.解:n=6,x=16
(4.4+4.6+2.7+5.8+0.2+4.6)≈3716,
y=16
(52+53+69+57+89+65)≈64.1667,
∑
6
i=1
x2i-6x2=(4.42+4.62+2.72+582+022+462)
-6×37162≈197980,
∑
6
i=1
y2i-6y2=(522+532+692+572+892+652)-6×
6416672≈9648333,
∑
6
i=1
xiyi-6xy=(44×52+46×53++46×65)-
6×3716×641667≈-1243607.
(1)心脏功能水平Y 与每天花在看电视上的平均时间
X 之间的相关系数:
r= -124.3607
19.7980×964.8333
≈-08998.
(2)̂b=-124.360719.7980 ≈-6.28
,̂a=y-̂bx=87.50,心脏
功能水平Y 与每天花在看电视上的平均时间x 的线性
回归方程为Y=-628X+8750.
因为|r|=0898,所以有相当大的把握认为Y 与X 之
间有线性关系,这个方程是有意义的.
(3)将X=3代入线性回归方程,可得Y=6866,即平
均每天看电视3小时,心脏功能水平约为68.66.
14.解:(1)由样本数据得(x,i)(i=1,2,3,,16)的相关系
数为
r=
∑
16
i=1
(xi-x)(i-8.5)
∑
16
i=1
(xi-x)2 ∑
16
i=1
(i-8.5)2
= -2.78
0.212× 16×18.439
≈-0.18;
由于|r|<0.25,因此可以认为这一天生产的医疗物资
尺寸不随生产过程的进行而系统地变大或变小.
(2)由于x=9.97,s≈0.212,
由样本数据可以看出抽取的第13个零件的尺寸在(x
-3s,x+3s)以外,因此需对当天的生产过程进行检查.
§3 独立性检验问题
3.1 独立性检验 3.2 独立性检验的基本思想
3.3 独立性检验的应用
1.C [根据题意.结合题目中的数据,列出2×2列联表,
求出χ
2 的观测值,对照数表可得出概率结论,这种分析
数据的方法是独立性检验.]
2.AC [设男生人数为x,依题意可得2×2列联表如下:
答题情况
性别
答对 答错 总计
男生 5x
6
x
6 x
女生 x
6
x
3
x
2
总计 x x2
3x
2
534
参考答案