内容正文:
数学 选择性必修·第二册(湘教)
第2课时 多组成对数据的相关性、相关系数与向量夹角
(教师独具内容)
课程标准:1.结合实例,会通过相关系数比较多组成对数据的相关性.2.结合实例,了解样本相关系数与标准化数据向量夹角的关系.
教学重点:1.利用相关系数比较多组成对数据的相关性.2.样本相关系数与标准化数据向量夹角的关系.
教学难点:推导样本相关系数与标准化数据向量夹角关系的过程.
核心素养:1.通过分析多组成对数据的相关性提升数据分析素养和数学运算素养.2.通过向量夹角在成对数据分析中的应用培养数学运算素养.
知识点一 多组成对数据的相关性
在许多实际问题中,往往不止一个因素对变量的变化产生影响,这时我们需要对多组成对数据之间的相关性进行讨论.一般情况下,我们可以考虑将其分成几个不同的两组数据分别进行相关性分析.
知识点二 相关系数与向量夹角
我们把两组成对数据分别看作n维空间的两个向量(x1,x2,…,xn),(y1,y2,…,yn),从向量夹角的大小来判断两组数据的相关程度.向量夹角的大小可以用余弦来进行刻画,为了两个向量表达的一致性,通常将向量的每个元素都减去均值,形成
a=(x1-,x2-,…,xn-),
b=(y1-,y2-,…,yn-),
cos〈a,b〉=
=.
由上可知,用两组成对数据表示的向量在原点处夹角的余弦值与相关系数公式本质上是一致的.
由向量知识可知,两向量夹角的取值范围为[0,π],其余弦值的取值范围为[-1,1].
当夹角属于时,余弦值越大表示两个向量的夹角越小,两组数据的正相关程度越高;余弦值越小表示两个向量的夹角越大,两组数据的正相关程度越低.
当夹角属于时,余弦值越大表示两个向量的夹角越小,两组数据的负相关程度越低;余弦值越小表示两个向量的夹角越大,两组数据的负相关程度越高.
当夹角为时,余弦值为0,这说明两组数据不存在线性相关关系.
1.判一判(正确的打“√”,错误的打“×”)
(1)变量y与变量x之间的相关系数为-0.9,变量z与变量x之间的相关系数为-0.7,则变量y与变量x之间负相关程度高.( )
(2)用两组成对数据表示的向量在原点处夹角的余弦值与相关系数公式本质上是一致的.( )
(3)用两组成对数据表示的向量之间的夹角为锐角,则两组数据呈负相关关系.( )
答案 (1)√ (2)√ (3)×
2.做一做
(1)用两组成对数据表示的向量在原点处的夹角的余弦值为-0.6,则这两组数据的相关系数为( )
A.0.6 B.-0.6
C.1 D.-1
(2)已知变量y,z,w都会对变量x的变化产生影响,且rxy=0.7,rxz=0.8,rxw=0.9,则与变量x之间的线性正相关程度最高的是( )
A.y B.z
C.w D.无法确定
(3)已知四维空间向量a=(-1,2,0,2),b=(-1,1,1,-1),则cos〈a,b〉=________.
答案 (1)B (2)C (3)
题型一 多组成对数据的相关性
在某校高一年级中随机抽取10名男生,测得他们的身高、体重、臂展等数据,如下表所示:
编号
身高xi/cm
体重yi/kg
臂展zi/cm
1
173
55
169
2
179
71
170
3
175
52
172
4
179
62
177
5
182
82
174
6
173
63
166
7
180
55
174
8
170
81
169
9
169
54
166
10
177
54
176
体重与身高、臂展与身高分别具有怎样的相关性(结果保留三位小数)?
参考公式:rxy=.
参考数据:=175.7,=62.9,=171.3,
≈449.569,
≈155.059,
xiyi=110599,xizi=301092.
[解] 由题意可得rxy=≈0.186,
同理可得rxz≈0.760.
上述结果表明,体重与身高之间呈正相关关系,臂展与身高之间也呈正相关关系,臂展与身高之间正相关程度更高.
【感悟提升】 多组成对数据之间的相关性分析,可通过计算多组成对数据之间的相关系数来得出结论.
【跟踪训练】
1.下表为某十个地区某年1月平均气温与海拔及纬度的数据,试分析1月平均气温与海拔,1月平均气温与纬度之间是否具有相关关系(结果保留三位小数).
平均气温xi/℃
0.8
2.2
3.4
4.9
6.9
海拔yi/m
4650
4420
4220
3970
3640
纬度zi
35.3
33.8
35
33.8
32.2
平均气温xi/℃
8.5
9.5
9.9
11.7
12.6
海拔yi/m
3360
3200
3140
3100
2680
纬度zi
38.9
37.1
38.4
36.3
36.8
参考公式:rxy=.
参考数据:=7.04,=3638,=35.76,
xiyi=232445,xizi=2561.05,
≈23839.297,
≈78.351.
解 由题意可得rxy=≈-0.993,
同理可得rxz≈0.556.
上述结果表明,1月平均气温与海拔之间负相关程度高,1月平均气温与纬度之间呈正相关关系.
题型二 相关系数与向量夹角
用向量夹角来分析例1中两组数据之间的相关关系(精确到0.001).
[解] 由于=175.7,=62.9,=171.3,
将表中的三组数据分别减去,,,
记a=(x1-,x2-,…,x10-),
b=(y1-,y2-,…,y10-),
c=(z1-,z2-,…,z10-),
则可得
a=(-2.7,3.3,-0.7,3.3,6.3,-2.7,4.3,-5.7,-6.7,1.3),
b=(-7.9,8.1,-10.9,-0.9,19.1,0.1,-7.9,18.1,-8.9,-8.9),
c=(-2.3,-1.3,0.7,5.7,2.7,-5.3,2.7,-2.3,-5.3,4.7),
于是有
cos〈a,b〉=
≈0.186,
cos〈a,c〉=
≈0.760.
由此可以看出,身高与体重之间,其余弦值大于0,也就是两向量的夹角为锐角,这说明身高与体重之间呈正相关关系.身高与臂展之间,其余弦值也大于0,也就是两向量的夹角为锐角,这说明身高与臂展之间也呈正相关关系,并且身高与臂展之间,其余弦值更大,向量的夹角更小,所以正相关程度更高.
【感悟提升】 用两组成对数据表示的向量在原点处夹角的余弦值与相关系数公式本质上是一致的,所以可以用向量夹角的余弦来刻画两组成对数据的相关关系.
【跟踪训练】
2.用向量夹角分析跟踪训练1中平均气温与海拔之间、平均气温与纬度之间的相关关系(精确到0.001).
解 由于=7.04,=3638,=35.76,
将表中的三组数据分别减去,,,
记a=(x1-,x2-,…,x10-),
b=(y1-,y2-,…,y10-),
c=(z1-,z2-,…,z10-),
则可得
a=(-6.24,-4.84,-3.64,-2.14,-0.14,1.46,2.46,2.86,4.66,5.56),
b=(1012,782,582,332,2,-278,-438,-498,-538,-958),
c=(-0.46,-1.96,-0.76,-1.96,-3.56,3.14,1.34,2.64,0.54,1.04),
于是有
cos〈a,b〉=
≈-0.993,
cos〈a,c〉=
≈0.556.
由此可以看出,平均气温与海拔之间,其余弦值接近-1,也就是两向量的夹角接近180°,这说明平均气温与海拔之间负相关程度高.平均气温与纬度之间,其余弦值为0.556,这说明平均气温与纬度之间呈正相关关系.
1.用两组成对数据表示的向量方向相同,则这两组成对数据的相关系数为( )
A.1 B.-1
C.0 D.
答案 A
解析 因为向量方向相同,所以其余弦值为1,即相关系数为1.故选A.
2.若两组数据呈负相关,则用这两组成对数据表示的向量之间的夹角( )
A.小于 B.大于
C.等于 D.等于0
答案 B
解析 因为两组数据呈负相关,所以用这两组成对数据表示的向量的夹角大于.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-2x+3上,则用这两组成对数据表示的向量夹角的余弦值为( )
A.0 B.-
C.1 D.-1
答案 D
解析 由题意,这两组成对数据表示的向量方向相反,所以其夹角的余弦值为-1.
4.已知4个成对数据(1,3),(2,3),(4,5),(5,5),则用这两组成对数据表示的向量夹角的余弦值为________.
答案
解析 这两组数据的平均数分别为3,4,记a=(-2,-1,1,2),b=(-1,-1,1,1),则cos〈a,b〉==.
5.某电脑公司有5名推销员,其工作年限、年推销金额与推销过的品牌种类数据如表:
推销员编号
1
2
3
4
5
工作年限x年
3
5
6
7
9
年推销金额y万元
2
3
3
4
5
推销过的品牌种类z种
2
2
3
4
4
试分析工作年限与年推销金额、工作年限与推销过的品牌种类之间的相关关系(结果保留三位小数).
参考公式:rxy=.
参考数据:≈1.020,≈2.236.
解 由=6,=3.4, (xi-)(yi-)=10,
(xi-)2=20, (yi-)2=5.2,
可得rxy=≈0.980.
同理rxz≈0.894.
上述结果表明工作年限与年推销金额之间正相关程度高,工作年限与推销过的品牌种类之间呈正相关关系.
课后课时精练
一、选择题
1.父亲身高、母亲身高、锻炼时间都会影响儿子的身高,将其分成3个不同的两组数据进行相关性分析,经分析得,父亲身高、母亲身高、锻炼时间与儿子身高之间的相关系数分别为0.95,0.75,0.45,则与儿子身高线性相关程度最高的是( )
A.父亲身高 B.母亲身高
C.锻炼时间 D.无法确定
答案 A
解析 因为1>0.95>0.75>0.45>0,所以与儿子身高线性相关程度最高的是父亲身高.
2.相关变量x,y的散点图如图所示,现用向量夹角来对这两个变量进行线性相关分析,
方案一:根据图中所有数据,计算向量夹角的余弦值cosθ1.
方案二:剔除点(10,21),根据剩下数据,再次计算向量夹角的余弦值cosθ2.
则( )
A.0<cosθ1<cosθ2<1 B.0<cosθ2<cosθ1<1
C.-1<cosθ1<cosθ2<0 D.-1<cosθ2<cosθ1<0
答案 D
解析 根据相关变量x,y的散点图知,变量x,y具有负线性相关关系.方案一中,没剔除点(10,21),x,y之间线性相关程度低些,呈负相关,所以cosθ1<0;方案二中,剔除点(10,21),x,y之间线性相关程度高些,也是负相关,所以-1<cosθ2<cosθ1<0.故选D.
3.(多选)变量x,y的散点图如图所示,现用向量夹角来分析x,y之间的相关关系,则向量夹角的余弦值不可能为( )
A.-0.9 B.0.9
C.0 D.0.95
答案 AC
解析 由图可知,变量x,y之间呈线性正相关,所以向量夹角为锐角,其余弦值大于0.故选AC.
二、填空题
4.在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6).则这两组成对数据表示的向量夹角的余弦值为________.
答案 -1
解析 ∵测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),∴=1.5,=1,a=(-0.5,0.5,2.5,-2.5),b=(1,-1,-5,5),cos〈a,b〉==-1.
5.某人用向量夹角来比较甲、乙、丙、丁四组数据的线性相关程度的高低,分别计算了甲、乙、丙、丁四组数据的向量夹角的余弦值,结果分别为-0.95,0.87,0.58,0.92,则这四组数据中线性相关程度最高的是________组数据.
答案 甲
解析 根据题意,因为向量夹角的余弦值的绝对值越大,线性相关程度越高,甲、乙、丙、丁四组数据的向量夹角的余弦值分别为-0.95,0.87,0.58,0.92,所以甲组数据的线性相关程度最高.
三、解答题
6.近年来,新能源产业蓬勃发展,已成为我市的一大支柱产业.据统计,我市一家新能源企业近5个月的产值与利润如表:
月份
5月
6月
7月
8月
9月
月份代码x
1
2
3
4
5
产值y亿元
16
20
27
30
37
利润z亿元
5
6
8
8
8
试分析产值与月份、利润与月份之间的相关关系(结果保留三位小数).
参考公式:rxy=.
参考数据:xiyi=442,x=55,y=3654,≈52.345,
z=253,≈8.944,xizi=113.
解 ==3,
==26,
==7.
所以rxy==≈0.993,
同理可得rxz≈0.894.
上述结果表明,产值与月份之间正相关程度高,利润与月份之间也正相关程度高,相比较而言,产值与月份之间的正相关程度更高.
7.某项目的建设过程中,发现其补贴额x(单位:百万元)与该项目的经济回报y(单位:千万元)之间存在着线性相关关系,统计数据如下表:
补贴额x(单位:百万元)
2
3
4
5
6
经济回报y(单位:千万元)
2.5
3
4
4.5
6
用向量夹角来分析这两组数据之间的相关关系(结果保留三位小数).
参考数据:≈1.732.
解 由于=4,=4,将上表中两组数据分别减去,,记a=(-2,-1,0,1,2),
b=(-1.5,-1,0,0.5,2),
cos〈a,b〉=≈0.982.
由此可以看出,其余弦值接近1,也就是两向量的夹角接近0,这说明这两组数据正相关程度高.
1.某公司有10个分公司,它们的销售额x(万元)、广告费y(万元)、销售人员个数z的数据如下表所示:
编号
1
2
3
4
5
销售额x/万元
7800
8400
6100
5200
9900
广告费y/万元
21
21
18
15
23
销售人员个数z
19
20
20
15
21
编号
6
7
8
9
10
销售额x/万元
8900
10000
9500
6500
7700
广告费y/万元
20
24
24
15
19
销售人员个数z
19
22
24
15
18
试研究销售额与广告费之间、销售额与销售人员个数之间的相关关系(结果保留三位小数).
参考公式:rxy=.
参考数据:=8000,=20,=19.3,
≈49159.740,
≈42166.171,
xiyi=1645500,xizi=1577300.
解 由题意可得
rxy=≈0.926,
同理可得rxz≈0.790.
上述结果表明,销售额与广告费之间正相关程度高,销售额与销售人员个数之间呈正相关关系.
2.某种产品的广告费用支出x(万元)与销售额y(万元)之间有如下的对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
用向量夹角来分析这两组数据之间的相关关系(结果保留三位小数).
参考数据:≈1.414.
解 由于=5,=50,
将表中的两组数据分别减去,,记
a=(-3,-1,0,1,3),
b=(-20,-10,10,0,20),
cos〈a,b〉==≈0.919.
由此可以看出,其余弦值接近1,也就是两向量的夹角接近0,这说明这两组数据正相关程度高.
1
学科网(北京)股份有限公司
$