内容正文:
第三节
第九章 统计与成对数据的统计分析
成对数据的统计分析
【目标要求】 1.了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计的方法.3.针对实际问题,会用一元线性回归模型进行预 测.4.通过实例,理解2×2列联表的统计意义.5.通过实例,了解2×2列联表独立性检验及其应用.
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在_____________附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
一条直线
2.样本相关系数
(1)样本相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
.
(2)样本相关系数r的性质
①当r>0时,称成对样本数据_____________相关;当r<0时,称成对样本数据_____________相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为_____________.
当|r|越接近1时,成对样本数据的线性相关程度越_____________;
当|r|越接近0时,成对样本数据的线性相关程度越_____________.
正
负
[-1,1]
强
弱
预测值
大
小
1.相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.经验回归直线=x+必过样本点的中心(,).
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推 断,得出的结论都可能犯错误.
4.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两个分类变量有关的把握越大.
1.思考辨析(对的打“√”,错的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越小.( )
χ2的值越大,相关性越强,关系越密切.
解析
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.
( )
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )
经验回归直线=x+恒过样本中心点(,).
解析
2.(人A选三P103习题8.1T1改编)两个变量的相关关系有:①正相关;②负相关;③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
第一个图大体趋势从左向右上升,故正相关,第二个图不相关,第三个图大体趋势从左向右下降,故负相关.
解析
3.(苏教选二P169T1改编)某小吃店的日盈利y(单位:百元)与当天平均气温x(单位:℃)之间有如下数据:
甲、乙、丙3位同学对上述数据进行了分析,发现y与x之间具有线性相关关系,下列回归方程正确的是( )
A.=-x+2.8 B.=-x+3
C.=-1.2x+2.6 D.=x-0.8
x/℃ -2 -1 0 1 2
y/百元 5 4 2 2 1
计算得=(-2-1+0+1+2)=0,=(5+4+2+2+1)=2.8.回归直线必过点(0,2.8),故只有A项满足.
解析
-0.1
==8,==5,则=5-0.8×8=-1.4,所以=0.8x-1.4,当x=10时,=6.6,所以当x=10时的残差为6.5-6.6=-0.1.
解析
不独立
0.05
因为3.974>3.841,所以假设不成立,即认为x,y不独立,这个结论犯错误的概率不超过0.05.
解析
【例1】 (2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
考点一
成对数据的相关性
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截
面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
设这种树木平均一棵的根部横截面积为,平均一棵的材积量为,则==0.06,==0.39.
解
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
解
解
判断两个变量相关性的方法
1.画散点图:若点的分布从左下角区域到右上角区域,两个变量正相关;若点的分布从左上角区域到右下角区域,两个变量负相关.
2.样本相关系数:根据成对样本数据,直接求出r,当r>0时,两个变量正相关;当r<0时,两个变量负相关;|r|越接近于1,两个变量相关程度越强.
[注意] 样本相关系数r为判定两个变量是否线性相关的指标,且绝对值越大,线性相关程度越强,而不是r越大,线性相关程度越强.
【训练1】 某市环保部门研究近十年空气质量数据,得到以下结论:
结论一:PM2.5浓度与机动车保有量的样本相关系数r1=0.92;
结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数r2=-0.12;
结论三:工业能耗与近地面臭氧浓度的样本相关系数r3=0.75.
下列说法正确的是( )
A.由结论一可知,机动车保有量增加是PM2.5浓度升高的直接原因
B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联
C.结论三表明工业能耗与近地面臭氧浓度呈正相关,且线性相关性比结论一更强
D.结论一中|r1|接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系
选项A:r1=0.92仅表明PM2.5浓度与机动车保有量线性正相关,且相关性很强,但并不意味着机动车保有量增加是PM2.5浓度升高的直接原因,所以选项A错误;选项B:r2=-0.12表示绿化覆盖率与呼吸道疾病发病率线性负相关,且相关性极弱,但仍有轻微线性相关性,且还可能存在非线性相关关系,所以不能判断无关联,所以选项B错误;选项C:线性相关强度由|r|决定,因为|r3|=0.75<|r1|=0.92,所以工业能耗与近地面臭氧浓度比结论一的线性相关性更弱,所以C项错误;选项D:|r1|=0.92非常接近1,表明两者存在极强的线性相关关系.所以选项D正确.故选D.
解析
考向❶一元线性回归模型
【例2】 (2026·郑州模拟)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2018~2022年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
考点二
经验回归模型
(1)求2018~2022年年份代码xi与yi的样本相关系数(精确到0.01);
年份 2018年 2019年 2020年 2021年 2022年
年份
代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
解
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
解
令x=10,则=-0.59×10+6.87=0.97,预测2027年的酸雨区面积占国土面积的百分比为0.97%.
解
线性回归分析问题的解题策略
1.利用最小二乘估计公式,求出回归系数.
2.利用经验回归直线过样本点的中心求系数.
3.写出经验回归方程,并利用经验回归方程进行预测.
(1)根据散点图可知,可用函数模型y=+α拟合y与x的关系,试建立y关于x的回归方程;
解
由y=10+,得x=,年利润M=m-x-10=-+++100--10=-(y-20)2+90.8,当y=20时,年利润M取得最大值,此时,x===20,所以当年技术创新投入20千万元时,年利润的预报值最大.
解
非线性经验回归方程转化为线性经验回归方程常用方法:
1.若y=a+b,设t=,则=+t.
2.若y=a+bln x,设t=ln x,则=+t.
3.若y=c1,两边取自然对数,得ln y=ln c1+c2x,设z=ln y,= ln c1,=c2,则=+x.
对于A,由表可得==8,==,因为经验回归直线=-0.6x+10.4必过样本中心点(,),所以=-0.6×8+10.4= 5.6,解得m=5,故A正确;对于B,当x=10时,=-0.6×10+10.4=4.4,故B正确;对于C,因为经验回归方程=-0.6x+10.4中,斜率k=-0.6<0,所以变量x和y呈负相关,故C正确;对于D,该经验回归直线必过点为样本中心点(8,5.6),故D错误.故选D.
解析
(2)用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到经验回归方程为=0.5x+2,则c=( )
A.0.5 B.e0.5 C.2 D.e2
因为y=cekx,两边取对数,得ln y=ln(cekx)=ln c+ln ekx=kx+ln c,则=x+ln ,而=0.5x+2,于是得ln =2,即=e2.故选D.
解析
【例4】 (2025·全国一卷)(13分)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联 表:
考点三
独立性检验………………规范答题
组别 超声波检查结果 合计
正常 不正常
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:χ2=,
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
[思考]
❶统计假设是什么?
❷运算结果具体要求是什么?
❸结论应如何规范表达?
【书写表达】————规范答题 步步为赢 得满分
(1)(第一给分点:6分)
由题表可知,检查结果不正常者有200人,检查结果不正常者中患有该疾病的有180人, [3分]
所以由样本估计总体得p==0.9. [6分]
(2)(第二给分点:7分)
零假设为H0:超声波检查结果与是否患该疾病无关联.❶[8分]
根据列联表中的数据,经计算得到
χ2=
=
=
=
=765.625>10.828=x0.001,❷ [11分]
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为超声波检查结果与是否患该疾病有关联,此推断犯错误的概率不大于0.001.❸ [13分]
【教考衔接】————溯源教材 融合贯通 稳得分
(1)解决独立性检验问题的关键是理解独立性检验的基本思想,掌握独立性检验的基本步骤.
(2)本题在解决过程中需要明确频率是概率的近似值,求解χ2时,要注意2×2列联表和公式运用,防止因计算失误而失分.
(3)本题来源于人教A版选择性必修第三册第133页例4.
【训练2】 (1)千百年来,我国劳动人民在生产实践中根据云的形 状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了地区A的100天日落和夜晚天气,得到如下2×2列联表(单位:天),并计算得到χ2≈19.05,下列小波对地区A天气的判断不正确的是( )
参考公式:χ2=
日落云里走 夜晚天气
下雨 未下雨
出现 25 5
未出现 25 45
临界值参照表:
α 0.1 0.05 0.01 0.005 0.001
xa 2.706 3.841 6.635 7.879 10.828
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关
D.出现“日落云里走”,有99%的把握判断夜晚会下雨
选项A:根据列联表可知:100天中有50天下雨,50天未下雨,因此夜晚下雨的概率约为=,故选项A正确;选项B:未出现“日落云里走”,夜晚下雨的概率约为=,故选项B正确;选项C:因为χ2≈19.05>6.635= x0.01 ,所以根据小概率值α=0.01的独立性检验,可以认为“日落云里走”是否出现与夜晚天气有关,故选项C正确;选项D:依据小概率值α=0.01的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率小于0.01,但不代表一定会下雨,故选项D错误.
解析
(2)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,调查样本中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若在犯错误的概率不超过5%的前提下认为是否追星和性别有关,则调查样本中男生至少有( )
参考数据及公式如下:
χ2=,
A.12人 B.11人 C.10人 D.18人
α 0.1 0.05 0.01 0.005 0.001
xa 2.706 3.841 6.635 7.879 10.828
设男生人数为x,则女生人数为,依题意可得列联表如下:
解析
性别 追星 合计
喜欢追星 不喜欢追星
男生 x
女生
合计 x
若在犯错误的概率不超过5%的前提下认为是否喜欢追星和性别有关,则χ2>3.841,由χ2==x>3.841,解得x>10.24,因为,为整数,所以若在犯错误的概率不超过5%的前提下认为是否喜欢追星和性别有关,则x至少为12,即男生至少有12人.
解析
1.(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量 [900,
950) [950,
1 000) [1 000,
1 050) [1 050,
1 100) [1 100,
1 150) [1 150,
1 200]
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;对于B,100块稻田中亩产量低于 1 100 kg的稻田所占比例为×100%=66%,故B不正确;对于C,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,故C正确;对于D,100块稻田亩产量的平均值为×(925×6+975×12+1 025×18+1 075×30+1 125×24+ 1 175×10)=1 067(kg),故D不正确.综上所述,故选C.
解析
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则( )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
解法一:根据散点图,讲座前问卷答题正确率的10个数据中,小于或等于70%的有5个,这意味着中位数必然大于70%,故选项A错误.讲座后问卷答题正确率的10个数据中,有1个为80%,4个为85%,其余数据大于或等于90%,经估算知,平均数大于85%,故选项B正确.从散点图可以看出,与讲座后的正确率的数据相比,讲座前正确率的数据更为分散,故标准差更大,故选项C错误.从散点图可直接看出,讲座前正确率的极差更大,故选项D错误.故选B.
解析
解法二:根据散点图可知,讲座前问卷答题正确率的中位数为(70%+75%)>70%,故选项A错误.由散点图中数据计算知,讲座后问卷答题正确率的平均数为89.5%,故选项B正确.从散点图可以看出,与讲座后问卷答题的正确率数据相比,讲座前问卷答题的正确率数据更为分散,故标准差更大,选项C错误.由散点图中数据计算可知,讲座前的正确率极差为95%-60%=35%,讲座后问卷答题正确率的极差为100%-80%=20%,故选项D错误.故选B.
解析
3.(2021·新高考Ⅰ卷)(多选题)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则 ( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
解析
4.(2023·新课标Ⅰ卷)(多选题)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
对于A,如1,2,2,2,2,4的平均数不等于2,2,2,2的平均数,故A错误;对于B,不妨设x2≤x3≤x4≤x5,则x2,x3,x4,x5的中位数为,x1,x2,…,x6的中位数为,故B正确;对于C,x1,x2,…,x6的数据波动性更大,故C错误;对于D,不妨设x2≤x3≤x4≤x5,则x1≤x2≤x3≤x4≤x5≤x6,所以x5-x2≤x6-x1,故D正确.故选BD.
解析
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,其中
(2)残差:观测值减去___________所得的差称为残差.
(3)决定系数
,R2越_____________,即模型的拟合效果越好,R2越_____________,即模型的拟合效果越差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
记n=a+b+c+d,则随机变量χ2=.
(2)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
下表给出了χ2独立性检验中五个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
4.已知变量x和y的统计数据如表:
x
6
7
8
9
10
y
3.5
4
5
6
6.5
若由表中数据得到经验回归方程为=0.8x+,则当x=10时的残差为_____________(注:观测值减去预测值所得的差称为残差).
5.(人A选三P139T3改编)根据分类变量x与y的观测数据,计算得到χ2=3.974.依据α=0.05的独立性检验,结论为x与y_______________(填独立、不独立),这个结论犯错误的概率不超过_______________.
附:
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
由题意,得(xi-)2=-10=0.038-10×0.062=0.002,(yi-)2=-10=1.615 8-10×0.392=0.094 8,(xi-)(yi-)=xiyi-10=
0.247 4-10×0.06×0.39=0.013 4,所以样本相关系数r==
≈≈0.97.
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数,≈1.377.
设所有这种树木的根部横截面积总和为X,总材积量为Y,则=,故Y=×186=1 209(m3).
由已知可得,==3,==5.1,
由题可列下表:
xi-
-2
-1
0
1
2
yi-
1.3
0.4
-0.1
-0.3
-1.3
(xi-)(yi-)=-5.9,=,=,r==≈≈-0.98.
由(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.==
-0.59,=-=5.1-(-0.59)×3=6.87,所求经验回归方程为=-0.59x+6.87.
(3)预测2027年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:,=-.
样本相关系数,≈6.
考向❷非线性回归模型
【例3】 (2026·湖州质检)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本.为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如下散点图,并计算得:=6.8,=70,=3,=1.6,=350.
令u=,则y关于u的线性回归方程为=+u,依题意,得===200,=-=70-200×0.3=10,则=10+200u,所以y关于x的回归方程为=10+.
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大?
(注:年利润=年销售额-年投入成本)
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为,=-.
【题组对点练】
题号
1
2
考向
❶
❷
(1)已知变量x和y满足经验回归方程=-0.6x+10.4,且变量x和y之间的一组相关数据如表所示,则下列说法错误的是( )
x
5
6
9
12
y
8
7
m
2.4
A.m=5 B.当x=10时,=4.4
C.变量x和y呈负相关 D.该经验回归直线必过点(9,5.6)
A项,设=xi,则=yi=(xi+c)=xi+c,所以=+c,因为c≠0,所以≠,所以A选项错误.B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.C项,设=(xi-)2,=(yi-)2,所以=(xi+c--c)2=(xi-)2,所以=,所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.D项,设x1<x2<…<xn,则第一组数据的极差为xn-x1,设y1<y2<…<yn,则第二组数据的极差为yn-y1=(xn+c)-(x1+c)=xn-x1,所以两组数据的极差相同,所以D选项正确,故选CD.
$