内容正文:
第3节 成对数据的统计分析
课程标准
核心素养
考情聚焦
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对样本数据的相关性.
2.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.
3.针对实际问题,会用一元线性回归模型进行预测.
4.通过实例,理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
1.相关关系的判断,达成直观想象和数据分析的素养.
2.回归方程的求法及回归分析,增强逻辑推理、数据分析和数学运算的素养.
3.独立性检验,增强逻辑推理、数据分析和数学运算的素养.
预计2026年的高考将以选择题、填空题的形式考查线性回归系数或利用线性回归方程进行预测;在给出临界值的情况下判断两个变量是否相关;在解答题中与频率分布相结合,考察线性回归方程的建立及应用和独立性检验的应用,难度中等
对应学生用书P172
[必备知识]
一、相关关系
1.两个变量有关系,但又没有确切到由其中的一个去精确地决定另一个的程度,这种关系称为 相关关系 .
2.散点图
将成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
3.正相关、负相关
如果从整体上看,当一个变量的值 增加 时,另一个变量的相应值也呈现 增加 的趋势,我们就称这两个变量正相关;如果当一个变量的值 增加 时,另一个变量的相应值呈现 减少 的趋势,则称这两个变量负相关.
二、线性相关与非线性相关(或曲线相关)
1.线性相关
一般地,如果两个变量的取值呈现 正相关 或 负相关 ,而且散点落在 一条直线 附近,我们就称这两个变量线性相关.
2.非线性相关(或曲线相关)
一般地,如果两个变量具有 相关性 ,但 不是 线性相关,那么我们就称这两个变量非线性相关或曲线相关.
三、样本相关系数
1.样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和,记r=
我们称r为变量x和变量y的样本相关系数.
2.样本相关系数的意义
样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可以反映成对样本数据的变化特征:当r>0时,称成对样本数据 正相关 ;当r<0时,称成对样本数据 负相关 .
3.相关系数r具有的性质
(1)样本相关系数r的取值样本范围为 [-1,1] ,即 |r|≤1 ;
(2)当|r|越接近1时,成对样本数据的线性相关程度 越强 ;
(3)当|r|越接近0时,成对样本数据的线性相关程度 越弱 .
4.两个随机变量的相关性与样本相关系数r之间的关系
两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的 线性相关程度 :r的符号反映了相关关系的 正负性 ;|r|的大小反映了两个变量线性相关的 程度 ,即散点集中于一条直线的程度.一般地,样本容量 越大 ,用样本相关系数估计两个变量的相关系数的效果 越好 .
四、一元线性回归模型
称下式为Y关于x的一元线性回归模型.
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
说明:
(1)模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的.
(2)如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
五、一元线性回归模型参数的最小二乘法
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.其中:
六、刻画回归效果的方式——残差分析
残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
残差图
利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
残差
图法
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高.
意义
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析,借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
残差平
方和
残差平方和为 (yi-i)2,残差平方和越小,模型拟合效果越好.
决定系
数R2
R2=1-,R2越大,模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.
1.相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.相关系数:r=,当r>0时,两变量正相关,当r<0时,两变量负相关,当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.
七、分类变量
1.分类变量:用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
2.取值:分类变量的取值可以用 实数 表示.
3.范围:本节主要讨论取值于 {0,1} 的分类变量的关联性问题.
八、2×2列联表
将如下表所示这种形式的数据统计表称为2×2列联表,它给出了成对分类变量数据的交叉分类频数.
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生
(X=0)
192
331
523
男生
(X=1)
128
473
601
合计
320
804
1 124
它包含了X和Y如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的 总数 .
九、独立性检验
1.零假设H0:分类变量X和Y独立.
2.公式:χ2=.
3.临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使下面关系式成立:P(x2≥xα)=α.
我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大.
4.独立性检验
基于小概率值α的检验规则是:
当 χ2≥xα 时,我们就推断H0 不成立 ,即认为X和Y 不独立 ,就推断犯错误的概率 不超过α ;
当 χ2<xα 时,我们 没有 充分证据推断H0不成立,可以认为X和Y 独立 .
这种利用x2的取值推断分类变量X和Y是否独立的方法称为x2独立性检验,读作“ 卡方独立性检验 ”,简称独立性检验.
[自主诊断]
[思考辨析]
判断下列说法是否正确,正确的在它后面的括号里打“√”,错误的打“×”.
(1)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )
(2)经验回归直线=x+恒过样本中心点(,),且至少过一个样本点.( )
(3)在一元线性回归模型中,e是bx+a与y的随机误差,它是一个可观测的量.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( )
(5)在残差图中,残差点分布的带状区域的宽度越窄,其模型拟合的精度越高.( )
(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案:(1)√ (2)× (3)× (4)√ (5)√ (6)×
[小题查验]
1.(2024·天津卷)下列图中,线性相关系数最大的是( )
解析:A [观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,r值相比于其他3图更接近1.]
2.(2025·济宁三模)根据变量Y1和x的成对样本数据,由一元线性回归模型①,得到经验回归模型=1x+1,对应的残差如图(1)所示.根据变量Y2和x的成对样本数据,由一元线性回归模型②,得到经验回归模型=2x+2,对应的残差如图(2)所示,则( )
A.模型①的误差满足一元线性回归模型的E(e1)=0的假设,不满足D(e1)=σ的假设
B.模型①的误差不满足一元线性回归模型的E(e1)=0的假设,满足D(e1)=σ的假设
C.模型②的误差满足一元线性回归模型的E(e2)=0的假设,不满足D(e2)=σ的假设
D.模型②的误差不满足一元线性回归模型的E(e2)=0的假设,满足D(e2)=σ的假设
解析:A [对于残差图(1)对应的散点,随机误差满足E(e1)=0的假设,但是方差σ随着x的变化而变化,不满足D(e1)=σ的假设;对图(2)对应的散点,均匀分布在水平带状区域内,随机误差满足E(e2)=0的假设,方差σ不随x的变化而变化,满足D(e2)=σ的假设.]
3.(2024·上海卷)已知沿海地区气温和海水表层温度相关,且样本相关系数为正数,对此描述正确的是( )
A.沿海地区气温高,海水表层温度就高
B.沿海地区气温高,海水表层温度就低
C.随着沿海地区气温由低到高,海水表层温度呈上升趋势
D.随着沿海地区气温由低到高,海水表层温度呈下降趋势
解析:C [因为沿海地区气温和海水表层温度相关,且样本相关系数为正数,所以随着沿海地区气温由低到高,海水表层温度呈上升趋势.]
对应学生用书P175
考点一 相关关系的判断(自主练透)
1.(2025·扬州三模)某校50名学生的身高与体重的散点图如下:根据身高和体重散点图,下列说法正确的是( )
A.身高越高,体重越重
B.身高越高,体重越轻
C.身高与体重成正相关
D.身高与体重成负相关
解析:C [由散点图可知身高与体重成正相关.]
2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y正相关,x与z负相关
D.x与y负相关,x与z正相关
解析:A [由题意不妨设,z=ky+b(k>0),
∵y=-0.1x+1,∴z=-0.1 kx+(k+b),
∵-0.1<0,-0.1 k<0,∴x与y负相关,x与z负相关.]
3.(多选题)已知由样本数据点集合{(xi,yi)|i=1,2,…,n},求得的回归直线方程为=1.5x+0.5,且=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除后的回归方程为=1.2 x+1.4
C.去除后y的估计值增加速度变快
D.去除后相应于样本点(2,3.75)的残差为0.05
解析:AB [=3,代入=1.5x+0.5,=5.
因为重新求得的回归直线l的斜率为1.2,所以正相关.
设新的横坐标的平均值为′,则(n-2)′=n-(1.2+4.8)=3n-6=3(n-2),′=3;
纵坐标的平均数为′,则(n-2)′=n-(2.2+7.8)=n-10=5n-10=5(n-2),′=5.
设新的线性回归方程为=1.2x+b,把(3,5)代入5=1.2×3+b,得b=1.4,
所以新的线性回归方程为=1.2x+1.4.故A,B正确.
因为斜率为1.2变小,所以y的增加速度变慢,故C错误.
把x=2代入,得y=3.8,3.75-3.8=-0.05,故D错误.故选AB.]
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
考点二 回归分析(多维探究)
[命题角度1] 线性回归分析
1.(2025·盐城市二模)某公司对项目A进行生产投资,所获得的利润有如下统计数据表:
项目A投资金额x/百万元
1
2
3
4
5
所获利润y/百万元
0.3
0.3
0.5
0.9
1
(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;
(2)该公司计划用7百万元对A,B两个项目进行投资,若公司对项目B投资x′(1≤x′≤6)百万元所获得的利润y′近似满足:y′=0.16x′-+0.49,求A,B两个项目投资金额分别为多少时,所获得的总利润最大?
附:①对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计公式分别为=,=-.
②线性相关系数.一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.
参考数据:对项目A投次的统计数据表中xiyi=11,=2.24,≈2.1.
解:(1)由题意,得=×(1+2+3+4+5)=3,=×(0.3+0.3+0.5+0.9+1)=0.6,x=1+4+9+16+25=55.
所以===0.2,(代入公式时一定要看清,不要代错)
=-=0.6-0.2×3=0,
所以线性回归方程为=0.2x.
线性相关系数r===≈0.952 4>0.95,
这说明投资金额x与所获利润y之间的线性相关性较强,用线性回归方程=0.2x对该组数据进行拟合合理.
(2)若对项目B投资x′(1≤x′≤6)百万元,则对项目A投资(7-x′)百万元,
所以所获得的总利润L=0.16x′-+0.49+0.2(7-x′)=1.93-≤1.93-2=1.65,(题眼)
当且仅当0.04(x′+1)=,即x′=2.5时取等号,(一定要求出等号成立的条件)
所以对A,B项目分别投资4.5百万元,2.5百万元时,所获得的总利润最大.
(1)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
(2)正确运用计算,的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线=x+必过样本点的中心(,)进行求值.
[命题角度2]非线性回归分析
2.噪声污染已经成为影响人们身体健康和生活质量的严重问题.为了了解声音强度D与声音能量I之间的关系,将测量得到的声音强度Di和声音能量Ii(i=1,2,…,10)数据做初步处理,得到下面的散点图及一些统计量的值.
(Ii-)2
1.04×10-11
45.7
-11.5
1.56×10-21
(Wi-)2
(Ii-)·(Di-)
i=1 (Wi-)·(Di-)
0.51
6.88×10-11
5.1
表中Wi=lg Ii,=
(1)根据表中数据,求声音强度D关于声音能量I的回归方程=+lg I;
(2)当声音强度大于60分贝时属于噪音,会产生噪声污染.城市中某点P共受到两个声源的影响,这两个声源的声音能量分别是I1和I2,且+=1010.已知点P的声音能量等于声音能量I1与I2之和,请根据(1)中的回归方程,判断P点是否受到噪声污染的干扰,并说明理由.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=.
解:(1)由Wi=lg Ii,则=+W,由表得===10.
所以=-=45.7-10×(-11.5)=160.7,所以D关于W的回归方程是=10W+160.7.
即D关于I的回归方程是=10lg I+160.7.
(2)点P的声音能量I=I1+I2,因为+=1010,
所以I=I1+I2=10-10(I1+I2)=10-10≥9×10-10.
根据(1)中的回归方程,点P的声音强度D的预报值:
=10 lg(9×10-10)+160.7=10lg 9+60.7>60,所以点P会受到噪声污染的干扰.
非线性回归分析问题的处理方法
(1)描点,选模.画出已知数据的散点图,把它与已经学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合最好的函数.
(2)解模.先对变量进行适当地变换,再利用线性回归模型来解模.
(3)比较检验.通过回归分析比较所建模型的优劣.
考点三 独立性检验(师生共研)
[典例] (2024·上海卷)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29 000名学生中随机抽取580人,得到日均体育锻炼时长(单位:小时)与学业成绩的数据如表所示:
时间范围
[0,0.5)
[0.5,1)
[1,1.5)
[1.5,2)
[2,2.5)
学业
成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
(1)该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为多少?
(2)估计该地区初中学生日均体育锻炼时长(精确到0.1小时).
(3)是否有95%的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
附:χ2=,n=a+b+c+d.P(χ2≥3.841)≈0.05.
解:(1)580人中体育锻炼时长不小于1小时人数占比P==,该地区29 000名初中学生中体育锻炼时长不小于1小时的人数约为29 000×=12 500人.
(2)该地区初中学生锻炼平均时长约为:
=≈0.9 h.
(3)列联表
成绩
时长
总计
时长[1,2)
其他时长
优秀
45
50
95
不优秀
177
308
485
总计
222
358
580
提出零假设H0:成绩优秀与日均体育锻炼时长不小于1小时且小于2小时无关.
χ2=≈3.976>3.841.
有95%的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关.
(1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
①根据样本数据制成2×2列联表;
②根据公式2=计算χ2的观测值xα;
③比较x0与临界值的大小关系,作统计推断.
提醒:准确计算2的值是正确判断的前提.
[跟踪训练]
(2025·全国一卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
组别
超声波检查结果
合计
正常
不正常
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1 000
(1)记超声波检查结果不正常者患有该疾病的概率为p,求p的估计值;
(2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
附:χ2=
解析:解:(1)在1 000个样本中,超声波检查结果不正常的人中患有该疾病的频率为=0.9,
以样本频率估计总体概率,p的估计值为0.9.
(2)H0:超声波检查结果与是否患病无关,
χ2==
=>10.828,
概率小概率值α=0.001的独立性检验,应拒绝零假设H0,即超声波检查结果与是否患病有关.
学科网(北京)股份有限公司
$