第三节成对数据的统计分析课件-2027届高三数学一轮复习

2026-05-18

| 68页

| 80人阅读

| 0人下载

普通

资源信息

学段	高中
学科	数学
教材版本	-
年级	高三
章节	-
类型	课件
知识点	统计
使用场景	高考复习-一轮复习
学年	2027-2028
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	8.91 MB
发布时间	2026-05-18
更新时间	2026-05-18
作者	黄擦擦老师
品牌系列	-
审核时间	2026-05-18
下载链接	https://m.zxxk.com/soft/57918675.html
价格	2.00储值（1储值=1元）
来源	学科网

摘要：

该高中数学高考复习课件聚焦“成对数据的统计分析”专题，依据高考评价体系梳理了样本相关系数、一元线性回归模型、独立性检验三大核心考点，通过近五年真题分析明确相关系数计算、回归方程求解、列联表检验为高频题型，构建系统知识网络。课件亮点在于“真题精讲+技巧归纳+素养提升”，如以2022全国乙卷相关系数计算为例，提炼“公式应用-数据处理-结果分析”三步法，培养数学思维与数据观念。特设“易错警示”和“规范答题模板”，助力学生掌握得分技巧，教师可据此精准复习，提升备考效率。

内容正文：

第三节第九章　统计与成对数据的统计分析成对数据的统计分析【目标要求】　1.了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计的方法.3.针对实际问题,会用一元线性回归模型进行预测.4.通过实例,理解2×2列联表的统计意义.5.通过实例,了解2×2列联表独立性检验及其应用. 1.变量的相关关系 (1)相关关系的分类:正相关和负相关. (2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在_____________附近,我们就称这两个变量线性相关. 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关. 一条直线 2.样本相关系数 (1)样本相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下: . (2)样本相关系数r的性质 ①当r>0时,称成对样本数据_____________相关;当r<0时,称成对样本数据_____________相关;当r=0时,成对样本数据间没有线性相关关系. ②样本相关系数r的取值范围为_____________. 当|r|越接近1时,成对样本数据的线性相关程度越_____________; 当|r|越接近0时,成对样本数据的线性相关程度越_____________. 正负 [-1,1] 强弱预测值大小 1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系; 不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系. 2.经验回归直线=x+必过样本点的中心(,). 3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误. 4.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两个分类变量有关的把握越大. 1.思考辨析(对的打“√”,错的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(　　) (2)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越小.(　　) χ2的值越大,相关性越强,关系越密切. 解析 (3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点. (　　) (4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(　　) 经验回归直线=x+恒过样本中心点(,). 解析 2.(人A选三P103习题8.1T1改编)两个变量的相关关系有:①正相关;②负相关;③不相关,则下列散点图从左到右分别反映的变量间的相关关系是(　　) A.①②③ B.②③① C.②①③ D.①③② 第一个图大体趋势从左向右上升,故正相关,第二个图不相关,第三个图大体趋势从左向右下降,故负相关. 解析 3.(苏教选二P169T1改编)某小吃店的日盈利y(单位:百元)与当天平均气温x(单位:℃)之间有如下数据: 甲、乙、丙3位同学对上述数据进行了分析,发现y与x之间具有线性相关关系,下列回归方程正确的是(　　) A.=-x+2.8 B.=-x+3 C.=-1.2x+2.6 D.=x-0.8 x/℃ -2 -1 0 1 2 y/百元 5 4 2 2 1 计算得=(-2-1+0+1+2)=0,=(5+4+2+2+1)=2.8.回归直线必过点(0,2.8),故只有A项满足. 解析 -0.1 ==8,==5,则=5-0.8×8=-1.4,所以=0.8x-1.4,当x=10时,=6.6,所以当x=10时的残差为6.5-6.6=-0.1. 解析不独立 0.05 因为3.974>3.841,所以假设不成立,即认为x,y不独立,这个结论犯错误的概率不超过0.05. 解析【例1】　(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据: 考点一成对数据的相关性样本号i 1 2 3 4 5 6 7 8 9 10 总和根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6 材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9 设这种树木平均一棵的根部横截面积为,平均一棵的材积量为,则==0.06,==0.39. 解 (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01); 解解判断两个变量相关性的方法 1.画散点图:若点的分布从左下角区域到右上角区域,两个变量正相关;若点的分布从左上角区域到右下角区域,两个变量负相关. 2.样本相关系数:根据成对样本数据,直接求出r,当r>0时,两个变量正相关;当r<0时,两个变量负相关;|r|越接近于1,两个变量相关程度越强. [注意]　样本相关系数r为判定两个变量是否线性相关的指标,且绝对值越大,线性相关程度越强,而不是r越大,线性相关程度越强. 【训练1】　某市环保部门研究近十年空气质量数据,得到以下结论: 结论一:PM2.5浓度与机动车保有量的样本相关系数r1=0.92; 结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数r2=-0.12; 结论三:工业能耗与近地面臭氧浓度的样本相关系数r3=0.75. 下列说法正确的是(　　) A.由结论一可知,机动车保有量增加是PM2.5浓度升高的直接原因 B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联 C.结论三表明工业能耗与近地面臭氧浓度呈正相关,且线性相关性比结论一更强 D.结论一中|r1|接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系选项A:r1=0.92仅表明PM2.5浓度与机动车保有量线性正相关,且相关性很强,但并不意味着机动车保有量增加是PM2.5浓度升高的直接原因,所以选项A错误;选项B:r2=-0.12表示绿化覆盖率与呼吸道疾病发病率线性负相关,且相关性极弱,但仍有轻微线性相关性,且还可能存在非线性相关关系,所以不能判断无关联,所以选项B错误;选项C:线性相关强度由|r|决定,因为|r3|=0.75<|r1|=0.92,所以工业能耗与近地面臭氧浓度比结论一的线性相关性更弱,所以C项错误;选项D:|r1|=0.92非常接近1,表明两者存在极强的线性相关关系.所以选项D正确.故选D. 解析考向❶一元线性回归模型【例2】　(2026·郑州模拟)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2018~2022年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%): 考点二经验回归模型 (1)求2018~2022年年份代码xi与yi的样本相关系数(精确到0.01); 年份 2018年 2019年 2020年 2021年 2022年年份代码xi 1 2 3 4 5 yi 6.4 5.5 5.0 4.8 3.8 解 (2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程; 解令x=10,则=-0.59×10+6.87=0.97,预测2027年的酸雨区面积占国土面积的百分比为0.97%. 解线性回归分析问题的解题策略 1.利用最小二乘估计公式,求出回归系数. 2.利用经验回归直线过样本点的中心求系数. 3.写出经验回归方程,并利用经验回归方程进行预测. (1)根据散点图可知,可用函数模型y=+α拟合y与x的关系,试建立y关于x的回归方程; 解由y=10+,得x=,年利润M=m-x-10=-+++100--10=-(y-20)2+90.8,当y=20时,年利润M取得最大值,此时,x===20,所以当年技术创新投入20千万元时,年利润的预报值最大. 解非线性经验回归方程转化为线性经验回归方程常用方法: 1.若y=a+b,设t=,则=+t. 2.若y=a+bln x,设t=ln x,则=+t. 3.若y=c1,两边取自然对数,得ln y=ln c1+c2x,设z=ln y,= ln c1,=c2,则=+x. 对于A,由表可得==8,==,因为经验回归直线=-0.6x+10.4必过样本中心点(,),所以=-0.6×8+10.4= 5.6,解得m=5,故A正确;对于B,当x=10时,=-0.6×10+10.4=4.4,故B正确;对于C,因为经验回归方程=-0.6x+10.4中,斜率k=-0.6<0,所以变量x和y呈负相关,故C正确;对于D,该经验回归直线必过点为样本中心点(8,5.6),故D错误.故选D. 解析 (2)用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到经验回归方程为=0.5x+2,则c=(　　) A.0.5 B.e0.5 C.2 D.e2 因为y=cekx,两边取对数,得ln y=ln(cekx)=ln c+ln ekx=kx+ln c,则=x+ln ,而=0.5x+2,于是得ln =2,即=e2.故选D. 解析【例4】　(2025·全国一卷)(13分)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表: 考点三独立性检验………………规范答题组别超声波检查结果合计正常不正常患该疾病 20 180 200 未患该疾病 780 20 800 合计 800 200 1 000 (1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值; (2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关. 附:χ2=, α 0.050 0.010 0.001 xα 3.841 6.635 10.828 [思考] ❶统计假设是什么? ❷运算结果具体要求是什么? ❸结论应如何规范表达? 【书写表达】————规范答题步步为赢得满分 (1)(第一给分点:6分) 由题表可知,检查结果不正常者有200人,检查结果不正常者中患有该疾病的有180人,　[3分] 所以由样本估计总体得p==0.9.　[6分] (2)(第二给分点:7分) 零假设为H0:超声波检查结果与是否患该疾病无关联.❶[8分] 根据列联表中的数据,经计算得到 χ2= = = = =765.625>10.828=x0.001,❷　[11分] 根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为超声波检查结果与是否患该疾病有关联,此推断犯错误的概率不大于0.001.❸　[13分] 【教考衔接】————溯源教材融合贯通稳得分 (1)解决独立性检验问题的关键是理解独立性检验的基本思想,掌握独立性检验的基本步骤. (2)本题在解决过程中需要明确频率是概率的近似值,求解χ2时,要注意2×2列联表和公式运用,防止因计算失误而失分. (3)本题来源于人教A版选择性必修第三册第133页例4. 【训练2】　(1)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了地区A的100天日落和夜晚天气,得到如下2×2列联表(单位:天),并计算得到χ2≈19.05,下列小波对地区A天气的判断不正确的是(　　) 参考公式:χ2= 日落云里走夜晚天气下雨未下雨出现 25 5 未出现 25 45 临界值参照表: α 0.1 0.05 0.01 0.005 0.001 xa 2.706 3.841 6.635 7.879 10.828 A.夜晚下雨的概率约为 B.未出现“日落云里走”,夜晚下雨的概率约为 C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关 D.出现“日落云里走”,有99%的把握判断夜晚会下雨选项A:根据列联表可知:100天中有50天下雨,50天未下雨,因此夜晚下雨的概率约为=,故选项A正确;选项B:未出现“日落云里走”,夜晚下雨的概率约为=,故选项B正确;选项C:因为χ2≈19.05>6.635= x0.01 ,所以根据小概率值α=0.01的独立性检验,可以认为“日落云里走”是否出现与夜晚天气有关,故选项C正确;选项D:依据小概率值α=0.01的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率小于0.01,但不代表一定会下雨,故选项D错误. 解析 (2)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,调查样本中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若在犯错误的概率不超过5%的前提下认为是否追星和性别有关,则调查样本中男生至少有(　　) 参考数据及公式如下: χ2=, A.12人 B.11人 C.10人 D.18人 α 0.1 0.05 0.01 0.005 0.001 xa 2.706 3.841 6.635 7.879 10.828 设男生人数为x,则女生人数为,依题意可得列联表如下: 解析性别追星合计喜欢追星不喜欢追星男生 x 女生合计 x 若在犯错误的概率不超过5%的前提下认为是否喜欢追星和性别有关,则χ2>3.841,由χ2==x>3.841,解得x>10.24,因为,为整数,所以若在犯错误的概率不超过5%的前提下认为是否喜欢追星和性别有关,则x至少为12,即男生至少有12人. 解析 1.(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表: 亩产量 [900, 950) [950, 1 000) [1 000, 1 050) [1 050, 1 100) [1 100, 1 150) [1 150, 1 200] 频数 6 12 18 30 24 10 根据表中数据,下列结论中正确的是(　　) A.100块稻田亩产量的中位数小于1 050 kg B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80% C.100块稻田亩产量的极差介于200 kg至300 kg之间 D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;对于B,100块稻田中亩产量低于 1 100 kg的稻田所占比例为×100%=66%,故B不正确;对于C,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,故C正确;对于D,100块稻田亩产量的平均值为×(925×6+975×12+1 025×18+1 075×30+1 125×24+ 1 175×10)=1 067(kg),故D不正确.综上所述,故选C. 解析 2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则(　　) A.讲座前问卷答题的正确率的中位数小于70% B.讲座后问卷答题的正确率的平均数大于85% C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差 D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差解法一:根据散点图,讲座前问卷答题正确率的10个数据中,小于或等于70%的有5个,这意味着中位数必然大于70%,故选项A错误.讲座后问卷答题正确率的10个数据中,有1个为80%,4个为85%,其余数据大于或等于90%,经估算知,平均数大于85%,故选项B正确.从散点图可以看出,与讲座后的正确率的数据相比,讲座前正确率的数据更为分散,故标准差更大,故选项C错误.从散点图可直接看出,讲座前正确率的极差更大,故选项D错误.故选B. 解析解法二:根据散点图可知,讲座前问卷答题正确率的中位数为(70%+75%)>70%,故选项A错误.由散点图中数据计算知,讲座后问卷答题正确率的平均数为89.5%,故选项B正确.从散点图可以看出,与讲座后问卷答题的正确率数据相比,讲座前问卷答题的正确率数据更为分散,故标准差更大,选项C错误.由散点图中数据计算可知,讲座前的正确率极差为95%-60%=35%,讲座后问卷答题正确率的极差为100%-80%=20%,故选项D错误.故选B. 解析 3.(2021·新高考Ⅰ卷)(多选题)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则 (　　) A.两组样本数据的样本平均数相同 B.两组样本数据的样本中位数相同 C.两组样本数据的样本标准差相同 D.两组样本数据的样本极差相同解析 4.(2023·新课标Ⅰ卷)(多选题)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则(　　) A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数 B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数 C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差 D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差对于A,如1,2,2,2,2,4的平均数不等于2,2,2,2的平均数,故A错误;对于B,不妨设x2≤x3≤x4≤x5,则x2,x3,x4,x5的中位数为,x1,x2,…,x6的中位数为,故B正确;对于C,x1,x2,…,x6的数据波动性更大,故C错误;对于D,不妨设x2≤x3≤x4≤x5,则x1≤x2≤x3≤x4≤x5≤x6,所以x5-x2≤x6-x1,故D正确.故选BD. 解析 3.一元线性回归模型 (1)我们将=x+称为Y关于x的经验回归方程,其中 (2)残差:观测值减去___________所得的差称为残差. (3)决定系数 ,R2越_____________,即模型的拟合效果越好,R2越_____________,即模型的拟合效果越差. 4.列联表与独立性检验 (1)关于分类变量X和Y的抽样数据的2×2列联表 X Y 合计 Y=0 Y=1 X=0 a b a+b X=1 c d c+d 合计 a+c b+d n=a+b+c+d 记n=a+b+c+d,则随机变量χ2=. (2)独立性检验基于小概率值α的检验规则是: 当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α; 当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立. 下表给出了χ2独立性检验中五个常用的小概率值和相应的临界值 α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 4.已知变量x和y的统计数据如表: x 6 7 8 9 10 y 3.5 4 5 6 6.5 若由表中数据得到经验回归方程为=0.8x+,则当x=10时的残差为_____________(注:观测值减去预测值所得的差称为残差). 5.(人A选三P139T3改编)根据分类变量x与y的观测数据,计算得到χ2=3.974.依据α=0.05的独立性检验,结论为x与y_______________(填独立、不独立),这个结论犯错误的概率不超过_______________. 附: α 0.050 0.010 0.001 xα 3.841 6.635 10.828 并计算得=0.038,=1.615 8,xiyi=0.247 4. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量; 由题意,得(xi-)2=-10=0.038-10×0.062=0.002,(yi-)2=-10=1.615 8-10×0.392=0.094 8,(xi-)(yi-)=xiyi-10= 0.247 4-10×0.06×0.39=0.013 4,所以样本相关系数r== ≈≈0.97. (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值. 附:样本相关系数,≈1.377. 设所有这种树木的根部横截面积总和为X,总材积量为Y,则=,故Y=×186=1 209(m3). 由已知可得,==3,==5.1, 由题可列下表: xi- -2 -1 0 1 2 yi- 1.3 0.4 -0.1 -0.3 -1.3 (xi-)(yi-)=-5.9,=,=,r==≈≈-0.98. 由(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.== -0.59,=-=5.1-(-0.59)×3=6.87,所求经验回归方程为=-0.59x+6.87. (3)预测2027年的酸雨区面积占国土面积的百分比. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:,=-. 样本相关系数,≈6. 考向❷非线性回归模型【例3】　(2026·湖州质检)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本.为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如下散点图,并计算得:=6.8,=70,=3,=1.6,=350. 令u=,则y关于u的线性回归方程为=+u,依题意,得===200,=-=70-200×0.3=10,则=10+200u,所以y关于x的回归方程为=10+. (2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大? (注:年利润=年销售额-年投入成本) 参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为,=-. 【题组对点练】题号 1 2 考向 ❶ ❷ (1)已知变量x和y满足经验回归方程=-0.6x+10.4,且变量x和y之间的一组相关数据如表所示,则下列说法错误的是(　　) x 5 6 9 12 y 8 7 m 2.4 A.m=5 B.当x=10时,=4.4 C.变量x和y呈负相关 D.该经验回归直线必过点(9,5.6) A项,设=xi,则=yi=(xi+c)=xi+c,所以=+c,因为c≠0,所以≠,所以A选项错误.B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.C项,设=(xi-)2,=(yi-)2,所以=(xi+c--c)2=(xi-)2,所以=,所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.D项,设x1<x2<…<xn,则第一组数据的极差为xn-x1,设y1<y2<…<yn,则第二组数据的极差为yn-y1=(xn+c)-(x1+c)=xn-x1,所以两组数据的极差相同,所以D选项正确,故选CD. $

第三节成对数据的统计分析课件-2027届高三数学一轮复习

资源信息

摘要：

内容正文：

资源预览图