第八章成对数据的统计分析（复习课件）数学人教A版选择性必修第三册

2026-06-01

| 49页

| 1137人阅读

| 10人下载

精品

清澈的小汐

进店逛逛

资源信息

学段	高中
学科	数学
教材版本	高中数学人教A版选择性必修第三册
年级	高二
章节	小结
类型	课件
知识点	统计
使用场景	同步教学-单元练习
学年	2026-2027
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	4.34 MB
发布时间	2026-06-01
更新时间	2026-06-01
作者	清澈的小汐
品牌系列	上好课·上好课
审核时间	2026-06-01
下载链接	https://m.zxxk.com/soft/58149945.html
价格	4.00储值（1储值=1元）
来源	学科网

摘要：

该高中数学单元复习课件系统梳理了成对数据的统计相关性、一元线性回归模型及列联表与独立性检验三大核心内容，通过单元知识图谱将变量相关关系、样本相关系数、最小二乘估计、卡方检验等知识点逻辑串联，帮助学生构建完整的统计分析知识网络。其亮点在于采用“考点串讲-题型剖析-针对训练”的递进式复习策略，如通过样本相关系数计算、非线性回归方程建立等例题，结合残差分析、决定系数应用，培养学生的数据分析和逻辑推理能力。针对训练分基础与综合题，满足分层教学需求，助力学生巩固知识，也为教师提供清晰的复习路径，提升教学效率。

内容正文：

单元复习课件第八章成对数据的统计分析人教A版选择性必修第三册·高二学习内容导览单元知识图谱 2 单元复习目标 1 3 考点串讲针对训练 5 题型剖析 4 6 课堂总结 1.复习回顾通过样本相关系数比较多组成对数据的相关性；进一步掌握一元线性回归模型的含义，掌握一元线性回归模型参数的最二小乘估计方法；通过具体实例，体会统计思维与确定性思维的差异；积累数据分析经验，培养数据分析、逻辑推理等素养. 3.回顾并梳理刻画模型拟合效果指标效果的指标，非线性向线性的转化分析;运用独立性检验基本方法以及与统计、概率知识的综合应用. 2. 理解样本相关系数、经验回归方程的求解与运用. 2×2列联表的统计意义，独立性检验的基本思想，独立性检验的基本方法及其应用. 单元学习目标成对数据的统计相关性变量的相关关系样本相关系数一元线性回归模型及其应用列联表与独立性检验一元线性回归模型一元线性回归模型参数的最小二乘估计分类变量与列联表独立性检验单元知识图谱一、成对数据的统计相关性（一）变量的相关关系 1.相关关系：两个变量有关系，但又没有确切到可由其中的一个去精确地决定另一个的程度，这种关系称为相关关系. 2. 变量相关关系的分类分类一：正相关：指的是两个变量有相同的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变大,点的位置散布在从左下角到右上角的区域. 负相关：指的是两个变量有相反的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变小,点的位置散布在从左上角到右下角的区域内. 考点串讲一、成对数据的统计相关性（一）变量的相关关系分类二：线性相关：如果两个变量的取值呈现正相关或负相关，而且散点落在一一条直线附近，我们就称这两个变量线性相关. 非线性相关：一般地，如果两个变量具有相关性，但不是线性相关，那么我们就称这两个变量非线性相关或曲线相关. 考点串讲一、成对数据的统计相关性（一）变量的相关关系 3.样本相关系数对于变量x和变量y，设经过随机抽样获得的成对样本数据为(x1, y1), (x2, y2),‧‧‧, (xn, yn)，其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为和 . 我们称为变量x和变量y的样本相关系数. 考点串讲一、成对数据的统计相关性（一）变量的相关关系当r>0时，称成对样本数据正相关．这时，当其中一个数据的值变小时，另一个数据的值通常也变小；当其中一个数据的值变大时，另一个数据的值通常也变大．当r<0时，称成对样本数据负相关．这时，当其中一个数据的值变小时，另一个数据的值通常会变大；当其中一个数据的值变大时，另一个数据的值通常会变小．考点串讲一、成对数据的统计相关性（一）变量的相关关系 3.样本相关系数的性质相关系数r的正负和绝对值的大小可以反映成对样本数据之间线性相关的程度： ① 当r>0时，成对样本数据正相关；当r<0时，成对样本数据负相关. ② r的范围：|r|≤1； ③ 当|r|越接近1时，成对数据的线性相关程度越强；当|r|越接近0时，成对数据的线性相关程度越弱；特别地，当|r|＝0时，成对数据的没有线性相关关系；但不排除它们有其他相关关系当|r|＝1时，成对数据都落在一条直线上. 考点串讲二、一元线性回归模型及其应用（二）一元线性回归模型由于成对样本数据的散点图中，散点分布在一条直线y=bx+a的周围，因此可以用bx+a表示Y的均值,引入随机误差e，用以囊括其他所有随机影响因素，可建立一元线性回归模型在一元线性回归模型中，表达式Y=bx+a+e刻画的是随机变量Y与变量x之间的线性相关关系，其中参数a和b为模型的未知参数，需要根据成对样本数据进行估计. 其中，Y称为因变量或响应变量，x称为自变量或解释变量；a和b为模型的未知参数，a称为截距参数，b称为斜率参数；e是Y与bx+a之间的随机误差. 1.一元线性回归模型考点串讲二、一元线性回归模型及其应用（二）一元线性回归模型 2.经验回归方程我们将称为Y关于x的经验回归方程，也称经验回归函数或经验回归公式，其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法，利用该公式求得的叫做b, a的最小二乘估计.其中说明：（1）经验回归直线必过样本中心; （2）与相关系数r符号相同. 考点串讲二、一元线性回归模型及其应用（二）一元线性回归模型 3.残差分析对于响应变量Y，通过观测得到的数据y称为观测值，通过经验回归方程得到的称为预测值，观测值减去预测值称为残差. 残差是随机误差的估计结果，通过对残差的分析可以判断模型刻画数据的效果，以及判断原始数据中是否存在可疑数据等，这方面工作称为残差分析. 考点串讲二、一元线性回归模型及其应用（二）一元线性回归模型 4.决定系数R2 通过前面的讨论我们知道，当残差的平方和越小，经验回归模型的拟合效果就越好，故我们可以用决定系数R2来验证模型的拟合效果. 决定系数R2的计算公式为残差平方和偏差平方和（与经验回归方程有关）（与经验回归方程无关） R2越大，表示残差平方和越小，即模型的拟合效果越好 R2越小，表示残差平方和越大，即模型的拟合效果越差. 在一元线性回归模型中 R2=r2，即决定系数R2等于响应变量与解释变量的样本相关系数r的平方. 显然0≤R2≤1，R2越接近1，则线性回归刻画的效果越好. 考点串讲三、列联表与独立性检验（一）分类变量与列联表 1. 分类变量我们经常会使用一种特殊的随机变量，以区别不同的现象或性质，这类随机变量称为分类变量，分类变量的取值可以用实数表示．这里所说的变量和值不一定是具体的数值，例如：性别变量，其取值为男和女两种. 考点串讲三、列联表与独立性检验（一）分类变量与列联表 2. 2×2列联表在实践中，由于保存原始数据的成本较高，人们经常按研究问题的需要，将数据分类统计，并做成表格加以保存.我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数. 一般地，假设有两个分类变量X和Y，它们的取值分别为{x1，x2}和{y1，y2}，其2×2列联表为组别甲(Y＝0) 乙(Y＝1) 合计 A(X＝0) a b a＋b B(X＝1) c d c＋d 合计 a＋c b＋d a＋b＋c＋d 考点串讲三、列联表与独立性检验（二）独立性检验 1. 卡方统计量根据分类变量X和Y的2×2列联表中的数据可得如下统计量：该表达式可化简为考点串讲三、列联表与独立性检验（二）独立性检验 2. χ2的临界值忽略卡方的实际分布与该近似分布的误差后，对于任何小概率值α，可以找到相应的正实数，使得下面关系成立：我们称xα为α的临界值，这个临界值可以作为判断χ2大小的标准. 只要把概率值α取得充分小，在零假设成立的情况下，事件{χ2 ≥ xα}是不大可能发生的，根据这个规律，如果该事件发生，我们就可以推断零假设不成立，不过这个推断有可能犯错误，但犯错误的概率不会超过α. 概率值α越小，临界值xα越大. 考点串讲三、列联表与独立性检验（二）独立性检验 ①当≥时，我们就推断 H0 不成立，即认为X和Y不独立. ②当<时，我们没有充分证据推断 H0 不成立，可以认为X和Y独立. 这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验，读作“卡方独立性检验”，简称独立性检验. 该推断犯错误的概率不超过 α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值：基于小概率值α的检验规则: 3.独立性检验考点串讲【题型一】样本相关系数【例1】某地经过多年的环境治理，已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量，随机选取了10棵这种树木，测量每棵树的根部横截面积(单位：)和材积量y(单位： )，得到如下数据：样本号ff 1 2 3 4 5 6 7 8 9 10 根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 并计算得,,，， . (1)估计该林区这种树木平均一棵的根部横截面积（单位：）与平均一棵的材积量（单位：）； [解析] 估计该林区这种树木平均一棵的根部横截面积 , 平均一棵的材积量 . 题型剖析【题型一】样本相关系数 (2)求该林区这种树木的根部横截面积与材积量的样本相关系数（精确到）； [解析] 样本相关系数，即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97. (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 ,已知树木的材积量与其根部横截面积近似成正比,利用以上数据给出该林区这种树木的总材积量的估计值. [解析] 设这种树木的根部横截面积总和为,总材积量为，则,则 , 所以该林区这种树木的总材积量的估计值为 . 题型剖析【训练1】现随机抽取了某校10名学生在入学考试中的数学成绩（单位：分）与入学后的第一次考试中的数学成绩（单位：分），数据如下表：学生序号 1 2 3 4 5 6 7 8 9 10 120 108 117 104 103 110 104 105 99 108 84 64 84 68 69 68 69 46 57 71 请用样本相关系数判断这10名学生的两次考试的数学成绩之间的线性相关关系的强弱（若，则线性相关关系很强）. 参考数据：，， , , . [解析] 由题表中数据可得，，所以样本相关系数，因为，所以两次考试的数学成绩之间的线性相关关系很强. 针对训练【题型二】线性回归分析【例2】一个车间为了规定工时定额，需确定加工零件所花费的时间，为此进行了10次试验，测得的数据如下表：零件数个 10 20 30 40 50 60 70 80 90 100 加工时间 62 72 75 81 85 95 103 108 112 127 (1)画出散点图，并初步判断与是否线性相关，若线性相关，求经验回归方程； [解析] 散点图如图所示. 题型剖析【题型二】线性回归分析由图可知，，线性相关，与的关系可以用线性回归模型来拟合，不妨设经验回归方程为 . 将数据代入相应公式可得数据表：编号零件数个加工时间 1 10 62 620 100 2 20 72 1 440 400 3 30 75 2 250 900 4 40 81 3 240 1 600 5 50 85 4 250 2 500 6 60 95 5 700 3 600 7 70 103 7 210 4 900 8 80 108 8 640 6 400 9 90 112 10 080 8 100 10 100 127 12 700 10 000 合计 550 920 56 130 38 500 ，，，，经验回归方程为 . 题型剖析【题型二】线性回归分析（2）求出； [解析] 利用（1）中经验回归方程求出下列数据. 61.85 68.55 75.25 81.95 88.65 0.15 3.45 95.35 102.05 108.75 115.45 122.15 0.95 4.85 3 11 16 20 35 . 题型剖析【题型二】线性回归分析（3）作出残差图； [解析] ，利用(2)中数据作出残差图，如图所示. （4）进行残差分析. [解析] 由散点图可以看出与有很强的线性相关性，由的值可以看出回归模型的拟合效果很好.由残差图也可以观察到，第2,5,9,10个样本点的残差比较大，需要确认在采集这些样本点的过程中是否有人为的错误. 题型剖析【训练2】“天宫”空间站、“嫦娥”奔月、“祝融”探火、“羲和”探月……从远古神话梦想到新中国成立后的航天事业飞速发展，中国人正一步一个脚印地探索更高、更远的太空奥秘.其中，飞行器及其动力装置、附件、仪表所用到的各类材料是航天工程技术发展的部分决定性因素.某公司负责生产的型航天材料是飞行器的重要零件，该材料应用前景十分广泛，现该公司欲对型航天材料进行改造，根据市场调研与模拟，得到改造投入（单位：亿元）与产品的直接收益（单位：亿元）的数据统计如下： 2 3 4 6 10 11 12 22 26 41 53 65 经研究表明，与具有线性相关关系. 针对训练（1）根据统计表中的数据，求出关于的经验回归方程； [解析] 由题表中数据得，，所以，，故所求经验回归方程为 . 针对训练（2）为了鼓励科技创新，当改造投入不少于15亿元时，国家给予公司补贴5亿元，试估计当公司收益（直接收益国家补贴）达到90亿元时，改造投入约为多少亿元（精确到）.参考数据：， . [解析] 由题意得，解得，，符合国家给予公司补贴的条件，所以公司收益达到90亿元时，改造投入约为15.15亿元. 针对训练【题型三】非线性回归分析【例3】某研发团队为制订下一年的研发投入计划，需要了解年研发资金投入（单位：亿元）对年销售额（单位：亿元）的影响,现结合该研发团队近12年的年研发资金投入和年销售额的数据建立了两个函数模型：，，其中 , , ,均为常数，为自然对数的底数，经过对历史数据的初步处理，得到散点图如图. 令, ，计算得数据如表所示： 20 66 770 200 14 460 4.20 3 125 000 0.308 21 500 题型剖析【题型三】非线性回归分析（1）设和的样本相关系数为,和的样本相关系数为，请从样本相关系数的角度考虑，选择一个拟合程度更好的模型（精确到）； [解析] , , 则，因此从样本相关系数的角度考虑，模型的拟合程度更好. 题型剖析【题型三】非线性回归分析 (2)①根据（1）中的选择及表中数据，建立关于的经验回归方程（精确到）； [解析] 由，得，即 . , ,, 所以关于的经验回归方程为 , 所以,则 . 题型剖析【题型三】非线性回归分析 ②若下一年的年销售额需达到80亿元，则预测下一年的研发资金投入为多少亿元. 参考数据：， . [解析] 下一年的年销售额需达到80亿元，即，代入得， , 又,所以 , 解得，所以预测下一年的研发资金投入为27.1亿元. 题型剖析【训练3】红蜘蛛是柚子的主要害虫之一，能对柚子树造成严重伤害，每只红蜘蛛的平均产卵数（单位：个）和平均温度（单位：）有关，现收集了以往某地的7组数据，得到下面的散点图及一些统计量的值. 参考数据 5 215 17 713 714 27 81.3 3.6 （1）根据散点图判断，与（其中,,, 均为常数，为自然对数的底数）哪一个更适合作为平均产卵数（单位：个）关于平均温度（单位：）的回归模型（给出判断即可，不必说明理由）； [解析] 由散点图可以判断，更适合作为平均产卵数关于平均温度的回归模型. 针对训练（2）由（1）的判断结果及表中数据，求出关于的经验回归方程（精确到）； [解析] 两边同时取自然对数，可得，设 ,又， . 由题表中的数据可得，，，，则，所以关于的经验回归方程为，故关于的经验回归方程为 . 针对训练（3）根据以往每年平均气温以及对果园年产值的统计，得到以下数据：平均气温在以下的年数占，对柚子产量影响不大，不需要采取防虫措施；平均气温在至的年数占，柚子产量会下降；平均气温在以上的年数占，柚子产量会下降 .为了更好地防治红蜘蛛虫害，农科所研究出各种防虫害措施供果农选择.在每年价格不变，无虫害的情况下，某果园年产值为200万元，根据以上数据，以得到最高收益（收益产值-防虫害费用）为目标，请为果农从以下几个方案中选择最佳防虫害方案，并说明理由. 方案一：选择防虫害措施，可以防治各种气温的红蜘蛛虫害，费用是18万；方案二：选择防虫害措施，可以防治至的蜘蛛虫害，但无法防治以上的红蜘蛛虫害，费用是10万；方案三：不采取防虫害措施. [解析] 用，和分别表示选择三种方案的收益. 采用方案一，无论气温如何，产值不受影响，收益为（万），即；针对训练采用方案二，若年平均气温在及以下，则收益为（万），若年平均气温在以上，则收益为（万），即同样，采用方案三，有，， . 显然最大，所以选择方案一最佳. 针对训练【题型四】独立性检验【例4】为了响应国家精准扶贫的号召，某村特地承包一块地，土地的使用面积与管理时间的关系如表1.调查了300名村民参与管理的意愿如表2. 表1 土地使用面积 1 2 3 4 5 管理时间 8 10 13 25 24 表2 单位：人性别参与管理的意愿合计愿意不愿意男 150 50 200 女 50 合计 200 300 题型剖析【题型四】独立性检验 (1)判断管理时间与土地面积有极强的线性相关关系，求出关于的经验回归方程； [解析] 依题意可得， , , , , 所以 , , 即关于的经验回归方程为 . 题型剖析【题型四】独立性检验 (2)完善表2中的数据,依据小概率值的独立性检验，分析参与管理的意愿是否与性别有关联； [解析] 完善表格如下：(单位：人) 性别参与管理的意愿合计愿意不愿意男 150 50 200 女 50 50 100 合计 200 100 300 零假设为参与管理的意愿和性别没有关联. 根据列联表中的数据，经计算得到 , 依据小概率值的独立性检验，推断不成立，即认为参与管理的意愿和性别有关联. 题型剖析【题型四】独立性检验（3）利用分层随机抽样的方法从愿意参与管理的村民中抽取4人，再从4人中抽取 3人，其中男性人数为，求的分布列和数学期望. [解析] 利用分层随机抽样的方法从愿意参与管理的村民中抽取4人，则抽到的男性有（人），抽到的女性有1人. 依题意得，的所有可能取值为2，3, 则， , 故的分布列为 2 3 所以 . 题型剖析【训练4】第24届冬季奥林匹克运动会在我国成功举行.为调查不同地域的青少年对冰雪运动的了解情况，某机构抽样调查了北京、天津、上海、重庆四个城市的部分高中生，调查问卷共20道题目. (1)若某个参加调查的同学能确定其中10道题目的答案，其余10道题目中，有5道题目他能够答对的概率均为，另外5道题目他能够答对的概率均为，求该同学答对题目道数的均值； [解析] 记答对概率为0.6的5道题目中，该同学答对的道数为，答对概率为0.2的5道题目中，该同学答对的道数为，则, , 所以该同学答对题目的道数的均值为 . 针对训练 (2)将重庆和上海并为“南方组”，北京和天津并为“北方组”，通过调查得到如下列联表：(单位：人) 地域类别了解程度合计不了解非常了解南方组 53 112 165 北方组 96 139 235 合计 149 251 400 请在参考数据②中选择一个，根据小概率值的独立性检验，分析对冰雪运动的了解程度是否存在南北地域差异. 参考数据： , , . 针对训练 ②临界值表： 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 [解析] 零假设为对冰雪运动的了解程度不存在南北地域差异. 由已知条件及参考数据得， . 若选择,则 , 根据小概率值的独立性检验，推断不成立，即认为对冰雪运动的了解程度存在南北地域差异，此推断犯错误的概率不大于0.1. 若选择，则，根据小概率值的独立性检验，没有充分证据推断不成立，可以认为成立，即认为对冰雪运动的了解程度不存在南北地域差异. 针对训练一、求线性回归方程的一般步骤 (1)收集样本数据，设为(xi，yi)(i＝1,2，…，n)(数据一般由题目给出)． (2)作出散点图，确定x，y具有线性相关关系． (3)计算有关数据． (4)代入公式计算． (5)写出经验回归方程＝x＋. 注：用公式计算，的值时，一般要先计算，然后才能算出. 课堂总结二、建立回归模型的一般步骤 (1)确定研究对象，明确哪个变量是解释变量，哪个变量是响应变量； (2)画出确定好的解释变量和响应变量的散点图，观察它们之间的关系(如是否存在线性关系)； (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系，则选用线性回归方程x＋； (4)按一定规则估计回归方程中的参数； (5)得出结果后分析残差图是否有异常(个别数据对应的残差过大，或残差呈现不随机的规律性，等等)．若残差存在异常，则应检查数据是否有误，或模型是否合适等； (6)依据回归方程作出预报．课堂总结三、非线性回归问题的处理方法 1.指数函数型y＝ebx＋a ①函数y＝ebx＋a的图象如图所示： ②处理方法：两边取对数得ln y＝ln ebx＋a，即ln y＝bx＋a. 令z＝ln y，把原始数据(x，y)转化为(x，z)，再根据线性回归模型的方法求出a，b. 课堂总结三、非线性回归问题的处理方法 2.对数函数型y＝bln x＋a ①函数y＝bln x＋a的图象如图所示： ②处理方法：设x'＝ln x，原方程可化为y＝bx'＋a，再根据线性回归模型的方法求出a，b. 课堂总结四、独立性检验的大致步骤 (1)提出零假设H0：X和Y相互独立，并给出在问题中的解释； (2)根据抽样数据整理出2×2列联表，计算χ2的值，并与临界值xα比较； (3)根据检验规则得出推断结论； (4)在X和Y不独立的情况下，根据需要，通过比较相应的频率，分析X和Y间的影响规律．课堂总结感谢聆听! 如果χ2≥xα，就推断“X与Y有关系”，这种推断犯错误的概率不超过α；否则，就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”，或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”． $