第八章 成对数据的统计分析(复习课件)数学人教A版选择性必修第三册

2026-06-01
| 49页
| 1137人阅读
| 10人下载
精品
清澈的小汐
进店逛逛

资源信息

学段 高中
学科 数学
教材版本 高中数学人教A版选择性必修第三册
年级 高二
章节 小结
类型 课件
知识点 统计
使用场景 同步教学-单元练习
学年 2026-2027
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 PPTX
文件大小 4.34 MB
发布时间 2026-06-01
更新时间 2026-06-01
作者 清澈的小汐
品牌系列 上好课·上好课
审核时间 2026-06-01
下载链接 https://m.zxxk.com/soft/58149945.html
价格 4.00储值(1储值=1元)
来源 学科网

摘要:

该高中数学单元复习课件系统梳理了成对数据的统计相关性、一元线性回归模型及列联表与独立性检验三大核心内容,通过单元知识图谱将变量相关关系、样本相关系数、最小二乘估计、卡方检验等知识点逻辑串联,帮助学生构建完整的统计分析知识网络。 其亮点在于采用“考点串讲-题型剖析-针对训练”的递进式复习策略,如通过样本相关系数计算、非线性回归方程建立等例题,结合残差分析、决定系数应用,培养学生的数据分析和逻辑推理能力。针对训练分基础与综合题,满足分层教学需求,助力学生巩固知识,也为教师提供清晰的复习路径,提升教学效率。

内容正文:

单元复习课件 第八章 成对数据的统计分析 人教A版选择性必修第三册·高二 学习内容导览 单元知识图谱 2 单元复习目标 1 3 考点串讲 针对训练 5 题型剖析 4 6 课堂总结 1.复习回顾通过样本相关系数比较多组成对数据的相关性;进一步掌握一元线性回归模型的含义,掌握一元线性回归模型参数的最二小乘估计方法;通过具体实例,体会统计思维与确定性思维的差异;积累数据分析经验,培养数据分析、逻辑推理等素养. 3.回顾并梳理刻画模型拟合效果指标效果的指标,非线性向线性的转化分析;运用独立性检验基本方法以及与统计、概率知识的综合应用. 2. 理解样本相关系数、经验回归方程的求解与运用. 2×2列联表的统计意义,独立性检验的基本思想,独立性检验的基本方法及其应用. 单元学习目标 成对数据的统计相关性 变量的相关关系 样本相关系数 一元线性回归模型及其应用 列联表与独立性检验 一元线性回归模型 一元线性回归模型参数的最小二乘估计 分类变量与列联表 独立性检验 单元知识图谱 一、成对数据的统计相关性 (一)变量的相关关系 1.相关关系: 两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. 2. 变量相关关系的分类 分类一: 正相关:指的是两个变量有相同的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变大,点的位置散布在从左下角到右上角的区域. 负相关:指的是两个变量有相反的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变小,点的位置散布在从左上角到右下角的区域内. 考点串讲 一、成对数据的统计相关性 (一)变量的相关关系 分类二: 线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量线性相关. 非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关. 考点串讲 一、成对数据的统计相关性 (一)变量的相关关系 3.样本相关系数 对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1, y1), (x2, y2),‧‧‧, (xn, yn),其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为 和 . 我们称 为变量x和变量y的样本相关系数. 考点串讲 一、成对数据的统计相关性 (一)变量的相关关系 当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大. 当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小. 考点串讲 一、成对数据的统计相关性 (一)变量的相关关系 3.样本相关系数的性质 相关系数r的正负和绝对值的大小可以反映成对样本数据之间线性相关的程度: ① 当r>0时,成对样本数据正相关; 当r<0时,成对样本数据负相关. ② r的范围:|r|≤1; ③ 当|r|越接近1时,成对数据的线性相关程度越强; 当|r|越接近0时,成对数据的线性相关程度越弱; 特别地, 当|r|=0时,成对数据的没有线性相关关系; 但不排除它们有其他相关关系 当|r|=1时,成对数据都落在一条直线上. 考点串讲 二、一元线性回归模型及其应用 (二)一元线性回归模型 由于成对样本数据的散点图中,散点分布在一条直线y=bx+a的周围,因此可以用bx+a表示Y的均值,引入随机误差e,用以囊括其他所有随机影响因素, 可建立一元线性回归模型 在一元线性回归模型中,表达式Y=bx+a+e刻画的是随机变量Y与变量x之间的线性相关关系,其中参数a和b为模型的未知参数,需要根据成对样本数据进行估计. 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 1.一元线性回归模型 考点串讲 二、一元线性回归模型及其应用 (二)一元线性回归模型 2.经验回归方程 我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用该公式求得的 叫做b, a的最小二乘估计.其中 说明:(1)经验回归直线必过样本中心; (2)与相关系数r符号相同. 考点串讲 二、一元线性回归模型及其应用 (二)一元线性回归模型 3.残差分析 对于响应变量Y,通过观测得到的数据y称为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值 称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. 考点串讲 二、一元线性回归模型及其应用 (二)一元线性回归模型 4.决定系数R2 通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果. 决定系数R2的计算公式为 残差平方和 偏差平方和 (与经验回归方程有关) (与经验回归方程无关) R2越大,表示残差平方和越小,即模型的拟合效果越好 R2越小,表示残差平方和越大,即模型的拟合效果越差. 在一元线性回归模型中 R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方. 显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好. 考点串讲 三、列联表与独立性检验 (一)分类变量与列联表 1. 分类变量 我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示. 这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种. 考点串讲 三、列联表与独立性检验 (一)分类变量与列联表 2. 2×2列联表 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数. 一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为 组别 甲(Y=0) 乙(Y=1) 合计 A(X=0) a b a+b B(X=1) c d c+d 合计 a+c b+d a+b+c+d 考点串讲 三、列联表与独立性检验 (二)独立性检验 1. 卡方统计量 根据分类变量X和Y的2×2列联表中的数据可得如下统计量: 该表达式可化简为 考点串讲 三、列联表与独立性检验 (二)独立性检验 2. χ2的临界值 忽略卡方的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数,使得下面关系成立: 我们称xα为α的临界值, 这个临界值可以作为判断χ2大小的标准. 只要把概率值α取得充分小,在零假设成立的情 况下,事件{χ2 ≥ xα}是不大可能发生的,根据这个规律, 如果该事件发生, 我们就可以推断零假设不成立,不过这个推断有可能犯错误,但犯错误的概率不会超过α. 概率值α越小,临界值xα越大. 考点串讲 三、列联表与独立性检验 (二)独立性检验 ①当≥时,我们就推断 H0 不成立,即认为X和Y不独立. ②当<时,我们没有充分证据推断 H0 不成立,可以认为X和Y独立. 这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验. 该推断犯错误的概率不超过 α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值: 基于小概率值α的检验规则: 3.独立性检验 考点串讲 【题型一】样本相关系数 【例1】某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量y(单位: ),得到如下数据: 样本号ff 1 2 3 4 5 6 7 8 9 10 根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 并计算得,,, , . (1)估计该林区这种树木平均一棵的根部横截面积(单位: )与平均一棵的材积量 (单位: ); [解析] 估计该林区这种树木平均一棵的根部横截面积 , 平均一棵的材积量 . 题型剖析 【题型一】样本相关系数 (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到 ); [解析] 样本相关系数 , 即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97. (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积 总和为 ,已知树木的材积量与其根部横截面积近似成正比,利用以上数据给出该林 区这种树木的总材积量的估计值. [解析] 设这种树木的根部横截面积总和为,总材积量为 , 则,则 , 所以该林区这种树木的总材积量的估计值为 . 题型剖析 【训练1】现随机抽取了某校10名学生在入学考试中的数学成绩 (单位:分)与入学后的第一次考试中的数学成绩 (单位:分),数据如下表: 学生序号 1 2 3 4 5 6 7 8 9 10 120 108 117 104 103 110 104 105 99 108 84 64 84 68 69 68 69 46 57 71 请用样本相关系数 判断这10名学生的两次考试的数学成绩之间的线性相关关系的强 弱(若 ,则线性相关关系很强). 参考数据:,, , , . [解析] 由题表中数据可得 , , 所以样本相关系数 , 因为 ,所以两次考试的数学成绩之间的线性相关关系很强. 针对训练 【题型二】线性回归分析 【例2】一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表: 零件数 个 10 20 30 40 50 60 70 80 90 100 加工时间 62 72 75 81 85 95 103 108 112 127 (1)画出散点图,并初步判断与 是否线性相关,若线性相关,求经验回归方程; [解析] 散点图如图所示. 题型剖析 【题型二】线性回归分析 由图可知,, 线性相关, 与 的关系可以用线性回归模型来拟合,不妨设经验回归方程为 . 将数据代入相应公式可得数据表: 编号 零件数 个 加工时间 1 10 62 620 100 2 20 72 1 440 400 3 30 75 2 250 900 4 40 81 3 240 1 600 5 50 85 4 250 2 500 6 60 95 5 700 3 600 7 70 103 7 210 4 900 8 80 108 8 640 6 400 9 90 112 10 080 8 100 10 100 127 12 700 10 000 合计 550 920 56 130 38 500 , , , , 经验回归方程为 . 题型剖析 【题型二】线性回归分析 (2)求出 ; [解析] 利用(1)中经验回归方程求出下列数据. 61.85 68.55 75.25 81.95 88.65 0.15 3.45 95.35 102.05 108.75 115.45 122.15 0.95 4.85 3 11 16 20 35 . 题型剖析 【题型二】线性回归分析 (3)作出残差图; [解析] ,利用(2)中数 据作出残差图,如图所示. (4)进行残差分析. [解析] 由散点图可以看出与有很强的 线性相关性,由 的值可以看出回归模 型的拟合效果很好.由残差图也可以观察 到,第2,5,9,10个样本点的残差比较大, 需要确认在采集这些样本点的过程中是 否有人为的错误. 题型剖析 【训练2】“天宫”空间站、“嫦娥”奔月、“祝融”探火、“羲和”探月……从远古神话 梦想到新中国成立后的航天事业飞速发展,中国人正一步一个脚印地探索更高、 更远的太空奥秘.其中,飞行器及其动力装置、附件、仪表所用到的各类材料是航 天工程技术发展的部分决定性因素.某公司负责生产的 型航天材料是飞行器的重 要零件,该材料应用前景十分广泛,现该公司欲对 型航天材料进行改造,根据 市场调研与模拟,得到改造投入(单位:亿元)与产品的直接收益 (单位:亿 元)的数据统计如下: 2 3 4 6 10 11 12 22 26 41 53 65 经研究表明,与 具有线性相关关系. 针对训练 (1)根据统计表中的数据,求出关于的经验回归方程 ; [解析] 由题表中数据得 , , 所以 , , 故所求经验回归方程为 . 针对训练 (2)为了鼓励科技创新,当改造投入不少于15亿元时,国家给予公司补贴5亿元, 试估计当公司收益(直接收益 国家补贴)达到90亿元时,改造投入约为多少亿元 (精确到 ).参考数据:, . [解析] 由题意得 , 解得 , ,符合国家给予公司补贴的条件, 所以公司收益达到90亿元时,改造投入约为15.15亿元. 针对训练 【题型三】非线性回归分析 【例3】 某研发团队为制订下一年的研发投入计划,需要了解年研发资金投入 (单位:亿元)对年销售额 (单位:亿元)的影响,现结合该研发团队近12年的年研发资金投入和年销售额 的数据 建立了两个函数模型: ,,其中 , , ,均为常数, 为自然对数的底数,经过对历史数据的初步处理,得到散点图如图. 令, ,计算得数据如表所示: 20 66 770 200 14 460 4.20 3 125 000 0.308 21 500 题型剖析 【题型三】非线性回归分析 (1)设和的样本相关系数为,和的样本相关系数为 ,请从样本相关系数的 角度考虑,选择一个拟合程度更好的模型(精确到 ); [解析] , , 则,因此从样本相关系数的角度考虑,模型 的拟合程度更好. 题型剖析 【题型三】非线性回归分析 (2)①根据(1)中的选择及表中数据,建立关于 的经验回归方程(精确到 ); [解析] 由,得 ,即 . , ,, 所以关于的经验回归方程为 , 所以,则 . 题型剖析 【题型三】非线性回归分析 ②若下一年的年销售额需达到80亿元,则预测下一年的研发资金投入为多少亿元. 参考数据:, . [解析] 下一年的年销售额需达到80亿元,即 ,代入 得, , 又,所以 , 解得 , 所以预测下一年的研发资金投入为27.1亿元. 题型剖析 【训练3】红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数 (单位:个)和平均温度 (单位: )有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值. 参考数据 5 215 17 713 714 27 81.3 3.6 (1)根据散点图判断,与(其中,,, 均为常数,为自然对数的 底数)哪一个更适合作为平均产卵数 (单位:个)关于平均温度(单位: )的回 归模型(给出判断即可,不必说明理由); [解析] 由散点图可以判断,更适合作为平均产卵数 关于平均温度 的回 归模型. 针对训练 (2)由(1)的判断结果及表中数据,求出关于 的经验回归方程(精确到 ); [解析] 两边同时取自然对数, 可得,设 ,又 , . 由题表中的数据可得, , , , 则 , 所以关于的经验回归方程为 , 故关于的经验回归方程为 . 针对训练 (3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温 在以下的年数占 ,对柚子产量影响不大,不需要采取防虫措施;平均气 温在至的年数占 ,柚子产量会下降;平均气温在以上的年 数占,柚子产量会下降 .为了更好地防治红蜘蛛虫害,农科所研究出各种 防虫害措施供果农选择.在每年价格不变,无虫害的情况下,某果园年产值为200万 元,根据以上数据,以得到最高收益(收益 产值-防虫害费用)为目标,请为果 农从以下几个方案中选择最佳防虫害方案,并说明理由. 方案一:选择防虫害措施 ,可以防治各种气温的红蜘蛛虫害,费用是18万; 方案二:选择防虫害措施,可以防治至 的蜘蛛虫害,但无法防治 以上的红蜘蛛虫害,费用是10万; 方案三:不采取防虫害措施. [解析] 用,和 分别表示选择三种方案的收益. 采用方案一,无论气温如何,产值不受影响,收益为 (万),即 ; 针对训练 采用方案二,若年平均气温在及以下,则收益为 (万), 若年平均气温在以上,则收益为 (万), 即 同样,采用方案三,有 , , . 显然 最大,所以选择方案一最佳. 针对训练 【题型四】独立性检验 【例4】为了响应国家精准扶贫的号召,某村特地承包一块地,土地的使用面积与管理时间 的关系如表1.调查了300名村民参与管理的意愿如表2. 表1 土地使用面积 1 2 3 4 5 管理时间 8 10 13 25 24 表2 单位:人 性别 参与管理的意愿 合计 愿意 不愿意 男 150 50 200 女 50 合计 200 300 题型剖析 【题型四】独立性检验 (1)判断管理时间与土地面积有极强的线性相关关系,求出关于 的经验回归方程; [解析] 依题意可得, , , , , 所以 , , 即关于的经验回归方程为 . 题型剖析 【题型四】独立性检验 (2)完善表2中的数据,依据小概率值 的独立性检验,分析参与管理的意愿 是否与性别有关联; [解析] 完善表格如下:(单位:人) 性别 参与管理的意愿 合计 愿意 不愿意 男 150 50 200 女 50 50 100 合计 200 100 300 零假设为 参与管理的意愿和性别没有关联. 根据列联表中的数据,经计算得到 , 依据小概率值的独立性检验,推断 不成立,即认为参与管理的意愿和 性别有关联. 题型剖析 【题型四】独立性检验 (3)利用分层随机抽样的方法从愿意参与管理的村民中抽取4人,再从4人中抽取 3人,其中男性人数为,求 的分布列和数学期望. [解析] 利用分层随机抽样的方法从愿意参与管理的村民中抽取4人,则 抽到的男性有 (人),抽到的女性有1人. 依题意得, 的所有可能取值为2,3, 则 , , 故 的分布列为 2 3 所以 . 题型剖析 【训练4】 第24届冬季奥林匹克运动会在我国成功举行.为调查不同地域的青少年对 冰雪运动的了解情况,某机构抽样调查了北京、天津、上海、重庆四个城市的部分 高中生,调查问卷共20道题目. (1)若某个参加调查的同学能确定其中10道题目的答案,其余10道题目中,有5道题 目他能够答对的概率均为 ,另外5道题目他能够答对的概率均为 ,求该同学答 对题目道数的均值; [解析] 记答对概率为0.6的5道题目中,该同学答对的道数为 , 答对概率为0.2的5道题目中,该同学答对的道数为 ,则, , 所以该同学答对题目的道数的均值为 . 针对训练 (2)将重庆和上海并为“南方组”,北京和天津并为“北方组”,通过调查得到如下列 联表:(单位:人) 地域类别 了解程度 合计 不了解 非常了解 南方组 53 112 165 北方组 96 139 235 合计 149 251 400 请在参考数据②中选择一个 ,根据小概率值 的独立性检验,分析对冰雪运动 的了解程度是否存在南北地域差异. 参考数据: , , . 针对训练 ②临界值表: 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 [解析] 零假设为 对冰雪运动的了解程度不存在南北地域差异. 由已知条件及参考数据得, . 若选择,则 , 根据小概率值的独立性检验,推断 不成立,即认为对冰雪运动的了解程 度存在南北地域差异,此推断犯错误的概率不大于0.1. 若选择,则 , 根据小概率值的独立性检验,没有充分证据推断 不成立,可以认为 成 立,即认为对冰雪运动的了解程度不存在南北地域差异. 针对训练 一、求线性回归方程的一般步骤 (1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出). (2)作出散点图,确定x,y具有线性相关关系. (3)计算有关数据. (4)代入公式计算. (5)写出经验回归方程=x+. 注:用公式计算,的值时,一般要先计算,然后才能算出. 课堂总结 二、建立回归模型的一般步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量; (2)画出确定好的解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系); (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性 回归方程x+; (4)按一定规则估计回归方程中的参数; (5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性,等等).若残差存在异常,则应检查数据是否有误,或模型是否合适等; (6)依据回归方程作出预报. 课堂总结 三、非线性回归问题的处理方法 1.指数函数型y=ebx+a ①函数y=ebx+a的图象如图所示: ②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a. 令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b. 课堂总结 三、非线性回归问题的处理方法 2.对数函数型y=bln x+a ①函数y=bln x+a的图象如图所示: ②处理方法:设x'=ln x,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b. 课堂总结 四、独立性检验的大致步骤 (1)提出零假设H0:X和Y相互独立,并给出在问题中的解释; (2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较; (3)根据检验规则得出推断结论; (4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律. 课堂总结 感谢聆听! 如果χ2≥xα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”. $

资源预览图

第八章 成对数据的统计分析(复习课件)数学人教A版选择性必修第三册
1
第八章 成对数据的统计分析(复习课件)数学人教A版选择性必修第三册
2
第八章 成对数据的统计分析(复习课件)数学人教A版选择性必修第三册
3
第八章 成对数据的统计分析(复习课件)数学人教A版选择性必修第三册
4
第八章 成对数据的统计分析(复习课件)数学人教A版选择性必修第三册
5
第八章 成对数据的统计分析(复习课件)数学人教A版选择性必修第三册
6
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。