统计案例 讲义-2026届高三数学二轮复习讲义

2026-03-13
| 2份
| 68页
| 519人阅读
| 7人下载
普通

资源信息

学段 高中
学科 数学
教材版本 -
年级 高三
章节 -
类型 教案-讲义
知识点 统计案例
使用场景 高考复习-二轮专题
学年 2026-2027
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 2.84 MB
发布时间 2026-03-13
更新时间 2026-03-13
作者 ZYSZYSZYSZYS
品牌系列 -
审核时间 2026-03-13
下载链接 https://m.zxxk.com/soft/56793592.html
价格 2.00储值(1储值=1元)
来源 学科网

内容正文:

统计案例(线性回归、非线性回归、相关系数、决定系数、独立性检验)复习讲义 统计案例(线性回归、非线性回归、相关系数、决定系数、独立性检验)复习讲义 考点目录 线性回归问题 非线性回归问题 相关系数 决定系数 独立性检验 知识点解析 1.散点图 每个点对应的一对数据,称为成对数据.这些点构成的图称为散点图. 2.曲线拟合 从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个大致趋势,这种趋势通常可以用一条光滑的曲线来近似地描述.这样近似描述的过程称为曲线拟合. 若在两个变量和的散点图中,所有点看上去都在一条直线附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为直线拟合. 3.最小二乘法 对于给定的两个变量和,可以把其成对的观测值、、...、表示为平面直角坐标系中的个点.现在希望找到一条直线,使得对每一个,由这个直线方程计算出来的值与实际观测值的差异尽可能小.为此,希望达到最小.换句话说,我们希望、的取值能使上式达到最小,这个方法称为最小二乘法. 4.一元线性回归方程 (1)若变量和具有线性相关关系,有个样本数据,则回归方程 其中,. 其中,称为样本点的中心. (2)线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量. 5.非线性回归方程的求解 (1)确定变量,作出散点图. (2)根据散点图,选择恰当的非线性回归模型. (3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程. 6.常见的变换 (1)已知函数,令,得. (2)已知函数,令,得. (3)已知函数,左右同时取的指数,得,令,得. (4)已知函数,左右同时取的对数,得,令,得. (5)已知函数,左右同时取的对数,得,令,得. (6)已知函数,左右同时取的对数,得,令,得. (7)已知函数,左右同时取的对数,得,令,,得. 7.常见变换 (1). (2). (3). 8.刻画回归效果的方式 方式方法 计算公式 刻画效果 决定系数 越接近于,表示回归的效果越好 相关系数 越接近于,相关性越强 残差图 称为相应于点的残差, 残差点均匀地落在水平的带状区域中,说明选用的模型比较合适. 其中这样的带状区域的宽度越窄,说明模型拟合精确度越高 残差平方和 残差平方和越接近于,模型的拟合效果越好 9.独立性检验 (1)列联表 设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下: 总计 总计 (2)独立性检验 利用随机变量(也可表示为) (其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验. (3)独立性检验的一般步骤 ①根据样本数据列出列联表; ②计算随机变量的观测值k,查下表确定临界值: ③如果,就推断“与有关系”,这种推断犯错误的概率不超过; 否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”. 考点一 线性回归问题 【例题分析】 例1.(2026·山东聊城·一模)某景区统计了连续5天该景区接待游客的人数(单位:万人),数据如下表: 第x天 1 2 3 4 5 接待游客人数y(万人) 2.2 2.6 3.1 5.2 6.9 (1)根据表中数据,求y关于x的经验回归方程,并预测第7天该景区接待游客的人数; (2)该景区上山、下山各有步行和乘观览车两种方式.调查显示,游客选择步行和乘观览车上山的概率分别为,,步行上山的游客下山时继续选择步行的概率为,乘观览车上山的游客下山时继续选择乘观览车的概率为.假设游客之间选择上山、下山的方式互不影响,现从该景区出口随机选取4位下山的游客了解其下山方式,记X为这4人中步行下山的游客人数,求X的分布列和期望. 附:参考数据:,,. 参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,. 例2.(2026·广东广州·模拟预测)某校学习小组为调查高一学生单日运动时间与数学成绩的关系,随机抽取80名同学进行问卷调查,得到如下数据:                数学成绩 单日运动时间 不低于90分 低于90分 不小于30分钟 30 10 小于30分钟 10 30 (1)根据小概率值的独立性检验,分析数学成绩与单日运动时间是否有关; (2)为进一步研究运动时间对成绩的影响,该小组从这80人中抽取了运动时间分别为10,20,30,40(单位:分钟)的4位同学,他们的数学成绩分别为(单位:分).记单日运动时间为,对应的数学成绩为,由这四组数据得到的经验回归方程为,求. 参考数据:. 附:. 0.050 0.010 0.001 3.841 6.635 10.828 例3.(25-26高三下·浙江·开学考试)2025年11月,全国多地中小学推行“秋假”政策,直接带动旅游市场热度.某景点为科学定价、吸引更多中小学生游客,选取拟定价格开展门票定价试运行,相关数据如下表所示: 门票价格x(元/人) 40 50 60 70 80 日游客人数y(千人) 18 17 13 7 5 (1)已知y与x具有线性相关关系,求出y关于x的经验回归方程; (2)为了扩大景区知名度与客流吸引力,景区将门票定价为10(元/人),并计划做广告宣传.由前期调查可知,当日均广告费为千元时的日游客人数为千人,其中y是当门票为10(元/人)时,根据(1)中的经验回归方程所预测的日游客人数.求景区的日均广告费用为多少千元时才能使日门票净收入最大.(日门票净收入=票价×日游客人数-日均广告费) 参考公式:经验回归方程,. 【变式训练】 变式1.(25-26高三下·河南驻马店·开学考试)脐橙营养丰富,香甜可口,深受大家喜爱.种植脐橙有较好的经济效益,某地近5年的脐橙产量(单位:万吨)如下表: 年份 2021 2022 2023 2024 2025 年份编号 1 2 3 4 5 脐橙产量 20 22 24 28 30 已知年份编号和脐橙产量线性相关. (1)用最小二乘法求出关于的经验回归方程; (2)试预测该地2027年的脐橙产量. 附:经验回归方程中斜率和截距的最小二乘估计公式分别为,. 变式2.(25-26高三下·河南·开学考试)为了解学生初中升学的数学成绩对高一数学学习的影响,在高一年级随机抽取6名学生,对其入学的数学成绩(分)和高一第一学期期末考试数学成绩(分)进行了统计,如下表: 中考数学成绩 50 60 70 80 90 100 高一第一学期期末数学成绩 65 80 95 105 120 130 (1)规定高一期末数学成绩不低于90分为及格,不低于120分为优秀,从所抽取的6人中随机选取1人,记为“学生的高一第一学期期末数学成绩及格”,为“学生的高一第一学期期末数学成绩优秀”,求; (2)由散点图可知与之间具有线性相关关系,求关于的经验回归方程并估计某中考数学成绩为110分的学生高一第一学期期末考试的数学成绩(成绩保留整数,采用四舍五入法). 附:经验回归模型中,; 参考数据:. 变式3.(25-26高三下·河北雄安·开学考试)已知某工厂有两个车间生产某种产品,该产品的售价(元)与产品月销量(万件)间的几组数据如下: 售价(元) 1 2 3 4 5 月销量(万件) 10.9 10.2 9.0 7.8 7.1 (1)若可用线性回归模型拟合与的关系,根据表格数据,求关于的线性回归方程 (2)当该产品的售价为6元时,请估计该产品的月销量; (3)若两个车间的月产量之比为,且这些产品会全部随机发放到该地区的销售网点,现有3名顾客每人购买一件该产品,记这三件产品中来自车间的件数为,求的分布列和数学期望. 附:参考数据:. 考点二 非线性回归问题 【例题分析】 例1.(25-26高三上·广东汕尾·月考)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:℃)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合. 根据收集到的数据,计算得到如下值: 24 2.9 646 179 422688 62.65 70308 表中; (1)根据散点图,比较模型①、②的拟合效果,模型___________比较合适?(无需说明理由) 根据所选择的模型,利用上表中的参考数据,求出关于的回归方程. (2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为. ①求取得最大值时对应的概率; ②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差. 附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为: 例2.(24-25高三上·重庆·期中)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—. 年份代码 市场规模 ,,,其中 参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,. (1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到); (2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差. 例3.(24-25高三上·湖南株洲·月考)一年一度的“双11”促销活动落下帷幕,各大电商平台发布的数据显示,在消费品以旧换新、家电政府补贴等促消费政策和活动的带动下,消费市场潜能加速释放,带动相关商品销售保持增长. 经过调研,得到2019年到2024年“双11”活动当天某电商平台线上日销售额(单位: 百亿元)与年份(第年)的6组数据(时间变量的取值依次为),对数据进行处理,得到如下散点图(图1)及一些统计量的值. 其中. 48.7 3.5 91 1204 1.1 9.4 388.1 分别用两种模型:①;②进行拟合,得到相应的回归方程,并进行残差分析,得到如图所示的残差图(图2)(残差值真实值预测值). (1)根据题中信息,通过残差图比较模型①,②的拟合效果,应选择哪一个模型进行拟合?请说明理由; (2)根据(1)中所选模型, (i)求出关于的经验回归方程(系数精确到0.1); (ⅱ)若该电商平台每年活动当天线上日销售额与当日营销成本及年份存在线性关系: ,则在第几年活动当日营销成本的预测值最大? 参考公式: ;参考数据:. 【变式训练】 变式1.(2025·广东潮州·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图. 根据收集到的数据,计算得到下表数据,其中. 7.5 2.25 82.50 4.50 12.14 2.88 (1)根据残差图,判断应选择哪个模型;(无需说明理由) (2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1) 附:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计分别为 变式2.(2025·福建福州·模拟预测)在国家积极推动美丽乡村建设的政策背景下,各地根据当地生态资源打造了众多特色纷呈的乡村旅游胜地.某人意图将自己位于乡村旅游胜地的房子改造成民宿用于出租,在旅游淡季随机选取100天,对当地已有的六间不同价位的民宿进行跟踪,统计其出租率,设民宿租金为(单位:元/日),得到如图的数据散点图. (1)若用“出租率”近似估计旅游淡季民宿每天租出去的概率,求租金为388元的那间民宿在淡季内的3天中至少有2天闲置的概率. (2)(i)根据散点图判断,与哪个更适合此模型(给出判断即可,不必说明理由)?根据判断结果求经验回归方程. (ii)若该地一年中旅游淡季约为280天,在此期间无论民宿是否出租,每天都要付出的固定成本,若民宿出租,则每天需要再付出的日常支出成本.试用(i)中模型进行分析,旅游淡季民宿租金定为多少元时,该民宿在这280天的收益达到最大. 附:记,,,,, ,,,,,. 变式3.(2025·四川内江·模拟预测)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了两个函数模型:;,其中、、、均为常数,为自然对数的底数,令,,经计算得如下数据: (1)请从相关系数的角度,分析哪一个模型拟合度更好? (2)根据(1)的选择及表中数据,建立关于的回归方程.(系数精确到0.01) 附:相关系数 回归直线中:,. 考点三 相关系数 【例题分析】 例1.(2026·江苏扬州·一模)近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示: 年份代码x 1 2 3 4 5 App在线用户数y(单位:万) 80 150 210 260 300 (1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱: (2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望. 注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,. 例2.(2026·安徽马鞍山·一模)为响应“全民健身”号召,某社区统计了5名居民每周参与体育锻炼的时长(单位:小时)与身体活力指数的对应数据,结果如下表所示: 特征量 居民 居民 居民 居民 居民 2 4 6 8 10 4 5 6 8 7 (1)根据表中数据,计算样本相关系数,并推断它们的相关程度; (2)求身体活力指数关于每周锻炼时长的一元线性回归方程,并利用该方程计算居民的身体活力指数残差. 参考公式:相关系数;回归系数. 【变式训练】 变式1.(2026·江西·一模)随着科技的发展,人工智能生成的虚拟角色正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货后销售金额逐步提升,根据该公司使用虚拟角色直播带货后18个月的销售金额的情况统计,得到一组样本数据,其中和分别表示月份编号和销售金额数量(单位:万元),并计算得, . (1)求样本的相关系数(精确到0.01),并推断销售金额(单位:万元)和月份编号是否线性相关(当时,即可认为线性相关); (2)已知这18个月中有10个月的销售金额高于平均数,从这18个月中随机抽取2个月的销售金额,记抽到销售金额高于平均数的月份数为,求随机变量的分布列. 附:相关系数. 变式2.(25-26高三上·河北邯郸·月考)为探究某药物在人体中的代谢情况,研究人员统计了血液中药物浓度与代谢时间的相关数据,如下表所示: 2 3 4 5 6 58 42 30 12 8 (1)若两组变量间的相关系数满足,则称其为高度相关,试判断血液中药物浓度与代谢时间是否高度相关,并说明理由(,结果保留3位小数); (2)建立关于的经验回归方程,并预测代谢6.2小时后,血液中药物浓度. 参考数据:. 参考公式:相关系数,经验回归方程中斜率和截距最小二乘估计公式分别为:. 考点四 决定系数 【例题分析】 例1.(2025·内蒙古包头·模拟预测)某企业拟对某产品进行科技升级,根据市场调研与模拟,得到科技升级投入(万元)与科技升级直接收益(万元)的数据统计如下: 序号 1 2 3 4 5 6 7 2 3 4 6 8 10 13 13 22 31 42 50 56 58 根据表格中的数据,建立了与的两个回归模型:模型①:模型②:. (1)根据下列表格中的数据,比较模型①、②的相关指数的大小,并选择拟合精度更高、更可靠的模型; (2)根据(1)选择的模型,预测对该产品科技升级的投入为100万元时的直接收益. 回归模型 模型① 模型② 回归方程 182.4 79.2 (附:刻画回归效果的相关指数越大,模型的拟合效果越好) 例2.(25-26高三上·重庆·月考)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,. x 141 152 168 182 195 204 223 254 277 y 23.1 24.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2 以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示. (1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系? (2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,. (ⅰ)求; (ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数. 附:相关系数,决定系数,. 【变式训练】 变式1.(2025·四川成都·模拟预测)如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2016~2022.    (1)由折线图看出,可用线性回归模型拟合y和t的关系,请建立y关于t的回归方程,并预测2025年该企业的污水净化量; (2)请用相关指数说明回归方程预报的效果. 参考数据:; 参考公式:线性回归方程; 相关指数: 变式2.(2025·山东淄博·模拟预测)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据. 经计算得到以下数据:,. (1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1); (2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为. ①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好; ②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数). 附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:. 考点五 独立性检验 【例题分析】 例1.(2026·安徽合肥·一模)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表: 材料配方类型 耐热疲劳性能 合计 测试合格 测试不合格 配方材料试样 75 配方材料试样 20 合计 140 (1)请完成上述列联表; (2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联? 附:,其中, 0.05 0.01 0.001 3.841 6.635 10.828 例2.(2026·内蒙古包头·模拟预测)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表: 单位:人 满意程度 性别 合计 男生 女生 满意 120 不满意 150 合计 200 (1)请补全上面的列联表,依据小概率值的独立性检验,能否认为满意程度与性别有关系; (2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,3道试题答对与否互不影响,用表示能进入总决赛的人数,求的数学期望. 附:,其中. 0.1 0.05 0.01 0.001 2.706 3.841 6.635 10.828 例3.(2026·黑龙江哈尔滨·一模)为了探究学生完成数学作业情况与成绩之间的联系,某学校采用按比例分层抽样的方式得到200名学生的测验成绩,样本中认真完成作业的学生成绩频率分布直方图如图1所示.若认为成绩不低于120分为优秀,且数学成绩为优秀的学生年级分布扇形图如图2所示,已知样本中高三年级有15位同学成绩为优秀,且在所有数学成绩为优秀的学生中,认真完成作业的学生占. (1)求a的值,并且计算出样本中认真完成作业的学生成绩的下四分位数; (2)根据样本数据完成下方列联表,依据小概率值的独立性检验,分析认真完成作业与成绩是否有关. 认真完成作业 不认真完成作业 成绩优秀 成绩不优秀 附:. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【变式训练】 变式1.(25-26高三上·贵州黔南·期末)黔南州某茶园为提高某品种茶苗的质量,特开展技术创新活动,在实验地分别用甲、乙两种方法培育该品种茶苗,为观测其生长情况,分别在用两种方法培育的茶苗中各随机抽取50株,对每株进行综合评分(单位:分),将每株所得的综合评分制成如图所示的频率分布直方图(每组为左闭右开区间),记综合评分为80及以上的茶苗为优质茶苗. (1)求图中的值,并求综合评分的75%分位数; (2)填写下面的列联表,并根据小概率值的独立性检验,分析优质茶苗与培育方法是否有关.请说明理由. 优质茶苗 非优质茶苗 合计 甲种培育法 22 乙种培育法 12 合计 附:,其中. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 变式2.(2026·吉林通化·模拟预测)指数是体重指数,当时,体重正常,某健美机构随机抽取顾客的数据进行统计,得到如下列联表: 数据 合计 正常范围 不正常范围 男顾客 75 15 90 女顾客 30 20 50 合计 105 35 140 (1)依据小概率值的独立性检验,能否推断出男、女顾客的是否存在差异? (2)该机构统计出上述男顾客平均体重为,女顾客的平均体重为,试估计该机构全体顾客的平均体重. 公式:,其中. 0.1 0.05 0.01 0.005 2.706 3.841 6.635 7.879 变式3.(25-26高三下·云南楚雄·开学考试)为助力“双碳”目标落地,某新型储能企业调研技术岗员工对钠离子电池产业扶持政策的认知情况,随机选取180名技术岗员工(含研发岗、运维岗)开展问卷调查,统计认知深度(深度认知、基础认知)与岗位类型的关联数据,初步整理数据如下: 类别 研发岗 运维岗 合计 深度认知 60 60 基础认知 20 40 合计 (1)补充表格,并根据小概率值的独立性检验,分析认知深度与岗位类型是否有关; (2)用按比例分配的分层随机抽样方法从基础认知的人中抽取12人,再从这12人中随机抽取6人,用随机变量表示这6人中研发岗员工人数与运维岗员工人数之差的绝对值,求的分布列和数学期望. 参考公式:,. 独立性检验中常用的小概率值和相应临界值. 0.1 0.05 0.025 0.005 0.001 2.706 3.841 5.024 7.879 10.828 2 学科网(北京)股份有限公司 $统计案例(线性回归、非线性回归、相关系数、决定系数、独立性检验)复习讲义 统计案例(线性回归、非线性回归、相关系数、决定系数、独立性检验)复习讲义 考点目录 线性回归问题 非线性回归问题 相关系数 决定系数 独立性检验 知识点解析 1.散点图 每个点对应的一对数据,称为成对数据.这些点构成的图称为散点图. 2.曲线拟合 从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个大致趋势,这种趋势通常可以用一条光滑的曲线来近似地描述.这样近似描述的过程称为曲线拟合. 若在两个变量和的散点图中,所有点看上去都在一条直线附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为直线拟合. 3.最小二乘法 对于给定的两个变量和,可以把其成对的观测值、、...、表示为平面直角坐标系中的个点.现在希望找到一条直线,使得对每一个,由这个直线方程计算出来的值与实际观测值的差异尽可能小.为此,希望达到最小.换句话说,我们希望、的取值能使上式达到最小,这个方法称为最小二乘法. 4.一元线性回归方程 (1)若变量和具有线性相关关系,有个样本数据,则回归方程 其中,. 其中,称为样本点的中心. (2)线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量. 5.非线性回归方程的求解 (1)确定变量,作出散点图. (2)根据散点图,选择恰当的非线性回归模型. (3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程. 6.常见的变换 (1)已知函数,令,得. (2)已知函数,令,得. (3)已知函数,左右同时取的指数,得,令,得. (4)已知函数,左右同时取的对数,得,令,得. (5)已知函数,左右同时取的对数,得,令,得. (6)已知函数,左右同时取的对数,得,令,得. (7)已知函数,左右同时取的对数,得,令,,得. 7.常见变换 (1). (2). (3). 8.刻画回归效果的方式 方式方法 计算公式 刻画效果 决定系数 越接近于,表示回归的效果越好 相关系数 越接近于,相关性越强 残差图 称为相应于点的残差, 残差点均匀地落在水平的带状区域中,说明选用的模型比较合适. 其中这样的带状区域的宽度越窄,说明模型拟合精确度越高 残差平方和 残差平方和越接近于,模型的拟合效果越好 9.独立性检验 (1)列联表 设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下: 总计 总计 (2)独立性检验 利用随机变量(也可表示为) (其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验. (3)独立性检验的一般步骤 ①根据样本数据列出列联表; ②计算随机变量的观测值k,查下表确定临界值: ③如果,就推断“与有关系”,这种推断犯错误的概率不超过; 否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”. 考点一 线性回归问题 【例题分析】 例1.(2026·山东聊城·一模)某景区统计了连续5天该景区接待游客的人数(单位:万人),数据如下表: 第x天 1 2 3 4 5 接待游客人数y(万人) 2.2 2.6 3.1 5.2 6.9 (1)根据表中数据,求y关于x的经验回归方程,并预测第7天该景区接待游客的人数; (2)该景区上山、下山各有步行和乘观览车两种方式.调查显示,游客选择步行和乘观览车上山的概率分别为,,步行上山的游客下山时继续选择步行的概率为,乘观览车上山的游客下山时继续选择乘观览车的概率为.假设游客之间选择上山、下山的方式互不影响,现从该景区出口随机选取4位下山的游客了解其下山方式,记X为这4人中步行下山的游客人数,求X的分布列和期望. 附:参考数据:,,. 参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,. 【答案】(1);8.8万人. (2)分布列见解析,数学期望为3. 【详解】(1)由题,又,,,, 所以 , 因此关于的经验回归方程为, 将代入回归方程得,即预测第7天接待游客人数为8.8万人. (2)设事件为“游客步行下山”,事件为“游客步行上山”,事件为“游客乘观览车上山”, 根据全概率公式可得每位游客步行下山的概率为, 所以由题意,的可能取值为 ,, ,, , 因此的分布列为: 0 1 2 3 4 所以期望为. 例2.(2026·广东广州·模拟预测)某校学习小组为调查高一学生单日运动时间与数学成绩的关系,随机抽取80名同学进行问卷调查,得到如下数据:                数学成绩 单日运动时间 不低于90分 低于90分 不小于30分钟 30 10 小于30分钟 10 30 (1)根据小概率值的独立性检验,分析数学成绩与单日运动时间是否有关; (2)为进一步研究运动时间对成绩的影响,该小组从这80人中抽取了运动时间分别为10,20,30,40(单位:分钟)的4位同学,他们的数学成绩分别为(单位:分).记单日运动时间为,对应的数学成绩为,由这四组数据得到的经验回归方程为,求. 参考数据:. 附:. 0.050 0.010 0.001 3.841 6.635 10.828 【答案】(1)数学成绩与单日运动时间有关; (2) 【详解】(1)零假设:数学成绩与单日运动时间无关, , 零假设不成立,故可认为根据小概率值的独立性检验,数学成绩与单日运动时间有关. (2), , 于是, 于是. 例3.(25-26高三下·浙江·开学考试)2025年11月,全国多地中小学推行“秋假”政策,直接带动旅游市场热度.某景点为科学定价、吸引更多中小学生游客,选取拟定价格开展门票定价试运行,相关数据如下表所示: 门票价格x(元/人) 40 50 60 70 80 日游客人数y(千人) 18 17 13 7 5 (1)已知y与x具有线性相关关系,求出y关于x的经验回归方程; (2)为了扩大景区知名度与客流吸引力,景区将门票定价为10(元/人),并计划做广告宣传.由前期调查可知,当日均广告费为千元时的日游客人数为千人,其中y是当门票为10(元/人)时,根据(1)中的经验回归方程所预测的日游客人数.求景区的日均广告费用为多少千元时才能使日门票净收入最大.(日门票净收入=票价×日游客人数-日均广告费) 参考公式:经验回归方程,. 【答案】(1) (2)当门票定价为10元时,日广告费用为4千元时门票净收入最大 【详解】(1)由题意得:,, ,,                     ,, 关于x的经验回归方程为. (2)设门票净收入为,则,由(1)时,, 故,                     若要使最大,则,代入可得,又因为,故,                 所以当门票定价为10元时,日广告费用为4千元时门票净收入最大. 【变式训练】 变式1.(25-26高三下·河南驻马店·开学考试)脐橙营养丰富,香甜可口,深受大家喜爱.种植脐橙有较好的经济效益,某地近5年的脐橙产量(单位:万吨)如下表: 年份 2021 2022 2023 2024 2025 年份编号 1 2 3 4 5 脐橙产量 20 22 24 28 30 已知年份编号和脐橙产量线性相关. (1)用最小二乘法求出关于的经验回归方程; (2)试预测该地2027年的脐橙产量. 附:经验回归方程中斜率和截距的最小二乘估计公式分别为,. 【答案】(1) (2)35.2万吨 【详解】(1)依题意,,, ,, 因此,, 所以y关于x的经验回归方程为. (2)令,得, 所以预测该地2027年的脐橙产量为35.2万吨. 变式2.(25-26高三下·河南·开学考试)为了解学生初中升学的数学成绩对高一数学学习的影响,在高一年级随机抽取6名学生,对其入学的数学成绩(分)和高一第一学期期末考试数学成绩(分)进行了统计,如下表: 中考数学成绩 50 60 70 80 90 100 高一第一学期期末数学成绩 65 80 95 105 120 130 (1)规定高一期末数学成绩不低于90分为及格,不低于120分为优秀,从所抽取的6人中随机选取1人,记为“学生的高一第一学期期末数学成绩及格”,为“学生的高一第一学期期末数学成绩优秀”,求; (2)由散点图可知与之间具有线性相关关系,求关于的经验回归方程并估计某中考数学成绩为110分的学生高一第一学期期末考试的数学成绩(成绩保留整数,采用四舍五入法). 附:经验回归模型中,; 参考数据:. 【答案】(1); (2),估计该学生高一第一学期期末考试的数学成绩为145分. 【详解】(1)依题意,, 所以. (2)依题意,,, 则, ,因此, 当时,, 所以估计该学生高一第一学期期末考试的数学成绩为145分. 变式3.(25-26高三下·河北雄安·开学考试)已知某工厂有两个车间生产某种产品,该产品的售价(元)与产品月销量(万件)间的几组数据如下: 售价(元) 1 2 3 4 5 月销量(万件) 10.9 10.2 9.0 7.8 7.1 (1)若可用线性回归模型拟合与的关系,根据表格数据,求关于的线性回归方程 (2)当该产品的售价为6元时,请估计该产品的月销量; (3)若两个车间的月产量之比为,且这些产品会全部随机发放到该地区的销售网点,现有3名顾客每人购买一件该产品,记这三件产品中来自车间的件数为,求的分布列和数学期望. 附:参考数据:. 【答案】(1) (2)6万件 (3)分布列见解析, 【详解】(1)由题意,可得, 则, . 故线性回归方程为. (2)令,可得,所以当该产品的售价为6元时,估计该产品的月销量为6万件. (3)因为两个车间月产量之比为,所以每一件产品来自车间的概率为, 依题意,,的可能取值为,可得的分布列为 0 1 2 3 . 考点二 非线性回归问题 【例题分析】 例1.(25-26高三上·广东汕尾·月考)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:℃)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合. 根据收集到的数据,计算得到如下值: 24 2.9 646 179 422688 62.65 70308 表中; (1)根据散点图,比较模型①、②的拟合效果,模型___________比较合适?(无需说明理由) 根据所选择的模型,利用上表中的参考数据,求出关于的回归方程. (2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为. ①求取得最大值时对应的概率; ②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差. 附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为: 【答案】(1)模型②, (2)①;②,. 【详解】(1)由散点图知,卵数随温度的变化是按指数形式变化,而非线性变化,因此模型②更合适, 令,则,由所给参考数据得,, ,因此关于的线性回归方程为, 所以产卵数关于温度的回归方程为. (2)①依题意,, 求导得 , 令,得,当时,,当时,, 函数在上单调递增,在上单调递减, 所以取得最大值时对应的概率; ②由①知,当时,取最大值,当时,, 每年需要人工防治的概率,且服从二项分布, 所以,. 例2.(24-25高三上·重庆·期中)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—. 年份代码 市场规模 ,,,其中 参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,. (1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到); (2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差. 【答案】(1)亿人 (2), 【详解】(1)设,则, 因为,,, 所以,, 所以,与的拟合函数关系式为 当时,, 则估计年我国在线直播生活购物用户的规模为亿人. (2)由题意知,所以,, , 由,可得, 因为,解得, 所以,,. 例3.(24-25高三上·湖南株洲·月考)一年一度的“双11”促销活动落下帷幕,各大电商平台发布的数据显示,在消费品以旧换新、家电政府补贴等促消费政策和活动的带动下,消费市场潜能加速释放,带动相关商品销售保持增长. 经过调研,得到2019年到2024年“双11”活动当天某电商平台线上日销售额(单位: 百亿元)与年份(第年)的6组数据(时间变量的取值依次为),对数据进行处理,得到如下散点图(图1)及一些统计量的值. 其中. 48.7 3.5 91 1204 1.1 9.4 388.1 分别用两种模型:①;②进行拟合,得到相应的回归方程,并进行残差分析,得到如图所示的残差图(图2)(残差值真实值预测值). (1)根据题中信息,通过残差图比较模型①,②的拟合效果,应选择哪一个模型进行拟合?请说明理由; (2)根据(1)中所选模型, (i)求出关于的经验回归方程(系数精确到0.1); (ⅱ)若该电商平台每年活动当天线上日销售额与当日营销成本及年份存在线性关系: ,则在第几年活动当日营销成本的预测值最大? 参考公式: ;参考数据:. 【答案】(1)应选择模型②,理由见详解; (2)①;②第12年活动当日营销成本的预测值最大. 【详解】(1)由残差图可知模型①的残差值比较分散和远离横轴,所以模型①平方和大于模型②的残差平方和, 所以应选择模型②. (2)(i)对于模型②:, 令,可得, 则, 可得,所以关于的经验回归方程为; (ⅱ)由(i)可得:,整理可得, ,则, 令,解得;令,解得; 可知在内单调递增,在内单调递减, 所以当时,取到最大值,即取得最大值, 所以第12年活动当日营销成本的预测值最大. 【变式训练】 变式1.(2025·广东潮州·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图. 根据收集到的数据,计算得到下表数据,其中. 7.5 2.25 82.50 4.50 12.14 2.88 (1)根据残差图,判断应选择哪个模型;(无需说明理由) (2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1) 附:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计分别为 【答案】(1)选择模型② (2),10人 【详解】(1)选择模型②,理由如下: 由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄, 所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以模型②比较合适. (2)根据模型②,令与可用线性回归来拟合,有. 则,所以 则关于的经验回归方程为,所以关于的经验回归方程为. 由题意,,解得,又为整数,所以. 所以,要使年收益增量超过8亿元,研发人员增量至少为10人. 变式2.(2025·福建福州·模拟预测)在国家积极推动美丽乡村建设的政策背景下,各地根据当地生态资源打造了众多特色纷呈的乡村旅游胜地.某人意图将自己位于乡村旅游胜地的房子改造成民宿用于出租,在旅游淡季随机选取100天,对当地已有的六间不同价位的民宿进行跟踪,统计其出租率,设民宿租金为(单位:元/日),得到如图的数据散点图. (1)若用“出租率”近似估计旅游淡季民宿每天租出去的概率,求租金为388元的那间民宿在淡季内的3天中至少有2天闲置的概率. (2)(i)根据散点图判断,与哪个更适合此模型(给出判断即可,不必说明理由)?根据判断结果求经验回归方程. (ii)若该地一年中旅游淡季约为280天,在此期间无论民宿是否出租,每天都要付出的固定成本,若民宿出租,则每天需要再付出的日常支出成本.试用(i)中模型进行分析,旅游淡季民宿租金定为多少元时,该民宿在这280天的收益达到最大. 附:记,,,,, ,,,,,. 【答案】(1)0.896; (2)(i);(ii)181. 【详解】(1)因为每天的出租率为0.2,所以每天闲置的概率为, 所以3天中至少有2天闲置的概率. (2)(i)根据散点图的分布情况,各散点连线更贴近的图象, 故的拟合效果更好. 依题意,,, 所以, 所以, 所以经验回归方程为. (ii)设旅游淡季民宿租金为,则淡季该民宿的出租率, 所以该民宿在这280天的收益为: , 所以. 令,得, 所以, 且当时,,时,, 所以在上单调递增,在上单调递减, 所以当时,取得最大值. 所以旅游淡季民宿租金定为181元时,该民宿在这280天的收益达到最大. 变式3.(2025·四川内江·模拟预测)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了两个函数模型:;,其中、、、均为常数,为自然对数的底数,令,,经计算得如下数据: (1)请从相关系数的角度,分析哪一个模型拟合度更好? (2)根据(1)的选择及表中数据,建立关于的回归方程.(系数精确到0.01) 附:相关系数 回归直线中:,. 【答案】(1)模型拟合度更好 (2) 【详解】(1)设模型的相关系数为,模型的相关系数为, 对于模型,令,即, 所以, 对于模型,有,令,即, 所以, 因为,所以模型拟合度更好. (2)因为,, 所以关于的回归方程为. 考点三 相关系数 【例题分析】 例1.(2026·江苏扬州·一模)近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示: 年份代码x 1 2 3 4 5 App在线用户数y(单位:万) 80 150 210 260 300 (1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱: (2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望. 注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,. 【答案】(1),很强的线性正相关关系 (2) X 80 150 210 P 【详解】(1)由题意,,, 则, 由, 同理, 则, 则, 由接近1且为正,故变量x与y之间有很强的线性正相关关系. (2)由题意,X的可能取值为80、150、210, 则,, , 故X的分布列为: X 80 150 210 P 则. 例2.(2026·安徽马鞍山·一模)为响应“全民健身”号召,某社区统计了5名居民每周参与体育锻炼的时长(单位:小时)与身体活力指数的对应数据,结果如下表所示: 特征量 居民 居民 居民 居民 居民 2 4 6 8 10 4 5 6 8 7 (1)根据表中数据,计算样本相关系数,并推断它们的相关程度; (2)求身体活力指数关于每周锻炼时长的一元线性回归方程,并利用该方程计算居民的身体活力指数残差. 参考公式:相关系数;回归系数. 【答案】(1),与成正相关,有较强的相关性; (2),1.1. 【详解】(1)由给定数表得, , , , 所以样本相关系数, 与成正相关,有较强的相关性. (2)由(1)得, 所以身体活力指数关于每周锻炼时长的一元线性回归方程为, 当时,,所以居民的身体活力指数残差为. 【变式训练】 变式1.(2026·江西·一模)随着科技的发展,人工智能生成的虚拟角色正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货后销售金额逐步提升,根据该公司使用虚拟角色直播带货后18个月的销售金额的情况统计,得到一组样本数据,其中和分别表示月份编号和销售金额数量(单位:万元),并计算得, . (1)求样本的相关系数(精确到0.01),并推断销售金额(单位:万元)和月份编号是否线性相关(当时,即可认为线性相关); (2)已知这18个月中有10个月的销售金额高于平均数,从这18个月中随机抽取2个月的销售金额,记抽到销售金额高于平均数的月份数为,求随机变量的分布列. 附:相关系数. 【答案】(1),具有很强的正相关性 (2) 0 1 2 【详解】(1)样本的相关系数为: 由于相关系数,故销售金额(单位:万元)和月份编号具有很强的正相关性; (2)由题意得:的可能取值为0,1,2, 18个月中有10个月的销售金额高于平均数, 所以, , , 所以的分布列为: 0 1 2 变式2.(25-26高三上·河北邯郸·月考)为探究某药物在人体中的代谢情况,研究人员统计了血液中药物浓度与代谢时间的相关数据,如下表所示: 2 3 4 5 6 58 42 30 12 8 (1)若两组变量间的相关系数满足,则称其为高度相关,试判断血液中药物浓度与代谢时间是否高度相关,并说明理由(,结果保留3位小数); (2)建立关于的经验回归方程,并预测代谢6.2小时后,血液中药物浓度. 参考数据:. 参考公式:相关系数,经验回归方程中斜率和截距最小二乘估计公式分别为:. 【答案】(1)血液中药物浓度与代谢时间是高度相关的,理由见解析 (2),. 【详解】(1)依题意,, , 则, 所以,即血液中药物浓度与代谢时间是高度相关的. (2)由(1)得,则, 因此血液中药物浓度与代谢时间的回归方程为,当时,, 所以代谢6.2小时后,血液中药物浓度约为. 考点四 决定系数 【例题分析】 例1.(2025·内蒙古包头·模拟预测)某企业拟对某产品进行科技升级,根据市场调研与模拟,得到科技升级投入(万元)与科技升级直接收益(万元)的数据统计如下: 序号 1 2 3 4 5 6 7 2 3 4 6 8 10 13 13 22 31 42 50 56 58 根据表格中的数据,建立了与的两个回归模型:模型①:模型②:. (1)根据下列表格中的数据,比较模型①、②的相关指数的大小,并选择拟合精度更高、更可靠的模型; (2)根据(1)选择的模型,预测对该产品科技升级的投入为100万元时的直接收益. 回归模型 模型① 模型② 回归方程 182.4 79.2 (附:刻画回归效果的相关指数越大,模型的拟合效果越好) 【答案】(1)模型①的相关指数小于模型②的相关指数,即模型②的拟合效果精度更高、更可靠. (2)198.6 【详解】(1)由表格中的数据,, 所以,模型①的相关指数小于模型②的相关指数, 即模型②的拟合效果精度更高、更可靠. (2)当万元时,科技升级直接收益的预测值为: (万元) 例2.(25-26高三上·重庆·月考)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,. x 141 152 168 182 195 204 223 254 277 y 23.1 24.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2 以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示. (1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系? (2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,. (ⅰ)求; (ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数. 附:相关系数,决定系数,. 【答案】(1),答案见解析 (2)(ⅰ)0;(ⅱ)0.9847 【详解】(1)不妨设选择的成对数据分别为,,则 .又由表格数据得,当时,,则. 因为任意两个样本点都在一条直线上,则样本量为2的样本相关系数绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的. 样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推新变量之间相关的正负性及线性相关的程度越可靠,而样本量越小,则越不可靠. (2)(ⅰ)(直线经过数据的中心). (ⅱ)∵,∴, 则, 越大,越接近于1,则模型的拟合效果越好,因此经验回归方程②的拟合效果更好,为最优模型. 【变式训练】 变式1.(2025·四川成都·模拟预测)如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2016~2022.    (1)由折线图看出,可用线性回归模型拟合y和t的关系,请建立y关于t的回归方程,并预测2025年该企业的污水净化量; (2)请用相关指数说明回归方程预报的效果. 参考数据:; 参考公式:线性回归方程; 相关指数: 【答案】(1),58.5吨 (2)答案见解析 【详解】(1)由折线图中的数据得,, , 所以, 所以y关于t的线性回归方程为, 将2025年对应的t=10代入得, 所以预测2025年该企业污水净化量约为58.5吨. (2)因为, 所以“污水净化量的差异”有87.5%是由年份引起的,说明回归方程预报的效果是良好的. 变式2.(2025·山东淄博·模拟预测)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据. 经计算得到以下数据:,. (1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1); (2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为. ①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好; ②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数). 附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:. 【答案】(1); (2)①用比拟合效果更好;②190个. 【详解】(1)由题意可知, ; ∴y关于x的线性回归方程是; (2)①用指数回归模型拟合y与x的关系,相关指数, 线性回归模型拟合y与x的关系,相关指数, 且, ∴用比拟合效果更好. ②中,令, 则, 故预测温度为时该昆虫产卵数约为190个. 考点五 独立性检验 【例题分析】 例1.(2026·安徽合肥·一模)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表: 材料配方类型 耐热疲劳性能 合计 测试合格 测试不合格 配方材料试样 75 配方材料试样 20 合计 140 (1)请完成上述列联表; (2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联? 附:,其中, 0.05 0.01 0.001 3.841 6.635 10.828 【答案】(1)答案见解析 (2)认为材料配方与耐热疲劳性能有关联 【详解】(1)由已知合金部件应抽取件,合金部件应抽取件,由此可得列联表如下 材料配方类型 耐热疲劳性能 合计 测试合格 测试不合格 配方材料试样 75 15 90 配方材料试样 30 20 50 合计 105 35 140 (2)零假设为:材料配方与耐热疲劳性能无关联, 由表知,,,,,, 代入公式得, 根据小概率值的独立性检验,我们推断不成立, 即认为材料配方与耐热疲劳性能有关联,此推断犯错误的概率不大于0.05. 例2.(2026·内蒙古包头·模拟预测)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表: 单位:人 满意程度 性别 合计 男生 女生 满意 120 不满意 150 合计 200 (1)请补全上面的列联表,依据小概率值的独立性检验,能否认为满意程度与性别有关系; (2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,3道试题答对与否互不影响,用表示能进入总决赛的人数,求的数学期望. 附:,其中. 0.1 0.05 0.01 0.001 2.706 3.841 6.635 10.828 【答案】(1) 满意程度 性别 合计 男生 女生 满意 120 30 150 不满意 80 70 150 合计 200 100 300 能认为满意程度与性别有关系 (2). 【详解】(1)列联表 满意程度 性别 合计 男生 女生 满意 120 30 150 不满意 80 70 150 合计 200 100 300 推断犯错误的概率不大于0.001; 零假设为:满意程度与性别无关,, 所以依据小概率值的独立性检验,推断不成立, 即能认为满意程度与性别有关系,此推断犯错误的概率不大于0.001. (2)依题意,设“答对第i道题”(,2,3);“某同学进入总决赛”, 则,,, 所以 , 依题意,, 所以; 例3.(2026·黑龙江哈尔滨·一模)为了探究学生完成数学作业情况与成绩之间的联系,某学校采用按比例分层抽样的方式得到200名学生的测验成绩,样本中认真完成作业的学生成绩频率分布直方图如图1所示.若认为成绩不低于120分为优秀,且数学成绩为优秀的学生年级分布扇形图如图2所示,已知样本中高三年级有15位同学成绩为优秀,且在所有数学成绩为优秀的学生中,认真完成作业的学生占. (1)求a的值,并且计算出样本中认真完成作业的学生成绩的下四分位数; (2)根据样本数据完成下方列联表,依据小概率值的独立性检验,分析认真完成作业与成绩是否有关. 认真完成作业 不认真完成作业 成绩优秀 成绩不优秀 附:. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【答案】(1),下四分位数 (2)有关 【详解】(1)根据频率分布直方图的性质,所有组频率和为,组距为, 因此:,解得:, 下四分位数即第百分位数,计算累计频率 频率,累计;频率,累计; 频率,累计;频率,累计。 ,因此第百分位数在区间内, 计算得:下四分位数 (2)零假设:认真完成作业与成绩无关 认真完成作业 不认真完成作业 成绩优秀 成绩不优秀 ,因为, 依据小概率值的独立性检验,零假设不成立,即认真完成作业与成绩有关, 该判断出错概率不超过0.001, 认真完成作业的学生中成绩优秀的频率为0.4, 不认真完成作业的学生中成绩优秀的频率为0.1, 可以发现认真完成作业的学生成绩优秀的频率是不认真完成作业的学生的4倍,差异显著. 【变式训练】 变式1.(25-26高三上·贵州黔南·期末)黔南州某茶园为提高某品种茶苗的质量,特开展技术创新活动,在实验地分别用甲、乙两种方法培育该品种茶苗,为观测其生长情况,分别在用两种方法培育的茶苗中各随机抽取50株,对每株进行综合评分(单位:分),将每株所得的综合评分制成如图所示的频率分布直方图(每组为左闭右开区间),记综合评分为80及以上的茶苗为优质茶苗. (1)求图中的值,并求综合评分的75%分位数; (2)填写下面的列联表,并根据小概率值的独立性检验,分析优质茶苗与培育方法是否有关.请说明理由. 优质茶苗 非优质茶苗 合计 甲种培育法 22 乙种培育法 12 合计 附:,其中. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【答案】(1),88.75 (2)列联表见解析,有关,理由见解析 【详解】(1)由直方图的性质,可知,解得. 设综合评分的75%分位数为,则, 故综合评分的75%分位数为88.75. (2)由(1)得优质茶苗的频率为0.6,所以样本中优质茶苗的数量为60株, 得如下列联表: 优质茶苗 非优质茶苗 合计 甲种培育法 22 28 50 乙种培育法 38 12 50 合计 60 40 100 零假设为:优质茶苗与培育方法无关. . 根据小概率值的独立性检验,推断不成立,即认为优质茶苗与培育方法有关. 变式2.(2026·吉林通化·模拟预测)指数是体重指数,当时,体重正常,某健美机构随机抽取顾客的数据进行统计,得到如下列联表: 数据 合计 正常范围 不正常范围 男顾客 75 15 90 女顾客 30 20 50 合计 105 35 140 (1)依据小概率值的独立性检验,能否推断出男、女顾客的是否存在差异? (2)该机构统计出上述男顾客平均体重为,女顾客的平均体重为,试估计该机构全体顾客的平均体重. 公式:,其中. 0.1 0.05 0.01 0.005 2.706 3.841 6.635 7.879 【答案】(1)可以认为男、女顾客的存在差异 (2)65 【详解】(1)零假设:男、女顾客的没有差异, 根据列联表中的数据计算,得, 根据小概率值的独立性检验, 可以推断不成立,即可以认为男、女顾客的存在差异. (2)因为男、女顾客的平均体重分别为、, 所以可以估计该机构全体顾客的平均体重为:. 变式3.(25-26高三下·云南楚雄·开学考试)为助力“双碳”目标落地,某新型储能企业调研技术岗员工对钠离子电池产业扶持政策的认知情况,随机选取180名技术岗员工(含研发岗、运维岗)开展问卷调查,统计认知深度(深度认知、基础认知)与岗位类型的关联数据,初步整理数据如下: 类别 研发岗 运维岗 合计 深度认知 60 60 基础认知 20 40 合计 (1)补充表格,并根据小概率值的独立性检验,分析认知深度与岗位类型是否有关; (2)用按比例分配的分层随机抽样方法从基础认知的人中抽取12人,再从这12人中随机抽取6人,用随机变量表示这6人中研发岗员工人数与运维岗员工人数之差的绝对值,求的分布列和数学期望. 参考公式:,. 独立性检验中常用的小概率值和相应临界值. 0.1 0.05 0.025 0.005 0.001 2.706 3.841 5.024 7.879 10.828 【答案】(1) 类别 研发岗 运维岗 合计 深度认知 60 60 120 基础认知 20 40 60 合计 80 100 180 认知深度与岗位类型无关. (2)的分布列为: 0 2 4 6 数学期望为. 【详解】(1)(1)补充表格如下: 类别 研发岗 运维岗 合计 深度认知 60 60 120 基础认知 20 40 60 合计 80 100 180 零假设为:认知深度与岗位类型无关. 根据列联表中的数据,经计算得到, 根据小概率值的独立性检验,没有充分证据推断不成立, 因此可以认为成立,即认知深度与岗位类型无关. (2)用按比例分配的分层随机抽样方法在基础认知的60人中抽取12人,抽得研发岗4人,运维岗8人. 再从这12人中随机抽取6人,的可能取值为0,2,4,6. 则,,,. 的分布列为: 0 2 4 6 . 2 学科网(北京)股份有限公司 $

资源预览图

统计案例 讲义-2026届高三数学二轮复习讲义
1
统计案例 讲义-2026届高三数学二轮复习讲义
2
统计案例 讲义-2026届高三数学二轮复习讲义
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。