第03讲 成对数据的统计分析(知识+真题+10类高频考点)( 精讲)-【高考新结构一轮复习】备战2025年高考数学一轮复习精讲精练(知识·题型·分层练,新高考专用)

2024-12-20
| 2份
| 65页
| 1141人阅读
| 44人下载
傲游数学精创空间
进店逛逛

资源信息

学段 高中
学科 数学
教材版本 -
年级 高三
章节 -
类型 题集-专项训练
知识点 统计案例
使用场景 高考复习-一轮复习
学年 2025-2026
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 2.18 MB
发布时间 2024-12-20
更新时间 2024-12-20
作者 傲游数学精创空间
品牌系列 -
审核时间 2024-12-20
下载链接 https://m.zxxk.com/soft/49472424.html
价格 3.00储值(1储值=1元)
来源 学科网

内容正文:

第03讲 成对数据的统计分析 目录 第一部分:基础知识 1 第二部分:高考真题回顾 3 第三部分:高频考点一遍过 5 高频考点一:成对数据的相关性 5 高频考点二:回归分析(经验回归方程及应用) 6 高频考点三:回归分析(非线性经验回归方程及应用) 10 高频考点四:回归分析(相关系数) 14 高频考点五:回归分析(残差分析) 18 高频考点六:列联表与独立性检验 19 第四部分:新定义题 25 第一部分:基础知识 知识点一:变量的相关关系 (1)两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系. (2)正相关、负相关 从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.  (3)线性相关、非线性相关 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.  一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关. 知识点二:样本相关系数 (1)相关系数的计算 变量与变量的样本相关系数的计算公式如下: (2)相关系数的性质 ①当时,称成对样本数据正相关;当时,称成对样本数据负相关. 当时,成对样本数据间没有线性相关关系. ②样本相关系数的取值范围为,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱. 知识点三:一元线性回归模型 (1)数学表述式:如果两个变量之间的关系可以表示为 我们称该式为关于的一元线性回归模型. 其中,称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差. (2)经验回归方程 我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,其中 (3)利用刻画回归效果 的计算公式为,其意义是越大,残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差. 知识点四:列联表与独立性检验 (1)2×2列联表 如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表. 合计 合计 (2)独立性检验 依据上述列联表构造统计量 利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验. 常用的小概率值和临界值表 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 第二部分:高考真题回顾 1.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示: 时间范围学业成绩 优秀 5 44 42 3 1 不优秀 134 147 137 40 27 (1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少? (2)估计该地区初中学生日均体育锻炼的时长(精确到0.1) (3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关? (附:其中,.) 2.(2023·全国·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下: 对照组的小白鼠体重的增加量从小到大排序为 15.2  18.8  20.2  21.3  22.5  23.2  25.8  26.5  27.5  30.1 32.6  34.3  34.8  35.6  35.6  35.8  36.2  37.3  40.5  43.2 试验组的小白鼠体重的增加量从小到大排序为 7.8  9.2  11.4  12.4  13.2  15.5  16.5  18.0  18.8  19.2 19.8  20.2  21.6  22.8  23.6  23.9  25.1  28.2  32.3  36.5 (1)计算试验组的样本平均数; (2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表 对照组 试验组 (ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异? 附:, 0.100 0.050 0.010 2.706 3.841 6.635 第三部分:高频考点一遍过 高频考点一:成对数据的相关性 典型例题 例题1.(23-24高二下·浙江宁波·期中)如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是(    ) A. B. C. D., 例题2.(24-25高二下·全国·课后作业)为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表: 生产线条数 1 2 3 4 5 产量 21 39 64 87 104 则下列说法正确的是(    ) A.与负相关 B.与正相关 C.与不相关 D.与成正比例关系 例题3.(多选)(24-25高二下·全国·单元测试)四名同学根据各自的样本数据研究变量,之间的相关关系,并求得回归直线方程,下列选项中,正确的是(    ) A.与负相关且 B.与负相关且 C.与正相关且 D.与正相关且 练透核心考点 1.(24-25高二下·全国·随堂练习)给定与的一组成对数据,求得相关系数,则(    ) A.与不相关 B.与正相关 C.与负相关 D.以上都不对 2.(23-24高二下·吉林长春·期中)已知变量x与y的回归直线方程为,变量y与z负相关,则(    ) A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关 3.(24-25高二下·全国·课后作业)党的二十大报告指出绿水青山就是金山银山.某市为加快生态文明建设进程,加大生态环境保护投入力度,为祖国现代化建设增砖添瓦.现统计了该市近几年的生态环境保护投入资金,统计如下表: 年份 2017 2018 2019 2020 2021 2022 年份编号x 1 2 3 4 5 6 投入资金y/千万 14 31 33 38 41 47 (1)根据上表作出散点图; (2)观察散点图,判断投入资金y与年份编号x是否具有相关性.如果有,是正相关还是负相关. 高频考点二:回归分析(经验回归方程及应用) 典型例题 例题1.(24-25高三上·云南·阶段练习)中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾): 中国体育代表团夏季奥运会获得金牌数 届数 第27届 第28届 第29届 第30届 第31届 第32届 届数代码 1 2 3 4 5 6 地点 2000年 悉尼 2004年 雅典 2008年 北京 2012年 伦敦 2016年 里约热内卢 2021年 东京 金牌数 28 32 48 38 26 38 根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为(    ) (精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:. A.29 B.33 C.37 D.45 例题2.(24-25高三上·贵州六盘水·阶段练习)六盘水红心猕猴桃因富含维生素C及K、Ca、Mg等多种矿物质和18种氨基酸,被誉为“维C之王”.某果农通过不断学习猕猴桃先进种植技术,2017年至2023年的年利润y与年份代号x的统计数据如下表(已知该果农的年利润与年份代号之间呈线性相关关系). 年份 2017 2018 2019 2020 2021 2022 2023 年份代号x 1 2 3 4 5 6 7 年利润y(单位:千元) 29 33 36 44 48 52 59 (1)求y关于x的线性回归方程,并预测该果农2024年的年利润; (2)当某年利润的实际值大于该年利润的估计值时,该年为甲级利润年,否则为乙级利润年.现从2019年至2023年这5年中随机抽取3年,求恰有1年为甲级利润年的概率. 参考公式:回归方程中的斜率和截距的最小二乘估计公式分别为,,并计算得:,,. 例题3.(24-25高二下·全国·课后作业)某视频博主加入了视频推流活动,通过投入资金对视频进行推广.通过一段时间的推广,统计得到如下数据: 推流投入资金千元 8 9 10 11 12 视频浏览量万次 9 10 10 12 14 (1)求关于的经验回归方程; (2)已知该博主商品橱窗中销售商品的利润(单位:千元)与推流投入(单位:千元)、浏览量(单位:万次)满足关系式,利用(1)中经验回归方程估计该博主投入多少元时,能获得最大净利润,并求最大净利润(净利润利润-投入,结果保留整数). 附:. 练透核心考点 1.(23-24高二下·内蒙古呼和浩特·阶段练习)某品牌电脑专卖店的年销售量与该年广告费用有关,如表收集了4组观测数据: (万元) 1 4 5 6 (百台) 30 40 60 50 以广告费用为解释变量,销售量为预报变量对这两个变量进行统计分析. (1)已知这两个变量呈线性相关关系,试建立与之间的回归方程; (2)假如2017年该专卖店广告费用支出计划为10万元,根据你得到的模型,预测这一年的销售量. 参考公式:,. 2.(23-24高二下·辽宁鞍山·阶段练习)某学校一个生物兴趣小组对学校的人工湖中养殖的某种鱼类进行观测研究,在饲料充足的前提下,兴趣小组对饲养时间(单位:月)与这种鱼类的平均体重(单位:千克)得到一组观测值,如下表: 1 2 3 4 5 0.5 0.9 1.7 2.1 2.8 (1)求关于的线性回归方程; (2)利用(1)中的回归方程,分析饲养1~5个月这种鱼平均体重的变化情况,并预测饲养满12个月时,这种鱼的平均体重(单位:千克). 附:回归直线的斜率和截距的最小二乘法估计公式分别为:,,. 3.(23-24高二下·青海海东·阶段练习)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据: 第一次 第二次 第三次 第四次 参会人数x(万人) 8 9 10 11 原材料y(袋) 20 23 25 28 (1)请根据所给四组数据,求出y关于x的线性回归方程; (2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋? 参考公式:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,. 高频考点三:回归分析(非线性经验回归方程及应用) 典型例题 例题1.(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得: 44 4.8 10 40.3 1.612 19.5 8.06 现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? 例题2.(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据: 第x年 1 2 3 4 5 6 7 8 9 10 旅游人数y(万人) 300 283 321 345 372 435 486 527 622 800 该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型: 模型①:由最小二乘法公式求得y与x的线性回归方程; 模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近. (1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001). (2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位). 回归方程 ① ② 30407 14607 参考公式、参考数据及说明: ①, ②刻画回归效果的决定系数; ③参考数据: , 5.5 449 6.05 83 4195 9.00 表中. 练透核心考点 1.(23-24高二下·江西新余·开学考试)某人新房刚装修完,为了监测房屋内空气质量的情况,每天在固定的时间测一次甲醛浓度(单位:mg/m3),连续测量了10天,所得数据绘制成散点图如下:用表示第天测得的甲醛浓度,令,经计算得,,. (1)由散点图可知,与可用指数型回归模型进行拟合,请利用所给条件求出回归方程;(系数精确到0.01) (2)已知房屋内空气中的甲醛浓度的安全范围是低于0.08 mg/m3,则根据(1)中所得回归模型,该新房装修完第几天开始达到此标准?(参考数据:) 附:,. 2.(23-24高二下·山东青岛·期中)肥胖不仅影响形体美,而且给生活带来不便,此外还有关节软组织损伤、心脏病、糖尿病、脂肪肝、痛风等危害.小王通过运动和节食进行减肥,并将时间x(单位:周)和体重(单位:)记录制作如下统计表: 1 2 3 4 6 8 90.1 87.6 87.2 86.2 84.2 84.3 (1)若和满足经验回归模型,求; (2)求该模型的决定系数,并判断该经验回归方程是否有价值(认为有价值); (3)当某组数据残差的绝对值不超过0.3时,称该组数据为“身材有效管理数据”,现从这六组数据中任意抽取两组,设抽取的“身材有效管理数据”的个数为,求的分布列和期望. 附:经验回归方程中,, 参考数据:. 高频考点四:回归分析(相关系数) 典型例题 例题1.(2024·海南海口)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,,,,. (1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合; (2)求关于的线性回归方程; (3)某科研机构研发了两款垃圾处理机器,如表是以往两款垃圾处理机器的使用年限(整年)统计表: 使用年限 台数 款式 1年 2年 3年 4年 5年 甲款 5 20 15 10 50 乙款 15 20 10 5 50 某环保机构若考虑购买其中一款垃圾处理器,以使用年限的频率估计概率.根据以往经验估计,该机构选择购买哪一款垃圾处理机器,才能使用更长久? 参考公式:相关系数 . 对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为. 例题2.(2024·四川绵阳)根据统计, 某蔬菜基地西红柿亩产量的增加量 (百千克)与某种液体肥料每亩的使用量(千克)之间 的对应数据的散点图如图所示.    (1)从散点图可以看出, 可用线性回归方程拟合 与的关系, 请计算样本相关系数并判断它们的相关程度; (2)求 关于的线性回归方程, 并预测液体肥料每亩的使用量为 12 千克时西红柿亩产量的增加量. 附: . 练透核心考点 1.(24-25高三上·重庆·阶段练习)广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量. 1 2 3 4 5 0.171 0.152 0.192 0.189 0.196 12 10 16 14 18 (1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数); (2)求样本的相关系数(精确到0.01); (3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数,,. 2.(2024·广东·模拟预测)西藏隆子县玉麦乡位于喜马拉雅山脉南麓,地处边疆,山陡路险,交通闭塞.党的十八大以来,该地区政府部门大力开发旅游等产业,建设幸福家园,实现农旅融合,以创建国家全域旅游示范区为牵引,构建“农业+文创+旅游”发展模式,真正把农村建设成为“望得见山、看得见水、记得住乡愁”的美丽乡村,在新政策的影响下,游客越来越多.当地旅游局统计了玉麦乡景区2023年1月份到5月份的接待游客人数(单位:万人),统计结果如下: 月份 1 2 3 4 5 接待游客人数(单位:万人) 1.2 1.8 2.5 3.2 3.8 (1)求相关系数的值,当时,线性关系为较强,请说明2023年1-5月份与接待游客人数之间线性关系的强弱;若线性相关,求出关于的线性回归方程; (2)为打造群众满意的旅游区,该地旅游部门对所推出的报团游和自助游项目进行了深入调查,下表是从接待游客中随机抽取的30位游客的满意度调查表,请将下述列联表补充完整,并依据小概率值的独立性检验,分析游客对本地景区的满意度是否与报团游或自助游有关联. 报团游 自助游 合计 满意 3 18 不满意 5 合计 10 30 附:线性回归方程的斜率及截距的最小二乘法估计分别为,相关系数,,参考数据:. 附表: 0.10 0.05 0.010 0.001 2.706 3.841 6.635 10.828 高频考点五:回归分析(残差分析) 典型例题 例题1.(24-25高二下·全国·课后作业)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为(    ) A. B. C. D. 例题2.(23-24高二下·安徽亳州·期末)某市旅游局对全市各旅游景区的环境进行综合治理,投入不同数额的经费(千万元),得到各旅游景区收益的增加值(万元),对应数据如下表所示: 投人的治理经费(单位:千万元) 1 2 3 4 5 6 7 收益的增加值(单位:万元) 2 3 2 5 7 7 9 若与的回归直线方程为,则相应于点的残差是(    ) A. B.0.358 C. D.8.642 例题3.(24-25高二下·全国·课后作业)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 . 广告支出费用/万元 1 3 4 6 11 销售量万件 1.9 3.2 4.4 6.3 12.7 练透核心考点 1.(23-24高二下·江苏泰州·阶段练习)对于数据组,如果由线性回归方程得到的自变量的估计值是,那么将称为样本点处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到表所示数据.若销量(单位:件)与单价(单位:元)之间的线性回归方程为,且样本点处的残差为3,则(    ) 单价/元 8.2 8.4 8.6 8.8 销量件 84 83 78 m A.65 B.67 C.73 D.75 2.(24-25高二下·全国·课后作业)近几年,我国新能源汽车产业进入了加速发展的阶段,呈现市场规模、发展质量“双提升”的良好局面.新能源汽车的核心部件是动力电池,其中的主要成分是碳酸锂.下表是某地2023年3月1日至2023年3月5日电池级碳酸锂的价格与日期的统计数据: 日期代码 1 2 3 4 5 电池级碳酸锂价格(十万元/吨) 4.1 3.9 3.8 3.9 根据表中数据,得出关于的经验回归方程为,根据数据计算出在样本中心点处的残差为,则决定系数的值为 (结果保留两位小数). 3.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 . 高频考点六:列联表与独立性检验 典型例题 例题1.(24-25高三上·重庆·阶段练习)在学校食堂就餐成为了很多学生的就餐选择.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,其中男生和女生人数之比为1∶1,现将一周内在食堂就餐超过3次的学生认定为“喜欢食堂就餐”,不超过3次的学生认定为“不喜欢食堂就餐”.“喜欢食堂就餐”的人数比“不喜欢食堂就餐”人数多20人,“不喜欢食堂就餐”的男生只有10人. 男生 女生 合计 喜欢食堂就餐 不喜欢食堂就餐 10 合计 100 (1)将上面的列联表补充完整,并依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关; (2)该校甲同学逢星期二和星期四都在学校食堂就餐,且星期二会从①号、②号两个套餐中随机选择一个套餐,若星期二选择了①号套餐,则星期四选择①号套餐的概率为;若星期二选择了②号套餐,则星期四选择①号套餐的概率为,求甲同学星期四选择②号套餐的概率. 参考公式:,其中. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 例题2.(23-24高二下·辽宁朝阳·期末)长跑可提高呼吸系统和心血管系统机能,较长时间有节奏的深长呼吸,能使人体呼吸大量的氧气,吸收氧气量若超过平时的倍,就可以抑制人体癌细胞的生长和繁殖.其次长跑锻炼还改善了心肌供氧状态,加快了心肌代谢,同时还使心肌肌纤维变粗,心收缩力增强,从而提高了心脏工作能力.某学校对男、女学生是否喜欢长跑进行了调查,调查男、女生人数均为200,统计得到以下列联表: 喜欢 不喜欢 合计 男生 120 80 200 女生 100 100 200 合计 220 180 400 (1)是否有的把握认为学生对长跑的喜欢情况与性别有关联? (2)为弄清学生不喜欢长跑的原因,从调查的不喜欢长跑的学生中按性别采用分层抽样的方法随机抽取9人,再从这9人中抽取3人进行面对面交流,记随机变量表示抽到的3人中女生的人数,求的分布列; (3)将频率视为概率,用样本估计总体,从该校全体学生中随机抽取12人,记其中喜欢长跑的人数为,求的数学期望. 附:,其中. 0.100 0.050 0.025 0.010 0.001 2.706 3.841 5.024 6.635 10.828 例题3.(2024·四川成都·模拟预测)在学校食堂就餐成为了很多学生的就餐选择.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,其中男生和女生人数之比为,现将一周内在食堂就餐超过8次的学生认定为“喜欢食堂就餐”,不超过8次的学生认定为“不喜欢食堂就餐”.“喜欢食堂就餐”的人数比“不喜欢食堂就餐”人数多20人,“不喜欢食堂就餐”的男生只有10人. 男生 女生 合计 喜欢食堂就餐 不喜欢食堂就餐 10 合计 100 (1)将上面的列联表补充完整,并依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关: (2)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为X.事件“”的概率为,求随机变量X的期望和方差. 参考公式:,其中. a 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 练透核心考点 1.(24-25高三上·上海·阶段练习)近年来,随着智能手机的普及,网上买菜迅速进入了我们的生活。现将一周网上买菜次数超过3次的市民认定为“喜欢网上买菜”,不超过3次甚至从不在网上买菜的市民认定为“不喜欢网上买菜”.某市社区为了解该社区市民网上买菜情况,随机抽取了该社区100名市民,得到的统计数据如下表所示: 喜欢网上买菜 不喜欢网上买菜 合计 年龄不超过45岁的市民 40 10 50 年龄超过45岁的市民 20 30 50 合计 60 40 100 (1)能否有95%的把握认为社区的市民是否喜欢网上头菜与年龄有关? (2)M社区的市民小张周一、二均在网上买菜,且周一等可能地从两个买菜平台随机选择一个下单买菜如果周一选择平台买菜,那么周二选择平台买菜的概率为,如果周一选每平台买菜,那么周二选择平合买菜的概率为,求小张周二选择平台买菜的概率; (3)用频率估计概率,现从M社区随机抽取20名市民,记其中喜欢网上买菜的市民人数为随机变量,并记随机变量,求、的期望和方差. 参考公式:,其中. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 2.(24-25高三上·四川广安·阶段练习)某电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”的人数为25人. (1)根据已知条件完成下面的2×2列联表,依据小概率值=0.05的独立性检验,能否据此认为“体育迷”与性别有关? 性别 “体育迷”情况 合计 非体育迷 体育迷 男 女 10 55 合计 (2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为.若每次抽取的结果是相互独立的,求的分布列,均值和方差. 附:,其中. 0.05 0.01 3.841 6.635 3.(24-25高三上·上海·阶段练习)2024年4月25日,第18届北京国际汽车展览会在中国国际展览中心开幕,本届展会以“新时代新汽车”为主题,在展览会上国内新能源车引得了国内外车友的关注.为了解人们的买车意向,在车展现场随机调查了50名男观众和50名女观众,已知男观众中有40人偏向燃油车,女观众中有20人偏向燃油车,剩余被调查的观众则偏向新能源车. (1)根据已知条件,填写下列列联表,并根据小概率值的独立性检验,判断男观众和女观众买车意向的偏向情况是否有差异; 偏向燃油车 偏向新能源车 男观众 女观众 (2)现按比例用分层随机抽样的方法从被调查的偏向燃油车的观众中抽取9人,再从这9人中随机抽取4人,记表示这4人中女观众的人数,求的分布列和数学期望. 附:. 0.1 0.05 0.01 0.001 2.706 3.841 6.635 10.828 第四部分:新定义题 1.(2024·福建厦门)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.右图是2018-2022年移动物联网连接数W与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5. (1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度; (2)(i)假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型  (随机误差).请推导:当随机误差平方和Q=取得最小值时,参数b的最小二乘估计. (ii)令变量,则变量x与变量Y满足一元线性回归模型利用(i)中结论求y关于x的经验回归方程,并预测2024年移动物联网连接数. 附:样本相关系数,,,, 学科网(北京)股份有限公司 $$ 第03讲 成对数据的统计分析 目录 第一部分:基础知识 1 第二部分:高考真题回顾 3 第三部分:高频考点一遍过 5 高频考点一:成对数据的相关性 5 高频考点二:回归分析(经验回归方程及应用) 8 高频考点三:回归分析(非线性经验回归方程及应用) 14 高频考点四:回归分析(相关系数) 20 高频考点五:回归分析(残差分析) 25 高频考点六:列联表与独立性检验 29 第四部分:新定义题 37 第一部分:基础知识 知识点一:变量的相关关系 (1)两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系. (2)正相关、负相关 从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.  (3)线性相关、非线性相关 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.  一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关. 知识点二:样本相关系数 (1)相关系数的计算 变量与变量的样本相关系数的计算公式如下: (2)相关系数的性质 ①当时,称成对样本数据正相关;当时,称成对样本数据负相关. 当时,成对样本数据间没有线性相关关系. ②样本相关系数的取值范围为,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱. 知识点三:一元线性回归模型 (1)数学表述式:如果两个变量之间的关系可以表示为 我们称该式为关于的一元线性回归模型. 其中,称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差. (2)经验回归方程 我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,其中 (3)利用刻画回归效果 的计算公式为,其意义是越大,残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差. 知识点四:列联表与独立性检验 (1)2×2列联表 如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表. 合计 合计 (2)独立性检验 依据上述列联表构造统计量 利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验. 常用的小概率值和临界值表 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 第二部分:高考真题回顾 1.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示: 时间范围学业成绩 优秀 5 44 42 3 1 不优秀 134 147 137 40 27 (1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少? (2)估计该地区初中学生日均体育锻炼的时长(精确到0.1) (3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关? (附:其中,.) 【答案】(1) (2) (3)有 【知识点】用频率估计概率、独立性检验解决实际问题、卡方的计算、由频率分布直方图估计平均数 【分析】(1)求出相关占比,乘以总人数即可; (2)根据平均数的计算公式即可得到答案; (3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论. 【详解】(1)由表可知锻炼时长不少于1小时的人数为占比, 则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为. (2)估计该地区初中生的日均体育锻炼时长约为 . 则估计该地区初中学生日均体育锻炼的时长为0.9小时. (3)由题列联表如下: 其他 合计 优秀 45 50 95 不优秀 177 308 485 合计 222 358 580 提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关. 其中. . 则零假设不成立, 即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关. 2.(2023·全国·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下: 对照组的小白鼠体重的增加量从小到大排序为 15.2  18.8  20.2  21.3  22.5  23.2  25.8  26.5  27.5  30.1 32.6  34.3  34.8  35.6  35.6  35.8  36.2  37.3  40.5  43.2 试验组的小白鼠体重的增加量从小到大排序为 7.8  9.2  11.4  12.4  13.2  15.5  16.5  18.0  18.8  19.2 19.8  20.2  21.6  22.8  23.6  23.9  25.1  28.2  32.3  36.5 (1)计算试验组的样本平均数; (2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表 对照组 试验组 (ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异? 附:, 0.100 0.050 0.010 2.706 3.841 6.635 【答案】(1) (2)(i);列联表见解析,(ii)能 【知识点】计算几个数的平均数、完善列联表、卡方的计算 【分析】(1)直接根据均值定义求解; (2)(i)根据中位数的定义即可求得,从而求得列联表; (ii)利用独立性检验的卡方计算进行检验,即可得解. 【详解】(1)试验组样本平均数为: (2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数, 由原数据可得第11位数据为,后续依次为, 故第20位为,第21位数据为, 所以, 故列联表为: 合计 对照组 6 14 20 试验组 14 6 20 合计 20 20 40 (ii)由(i)可得,, 所以能有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异. 第三部分:高频考点一遍过 高频考点一:成对数据的相关性 典型例题 例题1.(23-24高二下·浙江宁波·期中)如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是(    ) A. B. C. D., 【答案】C 【知识点】相关指数的计算及分析、相关系数的意义及辨析、解释回归直线方程的意义、判断正、负相关 【分析】由散点可判断出正相减,去掉离群点后,线性关系更强,由离群点的位置判断去掉离群点后回归方程的斜率变化. 【详解】共8个点且离群点P的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,故C正确 去掉离群点后相关性更强,拟合效果也更好,且还是正相关,故D错误 有,,故AB错误. 故选:C. 例题2.(24-25高二下·全国·课后作业)为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表: 生产线条数 1 2 3 4 5 产量 21 39 64 87 104 则下列说法正确的是(    ) A.与负相关 B.与正相关 C.与不相关 D.与成正比例关系 【答案】B 【知识点】判断正、负相关 【分析】由正、负相关的概念即可判断. 【详解】由题中数据可知,y随x的增大而增大,且不成比例关系,故y与x正相关. 故选:B 例题3.(多选)(24-25高二下·全国·单元测试)四名同学根据各自的样本数据研究变量,之间的相关关系,并求得回归直线方程,下列选项中,正确的是(    ) A.与负相关且 B.与负相关且 C.与正相关且 D.与正相关且 【答案】BC 【知识点】判断正、负相关、解释回归直线方程的意义 【分析】根据正负判断回归直线方程正负相关即可判断选项. 【详解】若y与x负相关,则中,故A不正确,B正确; 若y与x正相关,则中,故C正确,D不正确. 故选:BC. 练透核心考点 1.(24-25高二下·全国·随堂练习)给定与的一组成对数据,求得相关系数,则(    ) A.与不相关 B.与正相关 C.与负相关 D.以上都不对 【答案】C 【知识点】判断正、负相关 【分析】由相关系数的概念判断即可. 【详解】因为,所以与负相关. 故选:C. 2.(23-24高二下·吉林长春·期中)已知变量x与y的回归直线方程为,变量y与z负相关,则(    ) A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关 【答案】D 【知识点】判断正、负相关 【分析】根据已知条件,结合回归方程可判断x与y正相关,再由变量y与z负相关,即可判断x与z负相关. 【详解】根据回归方程可知变量x与y正相关,又变量y与z负相关, 由正相关、负相关的定义可知,x与z负相关. 故选:D 3.(24-25高二下·全国·课后作业)党的二十大报告指出绿水青山就是金山银山.某市为加快生态文明建设进程,加大生态环境保护投入力度,为祖国现代化建设增砖添瓦.现统计了该市近几年的生态环境保护投入资金,统计如下表: 年份 2017 2018 2019 2020 2021 2022 年份编号x 1 2 3 4 5 6 投入资金y/千万 14 31 33 38 41 47 (1)根据上表作出散点图; (2)观察散点图,判断投入资金y与年份编号x是否具有相关性.如果有,是正相关还是负相关. 【答案】(1)答案见解析 (2)具有相关关系,且呈现正相关关系. 【知识点】根据散点图判断是否线性相关、绘制散点图、判断正、负相关 【分析】(1)根据题意直接作出散点图即可; (2)由散点图直接判断即可. 【详解】(1)作出散点图如下: (2)由散点图可知,投入资金y与年份编号x具有相关关系,且呈现正相关关系. 高频考点二:回归分析(经验回归方程及应用) 典型例题 例题1.(24-25高三上·云南·阶段练习)中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾): 中国体育代表团夏季奥运会获得金牌数 届数 第27届 第28届 第29届 第30届 第31届 第32届 届数代码 1 2 3 4 5 6 地点 2000年 悉尼 2004年 雅典 2008年 北京 2012年 伦敦 2016年 里约热内卢 2021年 东京 金牌数 28 32 48 38 26 38 根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为(    ) (精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:. A.29 B.33 C.37 D.45 【答案】C 【知识点】求回归直线方程、根据回归方程进行数据估计 【分析】先求出,然后由回归直线的方程公式求出方程,预测2024年对应代入回归方程即可求解. 【详解】, ,所以, 所以关于的线性回归方程为. 2024年对应,代入回归方程得, 故选:C. 例题2.(24-25高三上·贵州六盘水·阶段练习)六盘水红心猕猴桃因富含维生素C及K、Ca、Mg等多种矿物质和18种氨基酸,被誉为“维C之王”.某果农通过不断学习猕猴桃先进种植技术,2017年至2023年的年利润y与年份代号x的统计数据如下表(已知该果农的年利润与年份代号之间呈线性相关关系). 年份 2017 2018 2019 2020 2021 2022 2023 年份代号x 1 2 3 4 5 6 7 年利润y(单位:千元) 29 33 36 44 48 52 59 (1)求y关于x的线性回归方程,并预测该果农2024年的年利润; (2)当某年利润的实际值大于该年利润的估计值时,该年为甲级利润年,否则为乙级利润年.现从2019年至2023年这5年中随机抽取3年,求恰有1年为甲级利润年的概率. 参考公式:回归方程中的斜率和截距的最小二乘估计公式分别为,,并计算得:,,. 【答案】(1);63千元 (2) 【知识点】求回归直线方程、计算古典概型问题的概率、根据回归方程进行数据估计 【分析】(1)先求出,然后利用公式求出和,得到线性回归方程,再将代入计算预测即可; (2)先求出2019年至2023年的年利润的估计值,得到这5年中甲级利润年的有2年,乙级利润年的有3年,然后利用概率公式求解即可. 【详解】(1)根据表中的数列,计算可得, , 所以,故, 所以关于的线性回归方程为, 当时,(千元), 所以该果农2024年的年利润预测值为63千元. (2)由(1)可知2019年至2023年的年利润的估计值分别为38,43,48,53,58(单位:千元), 其中实际利润大于相应的估计值的有2年, 故这5年中甲级利润年的有2年,乙级利润年的有3年, 所以从2019年至2023年这5年中随机抽取3年,恰有1年为甲级利润年的概率为. 例题3.(24-25高二下·全国·课后作业)某视频博主加入了视频推流活动,通过投入资金对视频进行推广.通过一段时间的推广,统计得到如下数据: 推流投入资金千元 8 9 10 11 12 视频浏览量万次 9 10 10 12 14 (1)求关于的经验回归方程; (2)已知该博主商品橱窗中销售商品的利润(单位:千元)与推流投入(单位:千元)、浏览量(单位:万次)满足关系式,利用(1)中经验回归方程估计该博主投入多少元时,能获得最大净利润,并求最大净利润(净利润利润-投入,结果保留整数). 附:. 【答案】(1) (2)推流投入为11250元时,可以获得最大净利润22188元 【知识点】求回归直线方程、根据回归方程进行数据估计 【分析】(1)根据题中数据和公式求,即可得回归方程; (2)根据(1)中回归方程和题中公式求利润的解析式,结合二次函数最值分析求解. 【详解】(1)由所给数据可得, 则,, 可得, 所以关于的回归方程为. (2)若推流投入千元时,净利润估计为 , 当时,取得最大值,最大值为22.1875千元. 即该博主推流投入为11250元时,可以获得最大净利润22188元. 练透核心考点 1.(23-24高二下·内蒙古呼和浩特·阶段练习)某品牌电脑专卖店的年销售量与该年广告费用有关,如表收集了4组观测数据: (万元) 1 4 5 6 (百台) 30 40 60 50 以广告费用为解释变量,销售量为预报变量对这两个变量进行统计分析. (1)已知这两个变量呈线性相关关系,试建立与之间的回归方程; (2)假如2017年该专卖店广告费用支出计划为10万元,根据你得到的模型,预测这一年的销售量. 参考公式:,. 【答案】(1); (2)75百台. 【知识点】求回归直线方程、根据回归方程进行数据估计 【分析】(1)根据回归直线方程计算公式,计算出回归直线方程. (2)根据回归直线方程进行预测. 【详解】(1)根据题意,计算, , 又,; , , 所求回归直线方程为; (2)由已知得,时,(百台), 可预测该年的销售量为75百台. 2.(23-24高二下·辽宁鞍山·阶段练习)某学校一个生物兴趣小组对学校的人工湖中养殖的某种鱼类进行观测研究,在饲料充足的前提下,兴趣小组对饲养时间(单位:月)与这种鱼类的平均体重(单位:千克)得到一组观测值,如下表: 1 2 3 4 5 0.5 0.9 1.7 2.1 2.8 (1)求关于的线性回归方程; (2)利用(1)中的回归方程,分析饲养1~5个月这种鱼平均体重的变化情况,并预测饲养满12个月时,这种鱼的平均体重(单位:千克). 附:回归直线的斜率和截距的最小二乘法估计公式分别为:,,. 【答案】(1). (2)鱼的平均体重逐月增加0.58千克,满12个月时,鱼的平均体重千克. 【知识点】计算几个数的平均数、解释回归直线方程的意义、求回归直线方程、根据回归方程进行数据估计 【分析】(1)结合题干中的数据,利用,公式,计算可得,的值,再利用得到答案. (2)利用(1)求得的回归方程,将代入即可得到答案. 【详解】(1)由图表数据可得,,, ,, 故,, 故回归直线方程为; (2)因为,故饲养1~5个月这种鱼平均体重逐月增加,平均增加千克, 当时,, 故预测该饲养满12个月时,这种鱼的平均体为千克. 3.(23-24高二下·青海海东·阶段练习)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据: 第一次 第二次 第三次 第四次 参会人数x(万人) 8 9 10 11 原材料y(袋) 20 23 25 28 (1)请根据所给四组数据,求出y关于x的线性回归方程; (2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋? 参考公式:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,. 【答案】(1) (2)11袋 【知识点】求回归直线方程、根据回归方程进行数据估计 【分析】(1)根据数据求出得出回归直线即可; (2)应用回归直线估计判断即可. 【详解】(1)由数据,得,, , , 由公式,求得,,y关于x的线性回归方程为. (2)由,得,而, 所以该店应至少再补充原材料11袋. 高频考点三:回归分析(非线性经验回归方程及应用) 典型例题 例题1.(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得: 44 4.8 10 40.3 1.612 19.5 8.06 现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? 【答案】(1)模型②的拟合程度更好 (2),13(百万辆) 【知识点】非线性回归、相关系数的意义及辨析、根据回归方程进行数据估计 【分析】(1)分别求出两种模型的相关系数,再根据相关系数的几何意义即可得出结论; (2)先利用最小二乘法求出关于的回归方程,再令,即可得解. 【详解】(1)设模型①和②的相关系数分别为,, 由题意可得:, , 所以,由相关系数的相关性质可得,模型②的拟合程度更好; (2)因为, 又由,, 得, 所以,即回归方程为. 当时,, 因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆). 例题2.(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据: 第x年 1 2 3 4 5 6 7 8 9 10 旅游人数y(万人) 300 283 321 345 372 435 486 527 622 800 该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型: 模型①:由最小二乘法公式求得y与x的线性回归方程; 模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近. (1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001). (2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位). 回归方程 ① ② 30407 14607 参考公式、参考数据及说明: ①, ②刻画回归效果的决定系数; ③参考数据: , 5.5 449 6.05 83 4195 9.00 表中. 【答案】(1) (2)答案见解析 【知识点】求回归直线方程、非线性回归、相关指数的计算及分析 【分析】(1)对取对数,得,设,,先建立关于的线性回归方程.再回代,得到建立关于的非线性回归方程. (2)先求出两种模型的决定系数,再根据大小决定选哪种模型,再代值,计算即可预测2021年该景区的旅游人数. 【详解】(1)对取对数,得,设,,先建立关于的线性回归方程. ,, , 模型②的回归方程为. (2)由表格中的数据,有3040714607,即, 即,, 模型①的相关指数小于模型②的,说明回归模型②的拟合效果更好. 2021年时,,预测旅游人数为(万人). 练透核心考点 1.(23-24高二下·江西新余·开学考试)某人新房刚装修完,为了监测房屋内空气质量的情况,每天在固定的时间测一次甲醛浓度(单位:mg/m3),连续测量了10天,所得数据绘制成散点图如下:用表示第天测得的甲醛浓度,令,经计算得,,. (1)由散点图可知,与可用指数型回归模型进行拟合,请利用所给条件求出回归方程;(系数精确到0.01) (2)已知房屋内空气中的甲醛浓度的安全范围是低于0.08 mg/m3,则根据(1)中所得回归模型,该新房装修完第几天开始达到此标准?(参考数据:) 附:,. 【答案】(1); (2)第35天. 【知识点】求回归直线方程、非线性回归、根据回归方程进行数据估计 【分析】(1)设出回归直线方程,利用最小二乘法求出,再求出与的回归方程. (2)利用(1)中回归模型建立不等式,再求解不等式即可. 【详解】(1)令,而,, 则,, 因此,即, 所以所求回归方程为. (2)由(1)知:,即,解得, 所以,即在新房装修完第35天开始达到此标准. 2.(23-24高二下·山东青岛·期中)肥胖不仅影响形体美,而且给生活带来不便,此外还有关节软组织损伤、心脏病、糖尿病、脂肪肝、痛风等危害.小王通过运动和节食进行减肥,并将时间x(单位:周)和体重(单位:)记录制作如下统计表: 1 2 3 4 6 8 90.1 87.6 87.2 86.2 84.2 84.3 (1)若和满足经验回归模型,求; (2)求该模型的决定系数,并判断该经验回归方程是否有价值(认为有价值); (3)当某组数据残差的绝对值不超过0.3时,称该组数据为“身材有效管理数据”,现从这六组数据中任意抽取两组,设抽取的“身材有效管理数据”的个数为,求的分布列和期望. 附:经验回归方程中,, 参考数据:. 【答案】(1);. (2);该经验回归方程有价值. (3)分布列见解析;数学期望是1. 【知识点】求离散型随机变量的均值、写出简单离散型随机变量分布列、相关系数的计算、非线性回归 【分析】(1)设得,计算,继而得到和; (2)分别计算和,计算出,即得结论; (3)依题意,残差的绝对值不超过0.3的有三组,由此确定的可能值有,利用超几何分布计算概率,写出分布列,计算出数学期望即可. 【详解】(1)设则, 因 , 则 又且经验回归直线过点, 故得,, (2)由(1), 1 2 3 4 6 8 90.1 87.6 87.2 86.2 84.2 84.3 90 88 86.8 86 84.8 84 0.01 0.16 0.16 0.04 0.36 0.09 12.25 1 0.36 0.16 5.76 5.29 则,因,则该经验回归方程有价值; (3)经计算,这六组数据中,残差的绝对值不超过0.3的有三组,分别是第一组、第四组和第八组, 故从这六组数据中任意抽取两组,的可能值有, 于是,, 则的分布列为: 0 1 2 故数学期望为. 高频考点四:回归分析(相关系数) 典型例题 例题1.(2024·海南海口)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,,,,. (1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合; (2)求关于的线性回归方程; (3)某科研机构研发了两款垃圾处理机器,如表是以往两款垃圾处理机器的使用年限(整年)统计表: 使用年限 台数 款式 1年 2年 3年 4年 5年 甲款 5 20 15 10 50 乙款 15 20 10 5 50 某环保机构若考虑购买其中一款垃圾处理器,以使用年限的频率估计概率.根据以往经验估计,该机构选择购买哪一款垃圾处理机器,才能使用更长久? 参考公式:相关系数 . 对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为. 【答案】(1)与之间具有较强的线性相关关系,可用线性回归模型进行拟合; (2); (3)该县城选择购买一台乙款垃圾处理机器更划算. 【知识点】求回归直线方程、相关系数的计算、求离散型随机变量的均值 【分析】(1)求出相关系数,即可判断与之间的线性相关关系,是否可用线性回归模型进行拟合; (2)求出回归直线方程的系数,即可得到回归直线方程; (3)求出以频率估计概率,甲款使用年限(单位:年)的分布列,求出期望.乙款垃圾处理机器使用年限(单位:年)的分布列,求出期望,即可推出该机构选择购买哪一款垃圾处理机器,才能使用更长久. 【详解】(1)由题意知相关系数, 因为与的相关系数接近1, 所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合. (2)由题意可得,,所以. (3)以频率估计概率,甲款垃圾处理机器的使用年限的分布列为: 1 2 3 4 5 0.05 0.2 0.15 0.1 0.5 ; 乙款垃圾处理机器的使用年限的分布列为: 1 2 3 4 5 0.15 0.2 0.1 0.05 0.5 , 因为,所以该县城选择购买一台甲款垃圾处理机更划算. 例题2.(2024·四川绵阳)根据统计, 某蔬菜基地西红柿亩产量的增加量 (百千克)与某种液体肥料每亩的使用量(千克)之间 的对应数据的散点图如图所示.    (1)从散点图可以看出, 可用线性回归方程拟合 与的关系, 请计算样本相关系数并判断它们的相关程度; (2)求 关于的线性回归方程, 并预测液体肥料每亩的使用量为 12 千克时西红柿亩产量的增加量. 附: . 【答案】(1) ; ​与​程正线性相关, 且相关程度很强. (2); 9.9 百千克. 【知识点】求回归直线方程、相关系数的计算、根据回归方程进行数据估计 【分析】(1)由图形中的数据结合相关系数公式求得相关系数,再由即可求解; (2)求出线性回归方程,再取代入,即可求解. 【详解】(1)由题知: ​ 所以 所以 ​ 所以 ​与​程正线性相关, 且相关程度很强. (2)因为 ​, 所以 ​关于​的线性回归方程为​, 当 ​时,​. 所以预测液体肥料每亩的使用量为 12 千克时西红柿亩产量的增加量为 9.9 百千克. 练透核心考点 1.(24-25高三上·重庆·阶段练习)广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量. 1 2 3 4 5 0.171 0.152 0.192 0.189 0.196 12 10 16 14 18 (1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数); (2)求样本的相关系数(精确到0.01); (3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数,,. 【答案】(1)700 (2)0.94 (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样,理由见解析 【知识点】分层抽样的特征及适用条件、计算几个数的平均数、相关系数的计算 【分析】(1)求出样本平均数,再乘以地块数可得出结果; (2)根据题中所给数据,代入,可得出结果; (3)由(2)知知各样区的这种鸟数量与植物覆盖面积有很强的正相关,各地块间这种植物数量差异也很大,适合采用分层抽样. 【详解】(1)由已知得样本平均数, 从而广阳岛这种鸟数量的估计值为. (2), , 故样本的相关系数 (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样. 理由如下:由(2)知各样区的这种鸟数量与植物覆盖面积有很强的正相关, 由于各地块间植物覆盖面积差异很大,从而各地块间这种鸟数量差异也很大, 采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得广阳岛这种鸟数量更准确的估计. 2.(2024·广东·模拟预测)西藏隆子县玉麦乡位于喜马拉雅山脉南麓,地处边疆,山陡路险,交通闭塞.党的十八大以来,该地区政府部门大力开发旅游等产业,建设幸福家园,实现农旅融合,以创建国家全域旅游示范区为牵引,构建“农业+文创+旅游”发展模式,真正把农村建设成为“望得见山、看得见水、记得住乡愁”的美丽乡村,在新政策的影响下,游客越来越多.当地旅游局统计了玉麦乡景区2023年1月份到5月份的接待游客人数(单位:万人),统计结果如下: 月份 1 2 3 4 5 接待游客人数(单位:万人) 1.2 1.8 2.5 3.2 3.8 (1)求相关系数的值,当时,线性关系为较强,请说明2023年1-5月份与接待游客人数之间线性关系的强弱;若线性相关,求出关于的线性回归方程; (2)为打造群众满意的旅游区,该地旅游部门对所推出的报团游和自助游项目进行了深入调查,下表是从接待游客中随机抽取的30位游客的满意度调查表,请将下述列联表补充完整,并依据小概率值的独立性检验,分析游客对本地景区的满意度是否与报团游或自助游有关联. 报团游 自助游 合计 满意 3 18 不满意 5 合计 10 30 附:线性回归方程的斜率及截距的最小二乘法估计分别为,相关系数,,参考数据:. 附表: 0.10 0.05 0.010 0.001 2.706 3.841 6.635 10.828 【答案】(1),2023年1-5月份与接待游客人数之间有较强的线性相关程度, (2)列联表见解析,有关 【知识点】求回归直线方程、相关系数的计算、完善列联表、卡方的计算 【分析】(1)先计算出后,再借助所给公式计算即可得,比较与0.75的大小即可得线性关系的强弱,再利用所给公式计算即可得线性回归方程; (2)补充列联表后,计算出卡方,并比较卡方与3.841的大小关系即可得. 【详解】(1)由题中数据可得: , , 又, . 故2023年1-5月份与接待游客人数之间有较强的线性相关程度. 由上可知,, , 关于的线性回归方程为; (2)零假设为:游客对本地景区满意度与报团游或自助游无关联, 依题意,完善表格如下: 报团游 自助游 合计 满意 15 3 18 不满意 5 7 12 合计 20 10 30 根据列联表中的数据,经计算得到, 根据小概率值的独立性检验,推断不成立, 即认为游客对本地景区满意度与报团游或自助游有关联. 高频考点五:回归分析(残差分析) 典型例题 例题1.(24-25高二下·全国·课后作业)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为(    ) A. B. C. D. 【答案】D 【知识点】残差的计算、计算样本的中心点、根据回归方程进行数据估计 【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得,由残差定义可得结果. 【详解】,增加两个样本点后的平均数为; ,,增加两个样本点后的平均数为, ,解得:,新的经验回归方程为:, 则当时,,样本的残差为. 故选:D. 例题2.(23-24高二下·安徽亳州·期末)某市旅游局对全市各旅游景区的环境进行综合治理,投入不同数额的经费(千万元),得到各旅游景区收益的增加值(万元),对应数据如下表所示: 投人的治理经费(单位:千万元) 1 2 3 4 5 6 7 收益的增加值(单位:万元) 2 3 2 5 7 7 9 若与的回归直线方程为,则相应于点的残差是(    ) A. B.0.358 C. D.8.642 【答案】B 【知识点】残差的计算、根据回归方程进行数据估计、根据样本中心点求参数 【分析】先算出,代入回归直线方程为,可得,进而得到回归直线方程,当时,求出,算出残差即可. 【详解】, 所以, 当时,,因此残差为. 故选:B. 例题3.(24-25高二下·全国·课后作业)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 . 广告支出费用/万元 1 3 4 6 11 销售量万件 1.9 3.2 4.4 6.3 12.7 【答案】2.02 【知识点】残差的计算、根据样本中心点求参数 【分析】先求出样本点的中心点,然后代入回归方程求出,从而求出当时,解得,从而可求解. 【详解】由题意,, 而样本点的中心点在经验回归直线上, 代入得,解得. 所以,当时,解得, 所以残差为. 故答案为:. 练透核心考点 1.(23-24高二下·江苏泰州·阶段练习)对于数据组,如果由线性回归方程得到的自变量的估计值是,那么将称为样本点处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到表所示数据.若销量(单位:件)与单价(单位:元)之间的线性回归方程为,且样本点处的残差为3,则(    ) 单价/元 8.2 8.4 8.6 8.8 销量件 84 83 78 m A.65 B.67 C.73 D.75 【答案】B 【知识点】根据回归方程求原数据中的值、残差的计算 【分析】利用样本点处的残差为3,求得,再由,求得,进而可求得. 【详解】由条件知当时,, 代入,解得,于是, 又,所以,即,解得. 故选:B. 2.(24-25高二下·全国·课后作业)近几年,我国新能源汽车产业进入了加速发展的阶段,呈现市场规模、发展质量“双提升”的良好局面.新能源汽车的核心部件是动力电池,其中的主要成分是碳酸锂.下表是某地2023年3月1日至2023年3月5日电池级碳酸锂的价格与日期的统计数据: 日期代码 1 2 3 4 5 电池级碳酸锂价格(十万元/吨) 4.1 3.9 3.8 3.9 根据表中数据,得出关于的经验回归方程为,根据数据计算出在样本中心点处的残差为,则决定系数的值为 (结果保留两位小数). 【答案】 【知识点】残差的计算、根据样本中心点求参数 【分析】先根据数据在样本中心点处的残差求,再根据回归直线方程必过样本中心点,求出,做出残差表,根据公式求决定系数的值. 【详解】由题知,可得. 又, 由,可得. 列出残差表: 0.1 0.1 0.2 0 0 所以. 故答案为: 3.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 . 【答案】0.5/ 【知识点】残差的计算、根据样本中心点求参数 【分析】利用样本中心在回归直线上及残差的定义即可求解. 【详解】将代入,得,解得, 所以, 故当时,, 所以残差. 故答案为:0.5. 高频考点六:列联表与独立性检验 典型例题 例题1.(24-25高三上·重庆·阶段练习)在学校食堂就餐成为了很多学生的就餐选择.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,其中男生和女生人数之比为1∶1,现将一周内在食堂就餐超过3次的学生认定为“喜欢食堂就餐”,不超过3次的学生认定为“不喜欢食堂就餐”.“喜欢食堂就餐”的人数比“不喜欢食堂就餐”人数多20人,“不喜欢食堂就餐”的男生只有10人. 男生 女生 合计 喜欢食堂就餐 不喜欢食堂就餐 10 合计 100 (1)将上面的列联表补充完整,并依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关; (2)该校甲同学逢星期二和星期四都在学校食堂就餐,且星期二会从①号、②号两个套餐中随机选择一个套餐,若星期二选择了①号套餐,则星期四选择①号套餐的概率为;若星期二选择了②号套餐,则星期四选择①号套餐的概率为,求甲同学星期四选择②号套餐的概率. 参考公式:,其中. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【答案】(1)答案见详解 (2) 【知识点】卡方的计算、计算条件概率、利用全概率公式求概率 【分析】(1)补充完善列联表,进行独立性检验即可. (2)利用条件概率公式结合全概率公式求解即可. 【详解】(1)喜欢食堂就餐的人数为,则不喜欢的人数为人, 则不喜欢食堂就餐的女生为人,因为男女生人数比为1∶1, 则男女生各50人,则喜欢堂食就餐的女生为人, 喜欢堂食就餐的男生为人, 则列联表见图, 男生 女生 合计 喜欢食堂就餐 40 20 60 不喜欢食堂就餐 10 30 40 合计 50 50 100 零假设:假设食堂就餐与性别无关, 由列联表可得, 根据小概率的独立性检验推断不成立, 即可以得到学生喜欢食堂就餐与性别有关. (2)记事件:小林同学星期二选择了①号套餐, 事件:小林同学星期四选择了②号套餐, 由全概率公式可得 例题2.(23-24高二下·辽宁朝阳·期末)长跑可提高呼吸系统和心血管系统机能,较长时间有节奏的深长呼吸,能使人体呼吸大量的氧气,吸收氧气量若超过平时的倍,就可以抑制人体癌细胞的生长和繁殖.其次长跑锻炼还改善了心肌供氧状态,加快了心肌代谢,同时还使心肌肌纤维变粗,心收缩力增强,从而提高了心脏工作能力.某学校对男、女学生是否喜欢长跑进行了调查,调查男、女生人数均为200,统计得到以下列联表: 喜欢 不喜欢 合计 男生 120 80 200 女生 100 100 200 合计 220 180 400 (1)是否有的把握认为学生对长跑的喜欢情况与性别有关联? (2)为弄清学生不喜欢长跑的原因,从调查的不喜欢长跑的学生中按性别采用分层抽样的方法随机抽取9人,再从这9人中抽取3人进行面对面交流,记随机变量表示抽到的3人中女生的人数,求的分布列; (3)将频率视为概率,用样本估计总体,从该校全体学生中随机抽取12人,记其中喜欢长跑的人数为,求的数学期望. 附:,其中. 0.100 0.050 0.025 0.010 0.001 2.706 3.841 5.024 6.635 10.828 【答案】(1)有的把握认为学生对长跑的喜欢情况与性别有关联; (2)答案见解析 (3) 【知识点】卡方的计算、独立性检验解决实际问题、二项分布的均值、超几何分布的分布列 【分析】(1) 根据列联表中的数据,求得,结合附表,即可求解; (2) 求得男生的人数为人,女生的人数为人,根据题意,得到的可能取值为,求得相应的概率,即可列出分布列; (3) 根据题意,求得任抽1人喜欢长跑的概率为,结合服从二项分布,即可求解. 【详解】(1)零假设学生对长跑的喜欢情况与性别无关联, 根据题意,由列联表中的数据, 可得, 所以在的独立性检验中,可以推断不成立, 即有的把握认为学生对长跑的喜欢情况与性别有关联; (2)从调查的不喜欢长跑的学生中按性别采用分层抽样的方法随机抽取9人, 其中男生的人数为人,女生的人数为人, 从9人中随机抽取3人,即随机变量的可能取值为, 可得, , 则随机变量的分布列为: 0 1 2 3 (3)由题意知,任抽1人喜欢长跑的概率为, 所以随机变量服从二项分布,即, 所以. 例题3.(2024·四川成都·模拟预测)在学校食堂就餐成为了很多学生的就餐选择.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,其中男生和女生人数之比为,现将一周内在食堂就餐超过8次的学生认定为“喜欢食堂就餐”,不超过8次的学生认定为“不喜欢食堂就餐”.“喜欢食堂就餐”的人数比“不喜欢食堂就餐”人数多20人,“不喜欢食堂就餐”的男生只有10人. 男生 女生 合计 喜欢食堂就餐 不喜欢食堂就餐 10 合计 100 (1)将上面的列联表补充完整,并依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关: (2)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为X.事件“”的概率为,求随机变量X的期望和方差. 参考公式:,其中. a 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【答案】(1)表格见解析,有关 (2)期望6,方差 【知识点】完善列联表、卡方的计算、二项分布的均值、二项分布的方差 【分析】(1)根据题意,补充完善列联表,进行独立性检验即可. (2)根据题意,,利用二项分布的均值方差公式求解. 【详解】(1)列联表见图, 男生 女生 合计 喜欢食堂就餐 40 20 60 不喜欢食堂就餐 10 30 40 合计 50 50 100 零假设:假设食堂就餐与性别无关, 由列联表可得, 根据小概率的独立性检验推断不成立, 即可以得到学生喜欢食堂就餐与性别有关,此推断犯错误的概率不超过. (2)由题意可知,抽取的10名学生,喜欢饭堂就餐的学生人数服从二项分布, 且喜欢饭堂就餐的频率为,则, 故其期望,方差. 练透核心考点 1.(24-25高三上·上海·阶段练习)近年来,随着智能手机的普及,网上买菜迅速进入了我们的生活。现将一周网上买菜次数超过3次的市民认定为“喜欢网上买菜”,不超过3次甚至从不在网上买菜的市民认定为“不喜欢网上买菜”.某市社区为了解该社区市民网上买菜情况,随机抽取了该社区100名市民,得到的统计数据如下表所示: 喜欢网上买菜 不喜欢网上买菜 合计 年龄不超过45岁的市民 40 10 50 年龄超过45岁的市民 20 30 50 合计 60 40 100 (1)能否有95%的把握认为社区的市民是否喜欢网上头菜与年龄有关? (2)M社区的市民小张周一、二均在网上买菜,且周一等可能地从两个买菜平台随机选择一个下单买菜如果周一选择平台买菜,那么周二选择平台买菜的概率为,如果周一选每平台买菜,那么周二选择平合买菜的概率为,求小张周二选择平台买菜的概率; (3)用频率估计概率,现从M社区随机抽取20名市民,记其中喜欢网上买菜的市民人数为随机变量,并记随机变量,求、的期望和方差. 参考公式:,其中. 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【答案】(1)有 (2) (3),,,. 【知识点】卡方的计算、二项分布的均值、二项分布的方差、利用全概率公式求概率 【分析】(1)计算,利用独立性检验思想进行判断. (2)利用全概率公式进行运算. (3)根据二项分布期望与方差的计算公式求,,在根据变量的线性相关求,. 【详解】(1)零假设:M社区的市民是否喜欢网上头菜与年龄无关. 由给定的列联表,得:. 所以不成立,有有95%的把握认为M社区的市民是否喜欢网上头菜与年龄有关. (2)设表示周在A平台买菜,表示周在B平台买菜,则, 由全概率公式,小张周二选择平台买菜的概率为:. (3)依题意,喜欢网上买菜的概率为:. 从M社区随机抽取20名市民,其中喜欢网上买菜的市民人数服从二项分布:, 所以,. 又,所以,. 2.(24-25高三上·四川广安·阶段练习)某电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”的人数为25人. (1)根据已知条件完成下面的2×2列联表,依据小概率值=0.05的独立性检验,能否据此认为“体育迷”与性别有关? 性别 “体育迷”情况 合计 非体育迷 体育迷 男 女 10 55 合计 (2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为.若每次抽取的结果是相互独立的,求的分布列,均值和方差. 附:,其中. 0.05 0.01 3.841 6.635 【答案】(1)列联表见解析,认为“体育迷”与性别无关 (2)分布列见解析,=,= 【知识点】独立性检验解决实际问题、二项分布的均值、二项分布的方差 【分析】(1)根据公式计算出的观测值,再依据临界值表给出判断. (2)利用二项分布可得分布列,再利用公式可求期望和方差. 【详解】(1)在抽取的100人中,“体育迷”有25人,从而2×2列联表如下: 性别 “体育迷”情况 合计 非体育迷 体育迷 男 30 15 45 女 45 10 55 合计 75 25 100 零假设为:“体育迷”与性别无关. 将2×2列联表中的数据代入公式计算,得 = ≈3.030<3.841= 根据小概率值=0.05的独立性检验,没有充分证据推断不成立,即认为“体育迷”与性别无关. (2)由频率分布直方图,知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意知,从而的分布列为 0 1 2 3 =3×=,=3××=. 3.(24-25高三上·上海·阶段练习)2024年4月25日,第18届北京国际汽车展览会在中国国际展览中心开幕,本届展会以“新时代新汽车”为主题,在展览会上国内新能源车引得了国内外车友的关注.为了解人们的买车意向,在车展现场随机调查了50名男观众和50名女观众,已知男观众中有40人偏向燃油车,女观众中有20人偏向燃油车,剩余被调查的观众则偏向新能源车. (1)根据已知条件,填写下列列联表,并根据小概率值的独立性检验,判断男观众和女观众买车意向的偏向情况是否有差异; 偏向燃油车 偏向新能源车 男观众 女观众 (2)现按比例用分层随机抽样的方法从被调查的偏向燃油车的观众中抽取9人,再从这9人中随机抽取4人,记表示这4人中女观众的人数,求的分布列和数学期望. 附:. 0.1 0.05 0.01 0.001 2.706 3.841 6.635 10.828 【答案】(1)列联表见解析,有差异 (2)分布列见解析, 【知识点】完善列联表、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值 【分析】(1)根据题意即可填写列联表,然后计算,根据独立性检验的思想判断即可; (2)根据分层随机抽样可知有6名男观众,3名女观众,由此可知的可能取值,根据古典概型的概率计算公式求解概率即可得到分布列,最后求数学期望即可. 【详解】(1)由题意可得列联表: 偏向燃油车 偏向新能源车 总计 男观众 40 10 50 女观众 20 30 50 总计 60 40 100 零假设:男观众和女观众买车意向的偏向情况没有差异, 则 根据小概率值的独立性检验可知,零假设不成立, 所以可以认为男观众和女观众买车意向的偏向情况有差异. (2)因为抽取的9人中有名男观众,名女观众, 所以的可能取值为, 则, , 所以的分布列为: 0 1 2 3 则. 第四部分:新定义题 1.(2024·福建厦门)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.右图是2018-2022年移动物联网连接数W与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5. (1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度; (2)(i)假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型  (随机误差).请推导:当随机误差平方和Q=取得最小值时,参数b的最小二乘估计. (ii)令变量,则变量x与变量Y满足一元线性回归模型利用(i)中结论求y关于x的经验回归方程,并预测2024年移动物联网连接数. 附:样本相关系数,,,, 【答案】(1),这两个变量正线性相关,且相关程度很强. (2)(i);(ii)经验回归方程;预测2024年移动物联网连接数23.04亿户. 【知识点】根据回归方程进行数据估计、相关系数的计算、相关系数的意义及辨析、最小二乘法的概念及辨析 【分析】 (1)根据相关系数计算,若两个变量正相关,若两个变量负相关,越接近于1说明线性相关越强. (2)(i)整理得,根据二次函数求最小值时的取值; (ii) 根据计算公式求得经验回归方程, 并代入可预测2024年移动物联网连接数. 【详解】(1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关. 因为, 所以 , 所以 , 所以这两个变量正线性相关,且相关程度很强. (2)(i) , 要使取得最小值,当且仅当. (ii) 由(i)知 , 所以y关于x的经验回归方程,又, 所以当 时,则, 所以预测2024年移动物联网连接数23.04亿户. 学科网(北京)股份有限公司 $$

资源预览图

第03讲  成对数据的统计分析(知识+真题+10类高频考点)( 精讲)-【高考新结构一轮复习】备战2025年高考数学一轮复习精讲精练(知识·题型·分层练,新高考专用)
1
第03讲  成对数据的统计分析(知识+真题+10类高频考点)( 精讲)-【高考新结构一轮复习】备战2025年高考数学一轮复习精讲精练(知识·题型·分层练,新高考专用)
2
第03讲  成对数据的统计分析(知识+真题+10类高频考点)( 精讲)-【高考新结构一轮复习】备战2025年高考数学一轮复习精讲精练(知识·题型·分层练,新高考专用)
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。