专题05 一元线性回归模型与独立性检验常考题型归类(考题猜想,6大题型30题专练)-2023-2024学年高二数学下学期期末考点大串讲(人教B版2019选择性必修第二册)

2024-06-17
| 2份
| 37页
| 965人阅读
| 27人下载
小zhang老师数学乐园
进店逛逛

资源信息

学段 高中
学科 数学
教材版本 高中数学人教B版选择性必修第二册
年级 高二
章节 4.3统计模型
类型 题集-专项训练
知识点 回归分析,独立性检验
使用场景 同步教学-期末
学年 2024-2025
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 3.38 MB
发布时间 2024-06-17
更新时间 2024-06-17
作者 小zhang老师数学乐园
品牌系列 上好课·考点大串讲
审核时间 2024-06-17
下载链接 https://m.zxxk.com/soft/45804979.html
价格 3.00储值(1储值=1元)
来源 学科网

内容正文:

专题05 一元线性回归模型与独立性检验 一.相关系数与相关指数 1.(23-24高二下·江西·月考)已知变量x,y线性相关,利用样本数据求得的回归直线方程为,且点都在直线上,则这组样本数据的相关系数(    ) A.1 B. C. D. 2.(23-24高二下·河南驻马店·期中)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是(    ) A.模型Ⅰ:相关系数r为 B.模型Ⅱ:相关系数r为0.81 C.模型Ⅲ:相关系数r为 D.模型Ⅳ:相关系数r为0.53 3.(23-24高二下·天津·期中)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论正确的是(    ) A.乙组数据的相关系数大于零 B.甲组数据的相关程度比乙强 C.乙组数据的相关系数比甲组的更接近1 D.乙组数据的相关系数比甲小 4.(23-24高二下·辽宁沈阳·月考)已知5个成对数据的散点图如下、若去掉点,则下列说法错误的是(    ) A.变量x与变量y呈负相关 B.变量x与变量y的相关性变强 C.残差平方和变小 D.样本相关系数r变大 5.(23-24高二下·贵州·月考)某公司收集了某商品销售收入(万元)与相应的广告支出(万元)共10组数据(),绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法正确的是(    ) A.决定系数变小 B.残差平方和变小 C.相关系数的值变小 D.解释变量与预报变量相关性变弱 二.样本中心点的应用 1.(23-24高二下·湖南岳阳·月考)已知变量的部分数据如下表,由表中数据得之间的经验回归方程为,现有一测量数据为,若该数据的残差为1.2,则(    ) 21 23 25 27 15 18 19 20 A.25.6 B.28 C.29.2 D.24.4 2.(23-24高二下·河南濮阳·月考)在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则(   ) A.13.5 B.14 C.14.5 D.15 3.(23-24高二下·河南·月考)已知一组样本数据如下表所示:经研究发现,x与y之间具有线性相关关系,其回归直线方程为,若成等差数列,则当时,的预测值约为(结果精确到0.01)(   ) x 1 2 3 4 5 6 7 y 2 5 m 9 n 13 16 A.18.86 B.20.13 C.22.10 D.26.02 4.(23-24高二下·河南南阳·期中)具有线性相关关系的变量的样本数据如下: -2 -4 -6 -8 17.4 13 8.2 5 其回归直线方程为,则回归直线经过(    ) A.第一、二、三象限 B.第二、三、四象限 C.第一、二、四象限 D.第一、三、四象限 5.(23-24高二下·内蒙古赤峰·期中)(多选)已知由样本数据组成的一个样本,得到回归直线方程为,且,剔除一个偏离直线较大的异常点后,得到新的回归直线经过点.则下列说法正确的是(   ) A.相关变量 x,y具有正相关关系 B.剔除该异常点后,样本相关系数的绝对值变大 C.剔除该异常点后的回归直线方程经过点 D.剔除该异常点后,回归直线的斜率是 三.线性回归模型应用 1.(23-24高二下·河北沧州·月考)假期中,来自沿海城市的小明和小强去四川旅游,他们发现自己带的小面包的包装袋鼓了起来.原来随着海拔升高,气压也随之降低,包装袋内的气压大于外面气压,从而使得面包袋鼓了起来.研究发现在一定范围内大气压与海拔高度是近似线性的关系. 海拔高度 10 50 100 500 1000 大气压 101.2 100.6 100.2 94.8 88.2 (1)利用线性回归分析求与之间的线性回归方程;(的值精确到0.001) (2)小明和小强打算去九寨沟,可以利用(1)中的方程,估计九寨沟A景点(海拔2800m)的大气压.(精确到0.01) 附:①对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,. ②参考数据:,. 2.(23-24高二下·安徽·月考)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划、某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额(单位:百万元)对年收入的附加额(单位:百万元)的影响,对往年研发资金投入额和年收入的附加额进行研究,得到相关数据如下: 投入额 2 3 4 5 6 8 9 11 年收入的附加额 3.6 4.1 4.8 5.4 6.2 7.5 7.9 9.1 (1)求证:,; (2)求年收入的附加额与投入额的经验回归方程.若投入额为13百万元,估计年收入的附加额. 参考数据:,,. 参考公式:在经验回归方程中,,. 3.(23-24高二下·贵州黔西·月考)当今社会面临职业选择时,越来越多的青年人选择通过创业、创新的方式实现人生价值.小明是一名刚毕业的大学生,通过直播带货的方式售卖自己家乡的特产,下面是他近5个月的家乡特产收入y(单位:万元)的情况,如表所示. 月份 5 6 7 8 9 时间代号t 1 2 3 4 5 家乡特产收入y 3 2.4 2.2 2 1.8 (1)根据5月至9月的数据,求y与t之间的样本相关系数(精确到0.001),并判断相关性; (2)求出y关于t的经验回归方程(结果中保留两位小数),并预测10月收入能否突破1.5万元,请说明理由. 附:样本相关系数.一组数据其经验回归方程的斜率和截距的最小二乘估计公式分别为,.,,,. 4.(23-24高二下·云南曲靖·月考)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中为年份代号,(单位:万吨)代表新增碳排放量. 年份 2019 2020 2021 2022 2023 年份代号 1 2 3 4 5 新增碳排放万吨 6.1 5.2 4.9 4 3.8 (1)请计算并用相关系数的数值说明与之间的线性相关性的强弱(保留小数点后两位); (2)求关于的线性回归方程,并据此估计该地区23-24年的新增碳排放数量. 参考数据:,,,. 参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,, 5.(23-24高三上·江苏苏州·月考)某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高(单位:)与父亲身高(单位:)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表: 父亲身高 160 170 175 185 190 儿子身高 170 174 175 180 186 参考数据及公式:,,,,, (1)根据表中数据,求出y关于x的线性回归方程,并利用回归直线方程分别确定儿子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律? (2)记,,其中为观测值,为预测值,为对应的残差.求(1)中儿子身高的残差的和、并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立加以证明;若不成立说明理由. 四.非线性回归分析 1.(23-24·福建宁德·三模)23-24海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为(    ) A.9.6 B.11.0 C.11.3 D.12.0 2.(23-24高二下·贵州黔西·月考)为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图. 根据收集到的数据,计算得到下表数据,其中. 7.5 2.25 82.50 4.50 12.14 2.88 (1)根据残差图,判断应选择哪个模型;(无需说明理由) (2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1) 3.(23-24高二下·广东·期中)某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据: 年份 2019 2020 2021 2022 2023 年份代码 1 2 3 4 5 年收入(千元) 59 61 64 68 73 (1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数) (2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由. 参考数据及公式:,.设,则,. 4.(23-24高二下·广东江门·月考)广东省深圳市是全国七大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示: 令,数据经过初步处理得: 44 4.8 10 40.3 1.612 19.5 8.06 现有①和②两种方案作为年销售量关于年广告费的回归分析模型,其中,,,均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好?(不能整除的相关系数保留2位小数) (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? 附:①相关系数,回归直线中公式分别为,, ②参考数据:,,,. 5.(23-24高三上·广东广州·月考)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.    73.5 3.85 表中:, (1)根据散点图判断,①与②哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程; (2)已知该茶水温度降至口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感? 附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为, (2)参考数据:,,,, 五.独立性检验的概念辨析 1.(23-24高二下·江苏·课前预习)假设有两个分类变量与,它们的可能取值分别为和,其列联表为: 10 18 26 则当取下面何值时,与的关系最弱(    ) A.8 B.9 C.14 D.19 2.(23-24高二下·内蒙古赤峰·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用2×2列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过(  ) A.0.1% B.1% C.99% D.99.9% 3.(23-24高二下·全国·专题练习)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( ) α 0.1 0.05 0.010 0.001 xα 2.706 3.841 6.635 10.828 A. B. C. D. 4.(20-21高二下·全国·课后作业)根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为(    ). A.变量与不独立 B.变量与不独立,这个结论犯错误的概率不超过 C.变量与独立 D.变量与独立,这个结论犯错误的概率不超过 5.(22-23高一下·江苏苏州·期末)为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有(    )人 0.10 0.05 0.01 0.005 0.001 2.706 3.841 5.635 7.879 10.828 A.11 B.12 C.13 D.14 六.独立性检验综合应用 1.(23-24高二下·广东湛江·月考)2022年北京冬奥会的申办成功与“3亿人上冰雪”口号的提出,将冰雪这个冷项目迅速炒“热”.北京某综合大学计划在一年级开设冰球课程,为了解学生对冰球运动的兴趣,随机从该校一年级学生中抽取了100人进行调查,其中女生中对冰球运动有兴趣的占,而男生共55人,其中有10人表示对冰球运动没有兴趣. (1)试列出列联表,并回答能否有的把握认为“对冰球是否有兴趣与性别有关”? 有兴趣 没兴趣 合计 男 女 合计 (2)已知在被调查的女生中有5名数学系的学生,其中3名对冰球有兴趣,现在从这5名学生中随机抽取3人,求至少有2人对冰球有兴趣的概率. 附表: 0.150 0.100 0.050 0.025 0.010 2.072 2.706 3.841 5.024 6.635 2.(23-24高二下·福建龙岩·月考)为贯彻落实全国教育大会精神,全面加强和改进新时代学校体育工作,某校开展阳光体育“冬季长跑活动”.为了解学生对“冬季长跑活动”的兴趣度是否与性别有关,某调查小组随机抽取该校100名高中学生进行问卷调查,其中认为感兴趣的人数占80%. (1)根据所给数据,完成下面的列联表,并根据小概率值的独立性检验,分析学生对“冬季长跑活动”的兴趣度与性别是否有关? 感兴趣 不感兴趣 合计 男 12 女 36 合计 100 (2)若不感兴趣的男学生中恰有5名是高三学生,现从不感兴趣的男学生中随机抽取3名进行二次调查,记选出高三男学生的人数为,求的分布列和数学期望. 附:,其中. 0.150 0.100 0.050 0.025 0.010 0.001 2.072 2.706 3.841 5.024 6.635 10.828 3.(23-24高二下·江苏泰州·期末)为培养学生的阅读习惯,某学校规定所有学生每天在校阅读时长不得少于1小时.若认为每天在校阅读的时长不少于1小时为达标,达到2小时的学生为“阅读之星”.假设该校学生每天在校阅读时长(的单位:小时),达标学生是“阅读之星”的概率为. (1)从该校学生中随机选出1人,求达标的概率; (2)为进一步了解该校学生不达标是否与性别有关,随机调查了90名学生,其中男生占,已知不达标的人数恰是期望值,且不达标的学生中男生占,是否有99%的把握认为不达标与性别有关? 附:参考公式:,其中. 参考数据: 3.841 5.024 6.635 10.828 0.050 0.025 0.010 0.001 4.(23-24·辽宁·二模)某大型体育赛事首日火炬传递共有106名火炬手参与. (1)组委会从火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格: 性别 年龄 总计 满50周岁 未满50周岁 男 15 45 60 女 5 35 40 总计 20 80 100 根据小概率值的独立性检验,试判断火炬手的性别与年龄满或未满50周岁是否有关联; 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 (2)在所有火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性火炬手喜欢观看足球比赛,某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请问这位火炬手是男性的概率为多少? 5.(23-24高二下·广西·月考)2023年秋季,支原体肺炎在我国各地流行,该疾病的主要感染群体为青少年和老年人.某市医院传染病科从该市各医院某段时间就医且年龄在70岁以上的老年人中随机抽查了200人,并调查其患病情况,将调查结果整理如下: 有慢性疾病 没有慢性疾病 合计 未感染支原体肺炎 40 80 感染支原体肺炎 40 合计 120 200 (1)完成列联表,并根据小概率值的独立性检验,分析70岁以上老年人感染支原体肺炎与自身慢性疾病是否有关? (2)用样本估计总体,并用本次抽查中样本的频率代替概率,从本市各医院某段时间就医且年龄在70岁以上的老年人中随机抽取3人,设抽取的3人中感染支原体肺炎的人数为X,求X的分布列,数学期望和方差. 附:,. 0.10 0.05 0.025 0.010 0.001 2.706 3.841 5.024 6.635 10.828 原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2 学科网(北京)股份有限公司 $$ 专题05 一元线性回归模型与独立性检验 一.相关系数与相关指数 1.(23-24高二下·江西·月考)已知变量x,y线性相关,利用样本数据求得的回归直线方程为,且点都在直线上,则这组样本数据的相关系数(    ) A.1 B. C. D. 【答案】B 【解析】由题意知,点都在直线上,可得, 又由变量负相关,所以.故选:B. 2.(23-24高二下·河南驻马店·期中)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是(    ) A.模型Ⅰ:相关系数r为 B.模型Ⅱ:相关系数r为0.81 C.模型Ⅲ:相关系数r为 D.模型Ⅳ:相关系数r为0.53 【答案】A 【解析】相关系数越大,拟合效果越好.故选:A. 3.(23-24高二下·天津·期中)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论正确的是(    ) A.乙组数据的相关系数大于零 B.甲组数据的相关程度比乙强 C.乙组数据的相关系数比甲组的更接近1 D.乙组数据的相关系数比甲小 【答案】D 【解析】由散点图可以看出,甲、乙两组数据都呈线性相关, 且乙组数据呈负相关,相关系数记为,则, 甲组数据呈正相关,相关系数记为,则, 乙图的点相对更加集中在某一条直线附近, 所以其相关性较强,则乙组数据的相关系数更接近,故A、B、C错误,D正确.故选:D. 4.(23-24高二下·辽宁沈阳·月考)已知5个成对数据的散点图如下、若去掉点,则下列说法错误的是(    ) A.变量x与变量y呈负相关 B.变量x与变量y的相关性变强 C.残差平方和变小 D.样本相关系数r变大 【答案】D 【解析】由散点图可知,去掉点D后,与的线性相关加强,且为负相关,所以AB正确, 由于与的线性相关加强,所以残差平方和变小,所以C正确, 由于与的线性相关加强,且为负相关, 所以相关系数的绝对值变大,而相关系数为负的,所以样本相关系数r变小,所以D错误,故选:D. 5.(23-24高二下·贵州·月考)某公司收集了某商品销售收入(万元)与相应的广告支出(万元)共10组数据(),绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法正确的是(    ) A.决定系数变小 B.残差平方和变小 C.相关系数的值变小 D.解释变量与预报变量相关性变弱 【答案】B 【解析】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好, 故决定系数会变大,更接近于1,残差平方和变小, 相关系数的绝对值,即会更接近于1,由图可得与正相关,故会更接近于1, 即相关系数的值变大,解释变量与预报变量相关性变强, 故A、C、D错误,B正确.故选:B. 二.样本中心点的应用 1.(23-24高二下·湖南岳阳·月考)已知变量的部分数据如下表,由表中数据得之间的经验回归方程为,现有一测量数据为,若该数据的残差为1.2,则(    ) 21 23 25 27 15 18 19 20 A.25.6 B.28 C.29.2 D.24.4 【答案】B 【解析】由题意可知,, 将代入,即,解得, 所以, 当时,, 则.故选:B. 2.(23-24高二下·河南濮阳·月考)在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则(   ) A.13.5 B.14 C.14.5 D.15 【答案】A 【解析】因为,剔除异常数据数据后, , 因为点在直线上,所以,解得, 设利用原始数据求得的经验回归直线过点, 则, 因为,所以.故选:A. 3.(23-24高二下·河南·月考)已知一组样本数据如下表所示:经研究发现,x与y之间具有线性相关关系,其回归直线方程为,若成等差数列,则当时,的预测值约为(结果精确到0.01)(   ) x 1 2 3 4 5 6 7 y 2 5 m 9 n 13 16 A.18.86 B.20.13 C.22.10 D.26.02 【答案】A 【解析】因为成等差数列,所以所以 所以所以所以 所以当时,.故选:A. 4.(23-24高二下·河南南阳·期中)具有线性相关关系的变量的样本数据如下: -2 -4 -6 -8 17.4 13 8.2 5 其回归直线方程为,则回归直线经过(    ) A.第一、二、三象限 B.第二、三、四象限 C.第一、二、四象限 D.第一、三、四象限 【答案】A 【解析】由表中的数据知正相关.所以, 又,, 即点在回归直线上,且在第二象限, 所以回归直线经过第一、二、三象限,故选:A 5.(23-24高二下·内蒙古赤峰·期中)(多选)已知由样本数据组成的一个样本,得到回归直线方程为,且,剔除一个偏离直线较大的异常点后,得到新的回归直线经过点.则下列说法正确的是(   ) A.相关变量 x,y具有正相关关系 B.剔除该异常点后,样本相关系数的绝对值变大 C.剔除该异常点后的回归直线方程经过点 D.剔除该异常点后,回归直线的斜率是 【答案】BCD 【解析】由回归直线方程的斜率为,可知相关变量 x,y具有负相关关系,故A错误; 剔除一个偏离直线较大的异常点后,拟合程度变大,故样本相关系数的绝对值变大,B正确; 因为原回归直线方程为,且,则, 剔除异常点后,得到新的回归直线经过点,则得到新的, ,故剔除该异常点后的回归直线方程经过点,C正确; 新的回归方程过点,列出方程,解得, 则新的回归方程为,故D正确;故选:BCD 三.线性回归模型应用 1.(23-24高二下·河北沧州·月考)假期中,来自沿海城市的小明和小强去四川旅游,他们发现自己带的小面包的包装袋鼓了起来.原来随着海拔升高,气压也随之降低,包装袋内的气压大于外面气压,从而使得面包袋鼓了起来.研究发现在一定范围内大气压与海拔高度是近似线性的关系. 海拔高度 10 50 100 500 1000 大气压 101.2 100.6 100.2 94.8 88.2 (1)利用线性回归分析求与之间的线性回归方程;(的值精确到0.001) (2)小明和小强打算去九寨沟,可以利用(1)中的方程,估计九寨沟A景点(海拔2800m)的大气压.(精确到0.01) 附:①对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,. ②参考数据:,. 【答案】(1);(2) 【解析】(1)由表中数据得, , 又, 所以, , 所以经验回归方程. (2)当时,, 所以九寨沟在景点处(海拔)的大气压约为 2.(23-24高二下·安徽·月考)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划、某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额(单位:百万元)对年收入的附加额(单位:百万元)的影响,对往年研发资金投入额和年收入的附加额进行研究,得到相关数据如下: 投入额 2 3 4 5 6 8 9 11 年收入的附加额 3.6 4.1 4.8 5.4 6.2 7.5 7.9 9.1 (1)求证:,; (2)求年收入的附加额与投入额的经验回归方程.若投入额为13百万元,估计年收入的附加额. 参考数据:,,. 参考公式:在经验回归方程中,,. 【答案】(1)证明见解析;(2);百万元 【解析】(1)证明:由 ; 又由 . (2)由统计图表中的数据,可得,, 所以, 又因为,可得, 所以年收入的附加额与投入额的线性回归方程为, 当时,可得百万元. 3.(23-24高二下·贵州黔西·月考)当今社会面临职业选择时,越来越多的青年人选择通过创业、创新的方式实现人生价值.小明是一名刚毕业的大学生,通过直播带货的方式售卖自己家乡的特产,下面是他近5个月的家乡特产收入y(单位:万元)的情况,如表所示. 月份 5 6 7 8 9 时间代号t 1 2 3 4 5 家乡特产收入y 3 2.4 2.2 2 1.8 (1)根据5月至9月的数据,求y与t之间的样本相关系数(精确到0.001),并判断相关性; (2)求出y关于t的经验回归方程(结果中保留两位小数),并预测10月收入能否突破1.5万元,请说明理由. 附:样本相关系数.一组数据其经验回归方程的斜率和截距的最小二乘估计公式分别为,.,,,. 【答案】(1)相关系数为-0.962,y与t具有很强的线性相关关系 (2),不能突破1.5万,理由见解析 【解析】(1)由5月至9月的数据可知, , 因为,,, 所以. 因为样本相关系数的绝对值, 所以认为y与t具有很强的线性相关关系. (2)由题得, 所以, 所以y关于t的经验回归方程为. 当时,, 因为1.44 <1.5,所以10月收入从预测看不能突破1.5万元. 4.(23-24高二下·云南曲靖·月考)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中为年份代号,(单位:万吨)代表新增碳排放量. 年份 2019 2020 2021 2022 2023 年份代号 1 2 3 4 5 新增碳排放万吨 6.1 5.2 4.9 4 3.8 (1)请计算并用相关系数的数值说明与之间的线性相关性的强弱(保留小数点后两位); (2)求关于的线性回归方程,并据此估计该地区23-24年的新增碳排放数量. 参考数据:,,,. 参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,, 【答案】(1),线性相关程度较高; (2),估计该地区23-24年的新增碳排放数量为万吨. 【解析】(1)由题意得, , , , 即得,所以线性相关程度较高. (2), , 所以, 当时,万吨. 所以估计该地区23-24年的新增碳排放数量为万吨. 5.(23-24高三上·江苏苏州·月考)某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高(单位:)与父亲身高(单位:)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表: 父亲身高 160 170 175 185 190 儿子身高 170 174 175 180 186 参考数据及公式:,,,,, (1)根据表中数据,求出y关于x的线性回归方程,并利用回归直线方程分别确定儿子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律? (2)记,,其中为观测值,为预测值,为对应的残差.求(1)中儿子身高的残差的和、并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立加以证明;若不成立说明理由. 【答案】(1),规律见解析;(2)残差和为0;成立,证明见解析 【解析】(1),, ,, 故回归方程为:, 取,解得,即时,儿子比父亲高; 取,解得,即时,儿子比父亲矮; 父亲较高时,儿子平均身高要矮于父亲,父亲较矮时,儿子平均身高要高于父亲, 即儿子身高有一个回归,回归到全种群平均高度的趋势. (2),; ,; ,; ,; ,; 故残差的和为. 对任意具有线性相关关系的变量. 证明如下:. 四.非线性回归分析 1.(23-24·福建宁德·三模)23-24海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为(    ) A.9.6 B.11.0 C.11.3 D.12.0 【答案】B 【解析】设,,则 所以, ,且 则,得, 所以, 下午4点对应的,此时预测游客的人流量.故选:B 2.(23-24高二下·贵州黔西·月考)为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图. 根据收集到的数据,计算得到下表数据,其中. 7.5 2.25 82.50 4.50 12.14 2.88 (1)根据残差图,判断应选择哪个模型;(无需说明理由) (2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1) 【答案】(1)选择模型②;(2);10人 【解析】(1)选择模型②,理由如下: 由于模型②残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄, 所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以选模型②比较合适; (2)根据模型②,令与可用线性回归来拟合,有, 则, 所以, 则关于的经验回归方程为. 所以关于的经验回归方程为, 由题意,,解得,又为整数,所以, 所以,要使年收益增量超过8亿元,研发人员增量至少为10人. 3.(23-24高二下·广东·期中)某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据: 年份 2019 2020 2021 2022 2023 年份代码 1 2 3 4 5 年收入(千元) 59 61 64 68 73 (1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数) (2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由. 参考数据及公式:,.设,则,. 【答案】(1);(2)拟合效果符合要求,理由见解析 【解析】(1)根据农户近5年种植药材的收入情况的统计数据可得: ,, 设,则,所以, 则,. 所以,回归方程为. (2)将值代入可得估计值分别为59,60.8,63.8,68,73.4, 则残差平方和为. 因为,所以回归方程拟合效果符合要求. 4.(23-24高二下·广东江门·月考)广东省深圳市是全国七大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示: 令,数据经过初步处理得: 44 4.8 10 40.3 1.612 19.5 8.06 现有①和②两种方案作为年销售量关于年广告费的回归分析模型,其中,,,均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好?(不能整除的相关系数保留2位小数) (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? 附:①相关系数,回归直线中公式分别为,, ②参考数据:,,,. 【答案】(1)模型②的拟合程度更好;(2),13(百万辆) 【解析】(1)设模型①和②的相关系数分别为,. 由题意可得:, (说明:若化简成,再比较与的大小亦可) 令,则, 则, 所以,由相关系数的相关性质可得,模型②的拟合程度更好; (2)由条件得:, 又由,,得, 所以,即回归方程为, 当时,, 因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆). 5.(23-24高三上·广东广州·月考)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.    73.5 3.85 表中:, (1)根据散点图判断,①与②哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程; (2)已知该茶水温度降至口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感? 附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为, (2)参考数据:,,,, 【答案】(1)②更适宜,;(2)7.5min. 【解析】(1)由散点图知,更适宜的回归方程为②,即. 由,得,两边取自然对数,得, 令,则, , 结合表中数据,得, 结合参考数据可得,由,得, 所以茶水温度y关于时间x的回归方程为. (2)依题意,室温下,茶水温度降至口感最佳, 即,整理得, 于是,解得, 所以在相同条件下,刚泡好的茶水大约需要放置7.5min才能达到最佳引用口感. 五.独立性检验的概念辨析 1.(23-24高二下·江苏·课前预习)假设有两个分类变量与,它们的可能取值分别为和,其列联表为: 10 18 26 则当取下面何值时,与的关系最弱(    ) A.8 B.9 C.14 D.19 【答案】C 【解析】在两个分类变量的列联表中,当的值越小时,认为两个分类变量有关的可能性越小. 令,得,解得, 所以当时,与的关系最弱,故A,B,D错误.故选:C. 2.(23-24高二下·内蒙古赤峰·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用2×2列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过(  ) A.0.1% B.1% C.99% D.99.9% 【答案】B 【解析】因为,结合表格可知, 所以认为“性别与喜欢数学有关”犯错误的概率不超过,故选:B 3.(23-24高二下·全国·专题练习)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( ) α 0.1 0.05 0.010 0.001 xα 2.706 3.841 6.635 10.828 A. B. C. D. 【答案】B 【解析】因为,结合表格可知, 所以认为“性别与喜欢数学有关”犯错误的概率不超过0.010.故选:B. 4.(20-21高二下·全国·课后作业)根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为(    ). A.变量与不独立 B.变量与不独立,这个结论犯错误的概率不超过 C.变量与独立 D.变量与独立,这个结论犯错误的概率不超过 【答案】C 【解析】由表可知当时,, 因为,所以分类变量与相互独立, 因为, 所以分类变量与相互独立,这个结论犯错误的概率不超过,故选:C 5.(22-23高一下·江苏苏州·期末)为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有(    )人 0.10 0.05 0.01 0.005 0.001 2.706 3.841 5.635 7.879 10.828 A.11 B.12 C.13 D.14 【答案】B 【解析】设男性人数为,依题意,得列联表如下: 喜爱足球 不喜爱足球 合计 男性 女性 合计 则的观测值为, 因为本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论, 于是,即,解得,而,因此,故选:B 六.独立性检验综合应用 1.(23-24高二下·广东湛江·月考)2022年北京冬奥会的申办成功与“3亿人上冰雪”口号的提出,将冰雪这个冷项目迅速炒“热”.北京某综合大学计划在一年级开设冰球课程,为了解学生对冰球运动的兴趣,随机从该校一年级学生中抽取了100人进行调查,其中女生中对冰球运动有兴趣的占,而男生共55人,其中有10人表示对冰球运动没有兴趣. (1)试列出列联表,并回答能否有的把握认为“对冰球是否有兴趣与性别有关”? 有兴趣 没兴趣 合计 男 女 合计 (2)已知在被调查的女生中有5名数学系的学生,其中3名对冰球有兴趣,现在从这5名学生中随机抽取3人,求至少有2人对冰球有兴趣的概率. 附表: 0.150 0.100 0.050 0.025 0.010 2.072 2.706 3.841 5.024 6.635 【答案】(1)答案见解析;(2) 【解析】(1)从该校一年级学生中抽取了100人进行调查,其中女生中对冰球运动有兴趣的占, 则女生中对冰球感兴趣的有人, 有兴趣 没兴趣 合计 男 45 10 55 女 30 15 45 合计 75 25 100 因为, 所以有的把握认为“对冰球是否有兴趣与性别有关”. (2)记5人中对冰球有兴趣的3人分别为,对冰球没兴趣的2人为, 则从这5名学生中随机抽取3人,有, ,共10种情况, 其中3人都对冰球有兴趣的情况有,共1种, 有2人对冰球有兴趣的情况有,共6种, 所以至少有2人对冰球有兴趣的情况有7种, 因此,所求事件的概率为. 2.(23-24高二下·福建龙岩·月考)为贯彻落实全国教育大会精神,全面加强和改进新时代学校体育工作,某校开展阳光体育“冬季长跑活动”.为了解学生对“冬季长跑活动”的兴趣度是否与性别有关,某调查小组随机抽取该校100名高中学生进行问卷调查,其中认为感兴趣的人数占80%. (1)根据所给数据,完成下面的列联表,并根据小概率值的独立性检验,分析学生对“冬季长跑活动”的兴趣度与性别是否有关? 感兴趣 不感兴趣 合计 男 12 女 36 合计 100 (2)若不感兴趣的男学生中恰有5名是高三学生,现从不感兴趣的男学生中随机抽取3名进行二次调查,记选出高三男学生的人数为,求的分布列和数学期望. 附:,其中. 0.150 0.100 0.050 0.025 0.010 0.001 2.072 2.706 3.841 5.024 6.635 10.828 【答案】(1)无关;(2)分布列见解析, 【解析】(1)抽取的该校100名高中学生中感兴趣的人数为人, 列联表补充如下: 感兴趣 不感兴趣 合计 男 女 合计 零假设学生对“冬季长跑活动”的兴趣度与性别无关. 则, 根据小概率值的独立性检验,我们没有充分的证据推断不成立, 因此可以认为学生对“冬季长跑活动”的兴趣度与性别无关. (2)所有可能的值为. ,, ,, 的分布列为: 3 的数学期望:. 3.(23-24高二下·江苏泰州·期末)为培养学生的阅读习惯,某学校规定所有学生每天在校阅读时长不得少于1小时.若认为每天在校阅读的时长不少于1小时为达标,达到2小时的学生为“阅读之星”.假设该校学生每天在校阅读时长(的单位:小时),达标学生是“阅读之星”的概率为. (1)从该校学生中随机选出1人,求达标的概率; (2)为进一步了解该校学生不达标是否与性别有关,随机调查了90名学生,其中男生占,已知不达标的人数恰是期望值,且不达标的学生中男生占,是否有99%的把握认为不达标与性别有关? 附:参考公式:,其中. 参考数据: 3.841 5.024 6.635 10.828 0.050 0.025 0.010 0.001 【答案】(1);(2)有99%的把握认为不达标与性别有关. 【解析】(1)从该校学生随机选出1人,记其达标为事件,是“阅读之星”为事件. 则,. 因为,所以. 又因为达标学生是“阅读之星”的概率为, 所以,得, 即从该校学生中随机选出1人,达标的概率为. (2)依题意,随机调查的90名学生中,男生人数为40,女生人数为50. 设这90名学生中,不达标学生人数为. 由(1)知,不达标的概率为,则. 所以数学期望,即不达标的人数为18. 因为不达标学生中有的是男生,所以不达标的男生人数为3,不达标的女生人数为15. 则达标的男生人数为37,达标的女生人数为35,得如下列联表. 男生 女生 合计 达标 37 35 72 不达标 3 15 18 合计 40 50 90 所以. 因为,所以有99%的把握认为不达标与性别有关. 4.(23-24·辽宁·二模)某大型体育赛事首日火炬传递共有106名火炬手参与. (1)组委会从火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格: 性别 年龄 总计 满50周岁 未满50周岁 男 15 45 60 女 5 35 40 总计 20 80 100 根据小概率值的独立性检验,试判断火炬手的性别与年龄满或未满50周岁是否有关联; 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 (2)在所有火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性火炬手喜欢观看足球比赛,某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请问这位火炬手是男性的概率为多少? 【答案】(1)认为全省火炬手的性别与年龄满或未满50周岁没有关联;(2) 【解析】(1)零假设为:全省火炬手的性别与年龄满或未满50周岁没有关联, 根据的列联表中的数据,可得, 所以根据小概率的独立性检验,没有充分证据推断不成立, 所以可以认定为成立,即认为全省火炬手的性别与年龄满或未满50周岁没有关联. (2)设表示火炬手为男性,表示火炬手喜欢足球, 则, 所以这位火炬手时男性的概率约为. 5.(23-24高二下·广西·月考)2023年秋季,支原体肺炎在我国各地流行,该疾病的主要感染群体为青少年和老年人.某市医院传染病科从该市各医院某段时间就医且年龄在70岁以上的老年人中随机抽查了200人,并调查其患病情况,将调查结果整理如下: 有慢性疾病 没有慢性疾病 合计 未感染支原体肺炎 40 80 感染支原体肺炎 40 合计 120 200 (1)完成列联表,并根据小概率值的独立性检验,分析70岁以上老年人感染支原体肺炎与自身慢性疾病是否有关? (2)用样本估计总体,并用本次抽查中样本的频率代替概率,从本市各医院某段时间就医且年龄在70岁以上的老年人中随机抽取3人,设抽取的3人中感染支原体肺炎的人数为X,求X的分布列,数学期望和方差. 附:,. 0.10 0.05 0.025 0.010 0.001 2.706 3.841 5.024 6.635 10.828 【答案】(1)列联表见解析,有关;(2)分布列见解析,. 【解析】(1)列联表,如图所示: 有慢性疾病 没有慢性疾病 合计 未感染支原体肺炎 40 40 80 感染支原体肺炎 80 40 120 合计 120 80 200 假设岁以上老人感染支原体肺炎与自身慢性疾病无关. 则, 根据小概率值的独立性检验,推断不成立, 即认为70岁以上老人感染支原体肺炎与自身慢性疾病有关,此推断犯错误的概率不大于0.05. (2)70岁以上的老年人中随机抽查了200人,感染支原体肺炎的老年人为120人, 则感染支原体肺炎的频率为, 由已知得, , , 所以随机变量的分布列为: 0 1 2 3 所以,. 原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2 学科网(北京)股份有限公司 $$

资源预览图

专题05 一元线性回归模型与独立性检验常考题型归类(考题猜想,6大题型30题专练)-2023-2024学年高二数学下学期期末考点大串讲(人教B版2019选择性必修第二册)
1
专题05 一元线性回归模型与独立性检验常考题型归类(考题猜想,6大题型30题专练)-2023-2024学年高二数学下学期期末考点大串讲(人教B版2019选择性必修第二册)
2
专题05 一元线性回归模型与独立性检验常考题型归类(考题猜想,6大题型30题专练)-2023-2024学年高二数学下学期期末考点大串讲(人教B版2019选择性必修第二册)
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。