内容正文:
专题05 一元线性回归模型与独立性检验
一.相关系数与相关指数
1.(23-24高二下·江西·月考)已知变量x,y线性相关,利用样本数据求得的回归直线方程为,且点都在直线上,则这组样本数据的相关系数( )
A.1 B. C. D.
2.(23-24高二下·河南驻马店·期中)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.模型Ⅰ:相关系数r为 B.模型Ⅱ:相关系数r为0.81
C.模型Ⅲ:相关系数r为 D.模型Ⅳ:相关系数r为0.53
3.(23-24高二下·天津·期中)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论正确的是( )
A.乙组数据的相关系数大于零 B.甲组数据的相关程度比乙强
C.乙组数据的相关系数比甲组的更接近1 D.乙组数据的相关系数比甲小
4.(23-24高二下·辽宁沈阳·月考)已知5个成对数据的散点图如下、若去掉点,则下列说法错误的是( )
A.变量x与变量y呈负相关 B.变量x与变量y的相关性变强
C.残差平方和变小 D.样本相关系数r变大
5.(23-24高二下·贵州·月考)某公司收集了某商品销售收入(万元)与相应的广告支出(万元)共10组数据(),绘制出如下散点图,并利用线性回归模型进行拟合.
若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.残差平方和变小
C.相关系数的值变小 D.解释变量与预报变量相关性变弱
二.样本中心点的应用
1.(23-24高二下·湖南岳阳·月考)已知变量的部分数据如下表,由表中数据得之间的经验回归方程为,现有一测量数据为,若该数据的残差为1.2,则( )
21
23
25
27
15
18
19
20
A.25.6 B.28 C.29.2 D.24.4
2.(23-24高二下·河南濮阳·月考)在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则( )
A.13.5 B.14 C.14.5 D.15
3.(23-24高二下·河南·月考)已知一组样本数据如下表所示:经研究发现,x与y之间具有线性相关关系,其回归直线方程为,若成等差数列,则当时,的预测值约为(结果精确到0.01)( )
x
1
2
3
4
5
6
7
y
2
5
m
9
n
13
16
A.18.86 B.20.13 C.22.10 D.26.02
4.(23-24高二下·河南南阳·期中)具有线性相关关系的变量的样本数据如下:
-2
-4
-6
-8
17.4
13
8.2
5
其回归直线方程为,则回归直线经过( )
A.第一、二、三象限 B.第二、三、四象限
C.第一、二、四象限 D.第一、三、四象限
5.(23-24高二下·内蒙古赤峰·期中)(多选)已知由样本数据组成的一个样本,得到回归直线方程为,且,剔除一个偏离直线较大的异常点后,得到新的回归直线经过点.则下列说法正确的是( )
A.相关变量 x,y具有正相关关系
B.剔除该异常点后,样本相关系数的绝对值变大
C.剔除该异常点后的回归直线方程经过点
D.剔除该异常点后,回归直线的斜率是
三.线性回归模型应用
1.(23-24高二下·河北沧州·月考)假期中,来自沿海城市的小明和小强去四川旅游,他们发现自己带的小面包的包装袋鼓了起来.原来随着海拔升高,气压也随之降低,包装袋内的气压大于外面气压,从而使得面包袋鼓了起来.研究发现在一定范围内大气压与海拔高度是近似线性的关系.
海拔高度
10
50
100
500
1000
大气压
101.2
100.6
100.2
94.8
88.2
(1)利用线性回归分析求与之间的线性回归方程;(的值精确到0.001)
(2)小明和小强打算去九寨沟,可以利用(1)中的方程,估计九寨沟A景点(海拔2800m)的大气压.(精确到0.01)
附:①对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,.
②参考数据:,.
2.(23-24高二下·安徽·月考)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划、某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额(单位:百万元)对年收入的附加额(单位:百万元)的影响,对往年研发资金投入额和年收入的附加额进行研究,得到相关数据如下:
投入额
2
3
4
5
6
8
9
11
年收入的附加额
3.6
4.1
4.8
5.4
6.2
7.5
7.9
9.1
(1)求证:,;
(2)求年收入的附加额与投入额的经验回归方程.若投入额为13百万元,估计年收入的附加额.
参考数据:,,.
参考公式:在经验回归方程中,,.
3.(23-24高二下·贵州黔西·月考)当今社会面临职业选择时,越来越多的青年人选择通过创业、创新的方式实现人生价值.小明是一名刚毕业的大学生,通过直播带货的方式售卖自己家乡的特产,下面是他近5个月的家乡特产收入y(单位:万元)的情况,如表所示.
月份
5
6
7
8
9
时间代号t
1
2
3
4
5
家乡特产收入y
3
2.4
2.2
2
1.8
(1)根据5月至9月的数据,求y与t之间的样本相关系数(精确到0.001),并判断相关性;
(2)求出y关于t的经验回归方程(结果中保留两位小数),并预测10月收入能否突破1.5万元,请说明理由.
附:样本相关系数.一组数据其经验回归方程的斜率和截距的最小二乘估计公式分别为,.,,,.
4.(23-24高二下·云南曲靖·月考)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中为年份代号,(单位:万吨)代表新增碳排放量.
年份
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
新增碳排放万吨
6.1
5.2
4.9
4
3.8
(1)请计算并用相关系数的数值说明与之间的线性相关性的强弱(保留小数点后两位);
(2)求关于的线性回归方程,并据此估计该地区23-24年的新增碳排放数量.
参考数据:,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,
5.(23-24高三上·江苏苏州·月考)某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高(单位:)与父亲身高(单位:)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
父亲身高
160
170
175
185
190
儿子身高
170
174
175
180
186
参考数据及公式:,,,,,
(1)根据表中数据,求出y关于x的线性回归方程,并利用回归直线方程分别确定儿子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?
(2)记,,其中为观测值,为预测值,为对应的残差.求(1)中儿子身高的残差的和、并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立加以证明;若不成立说明理由.
四.非线性回归分析
1.(23-24·福建宁德·三模)23-24海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
2.(23-24高二下·贵州黔西·月考)为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
3.(23-24高二下·广东·期中)某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
年收入(千元)
59
61
64
68
73
(1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数)
(2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由.
参考数据及公式:,.设,则,.
4.(23-24高二下·广东江门·月考)广东省深圳市是全国七大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量关于年广告费的回归分析模型,其中,,,均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(不能整除的相关系数保留2位小数)
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,,
②参考数据:,,,.
5.(23-24高三上·广东广州·月考)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.
73.5
3.85
表中:,
(1)根据散点图判断,①与②哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;
(2)已知该茶水温度降至口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,
五.独立性检验的概念辨析
1.(23-24高二下·江苏·课前预习)假设有两个分类变量与,它们的可能取值分别为和,其列联表为:
10
18
26
则当取下面何值时,与的关系最弱( )
A.8 B.9 C.14 D.19
2.(23-24高二下·内蒙古赤峰·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用2×2列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
A.0.1% B.1% C.99% D.99.9%
3.(23-24高二下·全国·专题练习)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
α
0.1
0.05
0.010
0.001
xα
2.706
3.841
6.635
10.828
A. B. C. D.
4.(20-21高二下·全国·课后作业)根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为( ).
A.变量与不独立
B.变量与不独立,这个结论犯错误的概率不超过
C.变量与独立
D.变量与独立,这个结论犯错误的概率不超过
5.(22-23高一下·江苏苏州·期末)为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有( )人
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.11 B.12 C.13 D.14
六.独立性检验综合应用
1.(23-24高二下·广东湛江·月考)2022年北京冬奥会的申办成功与“3亿人上冰雪”口号的提出,将冰雪这个冷项目迅速炒“热”.北京某综合大学计划在一年级开设冰球课程,为了解学生对冰球运动的兴趣,随机从该校一年级学生中抽取了100人进行调查,其中女生中对冰球运动有兴趣的占,而男生共55人,其中有10人表示对冰球运动没有兴趣.
(1)试列出列联表,并回答能否有的把握认为“对冰球是否有兴趣与性别有关”?
有兴趣
没兴趣
合计
男
女
合计
(2)已知在被调查的女生中有5名数学系的学生,其中3名对冰球有兴趣,现在从这5名学生中随机抽取3人,求至少有2人对冰球有兴趣的概率.
附表:
0.150
0.100
0.050
0.025
0.010
2.072
2.706
3.841
5.024
6.635
2.(23-24高二下·福建龙岩·月考)为贯彻落实全国教育大会精神,全面加强和改进新时代学校体育工作,某校开展阳光体育“冬季长跑活动”.为了解学生对“冬季长跑活动”的兴趣度是否与性别有关,某调查小组随机抽取该校100名高中学生进行问卷调查,其中认为感兴趣的人数占80%.
(1)根据所给数据,完成下面的列联表,并根据小概率值的独立性检验,分析学生对“冬季长跑活动”的兴趣度与性别是否有关?
感兴趣
不感兴趣
合计
男
12
女
36
合计
100
(2)若不感兴趣的男学生中恰有5名是高三学生,现从不感兴趣的男学生中随机抽取3名进行二次调查,记选出高三男学生的人数为,求的分布列和数学期望.
附:,其中.
0.150
0.100
0.050
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
3.(23-24高二下·江苏泰州·期末)为培养学生的阅读习惯,某学校规定所有学生每天在校阅读时长不得少于1小时.若认为每天在校阅读的时长不少于1小时为达标,达到2小时的学生为“阅读之星”.假设该校学生每天在校阅读时长(的单位:小时),达标学生是“阅读之星”的概率为.
(1)从该校学生中随机选出1人,求达标的概率;
(2)为进一步了解该校学生不达标是否与性别有关,随机调查了90名学生,其中男生占,已知不达标的人数恰是期望值,且不达标的学生中男生占,是否有99%的把握认为不达标与性别有关?
附:参考公式:,其中.
参考数据:
3.841
5.024
6.635
10.828
0.050
0.025
0.010
0.001
4.(23-24·辽宁·二模)某大型体育赛事首日火炬传递共有106名火炬手参与.
(1)组委会从火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格:
性别
年龄
总计
满50周岁
未满50周岁
男
15
45
60
女
5
35
40
总计
20
80
100
根据小概率值的独立性检验,试判断火炬手的性别与年龄满或未满50周岁是否有关联;
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
(2)在所有火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性火炬手喜欢观看足球比赛,某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请问这位火炬手是男性的概率为多少?
5.(23-24高二下·广西·月考)2023年秋季,支原体肺炎在我国各地流行,该疾病的主要感染群体为青少年和老年人.某市医院传染病科从该市各医院某段时间就医且年龄在70岁以上的老年人中随机抽查了200人,并调查其患病情况,将调查结果整理如下:
有慢性疾病
没有慢性疾病
合计
未感染支原体肺炎
40
80
感染支原体肺炎
40
合计
120
200
(1)完成列联表,并根据小概率值的独立性检验,分析70岁以上老年人感染支原体肺炎与自身慢性疾病是否有关?
(2)用样本估计总体,并用本次抽查中样本的频率代替概率,从本市各医院某段时间就医且年龄在70岁以上的老年人中随机抽取3人,设抽取的3人中感染支原体肺炎的人数为X,求X的分布列,数学期望和方差.
附:,.
0.10
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2
学科网(北京)股份有限公司
$$
专题05 一元线性回归模型与独立性检验
一.相关系数与相关指数
1.(23-24高二下·江西·月考)已知变量x,y线性相关,利用样本数据求得的回归直线方程为,且点都在直线上,则这组样本数据的相关系数( )
A.1 B. C. D.
【答案】B
【解析】由题意知,点都在直线上,可得,
又由变量负相关,所以.故选:B.
2.(23-24高二下·河南驻马店·期中)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.模型Ⅰ:相关系数r为 B.模型Ⅱ:相关系数r为0.81
C.模型Ⅲ:相关系数r为 D.模型Ⅳ:相关系数r为0.53
【答案】A
【解析】相关系数越大,拟合效果越好.故选:A.
3.(23-24高二下·天津·期中)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论正确的是( )
A.乙组数据的相关系数大于零 B.甲组数据的相关程度比乙强
C.乙组数据的相关系数比甲组的更接近1 D.乙组数据的相关系数比甲小
【答案】D
【解析】由散点图可以看出,甲、乙两组数据都呈线性相关,
且乙组数据呈负相关,相关系数记为,则,
甲组数据呈正相关,相关系数记为,则,
乙图的点相对更加集中在某一条直线附近,
所以其相关性较强,则乙组数据的相关系数更接近,故A、B、C错误,D正确.故选:D.
4.(23-24高二下·辽宁沈阳·月考)已知5个成对数据的散点图如下、若去掉点,则下列说法错误的是( )
A.变量x与变量y呈负相关 B.变量x与变量y的相关性变强
C.残差平方和变小 D.样本相关系数r变大
【答案】D
【解析】由散点图可知,去掉点D后,与的线性相关加强,且为负相关,所以AB正确,
由于与的线性相关加强,所以残差平方和变小,所以C正确,
由于与的线性相关加强,且为负相关,
所以相关系数的绝对值变大,而相关系数为负的,所以样本相关系数r变小,所以D错误,故选:D.
5.(23-24高二下·贵州·月考)某公司收集了某商品销售收入(万元)与相应的广告支出(万元)共10组数据(),绘制出如下散点图,并利用线性回归模型进行拟合.
若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.残差平方和变小
C.相关系数的值变小 D.解释变量与预报变量相关性变弱
【答案】B
【解析】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
故决定系数会变大,更接近于1,残差平方和变小,
相关系数的绝对值,即会更接近于1,由图可得与正相关,故会更接近于1,
即相关系数的值变大,解释变量与预报变量相关性变强,
故A、C、D错误,B正确.故选:B.
二.样本中心点的应用
1.(23-24高二下·湖南岳阳·月考)已知变量的部分数据如下表,由表中数据得之间的经验回归方程为,现有一测量数据为,若该数据的残差为1.2,则( )
21
23
25
27
15
18
19
20
A.25.6 B.28 C.29.2 D.24.4
【答案】B
【解析】由题意可知,,
将代入,即,解得,
所以,
当时,,
则.故选:B.
2.(23-24高二下·河南濮阳·月考)在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则( )
A.13.5 B.14 C.14.5 D.15
【答案】A
【解析】因为,剔除异常数据数据后, ,
因为点在直线上,所以,解得,
设利用原始数据求得的经验回归直线过点,
则,
因为,所以.故选:A.
3.(23-24高二下·河南·月考)已知一组样本数据如下表所示:经研究发现,x与y之间具有线性相关关系,其回归直线方程为,若成等差数列,则当时,的预测值约为(结果精确到0.01)( )
x
1
2
3
4
5
6
7
y
2
5
m
9
n
13
16
A.18.86 B.20.13 C.22.10 D.26.02
【答案】A
【解析】因为成等差数列,所以所以
所以所以所以
所以当时,.故选:A.
4.(23-24高二下·河南南阳·期中)具有线性相关关系的变量的样本数据如下:
-2
-4
-6
-8
17.4
13
8.2
5
其回归直线方程为,则回归直线经过( )
A.第一、二、三象限 B.第二、三、四象限
C.第一、二、四象限 D.第一、三、四象限
【答案】A
【解析】由表中的数据知正相关.所以,
又,,
即点在回归直线上,且在第二象限,
所以回归直线经过第一、二、三象限,故选:A
5.(23-24高二下·内蒙古赤峰·期中)(多选)已知由样本数据组成的一个样本,得到回归直线方程为,且,剔除一个偏离直线较大的异常点后,得到新的回归直线经过点.则下列说法正确的是( )
A.相关变量 x,y具有正相关关系
B.剔除该异常点后,样本相关系数的绝对值变大
C.剔除该异常点后的回归直线方程经过点
D.剔除该异常点后,回归直线的斜率是
【答案】BCD
【解析】由回归直线方程的斜率为,可知相关变量 x,y具有负相关关系,故A错误;
剔除一个偏离直线较大的异常点后,拟合程度变大,故样本相关系数的绝对值变大,B正确;
因为原回归直线方程为,且,则,
剔除异常点后,得到新的回归直线经过点,则得到新的,
,故剔除该异常点后的回归直线方程经过点,C正确;
新的回归方程过点,列出方程,解得,
则新的回归方程为,故D正确;故选:BCD
三.线性回归模型应用
1.(23-24高二下·河北沧州·月考)假期中,来自沿海城市的小明和小强去四川旅游,他们发现自己带的小面包的包装袋鼓了起来.原来随着海拔升高,气压也随之降低,包装袋内的气压大于外面气压,从而使得面包袋鼓了起来.研究发现在一定范围内大气压与海拔高度是近似线性的关系.
海拔高度
10
50
100
500
1000
大气压
101.2
100.6
100.2
94.8
88.2
(1)利用线性回归分析求与之间的线性回归方程;(的值精确到0.001)
(2)小明和小强打算去九寨沟,可以利用(1)中的方程,估计九寨沟A景点(海拔2800m)的大气压.(精确到0.01)
附:①对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,.
②参考数据:,.
【答案】(1);(2)
【解析】(1)由表中数据得,
,
又,
所以,
,
所以经验回归方程.
(2)当时,,
所以九寨沟在景点处(海拔)的大气压约为
2.(23-24高二下·安徽·月考)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划、某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额(单位:百万元)对年收入的附加额(单位:百万元)的影响,对往年研发资金投入额和年收入的附加额进行研究,得到相关数据如下:
投入额
2
3
4
5
6
8
9
11
年收入的附加额
3.6
4.1
4.8
5.4
6.2
7.5
7.9
9.1
(1)求证:,;
(2)求年收入的附加额与投入额的经验回归方程.若投入额为13百万元,估计年收入的附加额.
参考数据:,,.
参考公式:在经验回归方程中,,.
【答案】(1)证明见解析;(2);百万元
【解析】(1)证明:由
;
又由
.
(2)由统计图表中的数据,可得,,
所以,
又因为,可得,
所以年收入的附加额与投入额的线性回归方程为,
当时,可得百万元.
3.(23-24高二下·贵州黔西·月考)当今社会面临职业选择时,越来越多的青年人选择通过创业、创新的方式实现人生价值.小明是一名刚毕业的大学生,通过直播带货的方式售卖自己家乡的特产,下面是他近5个月的家乡特产收入y(单位:万元)的情况,如表所示.
月份
5
6
7
8
9
时间代号t
1
2
3
4
5
家乡特产收入y
3
2.4
2.2
2
1.8
(1)根据5月至9月的数据,求y与t之间的样本相关系数(精确到0.001),并判断相关性;
(2)求出y关于t的经验回归方程(结果中保留两位小数),并预测10月收入能否突破1.5万元,请说明理由.
附:样本相关系数.一组数据其经验回归方程的斜率和截距的最小二乘估计公式分别为,.,,,.
【答案】(1)相关系数为-0.962,y与t具有很强的线性相关关系
(2),不能突破1.5万,理由见解析
【解析】(1)由5月至9月的数据可知,
,
因为,,,
所以.
因为样本相关系数的绝对值,
所以认为y与t具有很强的线性相关关系.
(2)由题得,
所以,
所以y关于t的经验回归方程为.
当时,,
因为1.44 <1.5,所以10月收入从预测看不能突破1.5万元.
4.(23-24高二下·云南曲靖·月考)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中为年份代号,(单位:万吨)代表新增碳排放量.
年份
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
新增碳排放万吨
6.1
5.2
4.9
4
3.8
(1)请计算并用相关系数的数值说明与之间的线性相关性的强弱(保留小数点后两位);
(2)求关于的线性回归方程,并据此估计该地区23-24年的新增碳排放数量.
参考数据:,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,
【答案】(1),线性相关程度较高;
(2),估计该地区23-24年的新增碳排放数量为万吨.
【解析】(1)由题意得,
,
,
,
即得,所以线性相关程度较高.
(2),
,
所以,
当时,万吨.
所以估计该地区23-24年的新增碳排放数量为万吨.
5.(23-24高三上·江苏苏州·月考)某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高(单位:)与父亲身高(单位:)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
父亲身高
160
170
175
185
190
儿子身高
170
174
175
180
186
参考数据及公式:,,,,,
(1)根据表中数据,求出y关于x的线性回归方程,并利用回归直线方程分别确定儿子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?
(2)记,,其中为观测值,为预测值,为对应的残差.求(1)中儿子身高的残差的和、并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立加以证明;若不成立说明理由.
【答案】(1),规律见解析;(2)残差和为0;成立,证明见解析
【解析】(1),,
,,
故回归方程为:,
取,解得,即时,儿子比父亲高;
取,解得,即时,儿子比父亲矮;
父亲较高时,儿子平均身高要矮于父亲,父亲较矮时,儿子平均身高要高于父亲,
即儿子身高有一个回归,回归到全种群平均高度的趋势.
(2),;
,;
,;
,;
,;
故残差的和为.
对任意具有线性相关关系的变量.
证明如下:.
四.非线性回归分析
1.(23-24·福建宁德·三模)23-24海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【答案】B
【解析】设,,则
所以,
,且
则,得,
所以,
下午4点对应的,此时预测游客的人流量.故选:B
2.(23-24高二下·贵州黔西·月考)为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
【答案】(1)选择模型②;(2);10人
【解析】(1)选择模型②,理由如下:
由于模型②残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以选模型②比较合适;
(2)根据模型②,令与可用线性回归来拟合,有,
则,
所以,
则关于的经验回归方程为.
所以关于的经验回归方程为,
由题意,,解得,又为整数,所以,
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
3.(23-24高二下·广东·期中)某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
年收入(千元)
59
61
64
68
73
(1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数)
(2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由.
参考数据及公式:,.设,则,.
【答案】(1);(2)拟合效果符合要求,理由见解析
【解析】(1)根据农户近5年种植药材的收入情况的统计数据可得:
,,
设,则,所以,
则,.
所以,回归方程为.
(2)将值代入可得估计值分别为59,60.8,63.8,68,73.4,
则残差平方和为.
因为,所以回归方程拟合效果符合要求.
4.(23-24高二下·广东江门·月考)广东省深圳市是全国七大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量关于年广告费的回归分析模型,其中,,,均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(不能整除的相关系数保留2位小数)
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,,
②参考数据:,,,.
【答案】(1)模型②的拟合程度更好;(2),13(百万辆)
【解析】(1)设模型①和②的相关系数分别为,.
由题意可得:,
(说明:若化简成,再比较与的大小亦可)
令,则,
则,
所以,由相关系数的相关性质可得,模型②的拟合程度更好;
(2)由条件得:,
又由,,得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
5.(23-24高三上·广东广州·月考)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.
73.5
3.85
表中:,
(1)根据散点图判断,①与②哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;
(2)已知该茶水温度降至口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,
【答案】(1)②更适宜,;(2)7.5min.
【解析】(1)由散点图知,更适宜的回归方程为②,即.
由,得,两边取自然对数,得,
令,则,
,
结合表中数据,得,
结合参考数据可得,由,得,
所以茶水温度y关于时间x的回归方程为.
(2)依题意,室温下,茶水温度降至口感最佳,
即,整理得,
于是,解得,
所以在相同条件下,刚泡好的茶水大约需要放置7.5min才能达到最佳引用口感.
五.独立性检验的概念辨析
1.(23-24高二下·江苏·课前预习)假设有两个分类变量与,它们的可能取值分别为和,其列联表为:
10
18
26
则当取下面何值时,与的关系最弱( )
A.8 B.9
C.14 D.19
【答案】C
【解析】在两个分类变量的列联表中,当的值越小时,认为两个分类变量有关的可能性越小.
令,得,解得,
所以当时,与的关系最弱,故A,B,D错误.故选:C.
2.(23-24高二下·内蒙古赤峰·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用2×2列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
A.0.1% B.1% C.99% D.99.9%
【答案】B
【解析】因为,结合表格可知,
所以认为“性别与喜欢数学有关”犯错误的概率不超过,故选:B
3.(23-24高二下·全国·专题练习)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
α
0.1
0.05
0.010
0.001
xα
2.706
3.841
6.635
10.828
A. B. C. D.
【答案】B
【解析】因为,结合表格可知,
所以认为“性别与喜欢数学有关”犯错误的概率不超过0.010.故选:B.
4.(20-21高二下·全国·课后作业)根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为( ).
A.变量与不独立
B.变量与不独立,这个结论犯错误的概率不超过
C.变量与独立
D.变量与独立,这个结论犯错误的概率不超过
【答案】C
【解析】由表可知当时,,
因为,所以分类变量与相互独立,
因为,
所以分类变量与相互独立,这个结论犯错误的概率不超过,故选:C
5.(22-23高一下·江苏苏州·期末)为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有( )人
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.11 B.12 C.13 D.14
【答案】B
【解析】设男性人数为,依题意,得列联表如下:
喜爱足球
不喜爱足球
合计
男性
女性
合计
则的观测值为,
因为本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,
于是,即,解得,而,因此,故选:B
六.独立性检验综合应用
1.(23-24高二下·广东湛江·月考)2022年北京冬奥会的申办成功与“3亿人上冰雪”口号的提出,将冰雪这个冷项目迅速炒“热”.北京某综合大学计划在一年级开设冰球课程,为了解学生对冰球运动的兴趣,随机从该校一年级学生中抽取了100人进行调查,其中女生中对冰球运动有兴趣的占,而男生共55人,其中有10人表示对冰球运动没有兴趣.
(1)试列出列联表,并回答能否有的把握认为“对冰球是否有兴趣与性别有关”?
有兴趣
没兴趣
合计
男
女
合计
(2)已知在被调查的女生中有5名数学系的学生,其中3名对冰球有兴趣,现在从这5名学生中随机抽取3人,求至少有2人对冰球有兴趣的概率.
附表:
0.150
0.100
0.050
0.025
0.010
2.072
2.706
3.841
5.024
6.635
【答案】(1)答案见解析;(2)
【解析】(1)从该校一年级学生中抽取了100人进行调查,其中女生中对冰球运动有兴趣的占,
则女生中对冰球感兴趣的有人,
有兴趣
没兴趣
合计
男
45
10
55
女
30
15
45
合计
75
25
100
因为,
所以有的把握认为“对冰球是否有兴趣与性别有关”.
(2)记5人中对冰球有兴趣的3人分别为,对冰球没兴趣的2人为,
则从这5名学生中随机抽取3人,有,
,共10种情况,
其中3人都对冰球有兴趣的情况有,共1种,
有2人对冰球有兴趣的情况有,共6种,
所以至少有2人对冰球有兴趣的情况有7种,
因此,所求事件的概率为.
2.(23-24高二下·福建龙岩·月考)为贯彻落实全国教育大会精神,全面加强和改进新时代学校体育工作,某校开展阳光体育“冬季长跑活动”.为了解学生对“冬季长跑活动”的兴趣度是否与性别有关,某调查小组随机抽取该校100名高中学生进行问卷调查,其中认为感兴趣的人数占80%.
(1)根据所给数据,完成下面的列联表,并根据小概率值的独立性检验,分析学生对“冬季长跑活动”的兴趣度与性别是否有关?
感兴趣
不感兴趣
合计
男
12
女
36
合计
100
(2)若不感兴趣的男学生中恰有5名是高三学生,现从不感兴趣的男学生中随机抽取3名进行二次调查,记选出高三男学生的人数为,求的分布列和数学期望.
附:,其中.
0.150
0.100
0.050
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
【答案】(1)无关;(2)分布列见解析,
【解析】(1)抽取的该校100名高中学生中感兴趣的人数为人,
列联表补充如下:
感兴趣
不感兴趣
合计
男
女
合计
零假设学生对“冬季长跑活动”的兴趣度与性别无关.
则,
根据小概率值的独立性检验,我们没有充分的证据推断不成立,
因此可以认为学生对“冬季长跑活动”的兴趣度与性别无关.
(2)所有可能的值为.
,,
,,
的分布列为:
3
的数学期望:.
3.(23-24高二下·江苏泰州·期末)为培养学生的阅读习惯,某学校规定所有学生每天在校阅读时长不得少于1小时.若认为每天在校阅读的时长不少于1小时为达标,达到2小时的学生为“阅读之星”.假设该校学生每天在校阅读时长(的单位:小时),达标学生是“阅读之星”的概率为.
(1)从该校学生中随机选出1人,求达标的概率;
(2)为进一步了解该校学生不达标是否与性别有关,随机调查了90名学生,其中男生占,已知不达标的人数恰是期望值,且不达标的学生中男生占,是否有99%的把握认为不达标与性别有关?
附:参考公式:,其中.
参考数据:
3.841
5.024
6.635
10.828
0.050
0.025
0.010
0.001
【答案】(1);(2)有99%的把握认为不达标与性别有关.
【解析】(1)从该校学生随机选出1人,记其达标为事件,是“阅读之星”为事件.
则,.
因为,所以.
又因为达标学生是“阅读之星”的概率为,
所以,得,
即从该校学生中随机选出1人,达标的概率为.
(2)依题意,随机调查的90名学生中,男生人数为40,女生人数为50.
设这90名学生中,不达标学生人数为.
由(1)知,不达标的概率为,则.
所以数学期望,即不达标的人数为18.
因为不达标学生中有的是男生,所以不达标的男生人数为3,不达标的女生人数为15.
则达标的男生人数为37,达标的女生人数为35,得如下列联表.
男生
女生
合计
达标
37
35
72
不达标
3
15
18
合计
40
50
90
所以.
因为,所以有99%的把握认为不达标与性别有关.
4.(23-24·辽宁·二模)某大型体育赛事首日火炬传递共有106名火炬手参与.
(1)组委会从火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格:
性别
年龄
总计
满50周岁
未满50周岁
男
15
45
60
女
5
35
40
总计
20
80
100
根据小概率值的独立性检验,试判断火炬手的性别与年龄满或未满50周岁是否有关联;
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
(2)在所有火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性火炬手喜欢观看足球比赛,某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请问这位火炬手是男性的概率为多少?
【答案】(1)认为全省火炬手的性别与年龄满或未满50周岁没有关联;(2)
【解析】(1)零假设为:全省火炬手的性别与年龄满或未满50周岁没有关联,
根据的列联表中的数据,可得,
所以根据小概率的独立性检验,没有充分证据推断不成立,
所以可以认定为成立,即认为全省火炬手的性别与年龄满或未满50周岁没有关联.
(2)设表示火炬手为男性,表示火炬手喜欢足球,
则,
所以这位火炬手时男性的概率约为.
5.(23-24高二下·广西·月考)2023年秋季,支原体肺炎在我国各地流行,该疾病的主要感染群体为青少年和老年人.某市医院传染病科从该市各医院某段时间就医且年龄在70岁以上的老年人中随机抽查了200人,并调查其患病情况,将调查结果整理如下:
有慢性疾病
没有慢性疾病
合计
未感染支原体肺炎
40
80
感染支原体肺炎
40
合计
120
200
(1)完成列联表,并根据小概率值的独立性检验,分析70岁以上老年人感染支原体肺炎与自身慢性疾病是否有关?
(2)用样本估计总体,并用本次抽查中样本的频率代替概率,从本市各医院某段时间就医且年龄在70岁以上的老年人中随机抽取3人,设抽取的3人中感染支原体肺炎的人数为X,求X的分布列,数学期望和方差.
附:,.
0.10
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)列联表见解析,有关;(2)分布列见解析,.
【解析】(1)列联表,如图所示:
有慢性疾病
没有慢性疾病
合计
未感染支原体肺炎
40
40
80
感染支原体肺炎
80
40
120
合计
120
80
200
假设岁以上老人感染支原体肺炎与自身慢性疾病无关.
则,
根据小概率值的独立性检验,推断不成立,
即认为70岁以上老人感染支原体肺炎与自身慢性疾病有关,此推断犯错误的概率不大于0.05.
(2)70岁以上的老年人中随机抽查了200人,感染支原体肺炎的老年人为120人,
则感染支原体肺炎的频率为,
由已知得,
,
,
所以随机变量的分布列为:
0
1
2
3
所以,.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司2
学科网(北京)股份有限公司
$$