内容正文:
专练04 成对数据的统计分析必刷题型(4大题型24题)
题型1
独立性检验
一、单选题
1.(2024·宁夏银川·一模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
合计
附:
P(K2≥k0)
0.05
0.025
0.010
0.005
k0
3.841
5.024
6.635
7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
【答案】C
【分析】根据题中条件计算可判断选项A、B;根据列联表计算出的值,即可判断选项C,D.
【详解】由题意知,成绩优秀的学生数是,
成绩非优秀的学生数是75,所以,
选项A、B错误;
根据列联表中的数据,
得到
因此有97.5%的把握认为“成绩与班级有关系”.
故C正确,D错误,
故选:C.
2.(23-24高二下·湖北武汉·阶段练习)某校团委对“学生性别和喜欢某视频是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢该视频的人数占男生人数的,女生喜欢该视频的人数占女生人数的,若依据小概率值的独立性检验,认为喜欢该视频和性别有关,则男生至少有( )
附:
0.050
0.010
3.841
6.635
.
A.12人 B.6人 C.10人 D.18人
【答案】A
【分析】设男生人数为,依题意可得列联表;根据表格中的数据,代入求观测值的公式,列不等式即可解出结论.
【详解】解:设被调查的男生人数为,则被调查的女生人数为,则列联表为
性别
付某视频的态度
合
喜欢
不喜欢
计
男生
女生
合计
根据小概率值的独立性检验,
认为喜欢某视频和性别有关,则,
即,
则,
又均为整数,
所以男生至少有12人.
故选:A.
二、解答题
3.(2025·甘肃白银·二模)某公司组织户外拓展活动,为探究员工参与该活动的积极性与员工的性别是否有关,对公司员工进行了简单随机抽样,得到如下列联表:
参与户外拓展活动的积极性
性别
合计
女
男
积极参与
75
e
h
不积极参与
m
f
35
合计
100
g
200
(1)求m,e,f,g,h;
(2)在公司员工中任选1人,记事件A为“选到的员工是男性”,事件B为“选到的员工积极参与户外拓展活动”,估计的值;
(3)根据小概率值的独立性检验,能否认为是否积极参与户外拓展活动与性别有关?
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1),,,,.
(2)
(3)有关联
【分析】(1)完善列联表;
(2)根据条件概率的公式即可求解;
(3)先计算,再结合独立性检验的原理即可求解.
【详解】(1)由列联表得,,,
,.
(2)通过样本频率估计总体概率,从200员工中任选1人,,且
,测估计.
(3)零假设为:积极参与户外拓展活动与性别无关.
根据列联表中的数据,可得,
根据小概率值的独立性检验,推断不成立,
即认为是否积极参与户外拓展活动与性别有关联,此推断犯错误的概率不大于.
4.(24-25高二下·江苏无锡·期中)甲、乙两家公司到某大学进行招聘,通过对毕业生进行笔试、面试、模拟演练这三项程序后直接签约一批毕业生.已知三项程序分别由三个部门独立依次考核,且互不影响,当三项程序全部通过即可签约.假设该大学100名毕业生参加甲公司招聘的具体情况如下表(不存在通过三项程序考核后放弃签约的现象).
性别
参加考核但未能签约的人数
参加考核并能签约的人数
合计
男生
20
女生
50
合计
30
100
该校的小张准备参加两家公司的招聘,小张通过甲公司的每项程序的概率均为,通过乙公司的每项程序的概率依次为,,,其中.
(1)完成列联表,根据小概率值的独立性检验,判断这100名毕业生参加甲公司的招聘能否签约与性别是否有关;
(2)若小张通过甲、乙两公司程序的项数分别记为,.当时,求小张参加乙公司招聘并能成功签约的概率.
附:,其中.
0.100
0.050
0.025
0.001
2.706
3.841
5.024
10.828
【答案】(1)列联表见解析,能否签约与性别有关
(2)
【分析】(1)完善列联表,计算出卡方,即可判断;
(2)依题意,即可求出,再由的可能取值为0,1,2,3,求出相应的概率,即可求出,通过即可求出的值,从而求出结果.
【详解】(1)依题意可得列联表如下
性别
参加考核但未能签约的人数
参加考核并能签约的人数
合计
男生
20
20
40
女生
50
10
60
合计
70
30
100
所以,
所以根据小概率值的独立性检验,这100名毕业生参加甲公司的招聘能否签约与性别有关;
(2)因为小张通过甲公司各程序的结果相互不影响,
所以,则,
依题意的可能取值为0,1,2,3.
所以,
,
,
,
所以随机变量Y的分布列:
0
1
2
3
所以,
因为,所以,即,
所以小张参加乙公司招聘并能成功签约的概率.
5.(2025·陕西咸阳·二模)“两岸同心跑,共绘未来圆”2024马尾区全面健身“两马”主题跑暨第十六届“两马”体育联赛于2024年5月17日在琅岐红光湖公园举行.为了解市民对“两马运动”的了解程度与性别是否有关,某调查组对该区市民进行了一次“两马运动”健康知识问卷调查,通过随机抽样,得到参加问卷调查的600人的得分(满分100)数据,统计结果如表所示.
得分
男性人数
10
15
65
75
115
50
20
女性人数
10
30
70
65
35
30
10
(1)把市民分为对“两马运动”健康知识“比较了解”(不低于60分的)和“不太了解”(低于60分的)两类,请作出列联表,并判断是否有的把握认为该市民对“两马运动”健康知识了解程度与性别有关?
(2)将频率视为概率,用样本估计总体.若从该地区所有市民中,采取随机抽样的方法每次抽取1名市民分析,连续抽取4次,且各次抽取的结果相互独立,记被抽取到的4名市民中,“比较了解”的人数为,求出的分布列,并求数学期望和方差.
附表及公式;
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
其中,.
【答案】(1)列联表见解析,有
(2)分布列见解析,数学期望为,方差为
【分析】(1)根据题意,列出列联表,利用公式求得的值,结合附表,即可得到答案;
(2)根据题意,抽查结果为“比较了解”的概率为,变量的可能取值为,且,利用独立重复试验的概率公式,求得相应的概率,列出分布列,结合二项分布的期望和方差的公式,即可求解.
【详解】(1)解:由题意,可得列联表如下:
不太了解
比较了解
合计
男性
90
260
350
女性
110
140
250
合计
200
400
600
依题意,,
故有的把握认为市民对“两马运动”健康知识了解程度与性别有关系.
(2)解:由题意,抽查结果为“比较了解”的概率为,
随机变量的所有可能取值为,且,
可得,,
,,
,
可得随机变量的分布列为:
0
1
2
3
4
所以,.
题型2
线性回归方程
一、单选题
1.(23-24高二上·江西鹰潭·期末)关于的一组样本数据的散点图中,所有样本点均在直线上,则这组样本数据的样本相关系数为( )
A.-2 B.-1 C.1 D.2
【答案】B
【分析】由题意得回归直线方程是,由此即可得解.
【详解】因为所有样本点都在直线上,所以回归直线方程是,
可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,
且所有样本点都在直线上,则有相关系数.
故选:B.
2.(2025高二下·全国·专题练习)由一组样本数据,利用最小二乘法得到两个变量的回归直线方程为,记,,则下面说法不正确的是( )
A.直线至少经过点中的一个点
B.直线必经过点
C.样本相关系数与回归系数同号
D.对样本相关系数,越大,两个变量之间的线性相关性越强
【答案】A
【分析】根据回归直线性质、相关系数、回归系数的概念逐项分析可得答案.
【详解】回归直线是由点拟合而成的,可能不过任何一个样本点,但必过数据的中心点,A错误,B正确.
样本相关系数为正时,两个变量为正相关,回归系数为正;样本相关系数为负时,两个变量为负相关,回归系数为负.
故样本相关系数与回归系数同号,C正确.
样本相关系数,越大,两个变量之间的线性相关性越强,D正确.
故选:A.
3.(2025·江西九江·二模)植物的根是吸收水分和矿物养分的主要器官.已知在一定范围内,小麦对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽小麦实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:)与氮元素吸收量(单位:天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及线性回归方程为,则( )
A.
B.变量与的相关系数
C.在一定范围内,小麦的根长度每增加,它一天的氮元素吸收量平均增加
D.若对小麦的根长度与钾元素吸收量的相关数据进行统计,则对应回归方程不变
【答案】C
【分析】根据样本中心在方程上可求解A,进而可判断B,根据回归方程的含义即可求解CD.
【详解】由线性回归方程过样本中心点知,,故A错误;
小麦对氮元素的吸收量与它的根长度具有正相关关系,故相关系数,故B错误;
由线性回归方程可得,在一定范围内,小麦的根长度每增加,它一天的氮元素吸收量平均增加,故C正确;
若研究小麦的根长度与钾元素吸收量的相关关系,回归方程可能发生改变,故D错误.
故选:C.
二、解答题
4.(24-25高二下·河南南阳·期中)某人工智能公司从2018至2024年的利润情况如下表所示:
年份
2018
2019
2020
2021
2022
2024
2024
年份代码x
1
2
3
4
5
6
7
利润y(单位:亿元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)根据表中的数据,推断变量y与x之间是否线性相关.计算y与x之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出y关于x的经验回归方程,并预测该人工智能公司2025年的利润;
参考数据:
参考公式:对于一组数据,①相关系数为:;
②经验回归直线x的斜率和截距的最小二乘估计公式分别,
【答案】(1)y与x线性相关,,相关程度很强
(2),6.3亿元
【分析】(1)用题目给的、、的值代入算 r ,再依据 r 的值和正负判断变量关系.
(2)把已知的和的值代入计算,得到涉及的系数,进而得到方程.再 把给定 x 值代入回归方程算出 y 值.
【详解】(1)由题设,易知y与x线性相关,且,
,
由于,可以推断变量y与x成正线性相关且相关程度很强.
(2)由题设,,,
所以,因此y关于x的回归方程为,
当时,,即预测该人工智能公司2025的利润为6.3亿元.
5.(24-25高二下·河南南阳·期中)某健身俱乐部为了研究会员每周锻炼时间(单位:)与体重减少量(单位:)的关系,随机选取了5名会员进行跟踪调查,得到以下数据:
(1)求每周锻炼时间与体重减少量的样本相关系数;(保留两位小数)
(2)求体重减少量关于每周锻炼时间的线性回归方程,并估计当某会员每周锻炼时间为时的体重减少量.
参考公式:相关系数;在线性回归方程中,.
【答案】(1)
(2),.
【分析】(1)根据相关系数的公式求解;
(2)根据题意,由最小二乘法公式代入计算,分别求得,然后代入计算,即可得到结果.
【详解】(1)由题,,,
,
,
,
所以相关系数.
(2)由(1),可得,,
所以体重减少量关于每周锻炼时间的线性回归方程为,
当时,.
估计当某会员每周锻炼时间为时的体重减少量为.
6.(23-24高二下·黑龙江大庆·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.
①在学生甲获得奖学金的条件下,求他获得一等奖学金的概率;
②已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额的分布列及数学期望.
【答案】(1),186元.
(2)①;②分布列见解析,600元
【分析】(1)由题干所给数据及公式求出,,即可得到回归直线方程,再令计算可得;
(2)①根据条件概率公式计算可得;②依题意的取值可能为,求出所对应的概率,即可求出分布列与数学期望.
【详解】(1)依题意可得,
,
,
当时,(元),
即某天售出8箱水的预计收益是186元.
(2)①设事件为“学生甲获得奖学金”,事件为“学生甲获得一等奖学金”,
则,,
所以,
即学生甲获得奖学金的条件下,获得一等奖学金的概率为.
②依题意的取值可能为,
所以,
,
,
即的分布列为
0
300
500
600
800
1000
则的数学期望
(元).
题型3
非线性回归方程
一、单选题
1.(23-24高二下·河南商丘·期末)某科技公司随着技术的进步和管理的逐渐规范,生产成本逐年降低,该公司对2011年至2024年的生产成本(万元)进行统计,根据统计数据作出如下散点图:
由此散点图,判断下列四个经验回归方程类型中最适合作为2011年至2024年该公司的生产成本与时间变量的经验回归方程类型的是( )
A. B.
C. D.
【答案】C
【分析】本题根据2011年至2024年的生产成本(万元)的统计的散点图,进行拟合函数选择选项
【详解】根据图中散点图可知,散点大致分布在一条“对数型”函数曲线的周围,
而对于A选项是“抛物线型”的拟合函数,且是增加的;
B选项是“直线型”的拟合函数,且是增加的;
D选项是“幂函数型”的拟合函数,且是增加的,
只有C选项的拟合函数符合题意.
故选:C
2.(24-25高二下·黑龙江哈尔滨·阶段练习)已知蝗虫的产卵量y与温度x的关系可以用模型拟合,设,其变换后得到一组数据:
x
20
23
25
27
30
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则( )
A. B. C. D.3
【答案】A
【分析】利用回归直线过点,结合题意可得答案.
【详解】,由题可得
注意到回归直线过点,
由题可得,
则.
故选:A
二、解答题
3.(23-24高二下·重庆·期末)随着移动互联网技术的发展,直播带货已经成为热门的销售方式,通过主播的详细介绍,使顾客对商品有更全面的了解.小张统计了某新手主播开启直播带货后从1月份到5月份每个月的销售量(万件)的数据,得到如图所示的散点图.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程?(给出判断即可,不必说明理由),并求出关于的回归方程(计算结果精确到0.01);
(2)随机调查了220名市民对直播带货的认可程度,得到的部分数据见下表:
认可
不认可
50岁以下市民
70
50
50岁以上市民
40
60
依据小概率值的独立性检验,分析市民对直播带货认可程度是否与年龄有关联.
参考公式与数据:,, ,,,其中.,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)模型②更适宜,
(2)认为市民对直播带货认可程度与年龄有关联
【分析】(1)由散点图接近于曲线,选择模型②,令,将非线性转化为线性,利用最小二乘法得出关于的回归方程;
(2)先假设市民对直播带货认可程度与年龄无关联,再计算卡方,进行独立性检验即可.
【详解】(1)由散点图可知增加幅度不一致,且散点图接近于曲线,非线性,
结合图象故选模型②
令得
可得,
,
则,
,
所以关于的回归方程为,
即关于的回归方程 ;
(2)零假设:市民对直播带货认可程度与年龄无关联;
因为,
依据小概率值的独立性检验,推断不成立,
所以认为市民对直播带货认可程度与年龄有关联.
4.(24-25高二上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
【分析】(1)分别求出两种模型的相关系数,再根据相关系数的几何意义即可得出结论;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解.
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好;
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
5.(2024·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)适宜作为与之间的回归方程模型,
(2)答案见解析,.
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
题型4
残差与决定系数的计算
一、单选题
1.(23-24高二下·山东青岛·期中)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图. 对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
【答案】D
【分析】根据一元线性回归模型中对随机误差的假定进行判断.
【详解】根据一元线性回归模型中对随机误差的假定,残差应是均值为、方差为的随机变量的观测值.
对于A选项,残差与有线性关系,故A错误;
对于B选项,残差的方差不是一个常数,随着观测时间变大而变小,故B错;
对于C选项,残差与有非线性关系,故C错;
对于D选项,残差比较均匀地分布在以取值为的横轴为对称轴的水平带状区域内,故D正确.
故选:D.
2.(24-25高二下·江苏徐州·阶段练习)已知变量x和变量y的一组成对样本数据(,2,3,…,18),其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
【答案】B
【分析】先计算新数据的平均值,然后计算新数据的回归方程,进而根据残差定义计算.
【详解】因为过点,将代入得.
增加两个样本点后x的平均数为,,.
所以新的经验回归方程为,当时,.
所以样本的残差是,解得.
故选:B.
3.(24-25高二下·广东梅州·阶段练习)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
【答案】D
【分析】根据给定条件,利用决定系数大小关系排除AB;再利用数表中数据求出斜率判断CD.
【详解】由用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,
得,则指数型回归模型最适宜拟合y与x关系,排除AB;
设y与x之间关系的函数为,两边取对数得,设,则,
因此,,
即,,C错误,D正确.
故选:D
二、解答题
4.(2024·广东汕头·二模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据如下:
行驶里程/万km
0.00
0.64
1.29
1.93
2.57
3.22
3.86
4.51
5.15
轮胎凹槽深度/mm
10.02
8.37
7.39
6.48
5.82
5.20
4.55
4.16
3.82
以行驶里程为横坐标、轮胎凹槽深度为纵坐标作散点图,如图所示.
(1)根据散点图,可认为散点集中在直线附近,由此判断行驶里程与轮胎凹槽深度线性相关,并计算得如下数据,请求出行驶里程与轮胎凹槽深度的相关系数(保留两位有效数字),并推断它们线性相关程度的强弱;
2.57
6.20
115.10
29.46
附:相关系数
(2)通过散点图,也可认为散点集中在曲线附近,考虑使用对数回归模型,并求得经验回归方程及该模型的决定系数.已知(1)中的线性回归模型为,在同一坐标系作出这两个模型,据图直观回答:哪个模型的拟合效果更好?并用决定系数验证你的观察所得.
附:线性回归模型中,决定系数等于相关系数的平方,即.
【答案】(1),相关性较强
(2)答案见解析
【分析】(1)直接根据相关系数的计算公式求得,从而可判断相关性较强;
(2)由图像可直观判断,再求出线性回归模型的决定系数,从而可判断对数回归模型的拟合度更高.
【详解】(1)由题意,,
∵,∴,
∴行驶里程与轮胎凹楳深度成负相关,且相关性较强.
(2)由图像可知,车胎凹槽深度与对数回归预报值残差、偏离更小,拟合度更高,线性回归预报值偏美较大.
由题(1)得线性回归模型的相关系数,
决定系数,
由题意,对数回归模型的决定系数,
∵,∴对数回归模型的拟合度更高.
5.(23-24高二下·河南信阳·期末)某互联网公司为了确定下季度的前期广告投人计划,收集了近6个月广告投入量(单位:万元)和收益(单位:万元)的数据如表:
月份
1
2
3
4
5
6
广告投入量
2
4
6
8
10
12
收益
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①,②分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.
7
30
1464.24
364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型拟合?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.
(i)剔除异常数据后求出(1)中所选模型的回归方程;
(ii)若广告投入量时,(1)中所选模型收益的预报值是多少?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:
【答案】(1)选择模型①,理由见解析
(2)(i);(ii)62.04万元
【分析】(1)根据残差图的分布比较可得结论;
(2)(i)求出剔除异常数据后的平均数,即可求得和,即得回归方程;(ii)将代入回归直线方程,即可得答案.
【详解】(1)选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,
且模型①的带状区域比模型②的带状区域窄,
所以模型①的拟合精度高,回归方程的预报精度高.
(2)(i)剔除异常数据,即组号为3的数据,剩下数据的平均数为;
,
.
.
∴所选模型的回归方程为;
(ⅱ)若广告投入量时,该模型收益的预报值是万元.
6.(23-24高二下·山东聊城·阶段练习)今年刚过去的4月份是“全国消费促进月”,各地拼起了特色经济”,带动消费复苏、市场回暖.“小饼烤炉加蘸料,灵魂烧烤三件套”,最近,淄博烧烤在社交媒体火爆出圈,吸引全国各地的游客坐着高铁,直奔烧烤店,而多家店铺的营业额也在近一个月内实现了成倍增长.因此某烧烤店老板考虑投入更多的人工成本,现有以往的服务人员增量x(单位:人)与年收益增量y单位:万元)的数据如下:
服务人员增量x/人
2
3
4
6
8
10
13
年收益增量y/万元
13
22
31
42
50
56
58
据此,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得与的一元线性经验回归方程为;
模型②:由散点图(如图)的样本点分布,可以认为样本点集中在曲线的附近.
对数据进行初步处理后,得到了一些统计的量的值:,,,,其中,
(1)根据所给的统计量,求模型②中关于的经验回归方程(精确到0.1);
(2)根据下列表格中的数据,比较两种模型的决定系数,并选择拟合精度更高的模型,预测服务人员增加25人时的年收益增量.
回归模型
模型①
模型②
回归方程
182.4
79.2
附:样本的最小二乘估计公式为,,刻画样本回归效果的决定系数
【答案】(1)=21.3-14.4
(2)模型①的R2小于模型②,说明回归模型②刻画的拟合效果更好,92.1万元.
【分析】(1)令,则,然后根据表中的数据和公式可求出模型②中y关于x的经验回归方程;
(2)由表中的数据和样本回归效果的决定系数可判断回归模型②刻画的拟合效果更好,再根据模型②的回归方程可预测服务人员增加25人时的年收益增量.
【详解】(1)令,则. 由参考数据得
==38.9-21.32×2.5≈-14.4,
所以,模型②中y关于x的经验回归方程为=21.3-14.4.
(2)由表格中的数据,有182.4>79.2,即,
模型①的小于模型②,说明回归模型②刻画的拟合效果更好
当x=25时,模型②的收益增量的预测值为=21.3×-14.4=21.3×5-14.4=92.1(万元).
所以预测服务人员增加25人时的年收益增量为92.1万元.
7.(24-25高二下·全国·课后作业)今年全国两会召开前,有人大代表提议:要大力提高国产芯片的应用率,推动“卡脖子”及高端芯片的研发及应用,并加大政策刺激力度,在芯片的研发端、应用端等多方面研究和出台针对国产芯片全产业链条的鼓励措施.芯片作为集成电路上的载体,是影响一个国家现代工业的重要因素.某公司过去七年在芯片技术上的研发投入x(单位:亿元)与收益y(单位:亿元)的数据统计如图:
(1)由折线图可知y与x的关系可以用一元线性回归模型拟合,请根据折线图的数据,求出y关于x的经验回归方程(数据均保留整数);
(2)利用(1)中经验回归方程,求折线图中数据残差的平方和.
附:.
【答案】(1)
(2)201
【分析】(1)由统计图的数据,求得的值,以及,代入回归系数的公式,求得和,即可求得回归直线方程;
(2)由统计图中的数据,以及(1)中的回归直线方程,得出统计图表,结合残差的计算公式,即可求解.
【详解】(1)解:由统计图的数据,可得,
,
又由
所以,
所以关于的经验回归方程为.
(2)解:由统计图中的数据,以及(1)中的回归直线方程,可得如图所示的统计表:
2
3
4
6
8
10
13
13
22
31
42
50
56
58
19
23
27
35
43
51
63
残差
4
7
7
5
所以该组数据残差的平方和为.
8.(23-24高二上·宁夏石嘴山·期中)在政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据,如表所示:
单价 千元
销量 百件
(1)若变量,具有线性相关关系,求产品销量百件关于试销单价千元的线性回归方程;
(2)用(1)中所求的线性回归方程得到与对应的产品销量的估计值当销售数据对应的残差的绝对值时,则将销售数据称为一个“好数据”现从个销售数据中任取个,求“好数据”至少有个的概率.
参考数据:参考公式:线性回归方程中,的估计值分别为,
【答案】(1);
(2).
【分析】(1)利用最小二乘法求出回归直线.
(2)根据回归直线分别计算出各个估计值,从而得到好数据的个数,利用古典概型求得结果.
【详解】(1)依题意,,,
而,于是,
,
所以所求线性回归方程为.
(2)利用(1)中所求的线性回归方程得:
当时,;当时,;
当时,;当时,;
当时,;当时,,
与销售数据对比知满足的共有个“好数据”:,
记个销售数据中的4个“好数据”分别为,另两个数据为,
从个销售数据中任取个的试验的样本空间:
,共15个样本点,
“好数据”至少有个的事件,其对立事件,
故,
所以“好数据”至少有个的概率为.
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
专练04 成对数据的统计分析必刷题型(4大题型24题)
题型1
独立性检验
一、单选题
1.(2024·宁夏银川·一模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
合计
附:
P(K2≥k0)
0.05
0.025
0.010
0.005
k0
3.841
5.024
6.635
7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
2.(23-24高二下·湖北武汉·阶段练习)某校团委对“学生性别和喜欢某视频是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢该视频的人数占男生人数的,女生喜欢该视频的人数占女生人数的,若依据小概率值的独立性检验,认为喜欢该视频和性别有关,则男生至少有( )
附:
0.050
0.010
3.841
6.635
.
A.12人 B.6人 C.10人 D.18人
二、解答题
3.(2025·甘肃白银·二模)某公司组织户外拓展活动,为探究员工参与该活动的积极性与员工的性别是否有关,对公司员工进行了简单随机抽样,得到如下列联表:
参与户外拓展活动的积极性
性别
合计
女
男
积极参与
75
e
h
不积极参与
m
f
35
合计
100
g
200
(1)求m,e,f,g,h;
(2)在公司员工中任选1人,记事件A为“选到的员工是男性”,事件B为“选到的员工积极参与户外拓展活动”,估计的值;
(3)根据小概率值的独立性检验,能否认为是否积极参与户外拓展活动与性别有关?
附:,
0.050
0.010
0.001
3.841
6.635
10.828
4.(24-25高二下·江苏无锡·期中)甲、乙两家公司到某大学进行招聘,通过对毕业生进行笔试、面试、模拟演练这三项程序后直接签约一批毕业生.已知三项程序分别由三个部门独立依次考核,且互不影响,当三项程序全部通过即可签约.假设该大学100名毕业生参加甲公司招聘的具体情况如下表(不存在通过三项程序考核后放弃签约的现象).
性别
参加考核但未能签约的人数
参加考核并能签约的人数
合计
男生
20
女生
50
合计
30
100
该校的小张准备参加两家公司的招聘,小张通过甲公司的每项程序的概率均为,通过乙公司的每项程序的概率依次为,,,其中.
(1)完成列联表,根据小概率值的独立性检验,判断这100名毕业生参加甲公司的招聘能否签约与性别是否有关;
(2)若小张通过甲、乙两公司程序的项数分别记为,.当时,求小张参加乙公司招聘并能成功签约的概率.
附:,其中.
0.100
0.050
0.025
0.001
2.706
3.841
5.024
10.828
5.(2025·陕西咸阳·二模)“两岸同心跑,共绘未来圆”2024马尾区全面健身“两马”主题跑暨第十六届“两马”体育联赛于2024年5月17日在琅岐红光湖公园举行.为了解市民对“两马运动”的了解程度与性别是否有关,某调查组对该区市民进行了一次“两马运动”健康知识问卷调查,通过随机抽样,得到参加问卷调查的600人的得分(满分100)数据,统计结果如表所示.
得分
男性人数
10
15
65
75
115
50
20
女性人数
10
30
70
65
35
30
10
(1)把市民分为对“两马运动”健康知识“比较了解”(不低于60分的)和“不太了解”(低于60分的)两类,请作出列联表,并判断是否有的把握认为该市民对“两马运动”健康知识了解程度与性别有关?
(2)将频率视为概率,用样本估计总体.若从该地区所有市民中,采取随机抽样的方法每次抽取1名市民分析,连续抽取4次,且各次抽取的结果相互独立,记被抽取到的4名市民中,“比较了解”的人数为,求出的分布列,并求数学期望和方差.
附表及公式;
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
其中,.
题型2
线性回归方程
一、单选题
1.(23-24高二上·江西鹰潭·期末)关于的一组样本数据的散点图中,所有样本点均在直线上,则这组样本数据的样本相关系数为( )
A.-2 B.-1 C.1 D.2
2.(2025高二下·全国·专题练习)由一组样本数据,利用最小二乘法得到两个变量的回归直线方程为,记,,则下面说法不正确的是( )
A.直线至少经过点中的一个点
B.直线必经过点
C.样本相关系数与回归系数同号
D.对样本相关系数,越大,两个变量之间的线性相关性越强
3.(2025·江西九江·二模)植物的根是吸收水分和矿物养分的主要器官.已知在一定范围内,小麦对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽小麦实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:)与氮元素吸收量(单位:天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及线性回归方程为,则( )
A.
B.变量与的相关系数
C.在一定范围内,小麦的根长度每增加,它一天的氮元素吸收量平均增加
D.若对小麦的根长度与钾元素吸收量的相关数据进行统计,则对应回归方程不变
二、解答题
4.(24-25高二下·河南南阳·期中)某人工智能公司从2018至2024年的利润情况如下表所示:
年份
2018
2019
2020
2021
2022
2024
2024
年份代码x
1
2
3
4
5
6
7
利润y(单位:亿元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)根据表中的数据,推断变量y与x之间是否线性相关.计算y与x之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出y关于x的经验回归方程,并预测该人工智能公司2025年的利润;
参考数据:
参考公式:对于一组数据,①相关系数为:;
②经验回归直线x的斜率和截距的最小二乘估计公式分别,
5.(24-25高二下·河南南阳·期中)某健身俱乐部为了研究会员每周锻炼时间(单位:)与体重减少量(单位:)的关系,随机选取了5名会员进行跟踪调查,得到以下数据:
(1)求每周锻炼时间与体重减少量的样本相关系数;(保留两位小数)
(2)求体重减少量关于每周锻炼时间的线性回归方程,并估计当某会员每周锻炼时间为时的体重减少量.
参考公式:相关系数;在线性回归方程中,.
6.(23-24高二下·黑龙江大庆·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.
①在学生甲获得奖学金的条件下,求他获得一等奖学金的概率;
②已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额的分布列及数学期望.
题型3
非线性回归方程
一、单选题
1.(23-24高二下·河南商丘·期末)某科技公司随着技术的进步和管理的逐渐规范,生产成本逐年降低,该公司对2011年至2024年的生产成本(万元)进行统计,根据统计数据作出如下散点图:
由此散点图,判断下列四个经验回归方程类型中最适合作为2011年至2024年该公司的生产成本与时间变量的经验回归方程类型的是( )
A. B.
C. D.
2.(24-25高二下·黑龙江哈尔滨·阶段练习)已知蝗虫的产卵量y与温度x的关系可以用模型拟合,设,其变换后得到一组数据:
x
20
23
25
27
30
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则( )
A. B. C. D.3
二、解答题
3.(23-24高二下·重庆·期末)随着移动互联网技术的发展,直播带货已经成为热门的销售方式,通过主播的详细介绍,使顾客对商品有更全面的了解.小张统计了某新手主播开启直播带货后从1月份到5月份每个月的销售量(万件)的数据,得到如图所示的散点图.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程?(给出判断即可,不必说明理由),并求出关于的回归方程(计算结果精确到0.01);
(2)随机调查了220名市民对直播带货的认可程度,得到的部分数据见下表:
认可
不认可
50岁以下市民
70
50
50岁以上市民
40
60
依据小概率值的独立性检验,分析市民对直播带货认可程度是否与年龄有关联.
参考公式与数据:,, ,,,其中.,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
4.(24-25高二上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
5.(2024·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
题型4
残差与决定系数的计算
一、单选题
1.(23-24高二下·山东青岛·期中)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图. 对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
2.(24-25高二下·江苏徐州·阶段练习)已知变量x和变量y的一组成对样本数据(,2,3,…,18),其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
3.(24-25高二下·广东梅州·阶段练习)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
二、解答题
4.(2024·广东汕头·二模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据如下:
行驶里程/万km
0.00
0.64
1.29
1.93
2.57
3.22
3.86
4.51
5.15
轮胎凹槽深度/mm
10.02
8.37
7.39
6.48
5.82
5.20
4.55
4.16
3.82
以行驶里程为横坐标、轮胎凹槽深度为纵坐标作散点图,如图所示.
(1)根据散点图,可认为散点集中在直线附近,由此判断行驶里程与轮胎凹槽深度线性相关,并计算得如下数据,请求出行驶里程与轮胎凹槽深度的相关系数(保留两位有效数字),并推断它们线性相关程度的强弱;
2.57
6.20
115.10
29.46
附:相关系数
(2)通过散点图,也可认为散点集中在曲线附近,考虑使用对数回归模型,并求得经验回归方程及该模型的决定系数.已知(1)中的线性回归模型为,在同一坐标系作出这两个模型,据图直观回答:哪个模型的拟合效果更好?并用决定系数验证你的观察所得.
附:线性回归模型中,决定系数等于相关系数的平方,即.
5.(23-24高二下·河南信阳·期末)某互联网公司为了确定下季度的前期广告投人计划,收集了近6个月广告投入量(单位:万元)和收益(单位:万元)的数据如表:
月份
1
2
3
4
5
6
广告投入量
2
4
6
8
10
12
收益
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①,②分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.
7
30
1464.24
364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型拟合?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.
(i)剔除异常数据后求出(1)中所选模型的回归方程;
(ii)若广告投入量时,(1)中所选模型收益的预报值是多少?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:
6.(23-24高二下·山东聊城·阶段练习)今年刚过去的4月份是“全国消费促进月”,各地拼起了特色经济”,带动消费复苏、市场回暖.“小饼烤炉加蘸料,灵魂烧烤三件套”,最近,淄博烧烤在社交媒体火爆出圈,吸引全国各地的游客坐着高铁,直奔烧烤店,而多家店铺的营业额也在近一个月内实现了成倍增长.因此某烧烤店老板考虑投入更多的人工成本,现有以往的服务人员增量x(单位:人)与年收益增量y单位:万元)的数据如下:
服务人员增量x/人
2
3
4
6
8
10
13
年收益增量y/万元
13
22
31
42
50
56
58
据此,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得与的一元线性经验回归方程为;
模型②:由散点图(如图)的样本点分布,可以认为样本点集中在曲线的附近.
对数据进行初步处理后,得到了一些统计的量的值:,,,,其中,
(1)根据所给的统计量,求模型②中关于的经验回归方程(精确到0.1);
(2)根据下列表格中的数据,比较两种模型的决定系数,并选择拟合精度更高的模型,预测服务人员增加25人时的年收益增量.
回归模型
模型①
模型②
回归方程
182.4
79.2
附:样本的最小二乘估计公式为,,刻画样本回归效果的决定系数
7.(24-25高二下·全国·课后作业)今年全国两会召开前,有人大代表提议:要大力提高国产芯片的应用率,推动“卡脖子”及高端芯片的研发及应用,并加大政策刺激力度,在芯片的研发端、应用端等多方面研究和出台针对国产芯片全产业链条的鼓励措施.芯片作为集成电路上的载体,是影响一个国家现代工业的重要因素.某公司过去七年在芯片技术上的研发投入x(单位:亿元)与收益y(单位:亿元)的数据统计如图:
(1)由折线图可知y与x的关系可以用一元线性回归模型拟合,请根据折线图的数据,求出y关于x的经验回归方程(数据均保留整数);
(2)利用(1)中经验回归方程,求折线图中数据残差的平方和.
附:.
8.(23-24高二上·宁夏石嘴山·期中)在政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据,如表所示:
单价 千元
销量 百件
(1)若变量,具有线性相关关系,求产品销量百件关于试销单价千元的线性回归方程;
(2)用(1)中所求的线性回归方程得到与对应的产品销量的估计值当销售数据对应的残差的绝对值时,则将销售数据称为一个“好数据”现从个销售数据中任取个,求“好数据”至少有个的概率.
参考数据:参考公式:线性回归方程中,的估计值分别为,
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$