内容正文:
专题10 成对数据的统计分析(5种题型)
【题型1 依据散点图进行相关性的判断】
【题型2 一元线性回归模型.】
【题型3 非线性回归模型】
【题型4 独立性检验的基本原理】
【题型5 独立性检验的实际应用】
【题型1 依据散点图进行相关性的判断】
1.为研究某奶茶店每日的热奶茶销售量和气温之间是否具有线性相关关系,统计该店(2025年2月6日至3月24日)每天的热奶茶销售量及当天气温得到如图所示的散点图(轴表示气温,轴表示热奶茶销售量),由散点图可知与的相关关系为( )
A.正相关,相关系数的值为0.8 B.负相关,相关系数的值为0.8
C.正相关,相关系数的值为 D.负相关,相关系数的值为
【答案】D
【分析】根据正负相关的概念判断.
【详解】由散点图知随着的增大而减小,因此是负相关.相关系数为负.
故选:D.
2.下面是不同成对数据的散点图,从左到右对应的样本相关系数是r1,r2,r3,r4,其中最小的是( )
A.B.C. D.
【答案】D
【分析】根据散点图变化趋势判断样本相关系数的正负,再由散点图的集中程度大小,即可判断.
【详解】由散点图变化趋势可知:且D的散点图更集中,接近于一条直线,所以相对于更趋近于,所以.
故选:D.
3.观察下列散点图,其中两个变量的相关关系判断一定正确的是( )
A.图1中y与x呈正相关
B.图2中y与x不相关
C.图3中y与x的线性相关系数小于0
D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数
【答案】D
【分析】根据给定的散点图,利用正负相关的意义、相关系数的意义逐项判断.
【详解】对于A,图1中随增大而减小, y与x呈负相关,A错误;
对于B,图2中各点较分散,y与x的相关性不强,不能肯定不相关,B错误;
对于C,图3中随增大而增大,y与x呈正相关,相关系数大于0,C错误;
对于D,图1与图2,y与x都呈负相关,相关系数为负,
而图1中y与x的线性相关性较图2中y与x的线性相关性强,
所以,图1中y与x的线性相关系数小于图2中y与x的线性相关系数,D正确.
故选:D
4.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【分析】根据相关系数的概念即可判断.
【详解】由图可知图(1)和图(3)是正相关,故相关系数为正,又因为图(1)的点较图(3)的点分布密集,故相关性图(1)更好,相关系数较大,即;
图(2)和图(4)是负相关,故相关系数为负,又因为图(2)的点较图(4)的点分布密集,故相关性图(2)更好,相关系数的绝对值较大,即,故;
综上可知:,
故选:A.
【题型2 一元线性回归模型.】
1.已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
成交额(万元)
50
60
70
80
100
若关于的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
A.84万元 B.96万元 C.108万元 D.120万元
【答案】C
【分析】求出,,根据回归直线方程必过样本中心点求出,即可求出回归直线方程,再代入计算可得.
【详解】依题意,,
又线性回归方程为必过点,
所以,解得,所以,
2025年的年份代号为,所以当时,,
所以根据回归方程预测该店2025年“五一”黄金周的成交额是108万元.
故选:C.
2.某学校一同学研究温差x(°C)与本校当天新增感冒人数y (人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列结论错误的是( )
A.样本中心点为 B.
C.时, 残差为 D.相关系数
【答案】C
【分析】由回归直线必过样本中心可判断A项、B项,由残差公式可判断C项,由线性回归方程的斜率即可相关系数正负可判断D项.
【详解】对于A项,因为,,
所以样本中心点为,故A项正确;
对于B项,由回归直线必过样本中心可得:,解得:,故B项正确;
对于C项,由B项知,,令,则,
所以残差为,故C项错误;
对于D项,经验回归方程中,斜率,说明与正相关,
故相关系数,故D项正确.
故选:C
3.某单位为了了解办公楼用电量y(度)与气温之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
气温/℃
18
13
10
用电量/度
24
34
38
64
若经验回归方程为,则当气温为时,预测用电量约为( )
A.68度 B.52度 C.12度 D.28度
【答案】A
【分析】根据给定数据,求出样本的中心点,进而求出预测值.
【详解】由表格知
根据经验回归直线必过,得,
因此经验回归方程为,当时,.
所以当气温为时,预测用电量约为68度.
故选:A
4.对于变量,其部分成对的观测值如下表所示:
1
2
3
4
5
2
6
7
8
12
已知具有线性相关关系,且根据最小二乘法得到的线性回归方程为,则( )
A.0.2 B.0.4 C.0.8 D.1.2
【答案】B
【分析】根据回归直线方程必过点,代入即可求解.
【详解】由条件可知,,,
线性回归方程必过点,所以,所以.
故选:B
5.年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
【答案】D
【分析】根据所给数据,及参考公式,求线性回归方程即可.
【详解】由题中的数据可知
所以
所以
所以y关于x的线性回归方程为
故选:D
6.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为则b的值为( )
x
6
8
9
10
12
y
6
5
4
3
2
A.-0.6 B.-0.7 C.-0.8 D.-0.9
【答案】B
【分析】由表格求出和,根据样本中心点必在线性回归直线上即可求得.
【详解】由表可知:,,
因样本中心点必在线性回归直线上,故有,
代入得:,解得.
故选:B.
7.如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下列最适宜作为此模型的回归方程类型的是( )
A. B.
C. D.
【答案】B
【分析】由选项的图象特征即可得到答案.
【详解】选项A,对应的“直线型”的拟合函数,散点图中的点应在某直线附近,故A错误;
选项B,根据散点图可以看出散点大致分布在一条“指数型”函数曲线附近,
则的图象可以如图所示,故B正确;
选项C,对应的“幂函数型”的拟合函数,则其对应图象应上凸下凹,故C错误;
选项D,对应的“对数型”的拟合函数,则其对应图象应上凸下凹,故D错误.
故选:B.
8.某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )
A. B.
C. D.
【答案】D
【分析】根据散点的分布可得出合适的回归方程类型.
【详解】由散点图可见,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.
A中,是直线型,均匀增长,不符合要求;
B中,是二次函数型,图象呈现下凸,增长也较快,不符合要求;
C中,是指数型,爆炸式增长,增长快,不符合要求;
D中,是对数型,增长缓慢,符合要求.
故对数型最适宜该回归模型.
故选:D.
9.用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
【答案】D
【分析】由两边取对数,与,利用待定系数法求解.
【详解】解:因为,,
所以,
又,
所以,解得,
所以,
故选:D
10.多选题每年4月23日为“世界读书日”,某学校于四月份开展“书香润泽校园,阅读提升思想”主题活动,为检验活动效果,学校收集当年二至六月的借阅数据如下表:
二月
三月
四月
五月
六月
月份代码
1
2
3
4
5
月借阅量(百册)
4.9
5.1
5.5
5.7
5.8
根据上表,可得关于的经验回归方程为,则下列结论正确的是( )
A.
B.借阅量的下四分位数为5.7
C.与的线性相关系数
D.七月的借阅量一定不少于百册
【答案】AC
【分析】对于A:根据回归方程必过样本中心点分析运算;对于B:根据百分位的定义分析运算;对于C:根据相关系数的概念分析理解;对于D:取,代入回归直线分析运算.
【详解】对于A:因为,,
所以,得,所以A正确;
对于B:因为,所以借阅量的下四分位数为,所以B错误;
对于C:因为,所以与的线性相关系数,所以C正确;
对于D:由选项A可知线性回归方程为,
当,则,
所以七月的借阅量约为百册,所以D错误;
故选:AC.
11.由表格数据得到的线性回归方程为,则表格中的m值为 .
x
3
4
5
6
y
2.5
m
4
4.5
【答案】
【分析】计算出样本的中心点坐标,将其代入可求得m的值.
【详解】,,
线性回归方程恒过,
所以,解得:.
故答案为:.
12.根据下表数据得到y关于x的线性回归方程,则 .
x
1
2
3
4
y
1
4
5
8
【答案】1
【分析】根据给定的数表求出样本的中心点,再利用回归直线方程求出的值.
【详解】,
所以,解得.
故答案为:1
13.①事件A和事件B互斥,则;
②数据2,3,6,7,8,10,13,15的第50百分位数为7;
③在线性回归模型中,拟合误差越小,表示回归的效果越好;
④随机变量X的方差,则.
其中正确命题的序号为 .
【答案】①③
【分析】由互斥的并事件的概率判断①,利用百分位数的定义计算可判断②,拟合误差越小,表示回归的效果越好可判断③,利用方差的性质计算可判断④.
【详解】对于①,事件A和事件B互斥,则,故①正确;
对于②,因为,所以数据2,3,6,7,8,10,13,15的第50百分位数为,故②不正确;
对于③,在线性回归模型中,拟合误差越小,表示回归的效果越好,故③正确;
对于④,随机变量X的方差,则,故④错误.
故答案为:①③.
14.由数据可得关于的线性回归方程为,若,则 .
【答案】32
【分析】根据线性回归方程过求解即可.
【详解】依题意,,由,得,解得,所以.
故答案为:32
15.以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则 .
【答案】
【分析】两边取对数,对照系数,求出
【详解】,即,
∴,.
故答案为:
16.在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
年产量y(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立y关于x的线性回归方程;
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
【答案】(1)
(2)
【分析】(1)先求出和的值,然后求出,进而由,,可求出,从而可求出关于的线性回归方程;
(2)当年份为2025年时,年份代码为,由(1)求得的回归方程,求出的值即可.
【详解】(1)由题意可知:
,
,
,
所以,
又,
故关于的线性回归方程为.
(2)由(1)可得,当年份为2025年时,年份代码为,此时.
所以可预测2025年该地区该农产品的年产量约为万吨.
【题型3 非线性回归模型】
1.多选题随机抽取家超市,得到其广告支出(万元)与销售额(万元)数据如下,则( )
超市
广告支出(万元)
1
2
4
6
10
14
20
销售额(万元)
19
32
44
40
52
53
54
A.销售额与广告支出正相关
B.销售额与广告支出的变化趋势相同,但广告支出超过万元后,销售额增加幅度变缓
C.销售额与广告支出线性相关越强,相关系数越接近
D.要得到销售额的预测值,模型比模型更可靠
【答案】ABD
【分析】作出散点图,由散点图可判断ABD选项;根据线性相关系数与线性相关关系的强弱可判断C选项.
【详解】对于A选项,作出散点图如下图所示:
由散点图可知,销售额与广告支出正相关,A对;
对于B选项,由散点图可知,销售额与广告支出的变化趋势相同,
但广告支出超过万元后,销售额增加幅度变缓,B对;
对于C选项,销售额与广告支出线性相关越强,相关系数的绝对值越接近,C错;
对于D选项,由散点图可知,随着的增大而增大,当时,销售额增加幅度变缓,
所以,要得到销售额的预测值,模型比模型更可靠,D对.
故选:ABD.
【题型4 独立性检验的基本原理】
1.根据吸烟与患肺癌这两个分类变量的样本数据,计算得出,经查阅独立性检验的小概率值和相应的临界值,则下列说法正确的是( )
A.在100个吸烟的人中就会有99人患肺癌
B.若某人吸烟,那么他有99%的可能患肺癌
C.若某人患肺癌,那么他有99%的可能为吸烟者
D.吸烟与患肺癌有关联,此推断犯错误的概率不大于1%
【答案】D
【分析】根据给定条件,利用独立性检验的意义逐项判断即得.
【详解】由,得吸烟与患肺癌有关联,此推断犯错误的概率不大于1%,D正确;
卡方检验仅说明吸烟与患肺癌两个变量间的关联性,无法量化个体情况,这两个变量间也无因果关系,ABC错误.
故选:D
2.为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【答案】D
【分析】根据卡方表示的意义结合临界值表分析判断即可
【详解】只有时才能在犯错误的概率不超过的前提下认为该电视栏目是否优秀与改革有关系,
而即使也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的推论,与是否有的人等无关.故A,B不正确.
由于,故C错误,D正确.
故选:D.
3.多选题为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到,根据小概率值为的独立性检验,则( )
附:
0.100
0.050
0.010
2.706
3.841
6.635
A.若,则认为“毛色”和“角”无关
B.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若,则认为“毛色”和“角”无关
D.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
【答案】BC
【分析】根据独立性检验的判断原则一一分析即可.
【详解】对AB,若,因为 ,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%,故A 错,B 对;
对CD,若,因为,则认为“毛色”和“角”无关,故C正确,D错误.
故选:BC.
【题型5 独立性检验的实际应用】
1.某市准备安排该市所有中学教师进行体检,同时调查去年该市教师体检情况,并随机抽取100名高中教师与100名初中教师,经过统计得到如下列联表:
去年体检人数
去年末体检人数
合计
高中教师
70
30
100
初中教师
100
合计
200
若根据列表得,则这200名教师中,去年末体检的人数为( )(附:,)
A.20 B.30 C.40 D.50
【答案】D
【分析】据独立性检验的原理与知识,列式计算即可得结论.
【详解】由于(*),
又,
则可得,代入(*)式可得:
,解得或(舍).
故选:D.
2.根据分类变量 X 和Y 的样本观察数据的计算结果,有不少于95%的把握认为 X 和Y 有关,则的值不可能为( )
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
A.2.819 B.5.512 C.6.635 D.8.243
【答案】A
【分析】利用独立性检验的观测值对应临界表可得答案.
【详解】因为有不少于95%的把握认为 X 和Y 有关,
所以,只有A不满足要求.
故选:A
3.某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
【答案】(1)答案见解析
(2);
(3)答案见解析
【分析】(1) 利用相关系数公式直接代入数据求解即可;
(2) 利用公式,先求一次项系数,再利用经过样本中心点,可求出,从而可得回归直线方程;
(3)利用一次项系数可解释会员平均每周锻炼时长增加2个小时,预测平均体重减少量增加0.84千克,与实际效果相当,说明具有参考价价.
【详解】(1)由表可知:
所以= ,
因为与的相关系数接近1,
所以与的线性相关程度很高,可用线性回归模型拟合与的关系.
(2)由题可知: =
,
所以
(3)由(2)可知:根据线性回归方程预测,会员平均每周锻炼时长增加2个小时,
预测平均体重减少量增加0.84千克,与实际增加值0.8千克较为接近,
因此实际结果与预测结果基本一致,说明该回归模型具有参考价值;
造成一定差异的原因可能是由于样本数据过少,
或者造成体重减少的原因还受其他因素影响,
比如睡眠,饮食、锻炼强度以及效果等.
4.某研究所研究耕种深度(单位:)与水稻每公顷产量(单位:)的关系,所得数据资料如下表.
耕种深度
8
10
12
14
16
18
每公顷产量
6
7
8
9
11
13
(1)求样本相关系数(结果保留两位小数),并判断它们是否具有较强的线性相关性;
(2)求经验回归方程.
参考数据:;
参考公式:,,.
【答案】(1),有较强的线性相关性,
(2)
【分析】(1)根据相关系数的公式即可求解,
(2)利用最小二乘法即可求解.
【详解】(1)由题意可知,
,
故,故有较强的线性相关性,
(2)
,
故,
将代入可得,
故回归直线方程为
5.某种产品每吨成本7万元,其销售价格(万元/吨)和销售量(吨)的变化情况如下表:
8
9
10
9
(1)若与线性相关,求关于的经验回归方程;
(2)根据(1)的结论,预测要使该产品销售利润最大,销售价格是多少?(结果精确到)
附:(参考公式)
【答案】(1);
(2)万元/吨.
【分析】(1)根据给定条件,利用最小二乘法公式求出经验回归方程.
(2)由(1)的结论,求出销售利润函数式,再借助二次函数最值求解.
【详解】(1)依题意,,,
,
因此,
所以关于的经验回归方程为.
(2)依题意,销售利润为,
当时,取得最大值,
所以预测销售价格是万元/吨时,该产品销售利润最大.
6.在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
年份(年)
2014
2015
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
7
8
保有量y/千辆
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
参考数据:,,其中
(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;
【答案】(1)作图见解析,选择的函数模型是,;
(2)2028年.
【分析】(1)根据题中所给公式,结合对数函数的性质进行求解即可;
(2)根据指数函数的性质,结合对数运算性质进行求解即可.
【详解】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是,令,则
因为,
所以,,
,所以;
(2)设传统能源汽车保有量每年下降的百分比为r,依题意得,),解得,设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有x,设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有
,所以,
解得,故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.
7.某厂有甲、乙两条生产线生产同种保温杯,保温杯按质量分为一级品和二级品,为了比较两条生产线生产的保温杯的质量,在甲生产线生产的保温杯中抽取800个样本,一级品有600个,其余均为二级品.在乙生产线生产的保温杯中抽取2000个样本,一级品有1600个,其余均为二级品.
(1)根据统计数据,完成下列表格,依据小概率值的独立性检验,能否认为甲生产线的一级品率与乙生产线的一级品率有差异?
一级品
二级品
合计
甲生产线
乙生产线
合计
(2)现从甲生产线生产的保温杯中按一级品和二级品中,按比例用分层随机抽样法抽取8个保温杯,再从这8个保温杯中随机抽取3个保温杯,记抽取的3个保温杯中一级品的个数为,求的分布列和数学期望.
(3)用样本频率估计总体概率,现从乙生产线所有保温杯中随机抽取100个保温杯,记其中一级品的保温杯个数为,求使事件“”的概率最大时r的值.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)列联表见解析,能;
(2)分布列见解析,数学期望为
(3)80.
【分析】(1)完善列联表,求出的观测值并与临界值比对得解.
(2)求出的可能值及对应的概率,列出分布列并求出期望.
(3)根据给定条件,利用二项分布的概率公式列式,作商确定单调性求出最大值.
【详解】(1)依题意,列联表如下:
一级品
二级品
合计
甲生产线
600
200
800
乙生产线
1600
400
2000
合计
2200
600
2800
零假设:甲生产线的一级品率与乙生产线的一级品率无差异,
根据列联表中数据,经计算得,
所以依据小概率值的独立性检验,推断不成立,
即认为甲生产线的一级品率与乙生产线的一级品率有差异,此推断犯错误的概率不大于0.01.
(2)依题意,用分层随机抽样法抽取的8个保温杯中,一级品保温杯有个,二级品有2个,
随机变量的可能值为1,2,3,
,
所以的分布列为:
1
2
3
数学期望为.
(3)依题意,乙生产线的一级品率为,
从乙生产线所有保温杯中随机抽取100个保温杯,一级品的保温杯个数,
则,
当时,,
由,解得,而,则当时,递增;
由,解得,而,则当时,递减,
所以使事件“”的概率最大时r的值为80.
8.某科技公司2025年计划推出量子加密通信设备,该设备可实时保护数据传输,目标用户为学校、企业和自由开发者.该公司调查了不同用户对该设备的需求情况,得到数据如下(单位:个):
学校
企业
自由开发者
有需求
170
无需求
120
已知调查了400个学校和150个自由开发者.
(1)求和的值;
(2)估计目标用户对该设备有需求的概率;
(3)是否有的把握认为学校用户与非学校用户对该设备的需求情况有差异?
附:.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)
(2);
(3)有的把握认为学校用户与非学校用户对该设备的需求情况有差异.
【分析】(1)根据题意列出关于m,n的等量关系式即可求解;
(2)由题设数据结合古典概型直接计算即可得解;
(3)列出列联表,计算出卡方值即可判断得解.
【详解】(1)由题得;
(2)由题可得估计目标用户对该设备有需求的概率为;
(3)列出列联表:
学校用户
非学校用户
总计
有需求
300
270
570
无需求
100
170
270
总计
400
440
840
零假设学校用户与非学校用户对该设备的需求情况无差异.
由表格得,
根据小概率值的独立性检验,推断不成立,
所以有的把握认为学校用户与非学校用户对该设备的需求情况有差异.
9.社会生活日新月异,看纸质书的人越来越少,更多的年轻人(35岁以下)喜欢阅读电子书籍,他们认为电子书不仅携带方便,而且可以随时随地阅读,而年长者(35岁以上)更喜欢阅读纸质书.现在某书店随机抽取60名顾客进行调查,得到了如下列联表:
年长者
年轻人
总计
喜欢阅读电子书
24
30
喜欢阅读纸质书
12
总计
60
(1)请将上面的列联表补充完整,并判断是否有的把握认为喜欢阅读电子书与年龄有关;
(2)若在年轻人中按照分层抽样的方法抽取了7人,为进一步了解情况,再从抽取的7人中随机抽取3人,求抽到喜欢阅读电子书的年轻人人数X的分布列及数学期望.
附:,其中
【答案】(1)答案见解析,有的把握认为喜欢阅读电子书与年龄有关
(2)分布列见解析,
【分析】(1)完善的列联表并计算的值,即可得出结论;
(2)易知X的所有可能取值为0,1,2,3,分别求得对应概率可得出其分布列及其期望值.
【详解】(1)根据题意,可得如下的的列联表:
年长者
年轻人
总计
喜欢阅读电子书
6
24
30
喜欢阅读纸质书
12
18
30
总计
18
42
60
则,
所以有的把握认为喜欢阅读电子书与年龄有关.
(2)由题意可得抽到喜欢阅读电子书的年轻人数为4名,喜欢阅读纸质书的年轻人数为3名,
所以随机变量X的所有可能取值为0,1,2,3;
由超几何分布的分布列可得,,
,;
所以X的分布列为:
0
1
2
3
则期望为.
10.某校高一学生共有人,年级组长利用数字化学习软件记录每位学生每日课后作业完成的时长,期中考试之后统计得到了如下平均作业时长与学业成绩的数据表:
平均作业时长(单位:小时)
学业成绩优秀:
学业成绩不优秀:
(1)试判断:是否有的把握认为学业成绩优秀与日均作业时长不小于小时且小于小时有关?
(2)常用表示在事件发生的条件下事件发生的优势,在统计中称为似然比.已知该校高一学生女生中成绩优秀的学生占比,现从所有高一学生中任选一人,表示“选到的是男生”,表示“选到的学生成绩优秀”,若,求.
附:,.
【答案】(1)有把握;
(2).
【分析】(1)完善列联表,计算的观测值并与临界值比对即可得解.
(2)设,根据给定条件,利用条件概率公式、结合互斥事件的加法公式列出方程求解.
【详解】(1)列联表数据如下:
时长
其他
总计
优秀
不优秀
总计
所以有的把握认为学业成绩优秀与日均作业时长不小于小时且小于小时有关.
(2)设,则,
由,得,
而,则.
又,于是,
得,即,
而,因此,
由,得,所以.
原创精品资源学科网独家享有版权,侵权必究!6
1
学科网(北京)股份有限公司
$$
专题10 成对数据的统计分析(5种题型)
【题型1 依据散点图进行相关性的判断】
【题型2 一元线性回归模型.】
【题型3 非线性回归模型】
【题型4 独立性检验的基本原理】
【题型5 独立性检验的实际应用】
【题型1 依据散点图进行相关性的判断】
1.为研究某奶茶店每日的热奶茶销售量和气温之间是否具有线性相关关系,统计该店(2025年2月6日至3月24日)每天的热奶茶销售量及当天气温得到如图所示的散点图(轴表示气温,轴表示热奶茶销售量),由散点图可知与的相关关系为( )
A.正相关,相关系数的值为0.8 B.负相关,相关系数的值为0.8
C.正相关,相关系数的值为 D.负相关,相关系数的值为
2.下面是不同成对数据的散点图,从左到右对应的样本相关系数是r1,r2,r3,r4,其中最小的是( )
A.B.C. D.
3.观察下列散点图,其中两个变量的相关关系判断一定正确的是( )
A.图1中y与x呈正相关
B.图2中y与x不相关
C.图3中y与x的线性相关系数小于0
D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数
4.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【题型2 一元线性回归模型.】
1.已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
成交额(万元)
50
60
70
80
100
若关于的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
A.84万元 B.96万元 C.108万元 D.120万元
2.某学校一同学研究温差x(°C)与本校当天新增感冒人数y (人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列结论错误的是( )
A.样本中心点为 B.
C.时, 残差为 D.相关系数
3.某单位为了了解办公楼用电量y(度)与气温之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
气温/℃
18
13
10
用电量/度
24
34
38
64
若经验回归方程为,则当气温为时,预测用电量约为( )
A.68度 B.52度 C.12度 D.28度
4.对于变量,其部分成对的观测值如下表所示:
1
2
3
4
5
2
6
7
8
12
已知具有线性相关关系,且根据最小二乘法得到的线性回归方程为,则( )
A.0.2 B.0.4 C.0.8 D.1.2
5.年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
6.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为则b的值为( )
x
6
8
9
10
12
y
6
5
4
3
2
A.-0.6 B.-0.7 C.-0.8 D.-0.9
7.如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下列最适宜作为此模型的回归方程类型的是( )
A. B.
C. D.
8.某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )
A. B.
C. D.
9.用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
10.多选题每年4月23日为“世界读书日”,某学校于四月份开展“书香润泽校园,阅读提升思想”主题活动,为检验活动效果,学校收集当年二至六月的借阅数据如下表:
二月
三月
四月
五月
六月
月份代码
1
2
3
4
5
月借阅量(百册)
4.9
5.1
5.5
5.7
5.8
根据上表,可得关于的经验回归方程为,则下列结论正确的是( )
A.
B.借阅量的下四分位数为5.7
C.与的线性相关系数
D.七月的借阅量一定不少于百册
11.由表格数据得到的线性回归方程为,则表格中的m值为 .
x
3
4
5
6
y
2.5
m
4
4.5
12.根据下表数据得到y关于x的线性回归方程,则 .
x
1
2
3
4
y
1
4
5
8
13.①事件A和事件B互斥,则;
②数据2,3,6,7,8,10,13,15的第50百分位数为7;
③在线性回归模型中,拟合误差越小,表示回归的效果越好;
④随机变量X的方差,则.
其中正确命题的序号为 .
14.由数据可得关于的线性回归方程为,若,则 .
15.以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则 .
16.在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
年产量y(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立y关于x的线性回归方程;
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
【题型3 非线性回归模型】
1.多选题随机抽取家超市,得到其广告支出(万元)与销售额(万元)数据如下,则( )
超市
广告支出(万元)
1
2
4
6
10
14
20
销售额(万元)
19
32
44
40
52
53
54
A.销售额与广告支出正相关
B.销售额与广告支出的变化趋势相同,但广告支出超过万元后,销售额增加幅度变缓
C.销售额与广告支出线性相关越强,相关系数越接近
D.要得到销售额的预测值,模型比模型更可靠
【题型4 独立性检验的基本原理】
1.根据吸烟与患肺癌这两个分类变量的样本数据,计算得出,经查阅独立性检验的小概率值和相应的临界值,则下列说法正确的是( )
A.在100个吸烟的人中就会有99人患肺癌
B.若某人吸烟,那么他有99%的可能患肺癌
C.若某人患肺癌,那么他有99%的可能为吸烟者
D.吸烟与患肺癌有关联,此推断犯错误的概率不大于1%
2.为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
3.多选题为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到,根据小概率值为的独立性检验,则( )
附:
0.100
0.050
0.010
2.706
3.841
6.635
A.若,则认为“毛色”和“角”无关
B.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若,则认为“毛色”和“角”无关
D.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
【题型5 独立性检验的实际应用】
1.某市准备安排该市所有中学教师进行体检,同时调查去年该市教师体检情况,并随机抽取100名高中教师与100名初中教师,经过统计得到如下列联表:
去年体检人数
去年末体检人数
合计
高中教师
70
30
100
初中教师
100
合计
200
若根据列表得,则这200名教师中,去年末体检的人数为( )(附:,)
A.20 B.30 C.40 D.50
2.根据分类变量 X 和Y 的样本观察数据的计算结果,有不少于95%的把握认为 X 和Y 有关,则的值不可能为( )
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
A.2.819 B.5.512 C.6.635 D.8.243
3.某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
4.某研究所研究耕种深度(单位:)与水稻每公顷产量(单位:)的关系,所得数据资料如下表.
耕种深度
8
10
12
14
16
18
每公顷产量
6
7
8
9
11
13
(1)求样本相关系数(结果保留两位小数),并判断它们是否具有较强的线性相关性;
(2)求经验回归方程.
参考数据:;
参考公式:,,.
5.某种产品每吨成本7万元,其销售价格(万元/吨)和销售量(吨)的变化情况如下表:
8
9
10
9
(1)若与线性相关,求关于的经验回归方程;
(2)根据(1)的结论,预测要使该产品销售利润最大,销售价格是多少?(结果精确到)
附:(参考公式)
6.在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
年份(年)
2014
2015
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
7
8
保有量y/千辆
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
参考数据:,,其中
(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;
7.某厂有甲、乙两条生产线生产同种保温杯,保温杯按质量分为一级品和二级品,为了比较两条生产线生产的保温杯的质量,在甲生产线生产的保温杯中抽取800个样本,一级品有600个,其余均为二级品.在乙生产线生产的保温杯中抽取2000个样本,一级品有1600个,其余均为二级品.
(1)根据统计数据,完成下列表格,依据小概率值的独立性检验,能否认为甲生产线的一级品率与乙生产线的一级品率有差异?
一级品
二级品
合计
甲生产线
乙生产线
合计
(2)现从甲生产线生产的保温杯中按一级品和二级品中,按比例用分层随机抽样法抽取8个保温杯,再从这8个保温杯中随机抽取3个保温杯,记抽取的3个保温杯中一级品的个数为,求的分布列和数学期望.
(3)用样本频率估计总体概率,现从乙生产线所有保温杯中随机抽取100个保温杯,记其中一级品的保温杯个数为,求使事件“”的概率最大时r的值.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
8.某科技公司2025年计划推出量子加密通信设备,该设备可实时保护数据传输,目标用户为学校、企业和自由开发者.该公司调查了不同用户对该设备的需求情况,得到数据如下(单位:个):
学校
企业
自由开发者
有需求
170
无需求
120
已知调查了400个学校和150个自由开发者.
(1)求和的值;
(2)估计目标用户对该设备有需求的概率;
(3)是否有的把握认为学校用户与非学校用户对该设备的需求情况有差异?
附:.
0.1
0.01
0.001
2.706
6.635
10.828
9.社会生活日新月异,看纸质书的人越来越少,更多的年轻人(35岁以下)喜欢阅读电子书籍,他们认为电子书不仅携带方便,而且可以随时随地阅读,而年长者(35岁以上)更喜欢阅读纸质书.现在某书店随机抽取60名顾客进行调查,得到了如下列联表:
年长者
年轻人
总计
喜欢阅读电子书
24
30
喜欢阅读纸质书
12
总计
60
(1)请将上面的列联表补充完整,并判断是否有的把握认为喜欢阅读电子书与年龄有关;
(2)若在年轻人中按照分层抽样的方法抽取了7人,为进一步了解情况,再从抽取的7人中随机抽取3人,求抽到喜欢阅读电子书的年轻人人数X的分布列及数学期望.
附:,其中
10.某校高一学生共有人,年级组长利用数字化学习软件记录每位学生每日课后作业完成的时长,期中考试之后统计得到了如下平均作业时长与学业成绩的数据表:
平均作业时长(单位:小时)
学业成绩优秀:
学业成绩不优秀:
(1)试判断:是否有的把握认为学业成绩优秀与日均作业时长不小于小时且小于小时有关?
(2)常用表示在事件发生的条件下事件发生的优势,在统计中称为似然比.已知该校高一学生女生中成绩优秀的学生占比,现从所有高一学生中任选一人,表示“选到的是男生”,表示“选到的学生成绩优秀”,若,求.
附:,.
原创精品资源学科网独家享有版权,侵权必究!6
1
学科网(北京)股份有限公司
$$