内容正文:
专题突破:统计重点题型突破
1. 判断相关关系的方法:
(1)定义法
(2)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(3)决定系数法:利用决定系数判定,R2越接近1,拟合效果越好,相关性越强.
2.变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.
3.求线性回归方程的步骤
(2)计算
(3)利用=-,求.
(4)写出经验回归方程.
4.样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心,即回归直线经过点(,).
5.一元线性回归模型的应用
(1)方法步骤:
(2)在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(,)),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.利用回归直线方程求出的是估算值,非准确值.
6.非线性回归分析问题
(1)对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.
(2)在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.
(3)如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.
例如:
①反比例函数y=a+可作变换t=,得y=a+bt.
②幂函数型y=axb(a>0)可作变换Y=lny,m=lna,t=lnx,则有
Y=m+bt.
③指数型函数y=kabx(a>0且a≠1,k>0)可作变换Y=lny,m=lnk,则有:Y=m+(blna)x
7.独立性检验的步骤:
第一步,确定分类变量,获取样本频数,得到列联表.
第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
第三步,利用公式K2=计算随机变量K2的观测值K0.
第四步,作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
题型一 散点图、相关关系的判断与辨析
【例1】(2023·天津·高考真题)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【知识点】判断正、负相关、相关系数的意义及辨析
【分析】根据散点图的特点及经验回归方程可判断ABC选项,根据相关系数的定义可以判断D选项.
【详解】根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,
把代入可得,C选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是,D选项错误
故选:C
【变式1-1】(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【答案】A
【知识点】根据散点图判断是否线性相关
【分析】由点的分布特征可直接判断
【详解】观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1.
故选:A
【变式1-2】(2009·宁夏·高考真题)对变量x, y 有观测数据(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断.
A.变量x 与y 正相关,u 与v 正相关 B.变量x 与y 正相关,u 与v 负相关
C.变量x 与y 负相关,u 与v 正相关 D.变量x 与y 负相关,u 与v 负相关
【答案】C
【知识点】判断正、负相关
【详解】变量x 与中y随x增大而减小,为负相关;u 与v中,u 随v的增大而增大,为正相关.
【变式1-3】(24-25高二下·河南南阳·阶段练习)有一散点图如图所示,在六组数据中去掉点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量正相关
B.相关系数的绝对值更接近于0
C.去掉点后,回归直线的效果变弱
D.变量与变量相关性变强
【答案】D
【知识点】判断正、负相关、相关系数的意义及辨析
【分析】根据散点图分析回归直线的拟合效果.
【详解】对A:由图可知,样本数据的两变量负相关,故A错误;
对B:由图可知,点相对于其它点,偏离直线远,故去掉点后,回归直线的拟合效果会更好,相关系数的绝对值更接近于1,故B错误;
对C:去掉点后,回归直线的效果变强,故C错误;
对D:正确.
故选:D
题型二 相关系数的计算与分析
【例2】(24-25高二下·全国·课前预习)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了9次试验,收集数据如表所示.
零件数/个
10
20
30
40
50
60
70
80
90
加工时间
62
68
75
81
89
95
102
108
112
用向量夹角来分析表中两组数据的相关关系.
【答案】高度正相关
【知识点】相关系数的意义及辨析
【分析】由向量夹角公式,求得夹角余弦值,即可判断.
【详解】由于,,
将表中的两组数据分别减去,,
记,
.
则,,
,,.
.
由此看出,其余弦值接近于1,也就是两向量的夹角接近于0,这说明这两组数据高度正相关.
【变式2-1】(23-24高二下·广东珠海·阶段练习)一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
【答案】D
【知识点】相关系数的计算
【分析】运用相关系数公式进行求解即可.
【详解】因为,,所以,
,
故选:D.
【变式2-2】(22-23高二下·湖北孝感·期末)(1)若成对样本数据都落在直线上,求样本相关系数.
(2)现随机抽取10家航空公司,对其最近一年的航班正点率和乘客投诉次数进行调查.所得数据如下表所示:
航空公司编号
1
2
3
4
5
6
7
8
9
10
航班正点率
80
78
81
84
86
90
91
93
88
89
乘客投诉次数
26
33
24
20
18
10
9
7
12
11
根据表格的数据,试问乘客投诉次数与航班正点率之间是否呈现线性相关关系?它们之间的相关程度如何?
参考数据:相关系数,当时两个变量之间具有很强的线性相关关系.取.
【答案】(1)-1 ;(2)是;具有很强的线性相关关系 .
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】(1)利用相关系数与线性相关程度的关系得结果;
(2)计算相关系数,由数据判断结论.
【详解】(1)因为样本数据都落在直线上,且直线的斜率为负数,所以相关系数为-1.
(2),
,
,
,
,
,
所以,
所以乘客投诉次数与航班正点率之间负相关,具有很强的线性相关关系.
【变式2-3】(2023高二·全国·专题练习)第24届冬奥会于2022年2月4日在北京市和张家口市联合举行,此项赛事大大激发了国人冰雪运动的热情.某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第x天的滑雪人数(单位:百人)的数据:
天数代码x
1
2
3
4
5
6
7
滑雪人数y/百人
11
13
16
15
20
21
23
根据第1至7天的数据分析,可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明(保留两位有效数字).
参考数据:.
参考公式:对于一组数据,其相关系数.
【答案】答案见解析
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】根据相关数据,求得相关系数判断.
【详解】因为,,
所以,
所以,
所以样本相关系数r的绝对值接近于1,
所以可以推断x和y这两个变量线性相关,且相关程度很强.
题型三 用回归直线方程估计总体
【例3】(24-25高二下·全国·单元测试)为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的7月10日至7月14日时段中的相关数据,这5天中的第天到该电商平台专营店购物的人数(单位:万人)的数据如下表:
日期
7月10日
7月11日
7月12日
7月13日
7月14日
第天
1
2
3
4
5
人数(单位:万人)
75
84
93
98
100
参考数据:,,.
附:相关系数,回归直线方程的斜率,截距.
(1)依据表中的统计数据,请判断该电商平台直播的第天与到该电商平台专营店购物人数(单位:万人)是否具有较高的线性相关程度?(参考:若,则线性相关程度一般,若,则线性相关程度较高,计算时精确度为0.01)
(2)求购物人数与直播的第天的回归直线方程;用样本估计总体,请预测从7月10日起的第38天到该专营店购物的人数(单位:万人).
【答案】(1)具有较高的线性相关程度;
(2),314万人
【知识点】相关系数的计算、相关系数的意义及辨析、用回归直线方程对总体进行估计、计算几个数的平均数
【分析】(1)求出,,求出,求出,与参考数据比较,判断结论;
(2)求出,求出,求出,令,求出.
【详解】(1)由表中数据可得,,
所以.又,
,所以,
所以该电商平台直播的天数与购物人数具有较高的线性相关程度;
(2)由(1)知可用线性回归模型拟合人数与第天之间的关系,
由表中数据可得,
则,
所以,令,
可得(万人).
【变式3-1】(23-24高二下·四川攀枝花·期末)乡村振兴战略坚持农业农村优先发展,目标是按照产业兴旺、生态宜居、乡风文明、治理有效、生活富裕的总要求,建立健全城乡融合发展体制机制和政策体系,加快推进农业农村现代化.某乡镇通过建立帮扶政策,使得该乡镇财政收入连年持续增长,具体数据如表所示:
第年
1
2
3
4
5
收入(单位:亿元)
3
8
10
14
15
由上表可得关于的近似回归方程为,则第6年该乡镇财政收入预计为 亿元.
【答案】19
【知识点】根据样本中心点求参数、计算样本的中心点、用回归直线方程对总体进行估计
【分析】先根据线性回归方程一定经过样本中心点求,再利用回归方程进行预计.
【详解】因为:,,由线性回归方程一定经过样本中心点,可得:
,所以,即.
当时,.
故答案为:19
【变式3-2】(2024·全国·模拟预测)氮氧化物是一种常见的大气污染物,它是由氮和氧两种元素组成的化合物,有多种不同的形式.下图为我国2014年至2022年氮氧化物排放量(单位:万吨)的折线图,其中,年份代码1~9分别对应年份2014~2022.
计算得,,.
(1)是否可用线性回归模型拟合与的关系?请用折线图和相关系数加以说明;
(2)是否可用题中数据拟合得到的线性回归模型预测2023年和2033年的氮氧化物排放量?请说明理由.
附:相关系数,.
【答案】(1)可以用线性回归模型拟合与的关系,答案见解析
(2)答案见解析
【知识点】相关系数的意义及辨析、用回归直线方程对总体进行估计
【分析】(1)结合参考数据,求出相关系数,进而可以得出结论;
(2)2023年与题设数据的年份较接近,可以用回归模型预测2023年的氮氧化物排放量,2033年与题设数据的年份相距过远,而影响氮氧化物排放量的因素有很多,不可以预测2033年的氮氧化物排放量.
【详解】(1)从折线图看,各点近似落在一条直线附近,因而可以用线性回归模型拟合与的关系.
因为,所以该组数据的相关系数
.
,因而可以用线性回归模型拟合与的关系.
(2)可以用回归模型预测2023年的氮氧化物排放量,但不可以预测2033年的氮氧化物排放量,理由如下:
①2023年与题设数据的年份较接近,因而可以认为,短期内氮氧化物的排放量将延续(1)中的线性趋势,故可以用(1)中的回归模型进行预测;
②2033年与题设数据的年份相距过远,而影响氮氧化物排放量的因素有很多,这些因素在短期内可能保持,但从长期角度看很有可能会变化,因而用(1)中的回归模型预测是不准确的.
【变式3-3】(23-24高二下·广东梅州·期末)某网上购物平台为了提高某商品的销售业绩,对该商品近5个月的月销售单价x(单位:元)与月销量y(单位:个)之间的数据进行了统计,得到如下表数据:
单价x/元
180
190
200
210
220
月销量y/个
57
52
42
32
27
(1)根据以往经验,y与x具有线性相关关系,求y关于x的线性回归方程;
(2)若该商品的成本为140元/个,根据(1)中回归方程,求该商品月利润最大时的单价为多少元.(结果精确到1元)
参考公式:.参考数据:.
【答案】(1)
(2)196
【知识点】用回归直线方程对总体进行估计、求回归直线方程、计算样本的中心点
【分析】(1)利用表中的数据先求出,,再把表中数据代入公式求得,从而即可求得回归直线方程;
(2)由总利润等于销售单价减去进货价再乘以月销售量,易得总利润函数,再利用二次函数的最值求得单价.
【详解】(1)由表中数据求得:,,
则
故关于的回归直线方程为.
(2)设每月的总利润,
因为抛物线的对称轴方程为,
所以该拖把月利润最大时,该商品的单价为196元.
题型四 样本中心点问题
【例4】(23-24高二下·天津滨海新·期末)在下表的统计量中,有一个数值不清晰,用m表示.
x
1
2
3
4
5
y
6.3
7.4
8.1
8.7
m
已知表中数据的经验回归方程同时满足:①过点;②x每增加一个单位,y增加0.9个单位,则 当;时, .
【答案】
【知识点】求回归直线方程、根据回归方程进行数据估计、根据样本中心点求参数
【分析】由经验回归方程恒过样本点的中心求解,进而求得经验回归方程,即可求解时的值.
【详解】,,
因为经验回归方程过点,
所以,解得,
由,可得,则,
当时,,
故答案为:,.
【变式4-1】(23-24高二上·贵州黔东南·期末)已知变量x与y的取值如下表:
x
2
3
5
6
y
7
12
若y对x呈现线性相关关系,则y与x的线性回归直线必经过的定点为
【答案】
【知识点】计算样本的中心点
【分析】根据线性回归方程必过样本中心点求解.
【详解】因为,,
所以线性回归方程必过定点.
故答案为:
【变式4-2】(22-23高二下·河南驻马店·期中)已知某品牌的新能源汽车的使用年限(单位:年)与维护费用单位:千元)之间有如表数据:
使用年限年
维护费用千元
与之间具有线性相关关系,且关于的线性回归方程为(为常数).据此估计,使用年限为年时,维护费用约为 千元.
【答案】/
【知识点】根据回归方程进行数据估计、计算样本的中心点、根据回归方程求原数据中的值
【分析】
先根据条件写出,代入关于的线性回归方程为,求出,确定关于的线性回归方程,令即可得到结果.
【详解】由已知得:
,
因为关于的线性回归方程为,
所以,
解得,
所以关于的线性回归方程为,
则当时,千元.
故答案为:.
【变式4-3】(24-25高二下·全国·单元测试)在一组样本数据的散点图中,若所有样本点都在曲线附近波动,经计算,则实数 .
【答案】/
【知识点】非线性回归、根据样本中心点求参数
【分析】利用回归直线过样本中心点求解即得.
【详解】依题意,,
则,所以.
故答案为:
题型五 一元线性回归模型的应用
【例5】(22-23高二下·安徽阜阳·阶段练习)某城市的公交公司为了方便市民出行,科学规划车辆投放,在一个人员密集流动地段增设一个起点站,为了研究车辆发车间隔时间x与乘客等候人数y之间的关系,经过调查得到如下数据:
间隔时间(x分钟)
6
8
10
12
14
等候人数(y人)
15
18
20
24
23
(1)易知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)建立y关于x的回归直线方程,并预测车辆发车间隔时间为20分钟时乘客的等候人数.
附:回归直线的斜率和截距的最小二乘估计分别为,;相关系数;.
【答案】(1)答案见解析
(2),31人.
【知识点】求回归直线方程、相关系数的意义及辨析
【分析】(1)根据相关系数的公式,分别计算数据求解即可;
(2)根据回归直线方程的参数计算公式可得关于的回归直线方程为,再代入求解即可.
【详解】(1)由题意,知,,
,,
所以.又,则.
因为与的相关系数近似为0.95,说明与的线性相关非常高,
所以可以用线性回归模型拟合与的关系.
(2)由(1)可得,,
则,
所以关于的回归直线方程为,
当时,,
所以预测车辆发车间隔时间为20分钟时乘客的等候人数为31人.
【变式5-1】(24-25高二上·江苏常州·期末)某款3A级别游戏自发布以来便受到了广泛关注,仅用了三天时间便在各大平台上卖出超过1000万份,这一速度令人惊讶.下表是该游戏发布以来在某一平台各月的销售量统计表.
月份编号
1
2
3
4
5
销售量(百万份)
8
6.3
5.1
3.2
2.4
(1)依据表中的统计数据,计算样本相关系数(结果保留两位小数),并判断月份编号与销售量之间是否具有较强的线性相关性;
(2)预计该平台半年时间的销售量能否突破26百万份.
参考数据:;
参考公式:.
【答案】(1),具有较强的线性相关性
(2)不能
【知识点】求回归直线方程、相关系数的计算
【分析】(1)计算、、、、,代入可得答案.
(2)用最小二乘法求月销售量与月份编号的一元线性回归方程,代入计算可得答案.
【详解】(1)由题知,,
,
,
,
所以,
所以月份编号与销售量之间具有较强的线性相关性.
(2),,
所以经验回归方程为.
当时,,
所以该平台半年时间的销售量不能突破26百万份.
【变式5-2】(2021高二·全国·专题练习)下图是我国2014年至2021年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2014~2021.
由折线图看出,可用线性回归模型拟合y与t的关系,请求出相关系数r,并用相关系数的大小说明y与t相关性的强弱.
参考数据:i=10.97,=47.36,,≈2.646.
参考公式:相关系数r==.
【答案】y与t的相关系数近似为0.99, y与t的线性相关性较强.
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】依据折线图求出及,结合已知数据代入相关系数公式计算并判断作答.
【详解】由折线图中数据和参考数据得, ,
,,
则,
y与t的相关系数近似为0.99,接近于1,
所以y与t的线性相性较强.
【变式5-3】(2011·安徽·高考真题)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2002
2004
2006
2008
2010
需求量(万吨)
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程;
(2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.
【答案】(1);(2)该地2012年的粮食需求量约为万吨.
【知识点】根据回归方程进行数据估计、计算样本的中心点、求回归直线方程
【分析】(1)根据给定数据求出,再利用最小二乘法公式计算b即可计算作答.
(2)利用(1)的结论求出时的即可作答.
【详解】(1)依题意,,,
因此,,,
年需求量与年份之间的回归直线方程是:;
(2)由(1)知,当x=2012时,(万吨),
所以预测该地2012年的粮食需求量约为万吨.
题型六 非线性回归分析问题
【例6】(23-24高二下·河南南阳·期中)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
【答案】(1)模型中与的相关性较强.
(2)(i);(ii)27.1亿元.
【知识点】根据回归方程进行数据估计、相关系数的意义及辨析、非线性回归、求回归直线方程
【分析】(1)分别将表中数据代入相关系数公式求出,比较大小即可判断;
(2)(i)由取对数,换元得,由表中数据分别求和,得经验回归方程,利用指数式和对数式的互化,即得;
(ii)将代入回归方程,利用题设条件,即可预测下一年的研发资金投入量.
【详解】(1)由题意知
.
因为,所以,
故从样本相关系数的角度,模型中与的相关性较强.
(2)(i)由,得,即.
因为,
所以,
故关于的经验回归方程为,即
,所以.
(ii)将代入得.
,故得,解得,
故预测下一年的研发资金投入量是27.1亿元.
【变式6-1】(23-24高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【答案】D
【知识点】非线性回归、计算样本的中心点、根据样本中心点求参数
【分析】根据给定的数据求出样本中心点,求出即可.
【详解】由表格中数据,得,
则,解得,因此,
由两边取对数,得,又,
所以,即.
故选:D
【变式6-2】(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,
②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
【答案】(1)
(2)答案见解析
【知识点】相关指数的计算及分析、非线性回归、求回归直线方程
【分析】(1)对取对数,得,设,,先建立关于的线性回归方程.再回代,得到建立关于的非线性回归方程.
(2)先求出两种模型的决定系数,再根据大小决定选哪种模型,再代值,计算即可预测2021年该景区的旅游人数.
【详解】(1)对取对数,得,设,,先建立关于的线性回归方程.
,,
,
模型②的回归方程为.
(2)由表格中的数据,有3040714607,即,
即,,
模型①的相关指数小于模型②的,说明回归模型②的拟合效果更好.
2021年时,,预测旅游人数为(万人).
【变式6-3】(23-24高二下·江西新余·开学考试)某人新房刚装修完,为了监测房屋内空气质量的情况,每天在固定的时间测一次甲醛浓度(单位:mg/m3),连续测量了10天,所得数据绘制成散点图如下:用表示第天测得的甲醛浓度,令,经计算得,,.
(1)由散点图可知,与可用指数型回归模型进行拟合,请利用所给条件求出回归方程;(系数精确到0.01)
(2)已知房屋内空气中的甲醛浓度的安全范围是低于0.08 mg/m3,则根据(1)中所得回归模型,该新房装修完第几天开始达到此标准?(参考数据:)
附:,.
【答案】(1);
(2)第35天.
【知识点】根据回归方程进行数据估计、非线性回归、求回归直线方程
【分析】(1)设出回归直线方程,利用最小二乘法求出,再求出与的回归方程.
(2)利用(1)中回归模型建立不等式,再求解不等式即可.
【详解】(1)令,而,,
则,,
因此,即,
所以所求回归方程为.
(2)由(1)知:,即,解得,
所以,即在新房装修完第35天开始达到此标准.
题型七 列联表的完善与分析
【例7】(2023·全国甲卷·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表
对照组
试验组
(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)
(2)(i);列联表见解析,(ii)能
【知识点】计算几个数的平均数、完善列联表、卡方的计算
【分析】(1)直接根据均值定义求解;
(2)(i)根据中位数的定义即可求得,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)试验组样本平均数为:
(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,
由原数据可得第11位数据为,后续依次为,
故第20位为,第21位数据为,
所以,
故列联表为:
合计
对照组
6
14
20
试验组
14
6
20
合计
20
20
40
(ii)由(i)可得,,
所以能有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
【变式7-1】(多选)(21-22高二·全国·课后作业)为了增强学生的身体素质,某校将冬天长跑作为一项制度固定下来,每天大课间例行跑操.为了调查学生喜欢跑步是否与性别有关,研究人员随机调查了相同人数的男、女学生,发现男生中有80%喜欢跑步,女生中有40%不喜欢跑步,且有95%的把握判断喜欢跑步与性别有关,但没有99%的把握判断喜欢跑步与性别有关,则被调查的男、女学生的总人数可能为( )
A.120 B.130 C.240 D.250
【答案】AB
【知识点】独立性检验解决实际问题、卡方的计算、列联表分析
【分析】由题可得列联表,计算进而即得.
【详解】依题意,设男、女学生的人数均为,则被调查的男、女学生的总人数为.建立如下列联表:
喜欢跑步
不喜欢跑步
总计
男
女
总计
则,又,
所以.
故选:AB.
【变式7-2】(22-23高二下·青海西宁·期末)第31届世界大学生运动会将于2023年7月28日至8月8日在成都举行,组委会安排100名志愿者担任对外翻译工作,在下面“性别与会法语”的列联表中, .
会法语
不会法语
总计
男
a
b
40
女
12
d
总计
36
100
【答案】
【知识点】列联表分析
【分析】
根据题意,利用志愿者的总人数为100,列出方程,即可求解.
【详解】
根据表格中的数据,因为志愿者的总人数为100,所以,
解得.
故答案为:.
【变式7-3】(23-24高二上·上海·课后作业)下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
【答案】有显著差异,且中学更愿意报考
【知识点】列联表分析
【分析】分别计算中学报考某类大学的比例,对比即可得到结论.
【详解】中学愿意报考某类大学的比率为;
中学愿意报考某类大学的比例为;
,即中学愿意报考某类大学的比例比中学高了,
两所中学的学生对报考某类大学的态度有显著差异,且中学更愿意报考.
题型八 独立性检验的应用
【例8】(21-22高二·全国·课后作业)某种常见疾病可分为Ⅰ,Ⅱ两种类型.为了了解该疾病类型与地域、初次患该疾病的年龄(以下简称初次患病年龄)的关系,在甲、乙两个地区共随机抽取100名患者调查其疾病类型及初次患病年龄,得到表中数据:
初次患病年龄(单位:岁)
甲地Ⅰ型患者(单位:人)
甲地Ⅱ型患者(单位:人)
乙地Ⅰ型患者(单位:人)
乙地Ⅱ型患者(单位:人)
8
1
5
1
4
3
3
1
3
5
2
4
3
8
4
4
3
9
2
6
2
11
1
7
记初次患病年龄在的患者为低龄患者,初次患病年龄在的患者为高龄患者.根据表中数据,解决以下问题:
(1)将以下两个列联表补充完整,并判断地域、初次患病年龄这两个变量中哪个变量与该疾病的类型有关联的可能性更大.(直接写出结论,不必说明理由)
表1
Ⅰ型患者
Ⅱ型患者
总计
甲地
乙地
总计
100
表2
Ⅰ型患者
Ⅱ型患者
总计
低龄
高龄
总计
100
(2)记(1)中与该疾病的类型有关联的可能性更大的变量为.问:是否有99%的把握认为该疾病的类型与X有关?
0.050
0.025
0.010
0.005
3.841
5.024
6.635
7.879
【答案】(1)表格见解析,初次患病年龄与该疾病的类型有关联的可能性更大;
(2)有99%的把握认为该疾病类型与初次患病年龄有关.
【知识点】独立性检验解决实际问题、卡方的计算、列联表分析、完善列联表
【分析】(1)由题可得列联表,根据数据比较的大小即得;
(2)根据的公式即得.
【详解】(1)由题可得列联表:
表1
Ⅰ型患者
Ⅱ型患者
总计
甲地
23
37
60
乙地
17
23
40
总计
40
60
100
表2
Ⅰ型患者
Ⅱ型患者
总计
低龄
25
15
40
高龄
15
45
60
总计
40
60
100
由表1数据可得,由表2数据可得,
所以初次患病年龄与该疾病的类型有关联的可能性更大;
(2)根据表2的数据,
可得,
由于,
故有99%的把握认为该疾病类型与初次患病年龄有关.
【变式8-1】(2024·四川绵阳·一模)近年来,解放军强军兴军的深刻变化,感召了越来越多的高中优秀青年学子献身国防,投身军营.2024年高考,很多高考毕业学生报考了军事类院校.从某地区内学校的高三年级中随机抽取了900名学生,其中男生500人,女生400人,通过调查,有报考军事类院校意向的男生、女生各100名.
(1)完成给出的列联表,并分别估计该地区高三男、女学生有报考军事类院校意向的概率;
有报考意向
无报考意向
合计
男学生
女学生
合计
(2)根据小概率值的独立性检验,能否认为学生有报考军事类院校的意愿与性别有关.
参考公式及数据:.
α
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,男生有报考军事类院校意向的概率为,女生有报考军事类院校意向的概率为
(2)能认为学生有报考军事类院校的意愿与性别有关
【知识点】完善列联表、独立性检验解决实际问题、计算古典概型问题的概率
【分析】(1)先填写列联表,再根据古典概型概率计算公式求得正确答案.
(2)计算的知识,从而作出判断.
【详解】(1)根据已知条件,填写列联表如下:
有报考意向
无报考意向
合计
男学生
100
400
500
女学生
100
300
400
合计
200
700
900
男生有报考军事类院校意向的概率为,
女生有报考军事类院校意向的概率为.
(2),
所以能认为学生有报考军事类院校的意愿与性别有关.
【变式8-2】(20-21高二·江苏·课后作业)“使用动物做医学实验是正确的,这样做能够挽救人的生命某机构调查了1152位成年人对这种说法的态度,以下是调查对象回答情况的列联表:
回答情况
男性
女性
同意
346
306
不置可否
87
139
不同意
83
191
(1)用适当的方式描述男性与女性对该问题态度的差异(比例、图或文字均可);
(2)你能用独立性检验的思想方法研究“男性与女性对该问题态度的差异”吗?如果希望解决这个问题,请在独立研究的基础上,查阅相关资料.给出你的结论.
【答案】(1)答案见解析;
(2)有的把握说明性别与对该问题的态度有关.
【知识点】独立性检验解决实际问题、卡方的计算、列联表分析
【分析】(1)根据总体持肯定、否定人数的比例,与男性、女性不同态度的占比作比较,即可大致判断男性与女性对该问题态度的差异.
(2)写出男、女性与肯定、否定的2*2列联表,计算卡方值,比较卡方临界值参照表,研究男性、女性对该问题的态度即可.
【详解】(1)由表格数据知: 总体持肯定态度占比约为,持否定态度占比约为.
被调查男性有人,同意占比约为,不同意占比约为;
被调查女性有人,同意占比约为;不同意占比约为;
∴6成以上男性对该问题态度为肯定,不到5成女性对该问题态度为肯定,同时有3成女性持否定态度,总体上男、女性的态度都偏肯定.
(2)零假设:性别与对该问题态度相互独立,即性别与对该问题态度无关,
由数据知:可得如下列联表,
男性
女性
合计
同意
346
306
652
不同意
83
191
274
合计
429
497
926
∴,
根据小概率的独立性检验,有充分证据说明不成立,即有的把握说明性别与对该问题的态度有关.
现状:实验导致大量动物死亡且动物生存状况环境不佳,遭到动物保护主义者反对.
解决方法:应用现代计算机模拟技术替代实验,实验评估减少使用动物数量,优化实验动物的生存环境及试验过程.
【变式8-3】(23-24高二下·浙江宁波·期中)某城市地铁将于2024年5月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度统计数据如下表:
月收入
(单位:百元)
赞成定价者人数
2
2
4
5
3
4
认为价格偏高者人数
4
8
9
6
2
1
(1)若以区间的中点值为该区间内的人均月收入,分别求出参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入;
(2)根据以上统计数据填下面列联表,依据小概率值的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”?
对地铁定价的态度
人均月收入
合计
不低于55百元的人数
低于55百元的人数
认为价格偏高者
赞成定价者
合计
附:,其中.
参考数据
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)“赞成定价者”的月平均收入为百元;“认为价格偏高者”的月平均收入为百元.
(2)列联表见解析;不能认为“月收入以55百元为分界点对地铁定价的态度有差异”.
【知识点】独立性检验解决实际问题、卡方的计算、完善列联表、由频率分布直方图估计平均数
【分析】(1)先分别求出赞成定价者总人数和认为价格偏高者总人数,再依据平均数定义直接计算即可得解.
(2)根据题目表格所给数据即可填写列联表;根据独立性检验的思想方法计算,再与临界值比较即可得解.
【详解】(1)由题意可知赞成定价者总人数为人,
认为价格偏高者总人数为人,
所以“赞成定价者”的月平均收入为(百元),
“认为价格偏高者”的月平均收入为(百元).
(2)由题补全列联表如下:
对地铁定价的态度
人均月收入
合计
不低于55百元的人数
低于55百元的人数
认为价格偏高者
3
27
30
赞成定价者
7
13
20
合计
10
40
50
设零假设:月收入以55百元为分界点对地铁定价的态度无差异,
由列联表表格数据得,
所以依据小概率值的独立性检验推断成立,即认为月收入以55百元为分界点对地铁定价的态度无差异,
所以依据小概率值的独立性检验不能认为“月收入以55百元为分界点对地铁定价的态度有差异”.
题型九 统计的综合应用
【例9】(22-23高二下·广东广州·期末)某通信公司为了更好地满足消费者对流量的需求,推出了不同定价的流量包,经过一个月的统计,获取了容量为万人的样本.同时为了进一步了解年龄因素是否对流量包价格有影响,统计了小于岁和大于等于岁两个年龄段人群的购买人数,收集数据整理如表所示.
表1
定价(元/月)
20
30
50
60
岁(万人)
10
15
7
8
岁(万人)
20
12
6
2
购买总人数(万人)
30
27
13
10
表2
年龄段
流量包
合计
元
元
岁
岁
合计
(1)试根据这些数据建立购买总人数关于定价的经验回归方程,并估计定价为元/月的流量包的购买人数;
(2)若把元/月以下(不包括元)的流量包称为低价流量包,元/月以上(包括元)的流量包称为高价流量包,根据以上数据完成列联表,依据的独立性检验,判断年龄段和流量包价格是否有关联.附:
,,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1);约为万人
(2)没有关联,理由见解析
【知识点】独立性检验解决实际问题、列联表分析、求回归直线方程、用回归直线方程对总体进行估计
【分析】(1)计算出、的值,将表格中的数据代入最小二乘法公式,求出、的值,可得出回归直线方程,将代入回归方程,可得所求结果;
(2)完善列联表,计算出的观测值,结合临界值表可得出结论.
【详解】(1)解:由表格中的数据可得,,
,,
所以,关于的回归方程为,
当时,(万人),
因此,估计定价为元/月的流量包的购买人数约为万人.
(2)解:零假设年龄段和流量包价格没有关联,
由题中数据完善列联表如下表所示:
年龄段
流量包
合计
元
元
岁
岁
合计
,
所以,依据小概率的独立性检验,我们推断成立,
即认为年龄段和流量包价格没有关联.
【变式9-1】(24-25高二下·全国·课后作业)2023年3月22日是第三十一届“世界水日”,3月22-28日是第三十六届“中国水周”.我国纪念2023年“世界水日”“中国水周”活动主题为“强化依法治水,携手共护母亲河”.为提高学生惜水爱水、节约护水的意识,某高中随机抽取了人进行专项答题测试,数据如下表:
成绩
年级
高一
高二
若学生的答题测试成绩大于等于分,则视为“护水意识强”,否则视为“护水意识薄弱”.
(1)求该校高一、高二学生的专项答题测试成绩的中位数(保留1位小数);
(2)判断是否有的把握认为护水意识与年级有关.
【答案】(1)高一、高二中位数分别为分,分;
(2)没有的把握认为护水意识与年级有关.
【知识点】由频率分布直方图估计中位数、卡方的计算、独立性检验解决实际问题
【分析】(1)根据中位数的定义及公式直接可得解;
(2)列联表,根据独立性检验公式可判断.
【详解】(1)因为,所以高一学生成绩的中位数为;
又,,
所以高二学生成绩的中位数在范围内,
则中位数为;
(2)根据题中表格数据写出如下列联表:
高一
高二
合计
护水意识强
护水意识薄弱
合计
则,
所以没有的把握认为护水意识与年级有关.
【变式9-2】(2022·陕西榆林·模拟预测)某中学为研究学生的身体素质与课外体育锻炼时间的关系,对该校200名学生每天课外体育锻炼的平均时间(单位:分钟)进行调查,将收集的数据分成,,,,,六组,并作出频率分布直方图(如图),将日均课外体育锻炼时间不低于40分钟的学生评价为“课外体育达标”.
(1)请根据直方图中的数据,将下面的列联表补充完整;
课外体育不达标
课外体育达标
合计
男
60
女
110
合计
(2)根据(1)中所得数据,判断是否能在犯错误的概率不超过0.01的前提下认为“课外体育达标”与性别有关?
附:.
0.15
0.05
0.025
0.010
0.005
0.001
2.072
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析
(2)不能认为“课外体育达标”与性别有关
【知识点】完善列联表、独立性检验解决实际问题
【分析】(1)根据频率求出“课外体育达标”人数,即可完善列联表.
(2)根据(1)中列联表的数据,计算,比较临界值可得结论.
【详解】(1)由题意得“课外体育达标”人数为,则“课外体育不达标”人数为150.
补充完整的列联表如下:
课外体育不达标
课外体育达标
合计
男
60
30
90
女
90
20
110
合计
150
50
200
(2),
在犯错误的概率不超过0.01的前提下不能认为“课外体育达标”与性别有关.
【变式9-3】(24-25高三上·重庆·阶段练习)广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
【答案】(1)700
(2)0.94
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样,理由见解析
【知识点】相关系数的计算、计算几个数的平均数、分层抽样的特征及适用条件
【分析】(1)求出样本平均数,再乘以地块数可得出结果;
(2)根据题中所给数据,代入,可得出结果;
(3)由(2)知知各样区的这种鸟数量与植物覆盖面积有很强的正相关,各地块间这种植物数量差异也很大,适合采用分层抽样.
【详解】(1)由已知得样本平均数,
从而广阳岛这种鸟数量的估计值为.
(2),
,
故样本的相关系数
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样.
理由如下:由(2)知各样区的这种鸟数量与植物覆盖面积有很强的正相关,
由于各地块间植物覆盖面积差异很大,从而各地块间这种鸟数量差异也很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得广阳岛这种鸟数量更准确的估计.
题型十 概率统计的综合问题
【例10】(23-24高二下·上海奉贤·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有95%的把握认为患慢性气管炎与吸烟有关?
(2)现从不患慢性气管炎者的样本中,按分层抽样的方法选出7人,从这7人里再随机选取3人,求这3人中,不吸烟者的人数X的数学期望.
附:,.
【答案】(1)有的把握认为患慢性气管炎与吸烟有关
(2)
【知识点】求离散型随机变量的均值、独立性检验解决实际问题、卡方的计算
【分析】(1)利用表格中的数据计算的观测值,再与临界值比对得解.
(2)求出的可能值及对应的概率,进而求出数学期望.
【详解】(1)零假设:患慢性气管炎与吸烟无关,
,
由,而,从而否定原假设,
即有的把握认为患慢性气管炎与吸烟有关.
(2)按分层抽样,不吸烟者3人,吸烟者4人,
的可能值为0,1,2,3,
,,,,
所以.
【变式10-1】(24-25高二上·江西南昌·期末)我国探月工程亦称“嫦娥工程”,年月日,嫦娥六号完成了人类首次月球背面智能采样工作,并在月下旬携带月球样品返回地球,为人类进一步研究和利用月球资源提供了保证为了解不同性别的学生对探月工程的关注程度(“十分关注”与“比较关注”),学校随机抽取男生和女生各名进行调查,数据表明:男生中有的同学“十分关注”,女生中有的同学“十分关注”,其他学生都是“比较关注”.
(1)根据条件,列出列联表,并判断是否有的把握认为对探月工程的关注程度与性别有关;
(2)学校为提升同学们对探月工程的关注度,在以上“比较关注”的学生中运用分层抽样的方法抽取8人进行科普类培训,再从这8人中随机抽取人进行重点培训,求这人中至少有1名男生的概率.
附:,其中.
【答案】(1)列联表见解析,没有的把握认为对探月工程的关注程度与性别有关
(2)
【知识点】抽样比、样本总量、各层总数、总体容量的计算、卡方的计算、独立性检验解决实际问题、计算古典概型问题的概率
【分析】(1)根据题意列出列联表,并根据卡方公式计算卡方,由独立性检验的基本思想判定即可;
(2)先利用分层抽样原理计算抽取男女生人数,再利用古典概型计算概率即可.
【详解】(1)由题意可得列联表:
男
女
合计
十分关注
比较关注
合计
,
没有的把握认为对探月工程的关注程度与性别有关.
(2)由题意知,8人中男生人,女生人.
记“人中至少有1名男生”为事件,
则.
【变式10-2】(24-25高二上·江西宜春·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.学生甲获一等奖学金的概率为,获二等奖学金的概率为,不获得奖学金的概率为.求在学生甲获得奖学金的条件下,求他获得一等奖学金的概率.
【答案】(1),186元.
(2)
【知识点】根据回归方程进行数据估计、计算条件概率、求回归直线方程
【分析】(1)利用公式求线性回归方程,代入数据即可得到结果.
(2)利用条件概率公式求解可得结果.
【详解】(1)依题意可得,
,
,
当时,(元),
即每天售出8箱水的预计收益是186元.
(2)设事件为“学生甲获得奖学金”,事件为“学生甲获得一等奖学金”,
则,,所以,
即学生甲获得奖学金的条件下,获得一等奖学金的概率为.
【变式10-3】(24-25高二下·江西南昌·阶段练习)近期,流感在某小学肆意传播.流感病毒主要在学生之间传染,低年龄段(一、二年级)的学生感染情况相对较多.病毒进入人体后存在潜伏期,潜伏期指病原体侵入人体至最早出现临床症状的这段时间,潜伏期越长,传染给其他同学的可能性越高.学校对300个感染流感病例的潜伏期(单位:天)进行调查,统计得出潜伏期的平均数为2,方差,若把超过3天的潜伏期视为长潜伏期,按照年级统计样本,得到如下列联表:
年龄/人数
长潜伏期
非长潜伏期
低年龄段(一、二年级)
40
100
高年龄段(三~六年级)
30
130
(1)是否有95%的把握认为“长潜伏期”与年级有关?
(2)假设潜伏期服从正态分布,其中近似样本平均数,近似为样本方差
(i)学校现在对有流感症状学生的密切接触者一律要求隔离5天,请用概率知识解释其合理性.
(ii)以题目中的样本估计概率,设800个病例中恰有个属于“长潜伏期”的概率是,当为何值时,取最大值.
(附:,)
0.10
0.05
0.010
2.706
3.841
6.635
若,则,,.
参考数据:,,.
【答案】(1)有95%的把握认为“长潜伏期”与年级有关;
(2)(i)见解析;(ii)186.
【知识点】卡方的计算、独立重复试验的概率问题、正态分布的实际应用
【分析】(1)由已知数据计算后与临界值比较可得;
(2)(i)由潜伏期,利用小概率事件判断;(ii)求得1个人属于长潜伏期的概率为,得,然后解不等式组可得.
【详解】(1)由题意,
所以有95%的把握认为“长潜伏期”与年级有关;
(2)(i)由题意,潜伏期,
,
所以,
即潜伏期5天或以上的概率约为,非常的小,
所以隔离5天后,一般不会再传染,即隔离5天是合理的;
(ii)由题意,1个人属于长潜伏期的概率为,
所以,
设时最大,
则,
解得,又,所以,
所以时取得最大值.
1 / 7
学科网(北京)股份有限公司
$$
专题突破:统计重点题型突破
1. 判断相关关系的方法:
(1)定义法
(2)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(3)决定系数法:利用决定系数判定,R2越接近1,拟合效果越好,相关性越强.
2.变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.
3.求线性回归方程的步骤
(2)计算
(3)利用=-,求.
(4)写出经验回归方程.
4.样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心,即回归直线经过点(,).
5.一元线性回归模型的应用
(1)方法步骤:
(2)在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(,)),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.利用回归直线方程求出的是估算值,非准确值.
6.非线性回归分析问题
(1)对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.
(2)在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.
(3)如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.
例如:
①反比例函数y=a+可作变换t=,得y=a+bt.
②幂函数型y=axb(a>0)可作变换Y=lny,m=lna,t=lnx,则有
Y=m+bt.
③指数型函数y=kabx(a>0且a≠1,k>0)可作变换Y=lny,m=lnk,则有:Y=m+(blna)x
7.独立性检验的步骤:
第一步,确定分类变量,获取样本频数,得到列联表.
第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
第三步,利用公式K2=计算随机变量K2的观测值K0.
第四步,作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
题型一 散点图、相关关系的判断与辨析
【例1】(2023·天津·高考真题)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
【变式1-1】(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【变式1-2】(2009·宁夏·高考真题)对变量x, y 有观测数据(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断.
A.变量x 与y 正相关,u 与v 正相关 B.变量x 与y 正相关,u 与v 负相关
C.变量x 与y 负相关,u 与v 正相关 D.变量x 与y 负相关,u 与v 负相关
【变式1-3】(24-25高二下·河南南阳·阶段练习)有一散点图如图所示,在六组数据中去掉点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量正相关
B.相关系数的绝对值更接近于0
C.去掉点后,回归直线的效果变弱
D.变量与变量相关性变强
题型二 相关系数的计算与分析
【例2】(24-25高二下·全国·课前预习)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了9次试验,收集数据如表所示.
零件数/个
10
20
30
40
50
60
70
80
90
加工时间
62
68
75
81
89
95
102
108
112
用向量夹角来分析表中两组数据的相关关系.
【变式2-1】(23-24高二下·广东珠海·阶段练习)一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
【变式2-2】(22-23高二下·湖北孝感·期末)(1)若成对样本数据都落在直线上,求样本相关系数.
(2)现随机抽取10家航空公司,对其最近一年的航班正点率和乘客投诉次数进行调查.所得数据如下表所示:
航空公司编号
1
2
3
4
5
6
7
8
9
10
航班正点率
80
78
81
84
86
90
91
93
88
89
乘客投诉次数
26
33
24
20
18
10
9
7
12
11
根据表格的数据,试问乘客投诉次数与航班正点率之间是否呈现线性相关关系?它们之间的相关程度如何?
参考数据:相关系数,当时两个变量之间具有很强的线性相关关系.取.
【变式2-3】(2023高二·全国·专题练习)第24届冬奥会于2022年2月4日在北京市和张家口市联合举行,此项赛事大大激发了国人冰雪运动的热情.某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第x天的滑雪人数(单位:百人)的数据:
天数代码x
1
2
3
4
5
6
7
滑雪人数y/百人
11
13
16
15
20
21
23
根据第1至7天的数据分析,可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明(保留两位有效数字).
参考数据:.
参考公式:对于一组数据,其相关系数.
题型三 用回归直线方程估计总体
【例3】(24-25高二下·全国·单元测试)为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的7月10日至7月14日时段中的相关数据,这5天中的第天到该电商平台专营店购物的人数(单位:万人)的数据如下表:
日期
7月10日
7月11日
7月12日
7月13日
7月14日
第天
1
2
3
4
5
人数(单位:万人)
75
84
93
98
100
参考数据:,,.
附:相关系数,回归直线方程的斜率,截距.
(1)依据表中的统计数据,请判断该电商平台直播的第天与到该电商平台专营店购物人数(单位:万人)是否具有较高的线性相关程度?(参考:若,则线性相关程度一般,若,则线性相关程度较高,计算时精确度为0.01)
(2)求购物人数与直播的第天的回归直线方程;用样本估计总体,请预测从7月10日起的第38天到该专营店购物的人数(单位:万人).
【变式3-1】(23-24高二下·四川攀枝花·期末)乡村振兴战略坚持农业农村优先发展,目标是按照产业兴旺、生态宜居、乡风文明、治理有效、生活富裕的总要求,建立健全城乡融合发展体制机制和政策体系,加快推进农业农村现代化.某乡镇通过建立帮扶政策,使得该乡镇财政收入连年持续增长,具体数据如表所示:
第年
1
2
3
4
5
收入(单位:亿元)
3
8
10
14
15
由上表可得关于的近似回归方程为,则第6年该乡镇财政收入预计为 亿元.
【变式3-2】(2024·全国·模拟预测)氮氧化物是一种常见的大气污染物,它是由氮和氧两种元素组成的化合物,有多种不同的形式.下图为我国2014年至2022年氮氧化物排放量(单位:万吨)的折线图,其中,年份代码1~9分别对应年份2014~2022.
计算得,,.
(1)是否可用线性回归模型拟合与的关系?请用折线图和相关系数加以说明;
(2)是否可用题中数据拟合得到的线性回归模型预测2023年和2033年的氮氧化物排放量?请说明理由.
附:相关系数,.
【变式3-3】(23-24高二下·广东梅州·期末)某网上购物平台为了提高某商品的销售业绩,对该商品近5个月的月销售单价x(单位:元)与月销量y(单位:个)之间的数据进行了统计,得到如下表数据:
单价x/元
180
190
200
210
220
月销量y/个
57
52
42
32
27
(1)根据以往经验,y与x具有线性相关关系,求y关于x的线性回归方程;
(2)若该商品的成本为140元/个,根据(1)中回归方程,求该商品月利润最大时的单价为多少元.(结果精确到1元)
参考公式:.参考数据:.
题型四 样本中心点问题
【例4】(23-24高二下·天津滨海新·期末)在下表的统计量中,有一个数值不清晰,用m表示.
x
1
2
3
4
5
y
6.3
7.4
8.1
8.7
m
已知表中数据的经验回归方程同时满足:①过点;②x每增加一个单位,y增加0.9个单位,则 当;时, .
【变式4-1】(23-24高二上·贵州黔东南·期末)已知变量x与y的取值如下表:
x
2
3
5
6
y
7
12
若y对x呈现线性相关关系,则y与x的线性回归直线必经过的定点为
【变式4-2】(22-23高二下·河南驻马店·期中)已知某品牌的新能源汽车的使用年限(单位:年)与维护费用单位:千元)之间有如表数据:
使用年限年
维护费用千元
与之间具有线性相关关系,且关于的线性回归方程为(为常数).据此估计,使用年限为年时,维护费用约为 千元.
【变式4-3】(24-25高二下·全国·单元测试)在一组样本数据的散点图中,若所有样本点都在曲线附近波动,经计算,则实数 .
题型五 一元线性回归模型的应用
【例5】(22-23高二下·安徽阜阳·阶段练习)某城市的公交公司为了方便市民出行,科学规划车辆投放,在一个人员密集流动地段增设一个起点站,为了研究车辆发车间隔时间x与乘客等候人数y之间的关系,经过调查得到如下数据:
间隔时间(x分钟)
6
8
10
12
14
等候人数(y人)
15
18
20
24
23
(1)易知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)建立y关于x的回归直线方程,并预测车辆发车间隔时间为20分钟时乘客的等候人数.
附:回归直线的斜率和截距的最小二乘估计分别为,;相关系数;.
【变式5-1】(24-25高二上·江苏常州·期末)某款3A级别游戏自发布以来便受到了广泛关注,仅用了三天时间便在各大平台上卖出超过1000万份,这一速度令人惊讶.下表是该游戏发布以来在某一平台各月的销售量统计表.
月份编号
1
2
3
4
5
销售量(百万份)
8
6.3
5.1
3.2
2.4
(1)依据表中的统计数据,计算样本相关系数(结果保留两位小数),并判断月份编号与销售量之间是否具有较强的线性相关性;
(2)预计该平台半年时间的销售量能否突破26百万份.
参考数据:;
参考公式:.
【变式5-2】(2021高二·全国·专题练习)下图是我国2014年至2021年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2014~2021.
由折线图看出,可用线性回归模型拟合y与t的关系,请求出相关系数r,并用相关系数的大小说明y与t相关性的强弱.
参考数据:i=10.97,=47.36,,≈2.646.
参考公式:相关系数r==.
【变式5-3】(2011·安徽·高考真题)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2002
2004
2006
2008
2010
需求量(万吨)
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程;
(2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.
题型六 非线性回归分析问题
【例6】(23-24高二下·河南南阳·期中)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
【变式6-1】(23-24高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【变式6-2】(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,
②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
【变式6-3】(23-24高二下·江西新余·开学考试)某人新房刚装修完,为了监测房屋内空气质量的情况,每天在固定的时间测一次甲醛浓度(单位:mg/m3),连续测量了10天,所得数据绘制成散点图如下:用表示第天测得的甲醛浓度,令,经计算得,,.
(1)由散点图可知,与可用指数型回归模型进行拟合,请利用所给条件求出回归方程;(系数精确到0.01)
(2)已知房屋内空气中的甲醛浓度的安全范围是低于0.08 mg/m3,则根据(1)中所得回归模型,该新房装修完第几天开始达到此标准?(参考数据:)
附:,.
题型七 列联表的完善与分析
【例7】(2023·全国甲卷·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表
对照组
试验组
(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【变式7-1】(多选)(21-22高二·全国·课后作业)为了增强学生的身体素质,某校将冬天长跑作为一项制度固定下来,每天大课间例行跑操.为了调查学生喜欢跑步是否与性别有关,研究人员随机调查了相同人数的男、女学生,发现男生中有80%喜欢跑步,女生中有40%不喜欢跑步,且有95%的把握判断喜欢跑步与性别有关,但没有99%的把握判断喜欢跑步与性别有关,则被调查的男、女学生的总人数可能为( )
A.120 B.130 C.240 D.250
【变式7-2】(22-23高二下·青海西宁·期末)第31届世界大学生运动会将于2023年7月28日至8月8日在成都举行,组委会安排100名志愿者担任对外翻译工作,在下面“性别与会法语”的列联表中, .
会法语
不会法语
总计
男
a
b
40
女
12
d
总计
36
100
【变式7-3】(23-24高二上·上海·课后作业)下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
题型八 独立性检验的应用
【例8】(21-22高二·全国·课后作业)某种常见疾病可分为Ⅰ,Ⅱ两种类型.为了了解该疾病类型与地域、初次患该疾病的年龄(以下简称初次患病年龄)的关系,在甲、乙两个地区共随机抽取100名患者调查其疾病类型及初次患病年龄,得到表中数据:
初次患病年龄(单位:岁)
甲地Ⅰ型患者(单位:人)
甲地Ⅱ型患者(单位:人)
乙地Ⅰ型患者(单位:人)
乙地Ⅱ型患者(单位:人)
8
1
5
1
4
3
3
1
3
5
2
4
3
8
4
4
3
9
2
6
2
11
1
7
记初次患病年龄在的患者为低龄患者,初次患病年龄在的患者为高龄患者.根据表中数据,解决以下问题:
(1)将以下两个列联表补充完整,并判断地域、初次患病年龄这两个变量中哪个变量与该疾病的类型有关联的可能性更大.(直接写出结论,不必说明理由)
表1
Ⅰ型患者
Ⅱ型患者
总计
甲地
乙地
总计
100
表2
Ⅰ型患者
Ⅱ型患者
总计
低龄
高龄
总计
100
(2)记(1)中与该疾病的类型有关联的可能性更大的变量为.问:是否有99%的把握认为该疾病的类型与X有关?
0.050
0.025
0.010
0.005
3.841
5.024
6.635
7.879
【变式8-1】(2024·四川绵阳·一模)近年来,解放军强军兴军的深刻变化,感召了越来越多的高中优秀青年学子献身国防,投身军营.2024年高考,很多高考毕业学生报考了军事类院校.从某地区内学校的高三年级中随机抽取了900名学生,其中男生500人,女生400人,通过调查,有报考军事类院校意向的男生、女生各100名.
(1)完成给出的列联表,并分别估计该地区高三男、女学生有报考军事类院校意向的概率;
有报考意向
无报考意向
合计
男学生
女学生
合计
(2)根据小概率值的独立性检验,能否认为学生有报考军事类院校的意愿与性别有关.
参考公式及数据:.
α
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【变式8-2】(20-21高二·江苏·课后作业)“使用动物做医学实验是正确的,这样做能够挽救人的生命某机构调查了1152位成年人对这种说法的态度,以下是调查对象回答情况的列联表:
回答情况
男性
女性
同意
346
306
不置可否
87
139
不同意
83
191
(1)用适当的方式描述男性与女性对该问题态度的差异(比例、图或文字均可);
(2)你能用独立性检验的思想方法研究“男性与女性对该问题态度的差异”吗?如果希望解决这个问题,请在独立研究的基础上,查阅相关资料.给出你的结论.
【变式8-3】(23-24高二下·浙江宁波·期中)某城市地铁将于2024年5月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度统计数据如下表:
月收入
(单位:百元)
赞成定价者人数
2
2
4
5
3
4
认为价格偏高者人数
4
8
9
6
2
1
(1)若以区间的中点值为该区间内的人均月收入,分别求出参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入;
(2)根据以上统计数据填下面列联表,依据小概率值的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”?
对地铁定价的态度
人均月收入
合计
不低于55百元的人数
低于55百元的人数
认为价格偏高者
赞成定价者
合计
附:,其中.
参考数据
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
题型九 统计的综合应用
【例9】(22-23高二下·广东广州·期末)某通信公司为了更好地满足消费者对流量的需求,推出了不同定价的流量包,经过一个月的统计,获取了容量为万人的样本.同时为了进一步了解年龄因素是否对流量包价格有影响,统计了小于岁和大于等于岁两个年龄段人群的购买人数,收集数据整理如表所示.
表1
定价(元/月)
20
30
50
60
岁(万人)
10
15
7
8
岁(万人)
20
12
6
2
购买总人数(万人)
30
27
13
10
表2
年龄段
流量包
合计
元
元
岁
岁
合计
(1)试根据这些数据建立购买总人数关于定价的经验回归方程,并估计定价为元/月的流量包的购买人数;
(2)若把元/月以下(不包括元)的流量包称为低价流量包,元/月以上(包括元)的流量包称为高价流量包,根据以上数据完成列联表,依据的独立性检验,判断年龄段和流量包价格是否有关联.附:
,,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式9-1】(24-25高二下·全国·课后作业)2023年3月22日是第三十一届“世界水日”,3月22-28日是第三十六届“中国水周”.我国纪念2023年“世界水日”“中国水周”活动主题为“强化依法治水,携手共护母亲河”.为提高学生惜水爱水、节约护水的意识,某高中随机抽取了人进行专项答题测试,数据如下表:
成绩
年级
高一
高二
若学生的答题测试成绩大于等于分,则视为“护水意识强”,否则视为“护水意识薄弱”.
(1)求该校高一、高二学生的专项答题测试成绩的中位数(保留1位小数);
(2)判断是否有的把握认为护水意识与年级有关.
【变式9-2】(2022·陕西榆林·模拟预测)某中学为研究学生的身体素质与课外体育锻炼时间的关系,对该校200名学生每天课外体育锻炼的平均时间(单位:分钟)进行调查,将收集的数据分成,,,,,六组,并作出频率分布直方图(如图),将日均课外体育锻炼时间不低于40分钟的学生评价为“课外体育达标”.
(1)请根据直方图中的数据,将下面的列联表补充完整;
课外体育不达标
课外体育达标
合计
男
60
女
110
合计
(2)根据(1)中所得数据,判断是否能在犯错误的概率不超过0.01的前提下认为“课外体育达标”与性别有关?
附:.
0.15
0.05
0.025
0.010
0.005
0.001
2.072
3.841
5.024
6.635
7.879
10.828
【变式9-3】(24-25高三上·重庆·阶段练习)广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
题型十 概率统计的综合问题
【例10】(23-24高二下·上海奉贤·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有95%的把握认为患慢性气管炎与吸烟有关?
(2)现从不患慢性气管炎者的样本中,按分层抽样的方法选出7人,从这7人里再随机选取3人,求这3人中,不吸烟者的人数X的数学期望.
附:,.
【变式10-1】(24-25高二上·江西南昌·期末)我国探月工程亦称“嫦娥工程”,年月日,嫦娥六号完成了人类首次月球背面智能采样工作,并在月下旬携带月球样品返回地球,为人类进一步研究和利用月球资源提供了保证为了解不同性别的学生对探月工程的关注程度(“十分关注”与“比较关注”),学校随机抽取男生和女生各名进行调查,数据表明:男生中有的同学“十分关注”,女生中有的同学“十分关注”,其他学生都是“比较关注”.
(1)根据条件,列出列联表,并判断是否有的把握认为对探月工程的关注程度与性别有关;
(2)学校为提升同学们对探月工程的关注度,在以上“比较关注”的学生中运用分层抽样的方法抽取8人进行科普类培训,再从这8人中随机抽取人进行重点培训,求这人中至少有1名男生的概率.
附:,其中.
【变式10-2】(24-25高二上·江西宜春·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.学生甲获一等奖学金的概率为,获二等奖学金的概率为,不获得奖学金的概率为.求在学生甲获得奖学金的条件下,求他获得一等奖学金的概率.
【变式10-3】(24-25高二下·江西南昌·阶段练习)近期,流感在某小学肆意传播.流感病毒主要在学生之间传染,低年龄段(一、二年级)的学生感染情况相对较多.病毒进入人体后存在潜伏期,潜伏期指病原体侵入人体至最早出现临床症状的这段时间,潜伏期越长,传染给其他同学的可能性越高.学校对300个感染流感病例的潜伏期(单位:天)进行调查,统计得出潜伏期的平均数为2,方差,若把超过3天的潜伏期视为长潜伏期,按照年级统计样本,得到如下列联表:
年龄/人数
长潜伏期
非长潜伏期
低年龄段(一、二年级)
40
100
高年龄段(三~六年级)
30
130
(1)是否有95%的把握认为“长潜伏期”与年级有关?
(2)假设潜伏期服从正态分布,其中近似样本平均数,近似为样本方差
(i)学校现在对有流感症状学生的密切接触者一律要求隔离5天,请用概率知识解释其合理性.
(ii)以题目中的样本估计概率,设800个病例中恰有个属于“长潜伏期”的概率是,当为何值时,取最大值.
(附:,)
0.10
0.05
0.010
2.706
3.841
6.635
若,则,,.
参考数据:,,.
1 / 7
学科网(北京)股份有限公司
$$