内容正文:
2024-2025学年沪教版2020选择性必修第二册同步培优课程(强基篇)
专题20 第9章成对数据的统计分析章节复习提升
知识点1:变量的相关关系
(1)函数关系:函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
(3)散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(4)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
知识点2:相关系数
两组数据和的线性相关系数是度量两个变量与之间线性相关程度的统计量,其计算公式为其中,,,它们分别是这两组数据的算术平均数。
知识点3:相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
知识点4:一元线性回归分析
1、离差:通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为离差。残差是随机误差的估计结果,分为正离差和负离差。
2、拟合误差:用离差的平方和Q=来刻画直线和点之间的拟合程度,Q=称为拟合误差。
3、回归直线方程
设所求的直线方程为,回归方程的截距和斜率是用最小二乘法计算出来的.
称为样本点的中心,回归直线过样本点的中心.
把称为回归方程,对应的直线称为回归直线,x称为自变量或解释变量;Y称为因变量或响应变量,模型的参数a和b称为回归系数,a称为截距参数,b称为斜率参数;
知识点5:分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点6:独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
考点1:变量间的相关关系
【例1】(2024年上海秋季高考数学真题)已知气候温度和海水表层温度相关,且相关系数为正数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【例2】(23-24高三下·上海浦东新·期中)通过随机抽样,我们绘制了如图所示的某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的散点图.若去掉图中右下方的点后,下列说法正确的是( )
A.“每千克价格”与“年需求量”这两个变量由负相关变为正相关
B.“每千克价格”与“年需求量”这两个变量的线性相关程度不变
C.“每千克价格”与“年需求量”这两个变量的线性相关系数变大
D.“每千克价格”与“年需求量”这两个变量的线性相关系数变小
【跟踪训练】
1.(23-24上海高三课时练习)有下列关系:
①人的年龄与他(她)拥有的财富之间的关系;
②学生与他(她)的学号之间的关系;
③森林中的同一种树木,其断面直径与高度之间的关系;
④曲线上的点与该点的坐标之间的关系.
其中有相关关系的是__________.(填上你认为正确的所有序号)
2.(2023春·上海徐汇·高二统考阶段练习)下列关于散点图的说法中,正确的是( )
A.任意给定统计数据,都可以绘制散点图 B.从散点图中可以看出两个量是否具有一定的关系
C.从散点图中可以看出两个量的因果关系 D.从散点图中无法看出数据的分布情况
3.在下列各图中,两个变量具有线性相关关系的图是( )
A. B. C. D.
4.(23-24上海高三课时练习)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
考点2:相关系数的计算
【例3】(23-24上海高三课时练习)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .(精确到0.01,参考数据:,,)
【跟踪训练】
1.(23-24上海高三课时练习)学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x
1
2
3
4
5
6
7
一次最多答对题数y
12
15
16
18
21
24
27
参考数据:,,,,,
相关系数
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其相关系数 (结果保留两位小数).
2.(21-22高二·全国·课时练习)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .
(精确到0.01,参考公式和数据:,,,)
考点3:相关系数的性质
【例4】(23-24上海高三课时练习)已知表示变量x与y之间的相关系数,表示变量u与v之间的相关系数,且,,则( )
A.变量x与y之间呈正相关关系,且x与y之间的相关性强于u与v之间的相关性
B.变量x与y之间呈负相关关系,且x与y之间的相关性强于u与v之间的相关性
C.变量u与v之间呈负相关关系,且x与y之间的相关性弱于u与v之间的相关性
D.变量u与v之间呈正相关关系,且x与y之间的相关性弱于u与v之间的相关性
【例5】(23-24上海高三课时练习)对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【例6】(2023春·高二课时练习)下列有关样本线性相关系数r的说法,错误的是( )
A.相关系数r可用来衡量x与y之间的线性相关程度
B.,且越接近0,相关程度越小
C.,且越接近1,相关程度越大
D.,且越接近1,相关程度越小
【跟踪训练】
1.(23-24上海高三课时练习)变量与相对应的一组数据为(10 , 1),(11.3 , 2),(11.8 , 3),(12.5 , 4),(13 , 5);变量与相对应的一组数据为(10 , 5),(11.3 , 4),(11.8 , 3),(12.5 , 2),(13 , 1).表示变量之间的线性相关系数,表示变量与之间的线性相关系数,则( )
A. B. C. D.
2.(23-24上海高三课时练习)对相关系数r,
①r越大,线性相关程度越大;
②r越小,线性相关程度越大;
③|r|越大,线性相关程度越小,|r|越接近0,线性相关程度越大;
④|r|≤1且|r|越接近1,线性相关程度越大,|r|越接近0,线性相关程度越小
以上说法中,正确说法的序号是__________.
考点4:离差与拟合误差 最小二乘法的概念
【例7】(2023杨浦区二模)对成对数据、、…、用最小二乘法求回归方程是为了使( )
A. B.
C. 最小 D. 最小
【例8】(23-24上海高三课时练习)回归方程在样本处的残差为________.
【跟踪训练】
1.(2023·全国·模拟预测)为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的残差为0,则 .
2.(2024·上海虹口·二模)给出下列4个命题:
①若事件和事件互斥,则;
②数据的第百分位数为10;
③已知关于的回归方程为,则样本点的离差为;
④随机变量的分布为,则其数学期望.
其中正确命题的序号为( )
A.①② B.①③ C.②③ D.②④
考点5:样本中心点的应用
【例9】(2024·上海·三模)已知x,y是两个具有线性相关的两个变量,其取值如下表:
x
1
2
3
4
5
y
4
a
9
b
11
其回归方程为,则 .
【例10】(22-23高二下·上海宝山·期中)已知x,y的对应值如下表所示:
0
2
4
6
8
1
13
若y与x线性相关,且回归直线方程为,则 .
【跟踪训练】
1.(23-24高三下·上海嘉定·阶段练习)某产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
a
50
70
已知y关于x的线性回归方程为,则表格中实数a的值为 .
2.(2024·上海徐汇·二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
3.(2024·上海金山·二模)下列说法不正确的是( ).
A.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是
考点6:求回归直线方程
【例11】(24-25高三上·上海·开学考试)下表中是某公司一年中每月的广告投入费用与销售额的情况,设广告投入费用为x(单位:万元),销售额为y(单位:万元),则y关于x的回归方程为 .(回归系数精确到0.01)
广告费用(万元)
30
26
21
17
11
18
13
16
17
23
25
29
销售额(万元)
843
725
621
587
485
608
523
554
600
703
728
792
【例12】(23-24上海高三课时练习)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论中正确的是( )
A.直线过点 B.和的相关系数为直线的斜率
C.和的相关系数在0到1之间 D.当为偶数时,分布在两侧的样本点的个数一定相同
【例13】一组数据如下表所示:
1
2
3
4
已知变量关于的回归方程为,若,则预测的值可能为
A. B. C. D.
【例14】(23-24上海高三课时练习)已知一组数据的回归直线方程为,且,发现有两组数据,的误差较大,去掉这两组数据后,重新求得回归直线方程为,则当时,_____.
【例15】(23-24上海高三课时练习)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
【跟踪训练】
1.(23-24上海高三课时练习)有一散点图如图所示,在5个数据中去掉后,下列说法中正确的是( )
A.离差和变小 B.相关系数变小
C.拟合误差变小 D.解释变量与反应变量的相关性变弱
2.(23-24上海高三课时练习)设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
3.(23-24上海高三课时练习)党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
考点7:回归分析
【例16】(2024·上海普陀·二模)为了提高学生参加体育锻炼的积极性,某校本学期依据学生特点针对性的组建了五个特色运动社团,学校为了了解学生参与运动的情况,对每个特色运动社团的参与人数进行了统计,其中一个特色运动社团开学第1周至第5周参与运动的人数统计数据如表所示.
周次
1
2
3
4
5
参与运动的人数
35
36
40
39
45
若表中数据可用回归方程来预测,则本学期第11周参与该特色运动社团的人数约为 .(精确到整数)
【跟踪训练】
1. (2023崇明区二模)某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为____________℃.
2. (2023普陀区二模)“民生”供电公司为了分析“康居”小区的用电量(单位:)与气温(单位:)之间的关系,随机统计了天的用电量与当天的气温,这两者之间的对应关系见下表:
气温(单位:)
用电量(单位:)
若上表中的数据可用回归方程()来预测,则当气温为时该小区相应的用电量约为 .
3.(2023松江区二模)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入 (万元)
8.2
8.6
10.0
11.3
11.9
支出 (万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程 ,其中, ,据此估计,该社区一户收入为15万元家庭年支出为( )
A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
4. (2023浦东新区二模)某种产品的广告支出与销售额(单位:万元)之间有下表关系,与的线性回归方程为,当广告支出6万元时,随机误差的效应即离差(真实值减去预报值)为( ).
2
4
5
6
8
30
40
60
70
80
A. 1.6 B. 8.4 C. 11.6 D. 7.4
5.(2023奉贤二模)某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适合作为发芽率和温度 的回归方程类型的是 ( )
A.; B.;
C.; D..
考点8:列联表的完善与分析
【例17】(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
【例18】(23-24上海高三课时练习)假设有两个分类变量与的列联表如下表:
对于以下数据,对同一样本能说明与有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【跟踪训练】
1.(23-24上海高三课时练习)如表是一个2×2列联表,则表中,的值分别为( )
合计
21
73
22
25
47
合计
46
120
A.94,72 B.52,50 C.52,74 D.74,52
2.(23-24上海高三课时练习)已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍 .
3.假设有两个分类变量X和Y的2×2列联表如下:
X
Y
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
注:K2的观测值.
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=45,c=15 B.a=40,c=20 C.a=35,c=25 D.a=30,c=30
考点9:独立检验性的概念理解
【例19】(2024·上海长宁·二模)收集数据,利用列联表,分析学习成绩好与上课注意力集中是否有关时,提出的零假设为:学习成绩好与上课注意力集中 (填:有关或无关)
【例20】下列关于独立性检验的叙述:
①常用等高条形图展示列联表数据的频率特征;
②独立性检验依据小概率原理;
③样本不同,独立性检验的结论可能有差异;
④对分类变量与的随机变量的观测值来说,越小,与有关系的把握程度就越大.
其中正确的个数为
A.1 B.2 C.3 D.4
【例21】在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【跟踪训练】
1.给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关 B.喝酒者得胃病的概率
C.喜欢喝酒与性别是否有关 D.学习成绩与体重是否有关
2.对分类变量和进行独立性检验的零假设为( )
A.:分类变量和独立 B.:分类变量和不独立
C.: D.:分类变量和相关联
3.(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:
不吸烟者
吸烟者
总计
不患慢性气管炎者
121
162
283
患慢性气管炎者
13
43
56
总计
134
205
339
假设:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量,得,根据分布概率表:,,,.给出下列3个命题,其中正确的个数是( )
①“患慢性气管炎与吸烟没有关系”成立的可能性小于;
②有的把握认为患慢性气管炎与吸烟有关;
③分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生.
A.个 B.个 C.个 D.个
考点10:独立性检验的综合应用
【例22】(2024·上海奉贤·二模)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级
1(优)
3
18
25
2(良)
6
14
3(轻度污染)
5
5
6
4(中度污染)
6
3
0
(1)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(2)若某天的空气质量等级为或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的列联表,请根据表中的数据判断:一天中到该公园锻炼的人次是否与该市当天的空气质量有关?(规定显著性水平)
人次≤400
人次>400
总计
空气质量好
空气质量不好
总计
附:,.
【跟踪训练】
1.(2024·上海青浦·二模)垃圾分类能减少有害垃圾对环境的破坏,同时能提高资源循环利用的效率.目前上海社区的垃圾分类基本采用四类分类法,即干垃圾,湿垃圾,可回收垃圾与有害垃圾.某校为调查学生对垃圾分类的了解程度,随机抽取100名学生作为样本,按照了解程度分为A等级和B等级,得到如下列联表:
男生
女生
总计
A等级
40
20
60
B等级
20
20
40
总计
60
40
100
(1)根据表中的数据回答:学生对垃圾分类的了解程度是否与性别有关(规定:显著性水平)?
附:,其中,.
(2)为进一步加强垃圾分类的宣传力度,学校特举办垃圾分类知识问答比赛.每局比赛由二人参加,主持人A和B轮流提问,先赢局者获得奖项并结束比赛.甲,乙两人参加比赛,已知主持人A提问甲赢的概率为,主持人B提问甲赢的概率为,每局比赛互相独立,且每局都分输赢.现抽签决定第一局由主持人A提问.
(i)求比赛只进行3局就结束的概率;
(ii)设为结束比赛时甲赢的局数,求的分布和数学期望.
2.(2024·上海嘉定·二模)据文化和旅游部发布的数据显示,2023年国内出游人次达48.91亿次,总花费4.91万亿元.人们选择的出游方式不尽相同,有自由行,也有跟团游.为了了解年龄因素是否影响出游方式的选择,我们按年龄将成年人群分为青壮年组(大于等于14岁,小于40岁)和中老年组(大于等于40岁).现在S市随机抽取170名成年市民进行调查,得到如下表的数据:
青壮年
中老年
合计
自由行
60
40
跟团游
20
50
合计
(1)请补充列联表,并判断能否有的把握认为年龄与出游方式的选择有关;
(2)用分层抽样的方式从跟团游中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
0.10
0.05
0.025
2.706
3.841
5.024
3.(2023黄埔区二模)将某工厂的工人按年龄分成两组:“35周岁及以上”、“35周岁以下”,从每组中随机抽取80人,将他们的绩效分数分成5组:,分别加以统计,得到下列频率分布直方图.该工厂规定绩效分数不少于80者为生产标兵.
(1)请列出列联表,并判断能否有95%的把握认为是否为生产标兵与工人所在的年龄组有关;
(2)若已知该工厂工人中生产标兵的占比为30%,试估计该厂35周岁以下的工人所占的百分比以及生产标兵中35周岁以下的工人所占的百分比.
附:.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
4. (2023虹口二模)电解电容是常见的电子元件之一.检测组在85℃的温度条件下对电解电容进行质量检测,按检测结果将其分为次品、正品,其中正品分合格品、优等品两类.
(1)铝箔是组成电解电容必不可少的材料.现检测组在85℃的温度条件下,对铝箔质量与电解电容质量进行测试,得到如下2×2列联表,那么他们是否有99.9%的把握认为电解电容质量与铝箔质量有关?请说明理由;
电解电容为次品
电解电容为正品
铝箔为次品
174
76
铝箔为正品
108
142
(2)电解电容经检验为正品后才能装箱,已知两箱电解电容(每箱50个),第一箱和第二箱中分别有优等品8件与9件.现用户从两箱中随机挑选出一箱,并从该箱中先后随机抽取两个元件,求在第一次取出的是优等品的情况下,第二次取出的是合格品的概率.
附录:
0.100
0.050
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
2 / 2
学科网(北京)股份有限公司
$$
2024-2025学年沪教版2020选择性必修第二册同步培优课程(强基篇)
专题20 第9章成对数据的统计分析章节复习提升
知识点1:变量的相关关系
(1)函数关系:函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
(3)散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(4)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
知识点2:相关系数
两组数据和的线性相关系数是度量两个变量与之间线性相关程度的统计量,其计算公式为其中,,,它们分别是这两组数据的算术平均数。
知识点3:相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
知识点4:一元线性回归分析
1、离差:通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为离差。残差是随机误差的估计结果,分为正离差和负离差。
2、拟合误差:用离差的平方和Q=来刻画直线和点之间的拟合程度,Q=称为拟合误差。
3、回归直线方程
设所求的直线方程为,回归方程的截距和斜率是用最小二乘法计算出来的.
称为样本点的中心,回归直线过样本点的中心.
把称为回归方程,对应的直线称为回归直线,x称为自变量或解释变量;Y称为因变量或响应变量,模型的参数a和b称为回归系数,a称为截距参数,b称为斜率参数;
知识点5:分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点6:独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
考点1:变量间的相关关系
【例1】(2024年上海秋季高考数学真题)已知气候温度和海水表层温度相关,且相关系数为正数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【答案】C
【解析】对于AB,当气候温度高,海水表层温度变高变低不确定,故AB错误.
对于CD,因为相关系数为正,故随着气候温度由低到高时,海水表层温度呈上升趋势,
故C正确,D错误.
故选:C.
【例2】(23-24高三下·上海浦东新·期中)通过随机抽样,我们绘制了如图所示的某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的散点图.若去掉图中右下方的点后,下列说法正确的是( )
A.“每千克价格”与“年需求量”这两个变量由负相关变为正相关
B.“每千克价格”与“年需求量”这两个变量的线性相关程度不变
C.“每千克价格”与“年需求量”这两个变量的线性相关系数变大
D.“每千克价格”与“年需求量”这两个变量的线性相关系数变小
【答案】D
【分析】根据相关系数的概念逐一判断.
【详解】对于A:去掉图中右下方的点后,根据图象,两个变量还是负相关,A错误;
对于BCD:去掉图中右下方的点后,相对来说数据会集中,相关程度会更高,
但因为是负相关,相关系数会更接近线性相关系数会变小,故D正确,BC错误.
故选:D.
【跟踪训练】
1.(23-24上海高三课时练习)有下列关系:
①人的年龄与他(她)拥有的财富之间的关系;
②学生与他(她)的学号之间的关系;
③森林中的同一种树木,其断面直径与高度之间的关系;
④曲线上的点与该点的坐标之间的关系.
其中有相关关系的是__________.(填上你认为正确的所有序号)
【标准答案】①③
【详解详析】
对于①,人的年龄与他(她)拥有的财富是一种不确定的相关关系;对于②,学生与他(她)的学号之间的关系是一种确定的对应关系,是映射,不是相关关系;对于③,森林中的同一种树木,其断面直径与高度之间的关系是一种不确定的关系,属于相关关系;对于④,曲线上的点与该点的坐标之间的关系是一一对应关系,不是相关关系.综上,其中有相关关系的是①③.
故答案为:①③.
2.(2023春·上海徐汇·高二统考阶段练习)下列关于散点图的说法中,正确的是( )
A.任意给定统计数据,都可以绘制散点图 B.从散点图中可以看出两个量是否具有一定的关系
C.从散点图中可以看出两个量的因果关系 D.从散点图中无法看出数据的分布情况
【答案】B
【分析】根据散点图的概念判断即可.
【详解】散点图不适合用于展示百分比占比的数据,另外数据量较少的数据也不适合用散点图表示,故A错误;
散点图能看出两个量是否具有一定关系,但是并一定是因果关系,故B正确,C错误;
散点图中能看出数据的分布情况,故D错误.
故选:B
3.在下列各图中,两个变量具有线性相关关系的图是( )
A. B.
C. D.
【答案】C
【分析】根据题意结合线性相关关系的概念逐项分析判断.
【解析】对于选项A:两个变量为函数关系,不是线性相关关系,所以A错误;
对于选项B:所有点不是在一条直线附近波动,不是线性相关关系,故B错误;
对于选项C:对于两个变量x,y,y随着x的增加而减少,
且所有点都在一条直线附近波动,所以具有线性相关关系,故C正确;
对于选项D:两个变量不具有相关性,故D错误.
故选:C.
4.(23-24上海高三课时练习)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【答案】B
【解析】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以B正确,A错误;
由于与的线性相关加强,所以残差平方和变小,所以C错误,
由于与的线性相关加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数r变小,所以D错误.
故选:B.
考点2:相关系数的计算
【例3】(23-24上海高三课时练习)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .(精确到0.01,参考数据:,,)
【答案】0.99/
【分析】根据表中的数据结合公式直接求解即可.
【解析】由题意,知,
所以.
所以结合参考数据知:.
所以y与x的相关系数近似为0.99.
故答案为:
【跟踪训练】
1.(23-24上海高三课时练习)学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x
1
2
3
4
5
6
7
一次最多答对题数y
12
15
16
18
21
24
27
参考数据:,,,,,
相关系数
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其相关系数 (结果保留两位小数).
【答案】0.99
【分析】根据题意,由相关系数的计算公式代入计算,即可得到结果.
【解析】由题意
.
故答案为:.
2.(21-22高二·全国·课时练习)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .
(精确到0.01,参考公式和数据:,,,)
【答案】0.99
【分析】分别求出,,,再利用参考公式和数据计算即可.
【详解】由题意,知,
,
.
所以.
所以y与x的相关系数近似为0.99.
故答案为:0.99.
考点3:相关系数的性质
【例4】(23-24上海高三课时练习)已知表示变量x与y之间的相关系数,表示变量u与v之间的相关系数,且,,则( )
A.变量x与y之间呈正相关关系,且x与y之间的相关性强于u与v之间的相关性
B.变量x与y之间呈负相关关系,且x与y之间的相关性强于u与v之间的相关性
C.变量u与v之间呈负相关关系,且x与y之间的相关性弱于u与v之间的相关性
D.变量u与v之间呈正相关关系,且x与y之间的相关性弱于u与v之间的相关性
【答案】C
【解析】因为线性相关系数,,
所以变量x与y之间呈正相关关系,变量u与v之间呈负相关关系.
因为|r|越接近1,两个变量的线性相关程度越高,所以x与y之间的相关性弱于u与v之间的相关性.
故选:C.
【例5】(23-24上海高三课时练习)对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】B
【分析】根据散点图和相关系数的概念和性质辨析即可.
【解析】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,
而所在散点图比较分散,线性相关性比较弱点,相关系数的绝对值越远离.
综上所得:.
故答案为:B.
【例6】(2023春·高二课时练习)下列有关样本线性相关系数r的说法,错误的是( )
A.相关系数r可用来衡量x与y之间的线性相关程度
B.,且越接近0,相关程度越小
C.,且越接近1,相关程度越大
D.,且越接近1,相关程度越小
【答案】D
【分析】根据相关系数的定义,即可判断选项.
【详解】相关系数是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大,所以不正确的只有D.
故选:D.
【跟踪训练】
1.(23-24上海高三课时练习)变量与相对应的一组数据为(10 , 1),(11.3 , 2),(11.8 , 3),(12.5 , 4),(13 , 5);变量与相对应的一组数据为(10 , 5),(11.3 , 4),(11.8 , 3),(12.5 , 2),(13 , 1).表示变量之间的线性相关系数,表示变量与之间的线性相关系数,则( )
A. B. C. D.
【标准答案】C
【思路指引】
求出,,进行比较即可得到结果
【详解详析】
变量与相对应的一组数据为
即
变量与相对应的一组数据为
这一组数据的相关系数
则第一组数据的相关系数大于,第二组数据的相关系数小于
则
故选
【名师指路】
本题主要考查的是变量的相关性,属于基础题.
2.(23-24上海高三课时练习)对相关系数r,
①r越大,线性相关程度越大;
②r越小,线性相关程度越大;
③|r|越大,线性相关程度越小,|r|越接近0,线性相关程度越大;
④|r|≤1且|r|越接近1,线性相关程度越大,|r|越接近0,线性相关程度越小
以上说法中,正确说法的序号是__________.
【标准答案】④
【详解详析】
两个变量之间的相关系数,r的绝对值越接近于1,表示两个变量的线性相关性越强,r的绝对值非常接近于0时,表示两个变量之间几乎不存在线性相关.故答案为④.
考点4:离差与拟合误差 最小二乘法的概念
【例7】(2023杨浦区二模)对成对数据、、…、用最小二乘法求回归方程是为了使( )
A. B.
C. 最小 D. 最小
【答案】D
【分析】由最小二乘法的求解即可知.
【详解】根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小,
故选:D
【例8】(23-24上海高三课时练习)回归方程在样本处的残差为________.
【标准答案】
【思路指引】
根据残差的定义直接计算即可.
【详解详析】
由题当x=4时,,
故
所以回归方程在样本处的残差为.
故答案为:
【名师指路】
本题主要考查了残差的概念,考查了运算能力,属于容易题.
【跟踪训练】
1.(2023·全国·模拟预测)为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的残差为0,则 .
【答案】290
【分析】先利用残差的计算公式求出,再根据回归直线过样本点的中心求出,即可得解.
【详解】因为在样本点处的残差为0,
所以,得,
则y关于x的线性回归方程为.
因为,所以,
所以.
故答案为:
2.(2024·上海虹口·二模)给出下列4个命题:
①若事件和事件互斥,则;
②数据的第百分位数为10;
③已知关于的回归方程为,则样本点的离差为;
④随机变量的分布为,则其数学期望.
其中正确命题的序号为( )
A.①② B.①③ C.②③ D.②④
【答案】C
【分析】根据互斥事件的定义判断A;根据百分位数的定义判断B;根据离差的定义判断C;根据期望公式判断D.
【详解】对于①:因为事件和事件互斥,所以,故①错误;
对于②:因为,所以第百分位数为从小到大排列的第个数,即可为,故②正确;
对于③:因为,当时,
所以样本点的离差为,故③正确;
对于④:,故④错误.
故选:C
考点5:样本中心点的应用
【例9】(2024·上海·三模)已知x,y是两个具有线性相关的两个变量,其取值如下表:
x
1
2
3
4
5
y
4
a
9
b
11
其回归方程为,则 .
【答案】11
【分析】根据给定的数表,求出样本的中心点,再利用回归直线的性质计算即得.
【详解】依题意,,,
由在回归直线上,得,所以.
故答案为:11
【例10】(22-23高二下·上海宝山·期中)已知x,y的对应值如下表所示:
0
2
4
6
8
1
13
若y与x线性相关,且回归直线方程为,则 .
【答案】1
【分析】根据线性回归方程过样本中心点直接计算即可.
【详解】根据表格可知,,
,
因为y与x线性相关,且回归直线方程为,
所以,得,解得.
故答案为:1
【跟踪训练】
1.(23-24高三下·上海嘉定·阶段练习)某产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
a
50
70
已知y关于x的线性回归方程为,则表格中实数a的值为 .
【答案】
【分析】先求出,代入回归方程求出,再列方程求实数a的值.
【详解】由条件得,
则,
所以,
解得.
故答案为:.
2.(2024·上海徐汇·二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A,进一步可得回归方程,由此即可验算B选项,由百分位数的概念即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
对于B,当时,y的预测值为,故B错误;
对于C,样本数据y的第40百分位数为,故C错误;
对于D,由相关系数公式可知,去掉样本点后,x与y的样本相关系数r不会改变,故D正确.
故选:D.
3.(2024·上海金山·二模)下列说法不正确的是( ).
A.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是
【答案】A
【分析】利用百分位数的定义即可判断选项A,利用正态分布的性质即可判断选项B,根据线性相关系数的性质即可判断选项C,利用线性回归方程中的基本量即可判断选项D.
【详解】对A:因为,所以第百分位数为,A错误;
对B:若随机变量服从正态分布,且,
则,
则,B正确;
对C:若线性相关系数越接近,则两个变量的线性相关性越强,C正确;
对于D,样本点的中心为,所以,,
因为满足线性回归方程,所以,所以,D正确.
故选:A
考点6:求回归直线方程
【例11】(24-25高三上·上海·开学考试)下表中是某公司一年中每月的广告投入费用与销售额的情况,设广告投入费用为x(单位:万元),销售额为y(单位:万元),则y关于x的回归方程为 .(回归系数精确到0.01)
广告费用(万元)
30
26
21
17
11
18
13
16
17
23
25
29
销售额(万元)
843
725
621
587
485
608
523
554
600
703
728
792
【答案】
【分析】分别求出,再带入线性回归方程求解即可.
【详解】,
,
,
,
所以
所以
所以,
故答案为:.
【例12】(23-24上海高三课时练习)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论中正确的是( )
A.直线过点 B.和的相关系数为直线的斜率
C.和的相关系数在0到1之间 D.当为偶数时,分布在两侧的样本点的个数一定相同
【答案】A
【分析】根据回归方程过定点、相关系数的范围和回归直线斜率的关系、回归直线与样本点的关系判断各个选项;
【解析】对于A,线性回归直线一定过点,A正确;
对于B,和的相关系数和直线的斜率存在一定的关系,但并不是直线的斜率,B错误;
对于C.和的相关系数在到1之间,C错误;
对于D,当为偶数时,分布在两侧的样本点的个数没有直接关系,D错误;
故选:A.
【例13】一组数据如下表所示:
1
2
3
4
已知变量关于的回归方程为,若,则预测的值可能为
A. B. C. D.
【标准答案】C
【思路指引】
令,求得之间的数据对照表,结合样本中心点的坐标满足回归直线方程,即可求得;再令,即可求得预测值.
【详解详析】
将式子两边取对数,得到,令,得到,
根据已知表格数据,得到的取值对照表如下:
由上述表格可知:
,,
利用回归直线过样本中心点,即可得,
求得,则,
进而得到,将代入,
解得.
故选:C.
【名师指路】
本题考查利用样本中心点坐标满足回归直线方程求参数值,以及由回归方程进行预测值得求解,属中档题.
【例14】(23-24上海高三课时练习)已知一组数据的回归直线方程为,且,发现有两组数据,的误差较大,去掉这两组数据后,重新求得回归直线方程为,则当时,_____.
【标准答案】5
【思路指引】
分别求出原数据和新数据的样本中心点即可
【详解详析】
由回归直线方程过样本中心点,可将代入,得,
所以原数据的样本中心点为,
则去掉两组数据,后的新数据的
,,
新数据的样本中心点为,
设新数据的回归直线方程为,将代入得,
当时,.
故答案为:5
【名师指路】
回归直线一定经过样本中心点
【例15】(23-24上海高三课时练习)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
【标准答案】D
【思路指引】
根据散点图的分布可选择合适的函数模型.
【详解详析】
由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率和温度的回归方程类型的是.
故选:D.
【名师指路】
本题考查函数模型的选择,主要观察散点图的分布,属于基础题.
【跟踪训练】
1.(23-24上海高三课时练习)有一散点图如图所示,在5个数据中去掉后,下列说法中正确的是( )
A.离差和变小 B.相关系数变小
C.拟合误差变小 D.解释变量与反应变量的相关性变弱
【答案】C
【分析】根据离差和、相关系数、拟合误差、解释变量与反应变量的相关性逐项判断可得答案.
【解析】对于A,离差和是每个数据点与均值差值平方后的累计和,
去掉一个点后离差平方和的变化取决于该点的具体数值及其与均值的差距,
如果该点与均值相差较大,去掉它可能会导致离差平方和显著减小,
如果相差较小,则可能对离差平方和的影响不大,
因此,无法说明去掉一个点后离差平方和一定会如何变化,故A错误;
对于B,因为点离其它点较远,去掉后,相关性变强,而且是正相关,所以相关系数变大,故B错误;
对于C,点离其它点较远,是一个异常值,拟合误差减小,故C正确
对于D,解释变量与反应变量的相关性变强,故D错误.
故选:C.
2.(23-24上海高三课时练习)设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
【答案】C
【分析】利用与r的含义判断AB,根据r大于零时两变量正相关即可得一定大于零判断CD.
【解析】影响的是回归直线的斜率,r影响是两个变量之间的相关性,
所以与r之间数值大小没有关系,但符号有影响,故选项AB错误;
若r大于零,则说明两个变量之间成正相关,故一定大于零,故选项C正确,D错误.
故选:C
3.(23-24上海高三课时练习)党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
【答案】(1),与具有较高的线性相关程度
(2)
【分析】(1)根据题意求得,利用相关系数公式求得相关系数,比较可得结论;
(2)利用回归方程的系数公式求得,继而求得,即可求得与的回归方程.
【解析】(1)由表数据可得的平均数,
所以,
所以相关系数,
由,所以与具有较高的线性相关程度;
(2)依题意可得,
,
,
所以,
所以关于的线性回归方程为.
考点7:回归分析
【例16】(2024·上海普陀·二模)为了提高学生参加体育锻炼的积极性,某校本学期依据学生特点针对性的组建了五个特色运动社团,学校为了了解学生参与运动的情况,对每个特色运动社团的参与人数进行了统计,其中一个特色运动社团开学第1周至第5周参与运动的人数统计数据如表所示.
周次
1
2
3
4
5
参与运动的人数
35
36
40
39
45
若表中数据可用回归方程来预测,则本学期第11周参与该特色运动社团的人数约为 .(精确到整数)
【答案】57
【分析】由已知求出样本点的中心的坐标,代入线性回归方程,再取求解.
【详解】,,
把代入,得.
可得线性回归方程为.
把代入,可得.
故答案为:57.
【跟踪训练】
1. (2023崇明区二模)某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为____________℃.
【答案】
【分析】利用回归直线经过样本点的中心,先算出,然后令代入回归直线进行求解.
【详解】根据表格数据可得,,,根据回归直线性质,经过样本点中心,即,故,得,故回归直线为,当,.
故答案为:
2. (2023普陀区二模)“民生”供电公司为了分析“康居”小区的用电量(单位:)与气温(单位:)之间的关系,随机统计了天的用电量与当天的气温,这两者之间的对应关系见下表:
气温(单位:)
用电量(单位:)
若上表中的数据可用回归方程()来预测,则当气温为时该小区相应的用电量约为 .
答案:68
3.(2023松江区二模)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入 (万元)
8.2
8.6
10.0
11.3
11.9
支出 (万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程 ,其中, ,据此估计,该社区一户收入为15万元家庭年支出为( )
A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
答案:B
4. (2023浦东新区二模)某种产品的广告支出与销售额(单位:万元)之间有下表关系,与的线性回归方程为,当广告支出6万元时,随机误差的效应即离差(真实值减去预报值)为( ).
2
4
5
6
8
30
40
60
70
80
A. 1.6 B. 8.4 C. 11.6 D. 7.4
答案:A
5.(2023奉贤二模)某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适合作为发芽率和温度 的回归方程类型的是 ( )
A.; B.;
C.; D..
答案:D
考点8:列联表的完善与分析
【例17】(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
【答案】
【分析】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.
【详解】由题意可知,
则,
解得或,而,
故m的最小值为44.
故答案为:44.
【例18】(23-24上海高三课时练习)假设有两个分类变量与的列联表如下表:
对于以下数据,对同一样本能说明与有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【答案】D
【解析】对于两个分类变量与而言,的值越大,说明与有关系的可能性最大,
对于A选项,,
对于B选项,,
对于C选项,,
对于D选项,,
显然D中最大,故选:D.
【跟踪训练】
1.(23-24上海高三课时练习)如表是一个2×2列联表,则表中,的值分别为( )
合计
21
73
22
25
47
合计
46
120
A.94,72 B.52,50 C.52,74 D.74,52
【答案】C
【解析】由题意,根据2×2列联表,可得,.故选:C.
2.(23-24上海高三课时练习)已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍 .
【答案】4
【分析】分别将和代入公式求解即可.
【解析】因为,
所以.
故答案为:4.
3.假设有两个分类变量X和Y的2×2列联表如下:
X
Y
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
注:K2的观测值.
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=45,c=15 B.a=40,c=20 C.a=35,c=25 D.a=30,c=30
【解题思路】根据题意,当b,d一定时,a、c相差越大,与相差就越大,K2的观测值k就越大,由此得出X与Y有关系的可能性越大.
【解答过程】解:根据2×2列联表与独立性检验的相关知识,
当b,d一定时,与相差越大,K2就越大,即X与Y有关系的可能性越大;
即a、c相差越大,与就相差越大;
选项A中a﹣c=45﹣15=30与其它选项比较相差最大.
故选:A.
考点9:独立检验性的概念理解
【例19】(2024·上海长宁·二模)收集数据,利用列联表,分析学习成绩好与上课注意力集中是否有关时,提出的零假设为:学习成绩好与上课注意力集中 (填:有关或无关)
【答案】无关
【分析】根据题意,由零假设的定义,即可得到结果.
【详解】零假设等价于两个变量相互独立,
所以此题中的零假设为:学习成绩好与上课注意力集中无关.
故答案为:无关
【例20】下列关于独立性检验的叙述:
①常用等高条形图展示列联表数据的频率特征;
②独立性检验依据小概率原理;
③样本不同,独立性检验的结论可能有差异;
④对分类变量与的随机变量的观测值来说,越小,与有关系的把握程度就越大.
其中正确的个数为
A.1 B.2 C.3 D.4
【标准答案】C
【详解详析】
分析:根据独立性检验的定义及思想,可得结论.
详解:①常用等高条形图展示列联表数据的频率特征;正确;
②独立性检验依据小概率原理;正确;
③样本不同,独立性检验的结论可能有差异;正确;
④对分类变量与的随机变量的观测值来说,越大,与有关系的把握程度就越大.故④错误.
故选C.
点睛:本题考查了独立性检验的原理,考查了推理能力,属于基础题.
【例21】在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【答案】③④
【分析】由独立性检验中观测值和临界值的意义,即可得出正确的答案.
【解析】在独立性检验中,由
表示的意义是:有的把握认为变量与变量没有关系,所以④正确;
即有的把握认为变量与变量有关系,所以③正确.
故答案为:③④
【跟踪训练】
1.给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关 B.喝酒者得胃病的概率
C.喜欢喝酒与性别是否有关 D.学习成绩与体重是否有关
【答案】B
【解析】独立性检验是对两个分类变量是否有关进行检验,
对于A,参加体育锻炼有喜欢、不喜欢,性别有男女,
是对两个分类变量是否有关进行检验;
对于B,喝酒者得胃病的概率不涉及分类变量,不可以用独立性检验解决;
对于C,喝酒有喜欢、不喜欢,性别有男女,
是对两个分类变量是否有关进行检验;
对于D,学习成绩有好与坏,体重有轻与重,
是对两个分类变量是否有关进行检验.故选:B
2.对分类变量和进行独立性检验的零假设为( )
A.:分类变量和独立 B.:分类变量和不独立
C.: D.:分类变量和相关联
【答案】A
【解析】在判断两个分类变量之间是否有关联时,
需要判断假定关系:是否成立,
通常称为零假设或原假设.
零假设:分类变量和独立故选:A.
3.(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:
不吸烟者
吸烟者
总计
不患慢性气管炎者
121
162
283
患慢性气管炎者
13
43
56
总计
134
205
339
假设:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量,得,根据分布概率表:,,,.给出下列3个命题,其中正确的个数是( )
①“患慢性气管炎与吸烟没有关系”成立的可能性小于;
②有的把握认为患慢性气管炎与吸烟有关;
③分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生.
A.个 B.个 C.个 D.个
【答案】D
【分析】根据,与临界值表对照判断.
【详解】解:因为,且,
所以有的把握认为患慢性气管炎与吸烟有关,
即“患慢性气管炎与吸烟没有关系”成立的可能性小于,
故①②正确;
分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生. 故③正确;
故选:D
考点10:独立性检验的综合应用
【例22】(2024·上海奉贤·二模)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级
1(优)
3
18
25
2(良)
6
14
3(轻度污染)
5
5
6
4(中度污染)
6
3
0
(1)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(2)若某天的空气质量等级为或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的列联表,请根据表中的数据判断:一天中到该公园锻炼的人次是否与该市当天的空气质量有关?(规定显著性水平)
人次≤400
人次>400
总计
空气质量好
空气质量不好
总计
附:,.
【答案】(1)350
(2)列联表见解析,一天中到该公园锻炼的人次与该市当天的空气质量有关
【分析】(1)根据加权平均数公式计算即得;
(2)根据表格信息完成列联表,计算出的值,将其与小概率对应的比较即得结论.
【详解】(1)由题知,一天中到该公园锻炼的平均人次约为:,即一天中到该公园锻炼的平均人次的估计值为.
(2)根据所给数据,计算出,则完成列联表为:
人次≤400
人次>400
总计
空气质量好
36
39
75
空气质量不好
19
6
25
总计
55
45
100
假设一天中到该公园锻炼的人次与该市当天的空气质量无关.
,
由可得,原假设不成立,
即一天中到该公园锻炼的人次与该市当天的空气质量有关.
【跟踪训练】
1.(2024·上海青浦·二模)垃圾分类能减少有害垃圾对环境的破坏,同时能提高资源循环利用的效率.目前上海社区的垃圾分类基本采用四类分类法,即干垃圾,湿垃圾,可回收垃圾与有害垃圾.某校为调查学生对垃圾分类的了解程度,随机抽取100名学生作为样本,按照了解程度分为A等级和B等级,得到如下列联表:
男生
女生
总计
A等级
40
20
60
B等级
20
20
40
总计
60
40
100
(1)根据表中的数据回答:学生对垃圾分类的了解程度是否与性别有关(规定:显著性水平)?
附:,其中,.
(2)为进一步加强垃圾分类的宣传力度,学校特举办垃圾分类知识问答比赛.每局比赛由二人参加,主持人A和B轮流提问,先赢局者获得奖项并结束比赛.甲,乙两人参加比赛,已知主持人A提问甲赢的概率为,主持人B提问甲赢的概率为,每局比赛互相独立,且每局都分输赢.现抽签决定第一局由主持人A提问.
(i)求比赛只进行3局就结束的概率;
(ii)设为结束比赛时甲赢的局数,求的分布和数学期望.
【答案】(1)无关
(2)(i);(ii)分布列见解析,
【分析】(1) 计算的值,再与进行比较即可得结论;
(2)(i)由相互独立事件概率的乘法公式可直接求出答案;
(ii)先由相互独立事件概率的乘法公式求出,则分布列可得,再由期望公式求数学期望即可.
【详解】(1)提出原假设:学生对垃圾分类的了解程度与性别无关,
确定显著性水平,由题意得,
可得,
由,且,
所以接受原假设,学生对垃圾分类的了解程度与性别无关.
(2)(i)比赛只进行3局就结束,甲赢得比赛的概率为
比赛只进行3局就结束,乙赢得比赛的概率为,
故比赛只进行3局就结束的概率为;
(ii)的可能取值为,
,即进行了3场比赛,且乙赢得比赛,故,
,即进行了4场比赛,且乙赢得比赛,前3场中,甲赢得1场比赛,乙第4场赢,
故,
,即进行了5场比赛,且乙赢得比赛,前4场中,甲赢得2场比赛,乙第5场赢,
故
,
,即最后甲赢得比赛,由概率性质得,
所以分布为
0
1
2
3
故数学期望为.
2.(2024·上海嘉定·二模)据文化和旅游部发布的数据显示,2023年国内出游人次达48.91亿次,总花费4.91万亿元.人们选择的出游方式不尽相同,有自由行,也有跟团游.为了了解年龄因素是否影响出游方式的选择,我们按年龄将成年人群分为青壮年组(大于等于14岁,小于40岁)和中老年组(大于等于40岁).现在S市随机抽取170名成年市民进行调查,得到如下表的数据:
青壮年
中老年
合计
自由行
60
40
跟团游
20
50
合计
(1)请补充列联表,并判断能否有的把握认为年龄与出游方式的选择有关;
(2)用分层抽样的方式从跟团游中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
0.10
0.05
0.025
2.706
3.841
5.024
【答案】(1)答案见解析,能;
(2)分布列见解析,
【分析】(1)由卡方公式计算再比较即可;
(2)先用分层抽样确定青壮年和中老年人数,再用古典概率计算出相应的概率,最后利用数学期望公式求出期望即可.
【详解】(1)补充列联表如下:
青壮年
中老年
合计
自由行
60
40
100
跟团游
20
50
70
合计
80
90
170
,
所以能有的把握认为年龄与出游方式的选择有关.
(2)用分层抽样的方式从跟团游中抽取14个人,所以青壮年有人,中老年有人,
随机变量的可能取值有,
,
,
,
,
分布列为:
1
3
5
7
数学期望.
3.(黄埔)将某工厂的工人按年龄分成两组:“35周岁及以上”、“35周岁以下”,从每组中随机抽取80人,将他们的绩效分数分成5组:,分别加以统计,得到下列频率分布直方图.该工厂规定绩效分数不少于80者为生产标兵.
(1)请列出列联表,并判断能否有95%的把握认为是否为生产标兵与工人所在的年龄组有关;
(2)若已知该工厂工人中生产标兵的占比为30%,试估计该厂35周岁以下的工人所占的百分比以及生产标兵中35周岁以下的工人所占的百分比.
附:.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
解:(1)根据统计图, 可得如下列联表:
生产标兵
非生产标兵
总计
35周岁及以上组
20
60
80
35周岁以下组
30
50
80
总计
50
110
160
提出原假设: 是否为生产标兵与工人所在的年龄组无关, 确定显著性水平,
可得, …………………4分
由,且,
因此没有95%的把握认为是否为生产标兵与工人所在的年龄组有关. …………………6分
(2)设事件表示“在35周岁以下组”, 表示“是生产标兵”, 用样本估计总体, 可知
,, …………………8分
设,则,
所以,可得. …………………11分
. …………………13分
所以估计该厂35周岁以下的工人所占的百分比、该厂生产标兵中35周岁以下的工人所占的百分比分别为、. …………………14分
4. (虹口)电解电容是常见的电子元件之一.检测组在85℃的温度条件下对电解电容进行质量检测,按检测结果将其分为次品、正品,其中正品分合格品、优等品两类.
(1)铝箔是组成电解电容必不可少的材料.现检测组在85℃的温度条件下,对铝箔质量与电解电容质量进行测试,得到如下2×2列联表,那么他们是否有99.9%的把握认为电解电容质量与铝箔质量有关?请说明理由;
电解电容为次品
电解电容为正品
铝箔为次品
174
76
铝箔为正品
108
142
(2)电解电容经检验为正品后才能装箱,已知两箱电解电容(每箱50个),第一箱和第二箱中分别有优等品8件与9件.现用户从两箱中随机挑选出一箱,并从该箱中先后随机抽取两个元件,求在第一次取出的是优等品的情况下,第二次取出的是合格品的概率.
附录:
0.100
0.050
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
解:(1)提出原假设H0: 电解电容质量与铝箔质量无关. 由题意及2×2列联表,可得
…… 3分
由于 而 35.428 >10.828 ,因此,根据检测组的数据,原假设不成立,并且有99.9%的把握认为电解电容质量与铝箔质量有关. …… 6分
(2)设第一次取出的元件是优等品的事件为,第二次取出的元件是合格品的事件为.
取出的元件是第一箱、第二箱的事件分别为 …… 8分
则由全概率公式,得
=. …… 10分
于是,由条件概率公式,得
因此,在第一次取出的是优等品的情况下,第二次取出的是合格品的概率约为0.846.…… 14分
2 / 2
学科网(北京)股份有限公司
$$