内容正文:
第02讲 成对数据的统计分析
考情探究 2
知识梳理 2
探究核心考点 4
考点一 相关关系的概念和判断 4
考点二 相关系数的比较和计算 5
考点三 线性回归方程与样本中心 7
考点四 求线性回归方程 8
考点五 非线性回归方程 9
考点六 残差及相关指数的应用 11
考点七 独立性检验 12
三阶突破训练 15
基础过关 15
能力提升 18
真题感知 21
一、5年真题考点分布
5年考情
考题示例
考点分析
关联考点
2025年上海卷第17题(3),5分
回归直线
概率
2025年天津卷第5题,5分
相关系数
正态分布
2025年全国一卷第15题(2),8分
独立性检验
概率
2024年甲卷第17题,12分
独立性检验
不等式
二、命题规律及备考策略
【命题规律】主要以应用题的方式出现,多与经济、生活实际相联系,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题
【备考策略】
(1)了解样本相关系数的统计含义.
(2)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
(3)会利用统计软件进行数据分析.
【命题预测】本节是高考的热点,主要以解答题形式出现,经常与概率综合出题,一般难度为中等.也可能以选择题、填空题形式出现,难度不大.
一、相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
二、回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
三、独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过
考点一 相关关系的概念和判断
典例1.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
典例2.下列关系中,是因果关系的为( )
A.学生的学习态度与学习成绩之间的关系
B.教师的教学水平与学生的学习成绩之间的关系
C.学生的身高与学生的学习成绩之间的关系
D.家庭的经济条件与学生的学习成绩之间的关系
跟踪训练1.下列变量之间的关系不是相关关系的是( )
A.光照时间和果树亩产量 B.降雪量和交通事故发生率
C.每亩田施肥量和粮食亩产量 D.圆的面积和半径
跟踪训练2.在下列各图中,两个变量具有相关关系的是( ).
A.①② B.①③ C.② D.②③
考点二 相关系数的比较和计算
典例1.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
典例2.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
跟踪训练1.下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
跟踪训练2.按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码
1
2
3
4
5
6.4
5.5
5.0
4.8
3.8
(1)求2017-2021年年份代码与的样本相关系数(精确到0.01);
(2)预测2026年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:,.
样本相关系数,.
考点三 线性回归方程与样本中心
典例1.已知变量和满足经验回归方程,且变量和之间的一组相关数据如表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
典例2.下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
跟踪训练1.(多选)下列说法中,正确的是( )
A.回归直线可以不经过样本中心
B.可以用相关系数刻画两个变量的相关程度强弱,值越大两个变量的相关程度越强
C.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过
跟踪训练2下列命题正确的是( )
A.线性回归直线必过样本数据的中心点;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
考点四 求线性回归方程
典例1.某公司在5个月期间的广告支出x(万元)与销售额y(万元)的数据如下:
月份
1
2
3
4
5
广告支出x
2
4
5
8
11
销售额y
10
20
30
40
50
(1)从这5个月中随机抽取三个月份,记销售额高于30万元的月份的个数为X,求随机变量X的分布列及数学期望;
(2)求y关于x的线性回归方程,并预测广告支出为10万元时的销售额.
参考公式:,.
跟踪训练1.随着新能源产业的发展,某地区近年来新能源汽车保有量快速增长,为了研究充电桩建设的情况,相关部门收集到了2020年到2024年充电桩数量y(单位:万个),为方便研究,年份代码用x表示(如:表示2020年),具体参考数据如下表:
55
70.4
19
(1)请根据表中数据,建立y关于x的回归直线方程;
(2)假设该地区现有10个充电桩,其中6个为快充桩.现随机抽取2个充电桩进行检查,记抽到的快充桩个数为X,求X的分布列及均值.
(参考公式:,.)
跟踪训练2.根据统计数据和研究报告,2025年中国新能源汽车产销呈现强劲增长态势,渗透率(渗透率=新能源汽车销量÷当月汽车总销量)持续攀升,行业格局加速分化.2025年3月新能源汽车渗透率首次超过,2025年1月至6月,全国新能源汽车的渗透率统计如下:
2025年1月至6月新能源汽车渗透率统计表
月份
1
2
3
4
5
6
渗透率
41.4
49.4
51.1
51.5
53.0
53.3
(1)2025年6月全国汽车销量为208.4万辆,计算该月新能源汽车的销量(精确到0.1).
(2)根据以上数据,建立y关于月份x的经验回归方程,并预测2025年7月新能源汽车的渗透率.
(3)实际7月新能源汽车的渗透率为,请:
①结合预测值分析误差原因;
②提出改进模型的建议.
(参考数据及公式:,.)
考点五 非线性回归方程
典例1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
典例2.当前,全球贸易格局发生重大变化,随着中美贸易战的不断升级,让越来越多的中国科技企业开始意识到自主创新的重要性,大大加强科技研发投入的力度,形成掌控高新尖端核心技术及其市场的能力.某企业为确定下一年对某产品进行科技升级的研发费用,需了解该产品年研发费用(单位:千万元)对年销售量(单位:千万件)和年利润(单位:千万元)的影响.根据市场调研与模拟,对收集的数据进行初步处理,得到散点图及一些统计量的值如下:
30.5
15
15
46.5
表中,.
(1)根据散点图判断,与哪一个更适合作为年销售量关于年研发费用的回归方程类型(给出判断即可,不必说明理由),并根据判断结果及表中数据,建立关于的回归方程;
(2)已知年利润与,的关系为(其中为自然对数的底数),要使企业下一年的年利润最大,预计下一年应投入多少研发费用?
(3)科技升级后,该产品的效率大幅提高,经试验统计得大致服从正态分布.企业对科技升级团队的奖励方案如下:若不超过,不予奖励;若超过,但不超过,每件产品奖励10元;若超过,每件产品奖励20元.记为每件产品获得的奖励,求.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
附:若随机变量,则,.
跟踪训练1.某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
跟踪训练2.中国的非遗项目丰富多样,涵盖广泛,体现了中华民族的智慧和独特的文化魅力.春节期间某地为充分宣扬该地非遗物质文化,加大非遗传承人的技艺展示.该地市场开发与发展机构统计了非遗传承人的技艺展示量与市场消费收入的6组数据如下表:
技艺展示量x(单位:个)
21
23
24
27
29
32
市场消费收入y(单位:万元)
6
11
20
27
57
77
(1)若用线性回归理论进行统计分析,求市场消费收入y关于技艺展示量x的回归方程(精确到0.1);
(2)若用非线性回归模型求得市场消费收入y关于技艺展示量x的回归方程为,且决定系数,与(1)中的线性回归模型相比,应用决定系数说明哪种模型的拟合效果更好.
附:一组数据,,…,,其回归直线的斜率和截距的最小二乘估计为,;决定系数
参考数据:,,,
线性回归模型的残差平方和为(其中,分别为非遗传承人的技艺展示量和市场消费收入,).
考点六 残差及相关指数的应用
典例1.变量关于变量的经验回归方程为.若时,的实际观测值为8,则此时的残差为( )
A. B. C.1 D.2
典例2.(多选)某同学根据的5组数据,绘制了散点图(图1),并进行回归分析,若在这5组数据的基础上又增加了2组数据(图2),重新进行回归分析,则下列叙述正确的是( )
A.决定系数变大 B.样本相关系数的绝对值更趋近于0
C.残差的平方和变大 D.解释变量与响应变量的相关性变强
跟踪训练1.(多选)下列说法正确的是( )
A.在回归分析中,为0.99的模型比为0.98的模型拟合的效果更好
B.两个变量的相关系数为,则越接近于与之间的线性相关性越强
C.数据“2,3,4,5,6”的第60百分位数是4
D.样本数据的平均数为,方差为,则的平均数为,方差为
跟踪训练2.(多选)某种产品的广告支出费(单位:万元)与销售量(单位:万件)之间的对应关系如下表.
广告支出x/万元
1.2
2.6
4
5.4
6.8
销售量y/万件
1.4
6
7.3
11.8
13.5
根据表中的数据可得回归直线方程,则以下说法中正确的是( )
A.第三个样本点对应的残差
B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C.销售量的变化有97%是由广告支出费引起的
D.用该回归方程可以比较准确地预测广告支出费为20万元时的销售量
考点七 独立性检验
典例1.为了研究某新型病毒与快速检测试剂结果的关系,研究人员随机调查了200名接受过该试剂检测的人群,得到如下列联表:
快速检测结果组别
阳性
阴性
合计
感染该病毒
30
10
40
未感染该病毒
20
140
160
合计
50
150
200
(1)记快速检测结果为阳性者感染该病毒的概率为P,求P的估计值;
(2)根据小概率值的独立性检验,分析快速检测结果是否与感染该病毒有关.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
典例2.某种疾病分为甲、乙两种类型,为研究该疾病的类型与患者性别是否有关,随机抽取了名患者进行调查,得到如下列联表:
性别
疾病类型
合计
甲型病
乙型病
男
女
合计
(1)根据小概率值的独立性检验,得出了“所患疾病的类型与性别有关”的结论,求的最小值;
(2)现对部分人群接种预防甲型疾病的疫苗,要求每人至多安排2个周期接种疫苗,每人每周期必须接种3次,每次接种后,产生抗体的概率为0.8.如果一个周期内至少2次产生抗体,那么该周期结束后终止接种,否则进入第二个周期.已知每人每周期接种费用为30元,试估计1000人接种疫苗总费用的期望.附,
0.01
0.005
0.001
6.635
7.879
10.828
跟踪训练1.近日,2025年湖南省城市足球联赛(被球迷称为“湘超”)如火如荼地进行,引发广泛关注.某地区随机抽取了部分市民,调查他们对赛事的关注情况,得到如下表格:
性别
不关注赛事
关注赛事
男性
25
150
女性
50
75
(1)列出列联表并根据小概率值的独立性检验,能否认为关注“湘超”赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取3名市民参加“湘超”赛事知识问答.已知男性、女性市民顺利完成知识问答的概率分别为,,每个人是否顺利完成相互独立.求在有且仅有2人顺利完成的条件下,这2人的性别不同的概率.
附:.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
跟踪训练2.为了研究高三年级学生的性别和身高是否大于的关系,调查了某高三年级学生,整理得到如下列联表:
身高
性别
低于
不低于
合计
男
9
91
100
女
90
10
100
合计
99
101
200
(1)在这200名学生中随机选两名学生身高均不低于的概率是多少?
(2)根据小概率值的独立性检验,能否认为该中学高三年级学生的性别与身高有关联,解释所得结论的实际含义.
附
0.05
0.010
0.001
3.841
6.635
10.828
一、单选题
1.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
2.下列说法正确的是( )
A.一组数据1,1,2,3,5,8,13,21的第60百分位数为4
B.设且,则
C.两个随机变量的线性相关程度越强,则样本相关系数越接近于1
D.在回归分析模型中,若决定系数越小,则残差平方和越大,模型的拟合效果越差
3.某品牌的新能源汽车的使用年限(年)与维护费用(千元)之间有如下数据:
使用年限(年)
2
4
5
6
8
维护费用(千元)
2.75
4.25
6.25
7.25
8.75
已知与之间具有线性相关关系,且关于的经验回归方程为.据此估计,使用年限为9年时,维护费用约为( )
A.9.75千元 B.10.05千元 C.10.25千元 D.10.75千元
4.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为.
x
2
3
4
5
y
若,则( )
A.6.8 B.7.8 C.8.8 D.9.8
5.下列说法正确的是( )
A.某物理量的测量结果服从正态分布,该物理量在一次测量中落在与落在的概率相等
B.数据7,4,2,9,1,5,8,6的第50百分位数为5
C.将一组数据中的每一个数据加上同一个常数后,方差不变
D.设具有线性相关关系的两个变量,的相关系数为,则越接近于,和之间的线性相关程度越强
6.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
二、多选题
7.下列四个命题中正确的是( )
A.已知随机变量服从正态分布,若,则
B.对具有线性相关关系的变量,其经验回归方程为,若样本点的中心为,则实数的值是4
C.已知随机变量服从二项分布,若,则
D.对于样本相关系数,若越大,则成对样本数据的线性相关程度越强
三、填空题
8.已知的取值如下表:
0
1
3
4
从散点图分析,与线性相关,且回归方程为,则 .
9.一组数据的线性回归方程为,若,则 .
四、解答题
10.某咖啡店想了解顾客性别与喜欢的咖啡口味是否有关,随机调查了名顾客,得到如下的列联表:
喜欢拿铁
喜欢美式
男性顾客
70
80
女性顾客
90
60
(1)根据的独立性检验,分析顾客性别与喜欢的咖啡口味是否有关;
(2)从这名顾客中随机选择名,已知其中至少有名女性顾客,求这名顾客都喜欢拿铁的概率.
附:,
11.随机抽取某集团公司旗下五家超市,得到广告支出x(万元)与销售额y(万元)的数据如下:
广告支出x(万元)
2
4
5
6
8
销售额y(万元)
20
30
50
60
70
(1)计算x,y的相关系数r,并判断是否可以认为广告支出与销售额具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高,)
(2)求出y关于x的线性回归方程,并预测若广告支出15(万元),则销售额约为多少万元?参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
12.某景区为测试并推广一款预约游览APP,上线的第1、2两天在APP上预约可获得免费游览资格,第3天开始恢复为原票价,下表是该景区在该APP上前7天的预约情况
第天
1
2
3
4
5
6
7
预约量(万张)
9.03
9
8.58
8.7
8.76
8.74
8.79
经计算得:.
(1)求关于的线性回归方程及第5天的残差:(精确到0.001)
(2)为了调查该APP在不同年龄的人群中的推广情况,从第7天成人游客中随机抽取200人进行分析,所得的部分数据见下表:
50岁以下
50岁(含50)以上
合计
通过APP预约人数
70
其它方式购票人数
80
合计
100
①完成以上列联表:
②如果有95%的把握认定游客通过APP预约游览与其年龄有关,就要进行针对性宣传,请你判断是否需要针对年龄超过50岁(含50)以上的人群进行宣传.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:
1.下列关于统计概率知识的判断,正确的是( )
A.将总体划分为2层,通过分层随机抽样,得到两层的样本平均数和样本方差分别为和,且已知,则总体方差
B.在研究成对数据的相关关系时,相关关系越强,相关系数越接近于1
C.某医院住院的8位新冠患者的潜伏天数分别为10,3,8,3,2,18,7,4,则该样本数据的第50百分位数为4
D.若,则事件A,B相互独立
2.(多选)某市对2017年至2021年这五年间全市烧烤店盈利店铺的个数进行了统计,具体统计数据如下表所示:
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
盈利店铺的个数
260
240
215
200
180
根据所给数据,得出关于的线性回归方程为,则下列说法正确的是( )
A.该市2017年至2021年全市烧烤店盈利店铺个数的平均数
B.y关于t的线性回归方程为
C.估计该市2023年烧烤店盈利店铺的个数为147
D.预测从2028年起,该市烧烤店盈利店铺的个数将不超过100
3.(多选)下列说法正确的是( )
A.样本数据,去掉其中的一个最小数和一个最大数后,剩余数据的中位数小于原样本的中位数
B.数据的方差为0,则所有的都相等
C.若随机变量,则
D.在线性回归模型中,变量与的一组样本数据对应的点均在直线上,则决定系数
4.某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据图中数据,估计强化训练后的成绩(同一组中的数据用该组区间的中点值作代表)的众数与成绩的分位数;
(2)规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
强化训练
是否优秀
合计
优秀
非优秀
强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?
附:,.
0.05
0.010
0.005
0.001
3.841
6.635
7.879
10.828
5.某工厂生产各种规格的某种零件,从中随机抽取6个不同规格的零件,其检测数据如下表:
零件尺寸
38
48
58
68
78
88
零件质量
16.8
18.8
20.7
22.4
24
25.5
质量与尺寸之比
0.442
0.392
0.357
0.329
0.308
0.290
(1)测评标准指出,当零件的质量与其尺寸之比在区间内时为优等品.现从上述6个零件中任选2个,求这2个零件中优等品个数的均值和方差;
(2)据散点图分析,上述6个零件的质量与尺寸之间存在非线性相关关系,其经验回归方程可设为.当零件的尺寸为时,估计零件的质量约为多少?(精确到)
参考数据:,,,,
附:对于样本数据,其一元线性回归模型中斜率参数b和截距参数a的最小二乘估计分别为:,
1.(2025·天津·高考真题)下列说法中错误的是( )
A.若,则
B.若,,则
C.越接近1,相关性越强
D.越接近0,相关性越弱
2.(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
3.(2023·天津·高考真题)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
二、解答题
4.(2024·全国甲卷·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
(1)填写如下列联表:
优级品
非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
5.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
6.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
7.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
$第02讲 成对数据的统计分析
考情探究 2
知识梳理 2
探究核心考点 4
考点一 相关关系的概念和判断 4
考点二 相关系数的比较和计算 6
考点三 线性回归方程与样本中心 9
考点四 求线性回归方程 11
考点五 非线性回归方程 15
考点六 残差及相关指数的应用 19
考点七 独立性检验 21
三阶突破训练 26
基础过关 26
能力提升 34
真题感知 40
一、5年真题考点分布
5年考情
考题示例
考点分析
关联考点
2025年上海卷第17题(3),5分
回归直线
概率
2025年天津卷第5题,5分
相关系数
正态分布
2025年全国一卷第15题(2),8分
独立性检验
概率
2024年甲卷第17题,12分
独立性检验
不等式
二、命题规律及备考策略
【命题规律】主要以应用题的方式出现,多与经济、生活实际相联系,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题
【备考策略】
(1)了解样本相关系数的统计含义.
(2)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
(3)会利用统计软件进行数据分析.
【命题预测】本节是高考的热点,主要以解答题形式出现,经常与概率综合出题,一般难度为中等.也可能以选择题、填空题形式出现,难度不大.
一、相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
二、回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
三、独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过
考点一 相关关系的概念和判断
典例1.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】D
【分析】由散点图的特征,结合相关系数的定义即可得到答案.
【详解】由散点图的趋势可知,,,,
又图一的散点图比图三的散点图更为集中,则,所以,
又图二的散点图比图四的散点图更为集中,则,所以,
所以.
故选:D.
典例2.下列关系中,是因果关系的为( )
A.学生的学习态度与学习成绩之间的关系
B.教师的教学水平与学生的学习成绩之间的关系
C.学生的身高与学生的学习成绩之间的关系
D.家庭的经济条件与学生的学习成绩之间的关系
【答案】B
【分析】由两个变量的相关关系与因果关系的定义,结合各项描述理解判断.
【详解】A:学生的学习态度与学习成绩之间不是因果关系,但具有相关性,不是因果关系;
B:教师的教学水平与学生的学习成绩之间的关系是因果关系;
C,D:学生的身高与学生的学习成绩、家庭的经济条件与学生的学习成绩都不是因果关系.
故选:B
跟踪训练1.下列变量之间的关系不是相关关系的是( )
A.光照时间和果树亩产量 B.降雪量和交通事故发生率
C.每亩田施肥量和粮食亩产量 D.圆的面积和半径
【答案】D
【分析】利用两变量相关关系的意义判断即可.
【详解】列表解析
选项
是否是相关关系
原因
A
是
果树亩产量与光照时间有关,是相关关系.
B
是
降雪量的大小对交通事故发生率有影响,是相关关系.
C
是
粮食亩产量与每亩田施肥量有关,是相关关系.
D
否
圆的面积S和半径r是函数关系.
故选:D.
跟踪训练2.在下列各图中,两个变量具有相关关系的是( ).
A.①② B.①③ C.② D.②③
【答案】D
【分析】根据函数关系和相关关系的概念,结合图象作出判断.
【详解】对于①,所有的点都在曲线上,具有函数关系;
对于②,所有的散点分布在一条直线附近,具有相关关系:
对于③,所有的散点分布在一条曲线附近,具有相关关系;
对于④,所有的散点杂乱无章,不具有相关关系,
故选:D.
考点二 相关系数的比较和计算
典例1.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】D
【分析】由散点图的特征,结合相关系数的定义即可得到答案.
【详解】由散点图的趋势可知,,,,
又图一的散点图比图三的散点图更为集中,则,所以,
又图二的散点图比图四的散点图更为集中,则,所以,
所以.
故选:D.
典例2.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【分析】根据散点图及相关性判断AB,由相关系数性质判断CD.
【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;
对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
对C,图1正相关,图2负相关,所以C不正确;
对D,因为图2相关程度更强,所以D正确.
故选:C.
跟踪训练1.下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
【答案】D
【分析】根据数据点的分布情况直观判断是否有线性相关关系及正负相关即可.
【详解】A,B,C中各点有非线性拟合趋势,D中具有线性相关且为负相关.
故选:D
跟踪训练2.按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码
1
2
3
4
5
6.4
5.5
5.0
4.8
3.8
(1)求2017-2021年年份代码与的样本相关系数(精确到0.01);
(2)预测2026年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:,.
样本相关系数,.
【答案】(1)
(2)0.97%
【分析】(1)由表中数据结合题中数据,求出相关数值,代入相关系数求,即可得出答案;
(2)根据(1)中求出的数据,得到回归直线方程;将代入回归直线方程,即可预测2026年的酸雨区面积占国土面积的百分比.
【详解】(1)由已知可得,,,
由题可列下表:
-2
-1
0
1
2
1.3
0.4
-0.1
-0.3
-1.3
,,.
.
(2)由(1)知,,,
所求经验回归方程为.
令,,
预测2026年的酸雨区面积占国土面积的百分比为0.97%.
考点三 线性回归方程与样本中心
典例1.已知变量和满足经验回归方程,且变量和之间的一组相关数据如表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【答案】D
【分析】对A、D:借助线性回归方程必过样本中心点计算即可得;对B:将代入方程计算即可得;对C:借助回归方程的斜率即可得.
【详解】对于A,由表可得,,
因为经验回归直线必过样本中心点,
所以,解得,故A正确;
对于B,当时,,故B正确;
对于C,因为经验回归方程中,斜率,所以变量和呈负相关,故C正确;
对于D,该经验回归直线必过点为样本中心点,故D错误.
故选:D.
典例2.下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
【答案】B
【分析】根据线性回归直线的性质可判断选项ABC;根据相关系数的性质可判断D,进而可得正确选项.
【详解】对于选项A:样本数据点的中心一定在线性回归直线上,故A错误;
对于选项B:残差平方和越小的模型,拟合的效果越好,故B正确;
对于选项C:线性回归直线在散点图中可能不经过任一样本数据点,故C错误;
对于选项D:如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故D错误;
故选:B.
跟踪训练1.(多选)下列说法中,正确的是( )
A.回归直线可以不经过样本中心
B.可以用相关系数刻画两个变量的相关程度强弱,值越大两个变量的相关程度越强
C.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过
【答案】CD
【分析】根据回归直线方程的特征,可判定A错误;根据相关系数的定义,可得判定B错误;根据残差图的性质,可得判定C正确;根据独立性检验的定义,可判断D正确.
【详解】A中,根据回归直线方程的特征,可得回归直线一定经过样本中心,所以A错误;
B中,相关系数是用来刻画两个变量的相关程度强弱,值越大两个变量的相关程度越强,所以B错误;
C中,在残差图中,若残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,所以C正确;
D中,根据分类变量与的成对样本数据,计算得到,
根据小概率值的独立性检验,
根据独立性检验的定义,可得变量与有关联,且推断犯错误的概率不超过,所以D正确.
故选:CD.
跟踪训练2下列命题正确的是( )
A.线性回归直线必过样本数据的中心点;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
【答案】A
【分析】利用回归直线的性质,相关系数和决定系数的规定及残差分析的分析方式,逐项判断即可.
【详解】选项A:回归直线的定义规定回归直线必过样本数据的中心点,所以选项A正确;
选项B:当相关系数时,说明两个变量正相关,所以选项B错误;
选项C:模型的决定系数越大,说明残差平方和越小,拟合效果越好,,
所以模型甲的拟合效果更好,所以选项C错误;
选项D:残差图中残差点所在的水平带状区域越宽,说明观测值与预报值之间的差距越大,数据分布越分散,
因此回归方程的预报精确度就越差,所以选项D错误.
故选:A.
考点四 求线性回归方程
典例1.某公司在5个月期间的广告支出x(万元)与销售额y(万元)的数据如下:
月份
1
2
3
4
5
广告支出x
2
4
5
8
11
销售额y
10
20
30
40
50
(1)从这5个月中随机抽取三个月份,记销售额高于30万元的月份的个数为X,求随机变量X的分布列及数学期望;
(2)求y关于x的线性回归方程,并预测广告支出为10万元时的销售额.
参考公式:,.
【答案】(1)分布列见解析,;
(2),当万元时,销售额为万元.
【分析】(1)由题意可得,分别求出对应概率,列出分布列,即可计算其期望;
(2)求出、,根据的公式,求出、,即可得回归方程,代入,即可得对应的销售额.
【详解】(1)由题意可得,
所以,,,
分布列如下:
0
1
2
所以;
(2)因为,,
所以,
,
所以,
又因为,
所以y关于x的线性回归方程为;
当时,;
所以y关于x的线性回归方程为,当万元时,销售额为万元.
跟踪训练1.随着新能源产业的发展,某地区近年来新能源汽车保有量快速增长,为了研究充电桩建设的情况,相关部门收集到了2020年到2024年充电桩数量y(单位:万个),为方便研究,年份代码用x表示(如:表示2020年),具体参考数据如下表:
55
70.4
19
(1)请根据表中数据,建立y关于x的回归直线方程;
(2)假设该地区现有10个充电桩,其中6个为快充桩.现随机抽取2个充电桩进行检查,记抽到的快充桩个数为X,求X的分布列及均值.
(参考公式:,.)
【答案】(1)
(2)分布列见解析,
【分析】(1)首先求出,,再根据公式求解即可.
(2)根据题意得到X的可能取值为0,1,2,从而得到,,,再求分布列和数学期望即可.
【详解】(1),,
因为,,
所以,,
所以回归直线方程为.
(2)由题意,X的可能取值为0,1,2,
,,
.
X的分布列为:
X
0
1
2
P
所以.
跟踪训练2.根据统计数据和研究报告,2025年中国新能源汽车产销呈现强劲增长态势,渗透率(渗透率=新能源汽车销量÷当月汽车总销量)持续攀升,行业格局加速分化.2025年3月新能源汽车渗透率首次超过,2025年1月至6月,全国新能源汽车的渗透率统计如下:
2025年1月至6月新能源汽车渗透率统计表
月份
1
2
3
4
5
6
渗透率
41.4
49.4
51.1
51.5
53.0
53.3
(1)2025年6月全国汽车销量为208.4万辆,计算该月新能源汽车的销量(精确到0.1).
(2)根据以上数据,建立y关于月份x的经验回归方程,并预测2025年7月新能源汽车的渗透率.
(3)实际7月新能源汽车的渗透率为,请:
①结合预测值分析误差原因;
②提出改进模型的建议.
(参考数据及公式:,.)
【答案】(1)111.1万辆
(2),
(3)①答案见解析;②答案见解析
【分析】(1)根据条件,利用新能源汽车销量汽车总销量渗透率,即可求解;
(2)先计算出,结合条件,可求出,即可求解;
(3)①结合(2)中结果和实际情况,即可作出判断;②根据实际情况,即可提出建议.
【详解】(1)因为新能源汽车销量汽车总销量渗透率,则(万辆),
所以2025年6月新能源汽车的销量约为111.1万辆.
(2)因为,
又,所以,
所以回归方程为,
令,则,
所以7月新能源汽车的渗透率的估计值为.
(3)①估计值与实际值的绝对误差为,估计值偏高,
产生误差的原因是:模型局限性;渗透率超过后,增长自然放缓;
线性模型假设“增速永远不变”,但实际增长会先快后慢.
②改进建议:用非线性模型替代线性回归模型(例:,逻辑函数模型等);
用减速增长模型,体现“先快后慢”规律.
考点五 非线性回归方程
典例1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
【答案】B
【分析】先根据散点图确定函数图象的趋势,再结合5个函数图象,进行判断选择.
【详解】从散点图知,样本点分布在抛物线上或对数型曲线上,结合所给5个的曲线类型,所以或较适宜.
故选:B
典例2.当前,全球贸易格局发生重大变化,随着中美贸易战的不断升级,让越来越多的中国科技企业开始意识到自主创新的重要性,大大加强科技研发投入的力度,形成掌控高新尖端核心技术及其市场的能力.某企业为确定下一年对某产品进行科技升级的研发费用,需了解该产品年研发费用(单位:千万元)对年销售量(单位:千万件)和年利润(单位:千万元)的影响.根据市场调研与模拟,对收集的数据进行初步处理,得到散点图及一些统计量的值如下:
30.5
15
15
46.5
表中,.
(1)根据散点图判断,与哪一个更适合作为年销售量关于年研发费用的回归方程类型(给出判断即可,不必说明理由),并根据判断结果及表中数据,建立关于的回归方程;
(2)已知年利润与,的关系为(其中为自然对数的底数),要使企业下一年的年利润最大,预计下一年应投入多少研发费用?
(3)科技升级后,该产品的效率大幅提高,经试验统计得大致服从正态分布.企业对科技升级团队的奖励方案如下:若不超过,不予奖励;若超过,但不超过,每件产品奖励10元;若超过,每件产品奖励20元.记为每件产品获得的奖励,求.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
附:若随机变量,则,.
【答案】(1)更适合作为关于的回归方程类型,
(2)54千万元
(3)11.36元
【分析】(1)根据散点图可判断,更适合作为关于的回归方程类型,对两边取对数,,代入公式,结合表格数据得到回归方程;
(2)在(1)基础上,得到,求导,得到函数单调性,从而求出最值;
(3)求出,,利用期望公式求出答案.
【详解】(1)根据散点图可判断,更适合作为关于的回归方程类型,
因为呈线性变化,不合要求,故选,
对两边取对数,得,即,
由表中数据得:,,
,所以,
所以关于的回归方程为;
(2)因为,所以,
,令,得,
当时,,单调递增;
当时,,单调递减.
所以预计下一年投入千万元时,
年利润取得最大值为千万元.
(3)因为,,
所以
,
,
(元).
跟踪训练1.某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
【答案】D
【分析】根据散点图的变化规律,寻求合适的特征函数.
【详解】由图可知,随着温度的增加,发芽率的增长速度越来越慢,符合对数型函数的特征.
故选:D.
跟踪训练2.中国的非遗项目丰富多样,涵盖广泛,体现了中华民族的智慧和独特的文化魅力.春节期间某地为充分宣扬该地非遗物质文化,加大非遗传承人的技艺展示.该地市场开发与发展机构统计了非遗传承人的技艺展示量与市场消费收入的6组数据如下表:
技艺展示量x(单位:个)
21
23
24
27
29
32
市场消费收入y(单位:万元)
6
11
20
27
57
77
(1)若用线性回归理论进行统计分析,求市场消费收入y关于技艺展示量x的回归方程(精确到0.1);
(2)若用非线性回归模型求得市场消费收入y关于技艺展示量x的回归方程为,且决定系数,与(1)中的线性回归模型相比,应用决定系数说明哪种模型的拟合效果更好.
附:一组数据,,…,,其回归直线的斜率和截距的最小二乘估计为,;决定系数
参考数据:,,,
线性回归模型的残差平方和为(其中,分别为非遗传承人的技艺展示量和市场消费收入,).
【答案】(1)
(2)用非线性回归模型拟合效果更好
【分析】(1)首先算出,,然后算出即可;
(2)算出线性回归模型的决定系数,然后与非线性回归模型的决定系数比较即可作出判断.
【详解】(1)由题意,则,
,
,,
y关于x的线性回归方程为.
(2)对于线性回归模型,,,
决定系数为,
因为,所以用非线性回归模型拟合效果更好.
考点六 残差及相关指数的应用
典例1.变量关于变量的经验回归方程为.若时,的实际观测值为8,则此时的残差为( )
A. B. C.1 D.2
【答案】C
【分析】根据回归方程求出估计值,然后由残差定义即可得解.
【详解】当时,,
又时,的实际观测值为8,所以此时的残差为.
故选:C
典例2.(多选)某同学根据的5组数据,绘制了散点图(图1),并进行回归分析,若在这5组数据的基础上又增加了2组数据(图2),重新进行回归分析,则下列叙述正确的是( )
A.决定系数变大 B.样本相关系数的绝对值更趋近于0
C.残差的平方和变大 D.解释变量与响应变量的相关性变强
【答案】BC
【分析】从图中分析得到增加2组数据后,回归效果变差,再由决定系数,相关系数,残差平方和和相关性的概念和性质作出判断.
【详解】由图可知:增加2组数据后,回归效果变差,所以决定系数变小,线性相关系数的绝对值变小,残差的平方和变大,解释变量与响应变量的相关性变弱.
故选:BC
跟踪训练1.(多选)下列说法正确的是( )
A.在回归分析中,为0.99的模型比为0.98的模型拟合的效果更好
B.两个变量的相关系数为,则越接近于与之间的线性相关性越强
C.数据“2,3,4,5,6”的第60百分位数是4
D.样本数据的平均数为,方差为,则的平均数为,方差为
【答案】ABD
【分析】根据决定系数的概念判断A;根据线性相关系数的概念判断B;利用百分位数的计算方法计算第60百分位数判断C;利用平均数与方差的意义求得新数据的平均数与方差判断D.
【详解】对于A,越大模型拟合效果越好,故A正确;
对于B,越接近于1,与之间的线性相关性越强,故B正确;
对于C,因为,所以数据“2,3,4,5,6”的第60百分位数是,故C错误;
对于D,因为样本数据的平均数,
所以的平均数为,
因为样本数据的方差为,
所以的方差
,故D正确.
故选:ABD.
跟踪训练2.(多选)某种产品的广告支出费(单位:万元)与销售量(单位:万件)之间的对应关系如下表.
广告支出x/万元
1.2
2.6
4
5.4
6.8
销售量y/万件
1.4
6
7.3
11.8
13.5
根据表中的数据可得回归直线方程,则以下说法中正确的是( )
A.第三个样本点对应的残差
B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C.销售量的变化有97%是由广告支出费引起的
D.用该回归方程可以比较准确地预测广告支出费为20万元时的销售量
【答案】AC
【分析】由已知求得样本中心点的坐标,代入线性回归方程求得,可得线性回归方程,求解残差判断A与B;由相关系数的意义判断C:由样本的取值范围会影响回归方程的使用范围判断D.
【详解】,,
将其代入回归方程中得,得,
故回归直线方程为,所以,A正确;
由于,所以该回归模型拟合的效果比较好,故对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,B错误;
在线性回归模型中,表示解释变量对于预报变量的贡献率,,则销售量的变化有97%是由广告支出费引起的,C正确;
由于样本的取值范围会影响回归方程的使用范围,而20万元远大于表格中广告支出费的值,故用该回归方程不能准确地预测广告支出费为20万元时的销售量,故D错误.
故选:AC
考点七 独立性检验
典例1.为了研究某新型病毒与快速检测试剂结果的关系,研究人员随机调查了200名接受过该试剂检测的人群,得到如下列联表:
快速检测结果组别
阳性
阴性
合计
感染该病毒
30
10
40
未感染该病毒
20
140
160
合计
50
150
200
(1)记快速检测结果为阳性者感染该病毒的概率为P,求P的估计值;
(2)根据小概率值的独立性检验,分析快速检测结果是否与感染该病毒有关.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)
(2)有关,理由见解析.
【分析】(1)由古典概率计算可得;
(2)由卡方的计算结合独立性检验可得.
【详解】(1)由题意可得快速检测结果为阳性者共50人,其中为阳性者感染该病毒的人数为30人,
所以.
(2)有关,理由如下:
由表中的数据可知,
则,
又小概率时,,
因为,所以根据小概率值的独立性检验,快速检测结果与感染该病毒有关.
典例2.某种疾病分为甲、乙两种类型,为研究该疾病的类型与患者性别是否有关,随机抽取了名患者进行调查,得到如下列联表:
性别
疾病类型
合计
甲型病
乙型病
男
女
合计
(1)根据小概率值的独立性检验,得出了“所患疾病的类型与性别有关”的结论,求的最小值;
(2)现对部分人群接种预防甲型疾病的疫苗,要求每人至多安排2个周期接种疫苗,每人每周期必须接种3次,每次接种后,产生抗体的概率为0.8.如果一个周期内至少2次产生抗体,那么该周期结束后终止接种,否则进入第二个周期.已知每人每周期接种费用为30元,试估计1000人接种疫苗总费用的期望.附,
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1)18;
(2)33120.
【分析】(1)根据列联表中的数据求得的值,根据小概率值的独立性检验可得,求解得答案;
(2)设每人接种疫苗的费用为,其可能的取值为,求出取值对应的概率,分布列,得到每人接种疫苗的费用的均值,进而求得1000人接种疫苗总费用的期望.
【详解】(1)根据列联表中的数据,得到,
因为根据小概率值的独立性检验,认为“所患疾病的类型与性别”有关,
所以,解得,
因为,结合列联表中各式均为整数,
所以的最小整数值为18.
(2)设每人接种疫苗的费用为,其可能的取值为,
所以,,
所以的分布列为
30
60
所以的期望,
估计1000人接种疫苗总费用的期望为元.
跟踪训练1.近日,2025年湖南省城市足球联赛(被球迷称为“湘超”)如火如荼地进行,引发广泛关注.某地区随机抽取了部分市民,调查他们对赛事的关注情况,得到如下表格:
性别
不关注赛事
关注赛事
男性
25
150
女性
50
75
(1)列出列联表并根据小概率值的独立性检验,能否认为关注“湘超”赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取3名市民参加“湘超”赛事知识问答.已知男性、女性市民顺利完成知识问答的概率分别为,,每个人是否顺利完成相互独立.求在有且仅有2人顺利完成的条件下,这2人的性别不同的概率.
附:.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,认为关注“湘超”赛事与性别有关
(2)
【分析】(1)由题意可得列联表,再计算,对比临界值表即可得解;
(2)根据题意,求出有且仅有2人顺利完成知识问答的概率和这2人性别不同的概率,再根据条件概率公式求解即可.
【详解】(1)列联表如下:
性别
不关注赛事
关注赛事
合计
男性
25
150
175
女性
50
75
125
合计
75
225
300
零假设为:关注“湘超”赛事与性别无关.
故依据小概率值的独立性检验,推断零假设不成立,
即认为关注“湘超”赛事与性别有关.
(2)由分层抽样可知,抽取男性市民2人,女性市民1人,
记“有且仅有2人顺利完成知识问答”为事件A,“这2人的性别不同”为事件B,
则,
,
则,
所以在有且仅有2人顺利完成知识问答的条件下,这2人的性别不同的概率为.
跟踪训练2.为了研究高三年级学生的性别和身高是否大于的关系,调查了某高三年级学生,整理得到如下列联表:
身高
性别
低于
不低于
合计
男
9
91
100
女
90
10
100
合计
99
101
200
(1)在这200名学生中随机选两名学生身高均不低于的概率是多少?
(2)根据小概率值的独立性检验,能否认为该中学高三年级学生的性别与身高有关联,解释所得结论的实际含义.
附
0.05
0.010
0.001
3.841
6.635
10.828
【答案】(1)
(2)认为该中学高三年级学生的性别与身高有关联.实际意义见解析
【分析】(1)根据古典概型的概率公式求解,即得答案;
(2)计算的值,根据独立性检验的原理,即可得结论.
【详解】(1)设两名学生身高均不低于的事件为,
由古典概率计算公式得
(2)零假设为:该中学高三年级学生的性别与身高无关联,
则,
根据的独立性检验,我们推断不成立,
即认为该中学高三年级学生的性别与身高有关联.
所得结论的实际含义是:在犯错误的概率不超过0.001的前提下,
认为该中学高三年级学生的性别与身高有关联,
即男生身高不低于170cm的比例远高于女生,女生身高低于170cm的比例远高于男生.
一、单选题
1.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
【答案】A
【分析】由表格数据求出样本中心点求解判断A;由的正负判断B;由回归方程计算判断C;由相关系数公式判断D.
【详解】,则样本中心点为,
对于A,由,得,A正确;
对于B,由,得与的样本是正相关,B错误;
对于C,当时,的预估值为,C错误;
对于D,由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,D错误.
故选:A
2.下列说法正确的是( )
A.一组数据1,1,2,3,5,8,13,21的第60百分位数为4
B.设且,则
C.两个随机变量的线性相关程度越强,则样本相关系数越接近于1
D.在回归分析模型中,若决定系数越小,则残差平方和越大,模型的拟合效果越差
【答案】D
【分析】根据百分位数的定义可判断A,根据正态分布的对称性求解可判断B,根据相关系数的性质可判断C,根据决定系数的性质可判断D.
【详解】对于A,因为,所以数据的第60百分位数为5,故A错误;
对于B,因为且,则,
所以,故B错误;
对于C,两个随机变量的线性相关程度越强,则样本相关系数的绝对值越接近于1,故C错误;
对于D,在回归分析模型中,若决定系数越小,则残差平方和越大,模型的拟合效果越差,故D正确.
故选:D.
3.某品牌的新能源汽车的使用年限(年)与维护费用(千元)之间有如下数据:
使用年限(年)
2
4
5
6
8
维护费用(千元)
2.75
4.25
6.25
7.25
8.75
已知与之间具有线性相关关系,且关于的经验回归方程为.据此估计,使用年限为9年时,维护费用约为( )
A.9.75千元 B.10.05千元 C.10.25千元 D.10.75千元
【答案】B
【分析】先求出,然后根据回归直线过样本的中心点得,将代入得,即可得解.
【详解】由题意可得,
由于回归直线过样本的中心点,所以,解得,
当时,,
所以当该品牌的新能源汽车的使用年限为9年时,维护费用约为10.05千元.
故选:B.
4.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为.
x
2
3
4
5
y
若,则( )
A.6.8 B.7.8 C.8.8 D.9.8
【答案】D
【分析】求解样本中心,代入线性回归方程中可得,即可代入求解.
【详解】由题意可得
x
2
3
4
5
2
3
5
6
由表中数据可得,,
故在上,故,故,则
当时,即,则,解得,
故选:D
5.下列说法正确的是( )
A.某物理量的测量结果服从正态分布,该物理量在一次测量中落在与落在的概率相等
B.数据7,4,2,9,1,5,8,6的第50百分位数为5
C.将一组数据中的每一个数据加上同一个常数后,方差不变
D.设具有线性相关关系的两个变量,的相关系数为,则越接近于,和之间的线性相关程度越强
【答案】C
【分析】借助正态分布的性质可得A;借助百分位数定义可得B;借助方差定义计算可得C;借助相关系数定义可得D.
【详解】对A:设该物理量为随机变量,
则,
,
由的均值为,则,
由区间比区间离均值更近,
而离均值越近的区间,概率密度越高,
故,
故,
即该物理量在一次测量中落在比落在的概率更大,故A错误;
对B:将这组数据从小到大重新排列有:1,2,4,5,6,7,8,9,
由,则这组数据的第50百分位数为,故B错误;
对C:设一组数据为,则平均数,
方差为,
将数据中的每一个数据加上同一个常数后为,
则平均数为,
方差为,
,
所以将一组数据中的每一个数据加上同一个常数后,方差不变,故C正确;
对D:越接近,和之间的线性相关程度越强,故D错误.
故选:C.
6.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
【答案】B
【分析】根据线性回归和最小二乘法知识进行求解即可.
【详解】根据表中数据可求得:
,.
因为经验回归方程经过点,得.
解得,所以A正确;
所以经验回归方程为.
当时,,
所以残差为,所以B错误;
因为经验回归方程为,,所以正相关,所以C正确;
令,则,所以D正确.
故选:B.
二、多选题
7.下列四个命题中正确的是( )
A.已知随机变量服从正态分布,若,则
B.对具有线性相关关系的变量,其经验回归方程为,若样本点的中心为,则实数的值是4
C.已知随机变量服从二项分布,若,则
D.对于样本相关系数,若越大,则成对样本数据的线性相关程度越强
【答案】AC
【分析】根据正态分布曲线的对称性,可求得的值,判断A;根据线性回归直线过样本中心可求得m的值,判断B;根据二项分布的方差的性质可判断C;根据样本相关系数的意义可判断D.
【详解】对于A,因为随机变量X服从正态分布,,
则,A正确;
对于B,将样本点的中心代入,可得,B错误;
对于C,随机变量X服从二项分布,则,
若,则,C正确;
对于D,样本相关系数r,当越接近1时,成对样本数据的线性相关程度越强,D错误,
故选:AC
三、填空题
8.已知的取值如下表:
0
1
3
4
从散点图分析,与线性相关,且回归方程为,则 .
【答案】
【分析】由表中数据计算出,,根据线性回归方程过样本中心点即可求解.
【详解】由表中数据,计算得:,,
又线性回归方程过样本中心点,所以,解得.
故答案为:
9.一组数据的线性回归方程为,若,则 .
【答案】78
【分析】根据回归直线恒过样本中心点,求得,即可求得.
【详解】由得.
因为过点,所以,所以.
故答案为:78.
四、解答题
10.某咖啡店想了解顾客性别与喜欢的咖啡口味是否有关,随机调查了名顾客,得到如下的列联表:
喜欢拿铁
喜欢美式
男性顾客
70
80
女性顾客
90
60
(1)根据的独立性检验,分析顾客性别与喜欢的咖啡口味是否有关;
(2)从这名顾客中随机选择名,已知其中至少有名女性顾客,求这名顾客都喜欢拿铁的概率.
附:,
【答案】(1)认为顾客性别与喜欢的咖啡无关
(2)
【分析】(1)计算卡方值并与临界值比较,即可得出结论;
(2)根据条件概率的公式计算得解.
【详解】(1)零假设:顾客性别与喜欢的咖啡口味无关.
因为,
故依据的独立性检验,没有足够的证据说明不成立,即认为顾客性别与喜欢的咖啡无关.
(2)设事件“所选的2名顾客至少有1名女性顾客”,事件“所选的2名顾客都喜欢拿铁”.
由列联表知;
,
所以.
11.随机抽取某集团公司旗下五家超市,得到广告支出x(万元)与销售额y(万元)的数据如下:
广告支出x(万元)
2
4
5
6
8
销售额y(万元)
20
30
50
60
70
(1)计算x,y的相关系数r,并判断是否可以认为广告支出与销售额具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高,)
(2)求出y关于x的线性回归方程,并预测若广告支出15(万元),则销售额约为多少万元?参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
【答案】(1),可以认为广告支出与销售额具有较高的线性相关程度
(2),销售额为136万元.
【分析】(1)根据相关系数公式求出相关系数即可判断.
(2)根据公式求出,进而确定线性回归方程,然后将广告支出代入方程中求出销售额即可.
【详解】(1)根据表格里的数据可得:
,.
所以
.
.
.
所以可以认为广告支出与销售额具有较高的线性相关程度.
(2)根据公式可得:
,.
所以关于的线性回归方程为.
当广告支出15万元时,销售额约为万元.
12.某景区为测试并推广一款预约游览APP,上线的第1、2两天在APP上预约可获得免费游览资格,第3天开始恢复为原票价,下表是该景区在该APP上前7天的预约情况
第天
1
2
3
4
5
6
7
预约量(万张)
9.03
9
8.58
8.7
8.76
8.74
8.79
经计算得:.
(1)求关于的线性回归方程及第5天的残差:(精确到0.001)
(2)为了调查该APP在不同年龄的人群中的推广情况,从第7天成人游客中随机抽取200人进行分析,所得的部分数据见下表:
50岁以下
50岁(含50)以上
合计
通过APP预约人数
70
其它方式购票人数
80
合计
100
①完成以上列联表:
②如果有95%的把握认定游客通过APP预约游览与其年龄有关,就要进行针对性宣传,请你判断是否需要针对年龄超过50岁(含50)以上的人群进行宣传.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:
【答案】(1),残差为
(2)①列联表见解析;②需要,理由见解析
【分析】(1)根据表中数据和公式求出的值,进而得到线性回归方程,从而可求出第5天的残差.
(2)①根据数据的和差进行填表即可.②作出零假设,根据公式求出卡方值,进而可判断零假设是否成立.
【详解】(1),
故,
,
故关于的线性回归方程为.
所以第5天的残差为
(2)①列联表如下:
50岁以下
50岁(含50)以上
合计
通过APP预约人数
70
50
120
其它方式购票人数
30
50
80
合计
100
100
200
②需要针对年龄超过50岁(含50)以上的人群进行宣传,理由如下:
零假设认定游客通过APP预约游览与其年龄无关,
则,
根据小概率事件原理,可知零假设不成立,故认定游客通过APP预约游览与其年龄有关,
需要针对年龄超过50岁(含50)以上的人群进行宣传.
1.下列关于统计概率知识的判断,正确的是( )
A.将总体划分为2层,通过分层随机抽样,得到两层的样本平均数和样本方差分别为和,且已知,则总体方差
B.在研究成对数据的相关关系时,相关关系越强,相关系数越接近于1
C.某医院住院的8位新冠患者的潜伏天数分别为10,3,8,3,2,18,7,4,则该样本数据的第50百分位数为4
D.若,则事件A,B相互独立
【答案】D
【分析】利用方差公式可判断A选项;利用相关系数与线性相关关系可判断B选项;利用百分位数的定义可判断C选项,利用条件概率公式以及独立事件的定义可判断D选项.
【详解】A,设2组数据分别记为,
总体的样本平均数为,
,
,
方差
,
只有当时,才成立,A错误,
B,在研究成对数据的相关关系时,相关关系越强,相关系数越接近于B错误,
C,8位新冠患者的潜伏天数从小到大排列分别为:2,3,3,4,7,8,10,18,
该样本数据的第50百分位数为C错误,
D,,即,故,
则事件A,B相互独立,D正确.
故选:D.
2.(多选)某市对2017年至2021年这五年间全市烧烤店盈利店铺的个数进行了统计,具体统计数据如下表所示:
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
盈利店铺的个数
260
240
215
200
180
根据所给数据,得出关于的线性回归方程为,则下列说法正确的是( )
A.该市2017年至2021年全市烧烤店盈利店铺个数的平均数
B.y关于t的线性回归方程为
C.估计该市2023年烧烤店盈利店铺的个数为147
D.预测从2028年起,该市烧烤店盈利店铺的个数将不超过100
【答案】ABC
【分析】由平均数的计算方法可判断A;代入样本中心点可得回归方程,可判断B;代入可判断C;令,解不等式,可判断D.
【详解】由已知数据得,,故A正确;
因为关于的回归直线过点,所以,所以,
所以关于的线性回归方程为.故B正确;
2023年的年份代码为7,故2023年该市烧烤店盈利店铺的个数约为.故C正确;
令,由,得,故从2026年起,该市烧烤店盈利店铺的个数将不超过100.故D不正确.
故选:ABC.
3.(多选)下列说法正确的是( )
A.样本数据,去掉其中的一个最小数和一个最大数后,剩余数据的中位数小于原样本的中位数
B.数据的方差为0,则所有的都相等
C.若随机变量,则
D.在线性回归模型中,变量与的一组样本数据对应的点均在直线上,则决定系数
【答案】BCD
【分析】通过举具体的样本数据例子,根据中位数定义,即可判断选项A;依据方差的计算公式,分析方差为0时数据的特征,即可判断选项B;利用正态分布中越小,曲线越“瘦高”,相同区间内概率越大的性质,即可判断选项C;根据线性回归模型中决定系数的公式,结合“样本数据对应的点均在回归直线上”这一条件,分析残差平方和与总偏差平方和的关系,即可判断选项D.
【详解】选项A,假设一组数据样本,其中位数为,去掉其中的一个最小数和一个最大数后,
数据样本为,其中位数仍为,所以A错误;
选项B,根据方差的计算公式(其中为平均数),若方差,即,
则,即,因此所有的都相等,所以B正确;
选项C,对于正态分布,越小,曲线越“瘦高”,在相同区间内的概率越大.因为,
则,所以,所以C正确;
选项D,已知在线性回归模型中,变量与的一组样本数据对应的点均在直线上,
则残差,所以决定系数,所以D正确.
故选:BCD.
4.某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据图中数据,估计强化训练后的成绩(同一组中的数据用该组区间的中点值作代表)的众数与成绩的分位数;
(2)规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
强化训练
是否优秀
合计
优秀
非优秀
强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?
附:,.
0.05
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)众数约为85,86.25
(2)表格见解析,认为跳水运动员是否优秀与强化训练有关
【分析】(1)根据题意求各组的频率,结合众数和中位数的定义运算求解即可;
(2)完善列联表,求值,结合独立性检验思想分析判断.
【详解】(1)因为强化训练后的各组频率已成为,
可知频率最大的一组为,所以强化训练后的成绩众数约为85;
又因为前三组概率之和为,前四组概率之和为,
可知分位数在内,设分位数为,
则,解得,
所以分位数约为86.25.
(2)零假设为:跳水运动员是否优秀与强化训练无关,
补充完整的表格为
优秀人数
非优秀人数
合计
强化训练前
40
60
100
强化训练后
60
40
100
合计
100
100
200
则,
根据小概率值的独立性检验,我们推断不成立,
所以认为跳水运动员是否优秀与强化训练有关.
5.某工厂生产各种规格的某种零件,从中随机抽取6个不同规格的零件,其检测数据如下表:
零件尺寸
38
48
58
68
78
88
零件质量
16.8
18.8
20.7
22.4
24
25.5
质量与尺寸之比
0.442
0.392
0.357
0.329
0.308
0.290
(1)测评标准指出,当零件的质量与其尺寸之比在区间内时为优等品.现从上述6个零件中任选2个,求这2个零件中优等品个数的均值和方差;
(2)据散点图分析,上述6个零件的质量与尺寸之间存在非线性相关关系,其经验回归方程可设为.当零件的尺寸为时,估计零件的质量约为多少?(精确到)
参考数据:,,,,
附:对于样本数据,其一元线性回归模型中斜率参数b和截距参数a的最小二乘估计分别为:,
【答案】(1),
(2)
【分析】(1)列出的可能取值,计算对应概率,根据期望和方差公式计算即可;
(2)由,得,结合题中参考数据和公式可得,再计算即可求解.
【详解】(1)因为0.357,0.325,,则抽取的6个零件中有3个优等品,3个为非优等品,
所以的可能取值为0,1,2.
因为,,
所以,
.
(2)由,得,
令,,,则
因为,,,
则,
所以,即,所以y与x的经验回归方程是
当时,,所以当零件尺寸为时,估计零件的质量约为.
1.(2025·天津·高考真题)下列说法中错误的是( )
A.若,则
B.若,,则
C.越接近1,相关性越强
D.越接近0,相关性越弱
【答案】B
【分析】根据正态分布以及相关系数的概念直接判断即可.
【详解】对于A,根据正态分布对称性可知,,A说法正确;
对于B,根据正态分布对称性可知,,B说法错误;
对于C和D,相关系数越接近0,相关性越弱,越接近1,相关性越强,故C和D说法正确.
故选:B
2.(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【答案】A
【分析】由点的分布特征可直接判断
【详解】观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1.
故选:A
3.(2023·天津·高考真题)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【分析】根据散点图的特点及经验回归方程可判断ABC选项,根据相关系数的定义可以判断D选项.
【详解】根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,
把代入可得,C选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是,D选项错误
故选:C
二、解答题
4.(2024·全国甲卷·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
(1)填写如下列联表:
优级品
非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)答案见详解
(2)答案见详解
【分析】(1)根据题中数据完善列联表,计算,并与临界值对比分析;
(2)用频率估计概率可得,根据题意计算,结合题意分析判断.
【详解】(1)根据题意可得列联表:
优级品
非优级品
甲车间
26
24
乙车间
70
30
可得,
因为,
所以有的把握认为甲、乙两车间产品的优级品率存在差异,没有的把握认为甲,乙两车间产品的优级品率存在差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为,
用频率估计概率可得,
又因为升级改造前该工厂产品的优级品率,
则,
可知,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
5.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)
(2)有关
【分析】(1)根据古典概型的概率公式即可求出;
(2)根据独立性检验的基本思想,求出,然后与小概率值对应的临界值比较,即可判断.
【详解】(1)根据表格可知,检查结果不正常的人中有人患病,所以的估计值为;
(2)零假设为:超声波检查结果与患病无关,
根据表中数据可得,,
根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.
6.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
【答案】(1)
(2)
(3)有
【分析】(1)求出相关占比,乘以总人数即可;
(2)根据平均数的计算公式即可得到答案;
(3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论.
【详解】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.
.
则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
7.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
【答案】(1);;
(2)
(3)
【分析】(1)由最长与最短用时可得极差,由中间两数平均数可得中位数;
(2)由古典概型概率公式可得;
(3)先求成绩平均数,再由在回归直线上,代入方程可得,再代入年份预测可得.
【详解】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数
,
由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
$