内容正文:
专题9.3 成对数据的统计分析(举一反三讲义)
【全国通用】
【题型1 变量的相关关系】 4
【题型2 样本相关系数】 6
【题型3 一元线性回归模型】 8
【题型4 非线性回归模型】 11
【题型5 残差】 17
【题型6 列联表与独立性检验】 19
【题型7 独立性检验与其他知识综合】 23
1、成对数据的统计分析
考点要求
真题统计
考情分析
(1)了解样本相关系数的统计含义
(2)了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题
(3)会利用统计软件进行数据分析
2023年全国甲卷(文数、理数):第19题,12分
2024年全国甲卷(文数):第18题,12分
2024年天津卷:第3题,5分
2024年上海卷:第13题,4分、第19题,14分
2025年全国一卷:第15题,13分
2025年天津卷:第5题,5分
2025年上海卷:第17题,14分
成对数据的统计分析是高考的重点、热点内容,从近几年的高考情况来看,主要以解答题的形式考查,一般会与概率等知识结合考查,综合性强,难度中等;有时也会在选择、填空题中出现,单独考察单一知识点,难度不大;复习时要加强此类问题的训练.
知识点1 变量的相关关系
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
知识点2 样本相关系数
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
知识点3 一元线性回归模型
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
知识点4 列联表与独立性检验
1.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
2.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
3.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【方法技巧与总结】
1.经验回归直线过点.
2.求时,常用公式.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【题型1 变量的相关关系】
【例1】(2025·辽宁葫芦岛·一模)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【答案】D
【解题思路】根据已知条件,结合回归方程可判断与正相关,再由变量与负相关,即可判断与负相关.
【解答过程】根据回归方程可知变量与正相关,又变量与负相关,
由正相关、负相关的定义可知,与负相关.
故选:D.
【变式1-1】(2025·天津河西·一模)对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【答案】B
【解题思路】根据散点图点的变化关系确定正负相关性即可.
【解答过程】由变量,的散点图,知随增大,也增大,变量与正相关,
由变量,的散点图,知随增大,减小,与负相关.
故选:B.
【变式1-2】(24-25高二下·全国·课后作业)为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表:
生产线条数
1
2
3
4
5
产量
21
39
64
87
104
则下列说法正确的是( )
A.与负相关 B.与正相关
C.与不相关 D.与成正比例关系
【答案】B
【解题思路】由正、负相关的概念即可判断.
【解答过程】由题中数据可知,y随x的增大而增大,且不成比例关系,故y与x正相关.
故选:B.
【变式1-3】(24-25高二下·全国·课后作业)下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【答案】B
【解题思路】由正、负相关的概念逐项判断即可.
【解答过程】从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则这两个变量为负相关.
结合散点图可知,①②满足题意,即两个变量呈负相关的个数为2个.
故选:B.
【题型2 样本相关系数】
【例2】(2025·四川德阳·三模)下列结论不正确的是( )
A.两个变量的线性相关系数反映了两个变量线性相关程度的强弱,且越大,线性相关性越强
B.若两个变量的线性相关系数,则之间不具有线性相关性
C.由简单随机抽样得到的成对样本数据的样本相关系数不一定能确切地反映变量之间的相关关系.
D.在一组样本数据的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为0.8
【答案】D
【解题思路】根据相关系数的概念和性质逐项分析判断.
【解答过程】对于A,线性相关系数反映了两个变量线性相关程度的强弱,且越大,线性相关性越强,A正确;
对于B,变量的线性相关系数,则之间不具有线性相关性,B正确;
对于C,成对样本数据的样本相关系数反映变量间相关性强弱,不一定能确切地反映变量之间的相关关系,C正确;
对于D,样本点都在直线上,则这组样本数据的相关系数为1,D错误.
故选:D.
【变式2-1】(2025·天津·二模)为研究某奶茶店每日的热奶茶销售量和气温之间是否具有线性相关关系,统计该店(2025年2月6日至3月24日)每天的热奶茶销售量及当天气温得到如图所示的散点图(轴表示气温,轴表示热奶茶销售量),由散点图可知与的相关关系为( )
A.正相关,相关系数的值为0.8 B.负相关,相关系数的值为0.8
C.正相关,相关系数的值为 D.负相关,相关系数的值为
【答案】D
【解题思路】根据正负相关的概念判断.
【解答过程】由散点图知随着的增大而减小,因此是负相关.相关系数为负.
故选:D.
【变式2-2】(2025·上海黄浦·二模)如果两种证券在一段时间内收益数据的相关系数为0.8,那么表明( )
A.两种证券的收益有反向变动的倾向
B.两种证券的收益有同向变动的倾向
C.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
D.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
【答案】B
【解题思路】根据正相关的定义可得出结论.
【解答过程】因为两种证券在一段时间内收益数据的相关系数为,所以两种证券是正相关,
那么表明两种证券的收益有同向变动的倾向,B正确,ACD错误.
故选:B.
【变式2-3】(2025·浙江杭州·二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数r变小 B.决定系数变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
【答案】D
【解题思路】从图中分析得到去掉后,回归效果更好,再由相关系数,决定系数,残差平方和和相关性的概念和性质作出判断即可.
【解答过程】从图中可以看出较其他点,偏离直线远,故去掉后,回归效果更好,
对于A,相关系数越接近于1,模型的拟合效果越好,若去掉后,相关系数r变大,故A错误;
对于B,决定系数越接近于1,模型的拟合效果越好,若去掉后,决定系数变大,故B错误;
对于C,残差平方和越小,模型的拟合效果越好,若去掉后,残差平方和变小,故C错误;
对于D,若去掉后,解释变量x与预报变量y的相关性变强,且是正相关,故D正确.
故选:D.
【题型3 一元线性回归模型】
【例3】(2025·浙江温州·三模)为了研究某种商品的广告投入和收益之间的相关关系,某研究小组收集了5组样本数据如表所示,得到线性回归方程为,则当广告投入为10万元时,收益的预测值为( )万元.
/万元
1
2
3
4
5
/万元
0.50
0.80
1.00
1.20
1.50
A.2.48 B.2.58 C.2.68 D.2.88
【答案】C
【解题思路】求得样本中心点,得到,即可求解.
【解答过程】由,
可得数据可得样本中心点为:
代入回归方程,解得:,
所以当时,.
故选:C.
【变式3-1】(2025·辽宁锦州·二模)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了1至5月份5G手机的实际销量,如下表所示:
月份x
1月
2月
3月
4月
5月
销售量y(千只)
0.5
0.6
1.0
1.4
1.7
若y与x线性相关,且求得线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,
B.由题中数据可知,6月份该商城5G手机的实际销量为2(千只)
C.由题中数据可知,变量x和y正相关,且相关系数一定小于1
D.若不考虑本题中的数据,回归直线可能不过,,…,中任一个点
【答案】B
【解题思路】根据题意,由回归直线方程的性质,对选项逐一判断,即可得到结果.
【解答过程】对于A,由表格可知,,,
则,故A正确;
对于B,将代入,可得,
所以6月份该商城5G手机的实际销量预测为2(千只),故B错误;
对于C,因为回归方程为,所以变量x和y正相关,
且样本点不全在回归方程上,所以相关系数一定小于1,故C正确;
对于D,回归直线可能不过样本点中的任何一个点,故D正确;
故选:B.
【变式3-2】(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
【答案】(1)拟合效果非常好,理由见解析
(2);
【解题思路】(1)首先根据表格里面的数据求出的平均值,然后根据根据相关系数公式求出相关系数.
(2)首先求出回归方程的表达式,然后将冷却速率值代入,求出金属的凝固点温度.
【解答过程】(1)易知,
因为,,
,
因为,
所以该经验回归方程的拟合效果非常好.
(2)由(1)知,由,
因为,
所以,故所求的经验回归方程为.
当时,,
所以冷却速率为时,该金属的凝固点温度为.
【变式3-3】(2025·山东·一模)某工厂的某生产车间2020年至2024年生产的年利润(百万元),统计数据如表所示:
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
年利润
2.8
3.4
3.6
4.4
4.8
(1)已知变量具有线性相关关系,求年利润(百万元)关于年份代号的经验回归方程,并预测2025年该车间的年利润;
(2)已知该工厂共有6个车间,根据每个车间的年利润分为“类车间”和“类车间”两类,其中“类车间”4个,“类车间”2个,现从这6个车间中任取3个车间,记随机变量为“类车间”的个数,求的分布列及其数学期望.
参考公式:,.
【答案】(1),5.3百万元.
(2)分布列见解析,2
【解题思路】(1)由最小二乘法即可求解回归方程,代入方程即可预测,
(2)利用超几何分布的概率公式求解概率,即可得分布列,进而由期望公式得解.
【解答过程】(1)由题意,根据表格中的数据,可得:
,,
,可得.
所以,
故的线性回归方程,
令,得,故2025年该车间年利润约为5.3百万元.
(2)随机变量的可能值为,
可得,,,
所以的分布列为:
1
2
3
所以期望为:.
【题型4 非线性回归模型】
【例4】(2025·四川绵阳·模拟预测)某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入(亿元)与科技改造直接收益(亿元)的数据统计如下:
2
3
4
6
8
10
13
21
22
23
24
25
13
22
31
42
50
56
58
68.5
68
67.5
66
68
当时,建立了y与x的两个回归模型:模型①;模型②:;
(1)根据下列表格中的数据,比较当时模型①、②的相关指数,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.
回归模型
模型①
模型②
回归方程
182.4
79.2
(附1:刻画回归效果的相关指数)
(2)科技改造后,“东方红”款汽车发动机的热效率X大幅提高,X服从正态分布,公司对科技改造团队的奖励方案如下:若发动机的热效率不超过50%,不予鼓励;若发动机的热效率超过50%但不超过53%,每台发动机奖励2万元;若发动机的热效率超过53%,每台发动机奖励4万元.求每台发动机获得奖励的分布列和数学期望.
(附2:随机变量服从正态分布,则,.)
【答案】(1)模型①的小于模型②,模型②
(2)分布列见解析,
【解题思路】(1)利用表格数据比较两个模型的相关指数的大小,把数据代入模型可得答案;
(2)利用正态分布求出概率,结合期望公式可得答案.
【解答过程】(1)由表格中的数据,有182.4>79.2,
因为,
所以模型①的小于模型②,说明回归模型②刻画的拟合效果更好,
所以当亿元时,科技改造直接收益的预测值为:(亿元);
(2)因为,
所以,
因为,
所以,
所以,
设每台发动机获得的奖励为Y(万元),则Y的分布列为:
0
2
4
0.02275
0.8186
0.15865
所以每台发动机获得奖励的数学期望
(万元).
【变式4-1】(2025·重庆·一模)实现“双碳目标”是党中央作出的重大战略决策,新能源汽车、电动汽车是重要的战略新兴产业,对于实现“双碳目标”具有重要的作用.为了解某市电动汽车的销售情况,调查了该市某电动汽车企业近6年产值情况,数据如下表所示:
年份
2018
2019
2020
2021
2022
2023
编号x
1
2
3
4
5
6
产值y/百万辆
9
18
30
51
59
80
(1)若用模型拟合y与x的关系,根据提供的数据,求出y与x的经验回归方程(精确到0.01);
(2)为了进一步了解车主对电动汽车的看法,从某品牌汽车4S店当日5位购买电动汽车和3位购买燃油汽车的车主中随机选取4位车主进行采访,记选取的4位车主中购买电动汽车的车主人数为X,求随机变量X的分布列与数学期望,
参考数据:,其中.
参考公式:对于一组数据,其经验回归直线的斜率截距的最小二乘估计分别为.
【答案】(1)
(2)答案见解析
【解题思路】(1)令,利用最小二乘法求出,即可得解;
(2)分析可知,利用超几何分布可得出随机变量的分布列,利用超几何分布的期望公式可求
【解答过程】(1)令
,,
则,
,
所以,
所以
(2)由题意得,
,
,
,
,
分布列为:
1
2
3
4
数学期望.
【变式4-2】(2025·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计分别为
【答案】(1)选择模型②
(2),10人
【解题思路】(1)根据残差图分析判断;
(2)令与可用线性回归来拟合,有,然后根据公式结合已知的数据求出,从而可求出关于的经验回归方程,进而可求出关于的经验回归方程,再由可求出研发人员增量.
【解答过程】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,
所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以模型②比较合适.
(2)根据模型②,令与可用线性回归来拟合,有.
则,所以
则关于的经验回归方程为,所以关于的经验回归方程为.
由题意,,解得,又为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
【变式4-3】(2025·黑龙江哈尔滨·模拟预测)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一.从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图.
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(,,,均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.5
165
204
22
42
4
6448.3
2060
其中,.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占25%,存活天数为1的样本在全体样本中占20%.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:,
【答案】(1)
(2)①;
②
【解题思路】(1)根据散点图,确定更适合,再利用换元法,以及题中的数据,代入公式求回归方程;
(2)①根据条件概率,以及地推关系,可证明数列是以首项,为公比的等比数列,再根据分段函数的形式列出解析式;②根据①的结果,列式,再利用错位相减法,即可求解.
【解答过程】(1)由散点图可知,更适合作为云南省花卉种植面积关于年份代码的回归方程类型,
令,所以,
因为,,,,
所以,
所以,
所以;
(2)①由题可得,,
当时,,
又,即,
同理可得,当时,,
两式相减得,
即,,
因为,
所以当时,是以为首项,为公比的等比数列,
当时,,
所以;
②
,
令,
则,
两式相减得,
,
所以,
则.
【题型5 残差】
【例5】(2025·海南·模拟预测)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.2
【答案】C
【解题思路】先计算新样本的,代入到新样本回归方程中,求出,再计算残差即可.
【解答过程】设新样本得均值为,
则,
又回归方程过均值点,所以,解得,
所以新样本的经验回归方程为,
预测值,
所以残差为.
故选:C.
【变式5-1】(2025·云南·三模)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【解题思路】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线方程,估计的对应值,最后由残差的定义求解即可.
【解答过程】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以时,有,故残差为,
故选:B.
【变式5-2】(2025·福建泉州·二模)已知线性回归方程相应于点的残差为,则的值为( )
A. B. C.2.4 D.2.5
【答案】D
【解题思路】根据线性回归方程估计,再根据残差定义列方程,解得结果即可.
【解答过程】因为相应于点的残差为,所以,
所以,解得.
故选:D.
【变式5-3】(2025·山东泰安·三模)对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:
月份x
1
2
3
4
5
销量y
0.5
1
1.4
建立y与x的线性回归方程为,则第2个月和第4个月的残差和为( )
A.-0.919 B.-0.1 C.0.1 D.0.919
【答案】C
【解题思路】先求平均值,将其代入回归方程,故,将2,4代入线性回归方程,根据残差概念计算即可.
【解答过程】由题意可得,,
将其代入回归方程,得,故,
将2,4代入线性回归方程,则第2,4个月的预测值分别为,,
故第2个月和第4个月的残差和为.
故选:C.
【题型6 列联表与独立性检验】
【例6】(2025·辽宁·模拟预测)某医疗研究机构为了解某种地方性疾病与当地居民的生活习惯(生活习惯分良好和不够良好)的关系,现从该地区随机抽取名居民,统计数据如下:
生活习惯
合计
良好
不够良好
患有该疾病居民
0.6n
1.4n
2n
未患有该疾病居民
1.2n
0.8n
2n
合计
1.8n
2.2n
4n
若根据小概率值的独立性检验,分析发现居民是否患有该疾病与生活习惯有关联,则从该地区抽取居民人数至少为( )
附:,.
A.60 B.76 C.80 D.100
【答案】C
【解题思路】由卡方的计算结合题意可得.
【解答过程】 ,又,所以,且,,,均为整数,所以的最小值为20,则从该地区抽取居民人数至少为80.
故选:C.
【变式6-1】(2025·甘肃金昌·二模)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【解题思路】求得卡方值,比对临界值,逐个判断即可.
【解答过程】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
【变式6-2】(2025·全国·模拟预测)癌症术后五年存活率是判断癌症治疗效果的重要指标,某医院通过统计癌症患者手术后五年的生存情况得到如下列联表:
术时所处阶段
术后五年情况
前中期
晚期
合计
存活
800
200
1000
死亡
200
合计
1000
1600
(1)求;
(2)根据小概率值0.001的独立性检验,能否认为癌症术后五年存活率主要与患者手术时癌症所处阶段有关?
(3)结合上述情况,对科学预防和治疗癌症提出合理建议.
附:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)400,600,600;
(2)能;
(3)答案见解析
【解题思路】(1)根据列联表的组成计算即得.
(2)将数据代入卡方公式计算卡方值,然后判断零假设即可.
(3)根据题意和实际情况提出合理建议即可.
【解答过程】(1)根据题意和表格中的数据可得:
;;
.
所以.
(2)零假设为:癌症术后五年存活率与患者手术时癌症所处阶段无关联.
由列联表可知:,
则.
根据小概率值0.001的独立性检验,我们推断不成立,
即认为癌症术后五年存活率主要与患者手术时癌症所处阶段有关,此推断犯错误的概率不大于0.001.
(3)前中期癌症患者术后五年存活率显著高于晚期患者术后五年存活率,
所以应当规律体检,及早发现癌症,尽量在前中期进行手术.
【变式6-3】(2025·湖南永州·模拟预测)“村厨”是湖南省宁远县举办的“九嶷山村厨大会”的简称.在2023年火爆“出圈”后,“村厨”热度不减.2025年4月12日,万众瞩目的2025年“村超”新赛季在九嶷山景区拉开帷幕,为了解不同年龄的游客对“村厨”的满意度,某组织进行了一次抽样调查,分别抽取年龄超过35周岁和年龄不超过35周岁各200人作为样本,每位参与调查的游客都对“村厨”给出满意或不满意的评价.设事件“游客对”村厨“满意”,事件“游客年龄不超过35周岁”,据统计,.
(1)根据已知条件,填写下列列联表并说明理由;
年龄
满意
不满意
合计
年龄不超过35周岁
年龄超过35周岁
合计
(2)由(1)中列联表数据,根据小概率值的独立性检验,能否认为游客对“村厨”的满意度与年龄有关联?
附:.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,理由见解析
(2)没有关联
【解题思路】(1)根据题意可求出不超过35岁的人中,对“村厨”满意的有160人,对“村厨”满意的人中超过35岁的有140人,从而可完成列联表;
(2)根据列联表中的数据结合公式计算,再与临界值比较即可.
【解答过程】(1)由,得游客年龄不超过35周岁且对“村厨”满意的有人,
由,得对“村厨”满意的游客人数为,
则对“村厨”满意的人中超过35岁的有人,
所以列联表如下:
年龄
满意
不满意
合计
年龄不超过35周岁
160
40
200
年龄超过35周岁
140
60
200
合计
300
100
400
(2)由(1)得,
所以没有把握认为游客对“村厨”的满意度与年龄有关联.
【题型7 独立性检验与其他知识综合】
【例7】(2025·陕西西安·一模)鄂尔多斯某地一景区为了吸引游客,进行了马术实景剧的展演.景区为了解游客对其开展的“马术实景剧”活动的满意度,随机抽取400人进行调查,得到如下2×2列联表:
调查结果组别
不满意
满意
合计
本地游客
80
120
200
外地游客
60
140
200
合计
140
260
400
(1)根据小概率值的独立性检验,分析满意情况是否与游客的来源有关;
(2)在本地游客的样本中用分层抽样的方法选出5人,再从这5人中随机抽取3人做进一步的访谈,求这3人中满意人数X的概率分布列和数学期望.
附:
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)无关;
(2)分布列见解析,数学期望为.
【解题思路】(1)根据给定数表,求出的观测值,再与临界值比对即可得解.
(2)根据分层抽样的性质,结合古典概型公式、数学期望公式求解即可.
【解答过程】(1)零假设为:满意情况与游客的来源无关,
因为,
根据小概率值的独立性检验,没有充分证据推断不成立,
可以认为成立,所以满意情况与游客的来源无关.
(2)由分层抽样的性质,得选出5人中,满意人数为,不满意人数为,
依题意,的可能值为,
,,,
所以这3人中满意人数X的概率分布列为:
数学期望.
【变式7-1】(2025·全国·模拟预测)在卡塔尔世界杯的开幕式上中国元素随处可见.从体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物,……,中国制造为世界杯提供了强有力的支持.国内也再次掀起足球热潮.某地足球协会组建球队参加业余比赛.该足球队教练组对球员的使用是依据数据分析,为了调查球员乙对球队的贡献,作出如下数据统计(乙参加过的比赛均分出了胜负):
乙
球队
总计
胜
负
未参加比赛
30
70
参加比赛
10
总计
70
(1)根据小概率值的独立性检验,能否认为该球队胜利与乙球员参赛有关联?
(2)根据以往的数据统计,甲球员能够胜任边锋、中锋、后腰以及后卫四个位置,且出场率分别为:,当出任边锋、中锋、后腰以及后卫时,球队输球的概率依次为:0.4,0.3,0.4,0.2.则:
①当甲球员参加比赛时,求球队某场比赛输球的概率;
②当甲球员参加比赛时,在球队输了某场比赛的条件下,求甲球员担任边锋的概率;
③如果你是教练员,应用概率统计有关知识,该如何使用甲球员?
附表及公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
.
【答案】(1)认为该球队胜利与乙球员参赛有关联;
(2)①0.34;②;③答案见解析.
【解题思路】(1)应用卡方公式计算卡方值,结合独立检验的基本思想得结论;
(2)①应用全概率公式求概率;②由贝叶斯公式及条件概率公式求概率;③应用贝叶斯公式及条件概率公式求概率,并比较大小,即可得结论.
【解答过程】(1)依题意,,
零假设为:球队胜利与乙球员参赛无关,
则观测值,
根据小概率值的独立性检验,我们推断不成立,
即认为该球队胜利与乙球员参赛有关联,此推断犯错误的概率不超过0.001;
(2)①设表示“甲球员担当边锋”;表示“甲球员担当中锋”;表示“甲球员担当后腰”;表示“甲球员担当后卫”;表示“球队输掉某场比赛”.
则
.
②;
③因为,
,
,
所以最小,因为当甲球员担任后卫时,球队输球的概率 在四个位置中是最小的,所以应该多让甲球员担当后卫.
【变式7-2】(2025·云南玉溪·模拟预测)某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人y数(万人)与第个月的数据:
x
1
2
3
4
5
y
23.1
37.0
62.1
111.6
150.8
(1)根据表中数据可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,且回归方程中的,请计算相关系数r(精确到0.01),并判断是否可以认为y与x的线性相关性很强;
(2)为更好地改进服务,景点对每位游客进行了满意度调查,已知评分X近似服从正态分布,评分低于m的游客约占15.865%,求m的值;
(3)为进一步了解游客性别与满意度的关系,随机抽查200名游客,得到如下列联表,请填写下面的2×2列联表,根据小概率值的独立性检验,能否推断游客是否满意与性别有关?
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:
相关系数:若,则认为与有较强的线性相关性.
回归方程中斜率的最小二乘法估计公式为:
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
参考数据:,
若,则,
【答案】(1),可以认为与有较强的线性相关性;
(2)
(3)答案见解析
【解题思路】(1)根据题给数据算出平均数,再根据参考数据及,再对和进行求值,即可得到的值,再根据相关系数公式求解即可;
(2)根据正态分布曲线的对称性求出,即可求出;
(3)根据题给数据完成列联表,再根据公式代值求解,再与比较大小,即可得解.
【解答过程】(1)由题可知,,
,
则,可得,
相关系数
,
可以认为与有较强的线性相关性.
(2)因,则,
因,
则.
(3)填写下面的列联表
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
由表可知,,
零假设:游客是否满意与性别无关,
则
所以根据小概率值的独立性检验,能推断游客是否满意与性别有关.
【变式7-3】(2025·辽宁朝阳·模拟预测)近年来,全球数字化进程持续加速,人工智能(Artificial Intelligence,简称AI)已然成为科技变革的核心驱动力.有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,用比例分配的分层随机抽样方法在全体学生中抽取100人,设事件“学生报名参加答题活动”,“学生为男生”,据统计,.
性别活动
男生
女生
合计
未报名参加答题活动
报名参加答题活动
合计
100
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关联?
(2)网络答题规则:答题活动不限时间,不限轮次,答多少轮由选手自行确定:每轮均设置道题,选手参与该轮答题,则至少答一道题,一旦答对一题,则其本轮答题结束,答错则继续答题,直到第m道题答完,本轮答题结束.已知甲同学报名参加答题活动,假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
①当时,求甲在一轮答题过程中答题数量的数学期望;
②假设甲同学每轮答题答对前两题中的一道,本轮答题得2分,否则得1分.记甲答题累计得分为n的概率为,求.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,能;
(2)①;②.
【解题思路】(1)根据题设,结合条件概率的定义求出数据,进而完成列联表,再计算出的值判断即可.
(2)①首先列出的概率表达式,然后用数学期望公式将它的数学期望表达式列出来,即可求解;②根据题意可得,,时,,再利用构造法求出.
【解答过程】(1)由,得报名参加答题活动人数为,
由,得报名参加答题活动的男生人数为,
报名参加答题活动的女生人数为,
又,由样本中男生人数为,女生人数为50,
得到列联表为:
性别
男生
女生
合计
未报名参加答题活动
20
35
55
报名参加答题活动
30
15
45
合计
50
50
100
零假设为:学生报名参加答题活动与性别无关,
则,
依据小概率值的独立性检验,我们推断不成立,
即认为学生报名参加答题活动与性别有关联,此推断犯错误的概率不大于0.005.
(2)①设甲完成一轮答题,答题数量为随机变量,则的所有可能取值为,
其中,,
因此.
②每轮比赛甲得1分的概率为,得2分的概率为,
依题意,,,当时,则,
因为,且,
则数列是首项为,公比为的等比数列,
于是,又,且,
则数列是各项均为1的常数列,即,
于是,解得.
一、单选题
1.(2025·上海浦东新·三模)已知一项统计结果表明有99%的把握认为“吸烟与患肺癌有关”是正确的,则( )
A.吸烟者一定会患肺癌
B.吸烟者患肺癌的概率为99%
C.100个吸烟者大约有99个会患肺癌
D.认为“吸烟与患肺癌有关”犯错的概率不超过1%
【答案】D
【解题思路】根据独立性检验思想,即可判断选项.
【解答过程】根据独立性检验思想可知,有99%的把握认为“吸烟与患肺癌有关”是正确的,也可认为“吸烟与患肺癌有关”犯错的概率不超过1%.
故选:D.
2.(2025·辽宁鞍山·一模)下列选项中,相关系数最小的是( )
A. B.
C. D.
【答案】B
【解题思路】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案.
【解答过程】对于A,该散点图中,散点呈现出一定的上升趋势,两变量之间具有强的线性相关关系,其线性相关系数接近于1;
对于B,该散点图中,这些点紧密地聚集在一条直线附近.其线性相关系数接近于;
对于C,该散点图中,散点呈现出一定的上升趋势,变量和之间具有较强的线性相关关系,其线性相关系数为正数;
对于D,该散点图中,散点比较分散,线性相关程度比选项B要弱,线性相关系数比选项B的大.
综合比较四个选项,选项B,线性负相关程度最强,所以线性相关系数最小.
故选:B.
3.(2025·天津·高考真题)下列说法中错误的是( )
A.若,则
B.若,,则
C.越接近1,相关性越强
D.越接近0,相关性越弱
【答案】B
【解题思路】根据正态分布以及相关系数的概念直接判断即可.
【解答过程】对于A,根据正态分布对称性可知,,A说法正确;
对于B,根据正态分布对称性可知,,B说法错误;
对于C和D,相关系数越接近0,相关性越弱,越接近1,相关性越强,故C和D说法正确.
故选:B.
4.(2025·河南新乡·模拟预测)某企业产品的广告费用与销售量的统计数据如表所示:根据表中各数据可得回归方程,其中,假设该企业广告费用为6万元时,则销售额为( )
广告费用(万元)
4
2
3
5
销售额(万元)
49
26
39
54
A.63,6万元 B.65,5万元 C.67,7 万元 D.72,0万元
【答案】B
【解题思路】根据回归直线过定点的性质,求出坐标,解出回归直线方程,计算结果即可.
【解答过程】根据表格数据得,,
∵回归中心满足回归直线方程,其中,
,解得,
于是回归方程为,令,得,
故选:B.
5.(2025·广东湛江·模拟预测)假设变量与变量的对观测数据为、、、,两个变量满足一元线性回归模型,则参数的最小二乘估计为( )
A. B.
C. D.
【答案】B
【解题思路】令,利用二次函数的基本性质可得出当取最小值时的表达式.
【解答过程】令,
当且仅当时残差平方和最小,即的最小二乘估计为.
故选:B.
6.(2025·天津宁河·模拟预测)下列说法中,正确的有( )
①回归直线恒过点,且至少过一个样本点:
②根据列列联表中的数据计算得出,而,则有的把握认为两个分类变量有关系,即有的可能性使得“两个分类变量有关系”的推断出现错误;
③在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好;
④某项测量结果服从正态分布,若,则
A.个 B.个 C.个 D.个
【答案】C
【解题思路】利用回归直线的特点可判断①;利用独立型检验可判断②;利用决定系数与模型拟合效果的关系可判断③;利用正态分布可判断④.即可得出合适的选项.
【解答过程】对于①,回归直线恒过点,不一定过样本点,①错;
对于②,根据列列联表中的数据计算得出,而,
则有的把握认为两个分类变量有关系,
即有的可能性使得“两个分类变量有关系”的推断出现错误,②对;
对于③,在做回归分析时,可以用决定系数刻画模型的回归效果,
若越大,则说明模型拟合的效果越好,③对;
对于④,某项测量结果服从正态分布,若,
则,④对.
故选:C.
7.(2025·江西新余·模拟预测)某品牌啤酒厂,进行市场调研,发现该品牌啤酒在某地的月销量随着每瓶啤酒的定价不同而发生变化,连续调研5个月得到的数据如下表所示:
第1个月
第2个月
第3个月
第4个月
第5个月
单价/元
6
6.5
7
7.5
8
销量/万瓶
90
85
80
75
70
根据以上数据得到与具有较强的线性关系,若用最小二乘估计得到经验回归方程,则( )
A.相关系数 B.点一定在经验回归直线上
C. D.当每瓶啤酒为9.5元时,月销量一定为50万瓶
【答案】B
【解题思路】根据相关系数的概念可以判断A;求出样本中心点即可判断B;根据线性回归方程过样本中心点即可判断C;根据线性回归方程的性质即可判断D.
【解答过程】由可得与具有负相关,故A错误;
由表中数据可得,
所以样本中心点为,将代入得,
解得,故C错误.
则回归方程为,当时,,故在回归直线上,故B正确:
当时,,这是一个估计值,不是精确值,故D错误.
故选:B.
8.(2025·上海浦东新·二模)研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差Q变大
【答案】C
【解题思路】由已知可得,,求出相关系数,即可判断A,B选项,再利用回归直线方程过样本中心点可判断C选项,D利用残差平方和进行判断即可.
【解答过程】设变量x,y的平均数分别为,,
则,,即,,
可知新数据的样本中心点不变,仍为,
则,
,
,
则相关系数.
可知相关系数的值不变,变量与变量的相关性不变,故A,B错误;
对于C,因为,所以不变,
且线性回归方程过样本中心点,即,均不变,所以线性回归方程不变,故C正确;
因为即为样本中心点,即,
可知残差平方和不变,所以拟合误差Q不变,故D错误.
故选:C.
二、多选题
9.(2025·安徽阜阳·三模)下列说法中正确的是( )
A.一个样本的平均数为3,若添加一个新数据3组成一个新样本,则新样本的平均数不变,方差变小
B.在成对样本数据中,两个变量间的样本相关系数越小,则它们的线性相关程度越弱
C.数据,53,56,69,70,72,79,65,80,45,41的极差为40,则这组数据的第m百分位数为79
D.依据小概率值的独立性检验推断两个分类变量X与Y之间是否有关联,经计算得,则可以认为“X与Y没有关联”
【答案】AC
【解题思路】利用平均数与方差的定义可判断A;由相关系数的概念可判断B;利用百分位的定义求解可判断C;由独立性检验的意义可判断D.
【解答过程】一个样本的平均数为3,若添加一个新数据3组成一个新样本,则新样本的平均数不变,
根据方差公式,可知方差变小,故A正确;
两个变量的相关系数越小,则两者的线性相关程度越弱,故B错误;
除m外,剩余数据的极差为,因为所有数据的极差为40,且,
所以
把数据技从小到大题序排列,得:41,45,53,56,65,69,70,72,79,80,
由,所以这组数据的第m百分位数为第9个,为故C正确;
零假设为与Y相互独立,即X与Y没有关联,由,
可知依据的独立性检验,没有充分证据推断不成立,可以认为“X与Y有关联”,故D错误.
故选:AC.
10.(2025·广西柳州·模拟预测)某人工智能公司近5年的利润情况如下表所示:
第年
1
2
3
4
5
利润/亿元
2
3
4
5
7
已知变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )
A. B.变量与之间的线性相关系数
C.预测该人工智能公司第6年的利润约为7.8亿元 D.残差绝对值的最大值为0.4
【答案】ACD
【解题思路】首先求出、,根据回归直线方程必过,即可求出,即可判断A;从而得到回归直线方程,根据与成正相关,即可得到相关系数,即可判断B;再令求出,即可预测第6年的利润,即可判断C,最后根据残差的定义求解判断D.
【解答过程】依题意,,
因为回归直线方程为必过样本中心点,
则,解得,故A正确;
回归直线方程为,则与成正相关,即相关系数,故B错误;
当时,,即该人工智能公司第6年的利润约为7.8亿元,故C正确;
当时,,残差绝对值为,
当时,,残差绝对值为,
当时,,残差绝对值为,
当时,,残差绝对值为,
当时,,残差绝对值为,
所以残差绝对值的最大值为0.4,故D正确;
故选:ACD.
11.(2025·甘肃甘南·模拟预测)某农科所发明了一种防治玉米病虫害的新药,为了解该药的效果,选用了100粒玉米种子进行试验栽种,栽种后发现这批玉米种子抗病虫害的概率为0.8.在制作列联表时,由于某些因素,缺失了部分数据,得到如下列联表,下列结论正确的有( )
抗病虫害
不抗病虫害
合计
种子经过该药处理
60
种子没有经过该药处理
14
合计
100
参考公式与临界值表, .
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.这100粒玉米种子没有经过该药处理且抗病虫害的有20粒
B.这100粒玉米种子中抗病虫害的有84粒
C.的观测值
D.按的可靠性要求,可以认为“治疗玉米病虫害的新药有效”
【答案】AD
【解题思路】由这批玉米种子抗病虫害的概率为0.8,可求得抗病虫害的有粒,从而可得二阶列联表,并可求出卡方值来作出各选项判断.
【解答过程】这100粒玉米种子中抗病虫害的有(粒),可得列联表如下:
抗病虫害
不抗病虫害
合计
种子经过该药处理
60
6
66
种子没有经过该药处理
20
14
34
合计
80
20
100
由以上列联表可知,A正确,B错误;
根据列联表中的数据,得到,
因此按的可靠性要求,可以认为“治疗玉米病虫害的新药有效”,故C错误,D正确.
故选:AD.
三、填空题
12.(2025·山东德州·三模)已知变量与线性相关,由样本点求得的回归直线方程为,若点在回归直线上,且,则 .
【答案】
【解题思路】根据题意,求得,利用样本中心在回归直线上,得到,结合,即可求解.
【解答过程】由点在回归直线上,且,可得,解得,
所以回归直线方程为,
又由样本中心在回归直线上,可得,
所以.
故答案为:.
13.(2025·全国·模拟预测)近年来,政府相关部门引导乡村发展旅游业,助力乡村振兴,建设了旅游景点“秘境大峡谷”,景区内有大型瀑布群、森林覆盖率达,是天然氧吧,避暑胜地,吸引了大量游客.据统计该景点2020-2024年第三季度游客人次如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
游客人次/万人
6
7
9
10
12
已知变量具有线性相关关系,每年第三季度游客人次(万人)关于年份代码的线性回归方程.那么预计该景点2025年第三季度的游客人次约为 万人.
【答案】
【解题思路】求出样本中心点,代入回归直线方程求出的值,将代入回归方程,即可求得答案.
【解答过程】由题意得,则样本中心点为,
而样本中心点一定在回归直线上,,
即得线性回归方程为,
所以2025年第三季度,即当时,,
故答案为:13.3.
14.(2025·上海黄浦·三模)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人.
0.050
0.010
0.001
3.841
6.635
10.828
参考数据及公式如下:参考公式:,其中.
【答案】48
【解题思路】设男生人数为,依题意列出列联表,分析出根据小概率值的独立性检验,判断中学生追星与性别有关,则,再代入的公式求出的范围,再根据的实际意义即可求出男生的最少人数.
【解答过程】设男生人数为,依题意可得列联表为
喜欢追星
不喜欢追星
总计
男生
女生
总计
根据小概率值的独立性检验,判断中学生追星与性别有关,
则,
由,解得.
由题意知,应为6的整数倍,
所以若根据小概率值的独立性检验,
判断中学生追星与性别有关,则男生至少有48人.
故答案为:48.
四、解答题
15.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)
(2)有关
【解题思路】(1)根据古典概型的概率公式即可求出;
(2)根据独立性检验的基本思想,求出,然后与小概率值对应的临界值比较,即可判断.
【解答过程】(1)根据表格可知,检查结果不正常的人中有人患病,所以的估计值为;
(2)零假设为:超声波检查结果与患病无关,
根据表中数据可得,,
根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.
16.(2025·河北沧州·模拟预测)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.我国于2020年打赢了脱贫攻坚战,其中小麦发挥了重大作用.以2020年为第1年,我国连续5年小麦产量如下:
年份
1
2
3
4
5
产量/千万吨
13.4
13.7
13.8
13.6
14.0
现规定表示第i年的年份,表示第i年的产量,经计算得,, .
(1)求样本(,2,…,5)的相关系数(精确到0.01);
(2)现从这5年中随机抽取2年,记这2年中共有X年的小麦产量不低于13.7千万吨,求X的分布列与期望.
附:样本相关系数,.
【答案】(1)
(2)分布列见解析,
【解题思路】(1)先求出平均值,再应用已知数据结合相关系数公式计算求解;
(2)根据超几何分布求出概率,再写出分布列应用数学期望公式计算即可.
【解答过程】(1),,
故样本相关系数 .
(2)X的取值可以为0,1,2,
则,
,
,
于是X的分布列为
X
0
1
2
P
故.
17.(2025·全国·模拟预测)某公司在5个月期间的广告支出x(万元)与销售额y(万元)的数据如下:
月份
1
2
3
4
5
广告支出x
2
4
5
8
11
销售额y
10
20
30
40
50
(1)从这5个月中随机抽取三个月份,记销售额高于30万元的月份的个数为X,求随机变量X的分布列及数学期望;
(2)求y关于x的线性回归方程,并预测广告支出为10万元时的销售额.
参考公式:,.
【答案】(1)分布列见解析,;
(2),当万元时,销售额为万元.
【解题思路】(1)由题意可得,分别求出对应概率,列出分布列,即可计算其期望;
(2)求出、,根据的公式,求出、,即可得回归方程,代入,即可得对应的销售额.
【解答过程】(1)由题意可得,
所以,,,
分布列如下:
0
1
2
所以;
(2)因为,,
所以,
,
所以,
又因为,
所以y关于x的线性回归方程为;
当时,;
所以y关于x的线性回归方程为,当万元时,销售额为万元.
18.(2025·湖南·模拟预测)近日,2025年湖南省城市足球联赛(被球迷称为“湘超”)如火如荼地进行,引发广泛关注.某地区随机抽取了部分市民,调查他们对赛事的关注情况,得到如下表格:
性别
不关注赛事
关注赛事
男性
25
150
女性
50
75
(1)列出列联表并根据小概率值的独立性检验,能否认为关注“湘超”赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取3名市民参加“湘超”赛事知识问答.已知男性、女性市民顺利完成知识问答的概率分别为,,每个人是否顺利完成相互独立.求在有且仅有2人顺利完成的条件下,这2人的性别不同的概率.
附:.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,认为关注“湘超”赛事与性别有关
(2)
【解题思路】(1)由题意可得列联表,再计算,对比临界值表即可得解;
(2)根据题意,求出有且仅有2人顺利完成知识问答的概率和这2人性别不同的概率,再根据条件概率公式求解即可.
【解答过程】(1)列联表如下:
性别
不关注赛事
关注赛事
合计
男性
25
150
175
女性
50
75
125
合计
75
225
300
零假设为:关注“湘超”赛事与性别无关.
故依据小概率值的独立性检验,推断零假设不成立,
即认为关注“湘超”赛事与性别有关.
(2)由分层抽样可知,抽取男性市民2人,女性市民1人,
记“有且仅有2人顺利完成知识问答”为事件A,“这2人的性别不同”为事件B,
则,
,
则,
所以在有且仅有2人顺利完成知识问答的条件下,这2人的性别不同的概率为.
19.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
【答案】(1);;
(2)
(3)
【解题思路】(1)由最长与最短用时可得极差,由中间两数平均数可得中位数;
(2)由古典概型概率公式可得;
(3)先求成绩平均数,再由在回归直线上,代入方程可得,再代入年份预测可得.
【解答过程】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数
,
由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
2 / 30
学科网(北京)股份有限公司
$
专题9.3 成对数据的统计分析(举一反三讲义)
【全国通用】
【题型1 变量的相关关系】 4
【题型2 样本相关系数】 5
【题型3 一元线性回归模型】 6
【题型4 非线性回归模型】 8
【题型5 残差】 11
【题型6 列联表与独立性检验】 12
【题型7 独立性检验与其他知识综合】 15
1、成对数据的统计分析
考点要求
真题统计
考情分析
(1)了解样本相关系数的统计含义
(2)了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题
(3)会利用统计软件进行数据分析
2023年全国甲卷(文数、理数):第19题,12分
2024年全国甲卷(文数):第18题,12分
2024年天津卷:第3题,5分
2024年上海卷:第13题,4分、第19题,14分
2025年全国一卷:第15题,13分
2025年天津卷:第5题,5分
2025年上海卷:第17题,14分
成对数据的统计分析是高考的重点、热点内容,从近几年的高考情况来看,主要以解答题的形式考查,一般会与概率等知识结合考查,综合性强,难度中等;有时也会在选择、填空题中出现,单独考察单一知识点,难度不大;复习时要加强此类问题的训练.
知识点1 变量的相关关系
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
知识点2 样本相关系数
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
知识点3 一元线性回归模型
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
知识点4 列联表与独立性检验
1.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
2.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
3.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【方法技巧与总结】
1.经验回归直线过点.
2.求时,常用公式.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【题型1 变量的相关关系】
【例1】(2025·辽宁葫芦岛·一模)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【变式1-1】(2025·天津河西·一模)对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【变式1-2】(24-25高二下·全国·课后作业)为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表:
生产线条数
1
2
3
4
5
产量
21
39
64
87
104
则下列说法正确的是( )
A.与负相关 B.与正相关
C.与不相关 D.与成正比例关系
【变式1-3】(24-25高二下·全国·课后作业)下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【题型2 样本相关系数】
【例2】(2025·四川德阳·三模)下列结论不正确的是( )
A.两个变量的线性相关系数反映了两个变量线性相关程度的强弱,且越大,线性相关性越强
B.若两个变量的线性相关系数,则之间不具有线性相关性
C.由简单随机抽样得到的成对样本数据的样本相关系数不一定能确切地反映变量之间的相关关系.
D.在一组样本数据的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为0.8
【变式2-1】(2025·天津·二模)为研究某奶茶店每日的热奶茶销售量和气温之间是否具有线性相关关系,统计该店(2025年2月6日至3月24日)每天的热奶茶销售量及当天气温得到如图所示的散点图(轴表示气温,轴表示热奶茶销售量),由散点图可知与的相关关系为( )
A.正相关,相关系数的值为0.8 B.负相关,相关系数的值为0.8
C.正相关,相关系数的值为 D.负相关,相关系数的值为
【变式2-2】(2025·上海黄浦·二模)如果两种证券在一段时间内收益数据的相关系数为0.8,那么表明( )
A.两种证券的收益有反向变动的倾向
B.两种证券的收益有同向变动的倾向
C.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
D.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
【变式2-3】(2025·浙江杭州·二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数r变小 B.决定系数变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
【题型3 一元线性回归模型】
【例3】(2025·浙江温州·三模)为了研究某种商品的广告投入和收益之间的相关关系,某研究小组收集了5组样本数据如表所示,得到线性回归方程为,则当广告投入为10万元时,收益的预测值为( )万元.
/万元
1
2
3
4
5
/万元
0.50
0.80
1.00
1.20
1.50
A.2.48 B.2.58 C.2.68 D.2.88
【变式3-1】(2025·辽宁锦州·二模)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了1至5月份5G手机的实际销量,如下表所示:
月份x
1月
2月
3月
4月
5月
销售量y(千只)
0.5
0.6
1.0
1.4
1.7
若y与x线性相关,且求得线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,
B.由题中数据可知,6月份该商城5G手机的实际销量为2(千只)
C.由题中数据可知,变量x和y正相关,且相关系数一定小于1
D.若不考虑本题中的数据,回归直线可能不过,,…,中任一个点
【变式3-2】(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
【变式3-3】(2025·山东·一模)某工厂的某生产车间2020年至2024年生产的年利润(百万元),统计数据如表所示:
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
年利润
2.8
3.4
3.6
4.4
4.8
(1)已知变量具有线性相关关系,求年利润(百万元)关于年份代号的经验回归方程,并预测2025年该车间的年利润;
(2)已知该工厂共有6个车间,根据每个车间的年利润分为“类车间”和“类车间”两类,其中“类车间”4个,“类车间”2个,现从这6个车间中任取3个车间,记随机变量为“类车间”的个数,求的分布列及其数学期望.
参考公式:,.
【题型4 非线性回归模型】
【例4】(2025·四川绵阳·模拟预测)某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入(亿元)与科技改造直接收益(亿元)的数据统计如下:
2
3
4
6
8
10
13
21
22
23
24
25
13
22
31
42
50
56
58
68.5
68
67.5
66
68
当时,建立了y与x的两个回归模型:模型①;模型②:;
(1)根据下列表格中的数据,比较当时模型①、②的相关指数,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.
回归模型
模型①
模型②
回归方程
182.4
79.2
(附1:刻画回归效果的相关指数)
(2)科技改造后,“东方红”款汽车发动机的热效率X大幅提高,X服从正态分布,公司对科技改造团队的奖励方案如下:若发动机的热效率不超过50%,不予鼓励;若发动机的热效率超过50%但不超过53%,每台发动机奖励2万元;若发动机的热效率超过53%,每台发动机奖励4万元.求每台发动机获得奖励的分布列和数学期望.
(附2:随机变量服从正态分布,则,.)
【变式4-1】(2025·重庆·一模)实现“双碳目标”是党中央作出的重大战略决策,新能源汽车、电动汽车是重要的战略新兴产业,对于实现“双碳目标”具有重要的作用.为了解某市电动汽车的销售情况,调查了该市某电动汽车企业近6年产值情况,数据如下表所示:
年份
2018
2019
2020
2021
2022
2023
编号x
1
2
3
4
5
6
产值y/百万辆
9
18
30
51
59
80
(1)若用模型拟合y与x的关系,根据提供的数据,求出y与x的经验回归方程(精确到0.01);
(2)为了进一步了解车主对电动汽车的看法,从某品牌汽车4S店当日5位购买电动汽车和3位购买燃油汽车的车主中随机选取4位车主进行采访,记选取的4位车主中购买电动汽车的车主人数为X,求随机变量X的分布列与数学期望,
参考数据:,其中.
参考公式:对于一组数据,其经验回归直线的斜率截距的最小二乘估计分别为.
【变式4-2】(2025·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计分别为
【变式4-3】(2025·黑龙江哈尔滨·模拟预测)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一.从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图.
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(,,,均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.5
165
204
22
42
4
6448.3
2060
其中,.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占25%,存活天数为1的样本在全体样本中占20%.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:,
【题型5 残差】
【例5】(2025·海南·模拟预测)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.2
【变式5-1】(2025·云南·三模)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
【变式5-2】(2025·福建泉州·二模)已知线性回归方程相应于点的残差为,则的值为( )
A. B. C.2.4 D.2.5
【变式5-3】(2025·山东泰安·三模)对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:
月份x
1
2
3
4
5
销量y
0.5
1
1.4
建立y与x的线性回归方程为,则第2个月和第4个月的残差和为( )
A.-0.919 B.-0.1 C.0.1 D.0.919
【题型6 列联表与独立性检验】
【例6】(2025·辽宁·模拟预测)某医疗研究机构为了解某种地方性疾病与当地居民的生活习惯(生活习惯分良好和不够良好)的关系,现从该地区随机抽取名居民,统计数据如下:
生活习惯
合计
良好
不够良好
患有该疾病居民
0.6n
1.4n
2n
未患有该疾病居民
1.2n
0.8n
2n
合计
1.8n
2.2n
4n
若根据小概率值的独立性检验,分析发现居民是否患有该疾病与生活习惯有关联,则从该地区抽取居民人数至少为( )
附:,.
A.60 B.76 C.80 D.100
【变式6-1】(2025·甘肃金昌·二模)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【变式6-2】(2025·全国·模拟预测)癌症术后五年存活率是判断癌症治疗效果的重要指标,某医院通过统计癌症患者手术后五年的生存情况得到如下列联表:
术时所处阶段
术后五年情况
前中期
晚期
合计
存活
800
200
1000
死亡
200
合计
1000
1600
(1)求;
(2)根据小概率值0.001的独立性检验,能否认为癌症术后五年存活率主要与患者手术时癌症所处阶段有关?
(3)结合上述情况,对科学预防和治疗癌症提出合理建议.
附:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式6-3】(2025·湖南永州·模拟预测)“村厨”是湖南省宁远县举办的“九嶷山村厨大会”的简称.在2023年火爆“出圈”后,“村厨”热度不减.2025年4月12日,万众瞩目的2025年“村超”新赛季在九嶷山景区拉开帷幕,为了解不同年龄的游客对“村厨”的满意度,某组织进行了一次抽样调查,分别抽取年龄超过35周岁和年龄不超过35周岁各200人作为样本,每位参与调查的游客都对“村厨”给出满意或不满意的评价.设事件“游客对”村厨“满意”,事件“游客年龄不超过35周岁”,据统计,.
(1)根据已知条件,填写下列列联表并说明理由;
年龄
满意
不满意
合计
年龄不超过35周岁
年龄超过35周岁
合计
(2)由(1)中列联表数据,根据小概率值的独立性检验,能否认为游客对“村厨”的满意度与年龄有关联?
附:.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【题型7 独立性检验与其他知识综合】
【例7】(2025·陕西西安·一模)鄂尔多斯某地一景区为了吸引游客,进行了马术实景剧的展演.景区为了解游客对其开展的“马术实景剧”活动的满意度,随机抽取400人进行调查,得到如下2×2列联表:
调查结果组别
不满意
满意
合计
本地游客
80
120
200
外地游客
60
140
200
合计
140
260
400
(1)根据小概率值的独立性检验,分析满意情况是否与游客的来源有关;
(2)在本地游客的样本中用分层抽样的方法选出5人,再从这5人中随机抽取3人做进一步的访谈,求这3人中满意人数X的概率分布列和数学期望.
附:
0.050
0.010
0.001
3.841
6.635
10.828
【变式7-1】(2025·全国·模拟预测)在卡塔尔世界杯的开幕式上中国元素随处可见.从体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物,……,中国制造为世界杯提供了强有力的支持.国内也再次掀起足球热潮.某地足球协会组建球队参加业余比赛.该足球队教练组对球员的使用是依据数据分析,为了调查球员乙对球队的贡献,作出如下数据统计(乙参加过的比赛均分出了胜负):
乙
球队
总计
胜
负
未参加比赛
30
70
参加比赛
10
总计
70
(1)根据小概率值的独立性检验,能否认为该球队胜利与乙球员参赛有关联?
(2)根据以往的数据统计,甲球员能够胜任边锋、中锋、后腰以及后卫四个位置,且出场率分别为:,当出任边锋、中锋、后腰以及后卫时,球队输球的概率依次为:0.4,0.3,0.4,0.2.则:
①当甲球员参加比赛时,求球队某场比赛输球的概率;
②当甲球员参加比赛时,在球队输了某场比赛的条件下,求甲球员担任边锋的概率;
③如果你是教练员,应用概率统计有关知识,该如何使用甲球员?
附表及公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
.
【变式7-2】(2025·云南玉溪·模拟预测)某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人y数(万人)与第个月的数据:
x
1
2
3
4
5
y
23.1
37.0
62.1
111.6
150.8
(1)根据表中数据可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,且回归方程中的,请计算相关系数r(精确到0.01),并判断是否可以认为y与x的线性相关性很强;
(2)为更好地改进服务,景点对每位游客进行了满意度调查,已知评分X近似服从正态分布,评分低于m的游客约占15.865%,求m的值;
(3)为进一步了解游客性别与满意度的关系,随机抽查200名游客,得到如下列联表,请填写下面的2×2列联表,根据小概率值的独立性检验,能否推断游客是否满意与性别有关?
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:
相关系数:若,则认为与有较强的线性相关性.
回归方程中斜率的最小二乘法估计公式为:
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
参考数据:,
若,则,
【变式7-3】(2025·辽宁朝阳·模拟预测)近年来,全球数字化进程持续加速,人工智能(Artificial Intelligence,简称AI)已然成为科技变革的核心驱动力.有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,用比例分配的分层随机抽样方法在全体学生中抽取100人,设事件“学生报名参加答题活动”,“学生为男生”,据统计,.
性别活动
男生
女生
合计
未报名参加答题活动
报名参加答题活动
合计
100
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关联?
(2)网络答题规则:答题活动不限时间,不限轮次,答多少轮由选手自行确定:每轮均设置道题,选手参与该轮答题,则至少答一道题,一旦答对一题,则其本轮答题结束,答错则继续答题,直到第m道题答完,本轮答题结束.已知甲同学报名参加答题活动,假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
①当时,求甲在一轮答题过程中答题数量的数学期望;
②假设甲同学每轮答题答对前两题中的一道,本轮答题得2分,否则得1分.记甲答题累计得分为n的概率为,求.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
一、单选题
1.(2025·上海浦东新·三模)已知一项统计结果表明有99%的把握认为“吸烟与患肺癌有关”是正确的,则( )
A.吸烟者一定会患肺癌
B.吸烟者患肺癌的概率为99%
C.100个吸烟者大约有99个会患肺癌
D.认为“吸烟与患肺癌有关”犯错的概率不超过1%
2.(2025·辽宁鞍山·一模)下列选项中,相关系数最小的是( )
A. B.
C. D.
3.(2025·天津·高考真题)下列说法中错误的是( )
A.若,则
B.若,,则
C.越接近1,相关性越强
D.越接近0,相关性越弱
4.(2025·河南新乡·模拟预测)某企业产品的广告费用与销售量的统计数据如表所示:根据表中各数据可得回归方程,其中,假设该企业广告费用为6万元时,则销售额为( )
广告费用(万元)
4
2
3
5
销售额(万元)
49
26
39
54
A.63,6万元 B.65,5万元 C.67,7 万元 D.72,0万元
5.(2025·广东湛江·模拟预测)假设变量与变量的对观测数据为、、、,两个变量满足一元线性回归模型,则参数的最小二乘估计为( )
A. B.
C. D.
6.(2025·天津宁河·模拟预测)下列说法中,正确的有( )
①回归直线恒过点,且至少过一个样本点:
②根据列列联表中的数据计算得出,而,则有的把握认为两个分类变量有关系,即有的可能性使得“两个分类变量有关系”的推断出现错误;
③在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好;
④某项测量结果服从正态分布,若,则
A.个 B.个 C.个 D.个
7.(2025·江西新余·模拟预测)某品牌啤酒厂,进行市场调研,发现该品牌啤酒在某地的月销量随着每瓶啤酒的定价不同而发生变化,连续调研5个月得到的数据如下表所示:
第1个月
第2个月
第3个月
第4个月
第5个月
单价/元
6
6.5
7
7.5
8
销量/万瓶
90
85
80
75
70
根据以上数据得到与具有较强的线性关系,若用最小二乘估计得到经验回归方程,则( )
A.相关系数 B.点一定在经验回归直线上
C. D.当每瓶啤酒为9.5元时,月销量一定为50万瓶
8.(2025·上海浦东新·二模)研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差Q变大
二、多选题
9.(2025·安徽阜阳·三模)下列说法中正确的是( )
A.一个样本的平均数为3,若添加一个新数据3组成一个新样本,则新样本的平均数不变,方差变小
B.在成对样本数据中,两个变量间的样本相关系数越小,则它们的线性相关程度越弱
C.数据,53,56,69,70,72,79,65,80,45,41的极差为40,则这组数据的第m百分位数为79
D.依据小概率值的独立性检验推断两个分类变量X与Y之间是否有关联,经计算得,则可以认为“X与Y没有关联”
10.(2025·广西柳州·模拟预测)某人工智能公司近5年的利润情况如下表所示:
第年
1
2
3
4
5
利润/亿元
2
3
4
5
7
已知变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )
A. B.变量与之间的线性相关系数
C.预测该人工智能公司第6年的利润约为7.8亿元 D.残差绝对值的最大值为0.4
11.(2025·甘肃甘南·模拟预测)某农科所发明了一种防治玉米病虫害的新药,为了解该药的效果,选用了100粒玉米种子进行试验栽种,栽种后发现这批玉米种子抗病虫害的概率为0.8.在制作列联表时,由于某些因素,缺失了部分数据,得到如下列联表,下列结论正确的有( )
抗病虫害
不抗病虫害
合计
种子经过该药处理
60
种子没有经过该药处理
14
合计
100
参考公式与临界值表, .
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.这100粒玉米种子没有经过该药处理且抗病虫害的有20粒
B.这100粒玉米种子中抗病虫害的有84粒
C.的观测值
D.按的可靠性要求,可以认为“治疗玉米病虫害的新药有效”
三、填空题
12.(2025·山东德州·三模)已知变量与线性相关,由样本点求得的回归直线方程为,若点在回归直线上,且,则 .
13.(2025·全国·模拟预测)近年来,政府相关部门引导乡村发展旅游业,助力乡村振兴,建设了旅游景点“秘境大峡谷”,景区内有大型瀑布群、森林覆盖率达,是天然氧吧,避暑胜地,吸引了大量游客.据统计该景点2020-2024年第三季度游客人次如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
游客人次/万人
6
7
9
10
12
已知变量具有线性相关关系,每年第三季度游客人次(万人)关于年份代码的线性回归方程.那么预计该景点2025年第三季度的游客人次约为 万人.
14.(2025·上海黄浦·三模)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人.
0.050
0.010
0.001
3.841
6.635
10.828
参考数据及公式如下:参考公式:,其中.
四、解答题
15.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
16.(2025·河北沧州·模拟预测)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.我国于2020年打赢了脱贫攻坚战,其中小麦发挥了重大作用.以2020年为第1年,我国连续5年小麦产量如下:
年份
1
2
3
4
5
产量/千万吨
13.4
13.7
13.8
13.6
14.0
现规定表示第i年的年份,表示第i年的产量,经计算得,, .
(1)求样本(,2,…,5)的相关系数(精确到0.01);
(2)现从这5年中随机抽取2年,记这2年中共有X年的小麦产量不低于13.7千万吨,求X的分布列与期望.
附:样本相关系数,.
17.(2025·全国·模拟预测)某公司在5个月期间的广告支出x(万元)与销售额y(万元)的数据如下:
月份
1
2
3
4
5
广告支出x
2
4
5
8
11
销售额y
10
20
30
40
50
(1)从这5个月中随机抽取三个月份,记销售额高于30万元的月份的个数为X,求随机变量X的分布列及数学期望;
(2)求y关于x的线性回归方程,并预测广告支出为10万元时的销售额.
参考公式:,.
18.(2025·湖南·模拟预测)近日,2025年湖南省城市足球联赛(被球迷称为“湘超”)如火如荼地进行,引发广泛关注.某地区随机抽取了部分市民,调查他们对赛事的关注情况,得到如下表格:
性别
不关注赛事
关注赛事
男性
25
150
女性
50
75
(1)列出列联表并根据小概率值的独立性检验,能否认为关注“湘超”赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取3名市民参加“湘超”赛事知识问答.已知男性、女性市民顺利完成知识问答的概率分别为,,每个人是否顺利完成相互独立.求在有且仅有2人顺利完成的条件下,这2人的性别不同的概率.
附:.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
19.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
2 / 30
学科网(北京)股份有限公司
$