内容正文:
限时练习:40min 完成时间: 月 日 天气:
作业11 成对数据的统计相关性
三层必刷:巩固提升+能力培优+创新题型
【题型一: 成对数据的统计相关性 】
1.(24-25高二下·湖北孝感·期末)已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
2.(24-25高二下·山东青岛·阶段练习)为了研究变量与的线性相关关系,收集了5组样本数据(如下表),若去掉样本点后,则样本的相关系数( )
1
2
3
4
5
0.5
0.8
1
1.2
1.5
A.变大 B.变小 C.不变 D.不能确定
【答案】C
3.(24-25高二下·湖北·阶段练习)已知变量x和变量y的3对随机观测数据,,,则该组样本数据点的相关系数( )
(参考公式:)
A. B. C. D.1
4.(24-25高二下·福建厦门·阶段练习)现有下表中数据,下列四个函数中,拟合效果最好的为( )
x
1
2
3
y
3
5.99
12.01
A. B.
C. D.
5.(2025·浙江·三模)下列说法错误的是( )
A.若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量的分布较集中
B.在做回归分析时,用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
C.若样本数据的平均数为3,则的平均数为10
D.一组数据6,7,7,8,10,12,14,17,19,21的第80百分位数为17
6.(2025·黑龙江大庆·模拟预测)下列说法不正确的是( )
A.对具有线性相关关系的变量,,且回归方程为,若样本点的中心为,则实数的值是
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.一组数据10,10,11,12,12,14,16,19,21,21的第80百分位数为19
7.(24-25高三下·上海·阶段练习)某试验田种植一批水稻,对其进行种植实验.在右表中记录了5组水稻的“播种面积”与“总产量”的相关数据并预测序号6的实验数据,若发现实验序号5的实验数据有误需剔除,则下列说法正确的是( ).
实验序号
1
2
3
4
5
6
播种面积
(单位:千公顷)
60.9
71.8
72.9
73.6
75.8
80.0
总产量
(单位:万吨)
37.8
37.4
38.9
40.1
37.3
未知
A.实验样本的相关系数将变小. B.实验样本的相关系数将不变.
C.实验序号6的预测结果将变大. D.实验序号6的预测结果将变小.
9.(24-25高二下·辽宁·阶段练习)研究变量,的相关关系时,得到了组成对数据,,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则第二次线性回归分析后( )
参考公式:①回归直线,,
②相关系数.
A.相关系数不变 B.变量与的相关性变强
C.线性回归方程不变 D.回归系数不变
10.(24-25高二下·重庆·阶段练习)下列说法正确的是( )
A.若随机变量满足:,则相互独立
B.已知随机变量,若,则.
C.在线性回归分析中,样本相关系数的值越大,变量间的线性相关性越强
D.一组数据的经验回归方程为,则当时,残差为1
11.(24-25高二下·江苏连云港·阶段练习)下列命题中,正确的是( )
A.若事件互斥,则
B.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
C.用表示次独立重复试验中事件发生的次数,为每次试验中事件发生的概率,若,则
D.已知随机变量的分布列为,则
12.(2025·四川南充·模拟预测)下列说法正确的是( )
A.相关系数为的两个随机变量比相关系数为的两个随机变量的线性相关性强
B.一组数据5,7,9,11,13,15,17,19,21,23的上四分位数为19
C.若数据的均值为的均值为11,则数据的方差为2
D.已知随机变量~,若,则
13.(2025·湖南长沙·三模)下列说法正确的是( )
A.用简单随机抽样的方法从含有50个个体的总体中抽取一个容量为5的样本,则个体被抽到的概率是0.1
B.若甲、乙两组数据的相关系数分别为0.75和,则甲组数据的线性相关性更强
C.若随机变量,当不变时,越小,该正态分布对应的正态密度曲线越矮胖
D.已知数据的极差为6,方差为2,则数据的极差和方差分别为12,8
14.(2025·上海·模拟预测)已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 .
(附:相关系数
15.(24-25高二下·湖北黄冈·阶段练习)对相关系数,给出下列结论:①越大,线性相关程度越强;②若所有样本点都在直线上,则;③越大,线性相关程度越弱,越接近,线性相关程度越强;④且越接近,线性相关程度越强,越接近,线性相关程度越弱,
其中说法正确的是 填序号
16.(2025·山西·模拟预测)A市某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了市淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数(万人)与第个月的数据:
1
2
3
4
5
23.1
37.0
62.1
111.6
150.8
根据表中数据可用一元线性回归模型刻画变量与变量之间的线性相关关系,且回归方程中的,则相关系数 (精确到0.01).
参考公式:相关系数.回归方程中斜率的最小二乘法估计公式为;
参考数据:,,,,.
17.(2025·湖南长沙·三模)某公司是从事无人机特种装备的研发、制造与技术服务的综合型科技创新企业.该公司生产的甲、乙两种无人机性能都很好,但对操控人员的水平要求较高.已知在单位时间内,甲、乙两种无人机操作成功的概率分别为和,假设每次操作成功与否相互独立.
(1)该公司分别收集了甲种无人机在5个不同地点测试的两项指标,数据如下表所示:
地点1
地点2
地点3
地点4
地点5
2
4
5
6
8
3
4
4
4
5
试求与之间的相关系数,并利用说明与的线性相关程度.
(若,则线性相关程度较高,否则线性相关程度不高)
(2)操作员连续进行两次无人机的操作,在初次操作时,随机选择这两种无人机中的一种,若初次操作成功,则第二次继续使用该种无人机,若初次操作不成功,则第二次使用另一种无人机进行操作,求操作成功的次数的数学期望.
附.
18.(2025·上海浦东新·三模)申辉中学机器人兴趣小组,进行某款机器人研发学习活动.该机器人被设计从数轴上的原点出发,机器人每一步只能选择向数轴正方向或向负方向行走1个单位.设机器人第步选择向正方向行走的概率为.设行走步后机器人所在位置对应的数为随机变量.
(1)兴趣小组成员小浦对机器人行走的步数和机器人所在位置进行了观察记录,记录数据如下:
n
1
2
3
4
5
1
2
1
2
3
请求出变量和之间的线性相关系数:
(2)若,求;
(3)已知,在的条件下,求的概率.
19.(2026高三·全国·专题练习)经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.5
1360
44
384
—
3
588
32
6430
—
表中.
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型并求出y关于x的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.
附:对于一组数据,其经验回归直线方程的斜率和截距的最小二乘估计分别为.
20.(24-25高二下·江西景德镇·期中)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表:
5
6
7
8
9
0.55
0.50
0.60
0.65
0.70
(1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强);
(2)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为,假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值.
参考公式:相关系数
21.(24-25高三下·河南焦作·阶段练习)已知某科技公司产品的一个零部件分别在甲、乙两个代工厂生产,甲工厂的日产量是乙工厂日产量的两倍,甲工厂生产的零部件次品率是0.06,乙工厂生产的零部件次品率是0.03.
(1)从某天甲、乙两个工厂生产的所有零部件中随机抽取1件,若检测该零部件为次品,求该零部件是甲工厂生产的概率;
(2)用频率代替概率,从某天甲,乙两个工厂生产的所有零部件中随机抽取3件,记这3件中正品与次品的个数分别为X,Y,,求的分布列与期望;
(3)甲工厂为提高产品正品率,进行了技术改进,从改进后的第1个月开始,第个月的次品率y(单位:%)如表:
x
1
2
3
4
5
y
5.8
5.4
4.8
4.5
4.0
根据上表数据求得y关于x的回归直线方程为,求相关系数r,并判断该回归直线方程是否有价值.
附:,,.
.若,则认为回归直线方程有价值.
【题型二: 一元线性回归模型及其应用 】
1.(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
2.(2024·广西柳州·一模)某购物平台为了吸引更多的顾客在线购物,推出了和两个套餐服务,并在购物平台上推出了优惠券活动,顾客可自由选择和两个套餐之一,下图是该购物平台7天销售优惠券的情况(单位:千张)的折线图:
(1)由折线图可看出,可用回归模型拟合与的关系,请用相关系数加以说明;
(2)假设每位顾客选择套餐的概率为,选择套餐的概率为,其中包含一张优惠券,套餐包含两张优惠券,截止某一时刻,该平台恰好销售了张优惠券,设其概率为,求;
(3)记(2)中所得概率的值构成数列,求数列的最值.
参考数据:,,,
参考公式:相关系数
3.(24-25高三上·江苏南通·期中)为调查某地区学生在高中学习中错题订正整理情况与考试成绩的关系.首先对该地区所有高中学生错题订正整理情况进行分值评价,给出得分;再组织考试.从这些学生中随机抽取20名学生的错题订正整理情况得分和对应的考试成绩作为样本,得到样本数据,其中和分别表示第个样本错题订正整理情况得分和对应的考试成绩,计算得.
(1)求样本的相关系数(精确到0.01),并推断考试成绩和错题订正整理情况得分的相关程度;
(2)已知20个样本中有8个样本的考试成绩低于样本平均数.利用频率估计概率,从该地区所有高中学生中随机抽取4个学生的错题订正整理情况得分和对应的考试成绩,记抽到考试成绩低于的个数为X,求随机变量X的分布列.
附:相关系数.
4.(24-25高三上·山东济宁·阶段练习)某学校对高三(1)班50名学生的第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,,其中(,且)分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为.
(1)求与的样本相关系数;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值,试估计该校共1600名高三学生中,数学成绩位于区间的人数.
附:①回归方程中,;
②样本相关系数;③;
④若,则.
5.(24-25高二下·全国·课后作业)已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
6.(24-25高二下·广东中山·阶段练习)广东省深圳市是全国七大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示
令,数据经过初步处理得:现有①和②两种方案作为年销售量关于年广告费的回归分析模型,其中,均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(不能整除的相关系数保留2位小数)
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,
回归直线中公式分别为,
(2)参考数据:,,,.
44
4.8
10
40.3
1.612
19.5
8.06
7.(24-25高二下·贵州黔西·阶段练习)近年来,随着社会对教育的重视,家庭的平均教育支出增长较快,随机抽样调查某市年的家庭平均教育支出,得到如下折线图.(附:年份代码分别对应的年份是)经计算得,,,.
(1)用线性回归模型拟合与的关系,求出样本相关系数(精确到0.01);
(2)建立关于的经验回归方程(,精确到0.01);
(3)若2025年该市某家庭总支出为10万元,预测该家庭教育支出约为多少万元?
附:(ⅰ)相关系数:;
(ⅱ)经验回归方程:,其中.
10.(2025·安徽芜湖·模拟预测)某地,,,四个商场均销售同一型号的冰箱,经统计,2024年10月份这四个商场购进和销售该型号冰箱的台数如下表(单位:十台):
商场
商场
商场
商场
购进该型冰箱数
3
4
5
6
销售该型冰箱数
2.5
3
4
4.5
(1)已知可用线性回归模型拟合与的关系,求关于的线性回归方程;
(2)假设每台冰箱的售价均定为4000元.若进入商场的甲、乙两人购买这种冰箱的概率分别为,,且甲乙是否购买冰箱互不影响.若两人购买冰箱总金额的期望不超过6000元,求的取值范围.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,,.
12.(24-25高二下·四川资阳·阶段练习)某大学开了一家室内滑雪场.经过6个季度的经营,统计该滑雪场的季利润数据如下:
第个季度
1
2
3
4
5
6
季利润(万元)
2.2
3.6
4.3
4.9
5.3
5.5
设,,根据上面的数据得到的一些统计量如下:
4.3
0.5
101.4
14.1
1.8
(1)用方程拟合该滑雪场的季利润与季度的关系,根据所给数据求出方程;
(2)利用(1)中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元;
附:线性回归方程中,,.参考数据:
13.(2025·湖北黄冈·模拟预测)已知某科技公司产品的一个零部件分别在甲、乙两个代工厂生产,甲工厂的日产量是乙工厂日产量的两倍,甲工厂生产的零部件次品率是0.06,乙工厂生产的零部件次品率是0.03.
(1)从某天甲、乙两个工厂生产的所有零部件中随机抽取1件,若检测该零部件为次品,求该零部件是甲工厂生产的概率;
(2)用频率代替概率,从某天甲,乙两个工厂生产的所有零部件中随机抽取3件,记这3件中正品与次品的个数分别为X,Y,记随机变量,求的期望值;
(3)甲工厂为提高产品正品率,进行了技术改进,从改进后的第1个月开始,第个月的次品率y(单位:%)如表:
x
1
2
3
4
5
y
5.8
5.4
4.8
4.5
4.0
根据上表数据求得y关于x的回归直线方程为,求相关系数r(要求保留到小数点后两位),并判断该回归直线方程是否有价值.
附公式:,,,.若,则认为回归直线方程有价值.
14.(24-25高二下·河北邢台·阶段练习)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集的数据如表所示.
零件数x/个
10
20
30
40
50
60
70
80
加工时间t/分钟
62
68
75
81
89
95
102
108
(1)试根据这以上数据建立加工时间t关于零件数x的经验回归方程;
(2)当零件数为99个时,试估计加工时间为多少分钟.
参考公式:经验回归方程中的斜率和截距的最小二乘估计公式分别为.
15.(2025·海南·模拟预测)某地区为发展新型农业,使用最新型的科技设备改良土壤,经过检测合格后,在2018年开始在实验田种植,并记录了7年的小麦的产量,得到数据如下表
年份代码x
1
2
3
4
5
6
7
产量y/吨
0.8
1.0
1.6
2.2
3.0
3.4
0.4
(1)从该实验田的小麦产量数据中任取3年的数据,若在至少有2年的产量不低于1吨的条件下,求3年的产量都高于1吨的概率;
(2)已知这7年间有一年由于干旱,导致小麦损失很大.若剔除干旱因素导致的异常,经计算,y与x有线性关系,求该经验回归方程,并预测在排除干旱因素影响的情况下,第8年年该试验田小麦的产量.
附:.
16.(24-25高二下·天津·阶段练习)网购是现代年轻人重要的购物方式,截止到2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与时间第年进行了统计得如下数据:
1
2
3
4
5
2.6
3.1
4.5
6.8
8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润与时间的回归方程,并预测当时的利润额.
附:,,
参考数据:,,,.
17.(24-25高二下·河北保定·阶段练习)某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
18.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
19.(24-25高二下·福建厦门·阶段练习)某环保机构研究城市绿化覆盖率(%)和年均浓度()的关系,随机抽取10个城市数据如下:
编号i
1
2
3
4
5
6
7
8
9
10
总和
绿化覆盖率
4
13
16
21
26
31
36
45
52
56
300
年均浓度
80
66
58
54
50
46
42
38
34
32
500
可得.
(1)求绿化覆盖率与浓度的样本相关系数(精确到);
(2)求y关于x的经验回归方程(精确到),并估计使得年均浓度不超过需要的最低绿化覆盖率(精确到整数).
参考数据与公式:.
20.(24-25高二下·山西长治·期中)网络时代,直播带货成为新的售货方式.某平台一网红月粉丝数量x(万人)与当月获得的利润y(万元)的数据如下表所示,已知y与x之间具有线性相关关系.
月份
1
2
3
4
5
粉丝数量万人
1.5
1.6
1.7
1.8
1.9
利润万元
1.6
2
2.4
2.5
3
(1)求y关于x的线性回归方程;
(2)若此网红每月增加粉丝1000人,根据(1)中所得的线性回归方程,预测本年最后一个月12月份可获得的利润.
参考公式:,.
【题型三:列联表与独立性检验 】
1.(25-26高三上·云南·阶段练习)“你好!我是DeepSeek,很高兴见到你!我可以帮你写代码,读文件,写作各种创意内容,请把你的任务交给我吧”,DeepSeek从横空出世到与我们日常相伴,成为我们解决问题的“好参谋,好助手”,AI大模型正在改变着我们的工作和生活的方式.为了了解不同学历人群对DeepSeek的使用情况,随机调查了200人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
65
35
100
本科以下
50
50
100
合计
115
85
200
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用情况与学历有关?
(2)某校组织“AI模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有3道题目,甲、乙同时依次作答,3道试题作答完毕后比赛结束.规定:对同一道题目,两人同时答对或答错,每人得0分;若一人答对另一人答错,答对的得10分,答错的得分,比赛结束累加得分为正数者获胜,两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲、乙两名选手正确回答每道题的概率分别为,.
(i)求比赛结束后甲获胜的概率;
(ii)求比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
2.(2025·湖北·模拟预测)手机用户可通过“微信”查询自己每天行走的步数,同时也可以和好友进行运动量的比较或点赞现从小华的朋友圈内随机选取了100人,记录下他们某一天的行走步数,数据整理如下表:
0~2000
2001~5000
5001~8000
8001~10000
10001以上
男
5
8
12
12
13
女
10
12
13
6
9
若某人一天的行走步数超过8000,则被评定为“积极型”,否则被评定为“懈怠型”.
(1)由题意完成下面的2×2列联表,根据小概率值的独立性检验,能否认为“评定类型”与“性别”有关联?
性别
评定类型
合计
积极型
懈怠型
男
女
合计
附:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
.
(2)以这100人的样本数据估计该朋友圈的总体数据,且以频率估计概率,若从该朋友圈的男性好友中抽取3人,记其中被评定为“积极型”的男性人数为X,求随机变量X的分布列和数学期望;
(3)在被评定为“积极型”的对象中采用分层抽样的方法从样本中抽取8人,再从中随机抽取3人,记抽到“积极型”的女性人数为Y,求随机变量Y的分布列.
3.(24-25高二下·云南临沧·阶段练习)从横空出世到与我们日常相伴,成为我们解决问题的“好参谋,好助手”,大模型正在改变着我们的工作和生活的方式为了了解不同学历人群对的使用情况,随机调查了人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
本科以下
合计
(1)依据小概率值的独立性检验,能否认为的使用情况与学历有关?
(2)某校组织“模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有道题目,甲、乙同时依次作答,道试题作答完毕后比赛结束规定:若对同一道题目,两人同时答对或答错,每人得分;若一人答对另一人答错,答对的得分,答错的得分,比赛结束累加得分为正数者获胜,两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲,乙两名选手正确回答每道题的概率分别为,求比赛结束后甲获胜的概率;
附:,其中.
4.(24-25高二下·广东广州·阶段练习)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表:(单位:人)
满意程度
性别
合计
男生
女生
满意
120
30
150
不满意
80
70
150
合计
200
100
300
(1)依据小概率值的独立性检验,能否认为满意程度与性别有关系;
(2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,,,3道试题答对与否互不影响.
(ⅰ)用表示能进入总决赛的人数,求的数学期望;
(ⅱ)记有n人进入总决赛的概率为,求取最大值时n的值.
附:,其中
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
5.(24-25高二下·贵州黔西·阶段练习)“随意过马路”存在很大的交通安全隐患.某调查机构为了解路人对“随意过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
性别
男性
女性
合计
反感
10
不反感
8
合计
30
已知在这30人中随机抽取1人,抽到反感“随意过马路”的路人的概率是.
(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),根据小概率值的独立性检验,分析反感“随意过马路”与性别是否有关?
(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“随意过马路”的人数为,求的分布列和均值.
附,
0.05
0.01
3.84
16.635
6.(24-25高二下·河北邢台·阶段练习)某学术平台引入智能检测系统对所收集的文本进行筛查.检测系统对生成文本的识别准确率为98%,对人类撰写文本的识别准确率为96.5%.检测系统对所收集的文本进行筛查时,会对每篇文本输出一个“生成概率”得分y(分).y与文本长度x(字)可以用一元线性回归模型来刻画,其线性回归方程为,且.已知该平台中15%的文本由生成.
(1)求回归系数,并预测当文本长度为600字时,“生成概率”的得分;
(2)现从平台中随机抽取200篇文本进行统计分析,填写列联表(篇数四舍五入取整数).
文本真实性
检测结果
总计
识别为生成(篇)
识别为人类撰写(篇)
真实生成(篇)
真实人类撰写(篇)
总计
200
依据小概率值的独立性检验,能否判断“检测结果”与“文本真实性”有差异?
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:
提示:独立性检验中常用的小概率值和相应的临界值
7.(24-25高二下·辽宁·阶段练习)在100杯无色无味透明液体中,有98杯清水与2杯盐水,某数学实验小组想要用最快的方法找出这两杯盐水.为此,他们设计了两种方案:
方案一:将这100杯液体随机分成10组,每组10杯,将组内的所有液体取样混合,同时检测10组混合样本的盐度,找出盐水所在的小组后再同时对组内每杯液体单独检测;
方案二:将这100杯液体随机分成20组,每组5杯,将组内的所有液体取样混合,同时检测20组混合样本的盐度,找出盐水所在的小组后再同时对组内每杯液体单独检测.
实验小组随机向100名同学发送了调查问卷以了解同学对两种方案的支持倾向,并将数据整理成如下列联表:
支持方案一
支持方案二
合计
男同学
25
30
55
女同学
25
20
45
合计
50
50
100
(1)能否有90%的把握认为支持方案一或方案二与性别有关;
(2)记使用方案一检测的总次数为,使用方案二检测的总次数为.
(i)求的分布列;
(ii)通过比较的数学期望与的数学期望,判断哪种方案更加合理.
附:(其中).
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
8.(24-25高二下·天津静海·阶段练习)在十余年的学习生活中,部分学生养成了上课转笔的习惯某研究小组为研究学生上课是否转笔与学习成绩好差的关系,从全市若干所学校的全部学生中随机抽取名学生进行调查,其中上课转笔的有人经调查,得到这名学生近期考试的成绩分数均在内的频率分布直方图如图所示分组区间为记总成绩不低于分的为优秀,其余为合格.
(1)请完成下面的列联表,依据小概率值的独立性检验,能否认为学生的成绩是否优秀与上课是否转笔有关联.(单位:人)
成绩
转笔
合计
上课转笔
上课不转笔
合格
25
优秀
10
合计
100
(2)现按成绩采用比例分配的分层随机抽样的方法从这人中抽取人,再从这人中随机抽取人进行进一步调查,记抽到的人中成绩合格的人数为,求的分布列和均值;
(3)若将频率视作概率,从全市所有在校学生中随机抽取人进行调查,记人中上课转笔的人数为,求的均值和方差.
(4)结合以上两问,说明二项分布与超几何分布的区别与联系.
附:参考公式:,其中.
参考数据:
9.(24-25高二下·河南洛阳·期末)第42届中国洛阳牡丹文化节于2025年4月1日至5月5日举办,洛阳牡丹已有1500多年栽培史,它雍容华贵、国色天香、富丽堂皇,寓意吉祥富贵、繁荣昌盛,是中华民族兴旺发达、美好幸福的象征.近年来,“汉服热”也风靡洛阳.为了让游客在牡丹文化节期间近距离感受洛阳汉服文化的独特魅力与牡丹文化的国色天香,官方举办了“洛邑芳华”汉服走秀巡游活动,记者随机采访了150名游客,征求对该活动的评价意见,得到下表:
满意度
性别
合计
女性
男性
比较满意
30
20
50
非常满意
40
60
100
合计
70
80
150
(1)依据小概率值的独立性检验,能否认为不同性别的游客对该活动的评价有差异?
(2)用频率估计概率,现随机采访1名女性游客与1名男性游客,设X表示这2人中对该活动非常满意的人数,求X的分布列和数学期望.
附:,.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
10.(2025·全国·二模)某科技公司食堂每天中午提供A、B两种套餐,员工小李第一天午餐时随机选择一种套餐,如果前一天选择A套餐,那么第二天选择A套餐的概率为;如果前一天选择B套餐,那么第二天选择A套餐的概率为.
(1)食堂对A套餐的菜品种类与品质等方面进行了改善后,对员工对于A套餐的满意程度进行了调查,统计了120名员工的数据,如下表(单位:人)
套餐A满意度
A套餐改善前
A套餐改善后
合计
满意
20
40
60
不满意
30
30
60
合计
50
70
120
根据小概率值的独立性检验,能否认为员工对于A套餐的满意程度与套餐的改善有关?
(2)若A套餐拟提供2种品类的素菜,种品类的荤菜,员工小李从这些菜品中选择3种菜品,记选择素菜的种数为X,求的最大值,并求此时n的值;
(3)设员工小李第n天选择B套餐的概率为,求.
参考数据:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【题型四:统计的综合应用 】
1.(24-25高二下·广东揭阳·阶段练习)已知我国2015年至2023年的乡村就业人员连续9年的人数如表(人数单位:亿人),其中第1年为2015年,第2年为2016年,依次类推:
第年
1
2
3
4
5
6
7
8
9
人数
3.54
3.42
3.29
3.15
3.02
2.88
2.79
2.74
2.70
计算得到相关数据:.
(1)判断年份与人数之间是否具有较强的线性相关性;
(2)某同学误将2019年的数据抄漏,其余均按照剩下的正确8组数据计算.(下列计算结果均保留两位小数)
①利用最小二乘法,求该同学得到的年份与人数之间的线性回归方程;
②证明:由该同学求得的线性回归模型的决定系数比由原数据求得的线性回归模型的决定系数大.
附:①样本相关系数,当时,认为两个变量有较强的线性相关性;
②利用最小二乘法计算回归直线,截距和斜率的估计公式为,;
③决定系数.
2.(24-25高二下·吉林·阶段练习)某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长(分钟)和学生任务完成率的对应数据如下:
时长
20
24
28
32
36
40
完成率
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:.
0.1
0.01
0.001
2.706
6.635
10.828
3.(2025·甘肃金昌·模拟预测)某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为80%.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长x(分钟)和学生任务完成率y%的对应数据如下:
时长x
20
24
28
32
36
40
完成率y%
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:,.
α
0.1
0.01
0.001
2.706
6.635
10.828
4.(2025·四川乐山·三模)电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元)
20
30
40
50
60
70
游客满意度评分(分)
60
65
70
78
80
85
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为,.
①若甲以获胜的概率为,求的最大值;
②在①中,若,以作为的值,设甲、乙比赛的局数为,求的分布列和期望.
参考公式:相关系数,,
参考数据:.
5.(24-25高二下·辽宁·期中)某医疗机构为了解某种地方性疾病与饮食习惯间的关系(饮食习惯分为良好与不良),从该地区随机抽取300名居民,得到如下2×2列联表:
饮食习惯
合计
良好
不良
患有这种地方性疾病
40
未患有这种地方性疾病
200
合计
220
(1)请补充上面2×2列联表,并判断是否有99.9%的把握认为居民是否患有这种地方性疾病与饮食习惯有关联?
(2)通过抽血化验的方式进行这种地方性疾病的检验,随机地将k个人的血样混合再化验,如果混管血样呈阴性,说明这k个人全部阴性;如果混管血样呈阳性,说明这k个人中至少一人血样呈阳性,需要对每个人再分别化验一次.已知5人的混管血样呈阳性.
(ⅰ)若这5人中有2人患有这种地方性疾病,现将这5人每个人的血样逐个化验,直到查出患有这种地方性疾病的2人为止,设X表示所需化验次数,求X的分布列与数学期望;
(ⅱ)若这5人中有1人患有这种地方性疾病,从这5人中取出3人的血样混合一起化验,若呈阳性,则对这3人的血样再逐一化验,直到查出患有这种地方性疾病的人为止;若呈阴性,则对剩下2人的血样逐一化验,直到查出患有这种地方性疾病的人为止.设Y表示所需化验次数,求.
附:,其中.
0.1
0.01
0.001
k
2.706
6.635
10.828
【题型五: 统计和其他专题的综合应用 】
1.(2025·广西·三模)我国广西某自然保护区分布着国家一级保护动物白头叶猴,为了研究空气质量与白头叶猴分布数量的相关性,将该保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中20个区域进行编号,统计抽取到每个区域的某空气指标和区域内白头叶猴分布的数量,得到数组.已知,,.
(1)求样本的相关系数;
(2)假设白头叶猴的寿命为随机变量(可取任意正整数).研究人员统计大量数据后发现:对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均等于0.05,这种现象被称为“几何分布的无记忆性”.
①求的表达式;
②推导白头叶猴寿命期望的值.
附:相关系数.
2.(24-25高二下·贵州遵义·阶段练习)某餐馆2024年12月份共有800个线上外卖订单,其中好评订单有600个,其余均为非好评订单.为了提升菜品品质,增加营业额,该餐馆在2025年1月份更换了厨师,更换厨师后该餐馆2025年1月份共有2000个线上外卖订单,其中好评订单有1600个,其余均为非好评订单.
(1)根据统计数据,完成下列列联表,并判断是否有的把握认为该餐馆订单的好评率与更换厨师有关联.
好评
非好评
合计
更换厨师前
更换厨师后
合计
(2)现从更换厨师前的订单中按好评和非好评,按比例用分层随机抽样法抽取8个订单进行电话回访,再从这8个订单中随机抽取3个订单发放新品品尝券并让顾客评价,记抽取的3个订单中好评的订单个数为,求的分布列和数学期望.
(3)用样本频率估计总体概率,现从更换厨师后的所有订单中随机抽取100个订单,记其中好评的订单个数为,求当事件“”的概率最大时的值.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
3.(2025·河北沧州·模拟预测)“你好!我是DeepSeek,很高兴见到你!我可以帮你写代码,读文件,写作各种创意内容,请把你的任务交给我吧”,DeepSeek从横空出世到与我们日常相伴,成为我们解决问题的“好参谋,好助手”,AI大模型正在改变着我们的工作和生活的方式.为了了解不同学历人群对DeepSeek的使用情况,随机调查了200人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
65
35
100
本科以下
50
50
100
合计
115
85
200
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用情况与学历有关?
(2)某校组织“AI模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有3道题目,甲、乙同时依次作答,3道试题作答完毕后比赛结束.规定:若对同一道题目,两人同时答对或答错,每人得0分;若一人答对另一人答错,答对的得10分,答错的得分,比赛结束累加得分为正数者获胜,两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲,乙两名选手正确回答每道题的概率分别为,.
(ⅰ)求比赛结束后甲获胜的概率;
(ⅱ)求比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
4.(2025·黑龙江哈尔滨·模拟预测)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一.从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图.
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(,,,均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.5
165
204
22
42
4
6448.3
2060
其中,.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占25%,存活天数为1的样本在全体样本中占20%.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:,
5.(2025·河北沧州·一模)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表:
单位:人
满意程度
性别
合计
男生
女生
满意
120
不满意
150
合计
200
(1)请补全上面的列联表,依据小概率值的独立性检验,能否认为满意程度与性别有关系;
(2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,,,3道试题答对与否互不影响.
(i)用X表示能进入总决赛的人数,求X的数学期望;
(ii)记有n人进入总决赛的概率为,求取最大值时的值.
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
6.(24-25高三下·云南昆明·阶段练习)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一、从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.3
165.0
204
17.5
42
3.5
6448.3
1901.5
其中.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占,存活天数为1的样本在全体样本中占.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:.
7.(2025·海南·三模)在一个足够大的不透明袋中进行一个轮摸球试验,规则如下:每一轮试验时,袋中均有红、黑、白三种颜色的球,从中随机摸出一个球(摸出的球不再放回),若摸出红球.则试验成功;若摸出白球,则试验失败;若摸出黑球,则进入判定环节:判定时,放回两个黑球取出一个白球,再从中随机摸出一个球,若为白球则试验失败,否则试验成功.若试验成功,则结束试验,若试验失败,则进行下一轮试验,直至成功或轮试验进行完.已知第轮试验开始时,袋中有1个红球,个黑球,个白球.
(1)求第1轮试验成功的概率;
(2)某团队对这个试验进行了一定的研究,请若干志愿者进行了5轮试验,并记录了第轮试验成功志愿者的比例,记,发现与线性相关,求关于的经验回归方程,并预测试验轮数足够大时,试验成功志愿者的比例;
(3)记试验结束时,试验成功的概率为,证明:.
参考数据:.
附:回归方程中斜率和截距的最小二乘估计公式分别为.
8.(2024高三·全国·专题练习)高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
9.(2024高三·全国·专题练习)2024年7月26日,第33届夏季奥林匹克运动会在法国巴黎开幕,足球作为其中的一项团队运动项目,风靡世界,深受大众喜欢,为了解喜爱足球运动是否与性别有关,随机抽取了男性和女性观众各100名进行调查,得到如下列联表.
喜爱足球运动
不喜爱足球运动
合计
男性
60
40
100
女性
30
70
100
合计
90
110
200
(1)判断是否有的把握认为喜爱足球运动与性别有关;
(2)用样本分布的频率估计总体分布的概率,若现在从喜爱足球运动的观众中随机抽取50名,记男性的人数为,求使事件“”概率最大的的取值;
(3)某国家足球队中的甲、乙、丙、丁、戊五名球员将进行传球训练,第1次由甲将球传出,每次传球时,传球者都等可能地将球传给另外四个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记前次传递中球传到乙的次数为,求的数学期望.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:,,.
【题型六:统计的新定义问题 】
1.(2024·四川南充·一模)今年立秋以后,川渝地区持续性高温登上热搜,引发关注讨论.根据专家推测,主要是由于大陆高压和西太平洋副热带高压呈现非常强大,在高压的控制下,川渝地区上空晴朗少云,在太阳辐射增温和气流下沉增温的共同作用下,两个地区的气温出现了直接攀升的状态.川东北某城市一室内游泳馆,为给顾客更好的体验,推出了A和B两个套餐服务,顾客可自由选择A和B两个套餐之一;该游泳馆在App平台上推出了优惠券活动,下表是App平台统计某周内周一至周六销售优惠券情况.
星期t
1
2
3
4
5
6
销售量y(张)
218
224
230
232
236
90
经计算可得:,,.
(1)因为优惠券销售火爆,App平台在周六时系统出现异常,导致当天顾客购买优惠券数量大幅减少,现剔除周六数据,求y关于t的经验回归方程;
(2)若购买优惠券的顾客选择A套餐的概率为,选择B套餐的概率为,并且A套餐包含两张优惠券,B套餐包含一张优惠券,记App平台累计销售优惠券为n张的概率为,求;
(3)请依据下列定义,解决下列问题:
定义:如果对于任意给定的正数,总存在正整数,使得当时,(a是一个确定的实数),则称数列收敛于a.
运用:记(2)中所得概率的值构成数列.求的最值,并证明数列收敛.
参考公式:,.
2.(23-24高二下·浙江温州·期中)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号
1
2
3
4
5
学习时间x
30
40
50
60
70
数学成绩y
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3.(23-24高二下·江苏南京·阶段练习)某学校有甲、乙、丙三家餐厅,分布在生活区的南北两个区域,其中甲、乙餐厅在南区,丙餐厅在北区,各餐厅菜品丰富多样,可以满足学生的不同口味和需求.
性别
就餐区域
合计
南区
北区
男
女
合计
(1)现在对学生性别与在南北两个区域就餐的相关性进行分析,得到下表所示的抽样数据,依据的独立性检验,能否认为在不同区域就餐与学生性别有关联?
(2)张同学选择餐厅就餐时,如果前一天在甲餐厅,那么后一天去甲,乙餐厅的概率均为;如果前一天在乙餐厅,那么后一天去甲,丙餐厅的概率分别为;如果前一天在丙餐厅,那么后一天去甲,乙餐厅的概率均为.张同学第1天就餐时选择甲,乙,丙餐厅的概率分别为.
0.100
0.050
0.025
0.010
2.706
3.841
5.024
6.635
(i)求第2天他去乙餐厅用餐的概率;
(ii)求第天他去甲餐厅用餐的概率.
附:;
1 / 2
学科网(北京)股份有限公司
$$
限时练习:40min 完成时间: 月 日 天气:
作业11 成对数据的统计相关性
三层必刷:巩固提升+能力培优+创新题型
【题型一: 成对数据的统计相关性 】
1.(24-25高二下·湖北孝感·期末)已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
【答案】A
【难度】0.65
【知识点】相关系数的意义及辨析
【分析】由回归方程可得,设去掉数据后,新数据为,
注意到,结合相关系数计算公式可得答案.
【详解】由题可得原数据,因过点,
则,从而.
设去掉数据后,新数据为,则
,又因,,
则,,从而.
故选:A
2.(24-25高二下·山东青岛·阶段练习)为了研究变量与的线性相关关系,收集了5组样本数据(如下表),若去掉样本点后,则样本的相关系数( )
1
2
3
4
5
0.5
0.8
1
1.2
1.5
A.变大 B.变小 C.不变 D.不能确定
【答案】C
【难度】0.65
【知识点】相关系数的意义及辨析
【分析】根据相关系数公式计算得解.
【详解】因为相关系数为,,,
5组样本数据的,,相关系数为:
,
去掉样本中心点后,四组数据的,,相关系数为:,
所以相关系数r不变.
故选:C
3.(24-25高二下·湖北·阶段练习)已知变量x和变量y的3对随机观测数据,,,则该组样本数据点的相关系数( )
(参考公式:)
A. B. C. D.1
【答案】B
【难度】0.65
【知识点】相关系数的计算
【分析】由题目数据结合参考公式可得答案.
【详解】由题可得,,
则.
,
,
则.
故选:B
4.(24-25高二下·福建厦门·阶段练习)现有下表中数据,下列四个函数中,拟合效果最好的为( )
x
1
2
3
y
3
5.99
12.01
A. B.
C. D.
【答案】C
【难度】0.65
【知识点】残差的计算
【分析】将各个点代入各个选项,看接近程度即可.
【详解】将代入可得;
将代入可得;
将代入可得;
将代入可得;
发现函数函数值与表格数据最接近,模拟效果最好.
故选:C.
5.(2025·浙江·三模)下列说法错误的是( )
A.若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量的分布较集中
B.在做回归分析时,用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
C.若样本数据的平均数为3,则的平均数为10
D.一组数据6,7,7,8,10,12,14,17,19,21的第80百分位数为17
【答案】D
【难度】0.65
【知识点】相关指数的计算及分析、均值的性质、正态曲线的性质、总体百分位数的估计
【分析】分别根据正态分布的性质、决定系数的意义、平均数的性质以及百分位数的计算方法来判断每个选项的正误.
【详解】对于A选项,对于正态分布,为标准差,越小,数据越集中在均值附近,对应的正态曲线“瘦高”,随机变量的分布较集中,所以A选项正确.
对于B选项,在回归分析中,决定系数用于刻画模型的回归效果,越接近,表示模型对数据的拟合效果越好,即越大,说明模型拟合的效果越好,所以B选项正确.
对于C选项,已知样本数据的平均数为.
根据平均数的性质:若(),则.
对于,这里,,所以其平均数为,所以C选项正确.
对于D选项,对于数据6,7,7,8,10,12,14,17,19,21,则,所以第80百分位数是第项与第项数据的平均值,即,而不是17,所以D选项错误.
故选:D.
6.(2025·黑龙江大庆·模拟预测)下列说法不正确的是( )
A.对具有线性相关关系的变量,,且回归方程为,若样本点的中心为,则实数的值是
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.一组数据10,10,11,12,12,14,16,19,21,21的第80百分位数为19
【答案】D
【难度】0.65
【知识点】相关系数的意义及辨析、指定区间的概率、根据样本中心点求参数、总体百分位数的估计
【分析】对选项A,根据线性相关的回归方程对应的直线过中心点求出的值;对选项B,根据正态分布的特点求出对应的概率;对选项C,相关系数越接近,两个变量的线性相关程度越高;对选项D,可根据定义求出其第百分位数进行判断.
【详解】对于选项A,线性相关的回归方程对应的直线过点,即,解得,选项A正确;
对于选项B,根据正态分布的性质,,,则,选项B正确;
对于选项C,相关系数的绝对值越接近,则两个变量的线性相关程度越高,选项C正确;
对于选项D,共有个按从小到大排列的数据,,根据定义第百分位数为第项和第项的平均数,选项D错误.
故答案为:D
7.(24-25高三下·上海·阶段练习)某试验田种植一批水稻,对其进行种植实验.在右表中记录了5组水稻的“播种面积”与“总产量”的相关数据并预测序号6的实验数据,若发现实验序号5的实验数据有误需剔除,则下列说法正确的是( ).
实验序号
1
2
3
4
5
6
播种面积
(单位:千公顷)
60.9
71.8
72.9
73.6
75.8
80.0
总产量
(单位:万吨)
37.8
37.4
38.9
40.1
37.3
未知
A.实验样本的相关系数将变小. B.实验样本的相关系数将不变.
C.实验序号6的预测结果将变大. D.实验序号6的预测结果将变小.
【答案】C
【难度】0.65
【知识点】相关系数的意义及辨析
【分析】根据相关性的性质即可求解AB,根据回归方程的斜率变化,即可求解CD.
【详解】根据表中数据可知:1-4号的数据中,播种面积逐渐增发,总产量整体呈现上升趋势,呈现正相关,但5号数据,播种面积在增大,但产量低,偏离了正相关趋势,当剔除5号数据后,相关性会变强,故AB错误,
由于5号数据削弱了正相关性,导致回归直线的斜率变小,因此剔除后,回归直线的斜率会变大,所以对于试验6号,预测的结果将变大,故C正确,D错误.
故选:C
9.(24-25高二下·辽宁·阶段练习)研究变量,的相关关系时,得到了组成对数据,,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则第二次线性回归分析后( )
参考公式:①回归直线,,
②相关系数.
A.相关系数不变 B.变量与的相关性变强
C.线性回归方程不变 D.回归系数不变
【答案】ACD
【难度】0.65
【知识点】求回归直线方程、相关系数的意义及辨析、相关系数的计算
【分析】当添加新的数据点时,需要重新计算新的均值、斜率、截距及相关系数.通过分析新增点对这些统计量的影响,判断回归系数、相关系数和回归方程是否变化.
【详解】设,,
则,,所以,.
对于A,B,由,
,,
则相关系数,
可得相关系数不变,变量的相关性不变,故A正确,B错误;
对于C,D,因为,且回归直线过点,
所以,均不变,所以线性回归方程不变,故C和D均正确,
故选:ACD.
10.(24-25高二下·重庆·阶段练习)下列说法正确的是( )
A.若随机变量满足:,则相互独立
B.已知随机变量,若,则.
C.在线性回归分析中,样本相关系数的值越大,变量间的线性相关性越强
D.一组数据的经验回归方程为,则当时,残差为1
【答案】ABD
【难度】0.65
【知识点】相关系数的意义及辨析、残差的计算、独立事件的判断、正态曲线的性质
【分析】A利用条件概率和对立事件概率公式化简;B由正态分布曲线的对称性可判断;C由相关系数的意义可判断;D计算出样本中心点,再将其代入回归方程中求出,再根据残差的定义计算.
【详解】A选项,,,
故,即,则相互独立,A正确;
B选项,由正态分布曲线的对称性可知,和关于对称,
故,B正确;
C选项,的绝对值越大,变量间的线性相关性越强,故C错误;
D选项,,,
故数据的样本中心点为,
将代入中得,解得,
所以经验回归方程为,当时,,故残差为,D正确.
故选:ABD
11.(24-25高二下·江苏连云港·阶段练习)下列命题中,正确的是( )
A.若事件互斥,则
B.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
C.用表示次独立重复试验中事件发生的次数,为每次试验中事件发生的概率,若,则
D.已知随机变量的分布列为,则
【答案】ACD
【难度】0.65
【知识点】相关系数的意义及辨析、互斥事件的概率加法公式、利用随机变量分布列的性质解题、二项分布的均值
【分析】根据互斥事件概率加法可判断A;根据相关系数r的概念可判断B;根据二项分布期望公式计算可判断C;根据随机变量分布列概率之和为1,列式计算即可判断D.
【详解】对于A,若事件互斥,则,故A正确;
对于B,两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故B错误;
对于C,用表示次独立重复试验中事件发生的次数,为每次试验中事件发生的概率,
则随机变量服从,
所以,解得,故C正确;
对于D,因为,
即,解得,故D正确.
故选:ACD
12.(2025·四川南充·模拟预测)下列说法正确的是( )
A.相关系数为的两个随机变量比相关系数为的两个随机变量的线性相关性强
B.一组数据5,7,9,11,13,15,17,19,21,23的上四分位数为19
C.若数据的均值为的均值为11,则数据的方差为2
D.已知随机变量~,若,则
【答案】BC
【难度】0.65
【知识点】计算几个数据的极差、方差、标准差、相关系数的意义及辨析、均值的性质、总体百分位数的估计
【分析】利用相关系数的意义判断A;求出上四分位数判断B;利用方差公式求解判断C;利用正态分布期望及期望的性质计算判断D.
【详解】对于A﹐两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,
一个是正相关,一个是负相关,,相关性一样,A错误;
对于B,由10×75%=7.5,得第75百分位数为第8个数,为19,B正确;
对于C,的方差为,C正确;
对于D,由,得,由,得,解得,D错误.
故选:BC
13.(2025·湖南长沙·三模)下列说法正确的是( )
A.用简单随机抽样的方法从含有50个个体的总体中抽取一个容量为5的样本,则个体被抽到的概率是0.1
B.若甲、乙两组数据的相关系数分别为0.75和,则甲组数据的线性相关性更强
C.若随机变量,当不变时,越小,该正态分布对应的正态密度曲线越矮胖
D.已知数据的极差为6,方差为2,则数据的极差和方差分别为12,8
【答案】AD
【难度】0.65
【知识点】简单随机抽样的概率、各数据同时乘除同一数对方差的影响、相关系数的意义及辨析、正态曲线的性质
【分析】根据简单随机抽样的概率可判断A,根据线性相关系数的意义可判断B,根据正态分布参数的意义可判断C,根据极差和方差的性质可判断D.
【详解】对A,由于抽样的等可能性知,个体被抽到的概率是,故A正确;
对B,线性相关系数的绝对值越接近于1,则数据的线性相关性越强,
所以乙组数据的线性相关性更强,故B错误;
对C,根据正态分布参数的意义,越小表示随机变量的分布越集中,
则该正态分布对应的正态密度曲线越瘦高,故C错误;
对D,新数据的极差为,方差为,故D正确.
故选:AD.
14.(2025·上海·模拟预测)已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 .
(附:相关系数
【答案】
【难度】0.65
【知识点】相关系数的计算
【分析】利用相关系数公式可看成两个维向量的夹角公式,从而把相关系数问题转化为向量夹角问题,即可求解.
【详解】设,
则有,
由相关系数公式得,
设与夹角为与夹角为,
由的样本相关系数为,的样本相关系数为,所以,
由这两个夹角均为锐角且,所以与夹角的可能性是,
则与夹角余弦值的最大值为,此时与样本相关系数最大,
即,
所以的样本线性相关系数的最大值为.
故答案为:.
15.(24-25高二下·湖北黄冈·阶段练习)对相关系数,给出下列结论:①越大,线性相关程度越强;②若所有样本点都在直线上,则;③越大,线性相关程度越弱,越接近,线性相关程度越强;④且越接近,线性相关程度越强,越接近,线性相关程度越弱,
其中说法正确的是 填序号
【答案】④
【难度】0.65
【知识点】相关系数的意义及辨析
【分析】根据相关系数的性质依次判断即可.
【详解】相关系数可以衡量两个变量之间的相关关系的强弱时,
而,当越接近于,表示两个变量的线性相关性越强,
越接近于时,表示两个变量之间几乎不存在相关关系,
故①③错误,④正确;
若所有样本点都在直线上,则,故②错误.
故综上所述,④正确.
故答案为:④.
16.(2025·山西·模拟预测)A市某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了市淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数(万人)与第个月的数据:
1
2
3
4
5
23.1
37.0
62.1
111.6
150.8
根据表中数据可用一元线性回归模型刻画变量与变量之间的线性相关关系,且回归方程中的,则相关系数 (精确到0.01).
参考公式:相关系数.回归方程中斜率的最小二乘法估计公式为;
参考数据:,,,,.
【答案】0.98
【难度】0.65
【知识点】相关系数的计算
【分析】运用给出的公式计算样本中心,再计算相关系数即可.
【详解】由题设,,,
,
所以.
故答案为:.
17.(2025·湖南长沙·三模)某公司是从事无人机特种装备的研发、制造与技术服务的综合型科技创新企业.该公司生产的甲、乙两种无人机性能都很好,但对操控人员的水平要求较高.已知在单位时间内,甲、乙两种无人机操作成功的概率分别为和,假设每次操作成功与否相互独立.
(1)该公司分别收集了甲种无人机在5个不同地点测试的两项指标,数据如下表所示:
地点1
地点2
地点3
地点4
地点5
2
4
5
6
8
3
4
4
4
5
试求与之间的相关系数,并利用说明与的线性相关程度.
(若,则线性相关程度较高,否则线性相关程度不高)
(2)操作员连续进行两次无人机的操作,在初次操作时,随机选择这两种无人机中的一种,若初次操作成功,则第二次继续使用该种无人机,若初次操作不成功,则第二次使用另一种无人机进行操作,求操作成功的次数的数学期望.
附.
【答案】(1),线性相关程度较高
(2)
【难度】0.65
【知识点】相关系数的计算、独立事件的乘法公式、求离散型随机变量的均值
【分析】(1)根据相关系数公式,求出相关系数,再根据系数大小判断相关程度高不高.
(2)根据独立事件的乘法公式,求出分布列,求出期望.
【详解】(1)由题可知,
,
,
则相关系数,
因为,所以与的线性相关程度较高.
(2)设操作成功的次数为,则的所有可能取值为0,1,2.
,
,
,
所以.
18.(2025·上海浦东新·三模)申辉中学机器人兴趣小组,进行某款机器人研发学习活动.该机器人被设计从数轴上的原点出发,机器人每一步只能选择向数轴正方向或向负方向行走1个单位.设机器人第步选择向正方向行走的概率为.设行走步后机器人所在位置对应的数为随机变量.
(1)兴趣小组成员小浦对机器人行走的步数和机器人所在位置进行了观察记录,记录数据如下:
n
1
2
3
4
5
1
2
1
2
3
请求出变量和之间的线性相关系数:
(2)若,求;
(3)已知,在的条件下,求的概率.
【答案】(1)
(2)0
(3)
【难度】0.65
【知识点】求离散型随机变量的均值、利用二项分布求分布列、独立事件的乘法公式、相关系数的计算
【分析】(1)由表中数据及相关系数的公式即可求解;
(2)由题可知的所有可能取值为,,,,根据题意求出对应取值的概率即可求解;
(3)由条件概率的定义及独立事件的乘法公式节课求解.
【详解】(1)由表可知:
,
,,,
代入相关系数的公式可得:.
(2)由题可知的所有可能取值为,,,,
表示三次均向正方向行走,故;
表示两次选择正方向,一次选择负方向行走,故;
表示一次选择正方向,两次选择负方向行走,故;
表示三次均选择负方向行走,故,
所以.
(3)设为事件A,为事件,,
其中,,
,故.
19.(2026高三·全国·专题练习)经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.5
1360
44
384
—
3
588
32
6430
—
表中.
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型并求出y关于x的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.
附:对于一组数据,其经验回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1)适合,
(2)分布列见解析,
【难度】0.65
【知识点】利用全概率公式求概率、求离散型随机变量的均值、非线性回归
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而运用期望公式可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的所有可能取值为0,1,2,
设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,由全概率公式
,
,
.
所以取出“死卵”个数的分布列为
0
1
2
P
所以.
所以取出“死卵”个数的均值为.
20.(24-25高二下·江西景德镇·期中)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表:
5
6
7
8
9
0.55
0.50
0.60
0.65
0.70
(1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强);
(2)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为,假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值.
参考公式:相关系数
【答案】(1),可以认为该性能指数与孩子的喜爱程度相关性很强
(2)
【难度】0.65
【知识点】相关系数的计算、独立事件的乘法公式
【分析】(1)利用公式求出即可判断;
(2)根据题意表示出小李挑战成功的概率为,再结合基本不等式及二次函数的知识求解即可.
【详解】(1)由表知,,
,
,
,
,
则,
由此可以认为该性能指数与孩子的喜爱程度相关性很强.
(2)当小李答对题数为3时,概率为:
,
当小李答对题数为4时,概率为:,
所以小李挑战成功的概率为:,
由,,,
则,当且仅当时等号成立,
所以,由二次函数的知识可知,
当时,小李挑战成功的概率最大,最大为.
21.(24-25高三下·河南焦作·阶段练习)已知某科技公司产品的一个零部件分别在甲、乙两个代工厂生产,甲工厂的日产量是乙工厂日产量的两倍,甲工厂生产的零部件次品率是0.06,乙工厂生产的零部件次品率是0.03.
(1)从某天甲、乙两个工厂生产的所有零部件中随机抽取1件,若检测该零部件为次品,求该零部件是甲工厂生产的概率;
(2)用频率代替概率,从某天甲,乙两个工厂生产的所有零部件中随机抽取3件,记这3件中正品与次品的个数分别为X,Y,,求的分布列与期望;
(3)甲工厂为提高产品正品率,进行了技术改进,从改进后的第1个月开始,第个月的次品率y(单位:%)如表:
x
1
2
3
4
5
y
5.8
5.4
4.8
4.5
4.0
根据上表数据求得y关于x的回归直线方程为,求相关系数r,并判断该回归直线方程是否有价值.
附:,,.
.若,则认为回归直线方程有价值.
【答案】(1)
(2)分布列见解析,
(3),有价值
【难度】0.65
【知识点】求离散型随机变量的均值、计算条件概率、写出简单离散型随机变量分布列、相关系数的计算
【分析】(1)运用条件概率和全概率公式计算即可;
(2)运用二项分布概率公式和期望公式和性质计算即可;
(3)运用线性回归公式计算相关系数,再根据系数得意义判断即可.
【详解】(1)设“抽取的零部件为甲工厂生产”为事件,“抽取的零部件为乙工厂生产”为事件,“抽取的零部件为次品”为事件B,
则,,,,
所以,
检测该零部件为次品,则该零部件是甲工厂生产的概率为
.
(2)用频率代替概率,从某天甲、乙两个工厂生产的所有零部件中随机抽取3件,则正品数,,,
的取值依次为-3,-1,1,3,
,
,
,
.
所以的分布列为
-3
-1
1
3
P
0.000125
0.007125
0.135375
0.857375
,
.
(3)由的取值依次为1,2,3,4,5,得,,
因为回归直线方程为,
所以,
所以,
所以.
因为,所以该回归直线方程有价值.
【题型二: 一元线性回归模型及其应用 】
1.(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)适宜作为与之间的回归方程模型,
(2)答案见解析,.
【难度】0.65
【知识点】非线性回归、求离散型随机变量的均值、利用全概率公式求概率
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
2.(2024·广西柳州·一模)某购物平台为了吸引更多的顾客在线购物,推出了和两个套餐服务,并在购物平台上推出了优惠券活动,顾客可自由选择和两个套餐之一,下图是该购物平台7天销售优惠券的情况(单位:千张)的折线图:
(1)由折线图可看出,可用回归模型拟合与的关系,请用相关系数加以说明;
(2)假设每位顾客选择套餐的概率为,选择套餐的概率为,其中包含一张优惠券,套餐包含两张优惠券,截止某一时刻,该平台恰好销售了张优惠券,设其概率为,求;
(3)记(2)中所得概率的值构成数列,求数列的最值.
参考数据:,,,
参考公式:相关系数
【答案】(1)答案见解析
(2)
(3)最大值为,最小值为.
【难度】0.65
【知识点】数列的极限、求等比数列前n项和、相关系数的计算
【分析】(1)根据折线图中数据和附注中参考数据可计算相关系数;
(2)根据题意得,由递推关系可得等比数列,利用等比数列的前项和公式计算即可;
(3)利用指数函数的单调性和极限思想可求最值.
【详解】(1)由折线图中数据和附注中参考数据得,,,
,
所以相关系数,
因为与的相关系数近似为0.9632,说明与的相关程度相当高,从而可以用线性回归模型拟合与的关系.
(2)依题意得,,其中,,
则,
所以是以首项为,公比为的等比数列,
故成立,
则有,
所以,又,
则.
(3)当为偶数时,,单调递减,最大值为,,
当为奇数时,,单调递增,最小值为,,
所以数列的最大值为,最小值为.
3.(24-25高三上·江苏南通·期中)为调查某地区学生在高中学习中错题订正整理情况与考试成绩的关系.首先对该地区所有高中学生错题订正整理情况进行分值评价,给出得分;再组织考试.从这些学生中随机抽取20名学生的错题订正整理情况得分和对应的考试成绩作为样本,得到样本数据,其中和分别表示第个样本错题订正整理情况得分和对应的考试成绩,计算得.
(1)求样本的相关系数(精确到0.01),并推断考试成绩和错题订正整理情况得分的相关程度;
(2)已知20个样本中有8个样本的考试成绩低于样本平均数.利用频率估计概率,从该地区所有高中学生中随机抽取4个学生的错题订正整理情况得分和对应的考试成绩,记抽到考试成绩低于的个数为X,求随机变量X的分布列.
附:相关系数.
【答案】(1)相关系数,考试成绩和错题订正整理情况得分高度相关
(2)答案见解析
【难度】0.65
【知识点】相关系数的计算、写出简单离散型随机变量分布列、利用二项分布求分布列
【分析】(1)根据相关系数的计算公式即可代入求解;
(2)根据二项分布概率公式求解概率,即可得分布列.
【详解】(1),
接近考试成绩和错题订正整理情况得分高度相关.
(2)考试成绩低于样本平均数的概率记为,
则
x
0
1
2
3
4
p
4.(24-25高三上·山东济宁·阶段练习)某学校对高三(1)班50名学生的第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,,其中(,且)分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为.
(1)求与的样本相关系数;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值,试估计该校共1600名高三学生中,数学成绩位于区间的人数.
附:①回归方程中,;
②样本相关系数;③;
④若,则.
【答案】(1)
(2)
【难度】0.65
【知识点】相关系数的计算、正态分布的实际应用
【分析】(1)根据相关系数的求法求得正确答案.
(2)先求得,然后根据正态分布的对称性求得正确答案.
【详解】(1)由关于的线性回归方程为知,
即,
又由,可得,
所以与的样本相关系数:
.
(2)由,解得,所以,
又由,
及可得:
,
于是估计该校1600名高三学生中,
数学成绩位于区间的人数约为人.
5.(24-25高二下·全国·课后作业)已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
【答案】0.999,具有很强的相关性.
【难度】0.65
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】根据给定条件,求出相关数据,再代入公式计算即可得答案.
【详解】依题意,,
,
,
,
因此,
所以这组成对的样本数据相关系数为0.999,具有很强的相关性.
6.(24-25高二下·广东中山·阶段练习)广东省深圳市是全国七大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示
令,数据经过初步处理得:现有①和②两种方案作为年销售量关于年广告费的回归分析模型,其中,均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(不能整除的相关系数保留2位小数)
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,
回归直线中公式分别为,
(2)参考数据:,,,.
44
4.8
10
40.3
1.612
19.5
8.06
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
【难度】0.65
【知识点】求回归直线方程、相关系数的意义及辨析、相关系数的计算、根据回归方程进行数据估计
【分析】(1)根据公式计算模型①②的相关系数,然后进行比较即可得到答案.
(2)根据公式求出回归方程,然后将变量的值代入即可求出函数值.
【详解】(1)设模型①和②的相关系数分别为.
由题意可得:,
令,则,
则,
所以,由相关系数的相关性质可得,模型②的拟合程度更好;
(2)由条件得:,
又由,得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
7.(24-25高二下·贵州黔西·阶段练习)近年来,随着社会对教育的重视,家庭的平均教育支出增长较快,随机抽样调查某市年的家庭平均教育支出,得到如下折线图.(附:年份代码分别对应的年份是)经计算得,,,.
(1)用线性回归模型拟合与的关系,求出样本相关系数(精确到0.01);
(2)建立关于的经验回归方程(,精确到0.01);
(3)若2025年该市某家庭总支出为10万元,预测该家庭教育支出约为多少万元?
附:(ⅰ)相关系数:;
(ⅱ)经验回归方程:,其中.
【答案】(1)
(2)
(3)5.556万元
【难度】0.65
【知识点】求回归直线方程、相关系数的意义及辨析、相关系数的计算、根据回归方程进行数据估计
【分析】(1)结合题目所给数据,计算出,,,,代入相关系数的表达式得出相关系数的值,再说明相关性强弱;
(2)结合题目所给数据,计算出和,代入经验回归方程表达式即可;
(3)依题意,将代入经验回归方程计算出的即为2025年该家庭教育支出的预测值.
【详解】(1),
,
,
所以,故相关性较强.
(2),
,
.
(3)当时,,
故家庭教育支出为(万元).
10.(2025·安徽芜湖·模拟预测)某地,,,四个商场均销售同一型号的冰箱,经统计,2024年10月份这四个商场购进和销售该型号冰箱的台数如下表(单位:十台):
商场
商场
商场
商场
购进该型冰箱数
3
4
5
6
销售该型冰箱数
2.5
3
4
4.5
(1)已知可用线性回归模型拟合与的关系,求关于的线性回归方程;
(2)假设每台冰箱的售价均定为4000元.若进入商场的甲、乙两人购买这种冰箱的概率分别为,,且甲乙是否购买冰箱互不影响.若两人购买冰箱总金额的期望不超过6000元,求的取值范围.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,,.
【答案】(1)
(2)
【难度】0.65
【知识点】求回归直线方程、求离散型随机变量的均值
【分析】(1)由参考公式代入数据即可求解;
(2)设甲、乙两人中选择购买这种冰箱的人数为,确定取值,求得对应概率,再结合期望公式构造不等式求解即可.
【详解】(1),,
所以,
则,
故关于的线性回归方程为.
(2)设甲、乙两人中选择购买这种冰箱的人数为,
则的所有可能取值为0,1,2.
,
,
,
所以
令,即,
解得:,又,所以.
所以的取值范围为.
12.(24-25高二下·四川资阳·阶段练习)某大学开了一家室内滑雪场.经过6个季度的经营,统计该滑雪场的季利润数据如下:
第个季度
1
2
3
4
5
6
季利润(万元)
2.2
3.6
4.3
4.9
5.3
5.5
设,,根据上面的数据得到的一些统计量如下:
4.3
0.5
101.4
14.1
1.8
(1)用方程拟合该滑雪场的季利润与季度的关系,根据所给数据求出方程;
(2)利用(1)中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元;
附:线性回归方程中,,.参考数据:
【答案】(1);
(2)第12个.
【难度】0.65
【知识点】求回归直线方程、由对数函数的单调性解不等式
【分析】(1)根据最小二乘法可得,进而即得;
(2)由,解不等式进而即得.
【详解】(1)由,先求y关于u的线性回归方程,
由已知数据得,
故,
所以y关于u的回归方程为,
故y关于x的回归方程为;
(2)令,得,
所以,
故预测从第12个季度开始季利润超过6.5万元;
13.(2025·湖北黄冈·模拟预测)已知某科技公司产品的一个零部件分别在甲、乙两个代工厂生产,甲工厂的日产量是乙工厂日产量的两倍,甲工厂生产的零部件次品率是0.06,乙工厂生产的零部件次品率是0.03.
(1)从某天甲、乙两个工厂生产的所有零部件中随机抽取1件,若检测该零部件为次品,求该零部件是甲工厂生产的概率;
(2)用频率代替概率,从某天甲,乙两个工厂生产的所有零部件中随机抽取3件,记这3件中正品与次品的个数分别为X,Y,记随机变量,求的期望值;
(3)甲工厂为提高产品正品率,进行了技术改进,从改进后的第1个月开始,第个月的次品率y(单位:%)如表:
x
1
2
3
4
5
y
5.8
5.4
4.8
4.5
4.0
根据上表数据求得y关于x的回归直线方程为,求相关系数r(要求保留到小数点后两位),并判断该回归直线方程是否有价值.
附公式:,,,.若,则认为回归直线方程有价值.
【答案】(1)0.8
(2)2.7
(3),有价值
【难度】0.65
【知识点】用回归直线方程对总体进行估计、超几何分布的均值、二项分布的均值、利用全概率公式求概率
【分析】(1) 设“抽取的零部件为甲工厂生产”为事件,“抽取的零部件为乙工厂生产”为事件,“抽取的零部件为次品”为事件B,由全概率公式计算,最后利用条件概率公式即可求解;
(2)由的取值依次为,利用二项分布求出对应的概率即可求解;
(3)利用回归方程求,代入公式计算相关系数r即可求解.
【详解】(1)设“抽取的零部件为甲工厂生产”为事件,“抽取的零部件为乙工厂生产”为事件,“抽取的零部件为次品”为事件B,
则,
所以
检测该零部件为次品,则该零部件是甲工厂生产的概率为
.
(2)用频率代替概率,从某天甲、乙两个工厂生产的所有零部件中随机抽取3件,
则正品数,的取值依次为,
,
,
,
.
所以的分布列为
1
3
P
0.000125
0.007125
0.135375
0.857375
,
.
(3)由的取值依次为1,2,3,4,5,得,,
因为回归直线方程为,所以,
所以,所以.
因为,所以该回归直线方程有价值.
14.(24-25高二下·河北邢台·阶段练习)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集的数据如表所示.
零件数x/个
10
20
30
40
50
60
70
80
加工时间t/分钟
62
68
75
81
89
95
102
108
(1)试根据这以上数据建立加工时间t关于零件数x的经验回归方程;
(2)当零件数为99个时,试估计加工时间为多少分钟.
参考公式:经验回归方程中的斜率和截距的最小二乘估计公式分别为.
【答案】(1)
(2)121分钟.
【难度】0.65
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)先求出,再利用最小二乘估计公式即可求出;
(2)将代入回归方程中即可.
【详解】(1)由题意得,
,
则
,
,
则,,
故加工时间t关于零件数x的经验回归方程为.
(2)当时,,
故当零件数为99个时,加工时间约为121分钟.
15.(2025·海南·模拟预测)某地区为发展新型农业,使用最新型的科技设备改良土壤,经过检测合格后,在2018年开始在实验田种植,并记录了7年的小麦的产量,得到数据如下表
年份代码x
1
2
3
4
5
6
7
产量y/吨
0.8
1.0
1.6
2.2
3.0
3.4
0.4
(1)从该实验田的小麦产量数据中任取3年的数据,若在至少有2年的产量不低于1吨的条件下,求3年的产量都高于1吨的概率;
(2)已知这7年间有一年由于干旱,导致小麦损失很大.若剔除干旱因素导致的异常,经计算,y与x有线性关系,求该经验回归方程,并预测在排除干旱因素影响的情况下,第8年年该试验田小麦的产量.
附:.
【答案】(1)
(2)4.52吨
【难度】0.65
【知识点】求回归直线方程、计算古典概型问题的概率、计算条件概率、根据回归方程进行数据估计
【分析】(1)根据条件概率公式结合古典概型及组合数计算求解;
(2)根据已知数据分别计算及得出回归直线,进而得出估计值.
【详解】(1)由表知,这7年的小麦产量数据中,有5年的产量不低于1吨,2年的产量低于1吨,
记“这7年中任取3年,至少有2年的产量不低于1吨”,“这7年中任取3年,3年的产量都高于1吨”,
则,
所以.
(2)由表可知,第七年的数据异常,剔除第七年的数据,
则剩余6年的数据中,
,,
,
,
所以,
所以,
所以y与x的经验回归方程为,
当时,(吨).
所以在排除干旱因素影响的情况下,预测第八年该试验田产量为4.52吨.
16.(24-25高二下·天津·阶段练习)网购是现代年轻人重要的购物方式,截止到2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与时间第年进行了统计得如下数据:
1
2
3
4
5
2.6
3.1
4.5
6.8
8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润与时间的回归方程,并预测当时的利润额.
附:,,
参考数据:,,,.
【答案】(1),y与t的线性相关程度很高,可以用线性回归模型拟合.
(2),万元.
【难度】0.65
【知识点】求回归直线方程、相关系数的计算、根据回归方程进行数据估计
【分析】(1)先利用公式计算出相关系数r,再按要求进行比较,进而得到结果;
(2)先利用公式求得,得到利润y与时间t的回归方程,进而预测当时的利润额.
【详解】(1)由题表,,
因为,,,
所以.
故y与t的线性相关程度很高,可以用线性回归模型拟合.
(2),,
所以.当时,.
预测该专营店在时的利润为万元.
17.(24-25高二下·河北保定·阶段练习)某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
【答案】(1);
(2);
(3).
【难度】0.65
【知识点】求回归直线方程、残差的计算、根据回归方程进行数据估计、根据样本中心点求参数
【分析】(1)由得到,再由平均数的求法列方程,即可得;
(2)根据已知可得、,结合(1)及已知得,再应用最小二乘法求回归直线方程;
(3)由(2)所得方程估计,对应数据,再由残差的求法求残差,即可得.
【详解】(1),可得,
所以,则,即;
(2)由,且,
所以,可得,结合,,,所以,
则,
,
所以,则,
所以回归直线为;
(3)当,,则,
当,,则,
所以.
18.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
【答案】(1);;
(2)
(3)
【难度】0.65
【知识点】计算几个数的中位数、计算几个数据的极差、方差、标准差、计算古典概型问题的概率、根据回归方程进行数据估计
【分析】(1)由最长与最短用时可得极差,由中间两数平均数可得中位数;
(2)由古典概型概率公式可得;
(3)先求成绩平均数,再由在回归直线上,代入方程可得,再代入年份预测可得.
【详解】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数
,
由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
19.(24-25高二下·福建厦门·阶段练习)某环保机构研究城市绿化覆盖率(%)和年均浓度()的关系,随机抽取10个城市数据如下:
编号i
1
2
3
4
5
6
7
8
9
10
总和
绿化覆盖率
4
13
16
21
26
31
36
45
52
56
300
年均浓度
80
66
58
54
50
46
42
38
34
32
500
可得.
(1)求绿化覆盖率与浓度的样本相关系数(精确到);
(2)求y关于x的经验回归方程(精确到),并估计使得年均浓度不超过需要的最低绿化覆盖率(精确到整数).
参考数据与公式:.
【答案】(1)
(2),
【难度】0.65
【知识点】求回归直线方程、相关系数的计算、根据回归方程进行数据估计
【分析】(1)根据公式求出可得答案;
(2)根据已知求出线性回归方程,由解不等式可得答案
【详解】(1)因,
故
.
即绿化覆盖率与浓度的样本相关系数约为;
(2)因为,
所以,故,
依题意由,可得,
即使得年均浓度不超过需要的最低绿化覆盖率约为.
20.(24-25高二下·山西长治·期中)网络时代,直播带货成为新的售货方式.某平台一网红月粉丝数量x(万人)与当月获得的利润y(万元)的数据如下表所示,已知y与x之间具有线性相关关系.
月份
1
2
3
4
5
粉丝数量万人
1.5
1.6
1.7
1.8
1.9
利润万元
1.6
2
2.4
2.5
3
(1)求y关于x的线性回归方程;
(2)若此网红每月增加粉丝1000人,根据(1)中所得的线性回归方程,预测本年最后一个月12月份可获得的利润.
参考公式:,.
【答案】(1)
(2)万元
【难度】0.65
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)根据题意求出即可求解;
(2)根据题意先求最后一个12月粉丝数量,代入(1)回归方程即可求解.
【详解】(1)由题意有,
,
,
,
,,
所以,
(2)根据题意最后一个12月粉丝数量为,
所以(万元),
所以预测本年最后一个月12月份可获得的利润为万元.
【题型三:列联表与独立性检验 】
1.(25-26高三上·云南·阶段练习)“你好!我是DeepSeek,很高兴见到你!我可以帮你写代码,读文件,写作各种创意内容,请把你的任务交给我吧”,DeepSeek从横空出世到与我们日常相伴,成为我们解决问题的“好参谋,好助手”,AI大模型正在改变着我们的工作和生活的方式.为了了解不同学历人群对DeepSeek的使用情况,随机调查了200人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
65
35
100
本科以下
50
50
100
合计
115
85
200
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用情况与学历有关?
(2)某校组织“AI模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有3道题目,甲、乙同时依次作答,3道试题作答完毕后比赛结束.规定:对同一道题目,两人同时答对或答错,每人得0分;若一人答对另一人答错,答对的得10分,答错的得分,比赛结束累加得分为正数者获胜,两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲、乙两名选手正确回答每道题的概率分别为,.
(i)求比赛结束后甲获胜的概率;
(ii)求比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)认为DeepSeek的使用情况与学历无关
(2)(i);(ii)
【难度】0.65
【知识点】卡方的计算、独立性检验解决实际问题、计算条件概率、独立重复试验的概率问题
【分析】(1) 先假设DeepSeek的使用情况与学历无关,再根据卡方的计算式计算出卡方的结果,和6.635去比,根据独立性检验的理论即可做出判断;
(2) (i)对于一道题而言,先分析甲得分的可能情况并求出概率,即可知道比赛结束后甲获胜的所有可能情况,再根据重伯努利实验的概率计算式计算即可;
(ii)由(i)可知甲获胜的概率,只须计算出比赛结束后甲获胜的同时乙恰好回答对1道题的概率,再按照条件概率的计算式计算即可.
【详解】(1)由题意有:零假设为:DeepSeek的使用情况与学历无关,,
所以据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为DeepSeek的使用情况与学历无关;
(2)(i)当甲,乙同时回答第道题时,甲得分为,
所以,,
比赛结束甲获胜时的得分可能的取值为10,20,30,
所以,,
所以比赛结束后甲获胜的概率,
(ii)设事件“比赛结束后甲获胜”,事件“比赛结束时乙恰好答对一道题”,
,
所以,
所以比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率为.
2.(2025·湖北·模拟预测)手机用户可通过“微信”查询自己每天行走的步数,同时也可以和好友进行运动量的比较或点赞现从小华的朋友圈内随机选取了100人,记录下他们某一天的行走步数,数据整理如下表:
0~2000
2001~5000
5001~8000
8001~10000
10001以上
男
5
8
12
12
13
女
10
12
13
6
9
若某人一天的行走步数超过8000,则被评定为“积极型”,否则被评定为“懈怠型”.
(1)由题意完成下面的2×2列联表,根据小概率值的独立性检验,能否认为“评定类型”与“性别”有关联?
性别
评定类型
合计
积极型
懈怠型
男
女
合计
附:
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
.
(2)以这100人的样本数据估计该朋友圈的总体数据,且以频率估计概率,若从该朋友圈的男性好友中抽取3人,记其中被评定为“积极型”的男性人数为X,求随机变量X的分布列和数学期望;
(3)在被评定为“积极型”的对象中采用分层抽样的方法从样本中抽取8人,再从中随机抽取3人,记抽到“积极型”的女性人数为Y,求随机变量Y的分布列.
【答案】(1)列联表见解析,与“性别”有关联
(2)分布列见解析,
(3)分布列见解析
【难度】0.65
【知识点】独立性检验解决实际问题、利用二项分布求分布列、超几何分布的分布列
【分析】(1)首先根据题意完成列联表,再计算,即可得到答案.
(2)利用二项分布求解即可.
(3)利用超几何分布求解即可.
【详解】(1)
性别
评定类型
合计
积极型
懈怠型
男
25
25
50
女
15
35
50
合计
40
60
100
零假设为:“评定类型”与“性别”没有关系,
根据列联表的数据求得,
根据小概率值的独立性检验,我们推断不成立,即认为“评定类型”与“性别”有关联,此推断犯错误的概率不大于0.05.
(2)根据题设条件,X服从二项分布,其可能取值为0,1,2,3,抽取的男性好友中被评定为积极型的概率为,
故,
,
X的概率分布如下表所示,
X
0
1
2
3
P
因此,随机变量X的数学期望为
答:随机变量X的数学期望为.
(3)100人中男生“积极型”有25人,女生“积极型”有15人,
抽取比例为5:3,抽取男生5人,女生3人,Y的所有可能取值为0,1,2,3,
从而;;
;.
所以随机变量Y的分布列如下表:
X
0
1
2
3
P
3.(24-25高二下·云南临沧·阶段练习)从横空出世到与我们日常相伴,成为我们解决问题的“好参谋,好助手”,大模型正在改变着我们的工作和生活的方式为了了解不同学历人群对的使用情况,随机调查了人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
本科以下
合计
(1)依据小概率值的独立性检验,能否认为的使用情况与学历有关?
(2)某校组织“模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有道题目,甲、乙同时依次作答,道试题作答完毕后比赛结束规定:若对同一道题目,两人同时答对或答错,每人得分;若一人答对另一人答错,答对的得分,答错的得分,比赛结束累加得分为正数者获胜,两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲,乙两名选手正确回答每道题的概率分别为,求比赛结束后甲获胜的概率;
附:,其中.
【答案】(1)能
(2)
【难度】0.65
【知识点】卡方的计算、互斥事件的概率加法公式、独立事件的乘法公式
【分析】(1)根据列联表计算,再判断即可;
(2)由题知回答第道题时,甲的得分为可取,计算出相应概率,然后比赛结束后甲获胜的得分的所有可能取值为,,,再计算出相应概率即可得出甲获胜的概率.
【详解】(1)零假设:的使用情况与学历无关,
由表知,
故依据小概率值的独立性检验,推断不成立,即能认为的使用情况与学历有关.
(2)设当甲、乙同时回答第道题时,甲的得分为,
,
,
,
设比赛结束后甲获胜的得分为变量,则的所有可能取值为,,,
所以,
,
,
所以比赛结束后甲获胜的概率为.
4.(24-25高二下·广东广州·阶段练习)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表:(单位:人)
满意程度
性别
合计
男生
女生
满意
120
30
150
不满意
80
70
150
合计
200
100
300
(1)依据小概率值的独立性检验,能否认为满意程度与性别有关系;
(2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,,,3道试题答对与否互不影响.
(ⅰ)用表示能进入总决赛的人数,求的数学期望;
(ⅱ)记有n人进入总决赛的概率为,求取最大值时n的值.
附:,其中
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)能认为满意程度与性别有关系
(2)(ⅰ);(ⅱ)12.
【难度】0.65
【知识点】卡方的计算、独立性检验解决实际问题、服从二项分布的随机变量概率最大问题、二项分布的均值
【分析】(1)利用独立性检验的步骤进行计算和分析;
(2)(i)由题意可知能进入总决赛的人数服从二项分布,再计算出每个人进入决赛的概率,利用二项分布的数学期望公式进行计算即可;(ii)写出的表达式,列出不等式组进行求解.
【详解】(1)列联表见解析,推断犯错误的概率不大于0.001;零假设为:满意程度与性别无关,,
所以依据小概率值的独立性检验,推断不成立,即能认为满意程度与性别有关系,此推断犯错误的概率不大于0.001.
(2)(ⅰ)依题意,设“答对第i道题”(,2,3);“某同学进入总决赛”,则,
,,所以
,
依题意,,所以;
(ⅱ)依题意,,,1,2,…,20,
若最大,则
解得,因为,所以,所以取最大值时n的值为12.
5.(24-25高二下·贵州黔西·阶段练习)“随意过马路”存在很大的交通安全隐患.某调查机构为了解路人对“随意过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
性别
男性
女性
合计
反感
10
不反感
8
合计
30
已知在这30人中随机抽取1人,抽到反感“随意过马路”的路人的概率是.
(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),根据小概率值的独立性检验,分析反感“随意过马路”与性别是否有关?
(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“随意过马路”的人数为,求的分布列和均值.
附,
0.05
0.01
3.84
16.635
【答案】(1)列联表见解析,认为反感“随意过马路”与性别无关联,此推断犯错误的概率不大于0.05;
(2)分布列见解析,均值为.
【难度】0.65
【知识点】完善列联表、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据题意补充列联表,将表中数据代入计算,比较与的大小,即可得出结论;
(2)根据题意写出的可能取值,分别计算在每个可能取值下的概率,根据结果列出分布列,使用均值计算公式计算均值.
【详解】(1)
性别
男性
女性
合计
反感
10
6
16
不反感
6
8
14
合计
16
14
30
零假设为:反感“随意过马路”与性别无关联,
由已知数据得,
根据小概率值的独立性检验,没有充分证据推断不成立,即认为反感“随意过马路”与性别无关联.
(2)的可能取值为0,1,2,
,,,
所以的分布列为
0
1
2
的均值为.
6.(24-25高二下·河北邢台·阶段练习)某学术平台引入智能检测系统对所收集的文本进行筛查.检测系统对生成文本的识别准确率为98%,对人类撰写文本的识别准确率为96.5%.检测系统对所收集的文本进行筛查时,会对每篇文本输出一个“生成概率”得分y(分).y与文本长度x(字)可以用一元线性回归模型来刻画,其线性回归方程为,且.已知该平台中15%的文本由生成.
(1)求回归系数,并预测当文本长度为600字时,“生成概率”的得分;
(2)现从平台中随机抽取200篇文本进行统计分析,填写列联表(篇数四舍五入取整数).
文本真实性
检测结果
总计
识别为生成(篇)
识别为人类撰写(篇)
真实生成(篇)
真实人类撰写(篇)
总计
200
依据小概率值的独立性检验,能否判断“检测结果”与“文本真实性”有差异?
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:
提示:独立性检验中常用的小概率值和相应的临界值
【答案】(1),0.2
(2)列联表见解析,有差异
【难度】0.65
【知识点】完善列联表、卡方的计算、独立性检验解决实际问题、根据样本中心点求参数
【分析】(1)利用线性回归方程通过样本中心可得回归系数;代入线性回归方程可得预测结果;
(2)由题意完善列联表,计算卡方可得.
【详解】(1)因为,且,
故,故.
当时,
(2)生成的篇数为,人类撰写的篇数为,
真实生成且被识别为生成的篇数,
真实人类撰写且被识别为人类撰写的篇数,
故列联表为:
文本真实性
检测结果
总计
识别为生成(篇)
识别为人类撰写(篇)
真实生成(篇)
29
1
30
真实人类撰写(篇)
6
164
170
总计
35
165
200
零假设为:分类变量相互独立,即“检测结果”与“文本真实性”无差异
由列联表数据计算得,,
所以依据小概率值的独立性检验,可以判断“检测结果”与“文本真实性”有差异.
7.(24-25高二下·辽宁·阶段练习)在100杯无色无味透明液体中,有98杯清水与2杯盐水,某数学实验小组想要用最快的方法找出这两杯盐水.为此,他们设计了两种方案:
方案一:将这100杯液体随机分成10组,每组10杯,将组内的所有液体取样混合,同时检测10组混合样本的盐度,找出盐水所在的小组后再同时对组内每杯液体单独检测;
方案二:将这100杯液体随机分成20组,每组5杯,将组内的所有液体取样混合,同时检测20组混合样本的盐度,找出盐水所在的小组后再同时对组内每杯液体单独检测.
实验小组随机向100名同学发送了调查问卷以了解同学对两种方案的支持倾向,并将数据整理成如下列联表:
支持方案一
支持方案二
合计
男同学
25
30
55
女同学
25
20
45
合计
50
50
100
(1)能否有90%的把握认为支持方案一或方案二与性别有关;
(2)记使用方案一检测的总次数为,使用方案二检测的总次数为.
(i)求的分布列;
(ii)通过比较的数学期望与的数学期望,判断哪种方案更加合理.
附:(其中).
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)没有90%的把握认为支持方案一或方案二与性别有关.
(2)(i)答案见解析;(ii)方案一更加合理
【难度】0.65
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)计算值,并与作比较即可;
(2)(i)分两杯盐水在同一组和不在同一组,分别求其概率即可列出分布列;
(ii)参照(i)列出的分布列,计算期望作比较.
【详解】(1)零假设:方案一或方案二与性别无关,
因为,
由此推断,零假设不成立,即没有90%的把握认为支持方案一或方案二与性别有关.
(2)(i)对于方案一,有两种情况:若两杯盐水在同一组,则需先测10次,
每次一组,再测10次,每次一杯;若两杯盐水不在同一组,
则需先测10次,每次一组,再测20次,每次一杯,
则的可能取值为,
故,,
故的分布列为
20
30
(ii)对于方案二,有两种情况:若两杯盐水在同一组,
则需先测20次,每次一组,再测5次,每次一杯;
若两杯盐水不在同一组,则需先测20次,每次一组,再测10次,每次一杯,
则的取值可能为25或30,
则,,
则,
而由(i)可知,,得,
故方案一更加合理.
8.(24-25高二下·天津静海·阶段练习)在十余年的学习生活中,部分学生养成了上课转笔的习惯某研究小组为研究学生上课是否转笔与学习成绩好差的关系,从全市若干所学校的全部学生中随机抽取名学生进行调查,其中上课转笔的有人经调查,得到这名学生近期考试的成绩分数均在内的频率分布直方图如图所示分组区间为记总成绩不低于分的为优秀,其余为合格.
(1)请完成下面的列联表,依据小概率值的独立性检验,能否认为学生的成绩是否优秀与上课是否转笔有关联.(单位:人)
成绩
转笔
合计
上课转笔
上课不转笔
合格
25
优秀
10
合计
100
(2)现按成绩采用比例分配的分层随机抽样的方法从这人中抽取人,再从这人中随机抽取人进行进一步调查,记抽到的人中成绩合格的人数为,求的分布列和均值;
(3)若将频率视作概率,从全市所有在校学生中随机抽取人进行调查,记人中上课转笔的人数为,求的均值和方差.
(4)结合以上两问,说明二项分布与超几何分布的区别与联系.
附:参考公式:,其中.
参考数据:
【答案】(1)列联表见解析,能
(2)分布列见解析,
(3)
(4)答案见解析
【难度】0.65
【知识点】独立性检验解决实际问题、建立二项分布模型解决实际问题、求离散型随机变量的均值、离散型随机变量的方差与标准差
【分析】(1)根据频率分布直方图补全列联表,计算后,对照临界值即可得出答案;
(2)由题意计算可得这100名学生中抽取的10人中,成绩合格的有7人,成绩优秀的有3人,的可能取值为,求出相应的概率,写出分布列,从而求出数学期望;
(3)根据二项分布期望和方差计算公式计算即可;
(4)根据两者的区别可写出它们的差与联系.
【详解】(1)由频率分布直方图可知,抽取的100名学生中成绩合格的有人,则成绩优秀的有人.
列联表如下表所示单位:人
成绩
转笔
合计
上课转笔
上课不转笔
合格
25
45
70
优秀
20
10
30
合计
45
55
100
零假设为:学生成绩是否优秀与上课是否转笔无关联,
计算得,
依据小概率值的独立性检验,我们推断不成立,
即可以认为学生成绩是否优秀与上课是否转笔有关联;
(2)根据频率分布直方图可知,这100名学生中成绩优秀的频率为,成绩合格的频率为,
故从这100名学生中抽取的10人中,成绩合格的有人,成绩优秀的有人,则的可能取值为,
依题意,服从超几何分布,则,
于是,,,
,,
故的分布列为:
2
3
4
5
;
(3)由题意知,从全市所有在校学生中随机抽取1人,其上课转笔的概率为,
故,则.
(4)超几何分布描述不放回抽样,二项分布描述放回抽样.
超几何分布的参数是总体大小(N)、成功总数(K)、抽取次数(n),二项分布的参数是试验次数(n)和成功概率(p)。
当N很大时,超几何分布近似于二项分布(因为不放回的影响可忽略).
9.(24-25高二下·河南洛阳·期末)第42届中国洛阳牡丹文化节于2025年4月1日至5月5日举办,洛阳牡丹已有1500多年栽培史,它雍容华贵、国色天香、富丽堂皇,寓意吉祥富贵、繁荣昌盛,是中华民族兴旺发达、美好幸福的象征.近年来,“汉服热”也风靡洛阳.为了让游客在牡丹文化节期间近距离感受洛阳汉服文化的独特魅力与牡丹文化的国色天香,官方举办了“洛邑芳华”汉服走秀巡游活动,记者随机采访了150名游客,征求对该活动的评价意见,得到下表:
满意度
性别
合计
女性
男性
比较满意
30
20
50
非常满意
40
60
100
合计
70
80
150
(1)依据小概率值的独立性检验,能否认为不同性别的游客对该活动的评价有差异?
(2)用频率估计概率,现随机采访1名女性游客与1名男性游客,设X表示这2人中对该活动非常满意的人数,求X的分布列和数学期望.
附:,.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)能认为不同性别的游客对该活动的评价有差异;
(2)分布列见解析,.
【难度】0.65
【知识点】卡方的计算、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据列联表并应用卡方公式求卡方值,结合独立检验基本思想得结论;
(2)由题设X所有可能取值为0,1,2,并求出对应概率,写出分布列,进而求期望.
【详解】(1)零假设为:不同性别的游客对该活动的评价没有差异.
根据列联表中的数据,计算得到,
故依据小概率值的独立性检验,我们推断不成立,即能认为不同性别的游客对该活动的评价有差异.
(2)根据题意,用频率估计概率,女性对活动非常满意的概率为,男性对活动非常满意的概率为.
所以X所有可能取值为0,1,2,则,,.
故X的分布列为
X
0
1
2
P
.
10.(2025·全国·二模)某科技公司食堂每天中午提供A、B两种套餐,员工小李第一天午餐时随机选择一种套餐,如果前一天选择A套餐,那么第二天选择A套餐的概率为;如果前一天选择B套餐,那么第二天选择A套餐的概率为.
(1)食堂对A套餐的菜品种类与品质等方面进行了改善后,对员工对于A套餐的满意程度进行了调查,统计了120名员工的数据,如下表(单位:人)
套餐A满意度
A套餐改善前
A套餐改善后
合计
满意
20
40
60
不满意
30
30
60
合计
50
70
120
根据小概率值的独立性检验,能否认为员工对于A套餐的满意程度与套餐的改善有关?
(2)若A套餐拟提供2种品类的素菜,种品类的荤菜,员工小李从这些菜品中选择3种菜品,记选择素菜的种数为X,求的最大值,并求此时n的值;
(3)设员工小李第n天选择B套餐的概率为,求.
参考数据:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)认为员工对于A套餐的满意程度与套餐的改善没有关系
(2),或
(3)
【难度】0.65
【知识点】独立性检验解决实际问题、组合数的计算、构造法求数列通项、根据数列的单调性求参数
【分析】(1)根据给定数据求出的观测值,再与临界值作对比即可判断;
(2)利用古典概率模型、结合组合计数问题求出的表达式,构造数列并判断单调性求出最大值;
(3)根据题干信息求出与的关系,再利用构造法求出通项.
【详解】(1)零假设:认为员工对于A套餐的满意程度与套餐的改善无关,
由已知数据计算,
根据小概率值的独立性检验,没有充分证据推断不成立,即接受,
因此认为员工对于A套餐的满意程度与套餐的改善没有关系.
(2)依题意,,令,
,当且仅当时取等号,
当时,,
当时,,即当时,数列单调递减,
于是,
所以的最大值为,此时或.
(3)由员工小李第n天选择B套餐的概率为,则员工小李第n天选择A套餐的概率为,
因此,而,
,又,
因此,所以.
【题型四:统计的综合应用 】
1.(24-25高二下·广东揭阳·阶段练习)已知我国2015年至2023年的乡村就业人员连续9年的人数如表(人数单位:亿人),其中第1年为2015年,第2年为2016年,依次类推:
第年
1
2
3
4
5
6
7
8
9
人数
3.54
3.42
3.29
3.15
3.02
2.88
2.79
2.74
2.70
计算得到相关数据:.
(1)判断年份与人数之间是否具有较强的线性相关性;
(2)某同学误将2019年的数据抄漏,其余均按照剩下的正确8组数据计算.(下列计算结果均保留两位小数)
①利用最小二乘法,求该同学得到的年份与人数之间的线性回归方程;
②证明:由该同学求得的线性回归模型的决定系数比由原数据求得的线性回归模型的决定系数大.
附:①样本相关系数,当时,认为两个变量有较强的线性相关性;
②利用最小二乘法计算回归直线,截距和斜率的估计公式为,;
③决定系数.
【答案】(1)有较强的线性相关性;
(2)①;②证明见详解.
【难度】0.4
【知识点】求回归直线方程、相关系数的计算
【分析】(1)对公式变形,直接代入值求相关系数,再对照比较判断即可;
(2)①根据数据求出回归方程即可;
②根据题意计算发现回归方程一样,决定系数的分母一样,所以只要比较分子即可.
【详解】(1),,
所以
,
即,所以年份与人数之间具有较强的线性相关性.
(2)①2019年对应第5组数据,
则剩余8组数据的,,
,
,
所以线性回归方程为.
②证明:,
该同学,
根据题意原数据的回归方程也为,
则时,,所以,
所以,
又决定系数,
所以该同学求得的线性回归模型的决定系数比由原数据求得的线性回归模型的决定系数大.
2.(24-25高二下·吉林·阶段练习)某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长(分钟)和学生任务完成率的对应数据如下:
时长
20
24
28
32
36
40
完成率
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)能认为学生选择不同劳动教育课程与性别有关联
(2)①甲的计算公式计算为,乙的计算公式计算为,乙;②是,证明见解析
【难度】0.4
【知识点】残差的计算、卡方的计算、独立性检验解决实际问题
【分析】(1)根据所给条件计算出列联表中各项数据,再计算卡方统计量并与临界值比较判断零假设是否成立.
(2)①算出甲、乙的偏差系数.先求数据均值,再按甲、乙公式分别计算偏差系数,比较大小后发现乙对大偏差数据体现更明显.
②证明乙处理方式合理,也就是证.设,构造函数,由得二次函数判别式,进而推出不等式,令,最终证得.
【详解】(1)设男生有人,故,解得,
故男生中选择园艺课的人数为40人,又因为其有400人参加课程、
所以女生有200人,女生中选择家政课的人数为80人.
完善列联表,单位:人
课程
性别
合计
男
女
家政
160
80
140
园艺
40
120
160
合计
200
200
400
零假设为:选择不同劳动教育课程与性别无关联.
因为,
故依据小概率值的独立性检验,我们推断不成立,
即认为学生选择不同劳动教育课程与性别有关联,此推断犯错误的概率不大于0.001.
(2)①,
根据甲的计算公式计算:,故;
根据乙的计算公式计算:,
易知,因此乙的偏差系数大,从而乙对大偏差数据的存在体现更明显.
②采用①中对大偏差数据的存在体现更明显的数据处理方式,即乙的处理方式是合理的.
证明:不妨设,只需证明恒成立.
不妨设,为任意实数,
则,,欲证,则证即可,
即证即可,故证即可,
设函数,
结合完全平方公式得,则二次函数的,
可得,即,
从而对于原式,不妨令,得到,,
得到,即恒成立,
3.(2025·甘肃金昌·模拟预测)某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为80%.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长x(分钟)和学生任务完成率y%的对应数据如下:
时长x
20
24
28
32
36
40
完成率y%
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:,.
α
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)能认为
(2)①甲的计算公式计算为,乙的计算公式计算为,乙;②是,证明见解析
【难度】0.4
【知识点】相关指数的计算及分析、完善列联表、卡方的计算
【分析】(1)完善列联表,计算即可判断;
(2)①分别计算偏差系数比较大小即可;
②采用①中对大偏差数据的存在体现更明昆的数据处理方式,即乙的处理方式是合理的.不妨设,只需证明恒成立,设函数,即,则二次函数的即可得证.
【详解】(1)设男生有人,故,解得,
故男生中选择园艺课的人数为40人,又因为其有400人参加课程、所以女生有200人,女生中选掸家政课的人数为80人.
完善列联表,单位:人
课程
性别
合计
男
女
家政
160
80
240
园艺
40
120
160
合计
200
200
400
零假设为:选择不同劳动教育课程与性别无关联.
因为,
故依据小概率值的独立性检验,我们推断不成立,即认为学生选择不同劳动教育课程与性别有关联,此推断犯错误的概率不大于0.001.
(2)①,
根据甲的计算公式计算:,故;
根据乙的计算公式计算:,
易知,因此乙的偏差系数大,从而乙对大偏差数据的存在体现更明显.
②采用①中对大偏差数据的存在体现更明显的数据处理方式,即乙的处理方式是合理的.
证明:不妨设,只需证明恒成立.
不妨设,则对于任意的,设函数,
即,
则二次函数的,
即,
从而对于原式,令,有,即恒成立,
故此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是合理的.
4.(2025·四川乐山·三模)电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元)
20
30
40
50
60
70
游客满意度评分(分)
60
65
70
78
80
85
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为,.
①若甲以获胜的概率为,求的最大值;
②在①中,若,以作为的值,设甲、乙比赛的局数为,求的分布列和期望.
参考公式:相关系数,,
参考数据:.
【答案】(1)可以,
(2)①;②分布列见解析,
【难度】0.4
【知识点】判断两个变量是否有相关关系、求回归直线方程、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据题意,利用公式求得,得到用线性回归模型拟合与的关系,求得回归系数,进而得到回归直线方程;
(2)①根据题意,求得, 求得,得到函数得到单调性和最大值,即可求解;
②由①得到,随机变量,求得相应的概率,列出分布列,结合期望的公式,求得期望值.
【详解】(1)解:由已知得,,
可得,
,
,
所以,
因为,可以推断与正两个变量正线性相关,且相关程度很强,
可用线性回归模型拟合与的关系,
则,所以,
所以关于的线性回归方程为:.
(2)解:①若甲以获胜,则前四局中甲、乙各胜两局,且第五局甲获胜,
所以,
所以,
令,可得,当时,;
当时,,
所以在上单调递增,在上单调递减;
所以当时,取得最大值,
②由①知,,随机变量,
可得;;
,
所以随机变量的分布列为
3
4
5
所以.
5.(24-25高二下·辽宁·期中)某医疗机构为了解某种地方性疾病与饮食习惯间的关系(饮食习惯分为良好与不良),从该地区随机抽取300名居民,得到如下2×2列联表:
饮食习惯
合计
良好
不良
患有这种地方性疾病
40
未患有这种地方性疾病
200
合计
220
(1)请补充上面2×2列联表,并判断是否有99.9%的把握认为居民是否患有这种地方性疾病与饮食习惯有关联?
(2)通过抽血化验的方式进行这种地方性疾病的检验,随机地将k个人的血样混合再化验,如果混管血样呈阴性,说明这k个人全部阴性;如果混管血样呈阳性,说明这k个人中至少一人血样呈阳性,需要对每个人再分别化验一次.已知5人的混管血样呈阳性.
(ⅰ)若这5人中有2人患有这种地方性疾病,现将这5人每个人的血样逐个化验,直到查出患有这种地方性疾病的2人为止,设X表示所需化验次数,求X的分布列与数学期望;
(ⅱ)若这5人中有1人患有这种地方性疾病,从这5人中取出3人的血样混合一起化验,若呈阳性,则对这3人的血样再逐一化验,直到查出患有这种地方性疾病的人为止;若呈阴性,则对剩下2人的血样逐一化验,直到查出患有这种地方性疾病的人为止.设Y表示所需化验次数,求.
附:,其中.
0.1
0.01
0.001
k
2.706
6.635
10.828
【答案】(1)答案见详解
(2)(i)答案见详解,(ii).
【难度】0.4
【知识点】完善列联表、独立性检验解决实际问题、求离散型随机变量的均值、离散型随机变量的方差与标准差
【分析】(1)根据题意,完成列联表,利用卡方公式计算,依次判断;
(2)(i)的可能取值为,求出相应的概率,列出分布列并求出期望;(ii)的可能取值为,求出相应的概率,求出期望和方差.
【详解】(1)
饮食习惯
合计
良好
不良
患有这种地方性疾病
20
40
60
未患有这种地方性疾病
200
40
240
合计
220
80
300
,
所以有的把握认为居民是否患有这种地方性疾病与饮食习惯有关联.
(2)(i)的可能取值为,
,
,
,
所以的分布列为
2
3
4
所以.
(ii)的可能取值为,
,
,
所以,
.
【题型五: 统计和其他专题的综合应用 】
1.(2025·广西·三模)我国广西某自然保护区分布着国家一级保护动物白头叶猴,为了研究空气质量与白头叶猴分布数量的相关性,将该保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中20个区域进行编号,统计抽取到每个区域的某空气指标和区域内白头叶猴分布的数量,得到数组.已知,,.
(1)求样本的相关系数;
(2)假设白头叶猴的寿命为随机变量(可取任意正整数).研究人员统计大量数据后发现:对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均等于0.05,这种现象被称为“几何分布的无记忆性”.
①求的表达式;
②推导白头叶猴寿命期望的值.
附:相关系数.
【答案】(1)0.75
(2)①;②20
【难度】0.4
【知识点】相关系数的计算、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)将对应数值代入相关系数公式求解即可;
(2)①由已知得,则,类比已知数列递推公式求数列通项公式的方法作差求,得,从而根据等比数列的通项公式写出的表达式.
②设,利用错位相减法求出,再代入求极限即可.
【详解】(1)
(2)①已知对于任意的,,
,
, ①
当时,, ②
两式相减可得:,,
又,所以
②设,
,
两式相减得:
,所以,
所以白头叶猴寿命期望.
2.(24-25高二下·贵州遵义·阶段练习)某餐馆2024年12月份共有800个线上外卖订单,其中好评订单有600个,其余均为非好评订单.为了提升菜品品质,增加营业额,该餐馆在2025年1月份更换了厨师,更换厨师后该餐馆2025年1月份共有2000个线上外卖订单,其中好评订单有1600个,其余均为非好评订单.
(1)根据统计数据,完成下列列联表,并判断是否有的把握认为该餐馆订单的好评率与更换厨师有关联.
好评
非好评
合计
更换厨师前
更换厨师后
合计
(2)现从更换厨师前的订单中按好评和非好评,按比例用分层随机抽样法抽取8个订单进行电话回访,再从这8个订单中随机抽取3个订单发放新品品尝券并让顾客评价,记抽取的3个订单中好评的订单个数为,求的分布列和数学期望.
(3)用样本频率估计总体概率,现从更换厨师后的所有订单中随机抽取100个订单,记其中好评的订单个数为,求当事件“”的概率最大时的值.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)列联表见解析,有关联
(2)分布列见解析,期望为
(3)80
【难度】0.4
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、服从二项分布的随机变量概率最大问题、求离散型随机变量的均值
【分析】(1)完善列联表,计算的值,并与临界值对比分析即可;
(2)先算出抽取的8件产品中的合格品与不合格品的数目,再从中抽取3件,根据合格品件数的可能值运用超几何分布概率计算出概率,列出分布列计算数学期望即得;
(3)由已知可得,利用二项分布概率公式求出概率表达式,再利用作商法求得使事件“”的概率最大时的值.
【详解】(1)列联表如下:
好评
非好评
合计
更换厨师前
600
200
800
更换厨师后
1600
400
2000
合计
2200
600
2800
根据列联表中数据,经计算得到,
所以可以认为该餐馆订单的好评率与更换厨师有关联.
(2)依题意,用分层随机抽样法抽取的8个订单中,好评订单有个,非好评有2个,
而从这8个订单中随机抽取3个,其中好评的订单个数的可能值有,
则,
所以的分布列为:
1
2
3
数学期望.
(3)依题意,更换厨师后好评率为,
从更换厨师后所有订单中随机抽取100个订单,则,
于是,
由,
由,解得,而,则当时,单调递增;
由,解得,则当时,单调递减,
所以使事件“”的概率最大时的值为80.
3.(2025·河北沧州·模拟预测)“你好!我是DeepSeek,很高兴见到你!我可以帮你写代码,读文件,写作各种创意内容,请把你的任务交给我吧”,DeepSeek从横空出世到与我们日常相伴,成为我们解决问题的“好参谋,好助手”,AI大模型正在改变着我们的工作和生活的方式.为了了解不同学历人群对DeepSeek的使用情况,随机调查了200人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
65
35
100
本科以下
50
50
100
合计
115
85
200
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用情况与学历有关?
(2)某校组织“AI模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有3道题目,甲、乙同时依次作答,3道试题作答完毕后比赛结束.规定:若对同一道题目,两人同时答对或答错,每人得0分;若一人答对另一人答错,答对的得10分,答错的得分,比赛结束累加得分为正数者获胜,两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲,乙两名选手正确回答每道题的概率分别为,.
(ⅰ)求比赛结束后甲获胜的概率;
(ⅱ)求比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)认为DeepSeek的使用情况与学历无关
(2)(ⅰ);(ⅱ)
【难度】0.4
【知识点】卡方的计算、独立性检验解决实际问题、计算条件概率、独立重复试验的概率问题
【分析】(1)先假设DeepSeek的使用情况与学历无关,再根据卡方的计算式计算出卡方的结果,和6.635去比,根据独立性检验的理论即可做出判断;
(2)(i)对于一道题而言,先分析甲得分的可能情况并求出概率,即可知道比赛结束后甲获胜的所有可能情况,再根据重伯努利实验的概率计算式计算即可;
(ii)由(i)可知甲获胜的概率,只须计算出比赛结束后甲获胜的同时乙恰好回答对1道题的概率,再按照条件概率的计算式计算即可.
【详解】(1)零假设为:DeepSeek的使用情况与学历无关,
根据列联表中的数据,可得,
依据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为DeepSeek的使用情况与学历无关;
(2)(ⅰ)当甲,乙同时回答第道题时,甲得分为,
,
,
,
比赛结束甲获胜时的得分可能的取值为10,20,30,
则,
,
,
所以比赛结束后甲获胜的概率;
(ⅱ)设“比赛结束后甲获胜”,“比赛结束时乙恰好答对一道题”,
,
则,
所以比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率为.
4.(2025·黑龙江哈尔滨·模拟预测)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一.从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图.
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(,,,均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.5
165
204
22
42
4
6448.3
2060
其中,.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占25%,存活天数为1的样本在全体样本中占20%.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:,
【答案】(1)
(2)①;②
【难度】0.4
【知识点】由递推关系证明等比数列、求回归直线方程、求离散型随机变量的均值
【分析】(1)根据散点图,确定更适合,再利用换元法,以及题中的数据,代入公式求回归方程;
(2)①根据条件概率,以及地推关系,可证明数列是以首项,为公比的等比数列,再根据分段函数的形式列出解析式;②根据①的结果,列式,再利用错位相减法,即可求解.
【详解】(1)由散点图可知,更适合作为云南省花卉种植面积关于年份代码的回归方程类型,
令,所以,
因为,,,,
所以,
所以,
所以;
(2)①由题可得,,
当时,,
又,即,
同理可得,当时,,
两式相减得,
即,,
因为,
所以当时,是以为首项,为公比的等比数列,
当时,,
所以;
②
,
令,
则,
两式相减得,
,
所以,
则.
5.(2025·河北沧州·一模)某学校为全面提高学生的语文素养和阅读水平,构建“书香校园”,特举办“课外阅读知识竞赛”,为了调查学生对这次活动的满意程度,在所有参加“课外阅读知识竞赛”的同学中抽取容量为300的样本进行调查,并得到如下列联表:
单位:人
满意程度
性别
合计
男生
女生
满意
120
不满意
150
合计
200
(1)请补全上面的列联表,依据小概率值的独立性检验,能否认为满意程度与性别有关系;
(2)若竞赛成绩在前20的同学进入决赛环节,该环节共设置3道试题,且每一道试题必须依次作答,至少答对2道才能进入总决赛,且每人答对这3道试题的概率分别为,,,3道试题答对与否互不影响.
(i)用X表示能进入总决赛的人数,求X的数学期望;
(ii)记有n人进入总决赛的概率为,求取最大值时的值.
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,推断犯错误的概率不大于0.001
(2)(i);(ii)12
【难度】0.4
【知识点】完善列联表、独立性检验解决实际问题、二项分布的均值
【分析】(1)完成列联表,并利用独立性检验的步骤完成计算即可;
(2)(i)由题意可知能进入总决赛的人数服从二项分布,再计算出每个人进入决赛的概率,利用二项分布的数学期望公式进行计算即可;(ii)写出的表达式,列出不等式组进行求解即可.
【详解】(1)列联表如下:
单位:人
满意程度
性别
合计
男生
女生
满意
120
30
150
不满意
80
70
150
合计
200
100
300
零假设为:满意程度与性别无关,,
所以依据小概率值的独立性检验,推断不成立,即能认为满意程度与性别有关系,此推断犯错误的概率不大于0.001.
(2)(i)依题意,设“答对第道题”;“某同学进入总决赛”,
则,,,
所以
,
依题意,,所以;
(ii)依题意,,,
若最大,则,
解得,因为,所以,
所以取最大值时的值为12.
6.(24-25高三下·云南昆明·阶段练习)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一、从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.3
165.0
204
17.5
42
3.5
6448.3
1901.5
其中.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占,存活天数为1的样本在全体样本中占.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:.
【答案】(1)更适合,
(2)①;②
【难度】0.4
【知识点】错位相减法求和、非线性回归、条件概率性质的应用、递推法求概率
【分析】(1)根据散点图,确定更适合,再利用换元法,以及题中的数据,代入公式求回归方程;
(2)①根据条件概率,以及递推关系,可证明数列是以0.18为首项,0.8为公比的等比数列,再根据分段函数的形式列出解析式;②根据①的结果,列式,再利用错位相减法,即可求解.
【详解】(1)由散点图可知,更适合作为云南省花卉种植面积y关于年份代码x的回归方程类型.
令,所以.
因为,,,,
所以.
所以,
所以.
云南省花卉种植面积y关于年份代码x的回归方程为.
(2)①由题可得,,
当时,,
又,即,
同理可得,当时,,
两式相减得,
即,,,
因为,
所以,当时,是以0.18为首项,0.8为公比的等比数列,
当时,,
所以.
②
,
令,
则,
两式相减得,
,
所以,
则.
【点睛】关键点点睛:本题的关键是由条件概率,以及公式,从而列出数列的递推关系式.
7.(2025·海南·三模)在一个足够大的不透明袋中进行一个轮摸球试验,规则如下:每一轮试验时,袋中均有红、黑、白三种颜色的球,从中随机摸出一个球(摸出的球不再放回),若摸出红球.则试验成功;若摸出白球,则试验失败;若摸出黑球,则进入判定环节:判定时,放回两个黑球取出一个白球,再从中随机摸出一个球,若为白球则试验失败,否则试验成功.若试验成功,则结束试验,若试验失败,则进行下一轮试验,直至成功或轮试验进行完.已知第轮试验开始时,袋中有1个红球,个黑球,个白球.
(1)求第1轮试验成功的概率;
(2)某团队对这个试验进行了一定的研究,请若干志愿者进行了5轮试验,并记录了第轮试验成功志愿者的比例,记,发现与线性相关,求关于的经验回归方程,并预测试验轮数足够大时,试验成功志愿者的比例;
(3)记试验结束时,试验成功的概率为,证明:.
参考数据:.
附:回归方程中斜率和截距的最小二乘估计公式分别为.
【答案】(1)
(2)
(3)证明见解析
【难度】0.4
【知识点】求回归直线方程、互斥事件的概率加法公式、独立事件的乘法公式
【分析】(1)按照试验规则,分别求出直接摸出红球和先摸出黑球且试验成功的概率,然后利用互斥事件概率加法公式求解即可;
(2)先根据给定的回归方程相关公式计算出,从而求出经验回归方程,再根据试验轮数足够大时x的变化趋势预测试验成功志愿者的比例;
(3)通过对试验成功概率的递推关系进行分析,利用放缩法证明即可.
【详解】(1)第1轮试验中有1个红球,1个黑球,2个白球,
摸出红球,即试验成功的概率为,
摸出黑球且试验成功的概率为,
所以第1轮试验成功的概率为;
(2),
所以,则所求经验回归方程为,
当试验轮数足够大,即足够大时,x接近于0,则y接近于,
故预测成功志愿者的比例为;
(3)依题意,轮试验失败的概率为,设第轮试验失败的概率为,
则,发生有两种可能,直接摸出白球,概率为,
或者摸出黑球后再摸出白球,概率为,
所以,
则,因此.
【点睛】关键点点睛:(3)解答的关键在于求出试验失败的概率,然后利用乘法公式及对立事件的概率公式求出试验成功的概率,利用放缩法证明.
8.(2024高三·全国·专题练习)高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)42人
(2)(ⅰ)分布列见解析,(ⅱ)证明见解析,.
【难度】0.4
【知识点】由递推关系证明等比数列、数列新定义、求离散型随机变量的均值
【分析】(1)根据所给的公式,结合代入法进行求解即可;
(2)(ⅰ)根据古典概型运算公式,结合数学期望进行求解即可;
(ⅱ)根据题意列出数列的递推公式,结合等比数列的定义和通项公式、已知定义进行求解即可.
【详解】(1)由已知可得,
.
又因为,
,
所以,
所以,
所以,
当时,,
所以预测第6季度血压明显降低(或治愈)的大约有42人.
(2)(ⅰ)由题知的所有可能取值为0,1,2,
;
;
,
所以的分布列为
0
1
2
所以.
(ⅱ)设经过次挑战后,挑战权在乙、丙组的概率分别为,,
则当时,,,,
由后两个等式相加,得. ①
因为,所以,,
代入①式得,
即,
所以.
因为,,
所以,
所以,
所以数列是首项为,公比为的等比数列,
所以,
即,
所以由,得,即,
所以对任意给定的正数(不论它多么小),总存在正整数(表示不超过的最大整数),使得当时,,
所以数列为“聚点数列”,聚点的值为.
【点睛】关键点点睛:本题的关键是利用题意构造递推数列,结合构造法、已知定义进行求解.
9.(2024高三·全国·专题练习)2024年7月26日,第33届夏季奥林匹克运动会在法国巴黎开幕,足球作为其中的一项团队运动项目,风靡世界,深受大众喜欢,为了解喜爱足球运动是否与性别有关,随机抽取了男性和女性观众各100名进行调查,得到如下列联表.
喜爱足球运动
不喜爱足球运动
合计
男性
60
40
100
女性
30
70
100
合计
90
110
200
(1)判断是否有的把握认为喜爱足球运动与性别有关;
(2)用样本分布的频率估计总体分布的概率,若现在从喜爱足球运动的观众中随机抽取50名,记男性的人数为,求使事件“”概率最大的的取值;
(3)某国家足球队中的甲、乙、丙、丁、戊五名球员将进行传球训练,第1次由甲将球传出,每次传球时,传球者都等可能地将球传给另外四个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记前次传递中球传到乙的次数为,求的数学期望.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:,,.
【答案】(1)有的把握认为喜爱足球运动与性别有关;
(2)或34;
(3).
【难度】0.4
【知识点】求离散型随机变量的均值、服从二项分布的随机变量概率最大问题、独立性检验解决实际问题、由定义判定等比数列
【分析】(1)计算出卡方,与10.828比较得到结论;
(2)利用频率估计概率,从喜爱足球运动的观众中随机抽取一人,其为男性的概率为,可得,根据题意列不等式组得解,利用不等关系确定的取值范围即可得出结论;
(3)根据题意,利用构造法求数列通项,由等比数列的定义即可得到数列为等比数列,然后代入计算,即可得到,最后利用分组求和法即可求得.
【详解】(1)零假设:喜爱足球运动与性别无关.
由题,
根据小概率值的独立性检验,我们推断不成立,
即有的把握认为喜爱足球运动与性别有关.
(2)由题意可得从喜爱足球运动的观众中随机抽取一人,其为男性的概率为,
故,,
令
即
解得,
,或34,
当或34时,有最大值.
(3)设第次传递时,乙接到球的概率和次数分别为与,
则服从两点分布,,
由题可知,
则,
又,,
是首项为,公比为的等比数列,
则,则,
;
故.
【点睛】关键点点睛:在第3小问中,理解第次传递时,乙接到球的概率和次数与的关系,并把转换为数列求通项是解题关键.
【题型六:统计的新定义问题 】
1.(2024·四川南充·一模)今年立秋以后,川渝地区持续性高温登上热搜,引发关注讨论.根据专家推测,主要是由于大陆高压和西太平洋副热带高压呈现非常强大,在高压的控制下,川渝地区上空晴朗少云,在太阳辐射增温和气流下沉增温的共同作用下,两个地区的气温出现了直接攀升的状态.川东北某城市一室内游泳馆,为给顾客更好的体验,推出了A和B两个套餐服务,顾客可自由选择A和B两个套餐之一;该游泳馆在App平台上推出了优惠券活动,下表是App平台统计某周内周一至周六销售优惠券情况.
星期t
1
2
3
4
5
6
销售量y(张)
218
224
230
232
236
90
经计算可得:,,.
(1)因为优惠券销售火爆,App平台在周六时系统出现异常,导致当天顾客购买优惠券数量大幅减少,现剔除周六数据,求y关于t的经验回归方程;
(2)若购买优惠券的顾客选择A套餐的概率为,选择B套餐的概率为,并且A套餐包含两张优惠券,B套餐包含一张优惠券,记App平台累计销售优惠券为n张的概率为,求;
(3)请依据下列定义,解决下列问题:
定义:如果对于任意给定的正数,总存在正整数,使得当时,(a是一个确定的实数),则称数列收敛于a.
运用:记(2)中所得概率的值构成数列.求的最值,并证明数列收敛.
参考公式:,.
【答案】(1)
(2)
(3)最大值为,最小值为,证明见解析
【难度】0.4
【知识点】由递推关系式求通项公式、由递推关系证明等比数列、求回归直线方程、数列新定义
【分析】(1)计算出新数据的相关数值,代入公式求出的值,进而得到y关于t的经验回归方程;
(2)由题意可知,,其中,,构造等比数列,再利用等比数列的通项公式求解;
(3)分为偶数和奇数两种情况讨论,结合指数函数的单调性求解;利用数列收敛的定义,准确推理、运算,即可得证.
【详解】(1)由题意,,,
则,
,
所以y关于t的经验回归方程为.
(2)由题意,可知,,
当时,,即,
又,
所以当时,数列为各项都为1的常数列,
即,
所以,,又,
所以数列为首项为公比为的等比数列,
所以,即.
(3)由(2)知,,
当为偶数时,,且随的增大而减小,
因此的最大值为;
当为奇数时,,且随的增大而增大,
因此的最小值为,
综上所述,的最大值为,最小值为.
对于任意,总存在正整数,其中表示不超过的最大整数,
当时,,
所以数列收敛于.
【点睛】知识方法点睛:与新定义有关的问题的求解策略:
1、通过给出一个新的定义,或约定一种新的运算,或给出几个新模型来创设新问题的情景,要求在阅读理解的基础上,依据题目提供的信息,联系所学的知识和方法,实心信息的迁移,达到灵活解题的目的;
2、遇到新定义问题,应耐心读题,分析新定义的特点,弄清新定义的性质,按新定义的要求,“照章办事”,逐条分析、运算、验证,使得问题得以解决.
2.(23-24高二下·浙江温州·期中)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号
1
2
3
4
5
学习时间x
30
40
50
60
70
数学成绩y
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)答案见解析
(3)答案见解析
【难度】0.4
【知识点】求回归直线方程、相关系数的计算、卡方的计算、根据回归方程进行数据估计
【分析】(1)根据题意分别求出,,代入到相关系数:,求得结果即可;
(2) 知接近1,故与之间具有极强的线性相关关系,根据已知条件代入求解即可,,最后代入即可求得;
(3)计算出与临界值比较可得出周末在校自主学习与成绩进步是否有关.
【详解】(1),,
又的方差为,
,
,
.
(2)由(1)知接近1,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟合:,
,
,故当时,,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.
(3)零假设:周末在校自主学习与成绩进步无关,
根据数据,计算得到:
,
因为,所以依据的独立性检验,可以认为“周末自主学习与成绩进步”有关.
3.(23-24高二下·江苏南京·阶段练习)某学校有甲、乙、丙三家餐厅,分布在生活区的南北两个区域,其中甲、乙餐厅在南区,丙餐厅在北区,各餐厅菜品丰富多样,可以满足学生的不同口味和需求.
性别
就餐区域
合计
南区
北区
男
女
合计
(1)现在对学生性别与在南北两个区域就餐的相关性进行分析,得到下表所示的抽样数据,依据的独立性检验,能否认为在不同区域就餐与学生性别有关联?
(2)张同学选择餐厅就餐时,如果前一天在甲餐厅,那么后一天去甲,乙餐厅的概率均为;如果前一天在乙餐厅,那么后一天去甲,丙餐厅的概率分别为;如果前一天在丙餐厅,那么后一天去甲,乙餐厅的概率均为.张同学第1天就餐时选择甲,乙,丙餐厅的概率分别为.
0.100
0.050
0.025
0.010
2.706
3.841
5.024
6.635
(i)求第2天他去乙餐厅用餐的概率;
(ii)求第天他去甲餐厅用餐的概率.
附:;
【答案】(1)没有关联;
(2)(i);(ii).
【难度】0.4
【知识点】利用全概率公式求概率、独立性检验解决实际问题、卡方的计算、由递推关系证明等比数列
【分析】(1)根据卡方的公式代入计算,与临界值比较,即可求解;
(2)(ⅰ)根据相互独立事件的概率,结合全概率公式即可求解;(ⅱ)根据递推关系,结合等比数列的定义即可求解.
【详解】(1)零假设:在不同区域就餐与学生性别没有关联,
根据表中的数据可得,,
依据的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为在不同区域就餐与学生性别没有关联.
(2)设“第天去甲餐厅用餐”, “第天去乙餐厅用餐”,“第天去丙餐厅用餐”,
则两两独立,,
依题意,,,,
,,,,,
(i)由,结合全概率公式可得,
,
所以张同学第2天去乙餐厅用餐的概率为.
(ii)记第天他去甲,乙,丙餐厅用餐的概率分别为,则,
由全概率公式可得
故①,同理可得②,
③,④,
由①②得,由④可得,
代入②中可得,即,且,
因此数列是首项为,公比为的等比数列,
则,,
于是,当时,,
综上所述,.
【点睛】关键点点睛:本题主要考查了独立性检验问题以及相互独立事件概率与数列结合问题,难度较大,解答本题的关键在于结合递推关系与等比数列的定义求解.
1 / 2
学科网(北京)股份有限公司
$$