解答题04 概率统计(5大题型专项训练)(上海专用)2027年高考数学一轮复习讲练测
2026-06-29
|
2份
|
94页
|
11人阅读
|
0人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | - |
| 年级 | 高三 |
| 章节 | - |
| 类型 | 题集-专项训练 |
| 知识点 | 计数原理与概率统计 |
| 使用场景 | 高考复习-一轮复习 |
| 学年 | 2027-2028 |
| 地区(省份) | 上海市 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 5.50 MB |
| 发布时间 | 2026-06-29 |
| 更新时间 | 2026-06-29 |
| 作者 | 宋老师数学图文制作室 |
| 品牌系列 | 上好课·一轮讲练测 |
| 审核时间 | 2026-06-29 |
| 下载链接 | https://m.zxxk.com/soft/58544572.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
以三年命题规律为纲,构建“基础计算—数据特征—统计推断”三阶训练体系,融合分层抽样、回归分析等双新增考点,强化数学建模与数据分析素养。
**专项设计**
|模块|题量/典例|方法提炼|知识逻辑|
|----|-----------|----------|----------|
|统计图表与抽样|3典例+5变式|分层抽样比例计算、直方图均值公式、中位数区间定位|从样本提取到总体估计的统计推断链|
|概率综合|3典例+4变式|古典概型计数规则、全概率公式拆分、条件概率样本空间缩小|从简单计数到复杂事件概率的递进|
|回归与独立性检验|2典例+6变式|相关系数判定、线性回归方程求解、卡方检验步骤|从变量相关性到因果推断的逻辑建构|
内容正文:
解答题 概率统计
年份
题号
总分值
题干情境
三小问分层考点
设问梯度
核心命题侧重
2024
19
14
校园体育时长与学业成绩调查
(1) 分层抽样,估算总体人数;(2) 频率分布表求样本平均数;(3) 2×2 列联表、卡方独立性检验 + 统计推断
基础计算→数据特征→统计检验
抽样、独立性检验(双新核心)
2025
17
14
城市通勤时长统计数据
(1) 极差、中位数(基础数字特征);(2) 古典概型组合计数;(3) 频率直方图 + 全概率公式综合
基础数字特征→古典概率→全概率拆分
全概率公式、图表数据分析
2026
17
14
工厂环保废气监测数据
(1) 古典概型;(2) 统计图选择(散点图)+ 相关系数解读;(3) 一元线性回归方程择优预测
基础概率→相关性概念→回归建模
散点图、相关系数、线性回归综合
三年稳定命题规律
1.统计模块每年轮换核心载体
2024:分层抽样 + 列联检验;2025:频率直方图 + 数字特征;2026:散点图 + 线性回归,三大统计主干循环考查,无重复载体。
2.概率计算分层难度清晰
第一问基础古典概型保底;第二问进阶条件 / 组合计数;第三问综合全概率、回归预测、卡方推断,为拉分小问。
3.情境本土化、生活化
三类固定背景:校园调查、城市民生通勤、工业环保监测;长文字材料,核心考查提取样本、总体、变量、事件的建模能力。
4.双新增考点全覆盖(上海双新硬性要求)
必考:分层抽样、频率直方图数字特征、相关系数r、线性回归、2×2 独立性检验、全概率公式;
拓展:条件概率、离散型分布列、期望决策、百分位数。
5.概念辨析重于复杂运算
不考高难度排列组合,重点区分:相关≠因果、独立≠互斥、分层抽样比例、散点图适用场景,文字解读占 2–3 分。
题型一 : 统计图表 + 分层抽样基础计算(送分第一问)
【典例1-1】(25-26高二下·上海·期末)某学习小组拟对本校高二年级学生上学路上花费时间(单位:分钟)进行统计调查,随机抽取了男生、女生各10人,按他们上学路上花费时间绘制了如图茎叶图,并将上学路上花费时间划分了时间等级(时间越短等级越小),如下表所示.
花费时间 (分钟)
时间等级
一级
二级
三级
(1)试根据茎叶图,求出这10名女生上学路上花费时间的极差和中位数;
(2)已知高二年级共有200人,若该20个样本数据是以性别分层抽样的方式获取,试根据茎叶图估计全年级上学路上花费时间不超过40分钟的男生人数;
(3)求男生上学路上花费时间的第25百分位数与第50百分位数.
【典例1-2】(24-25高二下·上海·阶段检测)第七届中国国际进口博览会(简称进博会)于11月5日至10日在上海国家会展中心举行.为了解进博会参会者的年龄结构,某机构随机抽取了年龄在15-75岁之间的200名参会者进行调查,并按年龄绘制了频率分布直方图,分组区间为,把年龄落在区间内的人称为"青年人",把年龄落在区间内的人称为"中年人",把年龄落在内的人称为"老年人".
(1)求a的值;
(2)已知落在的平均年龄为59,方差是6;落在的平均年龄为71,方差是5,求两组年龄的总平均数和总方差;
(3)以分层抽样的方式从“青年人”“中年人”“老年人”中抽取10名参会者做进一步访谈,发现其中男性共6人,这6人中有2人是“中年人”.再用抽签法从所抽取的10名参会者中任选2人.设事件:2人均为“中年人”,事件:2人中至少有1人为男性,判断事件与事件是否独立,并说明理由.
读图提取:组距、各组频数、样本总量、分层人数
分层抽样:比例式直接计算,分步约分避免大数运算
直方图均值:组中值 × 对应频率累加,不要漏乘组距
中位数定位:先累计面积,锁定中位数所在区间,列一元一次方程求解
【变式1-1】(25-26高三下·上海徐汇·阶段检测)为了了解某校高三年级学生的体育成绩,随机选取100名学生参加考核,将考核的成绩(满分100分,成绩均为不低于40分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)在考核成绩为,,,的四组学生中,用分层抽样的方法抽取17人,则考核成绩在中的学生应抽取多少人?
(2)若落在学生的平均成绩是54.4,方差是5.2,落在学生的平均成绩为66.4,方差是9.2,求这两组学生成绩的平均数和方差,(结果精确到0.1).
【变式1-2】(25-26高二下·上海杨浦·期末)为了解学生使用图书馆情况,某高中按年级进行分层抽样抽取100名学生,以他们一周使用图书馆的时间(单位:小时)作为样本,调查发现样本中的数据均小于5,这100个数据在各区间内的频数记录如下表(、、、、均为自然数):
使用时间
高一
5
12
3
2
高二
6
16
5
3
4
高三
4
(1)已知该高中三个年级一共有500名学生,其中高一年级有150名学生,求的值;
(2)用区间的中点值给区间内每个数据赋值,估计高二年级学生一周使用图书馆的平均时间;
(3)现从样本中任意抽取1个数据,记事件为“抽到的数据是高二学生的”,记事件为“抽到的数据在”,判断事件和事件是否独立,并说明理由.
【变式1-3】(25-26高二下·上海·期中)义卖活动中,某班举行有奖射击,共有10次机会,每次满分为10(单位:环),成绩满分为100.从参与学生的成绩中抽取部分成绩(所有成绩均为整数,且不小于40,不大于100)作为样本进行统计,将成绩整理后分为六组,绘制如图所示频率分布直方图.
(1)求实数的值;
(2)用分层抽样的方法从成绩在和的学生中选取6人,再从这6人中选取2人送出鼓励奖,求这2人中至少有1人成绩在中的概率;
(3)样本中有10名学生的成绩(记为,,2,…,10)平均值为,标准差.若删除其中的和这两个数据,求剩余8名学生成绩的平均值与方差.
题型二:古典概型 + 条件 / 全概率综合(第二问中档)
【典例2-1】(25-26高二下·上海·期中)一个盒子中装有4张卡片,卡片上分别写有数字1、2、3、4.现从盒子中随机抽取卡片.
(1)若一次抽取3张卡片,事件表示“3张卡片上数字之和大于7”,求;
(2)若第一次抽取1张卡片,放回后再抽取1张卡片,事件表示“两次抽取的卡片上数字之和大于6”,求.
【典例2-2】(25-26高二下·上海静安·期末)某高中学校高一年级有600人,高二年级有400人,高三年级有300人.为了了解该校高中学生课外阅读达标情况,统计该校高中学生每周用于课外阅读的时长.现按照年级分层随机抽取130名学生开展抽样调查.
(1)在这项抽样调查中,总体是什么?样本量是多少?
(2)从高一、高二、高三各年级抽取的学生数分别是多少?
(3)经调查,抽取的高一年级学生中50人课外阅读达标,求从抽取的高一年级学生中随机抽取3人,这3名同学课外阅读全部达标的概率.(结果保留三位小数)
【典例2-3】(25-26高二下·上海闵行·期中)小王,小李参加闯关游戏比赛,该闯关游戏一共两关,且第一关闯关成功与否均参与第二关.若小王,小李第一关闯关成功的概率分别为,,第二关闯关成功的概率分别为,,且两人在闯关过程中互不影响,两关之间互不影响.
(1)若小李第二关闯关成功的概率,求小李恰好有一关闯关成功的概率;
(2)若小王,小李各有一关闯关成功的概率为,小王,小李两关都闯关成功的概率为,求小王,小李两人至少有一人两关都闯关成功的概率.
界定试验:区分有放回(二项)/ 不放回(超几何)
计数工具:有限等可能用组合;分步用乘法原理
分层概率:多渠道发生目标事件,使用全概率拆分
条件概率:固定 A 发生,缩小样本空间再计算
【变式2-1】(25-26高二下·上海黄浦·期末)现有9名学生,其中有5名男生4名女生,若要从中选4人参加一项活动,求
(1)一共有几种选法:
(2)抽取4人中恰好有两名女生的选法有几种:
(3)抽取4人中至少有1名女生的概率.
【变式2-2】(25-26高二下·上海·期中)设m为一个至少为2的正整数.在两个罐子中,各有m个形状和质地均相同的小球,都分别标记为1到m号.现在两个罐子中各任取一个小球,记两球上的数字的乘积可以被m整除的概率为,
(1)当时,求两小球上的数字的乘积为奇数的概率;
(2)求;
(3)若恒成立,且有无数个m可以使得等号成立,求的表达式,并说明理由.
【变式2-3】(25-26高二下·上海浦东新·期中)高二年级14个班级开展5人制足球班赛,赛制采用单场淘汰制,即通过抽签确定每轮比赛对阵安排,每场均分出胜负,胜者晋级下一轮,败者淘汰(其中第二轮比赛会有一支队伍轮空,从而直接晋级),直至决出最后的冠军.同时由于场地与时间限制,每天至多安排两场比赛,若当天安排两场比赛,则两场比赛将同时进行.
(1)若不设三、四名决赛,求按此赛制决出冠军共需要进行的比赛场次;
(2)第一轮比赛对阵安排确定后,体育组打算将本轮比赛安排在4天内进行,若班在该轮比赛时没有其他比赛同时进行,求满足该要求的排法数;
(3)两个班均晋级第二轮比赛,求随机抽签确定对阵安排后,两个班没有相互遭遇的概率;
(4)若本次比赛增设三、四名决赛,且班最终分获本次班赛的冠,亚,季军,现需要从这三支队伍选出5人,组成高二年级足球阵容,要求三支队伍均有人入选,求冠军队入选人数至少两人选法数.
【变式2-4】(25-26高二下·上海·期中)在篮球比赛中,一个赛季结束后,学校球队的成绩为次赢次输;为深入挖掘球队潜力,可研究比赛输赢序列中蕴含的规律,其中一种研究方法是分析输赢的游程情况;游程是指由相同符号组成的连续序列,该序列前后连接的是不同的符号或无符号;游程长度指该连续序列中数据的个数;一个序列中有若干游程,这些游程的总个数记为;假设校篮球队比赛的输赢序列具有个赢的游程,表示第个赢的游程长度,其中,且,则记向量;表示第个赢的游程以前连续输的次数,表示最后一个赢的游程后面输的次数,其中,且,记向量.例如,用表示赢,表示输,当,一个输赢序列记为:这个序列共有7个游程,其中4个赢的游程,故,游程的长度依次为,向量.
(1)已知;写出对应的输赢序列;
(2)已知篮球队的比赛成绩为3次赢,2次输,即,若,请写出所有满足条件的输赢序列,以及对应的向量和;
(3)若篮球队有6次赢,4次输;求具有7个游程的概率;
题型三:离散型随机变量分布列 + 期望方差(第三问高频压轴)
【典例3】(25-26高二下·上海·期末)闵行区2026年3月31日至4月13日的天气预报如图所示.
(1)从3月31日至4月13日某天开始,连续统计三天,求这三天中至少有两天是阵雨的概率;
(2)根据天气预报,该区4月14日的最低气温是9℃,温差是指一段时间内最高温度与最低温度之间的差值,例如3月31日的最高温度为17℃,最低温度为9℃,当天的温差为8℃.记4月1日至4日这4天温差的方差为,4月11日至14日这4天温差的方差为,若,求4月14日天气预报的最高气温(整数);
(3)从3月31日至4月13日中随机抽取两天,用表示一天温差不高于9℃的天数,求的分布列及期望.
有放回、n 次独立重复 → 二项分布,直接套期望公式
总体分两类、不放回抽取 → 超几何分布,不套二项公式
无固定模型(得分、利润)→ 通用离散分布,逐个计算概率
【变式3-1】(25-26高三下·上海·阶段检测)现有5个大小、质地相同的球,分别标上数字1,2,3,4,5.
(1)从中任取三个球,求1号球被取到的概率.
(2)从中有放回地随机取3次,每次取1个球.记为这5个球中至少被取出1次的球的个数,求的数学期望.
【变式3-2】(25-26高二下·上海·期中)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下频率分布表:
每周活动总时长(单位:小时)
频率
0.15
0.25
0.35
0.15
0.1
我们将每天综合体育活动时间不少于2小时的学生定义为“达标学生”,否则为“未达标学生”.(一周按7天进行计算)
(1)已知小明同学是“达标学生”,求他每天综合体育活动时间不少于3小时的概率.
(2)从活动时长在和的学生中,按频率的比例抽取5人进行座谈.若从这5人中随机抽取2人,设为抽取的2人中活动时长在的人数,求的分布列和数学期望.
【变式3-3】(2026·上海·模拟预测)甲,乙两队进行乒乓球双打比赛,规定采用五场三胜制,即先赢得三场比赛的队伍获胜.已知每场比赛甲队获胜的概率为,乙队获胜的概率为,且每场比赛的结果相互独立.
(1)求在甲队获胜的条件下,比赛恰好进行了四场的概率;
(2)记比赛结束时的场数为X,求X的分布列和数学期望.
【变式3-4】(25-26高二下·上海·期中)有两个罐子,罐中放有3个白球和2个黑球,罐中放有5个白球.
(1)若从罐不放回地摸2个球,求恰好摸到一个白球一个黑球的概率;
(2)若从罐不放回地摸2个球,求第二次摸到白球的概率;
(3)现在从两个罐子各摸一个球并交换,这样交换2次后,记罐中黑球的个数为,求的分布列和期望.
【变式3-5】(2026·上海·三模)甲、乙两支球队参加某球类比赛,如果每局比赛甲队获胜的概率为(),乙队获胜的概率为,且每局比赛的结果相互独立.比赛有两种方案,
方案一:采用“三局两胜”制,即累计先胜两局的队最终获胜;
方案二:采用“五局三胜”制,即累计先胜三局的队最终获胜.
(1)当时,采用方案一还是方案二对乙更有利(不用说明理由),并求该方案下乙队最终获胜的概率;
(2)当时,若比赛采用方案二.
①求在甲队最终获胜的条件下,比赛恰好进行了四局的概率;
②若比赛结果为或者时,胜方得3分,负方得0分,比赛结果为时,胜方得2分,负方得1分,求甲队本次比赛的得分的分布及期望
题型四:线性回归 + 相关系数分析(成对数据专项)
【典例4】(25-26高二下·上海·期末)为响应环境保护政策,某工厂引入减排技术,减少工厂周边有害颗粒物的密度.已知2014年到2022年的历史检测数据如下:
年份x
(年)
2014
2015
2016
2017
2018
2019
2020
2021
2022
颗粒物浓度y
101.02
87.02
57.46
21.85
11.76
8.86
5.03
4.63
3.86
4.61
4.46
4.05
3.08
2.46
2.18
1.61
1.53
1.35
记年份为,颗粒物浓度,.某团队建立了两个回归预测模型,并用最小二乘法求得关于的回归方程:①;②,其中是常数,是自然常数,假设.
(1)设和的相关系数为,设和的相关系数为,和在与哪个区间内?从相关系数的角度,模型①和模型②,哪一个更好?请计算并说明理由.
(2)在报告中给出了关于的回归方程:,请根据数据,计算参数K,并预测2026年的颗粒物浓度.(精确到0.01)
【变式4-1】(25-26高二下·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
【变式4-2】(2026·上海奉贤·二模)某工厂生产的某种产品的月产量(单位:千件)与单位成本(单位:元/件)的数据如下:
月份
产量(千件)
单位成本(元/件)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
(1)计算产量与单位成本的相关系数(无需过程);
(2)建立产量与单位成本的回归方程(写出必要的过程):
(3)若该工厂计划7月份生产7千件该产品,则单位成本预计是多少?
附:相关系数的计算公式:;
回归系数计算公式:,
【变式4-3】(25-26高三·上海·二轮复习)某汽车研发公司的工程师为了解一款新型汽车在不同行驶速度x(km/h)下油耗y(L/100km)的变化规律,进行了相关实验,记录不同速度下的油耗数据的散点图如下:
(1)根据散点图求y关于x的经验回归方程(精确到0.01);
(2)根据线性回归方程,绘制残差图,并分析线性回归方程的拟合效果(若残差的平方和小于0.775,则说明拟合效果良好,否则拟合效果较差).
附:,.
【变式4-4】(2025高三上·上海·专题练习)为了了解高中学生课后自主学习时间(分钟/每天)和他们的数学成绩(分)的关系,某实验小组做了调查,得到一些数据(如下图)
编号
1
2
3
4
5
学习时间
30
40
50
60
70
数学成绩
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;(参考数据:,)
(3)基于上述调查,某校提倡学生周末在校自主学习,经过一学期的实施后,抽样调查了220位学生,按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(如下图).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末在校自主学习
25
30
55
合计
60
160
220
附:
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式4-5】(24-25高二下·上海·阶段检测)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【变式4-6】(2025·上海浦东新·三模)某科研活动共进行了5次试验,其数据如表所示:
特征量
第1次
第2次
第3次
第4次
第5次
(1)求成对数据的相关系数;
(2)求特征量关于的回归方程,并据此估算特征量时的值;
(3)设特征量作为随机变量服从正态分布,其中为5次试验中的平均数,为5次试验中的方差.求.(本题所有答数精确到0.01.)
题型五:2×2 列联表 + 独立性检验 + 方案决策(综合压轴)
【典例5】(25-26高二下·上海·期中)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况及其对学生视力的影响,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下表格:
每周活动总时长(单位:小时)
频数
15
25
35
15
10
同时,对这100名学生的视力进行了检查,将视力达到5.0及以上定为“视力良好”,低于5.0定为“视力一般”,得到如下2×2列联表:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
活动时间未达标(低于14小时)
30
合计
100
(1)求正整数、的值;
(2)从活动时长在和的学生中共抽取2名学生,求这两名学生每周活动总时长的差的绝对值超过7小时的概率;
(3)依据的独立性检验,判断是否有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
参考公式及数据:,其中.
,,,.
【变式5-1】(25-26高二下·上海·期中)利用错题去学习是比较高效的学习方法.为了研究学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了60名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
不是每天都整理数学错题人数
22
合计
60
(1)完成上述列联表,并估计本校高三年级学生中不是每天都整理数学错题且数学成绩总评优秀的概率;
(2)根据小概率值的独立性检验,分析数学成绩总评优秀与每天都整理数学错题是否有关联?
附:,其中;
0.10
0.01
0.001
2.706
6.635
10.828
【变式5-2】(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【变式5-3】(2026·上海徐汇·二模)为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房、体育中心)和社区公共运动场(如小区健身点、街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年
中老年
合计
商业健身场馆
60
社区公共运动场
50
合计
80
170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【变式5-4】(25-26高三下·上海宝山·期中)为调查大学数学专业的学生对中华优秀传统文化的了解情况,现对某大学的数学专业学生进行抽样调查.已知被调查的男、女生人数均为(为正整数),得到以下列联表:
(1)调查结果显示有的把握认为该校学生对中华优秀传统文化的了解与性别有关,但没有的把握认为该校学生对中华优秀传统文化的了解与性别有关,求的值;
(2)当时,采用分层抽样的方式在“了解中华优秀传统文化”的学生中抽取10人.
①从这10人中随机抽取3人进行第二次调查,在第二次调查中,已知至少有2名女生被抽到,求抽到男生的概率;
②在“不了解中华优秀传统文化”的男生中再随机抽取人,然后从这人中随机抽取2人.用随机变量表示抽到“了解中华优秀传统文化”的女生人数,若随机变量的数学期望值不小于,求的最大值.
男生
女生
合计
了解
不了解
合计
参考公式:,其中.
参考数据:
0.05
0.025
0.010
0.005
3.841
5.024
6.635
7.879
【变式5-5】(25-26高三上·上海黄浦·期中)某中学为探究“周末使用手机时长是否影响学业成绩”,随机调查100名学生,得到部分统计数据如下表:
学业成绩
使用手机小时
使用手机小时
良好
20
不良好
40
记事件“学业成绩良好且使用手机小时”,事件“学业成绩不良好且使用手机小时”,已知事件的频率是事件的频率的3倍.
(1)求表中的,的值;
(2)记使用手机小时的学生中学业成绩良好的概率为,求的估计值;
(3)根据上述数据,请画出列联表,并判断是否有95%的把握认为“周末使用手机时长”与“学业成绩”有关?请说明理由.
参考数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式5-6】(25-26高三上·上海徐汇·期中)某地同城闪送为了提高服务质量,进行了服务改进,并对服务进行评分.已知服务改进前某天共有1000个订单,其好评率为85%;服务改进后某天共有1500个订单,其中好评订单为1350个.
(1)已知某100个好评订单评分的极差为2,数据如下(其中,是正整数)
服务评分
8.5
9
9.5
10
订单数量
32
13
11
4
求这100个好评订单的第40百分位数.
(2)根据服务改进前后的这两天的订单数据完成下列列联表,并依据的独立性检验,判断订单获得好评与服务改进是否有关.
好评订单
非好评订单
合计
服务改进前
1000
服务改进后
1350
1500
合计
附:,.
1.(2026·上海宝山·三模)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品按分层抽样各抽取20件,然后从这40件产品中随机抽取一件,该产品经检验是二级品,则该产品来自甲机床生产的概率是多少?
(2)能否有的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050
0.010
0.001
3.841
6.635
10.828
2.(2026·上海杨浦·模拟预测)随着科技的飞速发展,人工智能已经逐渐融入我们的日常生活.在教育领域,AI的赋能潜力巨大.为了解教师对AI大模型使用情况,现从用分层随机抽样的方法在上海随机抽取了200名教师,对使用元宝、通义千问、豆包、文心一言四种国产AI大模型的情况统计如下:
使用大模型的种数性别
0
1
2
3
4
男
4
27
23
16
10
女
6
48
27
24
15
在上述样本所有使用3种AI大模型的40人中,统计使用元宝、通义千问、豆包、文心一言的AI大模型人次如下:
大模型种类
元宝
通义千问
豆包
文心一言
人次
32
30
30
28
用频率估计概率.
(1)已知上海约有20000名教师,则其中男性教师约有________人,其中使用4种AI大模型的种数与人数________近似满足正态分布(选填“是”或“否”),下列最不适合用于分析上述表格数据的是( )
A茎叶图 B.散点图 C.频率分布直方图 D.扇形图
(2)从上海教师中随机选取一人,记事件为选取的为男教师,事件为选取的教师仅会使用2种模型,求:,并判断事件和事件是否独立;
(3)从上海使用3种AI大模型(元宝、通义千问、豆包、文心一言中的3种)的教师中,随机选出3人,记使用豆包的有人,求:的分布,及其数学期望,方差.
3.(2026·上海·模拟预测)小新为调查学生数学建模能力的总体水平,随机抽取了100名高中生参加数学建模能力竞赛活动,其中男生40名,女生60名.根据竞赛成绩,将参赛学生数学建模能力分为“优秀”与“合格”两级.
(1)若男生和女生中分别有25名和35名被评为“优秀”,是否有95%的把握认为该地区高中生的数学建模能力优秀与否和性别有关?
(2)经统计,男生成绩的均值为80,方差为49;女生成绩的均值为75,方差为64,求全体参赛学生成绩的均值及方差.
(3)在(2)的条件下,若所有参赛学生的成绩服从正态分布,试估计成绩在范围内的学生人数(四舍五入精确到个位).
参考:①,其中;;
②、、.
4.(2026·上海静安·二模)下表是某品牌净化器的年销售量与年份的统计表.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
年销售量у(万台)
2
3.5
2.5
8
9
(1)用计算器计算净化器的年销售量y关于年份代码x的线性回归方程;(回归系数计算结果保留两位小数)
(2)为了调查A、B两地区人群对该品牌净化器的了解情况,调查机构在A、B两地区的人群中分别进行品牌知晓情况的问卷调查.统计知晓与不知晓的人数,得到如下2×2列联表.
知晓
不知晓
合计
A地区
80
20
100
B地区
40
60
100
合计
120
80
200
试根据表中数据判断A、B两地区的人群对该品牌净化器的知晓情况是否有显著差异.(规定显著水平)
附:关于回归方程,回归系数的计算公式,其中为样本点的中心;的计算公式;
0.05
0.01
0.001
k
3.841
6.635
10.828
5.(2026·上海虹口·三模)我国的制造业增加值自2010年起连续12年位居世界第一,某设备生产企业对现有生产设备进行技术攻坚突破,提高核心竞争力.设备生产的零件的直径为(单位nm).
(1)技术攻坚前,为分析影响零件直径的因素,技术人员测量了某批次零件的直径与三个相关变量:机床转速①、切削深度②和环境湿度③,并计算了直径与这三个变量的相关系数分别为,,.请按照相关性从强到弱对这三个变量进行排序,直接写出排序结果(无需说明理由,用标号①②③表示即可);
(2)现有旧设备生产的零件共7个,其中直径大于的有4个.现从这7个零件中随机抽取2个,记表示取出的零件中直径大于的零件个数,求;
(3)若技术攻坚后新设备生产的零件直径,从生产的同一批零件中随机取出10个零件逐一独立地进行检验,求至多有1个零件小于的概率.(结果精确到0.0001)
参考数据:若,则,.
6.(2026·上海·模拟预测)为助力上海“城市数字化转型”,某社区开展“智慧社区APP使用熟练度”调查,随机抽取该社区120名居民进行评分(满分100分),绘制频率分布直方图(各组区间为、、、、),已知组的频率是 组频率的3倍,组的频数是组频数的2倍,且组的频率为,组的频率为.
(1)求频率分布直方图中、组的频率及组距对应的高度;
(2)求这120名居民评分的平均数(精确到)和中位数;
(3)从评分在的居民中随机抽取3人,记抽取的3人中评分在 的人数为,求的分布列及数学期望.
7.(2026·上海浦东新·三模)某科技公司共有员工人,其中男员工人,女员工人.为推广一款新工作软件,在全体员工中随机抽取人进行调查,得到他们对该软件的接受与否如下表:
接受
不接受
合计
男性
女性
合计
(1)是否有的把握认为该科技公司“性别与是否接受该软件”有关联;
(2)将样本中男性和女性对这款新工作软件各自的接受率作为总体中相应性别的接受率的估计.现从该公司所有员工中随机地取人,设事件为“员工接受该软件”,事件为“员工为女性”.
①求(精确到小数点后位):
②若该员工接受软件,求该员工为女性的概率(精确到小数点后位).
(参考公式:)
8.(2026·上海黄浦·三模)现有除颜色外都相同的个红球和个白球,随机取个球放入一个不透明的袋中,记袋中红球的个数为.从袋中随机摸出一个球,并放入一个另一种颜色的球,经过次摸球,袋中的红球个数记为.
(1)求和;
(2)求;
(3)当时,求随机变量的分布列和数学期望.
9.(2026·上海杨浦·模拟预测)某口罩生产厂商不定时抽查口罩质量、该厂质检人员从某日生产的口罩中随机抽取了100个,将其质量指标值分成以下五组:,得到如下频率分布直方图.规定:口罩的质量指标值越高,说明该口罩质量越好,其中质量指标值低于130的为二级口罩,质量指标值不低于130的为一级口罩.
(1)求:该厂商生产口罩质量指标值的平均数;
(2)若从这批口罩中抽取质量排名前40%的优质口罩送往医院,求:这批口罩中质量指标值的最小值;
(3)现从样本口罩中利用分层抽样的方法随机抽取个口罩,再从中抽取个,记其中一级口罩个数为,求:的分布列及方差;
10.(2026·上海·三模)某企业生产的智能机器人需要用到一种高精度零件,现收到一批零件共有10个,其中不合格的零件占总数的,从中随机抽取3个零件,设抽到的不合格的零件数为.
(1)求的值.小明的求解过程如下:因为不合格的零件占总数的,所以,故.请问以上解答过程是否正确?如果正确,请说明解题依据;如果不正确,请写出正确的解答过程;
(2)对抽取的3个零件进行检测,每个零件的检测费用为10元,每发现1个不合格品,需额外支出25元的处理费用.设本次检测的总费用为元,求随机变量的分布与数学期望.
11.(2026·上海·三模)混养不仅能够提高水产养殖的收益,还可以降低单一放养的病害风险,提高养殖效益.某鱼塘中有A、B两种鱼苗.为了调查这两种鱼苗的所占比例,设计了如下方案:
①在该鱼塘中捕捉50条鱼苗,统计其中鱼苗A的数目,以此作为一次试验的结果;
②在每一次试验结束后将鱼苗放回鱼塘,重复进行这个试验n次(其中),记第i次试验中鱼苗A的数目为随机变量;
③记随机变量,利用的期望和方差进行估算,设该鱼塘中鱼苗A的数目为M,鱼苗B的数目为N,其中,每一次试验都相互独立.
(1)在第一次试验中,若捕捉的50条鱼苗中鱼苗A的数目有20条,记录员逐个不放回的记录鱼苗的种类,求第一次记录的是鱼苗A的条件下,第二次记录的仍是鱼苗A的概率;
(2)请提出一个合理假设,使得服从二项分布:______________________________.
记的实际取值分别为,平均值和方差分别记为、,已知其方差.请用和分别代替和,估算和.(参考公式:,)
12.(2025·上海·三模)某电台举办有奖知识竞答比赛,选手答题规则相同.甲每道题自己有把握独立答对的概率为,若甲自己没有把握答对,则在规定时间内连线亲友团寻求帮助,其亲友团每道题能答对的概率为p,假设每道题答对与否互不影响.
(1)当时,若甲答对了某道题,求该题是甲自己答对的概率;
(2)当时,甲答了4道题,计甲答对题目的个数为随机变量X,求随机变量X的分布列和数学期望;
(3)乙答对每道题的概率为(含亲友团),现甲乙两人各答两个问题,若甲答对题目的个数比乙答对题目的个数多的概率不低于,求甲的亲友团每道题答对的概率p的最小值.
13.(2026·上海杨浦·模拟预测)已知函数.
(1)当 ,求:的取值集合与的最值;
(2)当时,若的最小内角为,的最小内角 ,满足:,求证:当且时 ,若事件:在 上有最大值和一个零点与事件独立,其中事件的概率不为0,当且仅当事件为必然事件.
1.(2024·上海·高考真题)水果分为一级果和二级果,共136箱,其中一级果102箱,二级果34箱.
(1)随机挑选两箱水果,求恰好一级果和二级果各一箱的概率;
(2)进行分层抽样,共抽8箱水果,求一级果和二级果各几箱;
(3)抽取若干箱水果,其中一级果共120个,单果质量平均数为303.45克,方差为603.46;二级果48个,单果质量平均数为240.41克,方差为648.21;求168个水果的方差和平均数,并预估果园中单果的质量.
2.(2026·上海·高考真题)某兴趣班共150人,年龄分布及兴趣爱好统计如下:
年龄
剪纸
摄影
画画
人数
8
45
10
55
6
50
(1)现采用分层抽样抽取30人,其中抽到年龄在岁的有多少人?
(2)该兴趣班150人的平均年龄是多少?
(3)现从150人中任意抽选1人,记抽到的学员年龄在为事件,记抽到学员爱好摄影为事件.事件与是否独立?请说明理由.
3.(2023·上海·高考真题)21世纪汽车博览会在上海2023年6月7日在上海举行,下表为某汽车模型公司共有25个汽车模型,其外观和内饰的颜色分布如下表所示:
红色外观
蓝色外观
米色内饰
8
12
棕色内饰
2
3
(1)若小明从这些模型中随机拿一个模型,记事件A为小明取到的模型为红色外观,事件B取到模型有棕色内饰,求,并据此判断事件A和事件B是否独立;
(2)为回馈客户,该公司举行了一个抽奖活动,并规定,在一次抽奖中,每人可以一次性抽取两个汽车模型。为了得到奖品类型,现作出如下假设:
假设1:每人抽取的两个模型会出现三种结果:①两个模型的外观和内饰均为同色;②两个模型的外观和内饰均为不同色;③两个模型的外观同色但内饰不同色,或内饰同色但外观不同色。
假设2:该抽奖设置三类奖,奖金金额分别为:一等奖600元,二等奖300元,三等奖150元。
假设3:每种抽取的结果都对应一类奖。出现某种结果的概率越小,奖金金额越高。
请判断以上三种结果分别对应几等奖。设中奖的奖金数是,写出的分布,并求的数学期望。
4.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
5.(2025·上海·高考真题)甲、乙是两个体育社团的小组.如下是两组组员身高的茎叶图(单位:厘米),以身高的百位数和十位数作为“茎”排列在中间、个位数作为“叶”分列在两边.
(1)分别求甲、乙两组组员身高的第60百分位数;
(2)从甲、乙两组各选取一个组员,求两人身高均在170厘米以上的概率;
(3)为使两组人数相同,从甲组中调派一个队员到乙组.是否存在甲组的一个组员,将他调派至乙组后,甲、乙两组的平均身高都增大?
6.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
7.(2026·上海·高考真题)某工厂为进行环境保护和改善,对2023年前九年间空气中颗粒物密度和二氧化硫密度进行了监测和记录,数据如下:
颗粒物密度
101.02
87.02
57.47
21.85
11.76
8.86
5.03
4.63
3.86
二氧化硫密度
119.47
81.94
53.20
9.16
6.60
4.40
3.31
3.35
3.86
(1)为进一步研究,从这 9 年间随机抽取一年,该年份颗粒物的密度大于二氧化硫密度的概率是多少?
(2)为研究颗粒物密度与二氧化硫密度的相关性,该工厂应选取茎叶图、扇形图、散点图中的哪一种进行分析,并请你判断相关系数在 ,,哪个区间内?(直接写结论)
(3)2023年前9年的年份()的平均数为 2018,(颗粒物密度) 关于(年份) 的回归方程拟采用,或. 已知2023年实际颗粒物密度为3.88,则哪个回归方程对于2023年的预测值与实际值的差值绝对值更小?
参考数据:
6 / 15
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
解答题 概率统计
年份
题号
总分值
题干情境
三小问分层考点
设问梯度
核心命题侧重
2024
19
14
校园体育时长与学业成绩调查
(1) 分层抽样,估算总体人数;(2) 频率分布表求样本平均数;(3) 2×2 列联表、卡方独立性检验 + 统计推断
基础计算→数据特征→统计检验
抽样、独立性检验(双新核心)
2025
17
14
城市通勤时长统计数据
(1) 极差、中位数(基础数字特征);(2) 古典概型组合计数;(3) 频率直方图 + 全概率公式综合
基础数字特征→古典概率→全概率拆分
全概率公式、图表数据分析
2026
17
14
工厂环保废气监测数据
(1) 古典概型;(2) 统计图选择(散点图)+ 相关系数解读;(3) 一元线性回归方程择优预测
基础概率→相关性概念→回归建模
散点图、相关系数、线性回归综合
三年稳定命题规律
1.统计模块每年轮换核心载体
2024:分层抽样 + 列联检验;2025:频率直方图 + 数字特征;2026:散点图 + 线性回归,三大统计主干循环考查,无重复载体。
2.概率计算分层难度清晰
第一问基础古典概型保底;第二问进阶条件 / 组合计数;第三问综合全概率、回归预测、卡方推断,为拉分小问。
3.情境本土化、生活化
三类固定背景:校园调查、城市民生通勤、工业环保监测;长文字材料,核心考查提取样本、总体、变量、事件的建模能力。
4.双新增考点全覆盖(上海双新硬性要求)
必考:分层抽样、频率直方图数字特征、相关系数r、线性回归、2×2 独立性检验、全概率公式;
拓展:条件概率、离散型分布列、期望决策、百分位数。
5.概念辨析重于复杂运算
不考高难度排列组合,重点区分:相关≠因果、独立≠互斥、分层抽样比例、散点图适用场景,文字解读占 2–3 分。
题型一 : 统计图表 + 分层抽样基础计算(送分第一问)
【典例1-1】(25-26高二下·上海·期末)某学习小组拟对本校高二年级学生上学路上花费时间(单位:分钟)进行统计调查,随机抽取了男生、女生各10人,按他们上学路上花费时间绘制了如图茎叶图,并将上学路上花费时间划分了时间等级(时间越短等级越小),如下表所示.
花费时间 (分钟)
时间等级
一级
二级
三级
(1)试根据茎叶图,求出这10名女生上学路上花费时间的极差和中位数;
(2)已知高二年级共有200人,若该20个样本数据是以性别分层抽样的方式获取,试根据茎叶图估计全年级上学路上花费时间不超过40分钟的男生人数;
(3)求男生上学路上花费时间的第25百分位数与第50百分位数.
【详解】(1)极差为 ,中位数为 ,
故这10名女生上学路上花费时间的极差为37,中位数为29.
(2)高二年级中男生共有 人,由茎叶图知,上学路上花费时间不超过40分钟的男生占,
所以可估计全年级上学路上花费时间不超过40分钟的男生人数为 人.
(3)因为 ,所以第25百分位数即为从小到大排列数中第3个数,即17.
因为 ,所以第50百分位数即为从小到大排列数中第5个与第6个的平均值,即 .
【典例1-2】(24-25高二下·上海·阶段检测)第七届中国国际进口博览会(简称进博会)于11月5日至10日在上海国家会展中心举行.为了解进博会参会者的年龄结构,某机构随机抽取了年龄在15-75岁之间的200名参会者进行调查,并按年龄绘制了频率分布直方图,分组区间为,把年龄落在区间内的人称为"青年人",把年龄落在区间内的人称为"中年人",把年龄落在内的人称为"老年人".
(1)求a的值;
(2)已知落在的平均年龄为59,方差是6;落在的平均年龄为71,方差是5,求两组年龄的总平均数和总方差;
(3)以分层抽样的方式从“青年人”“中年人”“老年人”中抽取10名参会者做进一步访谈,发现其中男性共6人,这6人中有2人是“中年人”.再用抽签法从所抽取的10名参会者中任选2人.设事件:2人均为“中年人”,事件:2人中至少有1人为男性,判断事件与事件是否独立,并说明理由.
【详解】(1)由频率分布直方图,得,
所以.
(2)由频率分布直方图,得年龄在的人数为,
年龄在的人数为,
所以两组年龄的总平均数;
总方差.
(3)中年人的总人数为,老年人的总人数为,
则青年人的总人数为,分层抽样抽取人,抽样比为,
因此抽取得到的青年人有人,中年人有人,老年人有人,抽法总数为,
事件为“人均为中年人”,,,
事件为“2人中至少1人为男性”,其对立事件为“2人均为女性”,,,
事件为“人均为中年人,且至少人为男性”,, ,
,,
因此事件与事件不独立.
读图提取:组距、各组频数、样本总量、分层人数
分层抽样:比例式直接计算,分步约分避免大数运算
直方图均值:组中值 × 对应频率累加,不要漏乘组距
中位数定位:先累计面积,锁定中位数所在区间,列一元一次方程求解
【变式1-1】(25-26高三下·上海徐汇·阶段检测)为了了解某校高三年级学生的体育成绩,随机选取100名学生参加考核,将考核的成绩(满分100分,成绩均为不低于40分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)在考核成绩为,,,的四组学生中,用分层抽样的方法抽取17人,则考核成绩在中的学生应抽取多少人?
(2)若落在学生的平均成绩是54.4,方差是5.2,落在学生的平均成绩为66.4,方差是9.2,求这两组学生成绩的平均数和方差,(结果精确到0.1).
【详解】(1)因为频率分布直方图中,所有矩形的面积和为 1(频率和为 1),组距为 10,
所以 ,所以,解得,
因为:频率 ,人数 ,
:频率 ,人数 ,
:频率 ,人数 ,
:频率 ,人数 ,
四组总人数:,
抽样比为:因此 应抽取人数: 人;
(2)因为与的频率之比为,
又因为落在学生的平均成绩是54.4,方差是5.2,落在学生的平均成绩为66.4,方差是9.2,
所以这两组学生成绩的平均数是,
这两组学生成绩的方差是
【变式1-2】(25-26高二下·上海杨浦·期末)为了解学生使用图书馆情况,某高中按年级进行分层抽样抽取100名学生,以他们一周使用图书馆的时间(单位:小时)作为样本,调查发现样本中的数据均小于5,这100个数据在各区间内的频数记录如下表(、、、、均为自然数):
使用时间
高一
5
12
3
2
高二
6
16
5
3
4
高三
4
(1)已知该高中三个年级一共有500名学生,其中高一年级有150名学生,求的值;
(2)用区间的中点值给区间内每个数据赋值,估计高二年级学生一周使用图书馆的平均时间;
(3)现从样本中任意抽取1个数据,记事件为“抽到的数据是高二学生的”,记事件为“抽到的数据在”,判断事件和事件是否独立,并说明理由.
【详解】(1)由题意,所抽取的100名学生中高一学生人数为人,
所以,可得;
(2)由题意,高二年级学生一周使用图书馆的平均时间为小时;
(3)事件与事件不独立,理由如下:
由题意,,且,
因,则,
所以事件与事件不独立.
【变式1-3】(25-26高二下·上海·期中)义卖活动中,某班举行有奖射击,共有10次机会,每次满分为10(单位:环),成绩满分为100.从参与学生的成绩中抽取部分成绩(所有成绩均为整数,且不小于40,不大于100)作为样本进行统计,将成绩整理后分为六组,绘制如图所示频率分布直方图.
(1)求实数的值;
(2)用分层抽样的方法从成绩在和的学生中选取6人,再从这6人中选取2人送出鼓励奖,求这2人中至少有1人成绩在中的概率;
(3)样本中有10名学生的成绩(记为,,2,…,10)平均值为,标准差.若删除其中的和这两个数据,求剩余8名学生成绩的平均值与方差.
【详解】(1)由题意知,,
解得.
(2)结合频率分布直方图可知,成绩位于与位于的比例为,因此选取的6人中,2人成绩在中,4人成绩在中.
从6人中选取2人的方法数为种,即样本空间中有15个样本点.
至少有1人成绩在中有两种情况:恰有一人成绩在该区间中,共有种;两人成绩都在该区间,共有1种;
根据加法原理,该事件对应的样本空间的子集中有9个样本点.
根据古典概型中概率的定义,该事件发生的概率为.
(3)剩余8人成绩的平均值为.
由10个人成绩的标准差,则,即,
于是剩下8人的成绩的方差为.
题型二:古典概型 + 条件 / 全概率综合(第二问中档)
【典例2-1】(25-26高二下·上海·期中)一个盒子中装有4张卡片,卡片上分别写有数字1、2、3、4.现从盒子中随机抽取卡片.
(1)若一次抽取3张卡片,事件表示“3张卡片上数字之和大于7”,求;
(2)若第一次抽取1张卡片,放回后再抽取1张卡片,事件表示“两次抽取的卡片上数字之和大于6”,求.
【详解】(1)若一次抽取3张卡片,共包含个基本事件,其中事件包含2个基本事件,
所以.
(2)若第一次抽取1张卡片,放回后再抽取1张卡片,共包含个基本事件,
其中事件包含3个基本事件,
所以.
【典例2-2】(25-26高二下·上海静安·期末)某高中学校高一年级有600人,高二年级有400人,高三年级有300人.为了了解该校高中学生课外阅读达标情况,统计该校高中学生每周用于课外阅读的时长.现按照年级分层随机抽取130名学生开展抽样调查.
(1)在这项抽样调查中,总体是什么?样本量是多少?
(2)从高一、高二、高三各年级抽取的学生数分别是多少?
(3)经调查,抽取的高一年级学生中50人课外阅读达标,求从抽取的高一年级学生中随机抽取3人,这3名同学课外阅读全部达标的概率.(结果保留三位小数)
【详解】(1)该高中学校每名学生每周用于课外阅读的时长组成该项抽样调查的总体,样本量是130.
(2)抽取高一年级学生人,高二年级学生人,高三年级学生人.
(3),抽取的这3名同学课外阅读全部达标的概率是0.573.
【典例2-3】(25-26高二下·上海闵行·期中)小王,小李参加闯关游戏比赛,该闯关游戏一共两关,且第一关闯关成功与否均参与第二关.若小王,小李第一关闯关成功的概率分别为,,第二关闯关成功的概率分别为,,且两人在闯关过程中互不影响,两关之间互不影响.
(1)若小李第二关闯关成功的概率,求小李恰好有一关闯关成功的概率;
(2)若小王,小李各有一关闯关成功的概率为,小王,小李两关都闯关成功的概率为,求小王,小李两人至少有一人两关都闯关成功的概率.
【详解】(1)设事件小李第一关闯关成功为事件,第二关闯关成功为事件,
由已知相互独立,且, ,
则,,
设事件小李恰好有一关闯关成功为,则,
所以,
所以,
所以当时,,
所以小李恰好有一关闯关成功的概率为.
(2)设事件小王第一关闯关成功为事件,第二关闯关成功为事件,
则结合(1)知事件相互独立,且,,,,,
因为小王,小李两关都闯关成功的概率为,即,得①,
设事件小王恰好有一关闯关成功为,则,
所以,
由(1)有,
因为小王,小李各有一关闯关成功的概率为,即,得②,
联立①,②得,解得或,
又,所以,,
所以小王两关都闯关成功的概率为,
小李两关都闯关成功的概率为,
所以小王,小李两人至少有一人两关都闯关成功的概率为.
界定试验:区分有放回(二项)/ 不放回(超几何)
计数工具:有限等可能用组合;分步用乘法原理
分层概率:多渠道发生目标事件,使用全概率拆分
条件概率:固定 A 发生,缩小样本空间再计算
【变式2-1】(25-26高二下·上海黄浦·期末)现有9名学生,其中有5名男生4名女生,若要从中选4人参加一项活动,求
(1)一共有几种选法:
(2)抽取4人中恰好有两名女生的选法有几种:
(3)抽取4人中至少有1名女生的概率.
【详解】(1)从名学生中选4人参加一项活动,共有种选法.
(2)从名学生中选4人参加一项活动,恰好有两名女生的选法种数为.
(3)设为:“抽取4人中至少有1名女生” ,则.
【变式2-2】(25-26高二下·上海·期中)设m为一个至少为2的正整数.在两个罐子中,各有m个形状和质地均相同的小球,都分别标记为1到m号.现在两个罐子中各任取一个小球,记两球上的数字的乘积可以被m整除的概率为,
(1)当时,求两小球上的数字的乘积为奇数的概率;
(2)求;
(3)若恒成立,且有无数个m可以使得等号成立,求的表达式,并说明理由.
【详解】(1)由题意,时,抽取一个小球为奇数的概率为,设两小球上的数字的乘积为奇数为
事件A,则,故乘积为奇数的概率为.
(2)设取出两数为,乘积能被10整除的情况可分类计数:
1、至少一个数为10,共有种,
2、两数均不为10,则一个为5,另一个为偶数,共有种,
共计种,故.
(3)由题意,满足两球数字的乘积可以被整除的有序数对个数为,
设,根据题意对所有恒成立,
且无数个使得,
故不妨设取出小球编号为有序数对,,,,m为ab的因数,
当为质数时,由整除可得整除或整除,又因为,
所以,故,
故取,则此时成立;
当m为合数时,必然存在,,使之成立,故,
故此时,故恒成立满足题意,故
【变式2-3】(25-26高二下·上海浦东新·期中)高二年级14个班级开展5人制足球班赛,赛制采用单场淘汰制,即通过抽签确定每轮比赛对阵安排,每场均分出胜负,胜者晋级下一轮,败者淘汰(其中第二轮比赛会有一支队伍轮空,从而直接晋级),直至决出最后的冠军.同时由于场地与时间限制,每天至多安排两场比赛,若当天安排两场比赛,则两场比赛将同时进行.
(1)若不设三、四名决赛,求按此赛制决出冠军共需要进行的比赛场次;
(2)第一轮比赛对阵安排确定后,体育组打算将本轮比赛安排在4天内进行,若班在该轮比赛时没有其他比赛同时进行,求满足该要求的排法数;
(3)两个班均晋级第二轮比赛,求随机抽签确定对阵安排后,两个班没有相互遭遇的概率;
(4)若本次比赛增设三、四名决赛,且班最终分获本次班赛的冠,亚,季军,现需要从这三支队伍选出5人,组成高二年级足球阵容,要求三支队伍均有人入选,求冠军队入选人数至少两人选法数.
【详解】(1)单场淘汰制中,每场比赛淘汰1支队伍,14支队伍决出冠军需淘汰支队伍.
第一轮14支队伍进行场比赛,第二轮7支队伍进行场比赛,第三轮4支队伍进行场比赛,第四轮2支队伍进行场比赛.
所以总场次为.
(2)第一轮共组对阵,A班比赛无同时进行,需单独占用天.
第一步:从天中选天安排A班比赛,有种选法.
第二步:剩余组比赛平均分成组同时进行,分法为.
所以总排法数为.
(3)第二轮共支队伍,抽签规则为选队轮空,剩余队分组对阵.
总对阵安排数:.
A、B两班相互遭遇的安排数:.
相遇概率为,因此未遭遇概率为.
(4)从支队伍选人且每队至少人,冠军队人数至少两人分三类:、、.
第一类:;
第二类:;
第三类:.
所以总选法数为.
【变式2-4】(25-26高二下·上海·期中)在篮球比赛中,一个赛季结束后,学校球队的成绩为次赢次输;为深入挖掘球队潜力,可研究比赛输赢序列中蕴含的规律,其中一种研究方法是分析输赢的游程情况;游程是指由相同符号组成的连续序列,该序列前后连接的是不同的符号或无符号;游程长度指该连续序列中数据的个数;一个序列中有若干游程,这些游程的总个数记为;假设校篮球队比赛的输赢序列具有个赢的游程,表示第个赢的游程长度,其中,且,则记向量;表示第个赢的游程以前连续输的次数,表示最后一个赢的游程后面输的次数,其中,且,记向量.例如,用表示赢,表示输,当,一个输赢序列记为:这个序列共有7个游程,其中4个赢的游程,故,游程的长度依次为,向量.
(1)已知;写出对应的输赢序列;
(2)已知篮球队的比赛成绩为3次赢,2次输,即,若,请写出所有满足条件的输赢序列,以及对应的向量和;
(3)若篮球队有6次赢,4次输;求具有7个游程的概率;
【详解】(1)解:因为,
所以,赢的游程数为,赢的次数,输的次数
根据定义:由得第个赢的游程以前连续输2次,对应序列为;
接着第一个赢游程长度:对应序列为;
然后,第个赢的游程以前连续输1次,对应序列为;
接着第二个赢游程长度:对应序列为;
最后,表示没有输.
所以输赢序列为:
(2)解:由,得所求序列有两个赢的游程,
设,则,,故可能为,,
,则,,
同时,为保证两个赢游程不合并,中间必须有至少一个输,即,故可能为或,
所以,满足条件的输赢顺序及对应向量分别为:
(3)解:篮球队有6次赢,4次输,共10场,即“个,个的排列”,
所以,所有可能的输赢序列共有种,
设赢游程数为,输游程数为,
因为游程总数,且输赢序列交替出现,
所以,且,
所以或,
当时,
将6个赢分成4个非空游程:在6个赢之间的5个空隙中选3个放入隔板,有种;
将4个输分成3个非空游程:在4个输之间的3个空隙中选2个放入隔板,有种,
所以,此序列共有种,
当时,
将6个赢分成3个非空游程:在6个赢之间的5个空隙中选2个放入隔板,有种;
将4个输分成4个非空游程:在4个输之间的3个空隙中选3个放入隔板,有种,
所以,此序列共有种,
所以,满足条件的序列总数有种,
所求概率为,篮球队有6次赢,4次输且具有7个游程的概率为
题型三:离散型随机变量分布列 + 期望方差(第三问高频压轴)
【典例3】(25-26高二下·上海·期末)闵行区2026年3月31日至4月13日的天气预报如图所示.
(1)从3月31日至4月13日某天开始,连续统计三天,求这三天中至少有两天是阵雨的概率;
(2)根据天气预报,该区4月14日的最低气温是9℃,温差是指一段时间内最高温度与最低温度之间的差值,例如3月31日的最高温度为17℃,最低温度为9℃,当天的温差为8℃.记4月1日至4日这4天温差的方差为,4月11日至14日这4天温差的方差为,若,求4月14日天气预报的最高气温(整数);
(3)从3月31日至4月13日中随机抽取两天,用表示一天温差不高于9℃的天数,求的分布列及期望.
【详解】(1)设“从3月31日至4月13日某天开始,连续统计三天,这三天中至少有两天是阵雨”为事件A,
连续统计三天共有12个样本点,事件A共有4个样本点,
所以.
(2)4月1日至4日这4天温差分别为9℃、8℃、9℃、9℃,平均数为,
因此,设4月14日的温差为x℃,
而4月11日至13日这3天温差分别为8℃、9℃、8℃,则平均数 ,
方差,而为整数,则,
所以4月14日这天最高气温是18℃.
(3)从3月31日至4月13日,一天温差不超过9℃的共有11天,高于9℃的共有3天,
的可能取值为0,1,2,
,,,
所以随机变量的分布列为:
0
1
2
随机变量X的期望.
有放回、n 次独立重复 → 二项分布,直接套期望公式
总体分两类、不放回抽取 → 超几何分布,不套二项公式
无固定模型(得分、利润)→ 通用离散分布,逐个计算概率
【变式3-1】(25-26高三下·上海·阶段检测)现有5个大小、质地相同的球,分别标上数字1,2,3,4,5.
(1)从中任取三个球,求1号球被取到的概率.
(2)从中有放回地随机取3次,每次取1个球.记为这5个球中至少被取出1次的球的个数,求的数学期望.
【详解】(1)从5个球中任取3个球的所有取法有种,(种)
若1号球被取到,那么只需从剩下的4个球中再取2个球即可,取法有种
设“1号球被取到”为事件,则.
(2)的所有可能取值为1,2,3,则
,
,
,所以的分布列为
所以.
【变式3-2】(25-26高二下·上海·期中)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下频率分布表:
每周活动总时长(单位:小时)
频率
0.15
0.25
0.35
0.15
0.1
我们将每天综合体育活动时间不少于2小时的学生定义为“达标学生”,否则为“未达标学生”.(一周按7天进行计算)
(1)已知小明同学是“达标学生”,求他每天综合体育活动时间不少于3小时的概率.
(2)从活动时长在和的学生中,按频率的比例抽取5人进行座谈.若从这5人中随机抽取2人,设为抽取的2人中活动时长在的人数,求的分布列和数学期望.
【详解】(1)由题意,一周共7天,达标学生每周累计活动时长不少于小时.
每天活动时间不少于3小时对应每周时长不少于3小时.
设事件为“小明是达标学生”,事件为“小明每天活动时间不少于3小时”.
则:,.
根据条件概率公式,代入得.
(2)活动时长在和的频率比为.
根据该比例抽取5人时,从中抽取5人,从中抽取5人.
随机变量的所有可能取值为,计算对应概率:
,
,
,
因此的分布列如上
X
0
1
2
P
数学期望:.
【变式3-3】(2026·上海·模拟预测)甲,乙两队进行乒乓球双打比赛,规定采用五场三胜制,即先赢得三场比赛的队伍获胜.已知每场比赛甲队获胜的概率为,乙队获胜的概率为,且每场比赛的结果相互独立.
(1)求在甲队获胜的条件下,比赛恰好进行了四场的概率;
(2)记比赛结束时的场数为X,求X的分布列和数学期望.
(2)先确定的取值,并计算相应的概率,列出分布列,根据期望计算公式计算.
【详解】(1)设事件A表示“比赛恰好进行4场”,事件B表示“甲队获胜”.
甲队获胜包含三种情况:
比赛3场甲队获胜,其概率为.
比赛4场甲队获胜,即前3场甲队胜2场,第4场甲队胜,
概率为.
比赛5场甲队获胜,即前4场甲队胜2场,第5场甲队胜,
概率为.
∴甲队获胜的概率为.
甲队获胜且比赛恰好进行了4场的概率为.
∴在甲队获胜的条件下,比赛恰好进行了4场的概率为.
(2)X的可能取值为3,4,5.
;
;
.
∴X分布为
3
4
5
.
【变式3-4】(25-26高二下·上海·期中)有两个罐子,罐中放有3个白球和2个黑球,罐中放有5个白球.
(1)若从罐不放回地摸2个球,求恰好摸到一个白球一个黑球的概率;
(2)若从罐不放回地摸2个球,求第二次摸到白球的概率;
(3)现在从两个罐子各摸一个球并交换,这样交换2次后,记罐中黑球的个数为,求的分布列和期望.
【详解】(1)所求概率为;
(2)根据全概率公式知第二次摸到白球的概率为;
(3)的取值为0,1,2,
则,
,
,
则的分布列为:
期望.
【变式3-5】(2026·上海·三模)甲、乙两支球队参加某球类比赛,如果每局比赛甲队获胜的概率为(),乙队获胜的概率为,且每局比赛的结果相互独立.比赛有两种方案,
方案一:采用“三局两胜”制,即累计先胜两局的队最终获胜;
方案二:采用“五局三胜”制,即累计先胜三局的队最终获胜.
(1)当时,采用方案一还是方案二对乙更有利(不用说明理由),并求该方案下乙队最终获胜的概率;
(2)当时,若比赛采用方案二.
①求在甲队最终获胜的条件下,比赛恰好进行了四局的概率;
②若比赛结果为或者时,胜方得3分,负方得0分,比赛结果为时,胜方得2分,负方得1分,求甲队本次比赛的得分的分布及期望
【详解】(1)当时,每局比赛乙队获胜的概率为,
采用方案一,三局两胜制下乙获胜分两种情况:胜和胜,
因此乙队最终获胜的概率;
采用方案二,五局三胜制下乙获胜分三种情况:胜、胜和胜,
因此乙队最终获胜的概率,
而,所以采用方案一对乙更有利,乙队最终获胜的概率.
(2)①当时,甲队最终获胜的事件为,五局三胜制下甲获胜分三种情况:胜、胜和胜,
,
比赛恰好进行了四局的事件为,则,
所以求在甲队最终获胜的条件下,比赛恰好进行了四局的概率为.
②甲队得分的所有可能取值为,
,即乙以或胜甲,;
,即乙以胜甲,;
,即甲以胜乙,;
,即甲以或胜乙,,
所以的分布为
0
1
2
3
期望.
题型四:线性回归 + 相关系数分析(成对数据专项)
【典例4】(25-26高二下·上海·期末)为响应环境保护政策,某工厂引入减排技术,减少工厂周边有害颗粒物的密度.已知2014年到2022年的历史检测数据如下:
年份x
(年)
2014
2015
2016
2017
2018
2019
2020
2021
2022
颗粒物浓度y
101.02
87.02
57.46
21.85
11.76
8.86
5.03
4.63
3.86
4.61
4.46
4.05
3.08
2.46
2.18
1.61
1.53
1.35
记年份为,颗粒物浓度,.某团队建立了两个回归预测模型,并用最小二乘法求得关于的回归方程:①;②,其中是常数,是自然常数,假设.
(1)设和的相关系数为,设和的相关系数为,和在与哪个区间内?从相关系数的角度,模型①和模型②,哪一个更好?请计算并说明理由.
(2)在报告中给出了关于的回归方程:,请根据数据,计算参数K,并预测2026年的颗粒物浓度.(精确到0.01)
【详解】(1)年份递增时,颗粒物浓度递减,故与负相关,;
,递减时同步递减,故与负相关,.
令,则,,
计算得,,,,
根据相关系数公式: ,
,
由于,说明与的线性相关性更强,因此模型②的拟合效果更好.
(2)对回归方程两边取自然对数得:,
即,回归直线过样本中心点,
将,代入得: , 解得,
因此,则 ,
2026年对应,代入回归方程得:
.
【变式4-1】(25-26高二下·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
【详解】(1)由表格中的数据可得,,
,
,
,
则,
由相关系数,可以推断入园游客量与活动开展第天相关程度很强.
(2),,
故经验回归方程为.
对于表中第个观测,入园游客量为(百人),
预测值为(百人),残差为(百人)
(3)记从通道入园的事件为,从通道离园的事件为,
由题意可得,,,,
.
【变式4-2】(2026·上海奉贤·二模)某工厂生产的某种产品的月产量(单位:千件)与单位成本(单位:元/件)的数据如下:
月份
产量(千件)
单位成本(元/件)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
(1)计算产量与单位成本的相关系数(无需过程);
(2)建立产量与单位成本的回归方程(写出必要的过程):
(3)若该工厂计划7月份生产7千件该产品,则单位成本预计是多少?
附:相关系数的计算公式:;
回归系数计算公式:,
【详解】(1)根据相关系数的公式,
由表格数据可得,,,
,,
于是.
(2)设回归直线方程为,
根据公式可得,
,
故回归直线方程为;
(3)根据(2)可知,,
当时,,
所以预计成本是元/件.
【变式4-3】(25-26高三·上海·二轮复习)某汽车研发公司的工程师为了解一款新型汽车在不同行驶速度x(km/h)下油耗y(L/100km)的变化规律,进行了相关实验,记录不同速度下的油耗数据的散点图如下:
(1)根据散点图求y关于x的经验回归方程(精确到0.01);
(2)根据线性回归方程,绘制残差图,并分析线性回归方程的拟合效果(若残差的平方和小于0.775,则说明拟合效果良好,否则拟合效果较差).
附:,.
【详解】(1)由图得,,
则,
故,
则y关于x的经验回归方程为.
(2)结合(1),计算得残差如下表:
行驶速度
60
70
80
90
100
110
油耗实际值
7.5
6.8
6.2
5.7
5.4
5
油耗估计值
7.35
6.85
6.35
5.85
5.35
4.85
残差
0.15
0.05
0.15
因此残差分布图如下:
因为,
所以经验回归方程的拟合效果较好.
【变式4-4】(2025高三上·上海·专题练习)为了了解高中学生课后自主学习时间(分钟/每天)和他们的数学成绩(分)的关系,某实验小组做了调查,得到一些数据(如下图)
编号
1
2
3
4
5
学习时间
30
40
50
60
70
数学成绩
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;(参考数据:,)
(3)基于上述调查,某校提倡学生周末在校自主学习,经过一学期的实施后,抽样调查了220位学生,按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(如下图).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末在校自主学习
25
30
55
合计
60
160
220
附:
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)由题所给数据可得,
,
,
,
,
所以
.
(2)由(1)知相关系数接近,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟合;
所以,,
所以,当时,,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为分.
(3)零假设为学生周末在校自主学习与成绩进步无关.
根据数据,计算得到,
所以依据的独立性检验,可以认为“周末在校自主学习与成绩进步”有关.
【变式4-5】(24-25高二下·上海·阶段检测)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
【变式4-6】(2025·上海浦东新·三模)某科研活动共进行了5次试验,其数据如表所示:
特征量
第1次
第2次
第3次
第4次
第5次
(1)求成对数据的相关系数;
(2)求特征量关于的回归方程,并据此估算特征量时的值;
(3)设特征量作为随机变量服从正态分布,其中为5次试验中的平均数,为5次试验中的方差.求.(本题所有答数精确到0.01.)
【详解】(1)由条件可知,,,
,
,
,
所以;
(2),
,
所以,
当时,;
(3),所以,,
,,
所以.
题型五:2×2 列联表 + 独立性检验 + 方案决策(综合压轴)
【典例5】(25-26高二下·上海·期中)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况及其对学生视力的影响,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下表格:
每周活动总时长(单位:小时)
频数
15
25
35
15
10
同时,对这100名学生的视力进行了检查,将视力达到5.0及以上定为“视力良好”,低于5.0定为“视力一般”,得到如下2×2列联表:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
活动时间未达标(低于14小时)
30
合计
100
(1)求正整数、的值;
(2)从活动时长在和的学生中共抽取2名学生,求这两名学生每周活动总时长的差的绝对值超过7小时的概率;
(3)依据的独立性检验,判断是否有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
参考公式及数据:,其中.
,,,.
【详解】(1)由每周活动总时长频数分布表可知:活动时间达标(不少于14小时)的人数为:;活动时间未达标(低于14小时)的人数为:.由列联表,达标人数为,未达标人数为.
因此,,.
所以,.
(2)活动时长在的学生有15人,在的学生有10人,共25人.从这25人中任取2人,总的基本事件数为:.
“差的绝对值超过7小时”意味着两个人分别来自和,有利事件数为:,所以所求概率为:.
(3)由(1)得,,完整的列联表为:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
20
60
活动时间未达标(低于14小时)
10
30
40
合计
50
50
100
所以,因为,所以有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
【变式5-1】(25-26高二下·上海·期中)利用错题去学习是比较高效的学习方法.为了研究学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了60名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
不是每天都整理数学错题人数
22
合计
60
(1)完成上述列联表,并估计本校高三年级学生中不是每天都整理数学错题且数学成绩总评优秀的概率;
(2)根据小概率值的独立性检验,分析数学成绩总评优秀与每天都整理数学错题是否有关联?
附:,其中;
0.10
0.01
0.001
2.706
6.635
10.828
【详解】(1)完善列联表,如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
30
不是每天都整理数学错题人数
8
22
30
合计
28
32
60
估计不是每天都整理数学错题且数学成绩总评优秀的概率约为;
(2)零假设:数学成绩总评优秀与每天都整理数学错题无关联,
利用(1)中数据,得,
根据小概率值的独立性检验,可以判断不成立,
所以数学成绩总评优秀与每天都整理数学错题有关联.
【变式5-2】(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【详解】(1)由题意可得,线性回归方程必过样本中心点,
代入可得,,
所以线性回归方程.
当时,,
预测该路口7月份不“礼让行人”违规驾驶人次为人次.
(2)已知不“礼让行人”违规驾驶的共计50人次,所以①,
抽查总人数为人,所以“礼让行人”的总人数为人,
②.
补充完整列联表如下:
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
根据列联表数据,计算的观测值
,
因为,
所以不能认为“礼让行人”行为与驾龄有关.
【变式5-3】(2026·上海徐汇·二模)为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房、体育中心)和社区公共运动场(如小区健身点、街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年
中老年
合计
商业健身场馆
60
社区公共运动场
50
合计
80
170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【详解】(1)根据已知数据计算空缺值,得到完整列联表如下:
青壮年
中老年
合计
商业健身场馆
60
40
100
社区公共运动场
20
50
70
合计
80
90
170
因为,
因此有95%的把握认为年龄与居民健身场所的选择有关.
(2)选择社区公共运动场的居民共70人,其中青壮年20人、中老年50人,抽样比为,
因此抽取的样本中青壮年人数:,中老年人数:.
设抽取的7人中中老年人数为,则青壮年人数为,.
因为青壮年共4人,故,解得,又,
因此,对应的可能取值为.
总情况数为,
(对应或)时,,
(对应)时,,
(对应)时,,
(对应)时,,
因此,的分布列为:
1
3
5
7
所以
【变式5-4】(25-26高三下·上海宝山·期中)为调查大学数学专业的学生对中华优秀传统文化的了解情况,现对某大学的数学专业学生进行抽样调查.已知被调查的男、女生人数均为(为正整数),得到以下列联表:
(1)调查结果显示有的把握认为该校学生对中华优秀传统文化的了解与性别有关,但没有的把握认为该校学生对中华优秀传统文化的了解与性别有关,求的值;
(2)当时,采用分层抽样的方式在“了解中华优秀传统文化”的学生中抽取10人.
①从这10人中随机抽取3人进行第二次调查,在第二次调查中,已知至少有2名女生被抽到,求抽到男生的概率;
②在“不了解中华优秀传统文化”的男生中再随机抽取人,然后从这人中随机抽取2人.用随机变量表示抽到“了解中华优秀传统文化”的女生人数,若随机变量的数学期望值不小于,求的最大值.
男生
女生
合计
了解
不了解
合计
参考公式:,其中.
参考数据:
0.05
0.025
0.010
0.005
3.841
5.024
6.635
7.879
【详解】(1)被调查的男女生人数均为,其中男生中不了解的有,则了解的有,
其中女生中了解的有,则不了解的有,
则可得列联表如下所示:
男生
女生
合计
了解
不了解
合计
因,
由题意,可知,又,可得;
(2)①当时,了解中华优秀传统文化的男生有人,女生有人,
则采用分层抽样时,在男生中抽取人,女生中抽取人,
再从这10人中随机抽取3人进行第二次调查,
记“至少有2名女生被抽到”为事件A,“抽到男生”为事件B,
则;
②根据题意可知这人中有4人是了解中华优秀传统文化的女生,
随机抽取2人,随机变量的取值为,
,
则,
依题意,由,解得,
所以的最大值为.
【变式5-5】(25-26高三上·上海黄浦·期中)某中学为探究“周末使用手机时长是否影响学业成绩”,随机调查100名学生,得到部分统计数据如下表:
学业成绩
使用手机小时
使用手机小时
良好
20
不良好
40
记事件“学业成绩良好且使用手机小时”,事件“学业成绩不良好且使用手机小时”,已知事件的频率是事件的频率的3倍.
(1)求表中的,的值;
(2)记使用手机小时的学生中学业成绩良好的概率为,求的估计值;
(3)根据上述数据,请画出列联表,并判断是否有95%的把握认为“周末使用手机时长”与“学业成绩”有关?请说明理由.
参考数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)由样本容量为,得,即.
又事件A的频率是事件B的频率的3倍,所以,即.
故,.
(2)因为在样本中用手机小时的学生中学业成绩良好的频率为,
根据用样本频率估计总体频率,估计总体中用手机小时的学生中学业成绩良好的频率为,
再由频率估计概率,故用手机小时的学生中学业成绩良好的概率为.
故的估计值为.
(3)设假设:周末使用手机时长与学业成绩相互独立.由题得列联表:
学业成绩
使用手机小时
使用手机小时
合计
良好
30
20
50
不良好
10
40
50
合计
40
60
100
可知,,,,,.
所以
故假设不成立,有95%的把握认为“周末使用手机时长”与“学业成绩”有关
【变式5-6】(25-26高三上·上海徐汇·期中)某地同城闪送为了提高服务质量,进行了服务改进,并对服务进行评分.已知服务改进前某天共有1000个订单,其好评率为85%;服务改进后某天共有1500个订单,其中好评订单为1350个.
(1)已知某100个好评订单评分的极差为2,数据如下(其中,是正整数)
服务评分
8.5
9
9.5
10
订单数量
32
13
11
4
求这100个好评订单的第40百分位数.
(2)根据服务改进前后的这两天的订单数据完成下列列联表,并依据的独立性检验,判断订单获得好评与服务改进是否有关.
好评订单
非好评订单
合计
服务改进前
1000
服务改进后
1350
1500
合计
附:,.
【详解】(1)根据题意,这100个好评订单评分的极差为2,
因此,解得,
又有,解得,
因为,
所以这100个好评订单的第40百分位数为服务评分按从小到大的顺序排列后的第40个订单和第41个订单服务评分的平均数,即.
故这100个好评订单的第40百分位数为8.25.
(2)根据题意,服务改进前好评订单的数量为,由此可得列联表如下:
好评订单
非好评订单
合计
服务改进前
850
150
1000
服务改进后
1350
150
1500
合计
2200
300
2500
零假设:订单获得好评与服务改进无关,
,
所以根据小概率值的独立性检验,我们推断不成立,
即订单获得好评与服务改进有关,该推断犯错误的概率不超过0.05.
1.(2026·上海宝山·三模)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品按分层抽样各抽取20件,然后从这40件产品中随机抽取一件,该产品经检验是二级品,则该产品来自甲机床生产的概率是多少?
(2)能否有的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050
0.010
0.001
3.841
6.635
10.828
【详解】(1)甲机床抽取的一级品15件,二级品5件,乙机床抽取的一级品12件,二级品8件,
设件产品中,抽取的产品是甲机床生产的产品为事件,则,
抽取的产品是二级品为事件,则,
故,
因此,抽取的二级品为甲机床生产的概率.
(2)提出原假设:甲机床的产品质量与乙机床的产品质量没有差异
确定显著性水平,计算的值:
统计决策:,而值超过了所确定的界限,
故否定原假设,即有的把握认为甲机床的产品质量与乙机床的产品质量有差异.
2.(2026·上海杨浦·模拟预测)随着科技的飞速发展,人工智能已经逐渐融入我们的日常生活.在教育领域,AI的赋能潜力巨大.为了解教师对AI大模型使用情况,现从用分层随机抽样的方法在上海随机抽取了200名教师,对使用元宝、通义千问、豆包、文心一言四种国产AI大模型的情况统计如下:
使用大模型的种数性别
0
1
2
3
4
男
4
27
23
16
10
女
6
48
27
24
15
在上述样本所有使用3种AI大模型的40人中,统计使用元宝、通义千问、豆包、文心一言的AI大模型人次如下:
大模型种类
元宝
通义千问
豆包
文心一言
人次
32
30
30
28
用频率估计概率.
(1)已知上海约有20000名教师,则其中男性教师约有________人,其中使用4种AI大模型的种数与人数________近似满足正态分布(选填“是”或“否”),下列最不适合用于分析上述表格数据的是( )
A茎叶图 B.散点图 C.频率分布直方图 D.扇形图
(2)从上海教师中随机选取一人,记事件为选取的为男教师,事件为选取的教师仅会使用2种模型,求:,并判断事件和事件是否独立;
(3)从上海使用3种AI大模型(元宝、通义千问、豆包、文心一言中的3种)的教师中,随机选出3人,记使用豆包的有人,求:的分布,及其数学期望,方差.
【详解】(1)由题意可得,用分层随机抽样的方法在上海随机抽取了200名教师中男教师的概率为,
所以上海约有20000名教师,则其中男性教师约有人,
因为使用AI大模型人数分布不是连续分布,
故使用4种AI大模型的种数与人数不近似满足正态分布,答案填否;
四种统计图特点:
茎叶图:能直接看到每一个具体数据值,不会丢失细节信息,适用于小样本数据的快速探索性分析;
散点图:分析两个变量的关联,核心作用是反映两个变量之间的相关性和变化趋势;
频率分布直方图:能清晰呈现数据的分布特征,直观反映数据的集中区间和离散程度,适用于大样本数据的分布分析;
扇形图:用扇形面积占圆面积的比例,直观表示各部分占总体的百分比;
所以最不适合用于分析上述表格数据的是茎叶图;
(2)由题设可得,,
故.
因为,故不独立;
(3)从该地区中使用3中大模型教师中任取一名教师,该教师使用豆包的概率为,
由题设可取且,
故,,
,,
故的分布列如下:
故;.
3.(2026·上海·模拟预测)小新为调查学生数学建模能力的总体水平,随机抽取了100名高中生参加数学建模能力竞赛活动,其中男生40名,女生60名.根据竞赛成绩,将参赛学生数学建模能力分为“优秀”与“合格”两级.
(1)若男生和女生中分别有25名和35名被评为“优秀”,是否有95%的把握认为该地区高中生的数学建模能力优秀与否和性别有关?
(2)经统计,男生成绩的均值为80,方差为49;女生成绩的均值为75,方差为64,求全体参赛学生成绩的均值及方差.
(3)在(2)的条件下,若所有参赛学生的成绩服从正态分布,试估计成绩在范围内的学生人数(四舍五入精确到个位).
参考:①,其中;;
②、、.
【详解】(1)提出零假设:该地区高中生的数学建模能力优秀与否和性别无关,
显著性水平,
计算,
因为,所以接受原假设,
即没有95%的把握认为该地区高中生的数学建模能力优秀与否和性别有关;
(2),
故;
(3)由(2),得,
设,则,
故,
故成绩在范围内的学生约为82人.
4.(2026·上海静安·二模)下表是某品牌净化器的年销售量与年份的统计表.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
年销售量у(万台)
2
3.5
2.5
8
9
(1)用计算器计算净化器的年销售量y关于年份代码x的线性回归方程;(回归系数计算结果保留两位小数)
(2)为了调查A、B两地区人群对该品牌净化器的了解情况,调查机构在A、B两地区的人群中分别进行品牌知晓情况的问卷调查.统计知晓与不知晓的人数,得到如下2×2列联表.
知晓
不知晓
合计
A地区
80
20
100
B地区
40
60
100
合计
120
80
200
试根据表中数据判断A、B两地区的人群对该品牌净化器的知晓情况是否有显著差异.(规定显著水平)
附:关于回归方程,回归系数的计算公式,其中为样本点的中心;的计算公式;
0.05
0.01
0.001
k
3.841
6.635
10.828
【详解】(1)由表可知,样本中心 为:
.
.则 .
所以,净化器的年销售量 关于年份代码 的线性回归方程为:.
(2)根据 列联表中的数据,计算 的观测值:
.
因为 ,
所以,在犯错误的概率不超过 0.05 的前提下,认为 A、B 两地区的人群对该品牌净化器的知晓情况有显著差异.
5.(2026·上海虹口·三模)我国的制造业增加值自2010年起连续12年位居世界第一,某设备生产企业对现有生产设备进行技术攻坚突破,提高核心竞争力.设备生产的零件的直径为(单位nm).
(1)技术攻坚前,为分析影响零件直径的因素,技术人员测量了某批次零件的直径与三个相关变量:机床转速①、切削深度②和环境湿度③,并计算了直径与这三个变量的相关系数分别为,,.请按照相关性从强到弱对这三个变量进行排序,直接写出排序结果(无需说明理由,用标号①②③表示即可);
(2)现有旧设备生产的零件共7个,其中直径大于的有4个.现从这7个零件中随机抽取2个,记表示取出的零件中直径大于的零件个数,求;
(3)若技术攻坚后新设备生产的零件直径,从生产的同一批零件中随机取出10个零件逐一独立地进行检验,求至多有1个零件小于的概率.(结果精确到0.0001)
参考数据:若,则,.
【详解】(1)相关系数绝对值越大,相关性越强,因此从强到弱的排序为:②①③;
(2)由题意的值可能为:,
,,,
所以,,
所以;
(3)由已知,,,,
,则,
,
记“从生产的零件中随机取出10个,至多有一个零件直径小于”为事件,
则.
6.(2026·上海·模拟预测)为助力上海“城市数字化转型”,某社区开展“智慧社区APP使用熟练度”调查,随机抽取该社区120名居民进行评分(满分100分),绘制频率分布直方图(各组区间为、、、、),已知组的频率是 组频率的3倍,组的频数是组频数的2倍,且组的频率为,组的频率为.
(1)求频率分布直方图中、组的频率及组距对应的高度;
(2)求这120名居民评分的平均数(精确到)和中位数;
(3)从评分在的居民中随机抽取3人,记抽取的3人中评分在 的人数为,求的分布列及数学期望.
【详解】(1)因为[50,60)组的频率为,[70,80)组的频率是[50,60)组频率的3倍,
所以[70,80)组的频率为;
又因为[60,70)组的频率为,所以频数为,
因为[80,90)组的频数是[60,70)组频数的2倍,
所以[80,90)组的频数为,频率为,
所以[70,80)组的高度为;[80,90)组的高度为.
(2)由(1)知:组的频率为,
平均数:因为各组组中值分别为55、65、75、85、95,
所以平均数,
中位数:设中位数为,
累计频率:组累计频率为,
而组频率为,组频率为,
所以组累计频率为,故中位数为,位于组.
(3)组频数:,
组频数:,
组频数:,
所以的可能取值为,服从超几何分布,
,,,,
所以的分布列为
0
1
2
3
数学期望.
7.(2026·上海浦东新·三模)某科技公司共有员工人,其中男员工人,女员工人.为推广一款新工作软件,在全体员工中随机抽取人进行调查,得到他们对该软件的接受与否如下表:
接受
不接受
合计
男性
女性
合计
(1)是否有的把握认为该科技公司“性别与是否接受该软件”有关联;
(2)将样本中男性和女性对这款新工作软件各自的接受率作为总体中相应性别的接受率的估计.现从该公司所有员工中随机地取人,设事件为“员工接受该软件”,事件为“员工为女性”.
①求(精确到小数点后位):
②若该员工接受软件,求该员工为女性的概率(精确到小数点后位).
(参考公式:)
【详解】(1)提出原假设:“性别与是否接受该软件”无关
计算
由于,而,
因此没有95的把握认为该科技公司“性别与是否接受该软件”有关联.
(2)①由题意,,则,
,,
因此
②由题意,.
8.(2026·上海黄浦·三模)现有除颜色外都相同的个红球和个白球,随机取个球放入一个不透明的袋中,记袋中红球的个数为.从袋中随机摸出一个球,并放入一个另一种颜色的球,经过次摸球,袋中的红球个数记为.
(1)求和;
(2)求;
(3)当时,求随机变量的分布列和数学期望.
【详解】(1)因为表示从 个红球和个白球随机取个球的红球个数,所以服从超几何分布,
表示抽取的个球全为白球,故.
表示抽取的个球有个红球、个白球,故.
(2)由题意,的所有可能取值为,由(1)知,,
同理得,.
当时,袋中全为白球,摸出白球换为红球后,红球的个数为,则,故;
当时,袋中红白球,摸到红球换白球后,红球的个数为,则,
摸到白球换红球后,红球的个数为,则,故;
当时,袋中红白球,摸到红球换白球后,红球的个数为,则,
摸到白球换红球后,红球的个数为,则,故;
当时,袋中全为红球,摸出红球换为白球后,红球的个数为,则,故;
因此,由全概率公式:
(3)当时,袋中红白球,
第一次摸换后的可能取值为,其中(摸出红球换为白球),(摸出白球换为红球).
第二次摸换后的可能取值为:
,
故的分布列为:
因此,数学期望。
9.(2026·上海杨浦·模拟预测)某口罩生产厂商不定时抽查口罩质量、该厂质检人员从某日生产的口罩中随机抽取了100个,将其质量指标值分成以下五组:,得到如下频率分布直方图.规定:口罩的质量指标值越高,说明该口罩质量越好,其中质量指标值低于130的为二级口罩,质量指标值不低于130的为一级口罩.
(1)求:该厂商生产口罩质量指标值的平均数;
(2)若从这批口罩中抽取质量排名前40%的优质口罩送往医院,求:这批口罩中质量指标值的最小值;
(3)现从样本口罩中利用分层抽样的方法随机抽取个口罩,再从中抽取个,记其中一级口罩个数为,求:的分布列及方差;
【详解】(1)该厂商生产口罩质量指标值的平均数为:
.
(2)由题设可得该质量指标的最小值即质量指标值的第60百分位数
因为,
故第百分位数落在内,设其为,
则,
解得:,故第百分位数为.
(3)一级口罩与二级口罩的个数比为,
现从样本口罩中利用分层抽样的方法随机抽取8个口罩,
则:一级口罩有个,二级口罩有个,
再从中抽取3个,记其中一级口罩个数为,的可能取值为,
又,,,
故的分布列如下:
数学期望为,
方差为.
10.(2026·上海·三模)某企业生产的智能机器人需要用到一种高精度零件,现收到一批零件共有10个,其中不合格的零件占总数的,从中随机抽取3个零件,设抽到的不合格的零件数为.
(1)求的值.小明的求解过程如下:因为不合格的零件占总数的,所以,故.请问以上解答过程是否正确?如果正确,请说明解题依据;如果不正确,请写出正确的解答过程;
(2)对抽取的3个零件进行检测,每个零件的检测费用为10元,每发现1个不合格品,需额外支出25元的处理费用.设本次检测的总费用为元,求随机变量的分布与数学期望.
【详解】(1)小明的解答不正确,正确的解答过程如下:
根据题意,这个零件中是有个不合格零件,个合格零件,
则从这个零件中抽到个不合格零件与个合格零件的方法数是种,
因此.
(2)由于随机变量表示抽到的不合格的零件数,可能取值为,而对于每个的值,总费用,
因此随机变量的可能取值为,,,
由于,,,
因此,,,
所以随机变量的分布列为:
数学期望为.
11.(2026·上海·三模)混养不仅能够提高水产养殖的收益,还可以降低单一放养的病害风险,提高养殖效益.某鱼塘中有A、B两种鱼苗.为了调查这两种鱼苗的所占比例,设计了如下方案:
①在该鱼塘中捕捉50条鱼苗,统计其中鱼苗A的数目,以此作为一次试验的结果;
②在每一次试验结束后将鱼苗放回鱼塘,重复进行这个试验n次(其中),记第i次试验中鱼苗A的数目为随机变量;
③记随机变量,利用的期望和方差进行估算,设该鱼塘中鱼苗A的数目为M,鱼苗B的数目为N,其中,每一次试验都相互独立.
(1)在第一次试验中,若捕捉的50条鱼苗中鱼苗A的数目有20条,记录员逐个不放回的记录鱼苗的种类,求第一次记录的是鱼苗A的条件下,第二次记录的仍是鱼苗A的概率;
(2)请提出一个合理假设,使得服从二项分布:______________________________.
记的实际取值分别为,平均值和方差分别记为、,已知其方差.请用和分别代替和,估算和.(参考公式:,)
【详解】(1)设事件M:“第一次记录的是鱼苗A”,事件N:“第二次记录的是鱼苗A”,
由题意可得:,,
所以.
(2)假设:鱼塘里的鱼足够多,此时,
则的均值,的方差,
所以,解得或,
又因为,则,
所以,.
12.(2025·上海·三模)某电台举办有奖知识竞答比赛,选手答题规则相同.甲每道题自己有把握独立答对的概率为,若甲自己没有把握答对,则在规定时间内连线亲友团寻求帮助,其亲友团每道题能答对的概率为p,假设每道题答对与否互不影响.
(1)当时,若甲答对了某道题,求该题是甲自己答对的概率;
(2)当时,甲答了4道题,计甲答对题目的个数为随机变量X,求随机变量X的分布列和数学期望;
(3)乙答对每道题的概率为(含亲友团),现甲乙两人各答两个问题,若甲答对题目的个数比乙答对题目的个数多的概率不低于,求甲的亲友团每道题答对的概率p的最小值.
【详解】(1)记事件为“甲答对了某道题”,事件为“甲自己答对”,
则,,
所以.
(2)可能取值为0,1,2,3,4,甲答对某道题的概率,
则,
所以的分布列为:
0
1
2
3
4
数学期望.
(3)记事件为“甲答对了道题”,事件为“乙答对了道题”,
其中甲答对某道题的概率为,答错某道题的概率为,
则,
,
,
所以甲答对题数比乙多的概率为:
,解得,
所以甲的亲友团答对的概率的最小值为.
13.(2026·上海杨浦·模拟预测)已知函数.
(1)当 ,求:的取值集合与的最值;
(2)当时,若的最小内角为,的最小内角 ,满足:,求证:当且时 ,若事件:在 上有最大值和一个零点与事件独立,其中事件的概率不为0,当且仅当事件为必然事件.
【详解】(1)当时,
可得,
由,可得,所以的取值集合为,
当时,即时,即.
函数的最大值,最大值为,当时,即时,即.
函数的最小值,最小值为.
(2)设.
则.
因为.
所以,解得,故.
又因为,,所以.
当时,.
于是.
令.因为,所以
函数在该区间内有零点,等价于.
在时,.
所以可能出现的零点只对应.
因此在上有一个零点,当且仅当.
即.当时,区间中一定包含,所以能取得最大值.
故事件发生当且仅当.
按题意,在有限等可能样本空间
中讨论事件,样本点总数为.事件对应.
所以.
设事件含有个样本点,事件含有个样本点.因为事件与事件独立,所以.
即.整理得.
因为是质数,且,所以.又因为事件的概率不为,所以.
因此.
所以事件为必然事件.反过来,若事件为必然事件,则,且.
故事件与事件独立.
综上,事件与事件独立,且,当且仅当事件为必然事件.
1.(2024·上海·高考真题)水果分为一级果和二级果,共136箱,其中一级果102箱,二级果34箱.
(1)随机挑选两箱水果,求恰好一级果和二级果各一箱的概率;
(2)进行分层抽样,共抽8箱水果,求一级果和二级果各几箱;
(3)抽取若干箱水果,其中一级果共120个,单果质量平均数为303.45克,方差为603.46;二级果48个,单果质量平均数为240.41克,方差为648.21;求168个水果的方差和平均数,并预估果园中单果的质量.
【详解】(1)设A事件为恰好选到一级果和二级果各一箱,
样本空间的样本点的个数,
A事件的样本点的公式,
所以;
(2)因为一级果箱数:二级果箱数,
所以8箱水果中有一级果抽取箱,二级果抽取箱;
(3)设一级果平均质量为,方差为,二级果质量为,方差为,
总体样本平均质量为,方差为,
因为,,,,
所以克,
克.
预估平均质量为克.
2.(2026·上海·高考真题)某兴趣班共150人,年龄分布及兴趣爱好统计如下:
年龄
剪纸
摄影
画画
人数
8
45
10
55
6
50
(1)现采用分层抽样抽取30人,其中抽到年龄在岁的有多少人?
(2)该兴趣班150人的平均年龄是多少?
(3)现从150人中任意抽选1人,记抽到的学员年龄在为事件,记抽到学员爱好摄影为事件.事件与是否独立?请说明理由.
【详解】(1)年龄段占总体比例为: ,则抽取人数为:;
(2)由题可得人的平均年龄为:;
(3)由题可得,,,
注意到,则事件A与事件B不相互独立.
3.(2023·上海·高考真题)21世纪汽车博览会在上海2023年6月7日在上海举行,下表为某汽车模型公司共有25个汽车模型,其外观和内饰的颜色分布如下表所示:
红色外观
蓝色外观
米色内饰
8
12
棕色内饰
2
3
(1)若小明从这些模型中随机拿一个模型,记事件A为小明取到的模型为红色外观,事件B取到模型有棕色内饰,求,并据此判断事件A和事件B是否独立;
(2)为回馈客户,该公司举行了一个抽奖活动,并规定,在一次抽奖中,每人可以一次性抽取两个汽车模型。为了得到奖品类型,现作出如下假设:
假设1:每人抽取的两个模型会出现三种结果:①两个模型的外观和内饰均为同色;②两个模型的外观和内饰均为不同色;③两个模型的外观同色但内饰不同色,或内饰同色但外观不同色。
假设2:该抽奖设置三类奖,奖金金额分别为:一等奖600元,二等奖300元,三等奖150元。
假设3:每种抽取的结果都对应一类奖。出现某种结果的概率越小,奖金金额越高。
请判断以上三种结果分别对应几等奖。设中奖的奖金数是,写出的分布,并求的数学期望。
【详解】(1)由给定的数表知,,,,
而,因此事件相互独立,
所以,事件相互独立.
(2)设事件:外观和内饰均为同色,事件:外观内饰都异色,事件:仅外观或仅内饰同色,
依题意,;;
,则,
因此抽取的两个模型的外观和内饰均为不同色是一等奖;外观和内饰均为同色是二等奖;
外观同色但内饰不同色,或内饰同色但外观不同色是三等奖,
奖金额的可能值为:,
奖金额的分布列:
600
300
150
奖金额的期望(元).
4.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
【详解】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.
.
则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
5.(2025·上海·高考真题)甲、乙是两个体育社团的小组.如下是两组组员身高的茎叶图(单位:厘米),以身高的百位数和十位数作为“茎”排列在中间、个位数作为“叶”分列在两边.
(1)分别求甲、乙两组组员身高的第60百分位数;
(2)从甲、乙两组各选取一个组员,求两人身高均在170厘米以上的概率;
(3)为使两组人数相同,从甲组中调派一个队员到乙组.是否存在甲组的一个组员,将他调派至乙组后,甲、乙两组的平均身高都增大?
【详解】(1)甲队:,
所以甲组的第60百分位数为从小到大排列的第8位组员身高,为173厘米;
乙队:,
所以乙组的第60百分位数为从小到大排列第6位和第7位组员身高的平均数,为厘米.
(2)记甲乙两队各选取一名组员,两人身高均在170厘米以上为事件,
.
(3),
要使两组平均身高都增大,
则从甲组调到乙组的组员身高应在两平均数之间(不包括端点平均数),所以把甲组的其中一个167厘米的组员调到乙组即可.
6.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
【详解】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数
,
由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
7.(2026·上海·高考真题)某工厂为进行环境保护和改善,对2023年前九年间空气中颗粒物密度和二氧化硫密度进行了监测和记录,数据如下:
颗粒物密度
101.02
87.02
57.47
21.85
11.76
8.86
5.03
4.63
3.86
二氧化硫密度
119.47
81.94
53.20
9.16
6.60
4.40
3.31
3.35
3.86
(1)为进一步研究,从这 9 年间随机抽取一年,该年份颗粒物的密度大于二氧化硫密度的概率是多少?
(2)为研究颗粒物密度与二氧化硫密度的相关性,该工厂应选取茎叶图、扇形图、散点图中的哪一种进行分析,并请你判断相关系数在 ,,哪个区间内?(直接写结论)
(3)2023年前9年的年份()的平均数为 2018,(颗粒物密度) 关于(年份) 的回归方程拟采用,或. 已知2023年实际颗粒物密度为3.88,则哪个回归方程对于2023年的预测值与实际值的差值绝对值更小?
参考数据:
【详解】(1)9年间共有7年颗粒物密度大于二氧化硫密度,故概率为.
(2)统计图表需要呈现出随着二氧化硫密度变化时,颗粒物密度的变化趋势,故需要散点图进行呈现.
随着二氧化硫密度增加,颗粒物密度呈现增加趋势,故二者正相关,相关系数为正,
又因为相关系数,故相关系数在区间上.
(3)采用方程时,2023年预测值为,
预测值与实际值差值绝对值为;
因为
,
所以,可得.
故采用方程时,
2023年预测值为,
预测值与实际值差值绝对值为;
因为,故方程对于2023 年的预测值与实际值的差值绝对值更小.
6 / 15
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。