内容正文:
专项01 概率统计
内容导航
【命题解码·定方向】命题趋势+2026年预测
【解题建模·通技法】析典例,建模型,技法贯通破类题/变式
【实战刷题·冲高分】精选高考大题+名校模拟题,强化实战能力,得高分
根据近五年上海卷考情,概率统计必考主干,解答题分值14分.
命题趋势:
年份
题号
核心考点
情境
难度
2021
19
频率分布、古典概型、期望
产品质量检测
★☆☆
2022
19
茎叶图、独立事件、二项分布
体育比赛
★☆☆
2023
17
线性回归、相关系数、条件概率
环保数据
★☆☆
2024
17
分层抽样、古典概型、分布列
校园活动
★☆☆
2025
17
频率直方图、全概率、期望
交通出行
★☆☆
2026年预测:
· 统计基础(第一问,6-8分):频率分布直方图、茎叶图、平均数、中位数、方差/标准差、分层抽样;高频涉及线性回归方程、相关系数计算
· 概率计算(第二问,6-8分):古典概型、独立事件、条件概率、全概率公式、离散型随机变量分布列、数学期望;二项分布为次高频考点
命题风格预测
· 情境贴合热点:AI数据监测、医疗筛查、环保统计、校园活动、交通出行等生活化场景
· 设问结构固定:先统计量计算,再概率+期望,最后轻度决策(如“根据期望判断方案优劣”)
· 轻度创新:新增统计意义解释、正态分布识图、卡方检验基础判断,无偏题怪题
最可能考题型
1. 频率分布直方图+古典概型+分布列+期望
2. 线性回归+条件概率+概率决策
3. 分层抽样+全概率公式+二项分布
避坑要点:区分频率/概率、有放回/无放回、独立/互斥事件;分布列列全再算期望,步骤不省略
题型01 统计图表+统计量计算
析典例·建模型
1.(交通出行背景)李先生是一名上班族,为了比较上下班的通勤时间,记录了20天个工作日内,家里到单位的上班时间以及同路线返程的下班时间(单位:分钟),如下茎叶图显示两类时间的共40个记录:
(1)求出这40个通勤记录的中位数M,并完成下列2×2列联表:
超过M
不超过M
上班时间
下班时间
(2)根据列联表中的数据,请问上下班的通勤时间是否有显著差异?并说明理由.
附:,,
【思路分析】(1)根据茎叶图求出中位数,列表即可;(2)将表格中数据代入公式即可.
【规范答题】(1)由茎叶图可知,该组数据的中位数为,故列出2×2列联表如下:
超过M
不超过M
上班时间
8
12
下班时间
7
13
(2)由2×2列联表可知,,
故上下班的通勤时间不存在显著差异.
2.(校园大数据场景)王老师将全班40名学生的高一数学期中考试(满分100分)成绩分成5组,绘制成如图所示的频率分布直方图,现将记作第一组,、、、分别记作第二、三、四、五组.已知第一组、第二组的频率之和为0.3,第一组和第五组的频率相同.
(1)估计此次考试成绩的平均值(同一组数据用该组数据的中点值代替);
(2)王老师将测试成绩在和内的试卷进行分析,再从中选2人的试卷进行优秀答卷展示,求被选中进行优秀答卷展示的这2人的测试成绩至少1个在内的概率;
(3)已知第二组考生成绩的平均数和方差分别为65和40,第四组考生成绩的平均数和方差分别为83和70,据此计算第二组和第四组所有学生成绩的方差.
【思路分析】(1)根据频率之和为1可求的值,根据组中值可求平均数;
(2)根据对立事件可求2人的测试成绩至少1个在内的概率;
(3)根据分层方差和总体方差的关系式可求第二组和第四组所有学生成绩的方差.
【规范答题】(1)由题意得,解得
所以平均数等于
(2)由题意,内有8人,内有2人,
所以被选中进行优秀答卷展示的这2人的测试成绩至少1个在内的概率为.
(3)设第二组、第四组的平均数与方差分别为,
由题意,第二组、第四组分别有10人和8人,
所以成绩在第二组、第四组的平均数
成绩在第二组、第四组的方差
故估计成绩在第二组、第四组的方差是.
3.(2025·上海虹口·一模)班主任小明为了解本班每位学生每周平均手机使用时长(单位:小时),在某一学期每周对全班名学生进行问卷调查,收集了全部数据并计算出每位学生每周平均手机使用时长,绘制了相应的统计图表,全班用时最长的为小时.其中,男生每周平均手机使用时长的茎叶图如图所示,女生每周平均手机使用时长的频率分布直方图如图所示.
(1)求该班男生每周平均手机使用时长的第百分位数;
(2)小明老师想从本班每周平均手机使用时长小于小时的学生中任选人在班会课上做经验分享.设事件表示 “人中至多名男生”,事件表示 “人中恰有名学生的每周平均手机使用时长位于区间”.试判断事件和事件是否独立,并说明理由;
(3)小明老师发现本班有位学生的每周平均手机使用时长超过小时,这位学生的数据平均数为小时.当去掉这位学生中用时最长和用时最短的数据后,平均数变为小时,且这位学生中女生的数据从小到大依次排序成等差数列.那么这位学生每周平均手机使用时长的方差是否超过?请说明理由.
【思路分析】(1)根据茎叶图判断出男生人数,然后由第百分位数的计算公式求得结果;
(2)分别求解出,然后根据与的关系作出判断;
(3)先确定出的值以及男生数据,再根据平均数公式以及等差数列的性质求解出女生数据,最后计算出方差即可作出判断.
【规范答题】(1)由茎叶图可知男生总人数为,所以,
将男生每周平均手机使用时长从小到大排列,第位的数据分别为,
所以第百分位数为;
(2)事件和事件不相互独立,理由如下:
由,解得,
所以女生中每周平均手机使用时长小于小时的人数为,
且女生中每周平均手机使用时长位于区间有人,位于区间有人,
由茎叶图可知,男生中每周平均手机使用时长小于小时的人数为,
且男生中每周平均手机使用时长位于区间有人,
抽取的人中,每周平均手机使用时长位于区间的共有人,
所以,,
若抽取的是名男生和名女生且恰好有人的每周平均手机使用时长位于区间,其概率为,
若抽取的是名女生且恰好有人的每周平均手机使用时长位于区间,其概率为,
所以,
显然,所以事件和事件不相互独立;
(3)由茎叶图和频率分布直方图可知,,
个数据中,男生数据为,设女生数据为且,
由题意可知,,解得,
又因为成等差数列,所以,
所以这个数据分别为:,
所以方差为,
所以这位学生每周平均手机使用时长的方差不超过.
研考点·通技法
· 解题步骤:第一步识图(提取频率/频数/组距)→第二步套公式(均值、中位数、方差)→第三步验算数据
· 技巧:频率分布直方图中位数找面积等分线,方差计算先算均值再代入,茎叶图直接提取数据不看错行
破类题·提能力
1.(2025·上海崇明·一模)为培养学生的社会责任感,某校开展了为期一学期的“温暖社区,青春奉献”志愿服务活动.活动结束后,学校从甲、乙两个班级中统计了部分学生的志愿服务时长(单位:小时),统计结果用茎叶图记录如图所示(十位数字作为“茎”,个位数字作为“叶”).已知甲组有9名学生的数据,乙组有10名学生的数据.
(1)分别写出甲、乙两组学生服务时长的第70百分位数;
(2)从甲、乙两组学生中各随机抽取1人,求抽取的2人中恰有1人的服务时长超过30小时的概率;
(3)记甲组志愿服务时长的方差为;在甲组中增加一名学生得到“新甲组”,若的志愿服务时长为27,则记“新甲组”志愿服务时长的方差为;若的志愿服务时长为20,则记“新甲组”志愿服务时长的方差为;通过计算比较的大小(结果精确到0.1),并从数学角度解释这一现象.
【答案】(1);;
(2);
(3)
【分析】(1)根据百分位数的定义计算即可;
(2)根据古典概型和分步乘法计数原理计算即可;
(3)利用方差公式计算各方差,结合方差的统计意义解释即可.
【详解】(1)因为,所以甲组学生服务时长的第70百分位数为;
因为,所以乙组学生服务时长的第70百分位数为;
(2)因为甲组有9名学生,乙组有10名学生,根据分步乘法计数原理,从甲、乙两组学生中各随机抽取1人,有种选取方法,
又甲、乙两组学生中各有3人的服务时长超过30小时,所以抽取的2人中恰有1人的服务时长超过30小时有种选取方法,
记事件“抽取的2人中恰有1人的服务时长超过30小时”,则,
故从甲、乙两组学生中各随机抽取1人,抽取的2人中恰有1人的服务时长超过30小时的概率为;
(3)对甲组:
甲组9名学生服务时长的平均数为,
甲组志愿服务时长的方差为,
对新甲组1:,所以.
对新甲组2:,所以.
所以.
数学解释:由于甲组均值为27,方差反映了数据的离散程度,当增加数据27(原样本均值),数据相对更集中,所以方差变小;当增加数据20,数据更加分散,方差变大.
2.(2025·上海嘉定·二模)某学校对学生的课外阅读时间进行调查,随机抽取了150位学生,得到如下样本数据频率分布直方图.
(1)估计该校学生的平均课外阅读时间;(同一组数据用该区间的中点值作代表)
(2)估计该校学生课外阅读时间位于区间(单位:小时/月)的概率;
(3)已知该校喜欢阅读的学生占比为18%,初一年级学生占该校总学生数的28%,且初一年级学生中喜欢阅读的占40%,求其他年级学生中喜欢阅读的比例.(精确到0.1%)
【答案】(1)平均课外阅读时间小时/月;
(2);
(3).
【分析】(1)根据直方图的平均值求法求该校学生的平均课外阅读时间;
(2)由直方图估计时间位于区间的频率,即可得概率;
(3)根据已知得其他年级学生中喜欢阅读的学生占比为,且其他年级学生占比为,进而求出其他年级学生中喜欢阅读的比例.
【详解】(1)由直方图知,平均课外阅读时间为小时/月;
(2)由直方图知,时间位于区间的频率为,
所以该校学生课外阅读时间位于区间(单位:小时/月)的概率为.
(3)由题设,初一年级学生中喜欢阅读的学生占比为,
所以其他年级学生中喜欢阅读的学生占比为,
故其他年级学生中喜欢阅读的比例.
3.2024年法国奥运会落下帷幕.某平台为了解观众对本次奥运会的满意度,随机调查了本市1000名观众,得到他们对本届奥运会的满意度评分(满分100分),平台将评分分为共5层,绘制成频率分布直方图(如图1所示).并在这些评分中以分层抽样的方式从这5层中再抽取了共20名观众的评分,绘制成茎叶图,但由于某种原因茎叶图受到了污损,可见部分信息如图2所示.
(1)求图2中这20名观众的满意度评分的第35百分位数;
(2)若从图2中的20名观众中再任选取3人做深度采访,求其中至少有1名观众的评分大于等于90分的概率;
(3)已知这1000名观众的评分位于上的均值为67,方差为64.7,位于上的均值为73,方差为134.6,求这1000名观众的评分位于上的均值与方差.
【答案】(1)
(2)
(3)这1000名观众的评分位于上的均值与方差分别为,.
【分析】(1)根据百分位数的定义求解即可;
(2)先求出的人数,利用对立事件结合古典概型求解即可;
(3)根据题意利用分层抽样的平均数和方差公式运算求解.
【详解】(1)∵,
∴第35百分位数为第两个数的平方数
(2)由图1可知,图2中有2人,
所以从图2中的20名观众中再任选取3人做深度采访,求其中至少有1名观众的评分大于等于90分设为事件,
所以.
(3)由题意可知:落在的频率为,落在的频率为,
因为这1000名观众的评分位于上的均值为67,方差为64.7,
位于上的均值为73,方差为134.6,
所以,
设这1000名观众的评分位于上的均值与方差分别为,
所以,解得:,
,
解得:.
这1000名观众的评分位于上的均值与方差分别为,
题型02概率+分布列+期望
析典例·建模型
1.盒子中装有大小和质地相同的6个红球和3个白球;
(1)从盒子中随机抽取出1个球,观察其颜色后放回,并同时放入与其颜色相同的球3个,然后再从盒子随机取出1个球,求第二次取出的球是红球的概率;
(2)从盒子中不放回地依次随机取出2个球,设2个球中红球的个数为,求的分布、期望与方差;
【思路分析】(1)由独立乘法公式、互斥加法公式即可运算求解古典概型概率;
(2)的所有可能取值为0,1,2,它服从超几何分布,结合超几何分布概率的求法求得相应的概率进而可得的分布,结合期望、方差计算公式即可求解.
【规范答题】(1)第一次取出红球的概率为,取出白球的概率为,
第一次取出红球,第二次取出红球的概率为,
第一次取出白球,第二次取出红球的概率为,
所有第二次取出的球是红球的概率为;
(2)的所有可能取值为0,1,2,
,
所以的分布为,
它的期望为,
它的方差为.
2.(2025·上海崇明·二模)某区2025年3月31日至4月13日的天气预报如图所示.
(1)从3月31日至4月13日某天开始,连续统计三天,求这三天中至少有两天是阵雨的概率;
(2)根据天气预报,该区4月14日的最低气温是9,温差是指一段时间内最高温度与最低温度之间的差值,例如3月31日的最高温度为17,最低温度为9,当天的温差为8记4月1日至4日这4天温差的方差为,4月11日至14日这4天温差的方差为,若,求4月14日天气预报的最高气温;
(3)从3月31日至4月13日中随机抽取两天,用X表示一天温差不高于9的天数,求X的分布列及期望.
【思路分析】(1)根据古典概型概率公式,用事件包含的样本点个数除以总样本点个数来计算概率;
(2)根据方差公式列出关于的方程,然后求解;
(3)根据随机变量的分布列,利用期望公式计算期望.
【规范答题】(1)设“从3月31日至4月13日某天开始,连续统计三天,这三天中至少有两天是阵雨”为事件A,连续统计三天共有12个样本点,事件A共有4个样本点,所以
(2)4月1日至4日这4天温差分别为9、8、9、9,
因此,设4月14日的温差为x,
则4月11日至14日这4天温差分别为8、9°C、8、x,
因此,
解得,因此,4月11日这天最高气温是18.
(3)从3月31日至4月13日,一天温差不超过9的共有11天,高于9的共有3天
X可能取值为0,1,2.
,,
随机变量X的分布列为:
X
0
1
2
P
随机变量X的期望.
3.(环保统计)垃圾分类能减少有害垃圾对环境的破坏,同时能提高资源循环利用的效率.目前上海社区的垃圾分类基本采用四类分类法,即干垃圾,湿垃圾,可回收垃圾与有害垃圾.某校为调查学生对垃圾分类的了解程度,随机抽取100名学生作为样本,按照了解程度分为A等级和B等级,得到如下列联表:
男生
女生
总计
A等级
40
20
60
B等级
20
20
40
总计
60
40
100
(1)根据表中的数据回答:学生对垃圾分类的了解程度是否与性别有关(规定:显著性水平)?
附:,其中,.
(2)为进一步加强垃圾分类的宣传力度,学校特举办垃圾分类知识问答比赛.每局比赛由二人参加,主持人A和B轮流提问,先赢局者获得奖项并结束比赛.甲,乙两人参加比赛,已知主持人A提问甲赢的概率为,主持人B提问甲赢的概率为,每局比赛互相独立,且每局都分输赢.现抽签决定第一局由主持人A提问.
(i)求比赛只进行3局就结束的概率;
(ii)设为结束比赛时甲赢的局数,求的分布和数学期望.
【思路分析】(1) 计算的值,再与进行比较即可得结论;
(2)(i)由相互独立事件概率的乘法公式可直接求出答案;
(ii)先由相互独立事件概率的乘法公式求出,则分布列可得,再由期望公式求数学期望即可.
【规范答题】(1)提出原假设:学生对垃圾分类的了解程度与性别无关,
确定显著性水平,由题意得,
可得,
由,且,
所以接受原假设,学生对垃圾分类的了解程度与性别无关.
(2)(i)比赛只进行3局就结束,甲赢得比赛的概率为
比赛只进行3局就结束,乙赢得比赛的概率为,
故比赛只进行3局就结束的概率为;
(ii)的可能取值为,
,即进行了3场比赛,且乙赢得比赛,故,
,即进行了4场比赛,且乙赢得比赛,前3场中,甲赢得1场比赛,乙第4场赢,
故,
,即进行了5场比赛,且乙赢得比赛,前4场中,甲赢得2场比赛,乙第5场赢,
故
,
,即最后甲赢得比赛,由概率性质得,
所以分布为
0
1
2
3
故数学期望为.
研考点·通技法
· 解题步骤:判断概率模型(古典/独立/条件)→计算单个事件概率→列全分布列(验证概率和为1)→代入期望公式
· 技巧:有放回抽样用独立事件,无放回用古典概型;条件概率牢记公式 ,分清先后顺序
破类题·提能力
1.(2025·上海闵行·二模)某社团共有12名成员,其中高一男生2人,女生4人,高二男生3人,女生3人.现从中随机抽选2人参加数学知识问答.
(1)若逐个抽选,求恰好第一个抽选的是男生的概率;
(2)若恰好抽选了1名男生与1名女生,求这2人都是高二学生的概率;
(3)若恰好抽选了1名高一学生与1名高二学生,记抽选出来的男生与女生的人数之差的绝对值为,求的分布列与数学期望.
【答案】(1)
(2)
(3)分布列见解析;
【分析】(1)结合题意,由古典概率求解即可;
(2)由条件概率计算公式即可;
(3)列出的可能取值,求出相应概率,然后再由期望公式求出期望即可.
【详解】(1)逐个抽选,恰好第一个抽选的是男生的情况为男生所占人数总比例,故概率为.
(2)记事件为恰好抽选了1名男生与1名女生,事件为这2人都是高二学生,
由条件概率可得.
(3)因为共抽取了2名学生,所以男生人数与女生人数之差只能为偶数,分两种情况讨论:
当时,
男
女
高一
1
0
高二
0
1
或
男
女
高一
0
1
高二
1
0
所以;
当时,
男
女
高一
1
0
高二
1
0
或
男
女
高一
0
1
高二
0
1
所以,
所以的分布列为
0
2
.
2.(2025·上海黄浦·三模)甲、乙、丙三人进行投篮比赛,共比赛10场,规定每场比赛分数最高者获胜,三人得分(单位:分)情况统计如下:
场次
1
2
3
4
5
6
7
8
9
10
甲
8
10
10
7
12
8
8
10
10
13
乙
9
13
8
12
14
11
7
9
12
10
丙
12
11
9
11
11
9
9
8
9
11
(1)从上述10场比赛中随机选择一场,求甲获胜的概率;
(2)在上述10场比赛中,从甲得分不低于10分的场次中随机选择两场,设表示乙得分大于丙得分的场数,求的分布列和数学期望;
(3)假设每场比赛获胜者唯一,且各场相互独立,用上述10场比赛中每人获胜的频率估计其获胜的概率.甲、乙、丙三人接下来又将进行6场投篮比赛,设为甲获胜的场数,为乙获胜的场数,为丙获胜的场数,写出方差,,的大小关系,并说明理由.
【答案】(1);
(2)分布列见解析,期望;
(3),理由见解析
【分析】(1)从表格中可以发现甲获胜的场数为3场,从而得到甲获胜的概率;
(2)从表格中可以发现在10场比赛中,甲得分不低于10分的场次有6场,分别是第2场,第3场,第5场,第8场,第9场,第10场。乙得分大于丙得分的场数的取值为0,1,2,通过超几何分布的知识点,得到的分布列及数学期望.
(3)通过题目条件得到10场比赛甲获胜的概率为,乙获胜的概率为,丙获胜的概率为,因为甲、乙、丙获胜的场数符合二项分布,从而得到方差,,的大小关系.
【详解】(1)根据三人投篮得分统计数据,在10场比赛中,甲共获胜3场,分别是第3场,第8场,第10场.
设表示“从10场比赛中随机选择一场,甲获胜”,则.
(2)根据三人投篮得分统计数据,在10场比赛中,甲得分不低于10分的场次有6场,
分别是第2场,第3场,第5场,第8场,第9场,第10场,其中乙得分大于丙得分的场次有4场,
分别是第2场、第5场、第8场、第9场.
所以的所有可能取值为0,1,2.
,,.
所以的分布列为
0
1
2
所以.
(3)由题意,每场比赛甲获胜的概率为,乙获胜的概率为,丙获胜的概率为,还需要进行6场比赛,
而甲、乙、丙获胜的场数服从二项分布,
所以,,,
故.
3.(2025·上海金山·二模)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
附:;
0.10
0.01
0.001
2.706
6.635
10.828
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
【答案】(1)列联表见解析,0.35;
(2)有;
(3)分布列见解析,期望为.
【分析】(1)完善列联表,求出经验概率.
(2)求出的观测值,与临界值比对得解.
(3)求出的可能值及对应概率,列出分布列并求出期望.
【详解】(1)完善列联表,如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且数学成绩总评优秀的经验概率为.
(2)由(1)得,
所以有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)不是每天都整理数学错题的学生有20人,其中数学成绩总评优秀人数为5,
的所有可能值为0,1,2,3,
,
,
所以的分布列为:
0
1
2
3
期望.
题型03 线性回归+概率决策
析典例·建模型
1.(2025·上海宝山·二模)某游乐园的活动项目共有三类,分别是“过山车”等10个体验类项目、“海豚之舞”等4个表演类项目、“智力闯关”等3个互动类项目.因设备维护需要,项目并非每日都全部开放.以下数据是项目开放的数量(个)和游客平均等待时间(分钟/个)的关系:
项目类别
体验类
演出类
互动类
开放数量(个)
4
5
6
7
8
2
4
2
3
平均等待时间(分钟/个)
76
73
67
60
53
30
46
30
(1)体验类项目中,若关于的回归方程为,请计算的值,并依据该模型预测所有体验类项目均开放时的平均等待时间(精确到整数);
(2)小王游玩当日,体验类、演出类、互动类项目分别开放了8个、4个、3个,他计划随机游玩其中的3个项目,已知他选择的项目中至少包含1个互动类项目,求他的等待总时间恰为120分钟的概率;
(3)为提高游客的参与度,园方在互动类项目“智力闯关”中设计了两关.通过第一关的游客奖励20个游园币,游客可以选择结束或继续闯关.若继续闯关,则必须完成第二关的所有题目.第二关包含2道相互独立的选择题,每答对1题可再奖励20个游园币,每答错1题则要扣除10个游园币.每个游园币可兑换园区内任意一个项目的1分钟等待时间.小王已通过第一关,假设他在第二关中每道题答对的概率均为,为了获得更多项目等待时间的兑换奖励,小王是否应该继续闯关?请你帮他做出决策.
【思路分析】(1)根据表中数据分别求出,代入回归方程即可求出,将代入回归方程可求出平均等待时间;
(2)利用条件概率公式,结合分步计数乘法原理和分类计数加法原理以及组合数,计算即可求得概率;
(3)通过计算得到小王参加第二关获得的游园币数的期望,根据每道题答对的概率的取值分类讨论,做出相关决策.
【规范答题】(1),
代入回归方程,得,解得.
当时,,即开放所有体验类项目时的平均等待时间约为51分钟.
(2)记事件“等待总时间恰为120分钟”,事件“选择的3个项目中至少包含1个互动类项目”,
因为全部的项目数为15个,其中互动类项目有3个,则事件共包含了种;
在事件的条件下,等待总时间恰为120分钟,此时的可能情况有:
①一个互动类项目,一个体验类项目,一个演出类项目,此时共有种情况;
②两个互动类项目,一个体验类项目,此时共有种情况.
由条件概率公式得.
(3)设小王参加第二关获得的游园币数为随机变量,则所有可能取值为,
则
所以.
所以,当时,,不建议小王继续闯关;
当时,,小王可根据自己的情况随机选择;
当时,,建议小王继续闯关.
2.(2025·上海金山·三模)根据相关研究报告显示,预计年电商交易额突破亿元,网购用户规模接近亿.下表为某网店统计的近个月的利润(单位:万元),其中为月份代号.
月份
2024年12月
2025年1月
2025年2月
2025年3月
2025年4月
月份代号
1
2
3
4
5
利润/万元
8
6.3
5.1
3.2
2.4
(1)依据表中的统计数据,计算样本相关系数(精确到),判断是否可以用线性回归模型拟合与的关系;若可用,求出关于的经验回归方程,并估计年月该网店利润;若不可用,请说明理由;
(2)该专营店为了吸引顾客,推出两种抽奖方案.方案一:一次性购物金额超过元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打折,中奖两次打折,中奖三次打折,其余情况不打折.方案二:从装有个形状大小、完全相同的小球(其中红球个,白球个,黑球个)的抽奖盒中,一次性摸出个球,其中奖规则为:若摸出个红球和一个白球打六折,摸出个黑球打八折,其余情况不打折.某顾客计划在此网店购买元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
参考:,,
【思路分析】(1)求出、的值,将数据代入相关系数公式,求出的值,可得出结论,再将代入经验回归方程,可得出结果;
(2)计算出方案一、二中实际付款金额,比较大小后可得出结论.
【规范答题】(1)由题意可得,,
,
,
,
所以,,
因为接近于,所以可以用线性回归模型拟合与的关系,
,则,
所以,关于的经验回归方程为,
将代入经验回归方程为,
故估计年月该网点利润估计知为万元.
(2)设方案一的中奖次数为,由题意可知,实际付款金额为万元,
则的可能取值有、、、,
则,,
,,
故,
设方案二实际付款金额为万元,由题意可知,的可能取值有、、,
,,,
故
因为,所以,从实际付款金额的数学期望的角度分析,选择方案二更优惠.
3.烧烤是某地的特色美食,今年春季一场始于烟火、归于真诚的邂逅,让无数人前往“赶烤”.当地某烧烤店推出150元的烧烤套餐,调研发现,烧烤店成本y(单位:千元,包含人工成本、原料成本、场地成本、设备损耗等各类成本)与每天卖出套餐数x(单位:份)的关系如下:
1
3
4
6
7
5
6.5
7
7.5
8
与可用回归方程(其中为常数)进行模拟.
参考数据与公式:设,则
6.8
线性回归直线中,.
(1)填写表格中的三个数据,并预测该烧烤店一天卖出100份的利润是多少元.(利润=售价-成本,结果精确到1元)
(2)据统计,由于烧烤的火爆,饮料需求也激增.4月份的连续16天中某品牌饮料每天为该地配送的箱数的频率分布直方图如图,用这16天的情况来估计相应的概率.供货商拟购置n辆小货车专门运输该品牌饮料,一辆货车每天只能运营一趟,每辆车每趟最多只能装载40箱该饮料,满载发车,否则不发车.若发车,则每辆车每趟可获利500元;若未发车,则每辆车每天平均亏损200元.若或4,请从每天的利润期望角度给出你的建议.
【思路分析】(1)根据表格与参考公式计算数据补全空并求出回归方程、估计成本即可;
(2)由频率分布直方图得出送货箱数的概率,再由离散型随机变量的分布列与期望公式得出购3辆车和购4辆车时每天的利润的分布列,比较期望大小即可.
【规范答题】(1)由表格及公式通过计算器可计算得
补全填空如下:
0.54
6.8
1.53
0.45
根据题意,,
所以
所以,
又,所以,
所以时,(千元),
即卖出100份的成本为11764元,
故利润(元).
(2)根据频率分布直方图,可知送货箱数的概率分布表为:
箱数
设该运输户购3辆车和购4辆车时每天的利润分别为元,
则的可能取值为,其分布列为:
1500
800
100
P
故,
的可能取值为,其分布列为:
2000
1300
600
-100
P
故,
即购置3辆小货车的利润更高,建议购买3辆车.
研考点·通技法
· 解题步骤:计算均值 →求回归系数 →写回归方程→代入预测→结合期望做决策
· 技巧:回归系数必过样本中心点,决策题先比较期望大小,再规范表述结论
破类题·提能力
1.随着科技的进步,近年来,我国新能源汽车产业迅速发展,各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升.某校数学兴趣小组对某品牌新能源汽车近 5 年的广告费投入(单位:亿元)进行了统计, 具体数据见下表:
年份代号
1
2
3
4
5
广告费投入
4.8
5.6
6. 2
7. 6
8. 8
并随机调查了 400 名市民对该品牌新能源汽车的认可情况, 得到的部分数据见下表:
认可
不认可
50 岁以下
140
60
50 岁及以上
120
80
(1)求广告费投入与年份代号之间的线性经验回归方程;
(2)依据小概率值的独立性检验,能否认为市民的年龄与对该品牌新能源汽车的认可度有关联?
附: ① 经验回归方程中,;
②,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)有关联
【分析】(1)由题意计算,求解回归方程即可;
(2)由题意计算,结合独立性检验的原理判断即可.
【详解】(1)由题意,得,
则 ,所以
则,
故广告费投入与年份代号之间的线性经验回归方程为.
(2)零假设为:市民的年龄与对该品牌新能源汽车的认可度无关联.
由题中表格数据,
计算得.
依据小概率值的独立性检验,我们推断不成立,即认为市民的年龄与对该品牌新能源汽车的认可度有关联,此推断犯错误的概率不大于0.05.
2.某高科技公司开发了一款AI学习机,为了解市场销售情况,该公司统计了过去5个月的月广告投入(单位:十万元)与该款学习机的月销量(单位:千台)的数据,如表所示.
月份代码
1
2
3
4
5
10
20
30
40
50
58
59
60
64
65
(1)求和的样本相关系数,并判断与是否具有较强的线性相关性;(结果精确到0.01,若,则认为与具有较强的线性相关性)
(2)求关于的经验回归方程,并估计月广告投入600万元时该款学习机的月销量;
(3)该款学习机目前售价为3000元/台,为提升销量,经销该款学习机的某专卖店针对该款学习机推出了两种促销方案.方案一:买一台立减400元;方案二:一次性购买两台可抽奖三次,每次中奖的概率均为,且每次抽奖相互独立,中奖一次立减600元/台,中奖两次立减800元/台,中奖三次立减1000元/台,若三次均未中奖,仍可享基础优惠300元/台.某家长准备在该店购买两台该款学习机,请从付款总金额数学期望的角度分析选哪种方案更优惠.
参考公式:对于经验回归方程,,;样本相关系数.
参考数据:,,.
【答案】(1)0.96,与具有较强的线性相关性;
(2);当时,千台;
(3)选第二种方案更优惠,理由见解析.
【分析】(1)根据公式算出线性相关系数,并根据判断标准作出判断即可;
(2)根据最小二乘法求得,进而求得关于的经验回归方程,代入可得月广告投入600万元时,该款学习机的月销量;
(3)分别计算两种方案的付款期望,并比较大小,可得选第二种方案更优惠.
【详解】(1)由题可知,,所以
所以.
所以y与x具有较强的线性相关性.
(2)由(1)知.
因为,,
所以.
关于的经验回归方程为,故当时,.
所以估计当月广告投入600万元时,该款学习机的月销量约为千台.
(3)家长准备在该店购买两台该款学习机,选第二种方案更优惠.理由如下:
若采用方案一,可享受优惠(元);付款总金额数学期望为(元);
若采用方案二,记中奖次数为X,则.
;;
;;
记该家长购买两台学习机可享受优惠共为Y元,则Y的分布列如下:
Y
600
1200
1600
2000
P
所以(元).
所以若采用方案二,付款总金额数学期望为(元).
因为,所以选第二种方案更优惠.
3.根据统计数据和研究报告,2025年中国新能源汽车产销呈现强劲增长态势,渗透率(渗透率=新能源汽车销量÷当月汽车总销量)持续攀升,行业格局加速分化.2025年3月新能源汽车渗透率首次超过,2025年1月至6月,全国新能源汽车的渗透率统计如下:
2025年1月至6月新能源汽车渗透率统计表
月份
1
2
3
4
5
6
渗透率
41.4
49.4
51.1
51.5
53.0
53.3
(1)2025年6月全国汽车销量为208.4万辆,计算该月新能源汽车的销量(精确到0.1).
(2)根据以上数据,建立y关于月份x的经验回归方程,并预测2025年7月新能源汽车的渗透率.
(3)实际7月新能源汽车的渗透率为,请:
①结合预测值分析误差原因;
②提出改进模型的建议.
【答案】(1)万辆;
(2);;
(3)①原因见解析;②建议见解析.
【分析】(1)由渗透率计算公式结合题意可得答案;
(2)由最小二乘法结合题目数据可得回归方程,随后可以完成估计;
(3)①结合(2)中结果和实际情况,即可作出判断;②根据实际情况,即可提出建议.
【详解】(1)因渗透率=新能源汽车销量÷当月汽车总销量,又2025年6月全国汽车销量为208.4万辆,则6月新能源汽车的销量为:万辆;
(2)由题,,
.,,
,
则,.
故回归方程为:.当时,;
则2025年7月新能源汽车的渗透率的估计值为:;
(3)①根据生活实际,新能源汽车销量达到一定程度后增长会放缓,又新能源汽车销售量与对应渗透率成正比例关系,则渗透率增长到一定程度后会放缓.但所采用的模型,增长速度保持恒定,故产生了误差;
②可采用新模型,例如非线性模型,,来体现增长速度先快后放缓
(建议用时:45分钟)
刷模拟
1.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.完成生产任务的工作时间不超过70分钟的工人为“优秀”,否则为“合格”.根据工人完成生产任务的工作时间(单位:分钟)绘制了如下茎叶图:
(1)求40名工人完成生产任务所需时间的第75百分数;
(2)独立地从两种生产方式中各选出一个人,求选出的两个人均为优秀的概率;
(3)根据工人完成生产任务的工作时间,两种生产方式优秀与合格的人数填入下面的2×2列联表:
第一种生产方式
第二种生产方式
总计
优秀
合格
总计
根据上面的2×2列联表,判断能否有95%的把握认为两种生产方式的工作效率有显著差异?(.其中,).
【答案】(1)88.5
(2)
(3)有95%的把握认为两种生产方式的工作效率有显著差异
【分析】(1)将这40个数据从小到大排列,取第30人和第31人时间的平均值即可.
(2)利用古典概型的方法即可求得概率.
(3)利用列联表代入公式即可.
【详解】(1)根据题意,将这40个数据从小到大排列,61,61,62,63,63,65,65,67,68,69,70,70,71,72,72,72,72,74,75,77,78,
81,82,82,83,84,84,84,87,87,90,90,91,91,91,92,92,93,94,94
,故取第30人和第31人时间的平均值为;
(2)设选出的工人为优秀为事件A,第一种正产方式A 的基本事件数是2个,
第二种生产方式A的基本事件数是10个,
所以独立地从两种生产方式中各选出一个人,选出的两个人均为优秀的概率为.
(3)
第一种生产方式
第二种生产方式
总计
优秀
2
10
12
合格
18
10
28
总计
20
20
40
,
故有95%的把握认为两种生产方式的工作效率有显著差异.
2.(2025·上海嘉定·一模)A校抽取66名高一年级学生测量身高,因某种原因原始数据遗失.已知该样本是按照分层随机抽样的方法抽取的,其中男生34名,身高平均数为173cm;女生32名,身高平均数为161cm.该66名学生身高的方差为60,其频率分布直方图如下:
(1)求该66名学生中身高在(单位:cm)内的人数;
(2)试用已知数据估计A校高一年级全体学生身高的平均数;(结果精确到0.1cm)
(3)若一组数据落在(是平均数,是标准差)内的频率不小于92%,则称这组数据满足“常态”.试判断这66个身高数据是否满足“常态”,并说明理由.
【答案】(1)
(2)
(3)满足,说明见解析
【分析】(1)根据频率分布直方图,求出身高在的频率,再求出频数即可得到答案;
(2)求出66名学生的身高平均数,用样本估计总体即可得到结果;
(3)根据题目数据求出约为,再根据频率分布直方图求出数据落在的频率,根据即可进行判断.
【详解】(1)由频率分布直方图可知,身高在的频率为,
,所以该66名学生中身高在(单位:cm)内的人数为人.
(2)这66名高一年级学生身高平均数为,
因为该样本是按照分层随机抽样的方法抽取的,所以估计校高一年级全体学生身高的平均数为.
(3)由(2)知,所以约为,
数据落在内的频率为,
因为,所以数据落在内的频率不小于,
所以这66个身高数据满足“常态”.
3.(2025·上海杨浦·一模)为了了解某校高三年级学生的体育成绩,随机选取名学生参加考核,将考核的成绩(满分分,成绩均为不低于分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)在考核成绩为,,的三组学生中,用分层抽样的方法抽取人,则考核成绩在中的学生应抽取多少人?
(3)若落在学生的平均成绩是,方差是,落在学生的平均成绩为,方差是,求这两组学生成绩的平均数和方差.(结果精确到)
【答案】(1)
(2)
(3)平均数为,方差为
【分析】(1)利用频率之和为结合频率分布直方图列式求出;
(2)利用频率分布直方图求出成绩为,,的学生人数,再根据分层抽样的概念求解即可;
(3)先利用频率分布直方图求出和的学生人数,再根据平均数和方差公式计算求解即可.
【详解】(1)由频率分布直方图可得,
解得.
(2)由频率分布直方图知,样本考核成绩在,,的三组学生有(人),
其中样本考核成绩在的市民人数为,
用分层抽样的方法应从考核成绩在的市民中抽取(人).
(3)由频率分布直方图知,成绩在的学生人数为,
成绩在的市民人数为,
所以总平均数,
总方差.
4.(2025·上海青浦·三模)口袋里装有大小与质地相同的4个红球和8个白球,甲、乙两人从袋中摸球,每次摸1个球.
(1)若甲、乙两人无放回地摸球,由甲先摸1个球,乙再摸1个球,求甲摸到白球的条件下,乙摸到红球的概率;
(2)制定规则如下:若一方摸出1个红球,则此人继续下一次摸球,若一方摸出1个白球,则由对方接替下一次摸球,由甲进行第一次摸球.
①若甲、乙两人无放回地摸球,求第三次仍由甲摸球的概率;
②若甲、乙两人每次摸球后都放回地摸球,求在前两次摸球中,甲摸得的红球次数的分布及期望.
【答案】(1);
(2)①;②分布列见解析,.
【分析】(1)应用条件概率的求法求甲摸到白球的条件下,乙摸到红球的概率;
(2)①由题设,满足要求的情况有甲第一次摸到红球,第二次也摸到红球;甲第一次摸到白球,乙第二次摸到白球,应用独立事件的乘法公式、互斥事件的加法求概率;②根据已知确定随机变量的可能值及其对应的概率,写出分布列,进而求期望.
【详解】(1)口袋共有12个球,甲先摸球,摸到白球的概率为,
甲摸到白球后,口袋还剩11个球,其中红球有4个,则甲摸到白球且乙摸到红球的概率为,
综上,甲摸到白球的条件下,乙摸到红球的概率为;
(2)①由题设,满足要求的情况有甲第一次摸到红球,第二次也摸到红球;甲第一次摸到白球,乙第二次摸到白球;
所以若甲、乙两人无放回地摸球,第三次由甲摸球的概率为;
②由题意,的可能值为,且,,,
所以的分布列如下,
0
1
2
则.
5.(2025·上海·三模)某电台举办有奖知识竞答比赛,选手答题规则相同.甲每道题自己有把握独立答对的概率为,若甲自己没有把握答对,则在规定时间内连线亲友团寻求帮助,其亲友团每道题能答对的概率为,假设每道题答对与否互不影响.
(1)当时,
(i)若甲答对了某道题,求该题是甲自己答对的概率;
(ii)甲答了4道题,计甲答对题目的个数为随机变量,求随机变量的分布列和数学期望;
(2)乙答对每道题的概率为(含亲友团),现甲乙两人各答两个问题,若甲答对题目的个数比乙答对题目的个数多的概率不低于,求甲的亲友团每道题答对的概率的最小值.
【答案】(1)(i)(ii)分布列见解析,数学期望为;
(2)
【分析】(1)(i)利用条件概率公式求解;(ii)求出的可能值,再利用二项分布的概率求出分布列及期望.
(2)利用相互独立事件、互斥事件的概率公式求出概率,再结合已知建立不等式求解.
【详解】(1)(i)记事件为“甲答对了某道题”,事件为“甲自己答对”,
则,,
所以.
(ii)可能取值为0,1,2,3,4,甲答对某道题的概率,
则,
所以的分布列为:
0
1
2
3
4
数学期望.
(2)记事件为“甲答对了道题”,事件为“乙答对了道题”,
其中甲答对某道题的概率为,答错某道题的概率为,
则,
,
,
所以甲答对题数比乙多的概率为:
,解得,
所以甲的亲友团助力的概率的最小值为.
6.为吸引客流,某商场举办了“摸球赢好礼”活动,一共设置两关游戏.第一关游戏开始时,主持人在空箱子中放入大小、形状完全相同的1黑、3红共4个球,顾客从箱子中随机且不放回地依次摸出两个球,只要能摸出黑球,便可晋级第二关游戏“赢积分、换好礼”.
(1)小江正在参与第一关游戏.记事件为“小江摸出的第一个球是红球”,事件为“小江晋级了第二关游戏”,分别求;
(2)小江成功晋级第二关游戏.已知第二关游戏规则如下:游戏开始前,顾客要先决定好摸球的局数,而后主持人在空箱子中放入大小、形状完全相同的1黑、3红及白共个球,并充分搅匀.游戏过程中,顾客每局均从箱子里随机摸出一个球,确认颜色并按规则积分,然后把球放回箱子,充分搅匀后再进行下一局摸球,以此类推,直到摸完局球,第二关结束.记分规则如下:
颜色
黑色
红色
白色
得分
+10
在第二关中,顾客的初始积分为0分,将每一局所得积分累加得到最终积分.最终积分越高,所换取的礼品价值越大.
①若小江决定摸球的局数,求她在第二局中所得积分的分布与期望;
②为使最终的期望收益最大化,小江应该如何设定摸球的次数?
【答案】(1)
(2)①分布列见解析,;②摸球次时,收益最大
【分析】(1)由古典概型的概率计算公式可得结果;
(2)①由古典概型的概率计算公式和期望的计算公式可得结果;②先计算得到每局的期望和总期望,然后利用换元和均值不等式求出结果.
【详解】(1)
(2)①,则箱子中共有个球,其中黑、红及白,
由题意可知,的所有可能取值为10,5,,且
,
所以其分布列如下:
10
5
.
②设小江应该设定摸球的次数为,则
每局期望为:
总期望为:
令
当且仅当时取等号,即,所以
所以小江应该设定摸球次时,收益最大.
7.(2025·上海·三模)在2025年春节档电影中,由饺子导演的《哪吒之魔童闹海》电影在国内外受到一致好评,票房也一路飙升到国内第一,也是国内首部百亿票房,其中有不少观众对角色喜欢都有自己的见解.刘同学为了了解学生喜欢哪吒角色是否与性别有关,他对50位同学进行了问卷调查,得到如下2x2列联表:
喜欢哪吒角色
不喜欢哪吒角色
总计
女生
10
男生
5
总计
50
已知从50位同学中随机抽取1人,抽到喜欢哪吒角色的学生的概率为0.6.
(1)请将上面的列联表补充完整,并且判断是否有的把握认为喜欢哪吒角色与性别有关;
(2)从喜欢哪吒角色的同学中,按分层抽样的分式,随机抽取6人做进一步的问卷调查,再从这6人中随机选出3人采访发言.设这3人中男生人数为,求的分布及期望值.
附:.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)列联表见解析,有的把握认为喜欢哪吒角色与性别有关,理由见解析
(2)分布列见解析,期望值为2.
【分析】(1)根据题意计算即可完善列联表,再根据卡方的计算即可求解;
(2)根据分层抽样计算出男女生人数,结合服从超几何分布计算概率写出分布列,最后计算数学期望.
【详解】(1)因为从全班50人中随机抽取1人,抽到喜欢哪吒角色的学生的概率为0.6,
所以喜欢哪吒角色的学生人数为,其中女生10人,则男生20人.
不喜欢哪吒角色的人数为,其中男生5人,则女生15人.
列联表补充如下,
喜欢哪吒角色
不喜欢哪吒角色
总计
女生
10
15
25
男生
20
5
25
总计
30
20
50
根据列联表中的数据,计算可得,
故有的把握认为喜欢哪吒角色与性别有关.
(2)由题意,按分层抽样抽取的6人中,男生人数为,女生人数为
表示从这6人中随机选出3人中男生的人数,所以的所有可能取值为.
则,
,
.
所以的分布列为
1
2
3
数学期望.
8.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
8
y
112
61
44.5
35
30.5
28
25
24
根据以上数据绘制了散点图,如图所示.
由图可知,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型.分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本.
参考数据:(其中)
183.4
0.34
0.115
1.53
360
22385.5
61.4
0.135
【答案】(1)
(2)用反比例函数模型拟合效果更好,21元
【分析】(1)令,求出,求出,求出y关于x的回归方程;
(2)求出y与的相关系数,证明反比例函数模型拟合效果更好即可求解.
【详解】(1)令,则可转化为,
因为,所以,
则,
所以,所以y关于x的回归方程为;
(2)y与的相关系数,
因为,所以用反比例函数模型拟合效果更好,
当时(元),
所以当产量为10千件时,每件产品的非原料成本为21元.
9.某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人y数(万人)与第个月的数据:
x
1
2
3
4
5
y
23.1
37.0
62.1
111.6
150.8
(1)根据表中数据可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,且回归方程中的,请计算相关系数r(精确到0.01),并判断是否可以认为y与x的线性相关性很强;
(2)为更好地改进服务,景点对每位游客进行了满意度调查,已知评分X近似服从正态分布,评分低于m的游客约占15.865%,求m的值;
(3)为进一步了解游客性别与满意度的关系,随机抽查200名游客,得到如下列联表,请填写下面的2×2列联表,根据小概率值的独立性检验,能否推断游客是否满意与性别有关?
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:
相关系数:若,则认为与有较强的线性相关性.
回归方程中斜率的最小二乘法估计公式为:
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
参考数据:,
若,则,
【答案】(1),可以认为与有较强的线性相关性;
(2)
(3)答案见解析
【分析】(1)根据题给数据算出平均数,再根据参考数据及,再对和进行求值,即可得到的值,再根据相关系数公式求解即可;
(2)根据正态分布曲线的对称性求出,即可求出;
(3)根据题给数据完成列联表,再根据公式代值求解,再与比较大小,即可得解.
【详解】(1)由题可知,,
,
则,可得,
相关系数
,
可以认为与有较强的线性相关性.
(2)因,则,
因,
则.
(3)填写下面的列联表
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
由表可知,,
零假设:游客是否满意与性别无关,
则
所以根据小概率值的独立性检验,能推断游客是否满意与性别有关.
10.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)①;
(2)
【分析】(1)根据残差点的分布情况分析即可;
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【详解】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度可以用线性回归方程来拟合,则.
, ,
则关于的线性回归方程为,即,
产卵数关于温度的回归方程为.
11.某校高中学生课后每天整理数学错题(单位:道)和他们的数学成绩(单位:分)之间存在近似的线性关系,数据如下表:
整理错题道
数学成绩分
(1)试用最小二乘法求出关于的线性回归方程,并预测每天整理数学错题道时的数学成绩;
(2)基于上述数据整理,该校提倡学生课后进行数学错题整理,经过一段时间后,在本校学生中采用随机抽样的方法抽取了名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
不是每天都整理数学错题人数
合计
试问:数学成绩总评优秀与每天都整理数学错题有关吗?
附:,;
,.
【答案】(1)回归方程为,分
(2)有,理由见解析
【分析】(1)求出、的值,利用最小二乘法可求出关于的线性回归方程,将代入回归方程,求出的值,可得出结论;
(2)零假设数学成绩总评优秀与每天都整理数学错题无关,计算出的观测值,结合临界值表可得出结论.
【详解】(1)由表格中的数据可得,,
所以,
,
故关于的线性回归方程为,
当时,,
预测每天整理数学错题道时的数学成绩约为分.
(2)零假设数学成绩总评优秀与每天都整理数学错题无关,
,
所以,我们认为数学成绩总评优秀与每天都整理数学错题有关.
12.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215
17713
714
27
81.3
3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
【答案】(1)更适宜
(2)
(3)选择方案1最佳,理由见解析
【分析】(1)根据散点图的形状,可判断更适宜作为平均产卵数y关于平均温度x的回归方程类型;
(2)将两边同时取自然对数,转化为线性回归方程,即可得到答案;
(3)求出三种方案的收益的均值,根据均值越大作为判断标准.
【详解】(1)由散点图可以判断,更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将两边同时取自然对数,可得,
由题中的数据可得,,,
所以,
则,
所以z关于x的线性回归方程为,
故y关于x的回归方程为;
(3)用,和分别表示选择三种方案的收益.
采用第1种方案,无论气温如何,产值不受影响,收益为万,即
采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为万,
如果发生,则收益为万,即,
同样,采用第3种方案,有
所以,,
,
.
显然,最大,所以选择方案1最佳.
刷真题
1.(2024·上海·高考真题)水果分为一级果和二级果,共136箱,其中一级果102箱,二级果34箱.
(1)随机挑选两箱水果,求恰好一级果和二级果各一箱的概率;
(2)进行分层抽样,共抽8箱水果,求一级果和二级果各几箱;
(3)抽取若干箱水果,其中一级果共120个,单果质量平均数为303.45克,方差为603.46;二级果48个,单果质量平均数为240.41克,方差为648.21;求168个水果的方差和平均数,并预估果园中单果的质量.
【答案】(1)
(2)一级果抽取6箱,二级果抽取2箱
(3)方差克,平均数克,预估平均质量为克
【分析】(1)利用组合知识和超几何分布求概率公式求出答案;
(2)利用分层抽样的定义进行求解;
(3)根据公式计算出总体样本平均质量和方差,并预估平均质量.
【详解】(1)设A事件为恰好选到一级果和二级果各一箱,
样本空间的样本点的个数,
A事件的样本点的公式,
所以;
(2)因为一级果箱数:二级果箱数,
所以8箱水果中有一级果抽取箱,二级果抽取箱;
(3)设一级果平均质量为,方差为,二级果质量为,方差为,
总体样本平均质量为,方差为,
因为,,,,
所以克,
克.
预估平均质量为克.
2.(2026·上海·高考真题)某兴趣班共150人,年龄分布及兴趣爱好统计如下:
年龄
剪纸
摄影
画画
人数
8
45
10
55
6
50
(1)现采用分层抽样抽取30人,其中抽到年龄在岁的有多少人?
(2)该兴趣班150人的平均年龄是多少?
(3)现从150人中任意抽选1人,记抽到的学员年龄在为事件,记抽到学员爱好摄影为事件.事件与是否独立?请说明理由.
【答案】(1)9;
(2);
(3)不相互独立,理由见解析.
【分析】(1)由题意,计算年龄段占总体比例,据此可得答案.
(2)利用年龄区间中点作为该区间年龄平均值,再由各年龄段人数占总体比例可得答案;
(3)验证,是否等于可得答案.
【详解】(1)年龄段占总体比例为: ,则抽取人数为:;
(2)由题可得人的平均年龄为:;
(3)由题可得,,,
注意到,则事件A与事件B不相互独立.
3.(2023·上海·高考真题)21世纪汽车博览会在上海2023年6月7日在上海举行,下表为某汽车模型公司共有25个汽车模型,其外观和内饰的颜色分布如下表所示:
红色外观
蓝色外观
米色内饰
8
12
棕色内饰
2
3
(1)若小明从这些模型中随机拿一个模型,记事件A为小明取到的模型为红色外观,事件B取到模型有棕色内饰,求,并据此判断事件A和事件B是否独立;
(2)为回馈客户,该公司举行了一个抽奖活动,并规定,在一次抽奖中,每人可以一次性抽取两个汽车模型。为了得到奖品类型,现作出如下假设:
假设1:每人抽取的两个模型会出现三种结果:①两个模型的外观和内饰均为同色;②两个模型的外观和内饰均为不同色;③两个模型的外观同色但内饰不同色,或内饰同色但外观不同色。
假设2:该抽奖设置三类奖,奖金金额分别为:一等奖600元,二等奖300元,三等奖150元。
假设3:每种抽取的结果都对应一类奖。出现某种结果的概率越小,奖金金额越高。
请判断以上三种结果分别对应几等奖。设中奖的奖金数是,写出的分布,并求的数学期望。
【答案】(1),事件相互独立;
(2)分布列见解析,271元.
【分析】(1)根据给定数表,利用古典概率求出,再利用相互独立事件的定义判断作答.
(2)求出三种结果的概率,按给定的假设2,3确定奖金额与对应的概率列出分布列,求出期望作答.
【详解】(1)由给定的数表知,,,,
而,因此事件相互独立,
所以,事件相互独立.
(2)设事件:外观和内饰均为同色,事件:外观内饰都异色,事件:仅外观或仅内饰同色,
依题意,;;
,则,
因此抽取的两个模型的外观和内饰均为不同色是一等奖;外观和内饰均为同色是二等奖;
外观同色但内饰不同色,或内饰同色但外观不同色是三等奖,
奖金额的可能值为:,
奖金额的分布列:
600
300
150
奖金额的期望(元).
4.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
【答案】(1)
(2)
(3)有
【分析】(1)求出相关占比,乘以总人数即可;
(2)根据平均数的计算公式即可得到答案;
(3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论.
【详解】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.
.
则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
5.(2025·上海·高考真题)甲、乙是两个体育社团的小组.如下是两组组员身高的茎叶图(单位:厘米),以身高的百位数和十位数作为“茎”排列在中间、个位数作为“叶”分列在两边.
(1)分别求甲、乙两组组员身高的第60百分位数;
(2)从甲、乙两组各选取一个组员,求两人身高均在170厘米以上的概率;
(3)为使两组人数相同,从甲组中调派一个队员到乙组.是否存在甲组的一个组员,将他调派至乙组后,甲、乙两组的平均身高都增大?
【答案】(1)甲组第60百分位数为173 厘米,乙组第60百分位数为厘米;
(2);
(3)把甲组的其中一个167厘米的组员调到乙组.
【分析】(1)直接利用百分位数计算公式即可;
(2)根据组合公式和古典概率公式计算即可;
(3)求出两者平均数,则所调的人员身高应该两平均数之间(不包括两平均数).
【详解】(1)甲队:,
所以甲组的第60百分位数为从小到大排列的第8位组员身高,为173厘米;
乙队:,
所以乙组的第60百分位数为从小到大排列第6位和第7位组员身高的平均数,为厘米.
(2)记甲乙两队各选取一名组员,两人身高均在170厘米以上为事件,
.
(3),
要使两组平均身高都增大,
则从甲组调到乙组的组员身高应在两平均数之间(不包括端点平均数),所以把甲组的其中一个167厘米的组员调到乙组即可.
6.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
【答案】(1);;
(2)
(3)
【分析】(1)由最长与最短用时可得极差,由中间两数平均数可得中位数;
(2)由古典概型概率公式可得;
(3)先求成绩平均数,再由在回归直线上,代入方程可得,再代入年份预测可得.
【详解】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数
,
由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
1 / 2
学科网(北京)股份有限公司
$
专项01 概率统计
内容导航
【命题解码·定方向】命题趋势+2026年预测
【解题建模·通技法】析典例,建模型,技法贯通破类题/变式
【实战刷题·冲高分】精选高考大题+名校模拟题,强化实战能力,得高分
根据近五年上海卷考情,概率统计必考主干,解答题分值14分.
命题趋势:
年份
题号
核心考点
情境
难度
2021
19
频率分布、古典概型、期望
产品质量检测
★☆☆
2022
19
茎叶图、独立事件、二项分布
体育比赛
★☆☆
2023
17
线性回归、相关系数、条件概率
环保数据
★☆☆
2024
17
分层抽样、古典概型、分布列
校园活动
★☆☆
2025
17
频率直方图、全概率、期望
交通出行
★☆☆
2026年预测:
· 统计基础(第一问,6-8分):频率分布直方图、茎叶图、平均数、中位数、方差/标准差、分层抽样;高频涉及线性回归方程、相关系数计算
· 概率计算(第二问,6-8分):古典概型、独立事件、条件概率、全概率公式、离散型随机变量分布列、数学期望;二项分布为次高频考点
命题风格预测
· 情境贴合热点:AI数据监测、医疗筛查、环保统计、校园活动、交通出行等生活化场景
· 设问结构固定:先统计量计算,再概率+期望,最后轻度决策(如“根据期望判断方案优劣”)
· 轻度创新:新增统计意义解释、正态分布识图、卡方检验基础判断,无偏题怪题
最可能考题型
1. 频率分布直方图+古典概型+分布列+期望
2. 线性回归+条件概率+概率决策
3. 分层抽样+全概率公式+二项分布
避坑要点:区分频率/概率、有放回/无放回、独立/互斥事件;分布列列全再算期望,步骤不省略
题型01 统计图表+统计量计算
析典例·建模型
1.(交通出行背景)李先生是一名上班族,为了比较上下班的通勤时间,记录了20天个工作日内,家里到单位的上班时间以及同路线返程的下班时间(单位:分钟),如下茎叶图显示两类时间的共40个记录:
(1)求出这40个通勤记录的中位数M,并完成下列2×2列联表:
超过M
不超过M
上班时间
下班时间
(2)根据列联表中的数据,请问上下班的通勤时间是否有显著差异?并说明理由.
附:,,
2.(校园大数据场景)王老师将全班40名学生的高一数学期中考试(满分100分)成绩分成5组,绘制成如图所示的频率分布直方图,现将记作第一组,、、、分别记作第二、三、四、五组.已知第一组、第二组的频率之和为0.3,第一组和第五组的频率相同.
(1)估计此次考试成绩的平均值(同一组数据用该组数据的中点值代替);
(2)王老师将测试成绩在和内的试卷进行分析,再从中选2人的试卷进行优秀答卷展示,求被选中进行优秀答卷展示的这2人的测试成绩至少1个在内的概率;
(3)已知第二组考生成绩的平均数和方差分别为65和40,第四组考生成绩的平均数和方差分别为83和70,据此计算第二组和第四组所有学生成绩的方差.
3.(2025·上海虹口·一模)班主任小明为了解本班每位学生每周平均手机使用时长(单位:小时),在某一学期每周对全班名学生进行问卷调查,收集了全部数据并计算出每位学生每周平均手机使用时长,绘制了相应的统计图表,全班用时最长的为小时.其中,男生每周平均手机使用时长的茎叶图如图所示,女生每周平均手机使用时长的频率分布直方图如图所示.
(1)求该班男生每周平均手机使用时长的第百分位数;
(2)小明老师想从本班每周平均手机使用时长小于小时的学生中任选人在班会课上做经验分享.设事件表示 “人中至多名男生”,事件表示 “人中恰有名学生的每周平均手机使用时长位于区间”.试判断事件和事件是否独立,并说明理由;
(3)小明老师发现本班有位学生的每周平均手机使用时长超过小时,这位学生的数据平均数为小时.当去掉这位学生中用时最长和用时最短的数据后,平均数变为小时,且这位学生中女生的数据从小到大依次排序成等差数列.那么这位学生每周平均手机使用时长的方差是否超过?请说明理由.
研考点·通技法
· 解题步骤:第一步识图(提取频率/频数/组距)→第二步套公式(均值、中位数、方差)→第三步验算数据
· 技巧:频率分布直方图中位数找面积等分线,方差计算先算均值再代入,茎叶图直接提取数据不看错行
破类题·提能力
1.(2025·上海崇明·一模)为培养学生的社会责任感,某校开展了为期一学期的“温暖社区,青春奉献”志愿服务活动.活动结束后,学校从甲、乙两个班级中统计了部分学生的志愿服务时长(单位:小时),统计结果用茎叶图记录如图所示(十位数字作为“茎”,个位数字作为“叶”).已知甲组有9名学生的数据,乙组有10名学生的数据.
(1)分别写出甲、乙两组学生服务时长的第70百分位数;
(2)从甲、乙两组学生中各随机抽取1人,求抽取的2人中恰有1人的服务时长超过30小时的概率;
(3)记甲组志愿服务时长的方差为;在甲组中增加一名学生得到“新甲组”,若的志愿服务时长为27,则记“新甲组”志愿服务时长的方差为;若的志愿服务时长为20,则记“新甲组”志愿服务时长的方差为;通过计算比较的大小(结果精确到0.1),并从数学角度解释这一现象.
2.(2025·上海嘉定·二模)某学校对学生的课外阅读时间进行调查,随机抽取了150位学生,得到如下样本数据频率分布直方图.
(1)估计该校学生的平均课外阅读时间;(同一组数据用该区间的中点值作代表)
(2)估计该校学生课外阅读时间位于区间(单位:小时/月)的概率;
(3)已知该校喜欢阅读的学生占比为18%,初一年级学生占该校总学生数的28%,且初一年级学生中喜欢阅读的占40%,求其他年级学生中喜欢阅读的比例.(精确到0.1%)
3.2024年法国奥运会落下帷幕.某平台为了解观众对本次奥运会的满意度,随机调查了本市1000名观众,得到他们对本届奥运会的满意度评分(满分100分),平台将评分分为共5层,绘制成频率分布直方图(如图1所示).并在这些评分中以分层抽样的方式从这5层中再抽取了共20名观众的评分,绘制成茎叶图,但由于某种原因茎叶图受到了污损,可见部分信息如图2所示.
(1)求图2中这20名观众的满意度评分的第35百分位数;
(2)若从图2中的20名观众中再任选取3人做深度采访,求其中至少有1名观众的评分大于等于90分的概率;
(3)已知这1000名观众的评分位于上的均值为67,方差为64.7,位于上的均值为73,方差为134.6,求这1000名观众的评分位于上的均值与方差.
题型02概率+分布列+期望
析典例·建模型
1.盒子中装有大小和质地相同的6个红球和3个白球;
(1)从盒子中随机抽取出1个球,观察其颜色后放回,并同时放入与其颜色相同的球3个,然后再从盒子随机取出1个球,求第二次取出的球是红球的概率;
(2)从盒子中不放回地依次随机取出2个球,设2个球中红球的个数为,求的分布、期望与方差;
2.(2025·上海崇明·二模)某区2025年3月31日至4月13日的天气预报如图所示.
(1)从3月31日至4月13日某天开始,连续统计三天,求这三天中至少有两天是阵雨的概率;
(2)根据天气预报,该区4月14日的最低气温是9,温差是指一段时间内最高温度与最低温度之间的差值,例如3月31日的最高温度为17,最低温度为9,当天的温差为8记4月1日至4日这4天温差的方差为,4月11日至14日这4天温差的方差为,若,求4月14日天气预报的最高气温;
(3)从3月31日至4月13日中随机抽取两天,用X表示一天温差不高于9的天数,求X的分布列及期望.
3.(环保统计)垃圾分类能减少有害垃圾对环境的破坏,同时能提高资源循环利用的效率.目前上海社区的垃圾分类基本采用四类分类法,即干垃圾,湿垃圾,可回收垃圾与有害垃圾.某校为调查学生对垃圾分类的了解程度,随机抽取100名学生作为样本,按照了解程度分为A等级和B等级,得到如下列联表:
男生
女生
总计
A等级
40
20
60
B等级
20
20
40
总计
60
40
100
(1)根据表中的数据回答:学生对垃圾分类的了解程度是否与性别有关(规定:显著性水平)?
附:,其中,.
(2)为进一步加强垃圾分类的宣传力度,学校特举办垃圾分类知识问答比赛.每局比赛由二人参加,主持人A和B轮流提问,先赢局者获得奖项并结束比赛.甲,乙两人参加比赛,已知主持人A提问甲赢的概率为,主持人B提问甲赢的概率为,每局比赛互相独立,且每局都分输赢.现抽签决定第一局由主持人A提问.
(i)求比赛只进行3局就结束的概率;
(ii)设为结束比赛时甲赢的局数,求的分布和数学期望.
研考点·通技法
· 解题步骤:判断概率模型(古典/独立/条件)→计算单个事件概率→列全分布列(验证概率和为1)→代入期望公式
· 技巧:有放回抽样用独立事件,无放回用古典概型;条件概率牢记公式 ,分清先后顺序
破类题·提能力
1.(2025·上海闵行·二模)某社团共有12名成员,其中高一男生2人,女生4人,高二男生3人,女生3人.现从中随机抽选2人参加数学知识问答.
(1)若逐个抽选,求恰好第一个抽选的是男生的概率;
(2)若恰好抽选了1名男生与1名女生,求这2人都是高二学生的概率;
(3)若恰好抽选了1名高一学生与1名高二学生,记抽选出来的男生与女生的人数之差的绝对值为,求的分布列与数学期望.
2.(2025·上海黄浦·三模)甲、乙、丙三人进行投篮比赛,共比赛10场,规定每场比赛分数最高者获胜,三人得分(单位:分)情况统计如下:
场次
1
2
3
4
5
6
7
8
9
10
甲
8
10
10
7
12
8
8
10
10
13
乙
9
13
8
12
14
11
7
9
12
10
丙
12
11
9
11
11
9
9
8
9
11
(1)从上述10场比赛中随机选择一场,求甲获胜的概率;
(2)在上述10场比赛中,从甲得分不低于10分的场次中随机选择两场,设表示乙得分大于丙得分的场数,求的分布列和数学期望;
(3)假设每场比赛获胜者唯一,且各场相互独立,用上述10场比赛中每人获胜的频率估计其获胜的概率.甲、乙、丙三人接下来又将进行6场投篮比赛,设为甲获胜的场数,为乙获胜的场数,为丙获胜的场数,写出方差,,的大小关系,并说明理由.
3.(2025·上海金山·二模)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
附:;
0.10
0.01
0.001
2.706
6.635
10.828
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
题型03 线性回归+概率决策
析典例·建模型
1.(2025·上海宝山·二模)某游乐园的活动项目共有三类,分别是“过山车”等10个体验类项目、“海豚之舞”等4个表演类项目、“智力闯关”等3个互动类项目.因设备维护需要,项目并非每日都全部开放.以下数据是项目开放的数量(个)和游客平均等待时间(分钟/个)的关系:
项目类别
体验类
演出类
互动类
开放数量(个)
4
5
6
7
8
2
4
2
3
平均等待时间(分钟/个)
76
73
67
60
53
30
46
30
(1)体验类项目中,若关于的回归方程为,请计算的值,并依据该模型预测所有体验类项目均开放时的平均等待时间(精确到整数);
(2)小王游玩当日,体验类、演出类、互动类项目分别开放了8个、4个、3个,他计划随机游玩其中的3个项目,已知他选择的项目中至少包含1个互动类项目,求他的等待总时间恰为120分钟的概率;
(3)为提高游客的参与度,园方在互动类项目“智力闯关”中设计了两关.通过第一关的游客奖励20个游园币,游客可以选择结束或继续闯关.若继续闯关,则必须完成第二关的所有题目.第二关包含2道相互独立的选择题,每答对1题可再奖励20个游园币,每答错1题则要扣除10个游园币.每个游园币可兑换园区内任意一个项目的1分钟等待时间.小王已通过第一关,假设他在第二关中每道题答对的概率均为,为了获得更多项目等待时间的兑换奖励,小王是否应该继续闯关?请你帮他做出决策.
2.(2025·上海金山·三模)根据相关研究报告显示,预计年电商交易额突破亿元,网购用户规模接近亿.下表为某网店统计的近个月的利润(单位:万元),其中为月份代号.
月份
2024年12月
2025年1月
2025年2月
2025年3月
2025年4月
月份代号
1
2
3
4
5
利润/万元
8
6.3
5.1
3.2
2.4
(1)依据表中的统计数据,计算样本相关系数(精确到),判断是否可以用线性回归模型拟合与的关系;若可用,求出关于的经验回归方程,并估计年月该网店利润;若不可用,请说明理由;
(2)该专营店为了吸引顾客,推出两种抽奖方案.方案一:一次性购物金额超过元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打折,中奖两次打折,中奖三次打折,其余情况不打折.方案二:从装有个形状大小、完全相同的小球(其中红球个,白球个,黑球个)的抽奖盒中,一次性摸出个球,其中奖规则为:若摸出个红球和一个白球打六折,摸出个黑球打八折,其余情况不打折.某顾客计划在此网店购买元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
参考:,,
3.烧烤是某地的特色美食,今年春季一场始于烟火、归于真诚的邂逅,让无数人前往“赶烤”.当地某烧烤店推出150元的烧烤套餐,调研发现,烧烤店成本y(单位:千元,包含人工成本、原料成本、场地成本、设备损耗等各类成本)与每天卖出套餐数x(单位:份)的关系如下:
1
3
4
6
7
5
6.5
7
7.5
8
与可用回归方程(其中为常数)进行模拟.
参考数据与公式:设,则
6.8
线性回归直线中,.
(1)填写表格中的三个数据,并预测该烧烤店一天卖出100份的利润是多少元.(利润=售价-成本,结果精确到1元)
(2)据统计,由于烧烤的火爆,饮料需求也激增.4月份的连续16天中某品牌饮料每天为该地配送的箱数的频率分布直方图如图,用这16天的情况来估计相应的概率.供货商拟购置n辆小货车专门运输该品牌饮料,一辆货车每天只能运营一趟,每辆车每趟最多只能装载40箱该饮料,满载发车,否则不发车.若发车,则每辆车每趟可获利500元;若未发车,则每辆车每天平均亏损200元.若或4,请从每天的利润期望角度给出你的建议.
研考点·通技法
· 解题步骤:计算均值 →求回归系数 →写回归方程→代入预测→结合期望做决策
· 技巧:回归系数必过样本中心点,决策题先比较期望大小,再规范表述结论
破类题·提能力
1.随着科技的进步,近年来,我国新能源汽车产业迅速发展,各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升.某校数学兴趣小组对某品牌新能源汽车近 5 年的广告费投入(单位:亿元)进行了统计, 具体数据见下表:
年份代号
1
2
3
4
5
广告费投入
4.8
5.6
6. 2
7. 6
8. 8
并随机调查了 400 名市民对该品牌新能源汽车的认可情况, 得到的部分数据见下表:
认可
不认可
50 岁以下
140
60
50 岁及以上
120
80
(1)求广告费投入与年份代号之间的线性经验回归方程;
(2)依据小概率值的独立性检验,能否认为市民的年龄与对该品牌新能源汽车的认可度有关联?
附: ① 经验回归方程中,;
②,其中.
2.某高科技公司开发了一款AI学习机,为了解市场销售情况,该公司统计了过去5个月的月广告投入(单位:十万元)与该款学习机的月销量(单位:千台)的数据,如表所示.
月份代码
1
2
3
4
5
10
20
30
40
50
58
59
60
64
65
(1)求和的样本相关系数,并判断与是否具有较强的线性相关性;(结果精确到0.01,若,则认为与具有较强的线性相关性)
(2)求关于的经验回归方程,并估计月广告投入600万元时该款学习机的月销量;
(3)该款学习机目前售价为3000元/台,为提升销量,经销该款学习机的某专卖店针对该款学习机推出了两种促销方案.方案一:买一台立减400元;方案二:一次性购买两台可抽奖三次,每次中奖的概率均为,且每次抽奖相互独立,中奖一次立减600元/台,中奖两次立减800元/台,中奖三次立减1000元/台,若三次均未中奖,仍可享基础优惠300元/台.某家长准备在该店购买两台该款学习机,请从付款总金额数学期望的角度分析选哪种方案更优惠.
参考公式:对于经验回归方程,,;样本相关系数.
参考数据:,,.
3.根据统计数据和研究报告,2025年中国新能源汽车产销呈现强劲增长态势,渗透率(渗透率=新能源汽车销量÷当月汽车总销量)持续攀升,行业格局加速分化.2025年3月新能源汽车渗透率首次超过,2025年1月至6月,全国新能源汽车的渗透率统计如下:
2025年1月至6月新能源汽车渗透率统计表
月份
1
2
3
4
5
6
渗透率
41.4
49.4
51.1
51.5
53.0
53.3
(1)2025年6月全国汽车销量为208.4万辆,计算该月新能源汽车的销量(精确到0.1).
(2)根据以上数据,建立y关于月份x的经验回归方程,并预测2025年7月新能源汽车的渗透率.
(3)实际7月新能源汽车的渗透率为,请:
①结合预测值分析误差原因;
②提出改进模型的建议.
(建议用时:45分钟)
刷模拟
1.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.完成生产任务的工作时间不超过70分钟的工人为“优秀”,否则为“合格”.根据工人完成生产任务的工作时间(单位:分钟)绘制了如下茎叶图:
(1)求40名工人完成生产任务所需时间的第75百分数;
(2)独立地从两种生产方式中各选出一个人,求选出的两个人均为优秀的概率;
(3)根据工人完成生产任务的工作时间,两种生产方式优秀与合格的人数填入下面的2×2列联表:
第一种生产方式
第二种生产方式
总计
优秀
合格
总计
根据上面的2×2列联表,判断能否有95%的把握认为两种生产方式的工作效率有显著差异?(.其中,).
2.(2025·上海嘉定·一模)A校抽取66名高一年级学生测量身高,因某种原因原始数据遗失.已知该样本是按照分层随机抽样的方法抽取的,其中男生34名,身高平均数为173cm;女生32名,身高平均数为161cm.该66名学生身高的方差为60,其频率分布直方图如下:
(1)求该66名学生中身高在(单位:cm)内的人数;
(2)试用已知数据估计A校高一年级全体学生身高的平均数;(结果精确到0.1cm)
(3)若一组数据落在(是平均数,是标准差)内的频率不小于92%,则称这组数据满足“常态”.试判断这66个身高数据是否满足“常态”,并说明理由.
3.(2025·上海杨浦·一模)为了了解某校高三年级学生的体育成绩,随机选取名学生参加考核,将考核的成绩(满分分,成绩均为不低于分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)在考核成绩为,,的三组学生中,用分层抽样的方法抽取人,则考核成绩在中的学生应抽取多少人?
(3)若落在学生的平均成绩是,方差是,落在学生的平均成绩为,方差是,求这两组学生成绩的平均数和方差.(结果精确到)
4.(2025·上海青浦·三模)口袋里装有大小与质地相同的4个红球和8个白球,甲、乙两人从袋中摸球,每次摸1个球.
(1)若甲、乙两人无放回地摸球,由甲先摸1个球,乙再摸1个球,求甲摸到白球的条件下,乙摸到红球的概率;
(2)制定规则如下:若一方摸出1个红球,则此人继续下一次摸球,若一方摸出1个白球,则由对方接替下一次摸球,由甲进行第一次摸球.
①若甲、乙两人无放回地摸球,求第三次仍由甲摸球的概率;
②若甲、乙两人每次摸球后都放回地摸球,求在前两次摸球中,甲摸得的红球次数的分布及期望.
5.(2025·上海·三模)某电台举办有奖知识竞答比赛,选手答题规则相同.甲每道题自己有把握独立答对的概率为,若甲自己没有把握答对,则在规定时间内连线亲友团寻求帮助,其亲友团每道题能答对的概率为,假设每道题答对与否互不影响.
(1)当时,
(i)若甲答对了某道题,求该题是甲自己答对的概率;
(ii)甲答了4道题,计甲答对题目的个数为随机变量,求随机变量的分布列和数学期望;
(2)乙答对每道题的概率为(含亲友团),现甲乙两人各答两个问题,若甲答对题目的个数比乙答对题目的个数多的概率不低于,求甲的亲友团每道题答对的概率的最小值.
6.为吸引客流,某商场举办了“摸球赢好礼”活动,一共设置两关游戏.第一关游戏开始时,主持人在空箱子中放入大小、形状完全相同的1黑、3红共4个球,顾客从箱子中随机且不放回地依次摸出两个球,只要能摸出黑球,便可晋级第二关游戏“赢积分、换好礼”.
(1)小江正在参与第一关游戏.记事件为“小江摸出的第一个球是红球”,事件为“小江晋级了第二关游戏”,分别求;
(2)小江成功晋级第二关游戏.已知第二关游戏规则如下:游戏开始前,顾客要先决定好摸球的局数,而后主持人在空箱子中放入大小、形状完全相同的1黑、3红及白共个球,并充分搅匀.游戏过程中,顾客每局均从箱子里随机摸出一个球,确认颜色并按规则积分,然后把球放回箱子,充分搅匀后再进行下一局摸球,以此类推,直到摸完局球,第二关结束.记分规则如下:
颜色
黑色
红色
白色
得分
+10
在第二关中,顾客的初始积分为0分,将每一局所得积分累加得到最终积分.最终积分越高,所换取的礼品价值越大.
①若小江决定摸球的局数,求她在第二局中所得积分的分布与期望;
②为使最终的期望收益最大化,小江应该如何设定摸球的次数?
7.(2025·上海·三模)在2025年春节档电影中,由饺子导演的《哪吒之魔童闹海》电影在国内外受到一致好评,票房也一路飙升到国内第一,也是国内首部百亿票房,其中有不少观众对角色喜欢都有自己的见解.刘同学为了了解学生喜欢哪吒角色是否与性别有关,他对50位同学进行了问卷调查,得到如下2x2列联表:
喜欢哪吒角色
不喜欢哪吒角色
总计
女生
10
男生
5
总计
50
已知从50位同学中随机抽取1人,抽到喜欢哪吒角色的学生的概率为0.6.
(1)请将上面的列联表补充完整,并且判断是否有的把握认为喜欢哪吒角色与性别有关;
(2)从喜欢哪吒角色的同学中,按分层抽样的分式,随机抽取6人做进一步的问卷调查,再从这6人中随机选出3人采访发言.设这3人中男生人数为,求的分布及期望值.
附:.
0.050
0.010
0.001
3.841
6.635
10.828
8.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
8
y
112
61
44.5
35
30.5
28
25
24
根据以上数据绘制了散点图,如图所示.
由图可知,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型.分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本.
参考数据:(其中)
183.4
0.34
0.115
1.53
360
22385.5
61.4
0.135
9.某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人y数(万人)与第个月的数据:
x
1
2
3
4
5
y
23.1
37.0
62.1
111.6
150.8
(1)根据表中数据可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,且回归方程中的,请计算相关系数r(精确到0.01),并判断是否可以认为y与x的线性相关性很强;
(2)为更好地改进服务,景点对每位游客进行了满意度调查,已知评分X近似服从正态分布,评分低于m的游客约占15.865%,求m的值;
(3)为进一步了解游客性别与满意度的关系,随机抽查200名游客,得到如下列联表,请填写下面的2×2列联表,根据小概率值的独立性检验,能否推断游客是否满意与性别有关?
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:
相关系数:若,则认为与有较强的线性相关性.
回归方程中斜率的最小二乘法估计公式为:
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
参考数据:,
若,则,
10.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
11.某校高中学生课后每天整理数学错题(单位:道)和他们的数学成绩(单位:分)之间存在近似的线性关系,数据如下表:
整理错题道
数学成绩分
(1)试用最小二乘法求出关于的线性回归方程,并预测每天整理数学错题道时的数学成绩;
(2)基于上述数据整理,该校提倡学生课后进行数学错题整理,经过一段时间后,在本校学生中采用随机抽样的方法抽取了名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
不是每天都整理数学错题人数
合计
试问:数学成绩总评优秀与每天都整理数学错题有关吗?
附:,;
,.
12.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215
17713
714
27
81.3
3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
刷真题
1.(2024·上海·高考真题)水果分为一级果和二级果,共136箱,其中一级果102箱,二级果34箱.
(1)随机挑选两箱水果,求恰好一级果和二级果各一箱的概率;
(2)进行分层抽样,共抽8箱水果,求一级果和二级果各几箱;
(3)抽取若干箱水果,其中一级果共120个,单果质量平均数为303.45克,方差为603.46;二级果48个,单果质量平均数为240.41克,方差为648.21;求168个水果的方差和平均数,并预估果园中单果的质量.
2.(2026·上海·高考真题)某兴趣班共150人,年龄分布及兴趣爱好统计如下:
年龄
剪纸
摄影
画画
人数
8
45
10
55
6
50
(1)现采用分层抽样抽取30人,其中抽到年龄在岁的有多少人?
(2)该兴趣班150人的平均年龄是多少?
(3)现从150人中任意抽选1人,记抽到的学员年龄在为事件,记抽到学员爱好摄影为事件.事件与是否独立?请说明理由.
3.(2023·上海·高考真题)21世纪汽车博览会在上海2023年6月7日在上海举行,下表为某汽车模型公司共有25个汽车模型,其外观和内饰的颜色分布如下表所示:
红色外观
蓝色外观
米色内饰
8
12
棕色内饰
2
3
(1)若小明从这些模型中随机拿一个模型,记事件A为小明取到的模型为红色外观,事件B取到模型有棕色内饰,求,并据此判断事件A和事件B是否独立;
(2)为回馈客户,该公司举行了一个抽奖活动,并规定,在一次抽奖中,每人可以一次性抽取两个汽车模型。为了得到奖品类型,现作出如下假设:
假设1:每人抽取的两个模型会出现三种结果:①两个模型的外观和内饰均为同色;②两个模型的外观和内饰均为不同色;③两个模型的外观同色但内饰不同色,或内饰同色但外观不同色。
假设2:该抽奖设置三类奖,奖金金额分别为:一等奖600元,二等奖300元,三等奖150元。
假设3:每种抽取的结果都对应一类奖。出现某种结果的概率越小,奖金金额越高。
请判断以上三种结果分别对应几等奖。设中奖的奖金数是,写出的分布,并求的数学期望。
4.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
5.(2025·上海·高考真题)甲、乙是两个体育社团的小组.如下是两组组员身高的茎叶图(单位:厘米),以身高的百位数和十位数作为“茎”排列在中间、个位数作为“叶”分列在两边.
(1)分别求甲、乙两组组员身高的第60百分位数;
(2)从甲、乙两组各选取一个组员,求两人身高均在170厘米以上的概率;
(3)为使两组人数相同,从甲组中调派一个队员到乙组.是否存在甲组的一个组员,将他调派至乙组后,甲、乙两组的平均身高都增大?
6.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78
207.46
207.95
209.34
209.35
210.68
213.73
214.84
216.93
216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
1 / 2
学科网(北京)股份有限公司
$
专项01 概率统计
参考答案
题型01 统计图表+统计量计算
析典例·建模型
1.【思路分析】(1)根据茎叶图求出中位数,列表即可;(2)将表格中数据代入公式即可.
【规范答题】(1)由茎叶图可知,该组数据的中位数为,故列出2×2列联表如下:
超过M
不超过M
上班时间
8
12
下班时间
7
13
(2)由2×2列联表可知,,
故上下班的通勤时间不存在显著差异.
2.【思路分析】(1)根据频率之和为1可求的值,根据组中值可求平均数;
(2)根据对立事件可求2人的测试成绩至少1个在内的概率;
(3)根据分层方差和总体方差的关系式可求第二组和第四组所有学生成绩的方差.
【规范答题】(1)由题意得,解得
所以平均数等于
(2)由题意,内有8人,内有2人,
所以被选中进行优秀答卷展示的这2人的测试成绩至少1个在内的概率为.
(3)设第二组、第四组的平均数与方差分别为,
由题意,第二组、第四组分别有10人和8人,
所以成绩在第二组、第四组的平均数
成绩在第二组、第四组的方差
故估计成绩在第二组、第四组的方差是.
3.【思路分析】(1)根据茎叶图判断出男生人数,然后由第百分位数的计算公式求得结果;
(2)分别求解出,然后根据与的关系作出判断;
(3)先确定出的值以及男生数据,再根据平均数公式以及等差数列的性质求解出女生数据,最后计算出方差即可作出判断.
【规范答题】(1)由茎叶图可知男生总人数为,所以,
将男生每周平均手机使用时长从小到大排列,第位的数据分别为,
所以第百分位数为;
(2)事件和事件不相互独立,理由如下:
由,解得,
所以女生中每周平均手机使用时长小于小时的人数为,
且女生中每周平均手机使用时长位于区间有人,位于区间有人,
由茎叶图可知,男生中每周平均手机使用时长小于小时的人数为,
且男生中每周平均手机使用时长位于区间有人,
抽取的人中,每周平均手机使用时长位于区间的共有人,
所以,,
若抽取的是名男生和名女生且恰好有人的每周平均手机使用时长位于区间,其概率为,
若抽取的是名女生且恰好有人的每周平均手机使用时长位于区间,其概率为,
所以,
显然,所以事件和事件不相互独立;
(3)由茎叶图和频率分布直方图可知,,
个数据中,男生数据为,设女生数据为且,
由题意可知,,解得,
又因为成等差数列,所以,
所以这个数据分别为:,
所以方差为,
所以这位学生每周平均手机使用时长的方差不超过.
破类题·提能力
1.【答案】(1);;
(2);
(3)
【详解】(1)因为,所以甲组学生服务时长的第70百分位数为;
因为,所以乙组学生服务时长的第70百分位数为;
(2)因为甲组有9名学生,乙组有10名学生,根据分步乘法计数原理,从甲、乙两组学生中各随机抽取1人,有种选取方法,
又甲、乙两组学生中各有3人的服务时长超过30小时,所以抽取的2人中恰有1人的服务时长超过30小时有种选取方法,
记事件“抽取的2人中恰有1人的服务时长超过30小时”,则,
故从甲、乙两组学生中各随机抽取1人,抽取的2人中恰有1人的服务时长超过30小时的概率为;
(3)对甲组:
甲组9名学生服务时长的平均数为,
甲组志愿服务时长的方差为,
对新甲组1:,所以.
对新甲组2:,所以.
所以.
数学解释:由于甲组均值为27,方差反映了数据的离散程度,当增加数据27(原样本均值),数据相对更集中,所以方差变小;当增加数据20,数据更加分散,方差变大.
2.【答案】(1)平均课外阅读时间小时/月;
(2);
(3).
【详解】(1)由直方图知,平均课外阅读时间为小时/月;
(2)由直方图知,时间位于区间的频率为,
所以该校学生课外阅读时间位于区间(单位:小时/月)的概率为.
(3)由题设,初一年级学生中喜欢阅读的学生占比为,
所以其他年级学生中喜欢阅读的学生占比为,
故其他年级学生中喜欢阅读的比例.
3.【答案】(1)
(2)
(3)这1000名观众的评分位于上的均值与方差分别为,.
【详解】(1)∵,
∴第35百分位数为第两个数的平方数
(2)由图1可知,图2中有2人,
所以从图2中的20名观众中再任选取3人做深度采访,求其中至少有1名观众的评分大于等于90分设为事件,
所以.
(3)由题意可知:落在的频率为,落在的频率为,
因为这1000名观众的评分位于上的均值为67,方差为64.7,
位于上的均值为73,方差为134.6,
所以,
设这1000名观众的评分位于上的均值与方差分别为,
所以,解得:,
,
解得:.
这1000名观众的评分位于上的均值与方差分别为,
题型02概率+分布列+期望
析典例·建模型
1.【思路分析】(1)由独立乘法公式、互斥加法公式即可运算求解古典概型概率;
(2)的所有可能取值为0,1,2,它服从超几何分布,结合超几何分布概率的求法求得相应的概率进而可得的分布,结合期望、方差计算公式即可求解.
【规范答题】(1)第一次取出红球的概率为,取出白球的概率为,
第一次取出红球,第二次取出红球的概率为,
第一次取出白球,第二次取出红球的概率为,
所有第二次取出的球是红球的概率为;
(2)的所有可能取值为0,1,2,
,
所以的分布为,
它的期望为,
它的方差为.
2.【思路分析】(1)根据古典概型概率公式,用事件包含的样本点个数除以总样本点个数来计算概率;
(2)根据方差公式列出关于的方程,然后求解;
(3)根据随机变量的分布列,利用期望公式计算期望.
【规范答题】(1)设“从3月31日至4月13日某天开始,连续统计三天,这三天中至少有两天是阵雨”为事件A,连续统计三天共有12个样本点,事件A共有4个样本点,所以
(2)4月1日至4日这4天温差分别为9、8、9、9,
因此,设4月14日的温差为x,
则4月11日至14日这4天温差分别为8、9°C、8、x,
因此,
解得,因此,4月11日这天最高气温是18.
(3)从3月31日至4月13日,一天温差不超过9的共有11天,高于9的共有3天
X可能取值为0,1,2.
,,
随机变量X的分布列为:
X
0
1
2
P
随机变量X的期望.
3.【思路分析】(1) 计算的值,再与进行比较即可得结论;
(2)(i)由相互独立事件概率的乘法公式可直接求出答案;
(ii)先由相互独立事件概率的乘法公式求出,则分布列可得,再由期望公式求数学期望即可.
【规范答题】(1)提出原假设:学生对垃圾分类的了解程度与性别无关,
确定显著性水平,由题意得,
可得,
由,且,
所以接受原假设,学生对垃圾分类的了解程度与性别无关.
(2)(i)比赛只进行3局就结束,甲赢得比赛的概率为
比赛只进行3局就结束,乙赢得比赛的概率为,
故比赛只进行3局就结束的概率为;
(ii)的可能取值为,
,即进行了3场比赛,且乙赢得比赛,故,
,即进行了4场比赛,且乙赢得比赛,前3场中,甲赢得1场比赛,乙第4场赢,
故,
,即进行了5场比赛,且乙赢得比赛,前4场中,甲赢得2场比赛,乙第5场赢,
故
,
,即最后甲赢得比赛,由概率性质得,
所以分布为
0
1
2
3
故数学期望为.
破类题·提能力
1.【答案】(1)
(2)
(3)分布列见解析;
【详解】(1)逐个抽选,恰好第一个抽选的是男生的情况为男生所占人数总比例,故概率为.
(2)记事件为恰好抽选了1名男生与1名女生,事件为这2人都是高二学生,
由条件概率可得.
(3)因为共抽取了2名学生,所以男生人数与女生人数之差只能为偶数,分两种情况讨论:
当时,
男
女
高一
1
0
高二
0
1
或
男
女
高一
0
1
高二
1
0
所以;
当时,
男
女
高一
1
0
高二
1
0
或
男
女
高一
0
1
高二
0
1
所以,
所以的分布列为
0
2
.
2.【答案】(1);
(2)分布列见解析,期望;
(3),理由见解析
【详解】(1)根据三人投篮得分统计数据,在10场比赛中,甲共获胜3场,分别是第3场,第8场,第10场.
设表示“从10场比赛中随机选择一场,甲获胜”,则.
(2)根据三人投篮得分统计数据,在10场比赛中,甲得分不低于10分的场次有6场,
分别是第2场,第3场,第5场,第8场,第9场,第10场,其中乙得分大于丙得分的场次有4场,
分别是第2场、第5场、第8场、第9场.
所以的所有可能取值为0,1,2.
,,.
所以的分布列为
0
1
2
所以.
(3)由题意,每场比赛甲获胜的概率为,乙获胜的概率为,丙获胜的概率为,还需要进行6场比赛,
而甲、乙、丙获胜的场数服从二项分布,
所以,,,
故.
3.【答案】(1)列联表见解析,0.35;
(2)有;
(3)分布列见解析,期望为.
【详解】(1)完善列联表,如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且数学成绩总评优秀的经验概率为.
(2)由(1)得,
所以有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)不是每天都整理数学错题的学生有20人,其中数学成绩总评优秀人数为5,
的所有可能值为0,1,2,3,
,
,
所以的分布列为:
0
1
2
3
期望.
题型03 线性回归+概率决策
析典例·建模型
1.【思路分析】(1)根据表中数据分别求出,代入回归方程即可求出,将代入回归方程可求出平均等待时间;
(2)利用条件概率公式,结合分步计数乘法原理和分类计数加法原理以及组合数,计算即可求得概率;
(3)通过计算得到小王参加第二关获得的游园币数的期望,根据每道题答对的概率的取值分类讨论,做出相关决策.
【规范答题】(1),
代入回归方程,得,解得.
当时,,即开放所有体验类项目时的平均等待时间约为51分钟.
(2)记事件“等待总时间恰为120分钟”,事件“选择的3个项目中至少包含1个互动类项目”,
因为全部的项目数为15个,其中互动类项目有3个,则事件共包含了种;
在事件的条件下,等待总时间恰为120分钟,此时的可能情况有:
①一个互动类项目,一个体验类项目,一个演出类项目,此时共有种情况;
②两个互动类项目,一个体验类项目,此时共有种情况.
由条件概率公式得.
(3)设小王参加第二关获得的游园币数为随机变量,则所有可能取值为,
则
所以.
所以,当时,,不建议小王继续闯关;
当时,,小王可根据自己的情况随机选择;
当时,,建议小王继续闯关.
2.【思路分析】(1)求出、的值,将数据代入相关系数公式,求出的值,可得出结论,再将代入经验回归方程,可得出结果;
(2)计算出方案一、二中实际付款金额,比较大小后可得出结论.
【规范答题】(1)由题意可得,,
,
,
,
所以,,
因为接近于,所以可以用线性回归模型拟合与的关系,
,则,
所以,关于的经验回归方程为,
将代入经验回归方程为,
故估计年月该网点利润估计知为万元.
(2)设方案一的中奖次数为,由题意可知,实际付款金额为万元,
则的可能取值有、、、,
则,,
,,
故,
设方案二实际付款金额为万元,由题意可知,的可能取值有、、,
,,,
故
因为,所以,从实际付款金额的数学期望的角度分析,选择方案二更优惠.
3.【思路分析】(1)根据表格与参考公式计算数据补全空并求出回归方程、估计成本即可;
(2)由频率分布直方图得出送货箱数的概率,再由离散型随机变量的分布列与期望公式得出购3辆车和购4辆车时每天的利润的分布列,比较期望大小即可.
【规范答题】(1)由表格及公式通过计算器可计算得
补全填空如下:
0.54
6.8
1.53
0.45
根据题意,,
所以
所以,
又,所以,
所以时,(千元),
即卖出100份的成本为11764元,
故利润(元).
(2)根据频率分布直方图,可知送货箱数的概率分布表为:
箱数
设该运输户购3辆车和购4辆车时每天的利润分别为元,
则的可能取值为,其分布列为:
1500
800
100
P
故,
的可能取值为,其分布列为:
2000
1300
600
-100
P
故,
即购置3辆小货车的利润更高,建议购买3辆车.
破类题·提能力
1.【答案】(1)
(2)有关联
【详解】(1)由题意,得,
则 ,所以
则,
故广告费投入与年份代号之间的线性经验回归方程为.
(2)零假设为:市民的年龄与对该品牌新能源汽车的认可度无关联.
由题中表格数据,
计算得.
依据小概率值的独立性检验,我们推断不成立,即认为市民的年龄与对该品牌新能源汽车的认可度有关联,此推断犯错误的概率不大于0.05.
2.【答案】(1)0.96,与具有较强的线性相关性;
(2);当时,千台;
(3)选第二种方案更优惠,理由见解析.
【详解】(1)由题可知,,所以
所以.
所以y与x具有较强的线性相关性.
(2)由(1)知.
因为,,
所以.
关于的经验回归方程为,故当时,.
所以估计当月广告投入600万元时,该款学习机的月销量约为千台.
(3)家长准备在该店购买两台该款学习机,选第二种方案更优惠.理由如下:
若采用方案一,可享受优惠(元);付款总金额数学期望为(元);
若采用方案二,记中奖次数为X,则.
;;
;;
记该家长购买两台学习机可享受优惠共为Y元,则Y的分布列如下:
Y
600
1200
1600
2000
P
所以(元).
所以若采用方案二,付款总金额数学期望为(元).
因为,所以选第二种方案更优惠.
3.【答案】(1)万辆;
(2);;
(3)①原因见解析;②建议见解析.
【详解】(1)因渗透率=新能源汽车销量÷当月汽车总销量,又2025年6月全国汽车销量为208.4万辆,则6月新能源汽车的销量为:万辆;
(2)由题,,
.,,
,
则,.
故回归方程为:.当时,;
则2025年7月新能源汽车的渗透率的估计值为:;
(3)①根据生活实际,新能源汽车销量达到一定程度后增长会放缓,又新能源汽车销售量与对应渗透率成正比例关系,则渗透率增长到一定程度后会放缓.但所采用的模型,增长速度保持恒定,故产生了误差;
②可采用新模型,例如非线性模型,,来体现增长速度先快后放缓
(建议用时:45分钟)
刷模拟
1.【答案】(1)88.5
(2)
(3)有95%的把握认为两种生产方式的工作效率有显著差异
【详解】(1)根据题意,将这40个数据从小到大排列,61,61,62,63,63,65,65,67,68,69,70,70,71,72,72,72,72,74,75,77,78,
81,82,82,83,84,84,84,87,87,90,90,91,91,91,92,92,93,94,94
,故取第30人和第31人时间的平均值为;
(2)设选出的工人为优秀为事件A,第一种正产方式A 的基本事件数是2个,
第二种生产方式A的基本事件数是10个,
所以独立地从两种生产方式中各选出一个人,选出的两个人均为优秀的概率为.
(3)
第一种生产方式
第二种生产方式
总计
优秀
2
10
12
合格
18
10
28
总计
20
20
40
,
故有95%的把握认为两种生产方式的工作效率有显著差异.
2.【答案】(1)
(2)
(3)满足,说明见解析
【详解】(1)由频率分布直方图可知,身高在的频率为,
,所以该66名学生中身高在(单位:cm)内的人数为人.
(2)这66名高一年级学生身高平均数为,
因为该样本是按照分层随机抽样的方法抽取的,所以估计校高一年级全体学生身高的平均数为.
(3)由(2)知,所以约为,
数据落在内的频率为,
因为,所以数据落在内的频率不小于,
所以这66个身高数据满足“常态”.
3.【答案】(1)
(2)
(3)平均数为,方差为
【详解】(1)由频率分布直方图可得,
解得.
(2)由频率分布直方图知,样本考核成绩在,,的三组学生有(人),
其中样本考核成绩在的市民人数为,
用分层抽样的方法应从考核成绩在的市民中抽取(人).
(3)由频率分布直方图知,成绩在的学生人数为,
成绩在的市民人数为,
所以总平均数,
总方差.
4.【答案】(1);
(2)①;②分布列见解析,.
【详解】(1)口袋共有12个球,甲先摸球,摸到白球的概率为,
甲摸到白球后,口袋还剩11个球,其中红球有4个,则甲摸到白球且乙摸到红球的概率为,
综上,甲摸到白球的条件下,乙摸到红球的概率为;
(2)①由题设,满足要求的情况有甲第一次摸到红球,第二次也摸到红球;甲第一次摸到白球,乙第二次摸到白球;
所以若甲、乙两人无放回地摸球,第三次由甲摸球的概率为;
②由题意,的可能值为,且,,,
所以的分布列如下,
0
1
2
则.
5.【答案】(1)(i)(ii)分布列见解析,数学期望为;
(2)
【详解】(1)(i)记事件为“甲答对了某道题”,事件为“甲自己答对”,
则,,
所以.
(ii)可能取值为0,1,2,3,4,甲答对某道题的概率,
则,
所以的分布列为:
0
1
2
3
4
数学期望.
(2)记事件为“甲答对了道题”,事件为“乙答对了道题”,
其中甲答对某道题的概率为,答错某道题的概率为,
则,
,
,
所以甲答对题数比乙多的概率为:
,解得,
所以甲的亲友团助力的概率的最小值为.
6.【答案】(1)
(2)①分布列见解析,;②摸球次时,收益最大
【详解】(1)
(2)①,则箱子中共有个球,其中黑、红及白,
由题意可知,的所有可能取值为10,5,,且
,
所以其分布列如下:
10
5
.
②设小江应该设定摸球的次数为,则
每局期望为:
总期望为:
令
当且仅当时取等号,即,所以
所以小江应该设定摸球次时,收益最大.
7.【答案】(1)列联表见解析,有的把握认为喜欢哪吒角色与性别有关,理由见解析
(2)分布列见解析,期望值为2.
【详解】(1)因为从全班50人中随机抽取1人,抽到喜欢哪吒角色的学生的概率为0.6,
所以喜欢哪吒角色的学生人数为,其中女生10人,则男生20人.
不喜欢哪吒角色的人数为,其中男生5人,则女生15人.
列联表补充如下,
喜欢哪吒角色
不喜欢哪吒角色
总计
女生
10
15
25
男生
20
5
25
总计
30
20
50
根据列联表中的数据,计算可得,
故有的把握认为喜欢哪吒角色与性别有关.
(2)由题意,按分层抽样抽取的6人中,男生人数为,女生人数为
表示从这6人中随机选出3人中男生的人数,所以的所有可能取值为.
则,
,
.
所以的分布列为
1
2
3
数学期望.
8.【答案】(1)
(2)用反比例函数模型拟合效果更好,21元
【详解】(1)令,则可转化为,
因为,所以,
则,
所以,所以y关于x的回归方程为;
(2)y与的相关系数,
因为,所以用反比例函数模型拟合效果更好,
当时(元),
所以当产量为10千件时,每件产品的非原料成本为21元.
9.【答案】(1),可以认为与有较强的线性相关性;
(2)
(3)答案见解析
【详解】(1)由题可知,,
,
则,可得,
相关系数
,
可以认为与有较强的线性相关性.
(2)因,则,
因,
则.
(3)填写下面的列联表
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
由表可知,,
零假设:游客是否满意与性别无关,
则
所以根据小概率值的独立性检验,能推断游客是否满意与性别有关.
10.【答案】(1)①;
(2)
【详解】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度可以用线性回归方程来拟合,则.
, ,
则关于的线性回归方程为,即,
产卵数关于温度的回归方程为.
11.【答案】(1)回归方程为,分
(2)有,理由见解析
【详解】(1)由表格中的数据可得,,
所以,
,
故关于的线性回归方程为,
当时,,
预测每天整理数学错题道时的数学成绩约为分.
(2)零假设数学成绩总评优秀与每天都整理数学错题无关,
,
所以,我们认为数学成绩总评优秀与每天都整理数学错题有关.
12.【答案】(1)更适宜
(2)
(3)选择方案1最佳,理由见解析
【详解】(1)由散点图可以判断,更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将两边同时取自然对数,可得,
由题中的数据可得,,,
所以,
则,
所以z关于x的线性回归方程为,
故y关于x的回归方程为;
(3)用,和分别表示选择三种方案的收益.
采用第1种方案,无论气温如何,产值不受影响,收益为万,即
采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为万,
如果发生,则收益为万,即,
同样,采用第3种方案,有
所以,,
,
.
显然,最大,所以选择方案1最佳.
刷真题
1.【答案】(1)
(2)一级果抽取6箱,二级果抽取2箱
(3)方差克,平均数克,预估平均质量为克
【详解】(1)设A事件为恰好选到一级果和二级果各一箱,
样本空间的样本点的个数,
A事件的样本点的公式,
所以;
(2)因为一级果箱数:二级果箱数,
所以8箱水果中有一级果抽取箱,二级果抽取箱;
(3)设一级果平均质量为,方差为,二级果质量为,方差为,
总体样本平均质量为,方差为,
因为,,,,
所以克,
克.
预估平均质量为克.
2.【答案】(1)9;
(2);
(3)不相互独立,理由见解析.
【详解】(1)年龄段占总体比例为: ,则抽取人数为:;
(2)由题可得人的平均年龄为:;
(3)由题可得,,,
注意到,则事件A与事件B不相互独立.
3.【答案】(1),事件相互独立;
(2)分布列见解析,271元.
【详解】(1)由给定的数表知,,,,
而,因此事件相互独立,
所以,事件相互独立.
(2)设事件:外观和内饰均为同色,事件:外观内饰都异色,事件:仅外观或仅内饰同色,
依题意,;;
,则,
因此抽取的两个模型的外观和内饰均为不同色是一等奖;外观和内饰均为同色是二等奖;
外观同色但内饰不同色,或内饰同色但外观不同色是三等奖,
奖金额的可能值为:,
奖金额的分布列:
600
300
150
奖金额的期望(元).
4.【答案】(1)
(2)
(3)有
【详解】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.
.
则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
5.【答案】(1)甲组第60百分位数为173 厘米,乙组第60百分位数为厘米;
(2);
(3)把甲组的其中一个167厘米的组员调到乙组.
【详解】(1)甲队:,
所以甲组的第60百分位数为从小到大排列的第8位组员身高,为173厘米;
乙队:,
所以乙组的第60百分位数为从小到大排列第6位和第7位组员身高的平均数,为厘米.
(2)记甲乙两队各选取一名组员,两人身高均在170厘米以上为事件,
.
(3),
要使两组平均身高都增大,
则从甲组调到乙组的组员身高应在两平均数之间(不包括端点平均数),所以把甲组的其中一个167厘米的组员调到乙组即可.
6.【答案】(1);;
(2)
(3)
【详解】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数
,
由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
1 / 2
学科网(北京)股份有限公司
$