解答题专训11 统计与概率(专项训练)(北京专用)2027年高考数学一轮复习讲练测
2026-06-01
|
2份
|
48页
|
471人阅读
|
12人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | - |
| 年级 | 高三 |
| 章节 | - |
| 类型 | 题集-专项训练 |
| 知识点 | 统计,统计案例,概率 |
| 使用场景 | 高考复习-一轮复习 |
| 学年 | 2027-2028 |
| 地区(省份) | 北京市 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 6.81 MB |
| 发布时间 | 2026-06-01 |
| 更新时间 | 2026-06-01 |
| 作者 | 汪洋 |
| 品牌系列 | 上好课·一轮讲练测 |
| 审核时间 | 2026-06-01 |
| 下载链接 | https://m.zxxk.com/soft/58155272.html |
| 价格 | 4.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
以“方法提炼-题型通法-分层过关”构建统计与概率专项体系,聚焦图表分析、回归建模、独立性检验三大核心,渗透数据观念与模型意识。
**专项设计**
|模块|题量/典例|方法提炼|知识逻辑|
|----|-----------|----------|----------|
|解题方法及技巧提炼|4类方法|统计图表三数计算、样本估计四特征、回归方程四步曲、独立性检验三步骤|从基础概念(频率、数字特征)到方法应用(回归、检验)递进|
|题型通法及变式提升|3题型(1典例+2变式)|图表信息提取与概率建模、相关系数判断与回归预测、列联表构建与卡方计算|题型与方法一一对应,变式拓展场景适应性|
|重难专题分层过关练|15题(巩固11+创新4)|分层抽样方差计算、决策型概率应用、跨场景数据比较|从基础巩固到创新应用,培养数据分析与理性决策能力|
内容正文:
解答题专训11 统计与概率
内容导航
解题方法及技巧提炼 1
题型通法及变式提升 1
题型1 统计图表与概率 2
题型2 线性回归与概率 4
题型3 统计案例与概率 6
重难专题分层过关练 8
巩固过关 8
创新提升 15
解题方法及技巧提炼
1.统计图表
(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示,频率=组距×.
(2)频率分布直方图中各小长方形的面积之和为1.
(3)利用频率分布直方图求众数、中位数与平均数.
最高的小长方形底边中点的横坐标即众数;中位数左边和右边的小长方形的面积和相等;平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.样本估计总体
(1)百分位数
一般地,当总体是连续变量时,给定一个百分数p∈(0,1),总体的p分位数有这样的特点:总体数据中的任意一个数小于或等于它的可能性是p.
(2)众数、中位数、平均数
众数:是指这组数据中出现次数最多的数据;
中位数:一般地,将这组数据按从小到大的顺序排列后,“中间”的那个数据为这组数据的中位数,它使数据被分成的两部分的数据量是一样的;
平均数:是指这组数据的平均值.
(3)极差、方差、标准差
极差和方差都刻画数据的离散程度,极差是数据中最大值和最小值的差;
方差刻画的是数据偏离平均数的离散程度;
标准差是样本数据到平均数的一种平均距离,一般用s表示,即样本数据x1,x2,…,xn的标准差为s=;
方差s2=[(x1-)2+(x2-)2+…+(xn-)2].
分层随机抽样的方差:设样本中不同层的平均数分别为1,2,…,n,方差分别为s,s,…,s,相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=wi[s+(i-)2],其中为这个样本的平均数.
3.回归方程的求解四部曲:“画、算、代、回”
4.独立性检验的一般步骤
(1)根据样本数据列2×2列联表;
(2)根据χ2公式,计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作出统计判断.
题型通法及变式提升
题型1 统计图表与概率
【典例1】(2026·北京西城·二模)随着人们生活水平的提高,参观文博馆成为人们外出旅游的一项重要活动.某市2015年到2025年的文博馆接待的成年人和未成年人的参观次数(单位:万人次)统计图如下:
假设各年的参观情况互不影响.
(1)在2016年到2025年这10年中任选一年,求这一年与其前一年相比,该市未成年人参观文博馆次数出现增长的概率;
(2)从2015年至2020年这6年中任选1年.再从2021年至2025年这5年中任选2年,记选出的3年中该市年参观文博馆总人次超过120万的年数为X,求X的分布列和数学期望;
(3)记2015年至2025年该市未成年人和成年人年参观文博馆次数的方差为和、年参观文博馆总人次的方差为,给出,,的大小关系.(结论不要求证明)
(1)正确识读统计图表,从图表中提取有效信息及样本数据.
(2)根据统计原理即用样本数字特征估计总体的思想,结合样本中各统计量之间的关系构造数学模型(函数模型、不等式模型、二项分布模型、超几何分布模型或正态分布模型等).
(3)正确进行运算,求出样本数据中能够说明问题的特征值,从而用此数据估计总体或作出科学的决策与判断.
【变式1】(25-26高二下·北京·期中)为了促进学生健康成长和全面发展,某省教育厅发出《关于保障中小学生每天综合体育活动时间不低于两小时的通知》(下称“通知”).接到通知后,光明中学对该校高一、高二、高三三个年级的学生,用分层抽样方法随机抽查得出部分同学五天内的综合体育活动时间,数据如下表(单位:小时),五天内的综合体育活动时间不低于10小时的可认为达到“通知”要求.
高一年级
10 12.5 8 9.5 9 11
高二年级
7.5 8 8.5 10 9.5 11 12
高三年级
7 4.5 6 5 7.5 10.5 11 12.5
(1)已知高一学生有600人,试估计高一、高二、高三各有多少学生综合体育活动时间没有达到“通知”要求;
(2)从被调查的高三年级8名学生中,随机选取3人,记这3人中综合体育活动时间达到“通知”要求的人数为,求的分布列和数学期望;
(3)试根据样本数据,直接判断三个年级体育活动时间的方差大小关系(用“”连接).
【变式2】(25-26高二下·北京海淀·期中)某科技兴趣小组研发了一种AI模型,用于图像识别任务.为了测试该模型的性能,对其进行了若干次试验,在每次试验中识别图像的数量为100,记录该模型正确识别图像的数量,并分为5组:,得到如图所示的样本数据频率分布直方图.
用频率估计概率.
(1)求的值;
(2)在相同的条件下,随机对该模型进行3次试验,用表示这3次试验中正确识别图像数量不少于60个的次数,求的分布列和数学期望;
(3)同一组中的数据用该组区间的中点值为代表,该模型图像识别的正确率用这若干次试验正确率的均值来估计.该兴趣小组提升了图像识别技术,使得图像识别正确率提升至原来的1.5倍.对于100个图像,用原技术正确识别图像的数量为,提升后正确识别图像的数量为方差的估计值记为方差的估计值记为,比较与的大小.(直接写出答案即可)
题型2 线性回归与概率
【典例2】氮氧化物是一种常见的大气污染物,它是由氮和氧两种元素组成的化合物,有多种不同的形式.下图为我国2014年至2022年氮氧化物排放量(单位:万吨)的折线图,其中,年份代码1~9分别对应年份2014~2022.
计算得,,.
(1)是否可用线性回归模型拟合与的关系?请用折线图和相关系数加以说明;
(2)是否可用题中数据拟合得到的线性回归模型预测2023年和2033年的氮氧化物排放量?请说明理由.
附:相关系数,.
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:①求经验回归方程(预测);②求某随机变量的概率(范围)、均值、方差等.
(2)充分利用题目中提供的成对样本数据(散点图)作出判断,确定是线性问题还是非线性问题,求解时要充分利用已知数据,合理利用变形公式,以达到快速准确运算的目的.
(3)明确所求问题所属事件的类型,准确构建概率模型.
【变式1】某县城为活跃经济,特举办传统文化民俗节,小张弄了一个套小白兔的摊位,设表示第i天的平均气温,表示第i天参与活动的人数,,根据统计,计算得到如下一些统计量的值:
,,.
(1)根据所给数据,用相关系数(精确到0.01)判断是否可用线性回归模型拟合与的关系;
(2)现有两个家庭参与套圈,A家庭3位成员每轮每人套住小白兔的概率都为,B家庭3位成员每轮每人套住小白兔的概率分别为,每个家庭的3位成员均玩一次套圈为一轮,每轮每人收费20元,每个小白兔价值40元,且每人是否套住相互独立,以每个家庭的盈利的期望为决策依据,问:一轮结束后,哪个家庭损失较大?
附:相关系数.
【变式2】(25-26高二下·北京通州·期末)某公司对某产品作市场调查,获得了该产品的定价(单位:万元/吨)和一天的销量吨)的一组数据,根据这组数据制作了如下统计表和散点图.
0.33
10
3
0.164
100
68
350
表中.
(Ⅰ)根据散点图判断,与哪一个更适合作为关于的经验回归方程;(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果,建立关于的经验回归方程;
(Ⅲ)若生产1吨该产品的成本为0.25万元,依据(Ⅱ)的经验回归方程,预计每吨定价多少时,该产品一天的销售利润最大?最大利润是多少?
(经验回归方程中,,)
题型3 统计案例与概率
【典例3】(25-26高三上·北京丰台一模)利用错题去学习是比较高效的学习方法.为了研究学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了60名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
不是每天都整理数学错题人数
22
合计
60
(1)完成上述列联表,并估计本校高三年级学生中不是每天都整理数学错题且数学成绩总评优秀的概率;
(2)根据小概率值的独立性检验,分析数学成绩总评优秀与每天都整理数学错题是否有关联?
(3)从样本中每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设抽取到数学成绩总评优秀的人数为,求的分布列和数学期望.
附:,其中;
0.10
0.01
0.001
2.706
6.635
10.828
此类题目以生活题材为背景,涉及独立性检验及概率问题的综合,解决此类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进行比较,其次再按照随机变量满足的概率模型求解.
【变式1】(25-26高三上·江苏南京·期中)某市为了研究学生身体素质与课外体育锻炼时间的关系,在某个区随机调查了1000名学生,得到如下列联表:
课外体育锻炼时间组别
达标
不达标
合计
身体素质强
860
40
900
身体素质弱
40
60
100
合计
900
100
1000
(1)根据小概率值的独立性检验,分析课外体育锻炼时间与身体素质是否有关;
(2)如果用该区学生达标成绩的情况来估计全市学生的达标情况,现从全市学生中随机抽取3名,求恰有1人课外体育锻炼时间达标的概率.
附
0.050
0.010
0.001
3.841
6.635
10.828
【变式1】(2026·北京平谷期末)某工厂甲、乙两条生产线生产了同一种产品,为了解产品质量与生产线的关系,现从这两条生产线所生产的产品中,随机抽取了100件进行检测,检测结果(“合格”或“优良”)如下表.
生产线
检测结果
合计
合格
优良
甲生产线
50
10
60
乙生产线
25
15
40
合计
75
25
100
(1)根据小概率值的独立性检验,能否推断产品检测结果与生产线有关联?
(2)用样本估计总体,频率估计概率.随机从该工厂抽取3件产品,记随机变量为这3件产品中检测结果为“合格”的产品数量,求和的期望.
附:,
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
重难专题分层过关练
巩固过关
1.(25-26高二下·北京密云期末)“2026重庆马拉松”成功举行,某单位承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.
(1)求a,b的值;
(2)若面试成绩前的候选者为优秀候选者,请估计优秀候选者成绩的最低分;
(3)现从以上各组中用分层抽样的方法选取20人,担任本次宣传者.若本次宣传者中第二组面试者的面试成绩的平均数和方差分别为62和30,第四组面试者的面试成绩的平均数和方差分别为80和40,据此估计这次第二组和第四组这两组的所有面试者的方差.
2.(25-26高二下·北京·阶段检测)某公司为了解用户对其产品的满意程度,从地区随机抽取了400名用户,从地区随机抽取了100名用户,请用户根据满意程度对该公司产品评分.该公司将收集到的数据按照分组,绘制成评分频率分布直方图如图:
(1)从地区抽取的400名用户中随机选取一名,求这名用户对该公司产品的评分不低于60分的概率;
(2)从地区抽取的100名用户中随机选取两名,记这两名用户的评分不低于80分的个数为,求的分布列和数学期望;
(3)根据频率分布直方图,假设同组中的每个数据用该组区间的中点值代替,估计地区抽取的400名用户对该公司产品的评分的平均值为,地区抽取的100名用户对该公司产品的评分的平均值为,以及两个地区抽取的500名用户对该公司产品的评分的平均值为,试比较和的大小.(结论不要求证明)
3.(2026·北京朝阳·一模)某研究团队发现人工智能助手的问题解决“满意度评分”(满分100分)与其使用场景密切相关.该团队将用户分为学习场景用户和工作场景用户两类,为了调研用户对人工智能助手的满意度评分情况,现从这两类用户中各随机抽取100人,记录他们的满意度评分,将数据分成6组:,,,,,,并分别整理得到如下两个频率分布直方图:
现规定满意度评分在80分及以上的满意度评级为,在区间的满意度评级为,在60分以下的满意度评级为.用频率估计概率,假设每个用户的评分相互独立.
(1)求的值;
(2)从使用人工智能助手的所有学习场景用户中随机抽取2人,从使用人工智能助手的所有工作场景用户中随机抽取1人,设为抽出的3人中满意度评级为A的人数,估计的分布列和数学期望;
(3)该研究团队又对另外两款人工智能助手,进行了同样的调研,估计出其学习场景用户的满意度评级为A的概率分别为0.3,0.35.现分别从使用,,这三款人工智能助手的学习场景用户中各随机抽取1人,用“”表示其中使用()的学习场景用户的满意度评级为,用“”表示其中使用()的学习场景用户的满意度评级为或.设,,判断,的大小.(结论不要求证明)
4.地球上生命体内都存在生物钟,研究表明,生物钟紊乱会导致肥胖、糖尿病、高血压、高血脂等严重体征状况.控制睡眠或苏醒倾向的生物钟基因,简称,分为(导致早起倾向)和(导致晚睡倾向).某研究小组为研究光照对动物的影响,对实验鼠进行了光照诱导与蛋白干预实验.以下是16只实验鼠在光照诱导与蛋白干预实验中,出现突变的指标:
实验鼠编号
1
2
3
4
5
6
7
8
指标
实验鼠编号
9
10
11
12
13
14
15
16
指标
长期试验发现,若实验鼠指标超过,则认定其体征状况严重,
(1)从实验鼠中随机选取只,记为体征状况严重的只数,求的分布列和数学期望;
(2)若编号的实验鼠为蛋白干预实验组,编号的为非蛋白干预对照组,试依据小概率值的独立性检验,分析蛋白干预是否与实验鼠体征状况有关?
附:(其中).
5.(25-26高三上·北京延庆·阶段检测)近几年,新能源汽车的更新换代越来越引起人们的关注.某新能源车企想了解年轻司机与中老年司机对新能源车和燃油车的喜好程度,随机抽取了1000名司机,得到的列联表如下:
偏好新能源车
偏好燃油车
总计
年轻司机
300
200
500
中老年司机
200
300
500
总计
500
500
1000
(1)若从抽取的年轻司机中任选1人,求此人偏好新能源车的概率;
(2)依据的独立性检验,能否认为司机对两种汽车的偏好与年龄有关联?
附:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
6.(25-26高三上·北京通州阶段检测)为促进消费,扩大内需,江苏省体育局主办了年城市足球联赛,简称“苏超”.随着赛事的进行,引发全省乃至全国人民的关注,城市旅游人数显著提升.下表是比赛五个月来的某城市旅游人数(百万)与第个月的数据:
(月份)
(人数)
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)该市随机抽取了部分市民及游客,调查他们对赛事的关注情况,得到如下列联表:
性别
不关注赛事
关注赛事
男性
女性
请依据小概率值的独立性检验,能否认为关注“苏超”赛事与性别有关.
参考公式:,,其中.
7.(2025·湖南·三模)中国的非遗项目丰富多样,涵盖广泛,体现了中华民族的智慧和独特的文化魅力.春节期间某地为充分宣扬该地非遗物质文化,加大非遗传承人的技艺展示.该地市场开发与发展机构统计了非遗传承人的技艺展示量与市场消费收入的6组数据如下表:
技艺展示量x(单位:个)
21
23
24
27
29
32
市场消费收入y(单位:万元)
6
11
20
27
57
77
(1)若用线性回归理论进行统计分析,求市场消费收入y关于技艺展示量x的回归方程(精确到0.1);
(2)若用非线性回归模型求得市场消费收入y关于技艺展示量x的回归方程为,且决定系数,与(1)中的线性回归模型相比,应用决定系数说明哪种模型的拟合效果更好.
附:一组数据,,…,,其回归直线的斜率和截距的最小二乘估计为,;决定系数
参考数据:,,,
线性回归模型的残差平方和为(其中,分别为非遗传承人的技艺展示量和市场消费收入,).
8.(2025·北京东城·二模)已知近10年北京市12月和1月历史气温分别如下图所示.
(1)从2016年至2024年这9年中随机抽取一年,求该年12月平均高温和平均低温都低于前一年的概率;
(2)将当年12月和次年1月作为当年的冬季周期,记当年12月平均高温与平均低温的差值为(单位:摄氏度),次年1月平均高温与平均低温的差值为(单位:摄氏度).从2015年至2024年这10个冬季周期中随机抽取3个,求至少有2个冬季周期中的概率;
(3)依据图2中信息,能否预测北京市2026年1月平均高温低于4摄氏度?请说明理由.
9.(2025·北京西城·一模)发展纯电动、插电式混合动力等新能源汽车是我国从汽车大国迈向汽车强国的必由之路.为调查研究,某地统计了辖区内从2017年至2024年这8年的新能源汽车和纯电动汽车的销量,得到如下折线图(单位:百辆):
在每一年中,记该年纯电动汽车销量占该年新能源汽车销量的比重为Q.
(1)从2017年至2024年这8年中随机抽取1年,求该年Q值超过的概率;
(2)现从2019年至2024年这6年中依次随机抽取,每次抽取1个年份,若该年的Q值过,则停止抽取,否则继续从剩余的年份中抽取,直至抽到Q值超过的年份.记抽取的次数为,求的分布列和数学期望:
(3)记2020年至 2024年这5年新能源汽车销量数据的方差为,且这5年纯电动汽车销量数据的方差为,写出与的大小关系.(结论不要求证明)
10.(2025·北京·三模)手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性,300名男性)进行调查,对手机进行评分,评分的频数分布表如下:
女性用户
分值区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
20
40
80
50
10
男性用户
分值区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
45
75
90
60
30
(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);
(2)把评分不低于70分的用户称为“评分良好用户”,完成下列列联表,并判断能否有的把握认为“评分良好用户”与性别有关?
女性用户
男性用户
合计
“认可”手机
“不认可”手机
合计
参考附表:
参考公式,其中
11.(2026·北京石景山·二模)2026年春节期间,模式口历史文化街区推出“骐骥献瑞”主题集章打卡活动.游客可以收集“龙马献瑞”,“马到成功”,“马效炎德”,“马奔财乡”,“奇骏延年”,“马行无疆”6个蕴含马年吉祥寓意的专属印章.为了解不同年龄段游客的打卡习惯,从参与活动的人群中随机抽取100名游客,统计他们集章情况如下表(同一题材重复集章只计1个):
组别
集章1个
集章2个
集章3个
集章4个
集章5个
集章6个
各组总人数
青年
1人
1人
2人
12人
12人
2人
30人
中年
3人
2人
8人
30人
15人
2人
60人
老年
1人
2人
1人
3人
2人
1人
10人
每个游客的打卡行为相互独立.
(1)从上表的青年组中随机抽取1名游客,求该游客集章个数不少于4的概率;
(2)从参与打卡活动的青年和中年游客中各随机抽取2人,用上表统计的频率估计概率,试估计这4人中“恰有2人集章4个、2人集章5个”的概率;
(3)将青年、中年、老年组的组别分别编码为,0,1,用上表统计的频率估计概率,从集章个数为k(,2,3,4,5,6)的游客中随机抽取1人,记该游客的组别编码为,写出满足的k值的个数.(结论不要求证明)
创新提升
12.(2026·北京海淀·二模)某公司利用自动分拣系统对价值500元以下的中、小件包裹进行分拣.该系统对每件包裹分拣的准确率为99.9%.若一件包裹分拣错误,当包裹价值不超过10元时,该公司的损失费用为包裹价值的150%;当包裹价值超过10元但不超过100元时,该公司的损失费用为包裹价值的60%;当包裹价值超过100元时,该公司的损失费用为包裹价值的75%.
该公司随机抽取10000件包裹,记录并整理这些包裹的价值,获得数据如下表:
价值
件数
4000
4000
1200
800
假设同一组中的每个数据可用该组区间的中点值代替.
假设不同包裹分拣正确与否相互独立.用频率估计概率.
(1)估计一件包裹价值不超过100元的概率;
(2)记为一件包裹分拣错误时该公司的损失费用,估计的数学期望;
(3)该公司每天平均处理10万件包裹.若使用一项新技术,可以让分拣的准确率增加到99.99%,但每天需额外支付5000元.仅从费用的角度考虑,该公司是否使用该项新技术?说明理由.
13.(2026·北京东城·二模)某连锁企业为了解两款产品A和B的收益情况,从所有门店中随机抽取8个门店,记录并整理这些门店同一季度的产品A,B的收益数据(单位:万元),如下表:
门店
产品
1
2
3
4
5
6
7
8
A
5.8
7.2
8.5
9.5
11.2
11.9
12.9
13.7
B
3.7
5.7
7.9
9.6
13.2
15.1
17.9
19.5
用频率估计概率.
(1)从该企业所有门店中随机抽取1个,估计这个门店产品A收益高于产品B收益的概率;
(2)从表中的8个门店中随机抽取3个,记X为这3个门店中产品A收益高于产品B收益的门店个数,求X的分布列及数学期望;
(3)这8个门店中,设门店的产品A,B的收益分别为,,记,,,数据,,,,,,,的方差为,数据,,,,,,,的方差为,数据,,,,,,,的方差为,写出,,的大小关系.(结论不要求证明)
14.(2026·北京房山·二模)4月23日是世界读书日.某市调研小学生阅读状况,得到男生、女生最喜爱的一种阅读内容的频率分布如下图:
假设不同学生的选择相互独立.用频率估计概率.
(1)从该市小学生中随机抽取名男生,估计他最喜爱的阅读内容为科学类(包括自然科学和社会科学)的概率;
(2)从该市小学生中随机抽取名男生和名女生,记这人中最喜爱的阅读内容为漫画的人数为,求的分布列和数学期望;
(3)从该市小学生中随机抽取名男生,用“”表示他最喜爱的阅读内容为科学类,“”表示他最喜爱的阅读内容不是科学类;从该市小学生中随机抽取名女生,用“”表示她最喜爱的阅读内容为科学类,“”表示她最喜爱的阅读内容不是科学类.判断方差与的大小.(结论不要求证明)
15.(2026·北京·一模)2018年,依托用户碎片化时间的娱乐需求、分享需求以及视频态的信息负载力,短视频快速崛起;与此同时,移动阅读方兴未艾,从侧面反应了人们对精神富足的一种追求,在习惯了大众娱乐所带来的短暂愉悦后,部分用户依旧对有着传统文学底蕴的严肃阅读青睐有加.
某读书APP抽样调查了非一线城市M和一线城市N各100名用户的日使用时长(单位:分钟),绘制成频率分布直方图如下,其中日使用时长不低于60分钟的用户记为“活跃用户”.
(1)请填写以下列联表,并判断是否有99.5%的把握认为用户活跃与否与所在城市有关?
活跃用户
不活跃用户
合计
城市M
城市N
合计
(2)以频率估计概率,从城市M中任选2名用户,从城市N中任选1名用户,设这3名用户中活跃用户的人数为,求的分布列和数学期望.
(3)该读书APP还统计了2018年4个季度的用户使用时长y(单位:百万小时),发现y与季度()线性相关,得到回归直线为,已知这4个季度的用户平均使用时长为12.3百万小时,试以此回归方程估计2019年第一季度()该读书APP用户使用时长约为多少百万小时.
附:,其中.
0.025
0.010
0.005
0.001
5.024
6.635
7.879
10.828
8 / 8
学科网(北京)股份有限公司
$
解答题专训11 统计与概率
内容导航
解题方法及技巧提炼 1
题型通法及变式提升 1
题型1 统计图表与概率 2
题型2 线性回归与概率 7
题型3 统计案例与概率 11
重难专题分层过关练 13
巩固过关 13
创新提升 26
解题方法及技巧提炼
1.统计图表
(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示,频率=组距×.
(2)频率分布直方图中各小长方形的面积之和为1.
(3)利用频率分布直方图求众数、中位数与平均数.
最高的小长方形底边中点的横坐标即众数;中位数左边和右边的小长方形的面积和相等;平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.样本估计总体
(1)百分位数
一般地,当总体是连续变量时,给定一个百分数p∈(0,1),总体的p分位数有这样的特点:总体数据中的任意一个数小于或等于它的可能性是p.
(2)众数、中位数、平均数
众数:是指这组数据中出现次数最多的数据;
中位数:一般地,将这组数据按从小到大的顺序排列后,“中间”的那个数据为这组数据的中位数,它使数据被分成的两部分的数据量是一样的;
平均数:是指这组数据的平均值.
(3)极差、方差、标准差
极差和方差都刻画数据的离散程度,极差是数据中最大值和最小值的差;
方差刻画的是数据偏离平均数的离散程度;
标准差是样本数据到平均数的一种平均距离,一般用s表示,即样本数据x1,x2,…,xn的标准差为s=;
方差s2=[(x1-)2+(x2-)2+…+(xn-)2].
分层随机抽样的方差:设样本中不同层的平均数分别为1,2,…,n,方差分别为s,s,…,s,相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=wi[s+(i-)2],其中为这个样本的平均数.
3.回归方程的求解四部曲:“画、算、代、回”
4.独立性检验的一般步骤
(1)根据样本数据列2×2列联表;
(2)根据χ2公式,计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作出统计判断.
题型通法及变式提升
题型1 统计图表与概率
【典例1】(2026·北京西城·二模)随着人们生活水平的提高,参观文博馆成为人们外出旅游的一项重要活动.某市2015年到2025年的文博馆接待的成年人和未成年人的参观次数(单位:万人次)统计图如下:
假设各年的参观情况互不影响.
(1)在2016年到2025年这10年中任选一年,求这一年与其前一年相比,该市未成年人参观文博馆次数出现增长的概率;
(2)从2015年至2020年这6年中任选1年.再从2021年至2025年这5年中任选2年,记选出的3年中该市年参观文博馆总人次超过120万的年数为X,求X的分布列和数学期望;
(3)记2015年至2025年该市未成年人和成年人年参观文博馆次数的方差为和、年参观文博馆总人次的方差为,给出,,的大小关系.(结论不要求证明)
【解】(1)2016年到2025年共10年,依次与前一年比较未成年人参观次数,
其中增长的年份共8年,因此所求概率为;
(2)2015-2020年共6年,总人次超过120万的年份有2个,不超过的有4个;
2021-2025年共5年,总人次超过120万的年份有2个,不超过的有3个。
X的可能取值为0,1,2,3,分别计算概率:
,,
,,
故X的分布列为:
X
0
1
2
3
P
;
(3)未成年人数据:波动较小(22,25,26,29,30,32,14,20,16,32,35),波动范围在14–35;
成年人数据:波动大(62,68,75,86,92,102,48,65,48,108,120),波动范围在48–120,且有明显下降回升,
总人次:波动更大(84,93,...,155),因为两个序列叠加且趋势类似,
由此从数据波动幅度可看出:
总人次波动最大,其次是成年人,最后是未成年人,
故.
(1)正确识读统计图表,从图表中提取有效信息及样本数据.
(2)根据统计原理即用样本数字特征估计总体的思想,结合样本中各统计量之间的关系构造数学模型(函数模型、不等式模型、二项分布模型、超几何分布模型或正态分布模型等).
(3)正确进行运算,求出样本数据中能够说明问题的特征值,从而用此数据估计总体或作出科学的决策与判断.
【变式1】(25-26高二下·北京·期中)为了促进学生健康成长和全面发展,某省教育厅发出《关于保障中小学生每天综合体育活动时间不低于两小时的通知》(下称“通知”).接到通知后,光明中学对该校高一、高二、高三三个年级的学生,用分层抽样方法随机抽查得出部分同学五天内的综合体育活动时间,数据如下表(单位:小时),五天内的综合体育活动时间不低于10小时的可认为达到“通知”要求.
高一年级
10 12.5 8 9.5 9 11
高二年级
7.5 8 8.5 10 9.5 11 12
高三年级
7 4.5 6 5 7.5 10.5 11 12.5
(1)已知高一学生有600人,试估计高一、高二、高三各有多少学生综合体育活动时间没有达到“通知”要求;
(2)从被调查的高三年级8名学生中,随机选取3人,记这3人中综合体育活动时间达到“通知”要求的人数为,求的分布列和数学期望;
(3)试根据样本数据,直接判断三个年级体育活动时间的方差大小关系(用“”连接).
【解】(1)由题可知,用分层抽样方法从高一、高二、高三抽查的人数分别为6,7,8,
已知高一学生人数为600,所以高二、高三学生人数分别为700,800,
而综合体育活动时间五天内低于10小时的人数,
高一、高二高三占比分别为,
由,
因此,估计高一、高二、高三学生综合体育活动时间没有
达到“通知”要求人数分别为300,400,500;
(2)由题可知,综合体育活动时间达到通知要求的,
高三有3人,另5人没有达到要求,所以的可能取值为0,1,2,3,
则,,
,,
所以的分布列为:
0
1
2
3
所以;
(3)高一年级样本数据的平均数为,
其方差为
,
高二年级样本数据的平均数为
,
其方差为
,
高三年级样本数据的平均数为
,
其方差为
,
所以.
所以高一、高二、高三三个年级体育活动时间的方差大小关系为
高一高二高三.
【变式2】(25-26高二下·北京海淀·期中)某科技兴趣小组研发了一种AI模型,用于图像识别任务.为了测试该模型的性能,对其进行了若干次试验,在每次试验中识别图像的数量为100,记录该模型正确识别图像的数量,并分为5组:,得到如图所示的样本数据频率分布直方图.
用频率估计概率.
(1)求的值;
(2)在相同的条件下,随机对该模型进行3次试验,用表示这3次试验中正确识别图像数量不少于60个的次数,求的分布列和数学期望;
(3)同一组中的数据用该组区间的中点值为代表,该模型图像识别的正确率用这若干次试验正确率的均值来估计.该兴趣小组提升了图像识别技术,使得图像识别正确率提升至原来的1.5倍.对于100个图像,用原技术正确识别图像的数量为,提升后正确识别图像的数量为方差的估计值记为方差的估计值记为,比较与的大小.(直接写出答案即可)
【解】(1),
化简得,故.
(2)1次试验中,正确识别图像数量不少于60个的概率为.
由已知随机变量的可能取值有,且,
的分布列为
0
1
2
3
.,
(3).
计算正确率的均值:
所以模型图像识别的正确率为,做一百次图像识别,服从伯努利分布,
由伯努利分布的方差计算公式得:,
若模型图像识别的正确率提升1.5倍,即,
再计算,.
题型2 线性回归与概率
【典例2】氮氧化物是一种常见的大气污染物,它是由氮和氧两种元素组成的化合物,有多种不同的形式.下图为我国2014年至2022年氮氧化物排放量(单位:万吨)的折线图,其中,年份代码1~9分别对应年份2014~2022.
计算得,,.
(1)是否可用线性回归模型拟合与的关系?请用折线图和相关系数加以说明;
(2)是否可用题中数据拟合得到的线性回归模型预测2023年和2033年的氮氧化物排放量?请说明理由.
附:相关系数,.
【解】(1)从折线图看,各点近似落在一条直线附近,因而可以用线性回归模型拟合与的关系.
因为,所以该组数据的相关系数
.
,因而可以用线性回归模型拟合与的关系.
(2)可以用回归模型预测2023年的氮氧化物排放量,但不可以预测2033年的氮氧化物排放量,理由如下:
①2023年与题设数据的年份较接近,因而可以认为,短期内氮氧化物的排放量将延续(1)中的线性趋势,故可以用(1)中的回归模型进行预测;
②2033年与题设数据的年份相距过远,而影响氮氧化物排放量的因素有很多,这些因素在短期内可能保持,但从长期角度看很有可能会变化,因而用(1)中的回归模型预测是不准确的.
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:①求经验回归方程(预测);②求某随机变量的概率(范围)、均值、方差等.
(2)充分利用题目中提供的成对样本数据(散点图)作出判断,确定是线性问题还是非线性问题,求解时要充分利用已知数据,合理利用变形公式,以达到快速准确运算的目的.
(3)明确所求问题所属事件的类型,准确构建概率模型.
【变式1】某县城为活跃经济,特举办传统文化民俗节,小张弄了一个套小白兔的摊位,设表示第i天的平均气温,表示第i天参与活动的人数,,根据统计,计算得到如下一些统计量的值:
,,.
(1)根据所给数据,用相关系数(精确到0.01)判断是否可用线性回归模型拟合与的关系;
(2)现有两个家庭参与套圈,A家庭3位成员每轮每人套住小白兔的概率都为,B家庭3位成员每轮每人套住小白兔的概率分别为,每个家庭的3位成员均玩一次套圈为一轮,每轮每人收费20元,每个小白兔价值40元,且每人是否套住相互独立,以每个家庭的盈利的期望为决策依据,问:一轮结束后,哪个家庭损失较大?
附:相关系数.
【解】(1)由题可知
,
故可用线性回归模型拟合y与x的关系.
(2)设A家庭中套中小白兔的人数为,则,
所以.
设A家庭的盈利为元,则,
所以.
设B家庭中套中小白兔的人数为,
则的所有可能取值为0,1,2,3,
,
,
,
,
所以.
设B家庭的盈利为元,则,
所以.
因为,所以B家庭的损失较大
【变式2】(25-26高二下·北京通州·期末)某公司对某产品作市场调查,获得了该产品的定价(单位:万元/吨)和一天的销量吨)的一组数据,根据这组数据制作了如下统计表和散点图.
0.33
10
3
0.164
100
68
350
表中.
(Ⅰ)根据散点图判断,与哪一个更适合作为关于的经验回归方程;(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果,建立关于的经验回归方程;
(Ⅲ)若生产1吨该产品的成本为0.25万元,依据(Ⅱ)的经验回归方程,预计每吨定价多少时,该产品一天的销售利润最大?最大利润是多少?
(经验回归方程中,,)
【解】(Ⅰ)根据散点图可知,更适合作为关于的经验回归方程;
(Ⅱ)令,则,
所以,
所以,
所以,
故关于的经验回归方程为,
(Ⅲ)一天的利润为
,
当且仅当即时等号成立,
所以预计每吨定价为万元时,该产品一天的销售利润最大,最大利润是万元.
题型3 统计案例与概率
【典例3】(25-26高三上·北京丰台一模)利用错题去学习是比较高效的学习方法.为了研究学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了60名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
不是每天都整理数学错题人数
22
合计
60
(1)完成上述列联表,并估计本校高三年级学生中不是每天都整理数学错题且数学成绩总评优秀的概率;
(2)根据小概率值的独立性检验,分析数学成绩总评优秀与每天都整理数学错题是否有关联?
(3)从样本中每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设抽取到数学成绩总评优秀的人数为,求的分布列和数学期望.
附:,其中;
0.10
0.01
0.001
2.706
6.635
10.828
【解】(1)完善列联表,如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
30
不是每天都整理数学错题人数
8
22
30
合计
28
32
60
估计不是每天都整理数学错题且数学成绩总评优秀的概率约为.
(2)零假设:数学成绩总评优秀与每天都整理数学错题无关联,
利用(1)中数据,得,
根据小概率值的独立性检验,可以判断不成立,所以数学成绩总评优秀与每天都整理数学错题有关联.
(3)由题意知的所有可能值为0,1,2,3,
,,
,,
所以的分布列为
0
1
2
3
.
此类题目以生活题材为背景,涉及独立性检验及概率问题的综合,解决此类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进行比较,其次再按照随机变量满足的概率模型求解.
【变式1】(25-26高三上·江苏南京·期中)某市为了研究学生身体素质与课外体育锻炼时间的关系,在某个区随机调查了1000名学生,得到如下列联表:
课外体育锻炼时间组别
达标
不达标
合计
身体素质强
860
40
900
身体素质弱
40
60
100
合计
900
100
1000
(1)根据小概率值的独立性检验,分析课外体育锻炼时间与身体素质是否有关;
(2)如果用该区学生达标成绩的情况来估计全市学生的达标情况,现从全市学生中随机抽取3名,求恰有1人课外体育锻炼时间达标的概率.
附
0.050
0.010
0.001
3.841
6.635
10.828
【解】(1)课外体育锻炼时间与身体素质无关,
,
根据小概率值的独立性检验,推断不成立,
所以有的把握认为课外体育锻炼时间与身体素质有关;
(2)由题意在某个区随机调查了1000名学生,有900人达标,达标率为,
利用频率估计概率可知该区任抽一名学生,这名学生课外体育锻炼时间达标的概率为.
记“恰有1人课外体育锻炼时间达标”为事件,
则,
所以恰有1人课外体育锻炼时间达标的概率.
【变式1】(2026·北京平谷期末)某工厂甲、乙两条生产线生产了同一种产品,为了解产品质量与生产线的关系,现从这两条生产线所生产的产品中,随机抽取了100件进行检测,检测结果(“合格”或“优良”)如下表.
生产线
检测结果
合计
合格
优良
甲生产线
50
10
60
乙生产线
25
15
40
合计
75
25
100
(1)根据小概率值的独立性检验,能否推断产品检测结果与生产线有关联?
(2)用样本估计总体,频率估计概率.随机从该工厂抽取3件产品,记随机变量为这3件产品中检测结果为“合格”的产品数量,求和的期望.
附:,
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【解】(1)零假设为:产品检测结果与生产线没有关联.
由,
根据小概率值的独立性检验,推断不成立,
即产品检测结果与生产线有关联,此推断犯错的概率不大于0.05.
(2)由题可知,随机从该工厂抽取1件产品,该产品检测结果为“合格”的概率.
由题可知,则.
的期望.
重难专题分层过关练
巩固过关
1.(25-26高二下·北京密云期末)“2026重庆马拉松”成功举行,某单位承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.
(1)求a,b的值;
(2)若面试成绩前的候选者为优秀候选者,请估计优秀候选者成绩的最低分;
(3)现从以上各组中用分层抽样的方法选取20人,担任本次宣传者.若本次宣传者中第二组面试者的面试成绩的平均数和方差分别为62和30,第四组面试者的面试成绩的平均数和方差分别为80和40,据此估计这次第二组和第四组这两组的所有面试者的方差.
【解】(1)由题意可知,,解得;
(2)由(1)及图知,,
所以面试成绩前候选者(分数从高到低)的最低分位于区间,设为,
所以,可得.
(3)设第二组、第四组的平均数分别为,方差分别为,
且各组频率之比为:
,
所以用分层抽样的方法抽取第二组面试者人,
第四组面试者人,
则第二组和第四组面试者的面试成绩的平均数,
第二组、第四组面试者的面试成绩的方差
,
故估计第二组、第四组面试者的面试成绩的方差是.
2.(25-26高二下·北京·阶段检测)某公司为了解用户对其产品的满意程度,从地区随机抽取了400名用户,从地区随机抽取了100名用户,请用户根据满意程度对该公司产品评分.该公司将收集到的数据按照分组,绘制成评分频率分布直方图如图:
(1)从地区抽取的400名用户中随机选取一名,求这名用户对该公司产品的评分不低于60分的概率;
(2)从地区抽取的100名用户中随机选取两名,记这两名用户的评分不低于80分的个数为,求的分布列和数学期望;
(3)根据频率分布直方图,假设同组中的每个数据用该组区间的中点值代替,估计地区抽取的400名用户对该公司产品的评分的平均值为,地区抽取的100名用户对该公司产品的评分的平均值为,以及两个地区抽取的500名用户对该公司产品的评分的平均值为,试比较和的大小.(结论不要求证明)
【解】(1)对于该公司产品评分不低于60分的频率为,
由频率估计概率可得对该公司产品的评分不低于60分的概率为.
(2)由频率分布直方图可知,评分不低于80分的人数为人,
的可能取值为,
,
,
,
则的分布列为:
则数学期望.
(3)由频率分布直方图可得,,
,
又地区和地区抽取用户人数之比为,地区抽取用户人数占总数的,地区抽取用户人数占总数的,
所以两个地区抽取的500名用户对该公司产品的评分的平均值为,所以.
3.(2026·北京朝阳·一模)某研究团队发现人工智能助手的问题解决“满意度评分”(满分100分)与其使用场景密切相关.该团队将用户分为学习场景用户和工作场景用户两类,为了调研用户对人工智能助手的满意度评分情况,现从这两类用户中各随机抽取100人,记录他们的满意度评分,将数据分成6组:,,,,,,并分别整理得到如下两个频率分布直方图:
现规定满意度评分在80分及以上的满意度评级为,在区间的满意度评级为,在60分以下的满意度评级为.用频率估计概率,假设每个用户的评分相互独立.
(1)求的值;
(2)从使用人工智能助手的所有学习场景用户中随机抽取2人,从使用人工智能助手的所有工作场景用户中随机抽取1人,设为抽出的3人中满意度评级为A的人数,估计的分布列和数学期望;
(3)该研究团队又对另外两款人工智能助手,进行了同样的调研,估计出其学习场景用户的满意度评级为A的概率分别为0.3,0.35.现分别从使用,,这三款人工智能助手的学习场景用户中各随机抽取1人,用“”表示其中使用()的学习场景用户的满意度评级为,用“”表示其中使用()的学习场景用户的满意度评级为或.设,,判断,的大小.(结论不要求证明)
【解】(1)依题意,,所以.
(2)依题意,学习场景用户评级为的概率为,
工作场景用户评级为的概率为,
的所有可能值为,
,,
,,
所以的分布列为:
0
1
2
3
0.45
0.4125
0.125
0.0125
数学期望.
(3)由(2)及已知,得,,
,显然服从分布,
因此,
,
所以.
4.地球上生命体内都存在生物钟,研究表明,生物钟紊乱会导致肥胖、糖尿病、高血压、高血脂等严重体征状况.控制睡眠或苏醒倾向的生物钟基因,简称,分为(导致早起倾向)和(导致晚睡倾向).某研究小组为研究光照对动物的影响,对实验鼠进行了光照诱导与蛋白干预实验.以下是16只实验鼠在光照诱导与蛋白干预实验中,出现突变的指标:
实验鼠编号
1
2
3
4
5
6
7
8
指标
实验鼠编号
9
10
11
12
13
14
15
16
指标
长期试验发现,若实验鼠指标超过,则认定其体征状况严重,
(1)从实验鼠中随机选取只,记为体征状况严重的只数,求的分布列和数学期望;
(2)若编号的实验鼠为蛋白干预实验组,编号的为非蛋白干预对照组,试依据小概率值的独立性检验,分析蛋白干预是否与实验鼠体征状况有关?
附:(其中).
【解】(1)(1)由题意得,只实验鼠中,有7只体征状况严重.
的可能取值有0,1,2,3,
, ,
, .
所以的分布列为
X
0
1
2
3
P
所以X的数学期望E(X)=0×+1×+2×+3×=.
(2)由题意得,根据所给数据,得到2×2列联表:
蛋白干预
非蛋白干预
合计
体征状况严重
2
5
7
体征状况不严重
6
3
9
合计
8
8
16
零假设:实验鼠体征状况与蛋白干预没有关系.
利用列联表中的数据得,,
根据小概率值的独立性检验,没有充分证据推断不成立,因此可认为成立,即认为实验鼠体征状况与蛋白干预无关.
5.(25-26高三上·北京延庆·阶段检测)近几年,新能源汽车的更新换代越来越引起人们的关注.某新能源车企想了解年轻司机与中老年司机对新能源车和燃油车的喜好程度,随机抽取了1000名司机,得到的列联表如下:
偏好新能源车
偏好燃油车
总计
年轻司机
300
200
500
中老年司机
200
300
500
总计
500
500
1000
(1)若从抽取的年轻司机中任选1人,求此人偏好新能源车的概率;
(2)依据的独立性检验,能否认为司机对两种汽车的偏好与年龄有关联?
附:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
【解】(1)由题意知年轻司机中,偏好新能源车的有300人,偏好燃油车的有200人,
所以从抽取的年轻司机中任选1人,此人偏好新能源车的概率为.
(2)零假设为:司机对两种汽车的偏好与年龄无关,
由表中的数据,得
依据小概率值的独立性检验,我们推断不成立,
所以能够认为司机对两种汽车的偏好与年龄有关联.
6.(25-26高三上·北京通州阶段检测)为促进消费,扩大内需,江苏省体育局主办了年城市足球联赛,简称“苏超”.随着赛事的进行,引发全省乃至全国人民的关注,城市旅游人数显著提升.下表是比赛五个月来的某城市旅游人数(百万)与第个月的数据:
(月份)
(人数)
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)该市随机抽取了部分市民及游客,调查他们对赛事的关注情况,得到如下列联表:
性别
不关注赛事
关注赛事
男性
女性
请依据小概率值的独立性检验,能否认为关注“苏超”赛事与性别有关.
参考公式:,,其中.
【解】(1)由表格中的数据可得,,
所以,
,
故关于的线性回归方程为.
(2)零假设关注“苏超”赛事与性别无关,
由表格中的数据可得,
依据小概率值的独立性检验,能认为关注“苏超”赛事与性别有关.
7.(2025·湖南·三模)中国的非遗项目丰富多样,涵盖广泛,体现了中华民族的智慧和独特的文化魅力.春节期间某地为充分宣扬该地非遗物质文化,加大非遗传承人的技艺展示.该地市场开发与发展机构统计了非遗传承人的技艺展示量与市场消费收入的6组数据如下表:
技艺展示量x(单位:个)
21
23
24
27
29
32
市场消费收入y(单位:万元)
6
11
20
27
57
77
(1)若用线性回归理论进行统计分析,求市场消费收入y关于技艺展示量x的回归方程(精确到0.1);
(2)若用非线性回归模型求得市场消费收入y关于技艺展示量x的回归方程为,且决定系数,与(1)中的线性回归模型相比,应用决定系数说明哪种模型的拟合效果更好.
附:一组数据,,…,,其回归直线的斜率和截距的最小二乘估计为,;决定系数
参考数据:,,,
线性回归模型的残差平方和为(其中,分别为非遗传承人的技艺展示量和市场消费收入,).
【解】(1)由题意,则,
,
,,
y关于x的线性回归方程为.
(2)对于线性回归模型,,,
决定系数为,
因为,所以用非线性回归模型拟合效果更好.
8.(2025·北京东城·二模)已知近10年北京市12月和1月历史气温分别如下图所示.
(1)从2016年至2024年这9年中随机抽取一年,求该年12月平均高温和平均低温都低于前一年的概率;
(2)将当年12月和次年1月作为当年的冬季周期,记当年12月平均高温与平均低温的差值为(单位:摄氏度),次年1月平均高温与平均低温的差值为(单位:摄氏度).从2015年至2024年这10个冬季周期中随机抽取3个,求至少有2个冬季周期中的概率;
(3)依据图2中信息,能否预测北京市2026年1月平均高温低于4摄氏度?请说明理由.
【解】(1)由图可知从2016年至2024年12月平均高温和平均低温都低于前一年的有2017,2018,2020,2022,
所以从2016年至2024年这9年中随机抽取一年,该年12月平均高温和平均低温都低于前一年的概率为;
(2)由已知可得从2015年至2024年这10个冬季周期分别为,
满足的有个,
从2015年至2024年这10个冬季周期中随机抽取3个,至少有2个冬季周期中的概率为;
(3)不能预测北京市2026年1月平均高温低于4摄氏度,理由如下:
从图2可以看出,1月平均高温数据虽有波动,但没有明显的单调递增或递减的线性趋势,数据的波动是随机的,没有足够的依据能从过去10年的数据直接推断2026年1月平均高温低于4摄氏度.
(答案也可以为可预测,言之有理即可)
9.(2025·北京西城·一模)发展纯电动、插电式混合动力等新能源汽车是我国从汽车大国迈向汽车强国的必由之路.为调查研究,某地统计了辖区内从2017年至2024年这8年的新能源汽车和纯电动汽车的销量,得到如下折线图(单位:百辆):
在每一年中,记该年纯电动汽车销量占该年新能源汽车销量的比重为Q.
(1)从2017年至2024年这8年中随机抽取1年,求该年Q值超过的概率;
(2)现从2019年至2024年这6年中依次随机抽取,每次抽取1个年份,若该年的Q值过,则停止抽取,否则继续从剩余的年份中抽取,直至抽到Q值超过的年份.记抽取的次数为,求的分布列和数学期望:
(3)记2020年至 2024年这5年新能源汽车销量数据的方差为,且这5年纯电动汽车销量数据的方差为,写出与的大小关系.(结论不要求证明)
【解】(1)设从年至年这年中随机抽取1年,且该年的值超过为事件,
由图表知,年的值为,年的值为,
年的值为,年的值为,
年的值为,年的值为,
年的值为,年的值为,
所以在年至年这年中,有且仅有年至年这年的值超过,
所以.
(2)由图表知,在年至年这年中,值超过的有年,
所以随机变量的所有可能取值为,,.
则,,.
所以的分布列为:
故的数学期望.
(3)从年至年这年新能源汽车销量数据的平均数为,
所以从年至年这年新能源汽车销量数据的方差
,
所以
从年至年这年纯电动汽车销量数据的平均数为,
从年至年这年纯电动汽车销量数据的方差
,
所以,
所以.
10.(2025·北京·三模)手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性,300名男性)进行调查,对手机进行评分,评分的频数分布表如下:
女性用户
分值区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
20
40
80
50
10
男性用户
分值区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
45
75
90
60
30
(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);
(2)把评分不低于70分的用户称为“评分良好用户”,完成下列列联表,并判断能否有的把握认为“评分良好用户”与性别有关?
女性用户
男性用户
合计
“认可”手机
“不认可”手机
合计
参考附表:
参考公式,其中
【解】(1)女性用户和男性用户的频率分布直方图分别如下左、右图:
由图可得女性用户的波动小,男性用户的波动大.
(2)2×2列联表如下图:
女性用户
男性用户
合计
“认可”手机
140
180
320
“不认可”手机
60
120
180
合计
200
300
500
≈5.208>2.706,
所以有的把握认为性别和对手机的“认可”有关.
11.(2026·北京石景山·二模)2026年春节期间,模式口历史文化街区推出“骐骥献瑞”主题集章打卡活动.游客可以收集“龙马献瑞”,“马到成功”,“马效炎德”,“马奔财乡”,“奇骏延年”,“马行无疆”6个蕴含马年吉祥寓意的专属印章.为了解不同年龄段游客的打卡习惯,从参与活动的人群中随机抽取100名游客,统计他们集章情况如下表(同一题材重复集章只计1个):
组别
集章1个
集章2个
集章3个
集章4个
集章5个
集章6个
各组总人数
青年
1人
1人
2人
12人
12人
2人
30人
中年
3人
2人
8人
30人
15人
2人
60人
老年
1人
2人
1人
3人
2人
1人
10人
每个游客的打卡行为相互独立.
(1)从上表的青年组中随机抽取1名游客,求该游客集章个数不少于4的概率;
(2)从参与打卡活动的青年和中年游客中各随机抽取2人,用上表统计的频率估计概率,试估计这4人中“恰有2人集章4个、2人集章5个”的概率;
(3)将青年、中年、老年组的组别分别编码为,0,1,用上表统计的频率估计概率,从集章个数为k(,2,3,4,5,6)的游客中随机抽取1人,记该游客的组别编码为,写出满足的k值的个数.(结论不要求证明)
【解】(1)表中青年组共有游客30名,其中集章个数不少于4的人数为,
从中随机抽取1名游客,该游客集章个数不少于4的概率为.
(2)根据题中数据,“青年游客集章4个”的概率可估计为;
“青年游客集章5个”的概率可估计为;
“中年游客集章4个”的概率可估计为;
“中年游客集章5个”的概率可估计为.
所以“恰有2人集章4个、2人集章5个”的概率可估计为:.
(3)因为青年、中年、老年组的组别分别编码为,0,1,
所以期望P(老人)P(青年),
需满足P(老人)P(青年) (因分母为总人数,只需比较分子),
对分别计算:
当,青年1人,中年3人,老年1人,老年人数青年人数,;
,青年1人,中年2人,老年2人,老年人数青年人数,;
同理,当时,老年人数都小于青年人数,所以,
综上,满足条件的值为,共2个.
创新提升
12.(2026·北京海淀·二模)某公司利用自动分拣系统对价值500元以下的中、小件包裹进行分拣.该系统对每件包裹分拣的准确率为99.9%.若一件包裹分拣错误,当包裹价值不超过10元时,该公司的损失费用为包裹价值的150%;当包裹价值超过10元但不超过100元时,该公司的损失费用为包裹价值的60%;当包裹价值超过100元时,该公司的损失费用为包裹价值的75%.
该公司随机抽取10000件包裹,记录并整理这些包裹的价值,获得数据如下表:
价值
件数
4000
4000
1200
800
假设同一组中的每个数据可用该组区间的中点值代替.
假设不同包裹分拣正确与否相互独立.用频率估计概率.
(1)估计一件包裹价值不超过100元的概率;
(2)记为一件包裹分拣错误时该公司的损失费用,估计的数学期望;
(3)该公司每天平均处理10万件包裹.若使用一项新技术,可以让分拣的准确率增加到99.99%,但每天需额外支付5000元.仅从费用的角度考虑,该公司是否使用该项新技术?说明理由.
【解】(1)解:根据题意,抽取的10000件包裹中,有8000件价值不超过100元,
所以不超过100元的频率为,
根据频率估计概率,一件包裹价值不超过100元的概率为
(2)解:根据题意,同一组中的每个数据可用该组区间的中点值代替,
故当包裹价值在时,包裹价值为元,损失费用为元;
当包裹价值在时,包裹价值为元,损失费用为元;
当包裹价值在时,包裹价值为元,损失费用为元;
当包裹价值在时,包裹价值为元,损失费用为元;
所以,的所有可能值为,,,(单位:元)
,,
,,
所以的概率分布列如下:
7.5
33
150
300
所以,(元)
(3)解:建议使用新技术,理由如下:
根据题意,若采用新技术,分拣的准确率增加了0.09%,
故采用新技术时,每天可以减少的损失费用约为 元,
由于,故建议使用新技术.
13.(2026·北京东城·二模)某连锁企业为了解两款产品A和B的收益情况,从所有门店中随机抽取8个门店,记录并整理这些门店同一季度的产品A,B的收益数据(单位:万元),如下表:
门店
产品
1
2
3
4
5
6
7
8
A
5.8
7.2
8.5
9.5
11.2
11.9
12.9
13.7
B
3.7
5.7
7.9
9.6
13.2
15.1
17.9
19.5
用频率估计概率.
(1)从该企业所有门店中随机抽取1个,估计这个门店产品A收益高于产品B收益的概率;
(2)从表中的8个门店中随机抽取3个,记X为这3个门店中产品A收益高于产品B收益的门店个数,求X的分布列及数学期望;
(3)这8个门店中,设门店的产品A,B的收益分别为,,记,,,数据,,,,,,,的方差为,数据,,,,,,,的方差为,数据,,,,,,,的方差为,写出,,的大小关系.(结论不要求证明)
【解】(1)对8个门店的A,B收益,分别记为满足的门店共3个(门店1、2、3),用频率估计概率得: ;
(2)X为抽取的3个门店中A收益高于的个数,服从超几何分布,的可能取值为,
总门店,符合条件的门店,抽取,:
,,
,,
分布列:
0
1
2
3
.
(3)
设产品A收益的方差为,产品B收益的方差为
由产品A的收益极差为,B的收益极差为,
从极差的显著大小关系可以估计其方差的显著大小关系,会显著大于.
因为,,,
线性组合的方差会向权重更大的变量 “靠拢”,权重越大,整体方差越接近该变量的方差.
因此权重偏向 的方差最大,权重偏向的方差最小,权重均等的的方差居中.
14.(2026·北京房山·二模)4月23日是世界读书日.某市调研小学生阅读状况,得到男生、女生最喜爱的一种阅读内容的频率分布如下图:
假设不同学生的选择相互独立.用频率估计概率.
(1)从该市小学生中随机抽取名男生,估计他最喜爱的阅读内容为科学类(包括自然科学和社会科学)的概率;
(2)从该市小学生中随机抽取名男生和名女生,记这人中最喜爱的阅读内容为漫画的人数为,求的分布列和数学期望;
(3)从该市小学生中随机抽取名男生,用“”表示他最喜爱的阅读内容为科学类,“”表示他最喜爱的阅读内容不是科学类;从该市小学生中随机抽取名女生,用“”表示她最喜爱的阅读内容为科学类,“”表示她最喜爱的阅读内容不是科学类.判断方差与的大小.(结论不要求证明)
【解】(1)记事件B为“从该市小学生中随机抽取名男生,他最喜爱的阅读内容为自然科学”,
记事件C为“从该市小学生中随机抽取名男生,他最喜爱的阅读内容为社会科学”,
由图可知,
记事件A为“从该市小学生中随机抽取名男生,他最喜爱的阅读内容为科学类”,
则;
(2)的取值范围为,
“从该市小学生中随机抽取名男生,他最喜爱的阅读内容为漫画”的概率为,
“从该市小学生中随机抽取名女生,她最喜爱的阅读内容为漫画”的概率为,
,
,
,
,
的分布列为
数学期望.
(3),理由如下:
由(1)可知,男生喜爱科学类的概率为,女生喜爱科学类的概率为,
均服从两点分布,故;,
故.
15.(2026·北京·一模)2018年,依托用户碎片化时间的娱乐需求、分享需求以及视频态的信息负载力,短视频快速崛起;与此同时,移动阅读方兴未艾,从侧面反应了人们对精神富足的一种追求,在习惯了大众娱乐所带来的短暂愉悦后,部分用户依旧对有着传统文学底蕴的严肃阅读青睐有加.
某读书APP抽样调查了非一线城市M和一线城市N各100名用户的日使用时长(单位:分钟),绘制成频率分布直方图如下,其中日使用时长不低于60分钟的用户记为“活跃用户”.
(1)请填写以下列联表,并判断是否有99.5%的把握认为用户活跃与否与所在城市有关?
活跃用户
不活跃用户
合计
城市M
城市N
合计
(2)以频率估计概率,从城市M中任选2名用户,从城市N中任选1名用户,设这3名用户中活跃用户的人数为,求的分布列和数学期望.
(3)该读书APP还统计了2018年4个季度的用户使用时长y(单位:百万小时),发现y与季度()线性相关,得到回归直线为,已知这4个季度的用户平均使用时长为12.3百万小时,试以此回归方程估计2019年第一季度()该读书APP用户使用时长约为多少百万小时.
附:,其中.
0.025
0.010
0.005
0.001
5.024
6.635
7.879
10.828
【解】(1)由已知可得以下列联表:
活跃用户
不活跃用户
合计
城市M
60
40
100
城市N
80
20
100
合计
140
60
200
计算 ,
所以有99.5%的把握认为用户是否活跃与所在城市有关.
(2)由统计数据可知,城市M中活跃用户占,城市N中活跃用户占,
设从M城市中任选的2名用户中活跃用户数为,则
设从N城市中任选的1名用户中活跃用户数为,则服从两点分布,其中.
故,
;
;
;
.
故所求的分布列为
0
1
2
3
.
(3)由已知可得,又,
可得,所以,所以.
以代入可得(百万小时),
8 / 8
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。