内容正文:
第46讲 统计综合
(7类核心考点精讲精练)
1. 5年真题考点分布
5年考情
考题示例
考点分析
2023年北京卷,第18题,13分
数据收集
2020年北京卷,第18题,14分
简单随机抽样
2. 命题规律及备考策略
【命题规律】本节内容是北京卷中不单独命题,常在概率统计大题的第一问,基础题
【备考策略】
1.了解简单随机抽样的含义及其解决问题的过程,掌握简单随机抽样的方法;
2.理解并运用分层抽样解决抽取样本的相关问题;
3.会列频率分布表,会画频率分布直方图、频率折线图;
4.能用样本数字特征估计总体数字特征;
5.能用样本估计百分位数,理解百分位数的意义;
6.利用散点图认识变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.
【命题预测】本2025年依旧不会单独考查,本节内容主要为概率的计算提供情景,用样本的频率估计随机事件发生的概率,与统计有关的问题主要基于现实情境,发展数学建模、数学运算数学分析等能力.
知识讲解
知识点1 随机抽样
1、简单随机抽样
(1)定义:一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.适用于总体个数较少的情况。
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.适用于总体个数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(3)简单随机抽样的特征(只有四个特点都满足的抽样才是简单随机抽样)
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
2、分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”
【注意】分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
知识点2 用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于.
(2)频率分布直方图中数字特征的计算
①最高的小长方形底边中点的横坐标即是众数.
②中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
2、百分位数
(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
3、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
(2)标准差和方差
①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
知识点3 变量间的相关关系
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、回归分析与回归方程
(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
(3)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
考点一、简单随机抽样
【典例1】(23-24高三下·河北邢台·模拟预测)某中学高一年级有400人,高二年级有320人,高三年级有280人,若用随机数法在该中学抽取容量为n的样本,每人被抽到的可能性都为0.2,则n等于( )
A.80 B.160 C.200 D.280
【典例2】(23-24高三下·四川成都·模拟预测)用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )
A., B., C., D.,
1.(24-25高三上·上海·阶段练习)某校广播室为研究学生对广播节目的喜好情况,从该校名同学中用随机数法抽取人参加这一项调查.将这名同学编号为,在以下随机数表中从任意一个随机数开始读出三位数组,假设从第行第列的数字开始,则第个被抽到的同学的编号为 .
16227794
39495443
54821737
93237887
35209643
84263491
64844217
55721754
55068331
04744767
21763350
25839212
06766301
63785916
95556719
98105071
75128673
58074439
2.(23-24高三上·河北唐山·模拟预测)为了解一个鱼塘中养殖鱼的生长情况,从这个鱼塘多个不同位置捕捞出100条鱼,分别做上记号,再放回鱼塘,几天后,再从鱼塘的多处不同位置捕捞出120条鱼,发现其中带有记号的鱼有6条,请根据这一情况来估计鱼塘中的鱼大概有 条.
考点二、分层抽样及相关计算
【典例1】(24-25高二上·北京平谷·阶段练习)城市森林公园有各种树木共30000棵,其中松树3000棵,为了调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为( )
A.30 B.25 C.20 D.15
【典例2】(23-24高三上·陕西咸阳·阶段练习)某学校高二年级选择“史政地”,“史政生”和“史地生”组合的同学人数分别为210,90和60.现采用分层抽样的方法选出12位同学进行项调查研究,则“史政生”组合中选出的同学人数为( )
A.7 B.6 C.3 D.2
1.(21-22高三上·北京通州·期中)某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取的人数为( )
A.12 B.20 C.24 D.28
2.(24-25高三上·河南许昌·期中)唐代以来,牡丹之盛,以“洛阳牡丹甲天下”的美名流传于世.唐已知根据花瓣类型可将牡丹分为单瓣类、重瓣类、千瓣类三类,现有牡丹花n朵,千瓣类比单瓣类多30朵,采用分层抽样方法从中选出12朵牡丹进行观察研究,其中单瓣类有4朵,重瓣类有2朵,千瓣类有6朵,则n=( )
A.360 B.270 C.240 D.180
考点三、频率分布直方图及其应用
【典例1】(23-24高三下·北京海淀·开学考试)某直播间从参与购物的人群中随机选出200人,并将这200人按年龄分组,得到的频率分布直方图如图所示,则在这200人中年龄在的人数 ,直方图中 .
【典例2】(23-24高三上·北京石景山·期末)某学校从全校学生中随机抽取了50名学生作为样本进行数学知识测试,记录他们的成绩,测试卷满分100分,将数据分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并整理得到如右频率分布直方图,则图中的值为 ,若全校学生参加同样的测试,估计全校学生的平均成绩为 (每组成绩用中间值代替).
1.(22-23高三下·北京大兴·模拟预测)在某区高三年级举行的一次质量检测中,某学科共有3000人参加考试.为了解本次考试学生的成绩情况,从中抽取了部分学生的成绩(成绩均为正整数,满分为100分)作为样本进行统计,样本容量为n.按照,,,,的分组作出频率分布直方图(如图所示).已知成绩落在内的人数为16,则下列结论正确的是( )
A.样本容量
B.图中
C.估计全体学生该学科成绩的平均分为70.6分
D.若将该学科成绩由高到低排序,前15%的学生该学科成绩为A等,则成绩为78分的学生该学科成绩肯定不是A等
2.(24-25高三上·云南昆明·期中)如图是某市随机抽取的100户居民的月均用水量频率分布直方图,如果要让60%的居民用水不超出标准(单位:t),根据直方图估计,下列最接近的数为( )
A.8.5 B.9 C.9.5 D.10
考点四、总体百分位数的估计
【典例1】(23-24高三下·北京·模拟预测)样本数据20,24,6,15,18,10,42,57,2的分位数为( )
A.24 B.6 C.10 D.8
【典例2】(22-23高三上·北京丰台·阶段练习)襄阳五中高二年级8名学生某次考试的数学成绩(满分150分)分别为130,90,85,103,93,99,101,116.则这8名学生数学成绩的第70百分位数为( )
A.102 B.103 C.101 D.99
1.(24-25高三上·湖南长沙·阶段练习)有一组数据,按从小到大排列为:,这组数据的分位数等于他们的平均数,则为( )
A.10 B.12 C.14 D.16
2.(23-24高三上·北京海淀·阶段练习)如图是小王同学在篮球赛中得分记录的茎叶图,他在这10场比赛中得分的分位数为 分.
考点五、样本的数字特征及应用
【典例1】(24-25高三上·北京海淀·开学考试)一组数据如下:13,7,9,10,8,15,21,12,该组数据的中位数是 .
【典例2】(22-23高三下·北京西城·三模)某辆汽车每次加油都把油箱加满,下表记录了该车相邻两次加油时的情况.
加油时间
加油量(升)
加油时的累计里程(千米)
2023年5月1日
12
35000
2023年5月15日
60
35500
注:“累计里程”指汽车从出厂开始累计行驶的路程
在这段时间内,该车每100千米平均耗油量为( )
A.6升 B.8升 C.10升 D.12升
1.(23-24高三下·浙江·三模)在对某校高三学生体质健康状况某个项目的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生80人,女生120人,其方差分别为15,10,由此估计样本的方差不可能为( )
A.11 B.13 C.15 D.17
2.已知总体划分为3层,通过分层随机抽样,各层抽取的样本容量分别为,,,样本平均数分别为,,,样本方差分别为,,,若,则( )
A.
B.
C.总体样本平均数
D.当时,总体方差
考点六、相关关系的判断
【典例1】(23-24高二下·北京房山·期末)如图 ①、②、③、④ 分别为不同样本数据的散点图,其对应的线性相关系数分别为,则中最大的是( )
A. B. C. D.
【典例2】(23-24高三下·辽宁葫芦岛·一模)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
1.(23-24高三下·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
2.(24-25高三上·四川宜宾·阶段练习)如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).
根据该折线图,下列说法错误的是( )
A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近
C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势
考点七、线性回归分析
【典例1】(23-24高三下·四川成都·模拟预测)已知关于x的一组数据:
x
1
m
3
4
5
y
0.5
0.6
n
1.3
1.4
根据表中数据得到的线性回归直线方程为,则的值 .
【典例2】(23-24高三下·江西·一模)已知变量y与x线性相关,由样本点求得的回归方程为,若点在回归直线上,且,,则 .
1.(22-23高三上·北京·阶段练习)某企业为解决科技卡脖问题,不断加大科技研发投入,下表为该企业2018年至2022年重大科技项目取得突破的个数:
年份:
2018
2019
2020
2021
2022
重大科技项目
突破数y(单位:个)
2
4
4
7
8
经过相关系数的计算和分析,发现重大科技项目突破个数y与年份x的线性相关程度非常高.请建立y关于x的回归方程,并预测该企业在2024年重大科技项目取得突破的个数.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.
2.(22-23高二下·北京丰台·期末)如图是我国2015年至2023年岁及以上老人人口数(单位:亿)的折线图,
注:年份代码分别对应年份.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数(结果精确到)加以说明;
(2)建立关于的回归方程(系数精确到),并预测2024年我国岁及以上老人人口数(单位:亿).
参考数据:,,,.
参考公式:相关系数,若,则与有较强的线性相关性.
回归方程中斜率和截距的最小二乘估计公式分别为:,.
1.(23-24高三下·江苏南京·开学考试)某学校高二年级选择“物化生”,“物化地”和“史地政”组合的同学人数分别为240,90和120.现采用分层抽样的方法选出30位同学进行某项调查研究,则“史地政”组合中选出的同学人数为( )
A.8 B.12 C.16 D.6
2.(24-25高三上·河北保定·阶段练习)某学校对100名学生的身高进行统计,得到各身高段的人数并整理如下表:
身高(cm)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180]
频数
10
20
30
25
10
5
根据表中数据,下列结论中正确的是( )
A.100名学生身高的中位数小于160cm
B.100名学生中身高低于165cm的学生所占比例超过
C.100名学生身高的极差介于20cm至30cm之间
D.100名学生身高的平均值介于160cm至165cm之间
3.(23-24高三下·北京朝阳·模拟预测)设数据1,2,3,4,5的第m百分位为,,则集合M中元素的个数为( )
A.5 B.6 C.9 D.100
4.(24-25高三上·天津静海·阶段练习)从某高中高三年级1000名随机选取100名学生一次数学统测测试成绩,分为6组:,,,,,,绘制了频率分布直方图如图所示,按此图估计,则高三年级全体学生中,成绩在区间内的学生有( )
A.600名 B.650名 C.60名 D.65名
5.(23-24高三下·福建莆田·三模)已知数据,,…,的平均数为,方差为,数据,,,…,的平均数为,方差为,则( )
A., B.,
C., D.,
1.(22-23高三上·北京·期中)某校高一年级学生全部参加了体育科目的达标测试,现从中随机抽取40名学生的测试成绩,整理数据并按分数段,进行分组,假设同一组中的每个数据可用该组区间的中点值代替,则得到体育成绩的折线图.
(1)体育成绩大于或等于70分的学生常被称为“体育良好”.已知该校高一年级有1000名学生,试估计高一全年级中“体育良好”的学生人数;
(2)为分析学生平时的体育活动情况,现从体育成绩在和的样本学生中随机抽取2人,求在抽取的2名学生中,至少有1人体育成绩在的概率;
(3)假设甲、乙、丙三人的体育成绩分别为,且分别在,三组中,其中.当数据的方差最小时,写出的值.(结论不要求证明)
2.(22-23高三下·北京·模拟预测)某校高三共有500名学生,为了了解学生的体能情况,采用分层抽样的方法从中随机抽取了100名学生进行体能测试,整理他们的成绩得到如下频率分布直方图:
(1)估算:若进行高三学生全员测试,测试成绩低于50的人数;
(2)已知从样本中的男同学中随机抽取1人,该同学成绩不低于70的概率为;从样本中成绩不低于70的学生中随机抽取1人,该学生为男生的概率也为.试估计该校高三学生中男同学和女同学人数的比例.
3.(22-23高一下·云南红河·期末)每年的4月23日是联合国教科文组织确定的“世界读书日”,又称“世界图书和版权日”.A校为了了解学生的课外阅读情况,随机调查了n名学生,发现这些学生的课外日均阅读时间(单位:分钟)均在.根据这n名学生的课外日均阅读时间,将样本数据分组为:,,,,,,并绘制出如下频率分布表.
分组
频数
频率
4
10
0.1
46
a
20
4
(1)求n,的值;
(2)若采用分层随机抽样的方法从课外日均阅读时间为,,的学生中抽取10人,再从抽取的10名学生中随机抽取1名学生进行阅读经验分享,求抽到做阅读经验分享的学生的课外日均阅读时间不少于80分钟的概率;
(3)现从这n名学生中评出课外日均阅读时间较长的10人为“阅读达人”,请算出要成为“阅读达人”至少需要的课外日均阅读时间.
4.(23-24高三下·北京东城·一模)某中学为了解本校高二年级学生阅读水平现状,从该年级学生中随机抽取100人进行一般现代文阅读速度的测试,以每位学生平均每分钟阅读的字数作为该学生的阅读速度,将测试结果整理得到如下频率分布直方图:
(1)若该校高二年级有1500人,试估计阅读速度达到620字/分钟及以上的人数;
(2)用频率估计概率,从该校高二学生中随机抽取3人,设这3人中阅读速度达到540字/分钟及以上的人数为,求的分布列与数学期望;
(3)若某班有10名学生参加测试,他们的阅读速度如下:506,516,553,592,617,632,667,693,723,776,从这10名学生中随机抽取3人,设这3人中阅读速度达到540字/分钟及以上的人数为,试判断数学期望与(2)中的的大小.
5.(24-25高三上·重庆·阶段练习)一年一度的“双11”促销活动落下帷幕,各大电商平台发布的数据显示,在消费品以旧换新、家电政府补贴等促消费政策和活动的带动下,消费市场潜能加速释放,带动相关商品销售保持增长. 经过调研,得到2019年到2024年“双11”活动当天某电商平台线上日销售额(单位: 百亿元)与年份(第年)的6组数据(时间变量的取值依次为),对数据进行处理,得到如下散点图(图1)及一些统计量的值. 其中.
48.7
3.5
91
1204
1.1
9.4
388.1
分别用两种模型:①;②进行拟合,得到相应的回归方程,并进行残差分析,得到如图所示的残差图(图2)(残差值真实值预测值).
(1)根据题中信息,通过残差图比较模型①,②的拟合效果,应选择哪一个模型进行拟合?请说明理由;
(2)根据(1)中所选模型,
(i)求出关于的经验回归方程(系数精确到0.1);
(ⅱ)若该电商平台每年活动当天线上日销售额与当日营销成本及年份存在线性关系: ,则在第几年活动当日营销成本的预测值最大?
参考公式: ;参考数据:.
1.(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
2.(2024·全国·高考真题)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理如下表
亩产量
[900,950)
[950,1000)
[1000,1050)
[1050,1100)
[1100,1150)
[1150,1200)
频数
6
12
18
30
24
10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
3.(2023·天津·高考真题)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
4.(2023·全国·高考真题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
(2)设函数,当时,求的解析式,并求在区间的最小值.
5.(2023·北京·高考真题)为研究某种农产品价格变化的规律,收集得到了该农产品连续40天的价格变化数据,如下表所示.在描述价格变化时,用“+”表示“上涨”,即当天价格比前一天价格高;用“-”表示“下跌”,即当天价格比前一天价格低;用“0”表示“不变”,即当天价格与前一天价格相同.
时段
价格变化
第1天到第20天
-
+
+
0
-
-
-
+
+
0
+
0
-
-
+
-
+
0
0
+
第21天到第40天
0
+
+
0
-
-
-
+
+
0
+
0
+
-
-
-
+
0
-
+
用频率估计概率.
(1)试估计该农产品价格“上涨”的概率;
(2)假设该农产品每天的价格变化是相互独立的.在未来的日子里任取4天,试估计该农产品价格在这4天中2天“上涨”、1天“下跌”、1天“不变”的概率;
(3)假设该农产品每天的价格变化只受前一天价格变化的影响.判断第41天该农产品价格“上涨”“下跌”和“不变”的概率估计值哪个最大.(结论不要求证明)
6.(2020·北京·高考真题)某校为举办甲、乙两项不同活动,分别设计了相应的活动方案:方案一、方案二.为了解该校学生对活动方案是否支持,对学生进行简单随机抽样,获得数据如下表:
男生
女生
支持
不支持
支持
不支持
方案一
200人
400人
300人
100人
方案二
350人
250人
150人
250人
假设所有学生对活动方案是否支持相互独立.
(Ⅰ)分别估计该校男生支持方案一的概率、该校女生支持方案一的概率;
(Ⅱ)从该校全体男生中随机抽取2人,全体女生中随机抽取1人,估计这3人中恰有2人支持方案一的概率;
(Ⅲ)将该校学生支持方案二的概率估计值记为,假设该校一年级有500名男生和300名女生,除一年级外其他年级学生支持方案二的概率估计值记为,试比较与 的大小.(结论不要求证明)
原创精品资源学科网独家享有版权,侵权必究!6
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
第46讲 统计综合
(7类核心考点精讲精练)
1. 5年真题考点分布
5年考情
考题示例
考点分析
2023年北京卷,第18题,13分
数据收集
2020年北京卷,第18题,14分
简单随机抽样
2. 命题规律及备考策略
【命题规律】本节内容是北京卷中不单独命题,常在概率统计大题的第一问,基础题
【备考策略】
1.了解简单随机抽样的含义及其解决问题的过程,掌握简单随机抽样的方法;
2.理解并运用分层抽样解决抽取样本的相关问题;
3.会列频率分布表,会画频率分布直方图、频率折线图;
4.能用样本数字特征估计总体数字特征;
5.能用样本估计百分位数,理解百分位数的意义;
6.利用散点图认识变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.
【命题预测】本2025年依旧不会单独考查,本节内容主要为概率的计算提供情景,用样本的频率估计随机事件发生的概率,与统计有关的问题主要基于现实情境,发展数学建模、数学运算数学分析等能力.
知识讲解
知识点1 随机抽样
1、简单随机抽样
(1)定义:一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.适用于总体个数较少的情况。
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.适用于总体个数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(3)简单随机抽样的特征(只有四个特点都满足的抽样才是简单随机抽样)
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
2、分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”
【注意】分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
知识点2 用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于.
(2)频率分布直方图中数字特征的计算
①最高的小长方形底边中点的横坐标即是众数.
②中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
2、百分位数
(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
3、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
(2)标准差和方差
①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
知识点3 变量间的相关关系
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、回归分析与回归方程
(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
(3)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
考点一、简单随机抽样
【典例1】(23-24高三下·河北邢台·模拟预测)某中学高一年级有400人,高二年级有320人,高三年级有280人,若用随机数法在该中学抽取容量为n的样本,每人被抽到的可能性都为0.2,则n等于( )
A.80 B.160 C.200 D.280
【答案】C
【解析】由题意可知,,解得.故选:C
【典例2】(23-24高三下·四川成都·模拟预测)用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )
A., B., C., D.,
【答案】A
【解析】总体有10个个体,从中抽取第一个,若为,则其可能性为,
若不为,则其可能性为;
抽取第二个,若其为,则第一次一定不是,再从9个个体中抽取1个,且为,
则其可能性为.
综上所述,某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是.故选:A.
1.(24-25高三上·上海·阶段练习)某校广播室为研究学生对广播节目的喜好情况,从该校名同学中用随机数法抽取人参加这一项调查.将这名同学编号为,在以下随机数表中从任意一个随机数开始读出三位数组,假设从第行第列的数字开始,则第个被抽到的同学的编号为 .
16227794
39495443
54821737
93237887
35209643
84263491
64844217
55721754
55068331
04744767
21763350
25839212
06766301
63785916
95556719
98105071
75128673
58074439
【答案】
【解析】由随机数表法可知,前三个被抽到的同学的编号为:、、.
故第个被抽到的同学的编号为.
故答案为:.
2.(23-24高三上·河北唐山·模拟预测)为了解一个鱼塘中养殖鱼的生长情况,从这个鱼塘多个不同位置捕捞出100条鱼,分别做上记号,再放回鱼塘,几天后,再从鱼塘的多处不同位置捕捞出120条鱼,发现其中带有记号的鱼有6条,请根据这一情况来估计鱼塘中的鱼大概有 条.
【答案】2000
【解析】设鱼塘中的鱼有条,因为捕捞出的120条鱼中有6条有记号,
因此由题意可得,解得,即鱼塘中的鱼大概有2000条.
考点二、分层抽样及相关计算
【典例1】(24-25高二上·北京平谷·阶段练习)城市森林公园有各种树木共30000棵,其中松树3000棵,为了调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为( )
A.30 B.25 C.20 D.15
【答案】D
【解析】分层抽样,即等比例抽样,设样本中松树苗的数量为,
则,解得,即样本中松树苗的数量为15.故选:D
【典例2】(23-24高三上·陕西咸阳·阶段练习)某学校高二年级选择“史政地”,“史政生”和“史地生”组合的同学人数分别为210,90和60.现采用分层抽样的方法选出12位同学进行项调查研究,则“史政生”组合中选出的同学人数为( )
A.7 B.6 C.3 D.2
【答案】C
【解析】由条件可知,选出“史政生”组合中选出的同学人数为人.故选:C.
1.(21-22高三上·北京通州·期中)某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取的人数为( )
A.12 B.20 C.24 D.28
【答案】A
【解析】根据题意,设抽取的样本人数为,
因男职工抽取的人数为,所以,
因此女职工抽取的人数为(人).故选:A.
2.(24-25高三上·河南许昌·期中)唐代以来,牡丹之盛,以“洛阳牡丹甲天下”的美名流传于世.唐已知根据花瓣类型可将牡丹分为单瓣类、重瓣类、千瓣类三类,现有牡丹花n朵,千瓣类比单瓣类多30朵,采用分层抽样方法从中选出12朵牡丹进行观察研究,其中单瓣类有4朵,重瓣类有2朵,千瓣类有6朵,则n=( )
A.360 B.270 C.240 D.180
【答案】D
【解析】根据分层抽样的特点,设单瓣类、重瓣类、千瓣类的朵数分别为,
由题意可得,解得,所以.故选:D.
考点三、频率分布直方图及其应用
【典例1】(23-24高三下·北京海淀·开学考试)某直播间从参与购物的人群中随机选出200人,并将这200人按年龄分组,得到的频率分布直方图如图所示,则在这200人中年龄在的人数 ,直方图中 .
【答案】
【解析】由频率分布直方图知,年龄在的频率为,
所以;
由于,所以.
故答案为:30;0.035
【典例2】(23-24高三上·北京石景山·期末)某学校从全校学生中随机抽取了50名学生作为样本进行数学知识测试,记录他们的成绩,测试卷满分100分,将数据分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并整理得到如右频率分布直方图,则图中的值为 ,若全校学生参加同样的测试,估计全校学生的平均成绩为 (每组成绩用中间值代替).
【答案】
【解析】由频率分布直方图中总面积为,
即,解得,
,
故可估计全校学生的平均成绩为.
故答案为:;.
1.(22-23高三下·北京大兴·模拟预测)在某区高三年级举行的一次质量检测中,某学科共有3000人参加考试.为了解本次考试学生的成绩情况,从中抽取了部分学生的成绩(成绩均为正整数,满分为100分)作为样本进行统计,样本容量为n.按照,,,,的分组作出频率分布直方图(如图所示).已知成绩落在内的人数为16,则下列结论正确的是( )
A.样本容量
B.图中
C.估计全体学生该学科成绩的平均分为70.6分
D.若将该学科成绩由高到低排序,前15%的学生该学科成绩为A等,则成绩为78分的学生该学科成绩肯定不是A等
【答案】C
【解析】由频率分布直方图可得:,,,,的频率依次为.
对于A:∵成绩落在内的人数为16,则,解得,故A错误;
对B:由频率可得,解得,故B错误;
对C:由选项B可得:成绩落在的频率为,
估计全体学生该学科成绩的平均分分,故C正确;
对D:设该学科成绩为A等的最低分数为,
∵,,的频率依次为,即,
可知,则,解得,
虽然,但是估计值,有可能出现没有学生考到分的情况(学生成绩均为正整数),
这种情况下成绩为78分的学生该学科成绩可以是A等,D错误;
故选:C.
2.(24-25高三上·云南昆明·期中)如图是某市随机抽取的100户居民的月均用水量频率分布直方图,如果要让60%的居民用水不超出标准(单位:t),根据直方图估计,下列最接近的数为( )
A.8.5 B.9 C.9.5 D.10
【答案】A
【解析】因为,,
所以应在,
所以,解得.
故最接近的数为,故选:A.
考点四、总体百分位数的估计
【典例1】(23-24高三下·北京·模拟预测)样本数据20,24,6,15,18,10,42,57,2的分位数为( )
A.24 B.6 C.10 D.8
【答案】C
【解析】样本数据从小到大排序:2,6,10,15,18,20,24,42,57,共9个,
又,所以分位数为从小到大排列的第三个数,即为.故选:C.
【典例2】(22-23高三上·北京丰台·阶段练习)襄阳五中高二年级8名学生某次考试的数学成绩(满分150分)分别为130,90,85,103,93,99,101,116.则这8名学生数学成绩的第70百分位数为( )
A.102 B.103 C.101 D.99
【答案】B
【解析】8名学生某次考试的数学成绩分别为85,90,93,99,101,103,116,130,
因为,所以这8名学生数学成绩的第70百分位数为103,故选:B
1.(24-25高三上·湖南长沙·阶段练习)有一组数据,按从小到大排列为:,这组数据的分位数等于他们的平均数,则为( )
A.10 B.12 C.14 D.16
【答案】C
【解析】因为该组数据共7个,且,
所以这组数据的分位数为从小到大第4个数,即6,
又组数据的平均数为,则,解得.故选:C.
2.(23-24高三上·北京海淀·阶段练习)如图是小王同学在篮球赛中得分记录的茎叶图,他在这10场比赛中得分的分位数为 分.
【答案】
【解析】根据茎叶图,小王同学在篮球赛中得分记录从小到大排列为:,
因为,所以他在这10场比赛中得分的分位数为.
故答案为:.
考点五、样本的数字特征及应用
【典例1】(24-25高三上·北京海淀·开学考试)一组数据如下:13,7,9,10,8,15,21,12,该组数据的中位数是 .
【答案】11
【解析】首先将数据从小到大排列:7,8,9,10,12,13,15,21,
则其中位数为:.
故答案为:11.
【典例2】(22-23高三下·北京西城·三模)某辆汽车每次加油都把油箱加满,下表记录了该车相邻两次加油时的情况.
加油时间
加油量(升)
加油时的累计里程(千米)
2023年5月1日
12
35000
2023年5月15日
60
35500
注:“累计里程”指汽车从出厂开始累计行驶的路程
在这段时间内,该车每100千米平均耗油量为( )
A.6升 B.8升 C.10升 D.12升
【答案】D
【解析】由表中的数据可知,行驶路径500千米耗油量为60升,
则该车每100千米平均耗油量为升.故选:D
1.(23-24高三下·浙江·三模)在对某校高三学生体质健康状况某个项目的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生80人,女生120人,其方差分别为15,10,由此估计样本的方差不可能为( )
A.11 B.13 C.15 D.17
【答案】A
【解析】设男生体质健康状况的平均数为,女生的平均数为,总体的平均数为,方差为,
则,
,
结合选项,可得A项不符合.故选:A.
2.已知总体划分为3层,通过分层随机抽样,各层抽取的样本容量分别为,,,样本平均数分别为,,,样本方差分别为,,,若,则( )
A.
B.
C.总体样本平均数
D.当时,总体方差
【答案】D
【解析】对于A、B项,由于样本容量与样本平均数、样本方差之间并不是成某种比例关系,
所以A,B错误;
对于C项,设,
则总体样本平均数,所以C错误;
对于D项,当时,总体样本平均数,
所以总体方差
,所以D正确.故选:D.
考点六、相关关系的判断
【典例1】(23-24高二下·北京房山·期末)如图 ①、②、③、④ 分别为不同样本数据的散点图,其对应的线性相关系数分别为,则中最大的是( )
A. B. C. D.
【答案】A
【解析】因③图形比较分散,则;因①②④相较③接近于一条直线附近,则,
又②为下降趋势,则,①比④更接近一条直线,且呈上升趋势,则.
综上,最大.故选:A
【典例2】(23-24高三下·辽宁葫芦岛·一模)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【答案】D
【解析】根据回归方程可知变量与正相关,又变量与负相关,
由正相关、负相关的定义可知,与负相关.故选:D
1.(23-24高三下·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
【答案】C
【解析】由散点图可知,图一两个变量成正相关,且线性相关性较强,故,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故,,,故,所以.故选:C.
2.(24-25高三上·四川宜宾·阶段练习)如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).
根据该折线图,下列说法错误的是( )
A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近
C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势
【答案】B
【解析】根据近十年来全国城镇人口、乡村人口的折线图,可得:
对于A中,城镇人口与年份呈现上升趋势,所以关城镇人口与年份正相关,所以A正确;
对于B中,乡村人口与年份呈现下降趋势,且比较均匀的分布在直线的两侧,
所以乡村人口与年份的相关系数接近,所以B错误;
对于C中,城镇人口与年份呈现上升趋势,且比较均匀的分布在直线的两侧,
所以城镇人口逐年增长率大致相同,所以C正确;
对于D中,乡村人口与年份呈现下降趋势,且比较均匀的分布在直线的两侧,
可预测乡村人口仍呈现下降趋势,所以D正确.故选:B.
考点七、线性回归分析
【典例1】(23-24高三下·四川成都·模拟预测)已知关于x的一组数据:
x
1
m
3
4
5
y
0.5
0.6
n
1.3
1.4
根据表中数据得到的线性回归直线方程为,则的值 .
【答案】0.64
【解析】,,
又题意得在上,
故,故.
故答案为:0.64
【典例2】(23-24高三下·江西·一模)已知变量y与x线性相关,由样本点求得的回归方程为,若点在回归直线上,且,,则 .
【答案】6
【解析】由题意,点在回归直线上,代入可得,,解得,
因,且样本中心点在回归直线上,将条件代入得:,
故,解得.
故答案为:6.
1.(22-23高三上·北京·阶段练习)某企业为解决科技卡脖问题,不断加大科技研发投入,下表为该企业2018年至2022年重大科技项目取得突破的个数:
年份:
2018
2019
2020
2021
2022
重大科技项目
突破数y(单位:个)
2
4
4
7
8
经过相关系数的计算和分析,发现重大科技项目突破个数y与年份x的线性相关程度非常高.请建立y关于x的回归方程,并预测该企业在2024年重大科技项目取得突破的个数.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.
【答案】,11个
【解析】依据题意得:,,
,
,
,,
故所求回归方程为,
当时,,
所以预测该企业在2024年重大科技项目取得的突破数为11个.
2.(22-23高二下·北京丰台·期末)如图是我国2015年至2023年岁及以上老人人口数(单位:亿)的折线图,
注:年份代码分别对应年份.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数(结果精确到)加以说明;
(2)建立关于的回归方程(系数精确到),并预测2024年我国岁及以上老人人口数(单位:亿).
参考数据:,,,.
参考公式:相关系数,若,则与有较强的线性相关性.
回归方程中斜率和截距的最小二乘估计公式分别为:,.
【答案】(1),与之间存在较强的正相关关系;(2),亿
【解析】(1)由折线图看出,与之间存在较强的正相关关系,理由如下:
因为,,,,
所以,,
,
所以,
所以,
,故与之间存在较强的正相关关系.
(2)由(1),结合题中数据可得,
,,
,
关于的回归方程为,
年对应的值为,故,
预测年我国岁及以上老人人口数为亿.
1.(23-24高三下·江苏南京·开学考试)某学校高二年级选择“物化生”,“物化地”和“史地政”组合的同学人数分别为240,90和120.现采用分层抽样的方法选出30位同学进行某项调查研究,则“史地政”组合中选出的同学人数为( )
A.8 B.12 C.16 D.6
【答案】A
【解析】由题意得,史地政”组合中选出的同学人数为.故选:A
2.(24-25高三上·河北保定·阶段练习)某学校对100名学生的身高进行统计,得到各身高段的人数并整理如下表:
身高(cm)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180]
频数
10
20
30
25
10
5
根据表中数据,下列结论中正确的是( )
A.100名学生身高的中位数小于160cm
B.100名学生中身高低于165cm的学生所占比例超过
C.100名学生身高的极差介于20cm至30cm之间
D.100名学生身高的平均值介于160cm至165cm之间
【答案】D
【解析】100名学生身高的中位数是第和第名学生身高的平均值,
第名和第名学生的身高均大于,所以100名学生身高的中位数大于160cm,故A错误;
100名学生中身高低于165cm的学生有名,
所以100名学生中身高低于165cm的学生所占比例为,故B错误;
100名学生身高的极差最大为,最小为,
但是“介于”不能准确表示临界值能否取到,故C错误;
100名学生身高的平均值为,
故D正确.故选:D.
3.(23-24高三下·北京朝阳·模拟预测)设数据1,2,3,4,5的第m百分位为,,则集合M中元素的个数为( )
A.5 B.6 C.9 D.100
【答案】C
【解析】设%,其中,所以%,
当时,,则的比邻整数为1,所以;
当时,,所以;
当时,,则的比邻整数为2,所以;
当时,,所以;
当时,,则的比邻整数为3,所以;
当时,,所以;
当时,,则的比邻整数为4,所以;
当时,,所以;
当时,,则的比邻整数为5,所以;
当时, ;
综上,,故选:C.
4.(24-25高三上·天津静海·阶段练习)从某高中高三年级1000名随机选取100名学生一次数学统测测试成绩,分为6组:,,,,,,绘制了频率分布直方图如图所示,按此图估计,则高三年级全体学生中,成绩在区间内的学生有( )
A.600名 B.650名 C.60名 D.65名
【答案】B
【解析】由题意可知每组的频率依次为:,
可知成绩在区间内的频率为,
人数为.故选:B.
5.(23-24高三下·福建莆田·三模)已知数据,,…,的平均数为,方差为,数据,,,…,的平均数为,方差为,则( )
A., B.,
C., D.,
【答案】C
【解析】已知样本数据的平均数为,方差为,
记数据的平均数为,方差为,
则,
,
由题意可得,.故选:C
1.(22-23高三上·北京·期中)某校高一年级学生全部参加了体育科目的达标测试,现从中随机抽取40名学生的测试成绩,整理数据并按分数段,进行分组,假设同一组中的每个数据可用该组区间的中点值代替,则得到体育成绩的折线图.
(1)体育成绩大于或等于70分的学生常被称为“体育良好”.已知该校高一年级有1000名学生,试估计高一全年级中“体育良好”的学生人数;
(2)为分析学生平时的体育活动情况,现从体育成绩在和的样本学生中随机抽取2人,求在抽取的2名学生中,至少有1人体育成绩在的概率;
(3)假设甲、乙、丙三人的体育成绩分别为,且分别在,三组中,其中.当数据的方差最小时,写出的值.(结论不要求证明)
【答案】(1)750名;(2);(3)79,84,90或79,85,90
【解析】(1)由折线图,样本中体育成绩大于或等于70分的学生有人,
所以该校高一年级学生中“体育良好”的学生人数大约为人;
(2)成绩在有2名学生,设为,有3名学生,设为,
故抽取2名学生,共有,10种情况,
其中至少有1人体育成绩在情况有7种情况,
故在抽取的2名学生中,至少有1人体育成绩在的概率为;
(3)甲、乙、丙三人的体育成绩分别为,且分别在,三组中,其中,
要想数据的方差最小,则三个数据的差的绝对值越小越好,
故,
则甲、乙、丙三人的体育成绩平均值为,
故方差
,
对称轴为,
故当或85时,取得最小值,
的值为79,84,90或79,85,90.
2.(22-23高三下·北京·模拟预测)某校高三共有500名学生,为了了解学生的体能情况,采用分层抽样的方法从中随机抽取了100名学生进行体能测试,整理他们的成绩得到如下频率分布直方图:
(1)估算:若进行高三学生全员测试,测试成绩低于50的人数;
(2)已知从样本中的男同学中随机抽取1人,该同学成绩不低于70的概率为;从样本中成绩不低于70的学生中随机抽取1人,该学生为男生的概率也为.试估计该校高三学生中男同学和女同学人数的比例.
【答案】(1)50人;(2)
【解析】(1)依题意,
样本中成绩不低于50的频率为,
所以成绩低于50的频率为0.1,
所以估计总体中成绩低于50的人数为(人).
(2)样本中成绩不低于70的频率为,
所以样本中成绩不低于70的人数为(人).
因为从样本中成绩不低于70的学生中随机抽取1人,该学生为男生的概率为,
所以样本中成绩不低于70的男同学有30人,
又因为从样本中的男同学中随机抽取1人,该同学成绩不低于70的概率为,
所以样本中有男同学60人,进而有女同学40人,
所以估计总体中男同学和女同学人数的比例为.
3.(22-23高一下·云南红河·期末)每年的4月23日是联合国教科文组织确定的“世界读书日”,又称“世界图书和版权日”.A校为了了解学生的课外阅读情况,随机调查了n名学生,发现这些学生的课外日均阅读时间(单位:分钟)均在.根据这n名学生的课外日均阅读时间,将样本数据分组为:,,,,,,并绘制出如下频率分布表.
分组
频数
频率
4
10
0.1
46
a
20
4
(1)求n,的值;
(2)若采用分层随机抽样的方法从课外日均阅读时间为,,的学生中抽取10人,再从抽取的10名学生中随机抽取1名学生进行阅读经验分享,求抽到做阅读经验分享的学生的课外日均阅读时间不少于80分钟的概率;
(3)现从这n名学生中评出课外日均阅读时间较长的10人为“阅读达人”,请算出要成为“阅读达人”至少需要的课外日均阅读时间.
【答案】(1)100,0.16;(2);(3)94分钟
【解析】(1)因为数据在内的频数为10,频率为0.1,所以,
则,所以;
(2)因为课外日均阅读时间在,,的学生比例为,
所以采用分层随机抽样的方法从课外日均阅读时间为,,的学生中抽取10人,
日均阅读时间在,,的人数分别为,
则课外日均阅读时间不少于80分钟的人数为6人,
抽到做阅读经验分享的学生的课外日均阅读时间不少于80分钟的概率为;
(3)这n名学生中评出课外日均阅读时间较长的10人为阅读达人,
日均阅读时间在的学生人数为4人,
再从日均阅读时间在的学生中选出6个阅读时间较长的人即可,
设6个人中阅读时间最短的是分钟,则,
所以成为“阅读达人”至少需要的课外日均阅读时间至少94分钟.
4.(23-24高三下·北京东城·一模)某中学为了解本校高二年级学生阅读水平现状,从该年级学生中随机抽取100人进行一般现代文阅读速度的测试,以每位学生平均每分钟阅读的字数作为该学生的阅读速度,将测试结果整理得到如下频率分布直方图:
(1)若该校高二年级有1500人,试估计阅读速度达到620字/分钟及以上的人数;
(2)用频率估计概率,从该校高二学生中随机抽取3人,设这3人中阅读速度达到540字/分钟及以上的人数为,求的分布列与数学期望;
(3)若某班有10名学生参加测试,他们的阅读速度如下:506,516,553,592,617,632,667,693,723,776,从这10名学生中随机抽取3人,设这3人中阅读速度达到540字/分钟及以上的人数为,试判断数学期望与(2)中的的大小.
【答案】(1)人;(2)分布列见解析;;(3)
【解析】(1),
故可估计阅读速度达到620字/分钟及以上的人数为人;
(2)从中任取一人,其阅读速度达到540字/分钟及以上的概率为:
,
的可能取值为、、、,
,
,
,
,
则其分布列为:
其期望为:;
(3),理由如下:
这10名学生中,阅读速度达到540字/分钟及以上的人数为人,的可能取值为、、,
,,,
则,故.
5.(24-25高三上·重庆·阶段练习)一年一度的“双11”促销活动落下帷幕,各大电商平台发布的数据显示,在消费品以旧换新、家电政府补贴等促消费政策和活动的带动下,消费市场潜能加速释放,带动相关商品销售保持增长. 经过调研,得到2019年到2024年“双11”活动当天某电商平台线上日销售额(单位: 百亿元)与年份(第年)的6组数据(时间变量的取值依次为),对数据进行处理,得到如下散点图(图1)及一些统计量的值. 其中.
48.7
3.5
91
1204
1.1
9.4
388.1
分别用两种模型:①;②进行拟合,得到相应的回归方程,并进行残差分析,得到如图所示的残差图(图2)(残差值真实值预测值).
(1)根据题中信息,通过残差图比较模型①,②的拟合效果,应选择哪一个模型进行拟合?请说明理由;
(2)根据(1)中所选模型,
(i)求出关于的经验回归方程(系数精确到0.1);
(ⅱ)若该电商平台每年活动当天线上日销售额与当日营销成本及年份存在线性关系: ,则在第几年活动当日营销成本的预测值最大?
参考公式: ;参考数据:.
【答案】(1)应选择模型②,理由见解析;(2)①;②第12年活动当日营销成本的预测值最大.
【解析】(1)由残差图可知模型①的残差值比较分散和远离横轴,
所以模型①平方和大于模型②的残差平方和,
所以应选择模型②.
(2)(i)对于模型②:,
令,可得,
则,
可得,所以关于的经验回归方程为;
(ⅱ)由(i)可得:,整理可得,
,则,
令,解得;令,解得;
可知在内单调递增,在内单调递减,
所以当时,取到最大值,即取得最大值,
所以第12年活动当日营销成本的预测值最大.
1.(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【答案】A
【解析】观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,
线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1.故选:A
2.(2024·全国·高考真题)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理如下表
亩产量
[900,950)
[950,1000)
[1000,1050)
[1050,1100)
[1100,1150)
[1150,1200)
频数
6
12
18
30
24
10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
【答案】C
【解析】对于 A, 根据频数分布表可知, ,
所以亩产量的中位数不小于 , 故 A 错误;
对于B,亩产量不低于的频数为,
所以低于的稻田占比为,故B错误;
对于C,稻田亩产量的极差最大为,最小为,故C正确;
对于D,由频数分布表可得,平均值为
,故D错误.故选;C.
3.(2023·天津·高考真题)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【解析】根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,
把代入可得,C选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,
即取出的数据的相关系数不一定是,D选项错误故选:C
4.(2023·全国·高考真题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
(2)设函数,当时,求的解析式,并求在区间的最小值.
【答案】(1),;(2),最小值为.
【解析】(1)依题可知,左边图形第一个小矩形的面积为,所以,
所以,解得:,
.
(2)当时,
;
当时,
,
故,
所以在区间的最小值为.
5.(2023·北京·高考真题)为研究某种农产品价格变化的规律,收集得到了该农产品连续40天的价格变化数据,如下表所示.在描述价格变化时,用“+”表示“上涨”,即当天价格比前一天价格高;用“-”表示“下跌”,即当天价格比前一天价格低;用“0”表示“不变”,即当天价格与前一天价格相同.
时段
价格变化
第1天到第20天
-
+
+
0
-
-
-
+
+
0
+
0
-
-
+
-
+
0
0
+
第21天到第40天
0
+
+
0
-
-
-
+
+
0
+
0
+
-
-
-
+
0
-
+
用频率估计概率.
(1)试估计该农产品价格“上涨”的概率;
(2)假设该农产品每天的价格变化是相互独立的.在未来的日子里任取4天,试估计该农产品价格在这4天中2天“上涨”、1天“下跌”、1天“不变”的概率;
(3)假设该农产品每天的价格变化只受前一天价格变化的影响.判断第41天该农产品价格“上涨”“下跌”和“不变”的概率估计值哪个最大.(结论不要求证明)
【答案】(1);(2);(3)不变
【解析】(1)根据表格数据可以看出,天里,有个,也就是有天是上涨的,
根据古典概型的计算公式,农产品价格上涨的概率为:
(2)在这天里,有天上涨,天下跌,天不变,
也就是上涨,下跌,不变的概率分别是,,,
于是未来任取天,天上涨,天下跌,天不变的概率是
(3)由于第天处于上涨状态,从前次的次上涨进行分析,
上涨后下一次仍上涨的有次,不变的有次,下跌的有次,
因此估计第次不变的概率最大.
6.(2020·北京·高考真题)某校为举办甲、乙两项不同活动,分别设计了相应的活动方案:方案一、方案二.为了解该校学生对活动方案是否支持,对学生进行简单随机抽样,获得数据如下表:
男生
女生
支持
不支持
支持
不支持
方案一
200人
400人
300人
100人
方案二
350人
250人
150人
250人
假设所有学生对活动方案是否支持相互独立.
(Ⅰ)分别估计该校男生支持方案一的概率、该校女生支持方案一的概率;
(Ⅱ)从该校全体男生中随机抽取2人,全体女生中随机抽取1人,估计这3人中恰有2人支持方案一的概率;
(Ⅲ)将该校学生支持方案二的概率估计值记为,假设该校一年级有500名男生和300名女生,除一年级外其他年级学生支持方案二的概率估计值记为,试比较与 的大小.(结论不要求证明)
【答案】(Ⅰ)该校男生支持方案一的概率为,该校女生支持方案一的概率为;(Ⅱ),(Ⅲ)
【解析】(Ⅰ)该校男生支持方案一的概率为,
该校女生支持方案一的概率为;
(Ⅱ)3人中恰有2人支持方案一分两种情况,
(1)仅有两个男生支持方案一,(2)仅有一个男生支持方案一,一个女生支持方案一,
所以3人中恰有2人支持方案一概率为:;
(Ⅲ)
原创精品资源学科网独家享有版权,侵权必究!6
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$