专题01 统计与成对数据的统计分析(知识清单)(全国通用)2026年高考数学一轮复习讲练测

2026-01-14
| 3份
| 93页
| 3125人阅读
| 54人下载
精品

资源信息

学段 高中
学科 数学
教材版本 -
年级 高三
章节 -
类型 学案-知识清单
知识点 统计,统计案例
使用场景 高考复习-一轮复习
学年 2026-2027
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 14.63 MB
发布时间 2026-01-14
更新时间 2026-01-14
作者 a13058450603
品牌系列 上好课·一轮讲练测
审核时间 2026-01-14
下载链接 https://m.zxxk.com/soft/55954505.html
价格 4.00储值(1储值=1元)
来源 学科网

内容正文:

专题01 统计与成对数据的统计分析 目录 01理·思维导图:呈现教材知识结构,构建学科知识体系。 02盘·基础知识:甄选核心知识逐项分解,基础不丢分。 【知能解读01】随机抽样 【知能解读02】用样本估计总体 【知能解读03】成对数据的统计分析 03 破·重点难点:突破重难点,冲刺高分。 【重难点突破01】频率分布直方图的计算 【重难点突破02】非线性回归分析的求法 04 辨·易混易错:辨析易混易错知识点,夯实基础。 【易混易错01】对统计图表中的概念理解不清,识图不准确 【易混易错02】对样本数字特征认识不到位 【易混易错03】求解独立性检验问题对的值理解不准确 05 点·方法技巧:点拨解题方法,练一题通一类 【方法技巧01】应用随机数表法的两个关键点 【方法技巧02】 解决分层抽样的常用公式 【方法技巧03】统计图表 【方法技巧04】百分位数的计算 【方法技巧05】用样本的数字特征估计总体的数字特征 【方法技巧06】判断相关关系的2种方法 【方法技巧07】样本相关系数的计算 【方法技巧08】线性回归分析问题的类型及解题方法 【方法技巧09】决定系数与残差 【方法技巧10】分类变量与列联表 【方法技巧11】独立性检验的一般步骤 01 随机抽样 1、抽样调查 (1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体. (2)个体:构成总体的每一个元素叫做个体. (3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量. 2、简单随机抽样 (1)定义:一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本. (2)两种常用的简单随机抽样方法 ①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.适用于总体个数较少的情况。 ②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.适用于总体个数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便. (3)简单随机抽样的特征(只有四个特点都满足的抽样才是简单随机抽样) ①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析. ②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作. ③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算. ④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平. 3、分层抽样 (1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样. 分层抽样适用于已知总体是由差异明显的几部分组成的. (2)分层抽样问题类型及解题思路 ①求某层应抽个体数量:按该层所占总体的比例计算. ②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. ③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==” 【注意】分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量). 【真题实战】(2026·河北沧州·一模)第十五届全运会将于2025年11月9日至21日在广东举行.广东某高中为调查该校学生对全运会的了解程度,利用分层随机抽样的方法从三个年级中抽取了90人进行了问卷调查,其中高一、高二年级分别抽取了24人、30人,且高三年级共有学生1080人,则该高中学生总数为 人. 【答案】2700 【分析】由分层抽样的定义求得学校总人数. 【详解】由题意,高三年级中抽取了人, 设该高中三个年级的学生总数为人,由分层抽样的方法可知,解得, 即该高中学生总数为2700人. 故答案为:2700. 02 用样本估计总体 1、频率分布直方图 (1)频率、频数、样本容量的计算方法 ①×组距=频率. ②=频率,=样本容量,样本容量×频率=频数. ③频率分布直方图中各个小方形的面积总和等于. (2)频率分布直方图中数字特征的计算 ①最高的小长方形底边中点的横坐标即是众数. ②中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出. ③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积. 2、百分位数 (1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值. (2)计算一组个数据的的第百分位数的步骤 ①按从小到大排列原始数据. ②计算. ③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数. (3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数. 3、样本的数字特征 (1)众数、中位数、平均数 ①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平. ②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平. ③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:. (2)标准差和方差 ①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差. ②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差. 【注意】标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小. ③平均数、方差的性质:如果数据的平均数为,方差为,那么 一组新数据的平均数为,方差是. 一新数据的平均数为,方差是. 一组新数据的平均数为,方差是. 【真题实战】【多选】(25-26高二上·宁夏吴忠·月考)某同学参加射击比赛,打了8发子弹,报靶数据如下:9,8,6,10,9,7,6,9(单位:环),则下列说法正确的是(   ) A.这组数据的众数为9 B.这组数据的40%分位数是7.5 C.这组数据的极差是4 D.这组数据的标准差是 【答案】ACD 【分析】分别计算这组数据的众数、百分位数、极差、标准差逐项判断即可. 【详解】对于A,由题意知这组数据的众数为9,故A正确; 对于B,这组数据从小到大为6,6,7,8,9,9,9,10, 由知40%分位数为8,故B错误; 对于C,这组数据的极差是,故C正确; 对于D,这组数据的平均数是, 方差是, 所以这组数据的标准差是,故D正确. 故选:ACD 03 成对数据的统计分析 1、两个变量的线性相关 (1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2、回归分析与回归方程 (1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为 其中,,,(,)称为样本点的中心. (3)相关系数 若相应于变量的取值,变量的观测值为, 则变量与的相关系数, 通常用来衡量与之间的线性关系的强弱,的范围为. ①当时,表示两个变量正相关;当时,表示两个变量负相关. ②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上. ③通常当时,认为两个变量具有很强的线性相关关系. 3、残差分析 对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. (1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适. (2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适. (3)相关指数:用相关指数来刻画回归的效果,其计算公式是:. 越接近于,说明残差的平方和越小,也表示回归的效果越好. 4、独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表: ①定义:列出的两个分类变量的频数表称为列联表. ②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表 总计 总计 (3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验. 0.10 0.05 0.010 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【真题实战】(四川省宜宾市2026届高三一模考试数学试题)对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是(    ) A. B. C. D.1 【答案】B 【分析】根据回归直线过样本中心点列方程求解即可. 【详解】由可知 ,. 因为回归直线过样本中心点,即, 将其坐标代入方程可得,解得, 故选:B. 01 频率分布直方图的计算 1、由频率分布直方图进行相关计算需掌握的2个关系式 (1)×组距=频率. (2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数. 2、利用频率分布直方图估计样本的数字特征的方法 (1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值. (2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和. (3)众数:最高的矩形的中点的横坐标. 【典例1】【多选】(2026·河北沧州·一模)某科研单位对Deepseek的使用情况进行满意度问卷调查,在1000名用户的问卷(用户打分都在50分到100分之间)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,则(同一组数据用该组区间的中点值为代表)(   )    A. B.由样本数据可估计1000名用户中打分在70分以下的有350人 C.估计这1000名用户问卷的得分的分位数为85 D.估计这1000名用户问卷的得分的平均数为75 【答案】ABC 【分析】对于A,由各矩形面积为1可判断选项正误;对于B,由A分析结合题意可判断选项正误;对于CD,由频率分布直方图计算百分位数,平均数方法可得答案. 【详解】对于A,由题可得, 故A正确; 对于B,由A分析,打分在分以下对应频率为:,则对应人数为:,故B正确; 对于C,前3个矩形面积之和为:, 前4个矩形面积之和为:, 则分位数在到90之间,设为,则, 故C正确; 对于D,平均数为: ,故D错误. 故选:ABC 【典例2】【多选】(24-25高一下·湖南岳阳·期末)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为的样本,其频率分布直方图如图,其中支出在元的学生有45人,则下列说法正确的是(    ) A.样本中支出在元的频率为 B.的值为150 C.采用分层抽样从这45人中抽出10人,则在中共需抽出5人 D.该校学生一周生活方面支出的第75百分位数大约是52元(精确到个位数) 【答案】BD 【分析】对于A,利用频率分布直方图中所有矩形的面积之和为1,可判断;对于B,利用频率、频数以及样本总容量的关系可判断;对C,计算出样本中支出在的频率,结合分层抽样可判断;对D,根据百分位数的定义计算. 【详解】对于A,样本中支出在元的频率为,故A错误; 对于B,由A知,故B正确; 对于C,样本支出在的频率为,则在中共需抽出人,故C错误; 对于D因为样本中支出在的频率为,所以第75百分位数位于区间内,记为, 则,解得,所以第75百分位数大约是52元,故D正确. 故选:BD. 02 非线性回归分析的求法 (1)根据原始数据作出散点图; (2)根据散点图选择恰当的拟合函数; (3)作恰当变换,将其转化成线性函数,求线性回归方程; (4)在(3)的基础上通过相应变换,即可得非线性回归方程. 【典例1】(24-25高三上·福建厦门·月考)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示: 令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? 附:①相关系数,回归直线中公式分别为,; ②参考数据:,,, 【答案】(1)模型②的拟合程度更好 (2)13(百万辆) 【分析】(1)利用公式分别求出模型①和②的相关系数,结合相关系数的意义即可判断哪一个模型拟合程度更好; (2)先利用最小二乘法求出关于的回归方程,再令,即可得解.. 【详解】(1)设模型①和②的相关系数分别为, 由题意可得:, , 所以,由相关系数的意义可得,模型②的拟合程度更好. (2)因为, 又由,, 得, 所以,即回归方程为, 当时,, 因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆). 【典例2】(2025·陕西西安·模拟预测)当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身体健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表: 关卡 1 2 3 4 5 6 平均过关时间(单位:秒) 50 78 124 121 137 352 计算得到一些统计量的值为:,,其中,. (1)若用模型拟合与的关系,根据提供的数据,求出关于的经验回归方程; (2)甲参加一场闯关游戏,比赛共有5局,甲每局比赛获胜的概率为,且每局比赛相互独立,记甲恰好获胜3次的概率为,求的最大值,并求出相应的概率. 参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,. 【答案】(1) (2), 【分析】(1)先对两边分别取对数得到,再根据题目中的数据代入公式去求即可; (2)依题意,利用导数求出函数的最大值,即可得解. 【详解】(1)因为两边取对数可得,即, 令,所以,由, ,. 所以, 又,即, 所以,所以. 所以关于的经验回归方程为. (2)甲每局比赛获胜的概率为,则甲每局比赛失败的概率为, 依题意可得, 则, 所以当时,当时, 所以在上单调递增,在上单调递减, 所以,此时; 01 对统计图表中的概念理解不清,识图不准确 辨析:求解统计图表问题,重要的是认真观察图表,发现有用信息和数据。对于频率分布直方图,应注意图中的每一个小矩形的面积是落在该区间上的频率,所有小矩形的面积和为1,当小矩形等高时,说明频率相等,计算时不要漏掉其中一个. 【典例1】(25-26高一上·北京海淀·月考)空气质量指数是评估空气质量状况的一组数字,空气质量指数划分为和六档,分别对应“优”、“良”、“轻度污染”、“中度污染”、“重度污染”和“严重污染”,六个等级.如图,是我市冬季某月连续14天的空气质量指数趋势图,则下列说法中正确的是(   ) A.这14天中有5天空气质量为“中度污染” B.从第三天到第七天空气质量越来越好 C.这14天中空气质量指数的中位数为196.5 D.连续三天中空气质量指数方差最小的是5日到7日 【答案】C 【分析】根据题意,由折线图分析数据,结合中位数的求法,逐一分析各个选项,即可得答案. 【详解】对于A,这14天中有4天空气质量指数在之间,则有4天为“中度污染”,故A错误; 对于B,从第三天到第七天空气质量先变好再变坏,故B错误; 对于C,将14组数据从小到大排列: ,其中位数为,故C正确; 对于D,5日到7日的三天,数据波动比较大,则方差较大, 所以连续三天中空气质量指数方差最小不是5日到7日,故D错误. 故选:C 【典例2】(25-26高二上·四川成都·期中)某机构对我国若干大型科技公司调查统计后,得到了芯片、软件两个行业从业者的年龄分布的饼图(图1)和“90后”从事这两个行业岗位的分布雷达图(图2),则下列说法中一定正确的是(    )    A.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多 B.芯片、软件行业中从事技术和设计岗位的“90后”人数和超过从事这两个行业总人数的25% C.芯片、软件行业从业者中,“90后”占比不超过50% D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前”从事这两个行业的总人数少 【答案】B 【分析】根据饼形图和“90后”从事这两个行业岗位的分布雷达图的数据进行分析,逐项判断即可. 【详解】对于A,芯片、软件行业从事技术岗位的人中,“90后”人数占比为,占芯片、软件行业从业者的, 而芯片、软件行业从业者中“80后”占总人数的,但不知道从事技术岗位人数的比例, 故无法确定两者人数的多少,所以选项A不一定正确; 对于B,芯片、软件行业中从事技术、设计岗位的“90后”人数占比为, 所以超过从事这两个行业总人数的,所以选项B正确; 对于C,从饼图可看出芯片、软件行业从业者中,“90后”占比为,超过,所以选项C不正确; 对于D,芯片、软件行业中,“90后”从事市场岗位的人数占比为, 占芯片、软件行业从业者的,“80前”占比,所以选项D错误. 故选:B. 02 对样本数字特征认识不到位 辨析:统计学的另一基本思想是通过科学合理地获取样本,再通过对样本数据的处理,用样本数字特征去估计总体的相应数字特征。对此我们要有一个辩证的理解,即有时会出现偏差,而解决这一问题的方法是适度增加样本容量,当样本容量越大,它对总体接近程度越大,可信度越高。 【典例1】(25-26高三上·上海浦东新·期末)某班一次数学小测验(百分制)后,老师为了奖励同学们平时认真学习,决定给每位同学的成绩加上5分作为过程性评价奖励.加分后,与原始分数相比,不会发生改变的是(    ) A.平均数 B.中位数 C.第80百分位数 D.方差 【答案】D 【分析】根据平均值、中位数、百分位数的概念判断ABC,根据方差性质判断D. 【详解】加分后,与原始分数相比,平均值,中位数,第80百分位数的数值都会发生改变, 但根据方差的性质,一组数据同时加上相同的数后,方差大小不变. 故选:D. 【典例2】(25-26高三上·黑龙江·月考)某中学举办迎国庆歌咏比赛,邀请了七位评委,对一个选手打分后,得到一组互不相等的数据,,,,,,,去掉其中最高分与最低分得到的数据与原始数据一定相同的是(   ) A.平均分 B.极差 C.标准差 D.中位数 【答案】D 【分析】根据平均数、极差、标准差、中位数的概念和运算法则,采用赋值法逐一分析判断选项正误. 【详解】选项A:若7个数据为,原平均分为, 去掉最高和最低分后平均分为, ,平均分不一定相同,故A错误; 选项B:若7个数据为,原极差为,去掉最高和最低分后极差为, ,极差不一定相同,故B错误; 选项C: 若7个数据为,则原数据平均数为, 标准差为 , 去掉最高和最低分后平均数为, 标准差为 , 标准差不一定相同,故C错误; 选项D:设,则原始数据的中位数为, ,,,,的中位数也为, 去掉其中最高分与最低分得到的数据与原始数据一定相同的是中位数,故D正确. 故选:D. 03 求解独立性检验问题对的值理解不准确 辨析:构造一个随机变量,其中为样本容量.如果的观测值,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的为一个判断规则的临界值. 【典例1】(25-26高三上·天津和平·月考)下列说法错误的是(    ) A.某校高一年级共有男女学生人,现按性别采用分层抽样的方法抽取容量为人的样本,若样本中男生有人,则该校高一年级女生人数是 B.已知关于的回归直线方程为,若,则 C.数据的第百分位数为 D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不大于 【答案】C 【分析】利用分层抽样计算判断A;根据回归方程经过样本中心判断B;求出第75百分位数判断C;利用独立性检验的思想判断D. 【详解】对于A,由抽样比为,样本中女生有人,可得该校高一年级女生人数是人,A正确; 对于B,线性回归方程中,根据回归方程经过样本中心,关于的回归直线方程为,若,则,B正确; 对于C,由,得第百分位数为,C错误; 对于D,由,可判断与有关联,此推断犯错误的概率不大于,D正确. 故选:C. 【典例2】(2026高三·全国·专题练习)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是(    ) 日落云里走夜晚天气 下雨 未下雨 出现 25 5 未出现 25 45 参考公式: 临界值参照表: 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 A.夜晚下雨的概率约为 B.未出现“日落云里走”,夜晚下雨的概率约为 C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关 D.出现“日落云里走”,有99%的把握判断夜晚会下雨 【答案】D 【分析】利用频率估算概率,结合观测值对照附表,对选项进行判断即可. 【详解】选项A:根据列联表可知:100天中有50天下雨,50天未下雨, 因此夜晚下雨的概率约为,故选项A正确; 选项B:未出现“日落云里走”,夜晚下雨的概率约为,故选项B正确; 选项C:因为 ,所以据小概率值的独立性检验, 可以认为“日落云里走”是否出现与夜晚天气有关,故选项C正确; 选项D:依据小概率值的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率小于0.01,但不代表一定会下雨,故选项D错误. 故选:D 01 应用随机数表法的两个关键点 1、确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向; 2、读数时注意结合编号特点进行读取.若编号为两位数字,则两位两位地读取;若编号为三位数字,则三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本. 1.(24-25高三上·辽宁·期末)某厂质检员利用随机数表对生产的600个产品进行抽样调查,先将这600个产品进行编号:001,002,003,…,600.从中抽取120个样本,下图是随机数表的第2行到第3行,若从随机数表的第2行第5列开始从左向右读取数据,则得到的第5个编号是(    ) 32  12  67  12  31  02  37  02  14  72  31  09  81  47  80  25  13  25  46  08 71  20  34  51  19  72  01  38  47  18  04  92  51  28  02  31  27  46  51  30 A.098 B.147 C.513 D.310 【答案】C 【分析】根据随机数表的读法读出前5个符合的编号即可得解. 【详解】由题意可知得到的编号依次为231,023,147,098,513,…,则得到的第5个编号是513. 故选:C. 2.(2024·陕西西安·一模)某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是(    ) 32 21 18 34 29  78 64 54 07 32  52 42 06 44 38  12 23 43 56 77  35 78 90 56 42 84 42 12 53 31  34 57 86 07 36  25 30 07 32 86  23 45 78 89 07  23 68 96 08 04 32 56 78 08 43  67 89 53 55 77  34 89 94 83 75  22 53 55 78 32  45 77 89 23 45 A.623 B.328 C.072 D.457 【答案】A 【分析】按照随机数表提供的数据,三位一组的读数,并取001到650内的数,重复的只取一次即可 【详解】从第5行第6列开始向右读取数据, 第一个数为253,第二个数是313, 第三个数是457,下一个数是860,不符合要求, 下一个数是736,不符合要求,下一个是253,重复, 第四个是007,第五个是328,第六个数是623,,故A正确. 故选:A. 3.(2024·云南·二模)本次月考分答题卡的任务由高三16班完成,现从全班55位学生中利用下面的随机数表抽取10位同学参加,将这55位学生按进行编号,假设从随机数表第1行第2个数字开始由左向右依次选取两个数字,重复的跳过,读到行末则从下一行行首继续,则选出来的第6个号码所对应的学生编号为(    ) 0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011 1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179 3014 2310 2118 2191 3726 3890 0140 0523 2617 A.51 B.25 C.32 D.12 【答案】A 【分析】根据给定信息,利用随机数表抽样法规则,依次写出前6个符合要求的编号即可. 【详解】依题意,前6个编号依次为:31,32,43,25,12,51, 所以选出来的第6个号码所对应的学生编号为51. 故选:A 02 解决分层抽样的常用公式 先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数. (1)抽样比==; (2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量. 1.(2025·云南·一模)在孟德尔两对相对性状的豌豆杂交实验中,子二代豌豆性状表现型及理论比例为:黄色圆粒:黄色皱粒:绿色圆粒:绿色皱粒.现研究人员计划从大量该代豌豆种子中,随机抽取n粒豌豆作为样本进行研究.若希望样本中黄色皱粒豌豆的理论(期望)数量为30粒,则样本量n应为(   ) A.160 B.190 C.220 D.250 【答案】A 【分析】根据分层抽样结合样本数量计算求解. 【详解】根据题意得,黄色皱粒豌豆所占总体比例为,所以样本量. 故选:A. 2.(2025·海南儋州·模拟预测)某电商平台在2025年3月对其用户进行了一项关于每月消费金额的调查.该平台用户可分为普通会员、白银会员、黄金会员和钻石会员四个等级,各等级用户人数的比例为.调查采用分层随机抽样,按照各等级用户人数比例抽取样本.已知样本中普通会员、白银会员、黄金会员、钻石会员的平均每月消费金额分别为200元、500元、800元、1200元,则估计该平台用户的平均每月消费金额为(   ) A.675元 B.510元 C.650元 D.460元 【答案】B 【分析】根据分层抽样方法,计算样本均值,估计总体均值. 【详解】. 故选:B. 3.(2025·云南昆明·一模)在对某中学高三年级学生体重(单位:kg)的调查中,按男、女生人数比例用分层随机抽样的方法抽取部分学生进行测量.已知抽取的男生有人,其体重的平均数和方差分别为,抽取的女生有人,其体重的平均数和方差分别为,则估计该校高三年级学生体重的方差为(    ) A. B. C. D. 【答案】C 【分析】根据分层随机抽样样本平均数公式和方差公式即可算出答案. 【详解】记总样本的平均数为,则, 所以总样本的方差, 所以估计该校高三年级学生体重的方差为. 故选:C. 03 统计图表 常见统计图表的特点与区别 (1) 扇形图:用于直观描述各类数据占总数的比例,易于显示每组数据相对于总数的大小. (2) 条形图:主要用于直观描述不同类别或分组数据的频数和频率,适用于描述离散型数据. (3) 直方图:主要用于直观描述不同类别或分组数据的频数和频率,直方图适用于描述连续型数据. (4) 折线图:主要用于描述数据随时间的变化趋势. 4.(2025·四川成都·一模)三次产业增加值占国内生产总值的比重是衡量一个国家或地区经济发展阶段、产业结构优化程度以及未来经济发展潜力的重要指标、其中第一产业包括农业、林业、渔业等;第二产业涵盖制造业、建筑业等;第三产业则包括服务业、金融业、信息技术等.如图为我国2020-2024年三次产业增加值占国内生产总值比重的等高堆积条形图,则(    ) A.2020-2024年第一产业增加值占国内生产总值比重逐年递增 B.2020-2024年第二产业增加值占国内生产总值比重的中位数为36.9% C.2020-2024年第三产业增加值占国内生产总值比重的平均数为55.1% D.2020-2024年三次产业中增加值占国内生产总值比重极差最大的是第二产业 【答案】B 【分析】选项A,依据表中数据求出2020-2024年第一产业增加值占国内生产总值比重,通过数据判断选项A错误;选项B,利用中位数的定义得到结论;选项C,求出平均数得解;选项D,分别求出每个产业的极差,从而得解. 【详解】选项A,年第一产业增加值占国内生产总值比重为, 年第一产业增加值占国内生产总值比重为, 年第一产业增加值占国内生产总值比重为, 年第一产业增加值占国内生产总值比重为, 年第一产业增加值占国内生产总值比重为, 从数据上看,2020-2021年第一产业增加值占国内生产总值比重递减,2021-2022年第一产业增加值占国内生产总值比重持平,2022-2024年第一产业增加值占国内生产总值比重递减, 故选项A错误; 选项B,2020-2024年第二产业增加值占国内生产总值比重依次为, 将这个数从小到大排列为,则这个数的中位数为, 故2020-2024年第二产业增加值占国内生产总值比重的中位数为36.9%,故答案B正确; 选项C,2020-2024年第三产业增加值占国内生产总值比重依次为, 则这个数的平均数为, 2020-2024年第三产业增加值占国内生产总值比重的平均数为,故答案C错误; 选项D,2020-2024年第一产业增加值占国内生产总值比重依次为, 这个数中的最小值为,最大值为,故极差为, 2020-2024年第二产业增加值占国内生产总值比重依次为, 这个数中的最小值为,最大值为,故极差为, 2020-2024年第三产业增加值占国内生产总值比重依次为,这个数中的最小值为,最大值为,故极差为, 故2020-2024年三次产业中增加值占国内生产总值比重极差最大的是第三产业, 故选项D不正确. 故选:B. 5.(24-25高二下·广东阳江·月考)随着生活水平的不断提高,旅游已经成为人们生活的一部分.某地旅游部门从2024年到该地旅游的游客中随机抽取部分游客进行调查,得到各年龄段游客的人数比例和各年龄段中自助游比例,如图所示,则估计2024年到该地旅游的游客中选择自助游的青年人占总游客人数的(    )    A.45% B.30% C.13.5% D.13% 【答案】C 【分析】根据青年人的占比和青年人中选择自助游人数的占比可得答案. 【详解】设2024年到该地旅游的游客总人数为,则游客中青年人的人数为, 其中选择自助游的青年人的人数为, 所以估计2024年到该地旅游的游客中选择自助游的青年人占总游客人数的13.5%. 故选:C 6.(2025·四川成都·二模)居民消费价格指数(Consumer Price Index,简称CPI),是度量一定时期内居民消费商品和服务价格水平总体变动情况的相对数,综合反映居民消费商品和服务价格水平的变动趋势和变动程度.下图是2024年11月9日国家统计局公布的2024年10月各类商品及服务价格同比和环比涨跌幅情况(同比,环比),下列结论正确的是(    ) A.2024年10月份食品烟酒类价格低于2023年10月份食品烟酒类价格 B.2024年10月份教育文化娱乐类价格低于2024年9月份教育文化娱乐类价格 C.2024年9月份医疗保健类价格高于2023年10月份医疗保健类价格 D.2024年9月份居住类价格高于2023年10月份居住类价格 【答案】C 【分析】根据题意逐一考查所给选项说法的正确性. 【详解】对于A,由题可知,2024年10月份食品烟酒类价格同比涨幅为, 所以2024年10月份食品烟酒类价格高于2023年10月份食品烟酒类价格,故A错误; 对于B,由图可知,2024年10月份教育文化娱乐类价格环比涨幅为, 所以2024年10月份教育文化娱乐类价格高于2024年9月份教育文化娱乐类价格,故B错误; 对于C,2024年10月份医疗保健类价格环比涨幅为,即2024年10月份医疗保健类价格等于2024年9月份医疗保健类价格, 又2024年10月份医疗保健类价格同比涨幅为, 所以2024年10月份医疗保健类价格高于2023年10月份医疗保健类价格,故C正确; 对于D,2024年10月份居住类价格环比涨幅为,即2024年10月份居住类价格等于2024年9月份居住类价格, 又2024年10月份居住类价格同比涨幅为, 所以2024年10月份居住类价格低于2023年10月份居住类价格,故D错误. 故选:C. 7.(2024·四川德阳·模拟预测)中国人口亿人口中肠胃病患者高达亿,慢性胃炎发病率高达,消化性溃疡病发率也高达,是全世界当之无愧的“胃病大国”.根据随机对名青少年随机抽查,的青少年表示自己患有胃病,的青少年不清楚自己是否患有胃病,只有明确自己没有胃病.肠胃病的严重程度,一般可体现在排便量、排便时长上. 某高中为了了解学生肠胃病占比和严重程度,对年高一高二学生单日单次的排便时长进行了统计(记排便分钟内为正常,排便分钟为轻度肠胃病,排便分钟以上为重度肠胃病),并将结果制成统计图(如图所示),若高一学生人,高二学生人,占比百分数均保留整数,下列说法正确的是(    ) A.高二学生的肠胃病人数比高一年级少 B.高一年级的各肠胃病区间人数占比都比高二年级少 C.高一年级重度肠胃病人数占比比高二年级少 D.高一肠胃质量参数比高二高(肠胃质量参数) 【答案】C 【分析】根据扇形统计图计算高一的肠胃病人数,各肠胃病区间人数占比,肠胃质量参数,再利用条形统计图确定高二学生的肠胃病人数,各肠胃病区间人数占比,肠胃质量常数,由此确定正确结论. 【详解】由扇形统计图可得高一年级肠胃病人数为, 高一年级的轻度肠胃病人数占比, 高一年级重度肠胃病人数占比为, 高一肠胃质量参数为, 由条形统计图可得高二年级肠胃病人数为, 高二年级的轻度肠胃病人数占比为, 高二年级重度肠胃病人数占比为, 高二肠胃质量参数为, 所以高二学生的肠胃病人数比高一年级多,A错误; 高一年级轻度肠胃病区间人数占比比高二年级高,B错误; 高一年级重度肠胃病人数占比比高二年级少,C正确; 高一肠胃质量参数比高二低,D错误; 故选:C. 04 百分位数的计算 计算一组个数据的的第百分位数的步骤 ①按从小到大排列原始数据. ②计算. ③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数. 8.(2025·江苏南通·模拟预测)一组从小到大排列的数据:1,2,3,4,6,8,x,18,22,23.若它们的70百分位数是中位数的两倍,则x的值为(    ) A.10 B.11 C.12 D.14 【答案】A 【分析】根据数据个数确定中位数和70百分位数的位置,再结合他们之间的关系求解的值. 【详解】该组数中位数为,70百分位数为,所以,故. 故选:A. 9.(2025·广东江门·模拟预测)2025年1~8月份广东省工业机器人、服务机器人、民用无人机、风力发电机组、太阳能电池、新能源汽车产品产量分别增长,则该组数的分位数为(  ) A. B. C. D. 【答案】B 【分析】应用百分位数的求法求数据的分位数. 【详解】由题设,而数据从小到大为, 所以该组数的分位数为其中第5个数据,即. 故选:B 10.(2026·陕西西安·一模)从高三某班抽取10名同学,他们的数学成绩如下:95,90,71,76,85,88,72,91,92,65(单位:分),则这10名同学数学成绩的第70百分位数是(   ) A.90 B.91 C.90.5 D.91.5 【答案】C 【分析】根据百分位数的计算即可求解. 【详解】先将这10个数从小到大排列:65,71,72,76,85,88,90,91,92,95, 因为,7是整数, 故这10名同学数学成绩的第70百分位数是, 故选:C. 11.(2025·贵州毕节·模拟预测)某中学共有名学生,该校从全校学生中随机抽取名,统计他们年阅读的书籍数量,由此来估计该校学生当年阅读书籍数量的情况,下列关于估计中正确的是(    ) A.阅读量的众数估值为 B.阅读量的中位数估值为 C.阅读量的平均数估值为 D.第百分位数为 【答案】D 【分析】根据众数,中位数,平均数,百分位数相关知识可逐一求解. 【详解】对于,众数估值为,故错误; 对于,设中位数为,则在内,所以,解得,故错误; 对于,平均数,故错误; 对于,设第百分位数为,则在内,所以,解得,故正确. 故选:. 05 用样本的数字特征估计总体的数字特征 利用样本的数字特征解决优化决策问题的依据 (1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征. 12.(2025·重庆·模拟预测)某动漫社团为了调查本校学生对新上映电影的喜好程度, 对该校学生进行了满意度调查, 其中男生共调查了 600 人,女生共调查了 400 人,男生平均给分 4 分,方差为 1 ,女生平均给分 3 分,方差也为 1 . 则调研对象总体方差为(    ) A. B. C. D. 【答案】D 【分析】根据分层平均数求出总体平均数,然后根据分层方差和总体方差的关系求解可得. 【详解】记男生平均给分为,方差为,女生平均给分为,方差为, 则, 所以总体平均数, 所以总体方差为. 故选:D 13.(2025·陕西西安·模拟预测)在从小到大依次排列的样本数据、、、、、中,已知中位数小于众数,则该组样本数据的平均数为(    ) A. B. C. D. 【答案】C 【分析】根据题意可知,或,结合题意可得出关于的不等式,即可得出的值,然后利用平均数公式可求得结果. 【详解】由题意可知,这组数据的中位数为, 因为该组数据存在众数,故或,则这组数据的众数为, 又这组数据的中位数小于众数,所以,解得,故, 因此,这组数据的平均数为. 故选:C. 14.(2025·贵州六盘水·模拟预测)已知甲组数据为,,,,,乙组数据为,,,,则甲、乙两组数据的平均数、极差及中位数中相等的是(    ) A.平均数 B.极差 C.中位数 D.都不相等 【答案】C 【分析】分别计算出两组数据的平均数、极差与中位数即可得. 【详解】甲组数据的平均数为, 极差为,中位数为, 乙组数据的平均数为, 极差为,中位数为, 故甲、乙两组数据的中位数相等. 故选:C. 15.(2025·河北沧州·模拟预测)已知2025年月全国房地产开发景气指数依次为,则这7个数据的中位数是(    ) A.93.92 B.93.87 C.93.82 D.93.70 【答案】D 【分析】将所给的数据按照从小到大顺序排列,按照中位数的定义即可判断. 【详解】这7个数据按照从小到大排列依次为,中位数是第4个数93.70. 故选:D. 16.(2025·甘肃武威·模拟预测)某学校从高三某次联考中随机抽取了甲班50名、乙班40名学生的成绩.已知甲班50名学生成绩的平均数为112分,方差为8,乙班40名学生成绩的平均数为94分,方差为8,则这90名学生成绩的方差为(   ) A.8 B.36 C.64 D.88 【答案】D 【分析】根据两组数据的均值和方差,利用方差合并公式计算可得. 【详解】设甲班50名学生成绩的平均数和方差分别为,, 乙班40名学生成绩的平均数和方差分别为,, 则,,,, 所以这90名学生成绩的平均数为, 则这90名学生成绩的方差为 . 故选:D. 06 判断相关关系的2种方法 1、散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系; 2、相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强 17.(24-25高二下·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是(    ) A.图1、图2两组数据都具有线性相关关系 B.图1数据正相关,图2数据负相关 C.图1相关系数小于图2相关系数 D.图1相关系数和图2相关系数之和小于0 【答案】C 【分析】根据散点图及相关性判断AB,由相关系数性质判断CD. 【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确; 对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确; 对C,图1正相关,图2负相关,所以C不正确; 对D,因为图2相关程度更强,所以D正确. 故选:C. 18.(2025·安徽蚌埠·三模)医疗研究者会创建散点图来显示少女的体重指数(BMI)和身体脂肪百分比之间的相关关系,如图,下列说法正确的是(    ) A.BMI越大,脂肪百分比越大 B.BMI越大,脂肪百分比越小 C.BMI与脂肪百分比正相关 D.BMI与脂肪百分比负相关 【答案】C 【分析】根据散点图的特征可得正确的选项. 【详解】由散点图可得BMI增大时,脂肪百分比或变大或变小,故AB错误; 根据散点图的分布可得:BMI于脂肪百分正相关,故C正确,D错误; 故选:C. 07 样本相关系数的计算 样本相关系数r的统计含义及应用 (1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关; (2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测; (3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义. 19.(2025·天津·二模)小明研究温差(单位:)与本单位当天新增感冒人数(单位:人)的关系,他记录了5天的数据: 3 4 5 6 7 16 20 25 28 36 由表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是(   ) A.与正相关 B.经验回归直线经过点 C.当时,残差为1.8 D. 【答案】C 【分析】观察数据或者求得,可知正相关,从而判定A;利用样本中心点在回归直线上,可以判定B;求出的估计值,进而计算残差,从而判定CD. 【详解】选项A:观察数据,增大时也增大,说明正相关,故A正确; 选项B: 易得,,样本中心点为,回归直线方程经过样本中心点,故B正确; 对于CD:将样本中心点坐标代入回归直线方程得 ,故D正确. 计算预测值,实际值, 残差. 题目中残差为1.8(未考虑符号),故C错误, 故选:C 20.(2025·浙江金华·一模)近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆) 年份 2021 2022 2023 2024 年份代号 1 2 3 4 销量 33 69 93 129 附:相关系数; 回归方程中斜率和截距的最小二乘法估计公式分别为, (1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001) (2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量. 【答案】(1)与具有较强的线性相关关系 (2),(千辆) 【分析】(1)根据题干所给数据算出,,,代入相关系数计算公式计算即可; (2)根据(1)算出的结果进一步算出,再根据线性回归方程经过计算,最后把代入回归直线方程即可求解. 【详解】(1)已知,,则, ,则, ,,所以, 已知,故, 又,代入相关系数公式, 可得, 因为,所以与具有较强的线性相关关系. (2)根据, 由(1)可知,,所以, 由,已知,,,则, 所以关于的线性回归方程为,将代入线性回归方程(千辆). 21.(2025·甘肃武威·模拟预测)某高科技公司开发了一款AI学习机,为了解市场销售情况,该公司统计了过去5个月的月广告投入(单位:十万元)与该款学习机的月销量(单位:千台)的数据,如表所示. 月份代码 1 2 3 4 5 10 20 30 40 50 58 59 60 64 65 (1)求和的样本相关系数,并判断与是否具有较强的线性相关性;(结果精确到0.01,若,则认为与具有较强的线性相关性) (2)求关于的经验回归方程,并估计月广告投入600万元时该款学习机的月销量; (3)该款学习机目前售价为3000元/台,为提升销量,经销该款学习机的某专卖店针对该款学习机推出了两种促销方案.方案一:买一台立减400元;方案二:一次性购买两台可抽奖三次,每次中奖的概率均为,且每次抽奖相互独立,中奖一次立减600元/台,中奖两次立减800元/台,中奖三次立减1000元/台,若三次均未中奖,仍可享基础优惠300元/台.某家长准备在该店购买两台该款学习机,请从付款总金额数学期望的角度分析选哪种方案更优惠. 参考公式:对于经验回归方程,,;样本相关系数. 参考数据:,,. 【答案】(1)0.96,与具有较强的线性相关性; (2);当时,千台; (3)选第二种方案更优惠,理由见解析. 【分析】(1)根据公式算出线性相关系数,并根据判断标准作出判断即可; (2)根据最小二乘法求得,进而求得关于的经验回归方程,代入可得月广告投入600万元时,该款学习机的月销量; (3)分别计算两种方案的付款期望,并比较大小,可得选第二种方案更优惠. 【详解】(1)由题可知,,所以 所以. 所以y与x具有较强的线性相关性. (2)由(1)知. 因为,, 所以. 关于的经验回归方程为,故当时,. 所以估计当月广告投入600万元时,该款学习机的月销量约为千台. (3)家长准备在该店购买两台该款学习机,选第二种方案更优惠.理由如下: 若采用方案一,可享受优惠(元);付款总金额数学期望为(元); 若采用方案二,记中奖次数为X,则. ;; ;; 记该家长购买两台学习机可享受优惠共为Y元,则Y的分布列如下: Y 600 1200 1600 2000 P 所以(元). 所以若采用方案二,付款总金额数学期望为(元). 因为,所以选第二种方案更优惠. 22.(2025·广东深圳·模拟预测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%): 年份 2017年 2018年 2019年 2020年 2021年 年份代码 1 2 3 4 5 6.4 5.5 5.0 4.8 3.8 (1)求2017-2021年年份代码与的样本相关系数(精确到0.01); (2)预测2026年的酸雨区面积占国土面积的百分比. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:,. 样本相关系数,. 【答案】(1) (2)0.97% 【分析】(1)由表中数据结合题中数据,求出相关数值,代入相关系数求,即可得出答案; (2)根据(1)中求出的数据,得到回归直线方程;将代入回归直线方程,即可预测2026年的酸雨区面积占国土面积的百分比. 【详解】(1)由已知可得,,, 由题可列下表: -2 -1 0 1 2 1.3 0.4 -0.1 -0.3 -1.3 ,,.     . (2)由(1)知,,, 所求经验回归方程为. 令,, 预测2026年的酸雨区面积占国土面积的百分比为0.97%. 08 线性回归分析问题的类型及解题方法 线性回归分析问题的解题策略 (1)利用公式,求出回归系数; (2)利用经验回归直线过样本点的中心求系数; (3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值. 23.(2025·云南昆明·模拟预测)下表为2018至2024年某手机品牌的年产量y(单位:万台),其中2018至2024年的年份代码x分别为1至7. 年份代码x 1 2 3 4 5 6 7 年产量y/万台 28 32 36 40 a b c 已知y与x具有线性相关关系,由上述7组数据得到经验回归方程,则的值为(    ). A.165.4 B.173.4 C.182.5 D.191.8 【答案】B 【分析】先求出,又因为点在经验回归直线上,得出即可计算求解. 【详解】由表中数据得, 因为点在经验回归方程直线上,所以, 所以, 故选:B. 24.(2025·河南新乡·模拟预测)某企业产品的广告费用与销售量的统计数据如表所示:根据表中各数据可得回归方程,其中,假设该企业广告费用为6万元时,则销售额为(   ) 广告费用(万元) 4 2 3 5 销售额(万元) 49 26 39 54 A.63,6万元 B.65,5万元 C.67,7 万元 D.72,0万元 【答案】B 【分析】根据回归直线过定点的性质,求出坐标,解出回归直线方程,计算结果即可. 【详解】根据表格数据得,, ∵回归中心满足回归直线方程,其中, ,解得, 于是回归方程为,令,得, 故选:B. 25.(2026·河北沧州·一模)某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下: 时间 2025年3月 2025年4月 2025年5月 2025年6月 2025年7月 2025年8月 月份代码 1 2 3 4 5 6 销量千辆 6 7 10 11 12 14 (1)已知与线性相关,求出关于的经验回归方程,并估计该地区新能源汽车在2026年3月份的销量; (2)该企业为宣传推广新能源汽车,计划在宣传部门开展人工智能工具使用的培训.该次培训分为三期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为.该企业规定:员工至少有两期培训达到“优秀”标准,才能使用人工智能工具. (Ⅰ)求甲、乙两名员工经过培训后,恰好只有一人能使用人工智能工具的概率; (Ⅱ)该企业宣传部现有员工100人,引进人工智能工具后,需将宣传部的部分员工调整至其他部门,剩余员工进行该次培训.已知开展培训前,员工每人每年平均为企业创造利润3万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造利润6万元,不能使用人工智能工具的员工预计每人每年平均为企业创造利润还是3万元,本次培训费每人1万元.现要求培训后宣传部员工创造的年利润不低于调整前的年利润,预计最多可以调多少人到其他部门? 参考公式:经验回归方程,其中,. 参考数据:. 【答案】(1),千辆 (2)(Ⅰ); (Ⅱ)28 【分析】(1)首先求和,再代入经验回归方程的参考公式求和,即可求回归直线方程,再根据方程代入,即可求解估计值; (2)(Ⅰ)首先求每位员工经过培训,能使用人工智能工具的概率,再代入独立重复概率公式,即可求解;(Ⅱ)首先设宣传部调人至其他部门,则参加培训的人数为,结合(Ⅰ)的求解过程,列出调整后利润的式子,再列不等式,即可求解. 【详解】(1)由题意得, , 所以, , 所以关于的经验回归方程为, 当时,, 所以估计该地区新能源汽车在2026年3月份的销量是千辆. (2)(Ⅰ)设“每位员工经过培训,能使用人工智能工具”为事件, 所以, 设甲、乙两名员工经过培训后,恰好只有一人能使用人工智能工具为事件, 则. (Ⅱ)设宣传部调人至其他部门,则参加培训的人数为, 设为培训后能使用人工智能工具的人数,因此,为培训后不能使用人工智能工具的人数,因此, 调整后年利润为万元, 令,解得, 所以最多可以调28人到其他部门. 26.(2025·四川成都·模拟预测)某语文报社为研究学生课外阅读时间与语文考试中的作文分数的关系,随机调查了本市某中学高三文科班6名学生每周课外阅读时间(单位:小时)与高三下学期期末考试中语文作文分数,数据如下表: 1 2 3 4 5 6 38 40 43 45 50 54 (1)根据上述数据,求出高三学生语文作文分数与该学生每周课外阅读时间的线性回归方程,并预测某学生每周课外阅读时间为7小时时其语文作文成绩; (2)从这6人中任选2人,记为语文作文分数不小于45分的人的个数,求的分布列及期望. 参考公式:,参考数据: 【答案】(1);预测某学生每周课外阅读时间为小时时其语文作文成绩为 (2)分布列见解析;数学期望为1 【分析】(1)根据所给的公式计算对应的量,,,再代入公式求解可求得线性回归方程.再令即可求得预测值. (2)依题意列出的所有可能的值并计算出其概率,列出分布列,利用期望公式计算即可. 【详解】(1)根据表中数据,可得, , 则. , 故关于的线性回归方程为:, 当时,. 预测某学生每周课外阅读时间为小时时其语文作文成绩为. (2)依题意,的可能值有, 则,,. 则的分布列为: 0 1 2 故的数学期望为. 27.(2025·浙江·一模)2014年至2025年是我国新能源汽车飞速发展的时期,下表为2014年至2023年我国新能源汽车的年产量,按照表中数据,可用回归模型拟合自变量与新能源汽车产量. 年份 自变量 新能源汽车产量(单位:万辆) 2014 1 7.8 2015 2 34 2016 3 52 2017 4 79 2018 5 127 2019 6 124 2020 7 137 2021 8 354 2022 9 706 2023 10 959 (1)求自变量与新能源汽车产量的回归模型,并预测2025年我国新能源汽车年产量(其中,以及预测年产量(单位:万辆)都保留1位小数且用的1位小数近似值计算); (2)从10个年产量的值中随机选取3个数据,求存在数据大于300的条件下,恰有1个数据小于100的概率. 参考公式:一元线性回归模型中. 参考数据:. 【答案】(1),1186.4万辆. (2) 【分析】(1)令,得到,利用公式求得和的值,求得回归方程,令,求得,即可得到答案; (2)设事件A:3个数据中存在数据大于300,事件B:3个数据中恰有1个数据小于100,分别求得事件A和B的样本点的个数,结合条件概率的计算公式,即可求解. 【详解】(1)由题意,令,故为一元线性回归模型, 而,即, 所以, 则,所以, 令,可得,所以预测2025年我国新能源汽车年产量为1186.4万辆. (2)设事件A:3个数据中存在数据大于300,事件B:3个数据中恰有1个数据小于100, 事件A的样本点个数:,事件AB的样本点个数:, 所以概率为. 09 决定系数与残差 刻画回归效果的四种方法 (1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好. (3)决定系数R2法:R2越接近1,表明模型的拟合效果越好. (4)样本相关系数. 28.(2025·四川成都·一模)一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为. ,分布如图所示,且,则下列说法错误的是(    ) A.样本负相关 B. C. D.处理后的决定系数变大 【答案】C 【分析】利用回归方程系数判断A;利用样本中心点计算判断B;利用图像的波动性判断CD. 【详解】对于A,经验回归方程中斜率,则样本负相关,A正确; 对于B,原样本均值:, 由,得,B正确: 对于C,由图1的数据波动较大可得比更集中,则,C错误; 对于D,由图1的残差平方和较图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.   故选:C. 29.(2025·广东湛江·模拟预测)假设变量与变量的对观测数据为、、、,两个变量满足一元线性回归模型,则参数的最小二乘估计为(    ) A. B. C. D. 【答案】B 【分析】令,利用二次函数的基本性质可得出当取最小值时的表达式. 【详解】令, 当且仅当时残差平方和最小,即的最小二乘估计为. 故选:B. 30.(2025·上海浦东新·二模)研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是(   ) A.变量与变量的相关性变强 B.相关系数的绝对值变小 C.线性回归方程不变 D.拟合误差Q变大 【答案】C 【分析】由已知可得,,求出相关系数,即可判断A,B选项,再利用回归直线方程过样本中心点可判断C选项,D利用残差平方和进行判断即可. 【详解】设变量x,y的平均数分别为,, 则,,即,, 可知新数据的样本中心点不变,仍为, 则, , , 则相关系数. 可知相关系数的值不变,变量与变量的相关性不变,故A,B错误; 对于C,因为,所以不变, 且线性回归方程过样本中心点,即,均不变,所以线性回归方程不变,故C正确; 因为即为样本中心点,即, 可知残差平方和不变,所以拟合误差Q不变,故D错误. 故选:C. 31.(2025·天津宁河·模拟预测)下列说法中,正确的有(    ) ①回归直线恒过点,且至少过一个样本点: ②根据列列联表中的数据计算得出,而,则有的把握认为两个分类变量有关系,即有的可能性使得“两个分类变量有关系”的推断出现错误; ③在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好; ④某项测量结果服从正态分布,若,则 A.个 B.个 C.个 D.个 【答案】C 【分析】利用回归直线的特点可判断①;利用独立型检验可判断②;利用决定系数与模型拟合效果的关系可判断③;利用正态分布可判断④.即可得出合适的选项. 【详解】对于①,回归直线恒过点,不一定过样本点,①错; 对于②,根据列列联表中的数据计算得出,而, 则有的把握认为两个分类变量有关系, 即有的可能性使得“两个分类变量有关系”的推断出现错误,②对; 对于③,在做回归分析时,可以用决定系数刻画模型的回归效果, 若越大,则说明模型拟合的效果越好,③对; 对于④,某项测量结果服从正态分布,若, 则,④对. 故选:C. 10分类变量与列联表 分类变量的两种统计表示形式 (1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联强弱; (2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联强弱. 32.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是(    ) A.男生中不经常锻炼的人数比女生中经常锻炼的人数多 B.男生中经常锻炼的人数比女生中经常锻炼的人多8人 C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右 D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关 【答案】BCD 【分析】根据男生比女生少20人,建立等式求出男生、女生的人数,建立列联表,利用列联表中的信息解决ABC,利用独立性检验来解决D选项. 【详解】解:设男生人数为,则女生人数为, 由题得, 解得,即在被调查者中,男、女生人数为80,100,可得到如下列联表, 性别 锻炼情况 合计 经常锻炼 不经常锻炼 男 48 32 80 女 40 60 100 合计 88 92 180 由表可知,A显然错误, 男生中经常锻炼的人数比女生中经常锻炼的人数多B正确; 在经常锻炼者中是男生的频率为,在不经常锻炼者中是男生的频率为C正确; 零假设:假期是否经常锻炼与性别无关, 则,根据小概率值的独立性检验,我们推断不成立, 即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确, 故选:BCD. 33.(2025·陕西汉中·一模)某人工智能研究实验室开发出一款全新的聊天机器人,该实验室对使用该款聊天机器人的120位用户进行调研,得到的调研数据如下表所示,则(   ) 年龄 周平均使用时间 超过4小时 不超过4小时 总计 不超过40岁 54 b 72 40岁以上 c d 总计 72 120 附:,. (1)当时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的; (2)当时,有90%的把握判断变量A,B有关联; (3)当时,有99%的把握判断变量A,B有关联; (4)当时,有99.9%的把握判断变量A,B有关联. A. B.用样本估计总体,每位使用该款聊天机器人的用户周平均使用时间超过4小时的概率为 C.没有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关 D.有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关 【答案】BD 【分析】先补全列联表的未知数值,再通过样本频率验证概率类选项,利用独立性检验的卡方公式计算统计量,结合临界值判断变量关联程度. 【详解】不超过40岁且周平均使用时间不超过4小时的; 40岁以上且周平均使用时间超过4小时的; 40岁以上的总计为, 故40岁以上且周平均使用时间不超过4小时的. 选项A:,A错误; 选项B:周平均使用时间超过4小时的样本数为72, 总样本数120,概率为,B正确; 年龄 周平均使用时间 超过4小时 不超过4小时 总计 不超过40岁 54 18 72 40岁以上 18 30 48 总计 72 48 120 , 因, 故有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关. 所以C选项错误,D选项正确. 故选:BD 11 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表. (2)根据公式计算. (3)比较与临界值的大小关系,作统计推断. 34.(2025·云南昭通·模拟预测)某高校为了解学生在一周内参与志愿服务的情况,统计了全校所有学生在一年内每周参与志愿服务的次数,现随机抽取了50名同学,统计在某一周参与志愿服务的数据,结果如下表: 一周参与志愿服务次数 1 2 3 4 5 6 合计 男生人数 4 6 6 4 3 2 25 女生人数 1 1 3 5 9 6 25 合计 5 7 9 9 12 8 50 (1)若将一周参与志愿服务次数为5次及5次以上的,称为“积极参与”,其余的称为“一般参与”.请完成以下2×2列联表,并依据小概率值的独立性检验,能否认为性别因素与学生参与志愿服务的积极性有关系; 性别 志愿服务 合计 一般参与 积极参与 男生 女生 合计 (2)若将一周参与志愿服务达到6次的同学称为“最美志愿者”,在样本的8名“最美志愿者”中,随机抽取3人进行访谈,设抽取的3人中男生人数为,求的分布列和数学期望. 附:,. 0.1 0.05 0.01 2.706 3.841 6.635 【答案】(1)填表见解析;认为性别因素与学生参与志愿服务的积极性有关系 (2)分布列见解析;期望为 【分析】(1)由题意可直接完成列联表,再由公式即可求解; (2)确定的可能取值,求得概率,进而可求解. 【详解】(1)根据统计表格数据可得列联表如下: 性别 志愿服务 合计 一般参与 积极参与 男生 20 5 25 女生 10 15 25 合计 30 20 50 零假设为:性别与参与志愿服务情况独立,即性别因素与学生志愿服务的参与积极性无关, 根据列联表的数据计算可得, 因为, 所以,依据小概率值的独立性检验,推断不成立,即认为性别因素与学生参与志愿服务的积极性有关系. (2)由题可知8名“最美志愿者”有2名男生,6名女生,所以Y的所有可能取值为0,1,2, 且服从超几何分布,则,,, Y的分布列为: Y 0 1 2 P 可得. 35.(2025·四川内江·一模)某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60 名学生的短跑成绩合格.这100名学生中有45名学生每周自主锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周自主锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周自主锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周自主锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率估计概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训.依据小概率值的独立性检验,零假设为:学生短跑成绩合格与每周自主锻炼时间相互独立. (1)先填写列联表,再依据小概率值的独立性检验,判断是否能认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关; 每周自主锻炼时间超过5小时 每周自主锻炼时间不超过5小时 合计 短跑成绩合格 短跑成绩不合格 合计 100 (2)求学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率; (3)为提高学生锻炼的积极性,学校偶尔会在田径运动场举办锻炼有奖活动,记表示事件“田径运动场举办锻炼有奖的抽奖活动”,表示事件“小明去田径运动场锻炼”,.已知小明在田径运动场举办锻炼有奖的抽奖活动的情况下去运动场锻炼的概率,比不举办抽奖活动的情况下去运动场锻炼的概率大.证明:. 参考公式与数据:,其中,. 0.01 0.005 0.001 6.635 7.879 10.828 【答案】(1)列联表详见解析,,根据小概率值的独立性检验,可以认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关. (2). (3)证明详见解析. 【分析】(1)根据题意先完成列联表,根据表格中的数据计算即可进行独立性检验. (2)综合条件概率公式、全概率公式、贝叶斯公式求解. (3)根据条件概率公式与对立事件的概率公式化简求证. 【详解】(1)根据题意完善列联表如下: 每周自主锻炼时间超过5小时 每周自主锻炼时间不超过5小时 合计 短跑成绩合格 35 25 60 短跑成绩不合格 10 30 40 合计 45 55 100 根据列联表中的数据,计算得到 , 根据小概率值的独立性检验,我们推断不成立,即认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关. (2)由(1)中的列联表知,短跑成绩不合格的学生有40人,其中每周自主锻炼时间超过5小时的有10人,每周自主锻炼时间不超过5小时的有30人. 记事件“甲在培训后短跑成绩合格”,事件“甲每周自主锻炼时间超过5小时”,则事件 “甲每周自主锻炼时间不超过5小时”, 用频率估计概率知 ,, 由题意知,, 由全概率公式知. 由贝叶斯公式知,即学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率为. (3)由题意知, 所以, 因为,所以, 所以, 整理得, 所以, 即, 因为,所以, 所以,即. 36.(2025·江苏·模拟预测)教育部办公厅要求中小学校要通过体育与健康课程、大课间、课外体育锻炼、体育竞赛、班团队活动、家校协同联动等多种形式加强教育引导,让家长和中小学生科学认识体质健康的影响因素,了解运动在增强体质、促进健康、预防肥胖与近视、锤炼意志、健全人格等方面的重要作用,提高学生体育与健康素养,增强体质健康管理的意识和能力.某学校为了了解学生的身体健康与身体素质状况,随机抽取了50名同学的体测结果(“合格”或“优秀”),统计数据如下表: 性别 体测结果 合计 合格 优秀 男生 2 28 30 女生 6 14 20 合计 8 42 50 (1)能否有的把握认为体测结果与性别有关? (2)用样本估计总体,频率估计概率.现等可能地从男、女生中抽取一个性别,然后再从选好的性别中随机抽取1名学生的体测结果,已知抽出的学生体测结果是“优秀”,求这名学生是男生的概率. 附:,其中. 0.1 0.01 0.001 2.706 6.635 10.828 【答案】(1)能有的把握认为体测结果与性别有关 (2) 【分析】(1)根据列联表可得独立性检验的各项数据,利用独立性检验的计算公式以及检验过程,可得答案; (2)根据古典概型以及条件概率,利用全概率公式,可得答案. 【详解】(1)由题意可得, 则, 故能有的把握认为体测结果与性别有关. (2)设{抽取的一人为优秀},{抽取的一人为男生}, 则{抽取的一人为合格},{抽取的一人为女生}, 可得,,,, 所以, 故. 37.(2025·四川德阳·模拟预测)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图. (1)根据图中数据,估计强化训练前的成绩的平均数(同一组中的数据用该组区间的中点值作代表);并求强化训练后的成绩的60%分位数. (2)规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”. 强化训练 是否优秀 合计 优秀 非优秀 强化训练前 强化训练后 合计 将上面的表格补充完整,依据小概率值的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关? 附:,. 0.05 0.010 0.005 0.001 3.841 6.635 7.879 10.828 【答案】(1)平均数为,分位数为; (2)表格见解析,认为跳水运动员是否优秀与强化训练有关. 【分析】(1)根据题意求各组的频率,结合平均数和分位数的定义运算求解即可; (2)完善列联表,求值,结合独立性检验思想分析判断. 【详解】(1)因为强化训练前的各组频率分别为,,,,,; 强化训练前的成绩的平均数, 强化训练后的各组频率分别为,,,,, 又因为前三组频率之和为, 前四组频率之和为, 可知分位数在内,设分位数为, 则,解得, 所以分位数约为; (2)零假设为:跳水运动员是否优秀与强化训练无关, 补充完整的表格为 优秀人数 非优秀人数 合计 强化训练前 40 60 100 强化训练后 60 40 100 合计 100 100 200 则, 根据小概率值的独立性检验,我们推断不成立, 所以认为跳水运动员是否优秀与强化训练有关. 38.(2025·云南·模拟预测)近年来,某公司以电影和动漫中的一些元素为主题,开发了一些豪车模型玩具,现抽取了部分孩童,调查他们是否喜爱豪车模型,所得数据统计如下表所示. 性别 男孩 女孩 喜欢豪车模型 340 160 不喜欢豪车模型 300 200 (1)现按照性别进行分层,用分层随机抽样的方法在不喜欢豪车模型的样本孩童中随机抽取10人,再从这10人中随机抽取3人,求至少1人是女孩的概率; (2)根据的独立性检验,能否认为是否喜欢豪车模型与性别具有相关性. 附:. 0.05 0.01 0.001 3.841 6.635 10.828 【答案】(1) (2)不能认为是否喜欢豪车模型与性别具有相关性 【分析】(1)根据对立事件的概率及古典概型求解; (2)计算,与对应临界值比较即可得出结论. 【详解】(1)抽取的10人中,男孩有6人,女孩有4人, 故至少有1人是女孩的概率为. (2)零假设:是否喜欢豪车模型与性别无关, 则 故不能拒绝零假设,即根据的独立性检验,不能认为是否喜欢豪车模型与性别具有相关性. 学科网(北京)股份有限公司1 / 17 学科网(北京)股份有限公司 $ 专题01 统计与成对数据的统计分析 目录 01理·思维导图:呈现教材知识结构,构建学科知识体系。 02盘·基础知识:甄选核心知识逐项分解,基础不丢分。 【知能解读01】随机抽样 【知能解读02】用样本估计总体 【知能解读03】成对数据的统计分析 03 破·重点难点:突破重难点,冲刺高分。 【重难点突破01】频率分布直方图的计算 【重难点突破02】非线性回归分析的求法 04 辨·易混易错:辨析易混易错知识点,夯实基础。 【易混易错01】对统计图表中的概念理解不清,识图不准确 【易混易错02】对样本数字特征认识不到位 【易混易错03】求解独立性检验问题对的值理解不准确 05 点·方法技巧:点拨解题方法,练一题通一类 【方法技巧01】应用随机数表法的两个关键点 【方法技巧02】 解决分层抽样的常用公式 【方法技巧03】统计图表 【方法技巧04】百分位数的计算 【方法技巧05】用样本的数字特征估计总体的数字特征 【方法技巧06】判断相关关系的2种方法 【方法技巧07】样本相关系数的计算 【方法技巧08】线性回归分析问题的类型及解题方法 【方法技巧09】决定系数与残差 【方法技巧10】分类变量与列联表 【方法技巧11】独立性检验的一般步骤 01 随机抽样 1、抽样调查 (1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体. (2)个体:构成总体的每一个元素叫做个体. (3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量. 2、简单随机抽样 (1)定义:一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本. (2)两种常用的简单随机抽样方法 ①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.适用于总体个数较少的情况。 ②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.适用于总体个数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便. (3)简单随机抽样的特征(只有四个特点都满足的抽样才是简单随机抽样) ①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析. ②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作. ③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算. ④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平. 3、分层抽样 (1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样. 分层抽样适用于已知总体是由差异明显的几部分组成的. (2)分层抽样问题类型及解题思路 ①求某层应抽个体数量:按该层所占总体的比例计算. ②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. ③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==” 【注意】分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量). 【真题实战】(2026·河北沧州·一模)第十五届全运会将于2025年11月9日至21日在广东举行.广东某高中为调查该校学生对全运会的了解程度,利用分层随机抽样的方法从三个年级中抽取了90人进行了问卷调查,其中高一、高二年级分别抽取了24人、30人,且高三年级共有学生1080人,则该高中学生总数为 人. 02用样本估计总体 1、频率分布直方图 (1)频率、频数、样本容量的计算方法 ①×组距=频率. ②=频率,=样本容量,样本容量×频率=频数. ③频率分布直方图中各个小方形的面积总和等于. (2)频率分布直方图中数字特征的计算 ①最高的小长方形底边中点的横坐标即是众数. ②中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出. ③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积. 2、百分位数 (1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值. (2)计算一组个数据的的第百分位数的步骤 ①按从小到大排列原始数据. ②计算. ③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数. (3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数. 3、样本的数字特征 (1)众数、中位数、平均数 ①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平. ②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平. ③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:. (2)标准差和方差 ①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差. ②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差. 【注意】标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小. ③平均数、方差的性质:如果数据的平均数为,方差为,那么 一组新数据的平均数为,方差是. 一新数据的平均数为,方差是. 一组新数据的平均数为,方差是. 【真题实战】【多选】(25-26高二上·宁夏吴忠·月考)某同学参加射击比赛,打了8发子弹,报靶数据如下:9,8,6,10,9,7,6,9(单位:环),则下列说法正确的是(   ) A.这组数据的众数为9 B.这组数据的40%分位数是7.5 C.这组数据的极差是4 D.这组数据的标准差是 03成对数据的统计分析 1、两个变量的线性相关 (1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2、回归分析与回归方程 (1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为 其中,,,(,)称为样本点的中心. (3)相关系数 若相应于变量的取值,变量的观测值为, 则变量与的相关系数, 通常用来衡量与之间的线性关系的强弱,的范围为. ①当时,表示两个变量正相关;当时,表示两个变量负相关. ②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上. ③通常当时,认为两个变量具有很强的线性相关关系. 3、残差分析 对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. (1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适. (2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适. (3)相关指数:用相关指数来刻画回归的效果,其计算公式是:. 越接近于,说明残差的平方和越小,也表示回归的效果越好. 4、独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表: ①定义:列出的两个分类变量的频数表称为列联表. ②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表 总计 总计 (3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验. 0.10 0.05 0.010 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【真题实战】(四川省宜宾市2026届高三一模考试数学试题)对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是(    ) A. B. C. D.1 01 频率分布直方图的计算 1、由频率分布直方图进行相关计算需掌握的2个关系式 (1)×组距=频率. (2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数. 2、利用频率分布直方图估计样本的数字特征的方法 (1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值. (2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和. (3)众数:最高的矩形的中点的横坐标. 【典例1】【多选】(2026·河北沧州·一模)某科研单位对Deepseek的使用情况进行满意度问卷调查,在1000名用户的问卷(用户打分都在50分到100分之间)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,则(同一组数据用该组区间的中点值为代表)(   )    A. B.由样本数据可估计1000名用户中打分在70分以下的有350人 C.估计这1000名用户问卷的得分的分位数为85 D.估计这1000名用户问卷的得分的平均数为75 【典例2】【多选】(24-25高一下·湖南岳阳·期末)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为的样本,其频率分布直方图如图,其中支出在元的学生有45人,则下列说法正确的是(    ) A.样本中支出在元的频率为 B.的值为150 C.采用分层抽样从这45人中抽出10人,则在中共需抽出5人 D.该校学生一周生活方面支出的第75百分位数大约是52元(精确到个位数) 02 非线性回归分析的求法 (1)根据原始数据作出散点图; (2)根据散点图选择恰当的拟合函数; (3)作恰当变换,将其转化成线性函数,求线性回归方程; (4)在(3)的基础上通过相应变换,即可得非线性回归方程. 【典例1】(24-25高三上·福建厦门·月考)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示: 令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? 附:①相关系数,回归直线中公式分别为,; ②参考数据:,,, 【典例2】(2025·陕西西安·模拟预测)当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身体健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表: 关卡 1 2 3 4 5 6 平均过关时间(单位:秒) 50 78 124 121 137 352 计算得到一些统计量的值为:,,其中,. (1)若用模型拟合与的关系,根据提供的数据,求出关于的经验回归方程; (2)甲参加一场闯关游戏,比赛共有5局,甲每局比赛获胜的概率为,且每局比赛相互独立,记甲恰好获胜3次的概率为,求的最大值,并求出相应的概率. 参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,. 01 对统计图表中的概念理解不清,识图不准确 辨析:求解统计图表问题,重要的是认真观察图表,发现有用信息和数据。对于频率分布直方图,应注意图中的每一个小矩形的面积是落在该区间上的频率,所有小矩形的面积和为1,当小矩形等高时,说明频率相等,计算时不要漏掉其中一个. 【典例1】(25-26高一上·北京海淀·月考)空气质量指数是评估空气质量状况的一组数字,空气质量指数划分为和六档,分别对应“优”、“良”、“轻度污染”、“中度污染”、“重度污染”和“严重污染”,六个等级.如图,是我市冬季某月连续14天的空气质量指数趋势图,则下列说法中正确的是(   ) A.这14天中有5天空气质量为“中度污染” B.从第三天到第七天空气质量越来越好 C.这14天中空气质量指数的中位数为196.5 D.连续三天中空气质量指数方差最小的是5日到7日 【典例2】(25-26高二上·四川成都·期中)某机构对我国若干大型科技公司调查统计后,得到了芯片、软件两个行业从业者的年龄分布的饼图(图1)和“90后”从事这两个行业岗位的分布雷达图(图2),则下列说法中一定正确的是(    )    A.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多 B.芯片、软件行业中从事技术和设计岗位的“90后”人数和超过从事这两个行业总人数的25% C.芯片、软件行业从业者中,“90后”占比不超过50% D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前”从事这两个行业的总人数少 02 对样本数字特征认识不到位 辨析:统计学的另一基本思想是通过科学合理地获取样本,再通过对样本数据的处理,用样本数字特征去估计总体的相应数字特征。对此我们要有一个辩证的理解,即有时会出现偏差,而解决这一问题的方法是适度增加样本容量,当样本容量越大,它对总体接近程度越大,可信度越高。 【典例1】(25-26高三上·上海浦东新·期末)某班一次数学小测验(百分制)后,老师为了奖励同学们平时认真学习,决定给每位同学的成绩加上5分作为过程性评价奖励.加分后,与原始分数相比,不会发生改变的是(    ) A.平均数 B.中位数 C.第80百分位数 D.方差 【典例2】(25-26高三上·黑龙江·月考)某中学举办迎国庆歌咏比赛,邀请了七位评委,对一个选手打分后,得到一组互不相等的数据,,,,,,,去掉其中最高分与最低分得到的数据与原始数据一定相同的是(   ) A.平均分 B.极差 C.标准差 D.中位数 03 求解独立性检验问题对的值理解不准确 辨析:构造一个随机变量,其中为样本容量.如果的观测值,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的为一个判断规则的临界值. 【典例1】(25-26高三上·天津和平·月考)下列说法错误的是(    ) A.某校高一年级共有男女学生人,现按性别采用分层抽样的方法抽取容量为人的样本,若样本中男生有人,则该校高一年级女生人数是 B.已知关于的回归直线方程为,若,则 C.数据的第百分位数为 D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不大于 【典例2】(2026高三·全国·专题练习)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是(    ) 日落云里走夜晚天气 下雨 未下雨 出现 25 5 未出现 25 45 参考公式: 临界值参照表: 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 A.夜晚下雨的概率约为 B.未出现“日落云里走”,夜晚下雨的概率约为 C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关 D.出现“日落云里走”,有99%的把握判断夜晚会下雨 01 应用随机数表法的两个关键点 1、确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向; 2、读数时注意结合编号特点进行读取.若编号为两位数字,则两位两位地读取;若编号为三位数字,则三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本. 1.(24-25高三上·辽宁·期末)某厂质检员利用随机数表对生产的600个产品进行抽样调查,先将这600个产品进行编号:001,002,003,…,600.从中抽取120个样本,下图是随机数表的第2行到第3行,若从随机数表的第2行第5列开始从左向右读取数据,则得到的第5个编号是(    ) 32  12  67  12  31  02  37  02  14  72  31  09  81  47  80  25  13  25  46  08 71  20  34  51  19  72  01  38  47  18  04  92  51  28  02  31  27  46  51  30 A.098 B.147 C.513 D.310 2.(2024·陕西西安·一模)某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是(    ) 32 21 18 34 29  78 64 54 07 32  52 42 06 44 38  12 23 43 56 77  35 78 90 56 42 84 42 12 53 31  34 57 86 07 36  25 30 07 32 86  23 45 78 89 07  23 68 96 08 04 32 56 78 08 43  67 89 53 55 77  34 89 94 83 75  22 53 55 78 32  45 77 89 23 45 A.623 B.328 C.072 D.457 3.(2024·云南·二模)本次月考分答题卡的任务由高三16班完成,现从全班55位学生中利用下面的随机数表抽取10位同学参加,将这55位学生按进行编号,假设从随机数表第1行第2个数字开始由左向右依次选取两个数字,重复的跳过,读到行末则从下一行行首继续,则选出来的第6个号码所对应的学生编号为(    ) 0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011 1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179 3014 2310 2118 2191 3726 3890 0140 0523 2617 A.51 B.25 C.32 D.12 02 解决分层抽样的常用公式 先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数. (1)抽样比==; (2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量. 1.(2025·云南·一模)在孟德尔两对相对性状的豌豆杂交实验中,子二代豌豆性状表现型及理论比例为:黄色圆粒:黄色皱粒:绿色圆粒:绿色皱粒.现研究人员计划从大量该代豌豆种子中,随机抽取n粒豌豆作为样本进行研究.若希望样本中黄色皱粒豌豆的理论(期望)数量为30粒,则样本量n应为(   ) A.160 B.190 C.220 D.250 2.(2025·海南儋州·模拟预测)某电商平台在2025年3月对其用户进行了一项关于每月消费金额的调查.该平台用户可分为普通会员、白银会员、黄金会员和钻石会员四个等级,各等级用户人数的比例为.调查采用分层随机抽样,按照各等级用户人数比例抽取样本.已知样本中普通会员、白银会员、黄金会员、钻石会员的平均每月消费金额分别为200元、500元、800元、1200元,则估计该平台用户的平均每月消费金额为(   ) A.675元 B.510元 C.650元 D.460元 3.(2025·云南昆明·一模)在对某中学高三年级学生体重(单位:kg)的调查中,按男、女生人数比例用分层随机抽样的方法抽取部分学生进行测量.已知抽取的男生有人,其体重的平均数和方差分别为,抽取的女生有人,其体重的平均数和方差分别为,则估计该校高三年级学生体重的方差为(    ) A. B. C. D. 03 统计图表 常见统计图表的特点与区别 (1) 扇形图:用于直观描述各类数据占总数的比例,易于显示每组数据相对于总数的大小. (2) 条形图:主要用于直观描述不同类别或分组数据的频数和频率,适用于描述离散型数据. (3) 直方图:主要用于直观描述不同类别或分组数据的频数和频率,直方图适用于描述连续型数据. (4) 折线图:主要用于描述数据随时间的变化趋势. 4.(2025·四川成都·一模)三次产业增加值占国内生产总值的比重是衡量一个国家或地区经济发展阶段、产业结构优化程度以及未来经济发展潜力的重要指标、其中第一产业包括农业、林业、渔业等;第二产业涵盖制造业、建筑业等;第三产业则包括服务业、金融业、信息技术等.如图为我国2020-2024年三次产业增加值占国内生产总值比重的等高堆积条形图,则(    ) A.2020-2024年第一产业增加值占国内生产总值比重逐年递增 B.2020-2024年第二产业增加值占国内生产总值比重的中位数为36.9% C.2020-2024年第三产业增加值占国内生产总值比重的平均数为55.1% D.2020-2024年三次产业中增加值占国内生产总值比重极差最大的是第二产业 5.(24-25高二下·广东阳江·月考)随着生活水平的不断提高,旅游已经成为人们生活的一部分.某地旅游部门从2024年到该地旅游的游客中随机抽取部分游客进行调查,得到各年龄段游客的人数比例和各年龄段中自助游比例,如图所示,则估计2024年到该地旅游的游客中选择自助游的青年人占总游客人数的(    )    A.45% B.30% C.13.5% D.13% 6.(2025·四川成都·二模)居民消费价格指数(Consumer Price Index,简称CPI),是度量一定时期内居民消费商品和服务价格水平总体变动情况的相对数,综合反映居民消费商品和服务价格水平的变动趋势和变动程度.下图是2024年11月9日国家统计局公布的2024年10月各类商品及服务价格同比和环比涨跌幅情况(同比,环比),下列结论正确的是(    ) A.2024年10月份食品烟酒类价格低于2023年10月份食品烟酒类价格 B.2024年10月份教育文化娱乐类价格低于2024年9月份教育文化娱乐类价格 C.2024年9月份医疗保健类价格高于2023年10月份医疗保健类价格 D.2024年9月份居住类价格高于2023年10月份居住类价格 7.(2024·四川德阳·模拟预测)中国人口亿人口中肠胃病患者高达亿,慢性胃炎发病率高达,消化性溃疡病发率也高达,是全世界当之无愧的“胃病大国”.根据随机对名青少年随机抽查,的青少年表示自己患有胃病,的青少年不清楚自己是否患有胃病,只有明确自己没有胃病.肠胃病的严重程度,一般可体现在排便量、排便时长上. 某高中为了了解学生肠胃病占比和严重程度,对年高一高二学生单日单次的排便时长进行了统计(记排便分钟内为正常,排便分钟为轻度肠胃病,排便分钟以上为重度肠胃病),并将结果制成统计图(如图所示),若高一学生人,高二学生人,占比百分数均保留整数,下列说法正确的是(    ) A.高二学生的肠胃病人数比高一年级少 B.高一年级的各肠胃病区间人数占比都比高二年级少 C.高一年级重度肠胃病人数占比比高二年级少 D.高一肠胃质量参数比高二高(肠胃质量参数) 04 百分位数的计算 计算一组个数据的的第百分位数的步骤 ①按从小到大排列原始数据. ②计算. ③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数. 8.(2025·江苏南通·模拟预测)一组从小到大排列的数据:1,2,3,4,6,8,x,18,22,23.若它们的70百分位数是中位数的两倍,则x的值为(    ) A.10 B.11 C.12 D.14 9.(2025·广东江门·模拟预测)2025年1~8月份广东省工业机器人、服务机器人、民用无人机、风力发电机组、太阳能电池、新能源汽车产品产量分别增长,则该组数的分位数为(  ) A. B. C. D. 10.(2026·陕西西安·一模)从高三某班抽取10名同学,他们的数学成绩如下:95,90,71,76,85,88,72,91,92,65(单位:分),则这10名同学数学成绩的第70百分位数是(   ) A.90 B.91 C.90.5 D.91.5 11.(2025·贵州毕节·模拟预测)某中学共有名学生,该校从全校学生中随机抽取名,统计他们年阅读的书籍数量,由此来估计该校学生当年阅读书籍数量的情况,下列关于估计中正确的是(    ) A.阅读量的众数估值为 B.阅读量的中位数估值为 C.阅读量的平均数估值为 D.第百分位数为 05 用样本的数字特征估计总体的数字特征 利用样本的数字特征解决优化决策问题的依据 (1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征. 12.(2025·重庆·模拟预测)某动漫社团为了调查本校学生对新上映电影的喜好程度, 对该校学生进行了满意度调查, 其中男生共调查了 600 人,女生共调查了 400 人,男生平均给分 4 分,方差为 1 ,女生平均给分 3 分,方差也为 1 . 则调研对象总体方差为(    ) A. B. C. D. 13.(2025·陕西西安·模拟预测)在从小到大依次排列的样本数据、、、、、中,已知中位数小于众数,则该组样本数据的平均数为(    ) A. B. C. D. 14.(2025·贵州六盘水·模拟预测)已知甲组数据为,,,,,乙组数据为,,,,则甲、乙两组数据的平均数、极差及中位数中相等的是(    ) A.平均数 B.极差 C.中位数 D.都不相等 15.(2025·河北沧州·模拟预测)已知2025年月全国房地产开发景气指数依次为,则这7个数据的中位数是(    ) A.93.92 B.93.87 C.93.82 D.93.70 16.(2025·甘肃武威·模拟预测)某学校从高三某次联考中随机抽取了甲班50名、乙班40名学生的成绩.已知甲班50名学生成绩的平均数为112分,方差为8,乙班40名学生成绩的平均数为94分,方差为8,则这90名学生成绩的方差为(   ) A.8 B.36 C.64 D.88 06 判断相关关系的2种方法 1、散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系; 2、相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强 17.(24-25高二下·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是(    ) A.图1、图2两组数据都具有线性相关关系 B.图1数据正相关,图2数据负相关 C.图1相关系数小于图2相关系数 D.图1相关系数和图2相关系数之和小于0 18.(2025·安徽蚌埠·三模)医疗研究者会创建散点图来显示少女的体重指数(BMI)和身体脂肪百分比之间的相关关系,如图,下列说法正确的是(    ) A.BMI越大,脂肪百分比越大 B.BMI越大,脂肪百分比越小 C.BMI与脂肪百分比正相关 D.BMI与脂肪百分比负相关 07 样本相关系数的计算 样本相关系数r的统计含义及应用 (1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关; (2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测; (3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义. 19.(2025·天津·二模)小明研究温差(单位:)与本单位当天新增感冒人数(单位:人)的关系,他记录了5天的数据: 3 4 5 6 7 16 20 25 28 36 由表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是(   ) A.与正相关 B.经验回归直线经过点 C.当时,残差为1.8 D. 20.(2025·浙江金华·一模)近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆) 年份 2021 2022 2023 2024 年份代号 1 2 3 4 销量 33 69 93 129 附:相关系数; 回归方程中斜率和截距的最小二乘法估计公式分别为, (1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001) (2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量. 21.(2025·甘肃武威·模拟预测)某高科技公司开发了一款AI学习机,为了解市场销售情况,该公司统计了过去5个月的月广告投入(单位:十万元)与该款学习机的月销量(单位:千台)的数据,如表所示. 月份代码 1 2 3 4 5 10 20 30 40 50 58 59 60 64 65 (1)求和的样本相关系数,并判断与是否具有较强的线性相关性;(结果精确到0.01,若,则认为与具有较强的线性相关性) (2)求关于的经验回归方程,并估计月广告投入600万元时该款学习机的月销量; (3)该款学习机目前售价为3000元/台,为提升销量,经销该款学习机的某专卖店针对该款学习机推出了两种促销方案.方案一:买一台立减400元;方案二:一次性购买两台可抽奖三次,每次中奖的概率均为,且每次抽奖相互独立,中奖一次立减600元/台,中奖两次立减800元/台,中奖三次立减1000元/台,若三次均未中奖,仍可享基础优惠300元/台.某家长准备在该店购买两台该款学习机,请从付款总金额数学期望的角度分析选哪种方案更优惠. 参考公式:对于经验回归方程,,;样本相关系数. 参考数据:,,. 22.(2025·广东深圳·模拟预测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%): 年份 2017年 2018年 2019年 2020年 2021年 年份代码 1 2 3 4 5 6.4 5.5 5.0 4.8 3.8 (1)求2017-2021年年份代码与的样本相关系数(精确到0.01); (2)预测2026年的酸雨区面积占国土面积的百分比. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:,. 样本相关系数,. 08 线性回归分析问题的类型及解题方法 线性回归分析问题的解题策略 (1)利用公式,求出回归系数; (2)利用经验回归直线过样本点的中心求系数; (3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值. 23.(2025·云南昆明·模拟预测)下表为2018至2024年某手机品牌的年产量y(单位:万台),其中2018至2024年的年份代码x分别为1至7. 年份代码x 1 2 3 4 5 6 7 年产量y/万台 28 32 36 40 a b c 已知y与x具有线性相关关系,由上述7组数据得到经验回归方程,则的值为(    ). A.165.4 B.173.4 C.182.5 D.191.8 24.(2025·河南新乡·模拟预测)某企业产品的广告费用与销售量的统计数据如表所示:根据表中各数据可得回归方程,其中,假设该企业广告费用为6万元时,则销售额为(   ) 广告费用(万元) 4 2 3 5 销售额(万元) 49 26 39 54 A.63,6万元 B.65,5万元 C.67,7 万元 D.72,0万元 25.(2026·河北沧州·一模)某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下: 时间 2025年3月 2025年4月 2025年5月 2025年6月 2025年7月 2025年8月 月份代码 1 2 3 4 5 6 销量千辆 6 7 10 11 12 14 (1)已知与线性相关,求出关于的经验回归方程,并估计该地区新能源汽车在2026年3月份的销量; (2)该企业为宣传推广新能源汽车,计划在宣传部门开展人工智能工具使用的培训.该次培训分为三期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为.该企业规定:员工至少有两期培训达到“优秀”标准,才能使用人工智能工具. (Ⅰ)求甲、乙两名员工经过培训后,恰好只有一人能使用人工智能工具的概率; (Ⅱ)该企业宣传部现有员工100人,引进人工智能工具后,需将宣传部的部分员工调整至其他部门,剩余员工进行该次培训.已知开展培训前,员工每人每年平均为企业创造利润3万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造利润6万元,不能使用人工智能工具的员工预计每人每年平均为企业创造利润还是3万元,本次培训费每人1万元.现要求培训后宣传部员工创造的年利润不低于调整前的年利润,预计最多可以调多少人到其他部门? 参考公式:经验回归方程,其中,. 参考数据:. 26.(2025·四川成都·模拟预测)某语文报社为研究学生课外阅读时间与语文考试中的作文分数的关系,随机调查了本市某中学高三文科班6名学生每周课外阅读时间(单位:小时)与高三下学期期末考试中语文作文分数,数据如下表: 1 2 3 4 5 6 38 40 43 45 50 54 (1)根据上述数据,求出高三学生语文作文分数与该学生每周课外阅读时间的线性回归方程,并预测某学生每周课外阅读时间为7小时时其语文作文成绩; (2)从这6人中任选2人,记为语文作文分数不小于45分的人的个数,求的分布列及期望. 参考公式:,参考数据: 27.(2025·浙江·一模)2014年至2025年是我国新能源汽车飞速发展的时期,下表为2014年至2023年我国新能源汽车的年产量,按照表中数据,可用回归模型拟合自变量与新能源汽车产量. 年份 自变量 新能源汽车产量(单位:万辆) 2014 1 7.8 2015 2 34 2016 3 52 2017 4 79 2018 5 127 2019 6 124 2020 7 137 2021 8 354 2022 9 706 2023 10 959 (1)求自变量与新能源汽车产量的回归模型,并预测2025年我国新能源汽车年产量(其中,以及预测年产量(单位:万辆)都保留1位小数且用的1位小数近似值计算); (2)从10个年产量的值中随机选取3个数据,求存在数据大于300的条件下,恰有1个数据小于100的概率. 参考公式:一元线性回归模型中. 参考数据:. 09 决定系数与残差 刻画回归效果的四种方法 (1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好. (3)决定系数R2法:R2越接近1,表明模型的拟合效果越好. (4)样本相关系数. 28.(2025·四川成都·一模)一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为. ,分布如图所示,且,则下列说法错误的是(    ) A.样本负相关 B. C. D.处理后的决定系数变大 29.(2025·广东湛江·模拟预测)假设变量与变量的对观测数据为、、、,两个变量满足一元线性回归模型,则参数的最小二乘估计为(    ) A. B. C. D. 30.(2025·上海浦东新·二模)研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是(   ) A.变量与变量的相关性变强 B.相关系数的绝对值变小 C.线性回归方程不变 D.拟合误差Q变大 31.(2025·天津宁河·模拟预测)下列说法中,正确的有(    ) ①回归直线恒过点,且至少过一个样本点: ②根据列列联表中的数据计算得出,而,则有的把握认为两个分类变量有关系,即有的可能性使得“两个分类变量有关系”的推断出现错误; ③在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好; ④某项测量结果服从正态分布,若,则 A.个 B.个 C.个 D.个 10分类变量与列联表 分类变量的两种统计表示形式 (1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联强弱; (2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联强弱. 32.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是(    ) A.男生中不经常锻炼的人数比女生中经常锻炼的人数多 B.男生中经常锻炼的人数比女生中经常锻炼的人多8人 C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右 D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关 性别 锻炼情况 合计 经常锻炼 不经常锻炼 男 48 32 80 女 40 60 100 合计 88 92 180 33.(2025·陕西汉中·一模)某人工智能研究实验室开发出一款全新的聊天机器人,该实验室对使用该款聊天机器人的120位用户进行调研,得到的调研数据如下表所示,则(   ) 年龄 周平均使用时间 超过4小时 不超过4小时 总计 不超过40岁 54 b 72 40岁以上 c d 总计 72 120 附:,. (1)当时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的; (2)当时,有90%的把握判断变量A,B有关联; (3)当时,有99%的把握判断变量A,B有关联; (4)当时,有99.9%的把握判断变量A,B有关联. A. B.用样本估计总体,每位使用该款聊天机器人的用户周平均使用时间超过4小时的概率为 C.没有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关 D.有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关 11 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表. (2)根据公式计算. (3)比较与临界值的大小关系,作统计推断. 34.(2025·云南昭通·模拟预测)某高校为了解学生在一周内参与志愿服务的情况,统计了全校所有学生在一年内每周参与志愿服务的次数,现随机抽取了50名同学,统计在某一周参与志愿服务的数据,结果如下表: 一周参与志愿服务次数 1 2 3 4 5 6 合计 男生人数 4 6 6 4 3 2 25 女生人数 1 1 3 5 9 6 25 合计 5 7 9 9 12 8 50 (1)若将一周参与志愿服务次数为5次及5次以上的,称为“积极参与”,其余的称为“一般参与”.请完成以下2×2列联表,并依据小概率值的独立性检验,能否认为性别因素与学生参与志愿服务的积极性有关系; 性别 志愿服务 合计 一般参与 积极参与 男生 女生 合计 (2)若将一周参与志愿服务达到6次的同学称为“最美志愿者”,在样本的8名“最美志愿者”中,随机抽取3人进行访谈,设抽取的3人中男生人数为,求的分布列和数学期望. 附:,. 0.1 0.05 0.01 2.706 3.841 6.635 35.(2025·四川内江·一模)某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60 名学生的短跑成绩合格.这100名学生中有45名学生每周自主锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周自主锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周自主锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周自主锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率估计概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训.依据小概率值的独立性检验,零假设为:学生短跑成绩合格与每周自主锻炼时间相互独立. (1)先填写列联表,再依据小概率值的独立性检验,判断是否能认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关; 每周自主锻炼时间超过5小时 每周自主锻炼时间不超过5小时 合计 短跑成绩合格 短跑成绩不合格 合计 100 (2)求学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率; (3)为提高学生锻炼的积极性,学校偶尔会在田径运动场举办锻炼有奖活动,记表示事件“田径运动场举办锻炼有奖的抽奖活动”,表示事件“小明去田径运动场锻炼”,.已知小明在田径运动场举办锻炼有奖的抽奖活动的情况下去运动场锻炼的概率,比不举办抽奖活动的情况下去运动场锻炼的概率大.证明:. 参考公式与数据:,其中,. 0.01 0.005 0.001 6.635 7.879 10.828 36.(2025·江苏·模拟预测)教育部办公厅要求中小学校要通过体育与健康课程、大课间、课外体育锻炼、体育竞赛、班团队活动、家校协同联动等多种形式加强教育引导,让家长和中小学生科学认识体质健康的影响因素,了解运动在增强体质、促进健康、预防肥胖与近视、锤炼意志、健全人格等方面的重要作用,提高学生体育与健康素养,增强体质健康管理的意识和能力.某学校为了了解学生的身体健康与身体素质状况,随机抽取了50名同学的体测结果(“合格”或“优秀”),统计数据如下表: 性别 体测结果 合计 合格 优秀 男生 2 28 30 女生 6 14 20 合计 8 42 50 (1)能否有的把握认为体测结果与性别有关? (2)用样本估计总体,频率估计概率.现等可能地从男、女生中抽取一个性别,然后再从选好的性别中随机抽取1名学生的体测结果,已知抽出的学生体测结果是“优秀”,求这名学生是男生的概率. 附:,其中. 0.1 0.01 0.001 2.706 6.635 10.828 37.(2025·四川德阳·模拟预测)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图. (1)根据图中数据,估计强化训练前的成绩的平均数(同一组中的数据用该组区间的中点值作代表);并求强化训练后的成绩的60%分位数. (2)规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”. 强化训练 是否优秀 合计 优秀 非优秀 强化训练前 强化训练后 合计 将上面的表格补充完整,依据小概率值的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关? 附:,. 0.05 0.010 0.005 0.001 3.841 6.635 7.879 10.828 38.(2025·云南·模拟预测)近年来,某公司以电影和动漫中的一些元素为主题,开发了一些豪车模型玩具,现抽取了部分孩童,调查他们是否喜爱豪车模型,所得数据统计如下表所示. 性别 男孩 女孩 喜欢豪车模型 340 160 不喜欢豪车模型 300 200 (1)现按照性别进行分层,用分层随机抽样的方法在不喜欢豪车模型的样本孩童中随机抽取10人,再从这10人中随机抽取3人,求至少1人是女孩的概率; (2)根据的独立性检验,能否认为是否喜欢豪车模型与性别具有相关性. 附:. 0.05 0.01 0.001 3.841 6.635 10.828 学科网(北京)股份有限公司1 / 17 学科网(北京)股份有限公司 $统计与成对数据的统计分析 随机抽样、常用统计图表 (1)总体:调查对象的全体(或调查对象的某些指标的全体): 变量间的相关关系及回归模型 总体、个体 (②)个体:组成总体的每一个调在对象(或每一个调查对象的相应辑标): 样本 3样本:在抽样调查中,从总体中抽取的那部分个体称为样本,样本中包含的个体数称为 (1)总体:调查对象的全体或调查对象的某些指标的全体): 样本容量简称样本量 总体、个体 2)个体:组成总体的每一个调在对象(或每一个调查对象的相应辑标): 设一个总体含有NN为正整数)个个体,从中逐个抽取(1写m<W)个个体作为 样本 (3)样本:在抽样调查中,从总体中抽取的那部分个体称为样本,样本中包含的个体数称为 样本,抽取时,总体内的每个个体被抽到的概率相等,把这种抽样方法叫险 样本容量,简称样本量 定义 简单随机抽样 设一个总体含有NN为正整数)个个体,从中逐个抽取(I≤n<W)个个体作为 箭单随机 样本,抽取时,总体内的每个个体被抽到的概常相等,把这种抽样方法叫做 抽样 常用方法。抽签法和随机数达 定义 。商单随机轴样 按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于→个 简单随机 子总体,在每个子总体中独立地进行简单随机抽样,耳把所有子总体中抽取 抽样 常用方法。 抽签法和纯机数法 的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子 按一个成多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个 定义 总体称为层,在分层骑机抽样中,每层中的抽样比相整,都为及 子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取 分层随机 的样本合在一起作为总样本这样的抽样方法称为分层随机抽样,每一个子 抽样 应用范围。当总体由差异明显的儿个部分组成时,选用分层随机抽样 定义 总体称为层,在分层随机抽样中,每层中的抽样比相等,都为是 分层随机 (1)作频常分布直方图的步骤:①求极差:②2决定组距与组数:③将数据分 抽样 应用范围。当总体由差异明显的几个部分组成时,选用分层随机抽样 组:④列频事分布表:5画颜事分布直方图: 分布 2性质:①纵轴表示即小长方形的高-器:运小长方形的面积 (1)作颜常分布直方图的步骤:①求极差:②决定组距与组数:③将数据分 组:④列额常分布表:5画鳜率分布直方图: 组距×能-频率:3各小长方形的面积的总和等刊 巴性质:①纵轴表示器即小长方形的高器:2小长方形的面积。 常用统计 组距×器·频率:③各小长方形的面积的总和等于刊 图表 ()扇形图:直观描述各类数据占总数的比例: (2条形图:直现描述不同类别成分组数据的频数和颜率(离教型数搭): 常用统计 ()总体密度曲线:设想如果样本容量不断增大,分组的组距不断缩小.则频 图表 )扇形图:直观描述各类数据占总数的比例: 率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线 (2)条形图:直观描述不同类别或分组数据的频数和颜率(离数型数据): 图 =)来描绘,这条光滑曲线就叫做总体密度曲线(连续型数据): ()总体密度曲线:设想如果样本容量不断增大,分组的组距不断缩小,则期 (4)折线图:直观描述数据随时间的变化趋势: 其他 率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线 (雷达图:直观比较多个变量在不同维度上的表现及各变量间的相对关系 图 =)米描绘,这条光滑曲线减叫做总体密度曲线(连埃型数据): (差瘁程度和趋势) 4折线图:直观描述数据随时间的变化趋势: )雷达图:直观比较多个变量在不同维度上的表现及各变量间的相对关系 (差异程度和趋持) 列联表与独立性检验 分类变量变量的不同值表示个体所属的不同类别,像这样的变量称为分类变量 分类 变量 关于分类变量X和的2×2列联表 列联表 + 0 Yel 合计 X=0 6 4+地 = ced 合计 btd n=athitctd n(ad-bey 计斑随帆变量Xa+X8面·利用X的取值推新分炎变量X和 概念 Y是否独立的方法称为X独立性检验 (1提出零服设HX和Y相互独立,并给出在问题中的解释: 独立 (2)根据抽样数据整理出2×2列联表,计算X的值,并与临界值x,比较: 步骤 3)根据检验规喇得出推断结论: 验 (4)在X和Y不独立的情况下,银据需要,通过比较相应的频常,分析X和》 问的影响规律 临界值表 01 0.05 001 0005 0.1 27063.8416.635779 10828

资源预览图

专题01 统计与成对数据的统计分析(知识清单)(全国通用)2026年高考数学一轮复习讲练测
1
专题01 统计与成对数据的统计分析(知识清单)(全国通用)2026年高考数学一轮复习讲练测
2
专题01 统计与成对数据的统计分析(知识清单)(全国通用)2026年高考数学一轮复习讲练测
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。