内容正文:
专题22 统计与统计案例
目录
第一部分 研·考情精析 锁定靶心 高效备考
第二部分 理·方法技巧 梳理知识 总结技巧与方法
第三部分 攻·题型速解 典例精析+变式巩固
【题型01】平均数,中位数,众数,方差
【题型02】百分位数
【题型03】统计图表
【题型04】方差的性质计算
【题型05】分层样本的方差
【题型06】统计中的逻辑推理
【题型07】相关系数和决定系数
【题型08】等高堆积条形图
【题型09】独立性检验
【题型10】经验回归方程
第四部分 练·决胜冲刺 精选好题+通关训练
考向聚焦
本专题是高考必考基础板块,以小题 + 解答题组合呈现,侧重数据分析与实际应用,难度中等。小题常考分层抽样、统计图表解读、样本数字特征、相关系数判断;解答题以回归分析、独立性检验为核心,常结合生活、生产情境命题,要求建立回归方程并预测、依据 2×2 列联表完成卡方检验与推断。命题趋势强调图表信息提取、统计量实际意义理解,弱化复杂公式记忆,突出数据处理、数学建模核心素养。备考需熟练掌握图表计算、回归与检验步骤,规范作答表述,确保基础分不丢。
关键能力
需具备数据提取与图表转化能力,能从频率分布直方图、茎叶图、列联表中快速获取关键信息。熟练计算均值、方差、相关系数等统计量,理解其实际意义。掌握线性回归方程推导与应用,能完成参数计算、拟合效果判断及实际预测。具备独立性检验逻辑推理能力,规范完成卡方计算、临界值对比与结论表述。强调数学建模与数据分析素养,注重公式准确运用、步骤完整书写,避免计算失误与表述不规范,确保思路清晰、过程严谨。
备考策略
备考以稳基础、重规范、练速度为核心。先夯实抽样方法、统计图表、均值方差、回归方程、独立性检验五大基础点,做到公式不混淆、计算不出错。重点训练图表信息提取和实际情境建模,熟练解答题固定答题模板,确保步骤完整、表述规范。限时训练小题速度,保证选择填空快速拿分;解答题重点练卡方检验与回归分析书写逻辑,减少失分。回归教材例题与真题,总结常见陷阱,做到基础题全对、中档题稳拿,不丢步骤分。
◇方法技巧 01 统计与统计案例的常用方法
一、平均数、方差
直方图:均值=组中值 × 频率 求和;方差=(组中值-均值)²× 频率 求和。
技巧:先算均值,再算方差,分步列式,不跳步。
二、百分位数
数据从小到大排序
计算
整数:取第与个数的平均
非整数:向上取整,对应即为所求
技巧:看清是原始数据还是频数表。
三、相关系数
正相关;负相关
越接近,线性相关越强
技巧:看趋势判断方向强弱,一般不用硬算。
四、经验回归方程
必过中心点
先求,再求
预测:直接代入求
技巧:题目给就直接用,不用推导。
五、卡方检验
写清列联表
代入公式算
与临界值比较:
临界值:在犯错误概率不超过… 前提下,认为有关
反之:无充分证据认为有关
技巧:结论按模板写,不绝对化。
六、通用秒杀技巧
先读图 / 表,圈出关键数据
选择填空:估算、排除、特殊值
解答题:公式 + 列式 + 结果 + 结论,步骤写全不丢分
◇题型 01 平均数,中位数,众数,方差
典|例|精|析
典例1.某气象爱好者为了解本地冬季的气温变化规律,特记录了本地过去10天的最低气温的数据(单位:℃),结果如下:7,7,5,2,3,6,6,7,4,3,则这10天的最低气温的( )
A.极差为4 B.中位数为6
C.平均数为5 D.方差为3
【答案】C
【分析】根据样本数据的极差、中位数、平均数、方差的定义分别求出结果,即可判断出答案.
【详解】选项A:最低气温的数据(单位:℃)的最大值为7,最小值为2,故极差为,故A错误;
选项B:把最低气温的数据(单位:℃)从小到大排序为:2,3,3,4,5,6,6,7,7,7,
这10个数据的中位数为第五个数和第六个数的平均数,即为,故B错误;
选项C:最低气温的平均数为,故C正确;
选项D:最低气温的方差为,故D错误.
故选:C.
典例2.(多选)在某校文艺汇演中,六位评委对某小品节目进行打分,得到一组分值7.7,8.1,8.2,8.7,9.4,9.9,若去掉一个最高分和一个最低分,则( )
A.这组分值的极差变小 B.这组分值的均值变大
C.这组分值的方差变小 D.这组分值的第75百分位数不变
【答案】AC
【分析】根据极差、百分位数、平均数和方差的定义求解,即可判断选项.
【详解】原始数据:7.7,8.1,8.2,8.7,9.4,9.9,
去掉一个最高分和一个最低分后:8.1,8.2,8.7,9.4,
极差分别为,极差变小,故A正确;
均值分别为,
,均值变小,故B错误;
方差分别为
,
,方差变小,故C正确;
,,
第75百分位数分别为,,第75百分位数变小,故D错误.
注意区分原始数据、频数表、频率分布直方图三种题型。直方图中众数为最高矩形中点,中位数是左右面积相等处,平均数为组中值乘频率求和,不可混淆。方差计算易漏乘频数或频率,数据多时要分步算。异常值会显著拉高 / 拉低平均数,但对中位数、众数影响小,判断集中趋势时要结合实际。单位统一、看清总体与样本,避免因粗心看错数据、算错平方导致失分。
变|式|巩|固
变式1.某老师对比甲、乙两名学生最近5次数学月考成绩,甲:,乙:,则下列结论正确的是( )
A.甲成绩的平均数较小 B.乙成绩的中位数较大
C.乙成绩的极差较大 D.乙比甲的成绩稳定
【答案】D
【分析】分别计算出两组数据的平均数、中位数、极差和方差即可得答案.
【详解】设甲、乙成绩的平均数分别为,方差分别为,
则,,
,甲成绩的平均数较大,故A错误;
甲成绩的中位数为129,乙成绩的中位数为119,乙成绩的中位数较小,故B错误;
甲成绩的极差为,乙成绩的极差为,乙成绩的极差较小,故C错误;
,,
,乙比甲的成绩稳定,故D正确.
故选:D.
变式2.有一组样本数据:,,,,,,,,则下列关于该组数据的数字特征中,数值最大的为( )
A.中位数 B.平均数
C.极差 D.众数
【答案】C
【分析】根据已知数据求出中位数、平均数、众数、极差,判断它们的大小即可.
【详解】由题设数据,其中位数、众数为3,平均数,极差为,
所以最大的为极差.
故选:C
变式3.一组数据从小到大依次为3,5,6,7,8,9,m,10,11,13,且众数为9,下列说法错误的是( )
A. B.中位数为8.5
C.平均数为8 D.极差为10
【答案】C
【分析】由条件结合众数的定义求,再结合中位数,平均数,极差定义求中位数,平均数,极差判断各选项.
【详解】众数是一组数据中出现次数最多的数据,因此;
该组数据的中位数是第5位和第6位数的平均数,即为;
极差为;
平均数是,
故选:C.
◇题型 02 百分位数
典|例|精|析
典例1.有一位射击运动员在一次射击测试中射靶10次,记录每次命中的环数,得到如下一组数据:7,8,7,9,5,6,9,10,7,4.则这组数据的第25百分位数为( )
A.5.5 B.6
C.8.5 D.9
【答案】B
【分析】先从数据从小到大排列,再根据百分位数的定义进行求解.
【详解】将数据从小到大排列为4,5,6,7,7,7,8,9,9,10,
,故从小到大选取第3个数作为这组数据的第25百分位数,即6.
故选:B
典例2.本学期某校举行了有关垃圾分类知识竞赛,随机抽取了100名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,则( )
A.图中的值为0.020
B.估计样本数据的众数值为90
C.估计样本数据的第分位数为95
D.估计样本数据的平均数大于中位数
【答案】C
【分析】根据频率和为1求参数值,再由频率直方图求众数、百分位数、中位数、平均数依次判断各项正误.
【详解】由题设,可得,A错;
由直方图知,估计样本数据的众数值为,B错;
由,
则样本数据的第分位数在内,
设为,则,可得,C对;
由平均数为,
由图易知中位数在内,设中位数为,则,可得,
所以中位数大于平均数,D错.
故选:C.
计算百分位数前必须先将数据从小到大排序,否则结果全错。公式中,若是整数,要取第和项的平均值,而非直接取第项;非整数时必须向上取整,不能四舍五入。注意区分频数表与原始数据,不要把频数当作数据个数。看清题目是求第几百分位数,避免位数看错、位置找错,确保计算规范、步骤清晰,减少低级失误。
变|式|巩|固
变式1.已知一组数据:3,7,,12,15的平均数为9,则该组数据的第40百分位数为( )
A.6 B.7
C.7.5 D.8
【答案】C
【分析】先由平均数9解出,为整数,则该组数据的第40百分位数为从小到大排列的第2位与第3位的平均数.
【详解】因为,解得,
从小到大排列数据为:3,7,8,12,15.
又因为,所以这组数据的第40百分位数为:,
故选:C.
变式2.已知一组数据从小到大排列为70,72,75,76,82,83,84,m,90,92,这组数据的第70百分位数是86,则( )
A.86 B.87
C.88 D.89
【答案】C
【分析】根据第百分位数的概念,求出结果即可.
【详解】由题意可知共有10个数,因为,则第70百分位数是第七个和第八个数的平均数,
即,解得.
故选:C.
变式3.某人工智能公司为优化新开发的语言模型,在其模型试用人群中开展满意度问卷调查,满意度采用计分制(满分100分),统计满意度并绘制成如下频率分布直方图,图中,则下列结论不正确的是( )
A.
B.满意度计分的众数约为75分
C.满意度计分的平均分约为79分
D.满意度计分的第25百分位数约为70分
【答案】C
【分析】由频率分布直方图的面积和为1可得A正确;由频率分布直方图计算众数,平均数,第25百分位数可得B正确,C错误,D正确.
【详解】对于A,由频率分布直方图可得,又,
解得,,故A正确;
对于B,满意度计分的众数为最高矩形底边中点横坐标75分,故B正确;
对于C,满意度计分的平均分约为,故C错误;
对于D,前两组的频率之和为,所以满意度计分的第25百分位数约为70分,故D正确.
故选:C.
◇题型 03 统计图表
典|例|精|析
典例1.(多选)地方一般公共预算收入是地方经济的重要指标之一,如图是某地区2025年2月至10月地方一般公共预算收入累计的图表,其中条形图是地方一般公共预算收入的月累计值(月累计值指当年1月到当月的数据总和),折线图是与上年同月累计值相比的环比增长率.根据图表,下列说法正确的是( )
A.该地区2025年每月的地方一般公共预算收入一直递增
B.2025年9月该地区的地方一般公共预算收入超过30亿元
C.2025年9月该地区的地方一般公共预算收入比2024年9月高
D.2024年前10个月,该地区地方一般公共预算收入平均数低于22亿
【答案】BCD
【分析】根据图表中信息,以及地方一般公共预算收入的月累计值和同比增长的概念,逐一判断各选项的正误,判断结果.
【详解】由图表可知,3月的地方一般公共预算收入为(亿元),4月的地方一般公共预算收入为(亿元),可知选项A错误;
9月该地区的地方一般公共预算收入为(亿元),所以选项B正确;
2025年9月该地区的地方一般公共预算收入累计同比增长,所以2024年9月该地区的地方一般公共预算收入累计为(亿元),
2025年8月该地区的地方一般公共预算收入累计同比增长,所以2024年8月该地区的地方一般公共预算收入累计为(亿元),
所以2024年9月该地区的地方一般公共预算收入为(亿元),所以C正确;
2025年10月该地区的地方一般公共预算收入累计同比增长,所以2024年10月该地区的地方一般公共预算收入累计为(亿元),所以2024年前10个月,该地区地方一般公共预算收入平均数为,所以D正确;
故选:BCD.
典例2.(多选)某市10公里慢跑自2020年首次推出5条路线实现“五龙汇聚”,参与人数逐年增加.下图分别为该市2020年10公里慢跑参与人数的条形统计图(图1)、2025年10公里慢跑参与人数的扇形统计图(图2),已知2025年一号线的参与人数是2020年一号线参与人数的1.5倍,则( )
A.2025年该市10公里慢跑总的参与人数是6万
B.2025年五号线的参与人数超过了2020年二号线与三号线的参与人数总和
C.2020年,五条路线对应的参与人数的极差是11千
D.2025年与2020年相比,五条路线中对应的参与人数的增长率最高的是一号线
【答案】ACD
【分析】根据直方图、扇形图分析、年各路线对应慢跑人数,结合各项描述、极差的概念判断各项的正误.
【详解】由图及已知,年一号线参与人数为千人,
所以年参加10公里慢跑人数为千人,即6万人,A对,
所以年五号线的参与人数为千人,
且年二号线、三号线的参与人数总和为千人,显然B错,
年五条路线参与人数的极差为千人,C对,
由图及上述分析,年一号到五号线的人数依次为千人,
而年一号到五号线的人数依次为千人,
2025年与2020年相比,五条路线中对应的参与人数的增长率依次为:
,,,,,
所以2025年与2020年相比,五条路线中对应的参与人数的增长率最高的是一号线,D对.
故选:ACD
看清是频率分布直方图、条形图、折线图还是茎叶图,别混淆纵轴含义:直方图纵轴是频率 / 组距,不是频率,计算频率时要乘组距。中位数是左右面积各 0.5 的位置,不是中点坐标;众数是最高矩形中点。注意图表单位、刻度与组数,避免把频数当频率、组中值代错。茎叶图不要漏读数据,多图结合题要对应好类别,防止看错图例、混淆信息。
变|式|巩|固
变式1.(多选)某超市统计了2025年前10个月该超市的营业额(单位:万元),得到了如图所示的折线图,则下列说法正确的是( )
A.从二月份开始,每月与上个月相比,营业额下降最多的是五月份
B.这10个月营业额的平均数为32.5万元
C.前5个月营业额的方差大于后5个月营业额的方差
D.这10个月营业额数据的第70百分位数为43
【答案】AC
【分析】对A,计算相邻月份营业额的变化量,找出下降幅度最大的区间判断;对B,将10个月的营业额数据求和,再除以10得到平均数,与32.5万元对比;对C,分别计算前5个月和后5个月营业额的方差,比较两者大小;对D,将数据排序后,根据百分位数公式计算第70百分位数进行判断.
【详解】对于A:由图可知二月份比一月份增加6万元,三月份比二月份增加24万元,四月份比三月份减少13万元,五月份比四月份减少24万元,
六月份比五月份增加6万元,七月份比六月份增加12万元,八月份比七月份增加2万元,九月份比八月份减少18万元,
十月份比九月份减少4万元,故与上个月相比营业额下降最多的是五月份,A正确;
对于B:由,即这10个月的营业额的平均数为万元,B错误;
对于C:前5个月的平均数,
方差;
后5个月的平均数,
方差
因为,所以前5个月的营业额的方差确实大于后5个月,C正确;
对于D:将10个数据从小到大排序:
因为,所以第百分位数取第7项和第8项的平均数,D错误.
故选:AC.
变式2.(多选)如图是某地2024年各月同比和环比涨跌幅情况,则下列叙述正确的有( )
A.全年各月同比涨跌幅的极差小于各月环比涨跌幅的极差
B.5月份到7月份的各月同比涨幅越来越大
C.全年各月环比涨跌幅的平均值为
D.3月份到12月份各月同比涨跌幅的分位数为
【答案】AB
【分析】利用极差的计算方法,求得全年CPI各月同比涨跌幅和环比涨跌幅的极差,可判定A正确;根据5月份到7月份的CPI同比涨幅,可判定B正确;根据平均数的计算公式,求得全年CPI各月环比涨跌幅的平均值,可判定C错误;根据百分位数的计算方法,可判定D错误.
【详解】对于A,全年CPI各月同比涨跌幅的极差为,
环比涨跌幅的极差为,所以A正确;
对于B,由5月份到7月份的CPI同比涨幅分别为,涨幅越来越大,所以B正确;
对于C,全年CPI各月环比涨跌幅的平均值为,所以C错误;
对于D,由3月份到12月份CPI各月同比涨跌幅的数据按从小到大的顺序排列可得,,,
因为,所以分位数为第8个数据,
即3月份到12月份CPI各月同比涨跌幅的分位数为,所以D错误.
故选:AB.
变式3.(多选)采购经理指数(PurchasingManagers'Index,简称PMI):是国际上通行的宏观经济监测指标体系之一,对国家经济活动的监测和预测具有重要作用.PMI涵盖着生产与流通、制造业与非制造业等领域,分为制造业PMI、服务业PMI.制造业PMI指数在以上,反映制造业总体扩张;低于,通常反映制造业衰退.下图为我国制造业采购经理指数(PMI)变化趋势图,则下列说法正确的是( )
A.根据上图可知有一半的月份我国的制造业总体在扩张
B.这13个月的PMI值的平均数不超过
C.这13个月的PMI值的中位数是
D.2025年1-4月的PMI的方差小于2025年5-8月的PMI的方差
【答案】BC
【分析】根据折线图及已知,结合各项的描述,依次分析正误即可.
【详解】由图,13个月中共有5个月超过,A错,
13个月从小到大为,
所以这13个月的PMI值的平均数为
,即这13个月的PMI值的平均数不超过,B对,
其中这13个月的PMI值的中位数为第7个数,是,C对,
由图知,2025年1-4月的PMI为,2025年5-8月的PMI为,显然5-8月的PMI的波动性较小,
所以2025年1-4月的PMI的方差大于2025年5-8月的PMI的方差,D错.
故选:BC
◇题型 04 方差的性质计算
典|例|精|析
典例1.已知一组数据的平均数为,方差为,则数据的( )
A.平均数为 B.平均数为
C.方差为 D.方差为
【答案】D
【分析】根据线性变换后的均值与方差的变化规律,计算后逐项判断可解.
【详解】由题知,则,故AB均错误;
,则,故C错误,D正确.
故选:D.
牢记方差核心性质:若,则,常数不影响方差,极易漏写平方。注意方差非负,不能为负。两组数据和的方差:只有独立时才有 ,不可直接乱用。计算时看清是样本方差还是总体方差,题目没说明一般用总体方差,不除以,避免公式混淆、系数出错。
变|式|巩|固
变式1.已知均值为10,方差为1,则的均值和方差分别为( )
A.20,2 B.21,2
C.21,4 D.20,4
【答案】C
【分析】利用均值和方差的性质可得结果.
【详解】因为均值为10,方差为1,
所以的均值为,方差为.
故选:C.
变式2.设一组样本数据的平均数为3,方差为4,则数据的标准差为( )
A.12 B.
C.6 D.36
【答案】C
【分析】根据方差的性质得到的方差,进而得到标准差.
【详解】的方差为4,故的方差为,
故标准差为.
故选:C
变式3.已知样本数据的平均数为,方差为,若样本数据的平均数为,方差为,则( )
A. B.1
C.2 D.4
【答案】A
【分析】由平均数和方差的运算性质即可求解.
【详解】由方差的性质,得的方差为,故,
解得.由,可知.
由平均数的性质,得的平均数为,
故,解得.
故选:A.
◇题型 05 分层样本的方差
典|例|精|析
典例1.某大学某专业开设了《数据分析》课程,在期末的“APM数据挖掘”项目中,老师从提交的作业中随机抽取了10份样本进行分析,其中选择类方向作为研究对象的有6人(记为组),选择类方向作为研究对象的有4人(记为组).已知组样本APM数据的平均数为120,方差为8,组样本APM数据的平均数为100,方差为8,则这10份样本APM数据的平均数和方差分别是( )
A.112,104 B.112,114
C.114,104 D.114,114
【答案】A
【分析】平均数的计算方法是所有数据的总和除以数据的总个数,由此可求得这10份样本APM数据的平均数,根据分组数据合并后的方差计算公式,即可求得方差.
【详解】由题意可得这10份样本APM数据的平均数为;
这10份样本APM数据的方差为
,
故选:A
典例2.已知某人收集一个样本容量为50的一组数据,并求得其平均数为70,方差为75,现发现在收集这些数据时,其中得两个数据记录有误,一个错将80记录为60,另一个错将70记录为90,在对错误的数据进行更正后,重新求得样本的平均数为,方差为,则( )
A. B.
C. D.
【答案】C
【分析】由平均数,方差计算公式可判断各选项正误.
【详解】设其他48个数据依次为,
则,因为,
因此平均数不变,即;又由方差计算公式可知:,
,
注意到,则.
故选:C.
典例3.某班同学身高的平均数为,方差为,其中女生身高的平均数为,方差为,男生身高的平均数为,方差为,下列说法错误的是( )
A.若,则 B.若,则
C.若,则 D.若,则
【答案】B
【分析】利用均值公式、方差公式逐项判断正误即可
【详解】选项A:,所以,若,则,
故选项A正确.
选项B:
,
所以
,不妨令则
,
故选项B错误.
选项C:若,则故选项C正确.
选项D:若,
因为,所以,
则.
又,
所
故选项D正确.
故选:B.
分层抽样求总方差时,不能直接将两层方差取平均。必须先算每层均值、总均值,再用两层均值与总均值的差平方加权,加上两层方差的加权和。易漏乘层的样本权重,或错用总均值代替层均值。注意区分总体分层方差与样本分层方差,不要混用公式。计算时分步写出每层数据、均值、权重,避免因合并计算导致结果错误。
变|式|巩|固
变式1.某动漫社团为了调查本校学生对新上映电影的喜好程度,对该校学生进行了满意度调查,其中男生共调查了600人,女生共调查了400人,男生平均给分4分,方差为1,女生平均给分3分,方差也为1.则调研对象总体方差为( )
A. B.
C. D.
【答案】D
【分析】根据分层平均数求出总体平均数,然后根据分层方差和总体方差的关系求解可得.
【详解】记男生平均给分为,方差为,女生平均给分为,方差为,
则,
所以总体平均数,
所以总体方差为.
故选:D
变式2.班级里有50名学生,在一次考试中统计出平均分为80分,方差为70,后来发现有3名同学的分数登错了,甲实际得60分却记成了75分,乙实际得80分却记成了90分,丙实际得90分却记成了65分,则关于更正后的平均分和方差分别是( )
A.82,73 B.80,73
C.82,67 D.80,67
【答案】B
【分析】根据更正前的平均分和方差,计算出其余同学的成绩和以及他们每人成绩和平均值差的平方和,结合平均数以及方差的计算公式,即可求得答案.
【详解】设更正前甲,乙,丙以及其余同学的成绩依次为,
则,即,
则;
,
则,
更正后平均分:,
更正后方差
.
故选:B
变式3.某学校高三学生共有900人,其中男生500人,为获取该校高三学生的身高信息,现采用按性别比例分配的分层随机抽样的方法,抽取了容量为90的样本.计算得男生样本的身高均值为170,方差为19,女生样本的身高均值为161,方差为19,则下列说法正确的是( )
A.抽取男生的样本量为40
B.估计该校高三学生身高的均值为165
C.抽样时女生甲被抽到的概率为
D.估计该校高三学生身高的方差为19
【答案】C
【分析】应用分层抽样判断A,应用分层抽样的均值及方差计算判断B,D,再应用分层抽样的概率计算判断C.
【详解】某学校高三学生共有900人,其中男生500人,采用按性别比例分配的分层随机抽样的方法,抽取了容量为90的样本.
则抽取男生的样本量为,A选项错误;
男生样本的身高均值为170,方差为19,女生样本的身高均值为161,方差为19,
则估计该校高三学生身高的均值为,B选项错误;
抽样时女生甲被抽到的概率为,C选项正确;
估计该校高三学生身高的方差为,D选项错误;
故选:C.
◇题型 06 统计中的逻辑推理
典|例|精|析
典例1.四名同学各投骰子5次,分别记录每次骰子出现的点数,根据四名同学的统计结果,可以判断出一定没有出现点数的是( )
A.平均数为,极差为 B.中位数为,众数为
C.平均数为,方差为 D.平均数为,中位数为
【答案】D
【分析】举反例可以逐一判断A、B、C是错误的,逻辑推理即可判断D选项.
【详解】对于A,数据为2,4,5,5,6,A错误;
对于B,数据为3,3,4,5,6,B错误;
对于C,数据为1,2,2,4,6,C错误;
对于D,所有数据和为15,中位数为4,如果出现6,那么其余三个数的和为5,且其中有一个数至少为4,这组数据不可能,D正确;
故选:D.
典例2.甲、乙、丙、丁四位同学分别记录了5个正整数数据,根据下面四名同学的统计结果,可以判断出所有数据一定都不小于20的同学人数是( )
甲同学:中位数为22,众数为20
乙同学:中位数为25,平均数为22
丙同学:第40百分位数为22,极差为2
丁同学:有一个数据为30,平均数为24,方差为10.8
A.1 B.2 C.3 D.4
【答案】C
【分析】利用中位数、众数、平均数百分位数及方差的意义逐项分析判断.
【详解】甲同学的5个数据的中位数为22,众数为20,则数据中必有20,20,22,余下两个数据都大于22,
且不相等,所有数据一定都不小于20;
乙同学的5个数据的中位数为25,平均数为22,当5个数据为17,18,25,25,25时,
符合题意,而有小于20的数,不满足所有数据一定都不小于20;
丙同学的5个数据的第40百分位数为22,极差为2,则5个数据由小到大排列后第二和第三个
数只可能是22,22或21,23,由极差为2知,所有数据一定都不小于20;
丁同学的5个数据中有一个数据为30,平均数为24,设其余4个数据依次为,
则方差
,若中有小于20的数,
,不符合题意,因此均不小于20,5个数21,21,24,24,30可满足条件,
所以可以判断所有数据一定都不小于20的同学为甲、丙、丁三位同学.
故选:C
注意区分“一定成立” 与 “可能成立”:
平均数变大,方差不一定变大;数据去掉最大值,平均数一定减小,但中位数、众数不一定变。百分位数只与位置有关,与极端值无关。方差为 0,则所有数据一定相等;方差变大,平均数不一定改变。众数不变,平均数、中位数可任意变化。命题常设置 “一定”“都”“必然” 等绝对化表述,要逐一验证,不凭直觉判断。
变|式|巩|固
变式1.甲、乙、丙、丁对某组数据(该组数据由5个整数组成)进行分析,得到以下数字特征,则不能判断这组数据一定都小于12的是( )
A.甲:中位数为9,众数为11 B.乙:中位数为9,极差为3
C.丙:平均数为8,极差为4 D.丁:平均数为8,方差为3
【答案】B
【分析】通过理解中位数,众数,极差,平均数,方差的概念及相关知识,再对5个数据进行举例假设分析,即可得到判断.
【详解】对于A,中位数为9,众数为11,说明11至少有两个数,不妨取两个11,
则由中位数可知另外两个数肯定不超过9,故A能判断这组数据都小于12,所以不能选A;
对于B,中位数为9,极差为3,由于极差是5个数中最大与最小的差,
由于该组数据由5个整数组成,所以不妨取4个9,1个12,这样不能判断该组数据一定小于12,故选B;
对于C,平均数为,极差为,由于个数都是整数,根据条件可知,这个数中肯定最大数与最小数的差为,则可知最大数肯定大于,最小数肯定小于,故最小数加得最大数肯定小于,从而能判断这组数据一定都小于12,故不能选C;
对于D,平均数为8,方差为3,由方差公式可得,
若存在数12,则
,这与方差为3相矛盾,所以最大数也一定小于12,故不能选D;
故选:B.
变式2.获得该校“三好学生”称号,还要求学生在近期连续3次大型考试中,每次考试的名次都在全校前5名(每次考试无并列名次).现有甲、乙、丙、丁四位同学都获得了“三好学生”称号,四位同学在近期连续3次大型考试名次的数据分别为
甲同学:平均数为3,众数为2;乙同学:中位数为3,众数为3;
丙同学:众数为3,方差小于3;丁同学:平均数为3,方差小于3.
则一定符合推荐要求的同学有( )
A.甲和乙 B.乙和丁
C.丙和丁 D.甲和丁
【答案】D
【分析】由平均数、中位数、众数、方差的概念结合每次考试的名次都在全校前5名,逐个分析判断即可;
【详解】对于甲同学,平均数为3,众数为2,则3次考试的成绩的名次为2,2,5,满足要求;
对于乙同学,中位数为3,众数为3,
可举反例:3,3,6,不满足要求;
对于丙同学,众数为3,方差小于3,
可举特例:3,3,6,则平均数为4,
方差,不满足要求;
对于丁同学,平均数为3,方差小于3,设丁同学3次考试的名次分别为,
若中至少有一个大于等于6,
则方差,与已知条件矛盾,所以均不大于5,满足要求.
故选:D
变式3.四名同学各掷骰子7次,分别记录每次骰子出现的点数,根据名同学的统计结果,可以判断出一定没有出现点数的是( )
A.平均数为,中位数为 B.中位数为,众数为
C.平均数为,方差为 D.中位数为,方差为
【答案】C
【分析】根据题意举出反例,即可得出正确选项.
【详解】对于A,当投掷骰子出现结果为1,2,3,4,6,6,6时,满足平均数为4,中位数为4,可以出现点数6,故A错误;
对于B,当投掷骰子出现结果为3,3,3,4,4,5,6时,满足中位数为4,众数为3,可以出现点数6,故B错误;
对于C,若平均数为3,且出现6点,则方差,
∴平均数为3,方差为1时,一定没有出现点数6,故C正确;
对于D,当投掷骰子出现结果为2,2,3,3,6,6,6时,满足中位数为3,
平均数为:
方差为,可以出现点数6,故D错误.
故选:C.
变式4.一段时间内没有大规模集体流感的标志为“连续10天,每天新增病例不超过7人”,根据过去10天甲、乙、丙、丁四地新增病例数据,一定符合该标志的是( )
A.甲地:平均数为3,中位数为4
B.乙地:平均数为1,方差大于0
C.丙地:中位数为2,众数为3
D.丁地:平均数为2,方差为3
【答案】D
【分析】对于AB,通过总体均值可知10天新增病例总数,由此可判断,对于C,知道中位数及众数不能确定某一天新增病例是否超过7人,对于D,知道总体均值与方差,假设某一天新增病例超过7人,通过计算方差可判断.
【详解】对于A,通过总体均值可知10天新增病例总数为30,因为中位数为4,所以没法确定某一天新增病例是否超过7人,所以A错误,
对于B,通过总体均值可知10天新增病例总数为10,因为总体方差大于0,所以没法确定某一天新增病例是否超过7人,所以B错误,
对于C,知道中位数及众数不能确定某一天新增病例是否超过7人,所以C错误,
对于D,知道总体均值为2,假设某一天新增病例超过7人,则方差会大于3,所以可以判断“连续10天,每天新增病例不超过7人”,所以D正确,
故选:D
◇题型 07 相关系数和决定系数
典|例|精|析
典例1.有一散点图如图所示,在5个数据中去掉后,下列说法错误的是( )
A.残差平方和变小
B.相关系数变大
C.决定系数变大
D.解释变量与响应变量的相关性变弱
【答案】D
【分析】利用散点图分析数据,判断相关系数,相关指数,残差的平方和的变化情况.
【详解】从散点图可分析出,若去掉D点,
则解释变量x与响应变量y的线性相关性变强,且是正相关,
所以相关系数r变大,决定系数变大,残差平方和变小,
故选:D.
典例2.(多选)下列命题中,真命题的是( )
A.数据,,,,,,,的第百分位数是;
B.若回归方程为,则变量与成负相关
C.若随机变量服从正态分布,,则
D.在线性回归分析中相关指数用来刻画回归的效果,若值越小,则模型的拟合效果越好
【答案】AB
【分析】对于A,结合百分位数计算方法,即可求解;对于B,结合回归方程的相关性的性质,即可求解;对于C,结合正态分布的对称性,
即可求解;对于D,结合线性回归分析中相关指数的定义,即可求解.
【详解】对于A:将,,,,,,,排序为,,,,,,,,
,所以第百分位数是第个数,即为,故A正确,
对于B,回归方程为,
又,变量与成负相关,故B正确,
对于C,随机变量服从正态分布,,
,
故,故C错误,
对于D,线性回归分析中相关指数用来刻画回归的效果,若值越大,说明模型的拟合效果越好,故D错误.
故选:AB.
相关系数反映线性方向与强弱,正相关,负相关;决定系数表示拟合效果,恒非负,越接近 1 拟合越好。注意:,但不能由反推的正负。不要混淆 “相关强弱”与“因果关系”,不要把拟合好当作一定正确预测。题目常给让判断相关性,切记只能说强弱,不能判断正负。
变|式|巩|固
变式1.对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【答案】B
【分析】根据散点图点的变化关系确定正负相关性即可.
【详解】由变量,的散点图,知随增大,也增大,变量与正相关,
由变量,的散点图,知随增大,减小,与负相关.
故选:B
变式2.(多选)已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
【答案】AC
【分析】由回归方程过样本中心点即可求解判断A;由回归方程和残差定义即可逐项分析求解判断BCD.
【详解】依题意,,
将代入中,解得,故A正确;
可以估计每增加1个月份,月利润提高2.4万元,故B错误;
将代入中,得到,故C正确;
将代入中,得到,则所求残差为,故D错误.
故选:AC.
变式3.(多选)下列关于成对数据统计的表述中,正确的是( )
A.成对样本数据的经验回归直线一定经过点
B.依据小概率事件的验立性检验对零假设进行检验,根据列联表中的数据计算发现,由可推断不成立,即认为和不独立,该推断犯错误的概率不超过0.1
C.在残差图中,残差点的分布随解释变量增大呈现扩散的趋势,说明残差的方差是一个常数,满足一元线性回归模型对随机误差的假设
D.决定系数越大,表示残差平方和越小,即模型的拟合效果越好
【答案】AD
【分析】A线性回归方程必过样本中心点;B由独立性检验的知识可判断;C由残差的意义可判断;D由决定系数的意义可判断.
【详解】对于A,成对样本数据的经验回归直线一定经过点,故A正确;
对于B,因为,由可推断成立,
即认为和独立,故B错误;
对于C:在残差图中,残差点的分布随解释变量增大呈现扩散的趋势,说明残差的方差不是一个常数,不满足一元线性回归模型对随机误差的假设,故C错误;
对于D:决定系数越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.
故选:AD.
◇题型 08 等高堆积条形图
典|例|精|析
典例1.(多选)为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻的经常性有影响,随机抽取了300名学生,对他们是否经常锻炼的情况进行了调查,调查发现经常锻炼人数是不经常锻炼人数的2倍,绘制其等高堆积条形图,如图所示,则( )
A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多
B.从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为
C.依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1
D.假设调查人数为600人,经常锻炼人数与不经常锻炼人数的比例不变,统计得到的等高堆积条形图也不变,依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05
附:,
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】ABD
【分析】由题意计算出男生中经常锻炼的人数以及不经常锻炼的人数,即可判断A;根据古典概型的概率公式可判断B;列出列联表,根据独立性检验的方法可判断C,D.
【详解】对于A,由题意知经常锻炼人数是不经常锻炼人数的2倍,
故经常锻炼人数为200人,不经常锻炼人数为100人,
故男生中经常锻炼的人数为人,不经常锻炼的人数为人,
故男生中经常锻炼的人数比不经常锻炼的人数多,A正确;
对于B,经常锻炼的女生人数为人,不经常锻炼的人数为人,
故从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为,B正确;
对于C,由题意结合男女生中经常锻炼和不经常锻炼的人数,可得列联表:
经常锻炼
不经常锻炼
合计
男
100
60
160
女
100
40
140
合计
200
100
300
则,
故依据的独立性检验,不能认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1,C错误;
对于D,由题意可得:
经常锻炼
不经常锻炼
合计
男
200
120
320
女
200
80
280
合计
400
200
600
则此时,
故依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05,D正确,
故选:ABD
等高堆积条形图高度总和为 1,纵轴是频率 / 比例,不是频数。判断两变量是否有关,看同类别不同段比例差异,比例差距越大关联性越强。易把高度当数量,忽略比例本质;看错组别、混淆颜色对应类别。不能仅凭直观判断,需结合比例差分析。注意与普通条形图区分,不混用频率与频数,避免因读图错误导致独立性检验思路跑偏。
变|式|巩|固
变式1.为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
【答案】B
【分析】根据等高条形图中的数据即可得出选项.
【详解】根据两个表中的等高条形图知,药物实验显示不服药与服药时患病差异较药物实验显示明显大,
所以药物的预防效果优于药物的预防效果,
故选:B.
变式2.为了发展学生的兴趣和个性特长,培养全面发展的人才.某学校在不加重学生负担的前提下.提供个性、全面的选修课程.为了解学生对于选修课《学生领导力的开发》的选择意愿情况,对部分高二学生进行了抽样调查,制作出如图所示的两个等高条形图,根据条形图,下列结论正确的是( )
A.样本中不愿意选该门课的人数较多
B.样本中男生人数多于女生人数
C.样本中女生人数多于男生人数
D.该等高条形图无法确定样本中男生人数是否多于女生人数
【答案】B
【分析】根据等高条形图直接判断各个选项即可.
【详解】对于A,由图乙可知,样本中男生,女生都大部分愿意选择该门课,
则样本中愿意选该门课的人数较多,A错误;
对于BCD,由图甲可知,在愿意和不愿意的人中,都是男生占比较大,
所以可以确定,样本中男生人数多于女生人数,B正确,CD错误.
故选:B.
变式3.某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是( )
0.05
0.01
3.841
6.635
参考公式:,.
A.参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
D.无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
【答案】C
【分析】A选项,根据男生女生参加调查人数相同和喜欢攀岩的人数比例,得到喜欢攀岩的男生人数比喜欢攀岩的女生多;B选项,参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,从而作出判断;C选项,列出列联表,计算卡方,与6.635比较大小得到结论;D选项,如果不确定参与调查的男、女生人数,无法计算,故D选项错误.
【详解】对于选项A:因为参加调查的男、女生人数相同,而男生中喜欢攀岩的占80%,女生中喜欢攀岩的占30%,所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,所以选项A错误;
对于选项B:参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,所以参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,所以选项B错误;
对于选项C:若参与调查的男、女生人数均为100人,根据图表,列出2×2列联表如下:
喜欢
不喜欢
合计
男
80
20
100
女
30
70
100
合计
110
90
200
所以,
所以在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关,C正确;
对于选项D:如果不确定参与调查的男、女生人数,无法计算,D错误.
故选:C.
◇题型 09 独立性检验
典|例|精|析
典例1.某中学的两位学生A与B为研究高三年级学生的性别和身高是否大于170cm的关联性,对该中学的高三学生进行了调查.A同学调查了所有高三学生,并整理得到等高堆积条形图,如图(一);B同学从所有高三学生中获取容量为40的有放回简单随机样本,也整理得到列联表,如表(一).
表(一)单位:人
性别
身高
合计
低于170cm
不低于170cm
女
14
7
21
男
8
11
19
合计
22
18
40
(1)请根据A同学的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联,如果结论是有关联,解释它们之间如何相互影响;
(2)根据B同学的列联表,依据的独立性检验,该中学高三年级学生的性别和身高是否有关联,并解释所得结论的实际含义;
(参考公式及数据:,临界值)
(3)请比较(1)和(2)的统计结论是否一致,说明原因.
【答案】(1)有关联,女生更倾向于身高低于170 cm,男生更倾向于身高不低于170 cm.
(2)无关联,实际含义见解析
(3)不一致,原因见解析
【分析】(1)通过观察等高堆积条形图中男女身高分布的差异,若男生中不低于170cm的比例明显高于女生,则判断两者有关联;
(2)通过计算样本列联表的卡方统计量,与临界值比较,从而判断是否拒绝“性别与身高无关联”的原假设;
(3)通过对比基于总体的描述性分析与基于样本的推断性检验的结论,指出因样本容量较小产生的抽样误差可能导致两种结论不一致.
【详解】(1)有关联,根据等高堆积条形图可知,女生中身高低于170 cm的比例明显高于男生,
而男生中身高不低于170 cm的比例明显高于女生,
故该中学高三年级学生的性别与身高有关联.具体表现为女生更倾向于身高低于170 cm,男生更倾向于身高不低于170 cm.
(2)由题意得,零假设:该中学高三年级学生的性别与身高无关联,
由列联表可得,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为该中学高三年级学生的性别和身高没有关联,
实际意义是根据该样本数据,不能认为性别对身高是否大于170cm有显著影响,二者可视为相互独立.
(3)(1)与(2)的结论不一致,
A同学调查了所有高三学生,能真实反映总体状况,
若总体中确实存在关联,则其结论可靠;
B同学仅从所有高三学生中获取容量为40的有放回简单随机样本,
样本量较少,并且抽样具有随机性,而独立性检验受样本容量影响较大,
当样本量较少时,独立性检验可能导致检验功效不足,未能检测出总体中实际存在的关联性.
列联表务必按2×2 规范格式填写,别混淆行、列变量。公式计算时分子、分母别错位,避免算错。判断时要与题目给出的临界值对比,不凭记忆乱套数值。结论表述要严谨:大于临界值是 “在犯错误概率不超过… 前提下认为有关”,小于则是 “无充分证据认为有关”,不能说 “无关”。严禁把统计关联当成因果关系,不绝对化表述。
变|式|巩|固
变式1.为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)
(2)有关
【分析】(1)根据古典概型的概率公式即可求出;
(2)根据独立性检验的基本思想,求出,然后与小概率值对应的临界值比较,即可判断.
【详解】(1)根据表格可知,检查结果不正常的人中有人患病,所以的估计值为;
(2)零假设为:超声波检查结果与患病无关,
根据表中数据可得,,
根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.
变式2.为了探究学生完成数学作业情况与成绩之间的联系,某学校采用按比例分层抽样的方式得到200名学生的测验成绩,样本中认真完成作业的学生成绩频率分布直方图如图1所示.若认为成绩不低于120分为优秀,且数学成绩为优秀的学生年级分布扇形图如图2所示,已知样本中高三年级有15位同学成绩为优秀,且在所有数学成绩为优秀的学生中,认真完成作业的学生占.
(1)求a的值,并且计算出样本中认真完成作业的学生成绩的下四分位数;
(2)根据样本数据完成下方列联表,依据小概率值的独立性检验,分析认真完成作业与成绩是否有关.
认真完成作业
不认真完成作业
成绩优秀
成绩不优秀
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1),下四分位数
(2)有关
【分析】(1)利用频率分布直方图各组频率之和为的性质,列出方程求解参数值;再根据百分位数的定义,通过累计频率确定下四分位数所在的区间,并用插值法计算该分位数;
(2)根据分层抽样和条件概率完成列联表,再代入卡方公式计算检验统计量,与临界值比较以判断独立性;最后通过计算两组学生的优秀率并对比,进一步验证独立性检验的结论.
【详解】(1)根据频率分布直方图的性质,所有组频率和为,组距为,
因此:,解得:,
下四分位数即第百分位数,计算累计频率
频率,累计;频率,累计;
频率,累计;频率,累计。
,因此第百分位数在区间内,
计算得:下四分位数
(2)零假设:认真完成作业与成绩无关
认真完成作业
不认真完成作业
成绩优秀
成绩不优秀
,因为,
依据小概率值的独立性检验,零假设不成立,即认真完成作业与成绩有关,
该判断出错概率不超过0.001,
认真完成作业的学生中成绩优秀的频率为0.4,
不认真完成作业的学生中成绩优秀的频率为0.1,
可以发现认真完成作业的学生成绩优秀的频率是不认真完成作业的学生的4倍,差异显著.
变式3.某工厂推出一款新产品,为了调查顾客对该新产品的满意程度,厂家分别对甲地的300名使用者和乙地的200名使用者进行问卷调查,统计并得到如下列联表:
甲地使用者
乙地使用者
合计
不满意
100
50
150
满意
200
150
350
合计
300
200
500
(1)根据小概率值的独立性检验,分析使用者的满意度是否与区域有关;
(2)从使用该产品不满意的顾客中,采用分层抽样的方法随机抽取9名使用者,再从这9名使用者中随机抽取4人进一步调研,记4人中乙地人数为,求的分布列和数学期望.
附录:.
0.15
0.1
0.05
0.025
0.01
0.001
2.072
2.706
3.841
5.024
6.635
10.828
【答案】(1)认为使用者的满意度与区域无关
(2)分布列见解析,
【分析】(1)提出零假设,计算卡方值,将其与小概率值对应的临界值比较即得结果.
(2)求出抽样比,确定所抽取的9名使用者中,甲地与乙地使用者的人数,依题意确定的可能值,利用超几何分布概率公式求出相应的概率,列出分布列,计算数学期望即可.
【详解】(1)零假设为:使用者的满意度与区域无关,代入列联表中的数据可得:
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,
故可认为使用者的满意度与区域无关.
(2)从使用该产品不满意的顾客中,采用分层抽样的方法,得到甲地使用者与乙地使用者的抽样比为,
则9名使用者中甲地6人、乙地3人.
因为4人中乙地人数为,所以的可能取值为,其对应的概率分别为:
,
,
的分布列为:
0
1
2
3
故数学期望为
◇题型 10 经验回归方程
典|例|精|析
典例1.2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
(日)
1
2
3
4
5
(万人)
45
50
60
65
80
(1)计算的相关系数(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,设重复进行三次抽奖中恰有一次中奖的概率为,当取多少时,最大?
参考公式:,,,
参考数据:.
【答案】(1),可以认为两者的相关性很强
(2)
(3)当时,恰有一次中奖的概率最大
【分析】(1)根据相关系数的公式计算并判断;
(2)根据公式求出,得解;
(3)根据题意可得,判断的单调性可得,即,由二项分布得,利用导数求出最大值.
【详解】(1)因为,
所以
,
,
,
所以,
由此可以认为两者的相关性很强.
(2)由(1)知,.
所以=.
因为,所以回归方程为.
(3)记,
,
,即.
,令,
则,得,,,,
所以在上单调递增,在上单调递减,
当时,取得最大值.由,解得或(舍去),
当时,恰有一次中奖的概率最大.
【点睛】关键点睛:本题第三问,解题的关键是根据题意列出的表达式,并判断单调性求出的范围,利用二项分布求出,借助导数求出最大值.
典例2.已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度(单位),对某种鸡的时段产蛋量(单位:)和时段投入成本(单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度和产蛋量的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值.
17.40
82.30
3.6
140
9.7
2935.1
35.0
其中,.
(1)根据散点图判断,与哪一个更适宜作为该种鸡的时段产蛋量关于鸡舍时段控制温度的回归方程类型?(给判断即可,不必说明理由)
(2)若用作为回归方程模型,根据表中数据,建立关于的回归方程;
(3)已知时段投入成本与的关系为,当时段控制温度为时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?
附:①对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,
②
0.08
0.47
2.72
20.09
1096.63
【答案】(1)适宜
(2)
(3)
【分析】(1)散点图的变化趋势不是线性的,所以更适宜;
(2)对函数两边取对数得,再根据数据可得,即可得到答案;
(3)将代入回归方程即可求鸡的时段产蛋量,继而求出时段投入成本的预报值.
【详解】(1)适宜;
(2)由得,
令,,,
由图表中的数据可知,,
所以,
则关于的回归方程为;
(3)时,由回归方程,,
即鸡舍的温度为时,即的时段产量的预报值为,投入的陈本预报值为.
回归直线必过样本中心点,求截距时一定要用此式,不可直接用原始数据计算。注意区分与的位置,不要写反方程。回归方程只表示线性相关,不代表因果关系,预测时不可过度外推。相关系数定方向,决定系数看拟合效果,不要混淆。计算时保留足够小数位,避免四舍五入误差导致结果偏差。
变|式|巩|固
变式1.自2021年以来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧,某地区电动汽车保有量呈现快速增长趋势,下表给出了近5年该地区的电动汽车保有量(单位:万辆).
年份
2021
2022
2023
2024
2025
年份编号
1
2
3
4
5
电动汽车保有量
1.5
2.5
4.9
7.8
若用作为该数据的回归直线模型,并已求得,
(1)结合已知数据求出2023年该地区的电动汽车保有量,并预测2030年该地区的电动汽车保有量;
(2)若已知,求此模型下的决定系数(精确到0.01).
参考公式及数据:一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,决定系数.
【答案】(1)3.4万辆,14.52万辆.
(2)0.93
【分析】(1)首先根据回归直线方程过样本点中心,根据求2023年汽车的保有量;
(2)首先求的值,再代入决定系数公式,即可求解.
【详解】(1)由题意可得,且,
所以,
所以2023年电动汽车保有量万辆.
2030年对应的年份编号为10,代入回归直线方程,可求得.
即在2030年时,电动汽车保有量可能为14.52万辆.
(2),
所以决定系数.
变式2.近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆)
年份
2021
2022
2023
2024
年份代号
1
2
3
4
销量
33
69
93
129
附:相关系数;
回归方程中斜率和截距的最小二乘法估计公式分别为,
(1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001)
(2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量.
【答案】(1)与具有较强的线性相关关系
(2),(千辆)
【分析】(1)根据题干所给数据算出,,,代入相关系数计算公式计算即可;
(2)根据(1)算出的结果进一步算出,再根据线性回归方程经过计算,最后把代入回归直线方程即可求解.
【详解】(1)已知,,则,
,则,
,,所以,
已知,故,
又,代入相关系数公式,
可得,
因为,所以与具有较强的线性相关关系.
(2)根据,
由(1)可知,,所以,
由,已知,,,则,
所以关于的线性回归方程为,将代入线性回归方程(千辆).
变式3.泉州少年郎团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的经济收入(单位:百万元)的数据如下表:
月份编号
1
2
3
4
5
6
7
收入(百万元)
6
11
21
34
66
101
196
(1)根据以上数据绘制散点图,并根据散点图判断,与(均为大于零的常数)哪一个适宜作为该团队经济收入y关于月份x的回归方程模型?(给出判断即可,不必说明理由)并根据你的判断结果及表中的数据,求出y关于x的回归方程;
(2)请你根据所求的回归方程,预测该团队下一个月的经济收入;
(3)试从统计学角度分析,如果用所求的回归方程预测该团队接下来1年的经济收入情况是否合理?
参考数据:
435
10.78
2535
50.12
2.82
3.47
其中设,
参考公式:,.
【答案】(1)适宜,
(2)347百万元
(3)不合理
【分析】(1)看到形式,通过取对数转化成的形式,把复杂形式变简单.算出的均值、的均值和这些值.用公式算出,再把样本中心点代入求出,进而得到回归方程.
(2)把代入回归方程,算出对应的值,得到预测收入.
(3)经验回归方程有时效性,所以判断预测不合理.
【详解】(1)散点图如图所示,
根据散点图判断,适宜作为5G经济收入y关于月代码x的回归方程类型,
,两边同时取常用对数得:,
设,,
,
,
,
,
把样本中心点代入,得:,
,,
,
y关于x的回归方程:.
(2)当时,,
所以预测该公司2025年5月份的经济收入估计为347百万元.
(3)不合理,经验回归方程一般具有时效性,解释变量越接近样本数据,预测值比较可信,否则会有显著误差.
变式3.某公司统计了该公司销售部员工工龄(单位:年)与一年中的月均销售额(单位:万元)的数据,得到下面的散点图及一些统计量的值.
15.1
4.84
24.2
94.9
155.5
82.5
表中.
(1)由散点图知,可用经验回归方程拟合y与x的关系,试根据提供的有关数据,预测月均销售额超过20万元的工龄最小值;
(2)该公司为激励销售部员工,规定每月的销售冠军奖励1万元,其他名次无奖励.甲为该公司销售部的员工,他在第一季度(每年的前3个月)的第一个月成为销售冠军的概率为,从第二个月开始,若上个月不是销售冠军,则这个月为销售冠军的概率为;若上个月为销售冠军,则这个月仍为销售冠军的概率为.求他在第一季度所得奖励金额X的分布列和数学期望.
附:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,,,,,,.
【答案】(1)12
(2)分布列见解析,0.87
【分析】(1)设,则,计算出、的值,将数据代入最小二乘法公式,求出、的值,可得出关于的经验回归方程,进而得到关于的经验回归方程,根据提供的数据即可得解;
(2)确定随机变量取值,计算出随机变量在不同取值下的概率,得出随机变量的分布列,进而运用期望公式可求解.
【详解】(1)设,则,则,
,
因为,,
所以经验回归方程为,
因为,,在区间内单调递增,
所以预测月均销售额超过20万元的工龄最小值为12.
(2)由题意得的可能取值为0,1,2,3,
记甲在第一季度的第月成为销售冠军为事件,
则,
,
,
的分布列为
0
1
2
3
,
所以甲在第一季度所得奖励金额的数学期望为0.87万元.
一、单项选择题
1.某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理如下表
亩产量
[900,950)
[950,1000)
[1000,1050)
[1050,1100)
[1100,1150)
[1150,1200)
频数
6
12
18
30
24
10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
【答案】C
【分析】计算出前三段频数即可判断A;计算出低于1100kg的频数,再计算比例即可判断B;根据极差计算方法即可判断C;根据平均值计算公式即可判断D.
【详解】对于A,根据频数分布表可知,,
所以亩产量的中位数不小于,故A错误;
对于B,亩产量不低于的频数为,
所以低于的稻田占比为,故B错误;
对于C,稻田亩产量的极差最大为,最小为,故C正确;
对于D,由频数分布表可得,平均值为,故D错误.
故选;C.
2.在一组样本数据中,1,2,3,4出现的频率分别为,且,则下面四种情形中,对应样本的标准差最大的一组是( )
A. B.
C. D.
【答案】B
【分析】根据标准差最大,即方差最大,应用方差求法求出各项对应的方差,即可得.
【详解】由标准差最大,即方差最大,
A:平均数为,则方差为,
B:平均数为,则方差为,
C:平均数为,则方差为,
D:平均数为,则方差为,
综上,B的标准差最大.
故选:B
3.某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
【答案】A
【分析】首先设出新农村建设前的经济收入为M,根据题意,得到新农村建设后的经济收入为2M,之后从图中各项收入所占的比例,得到其对应的收入是多少,从而可以比较其大小,并且得到其相应的关系,从而得出正确的选项.
【详解】设新农村建设前的收入为M,而新农村建设后的收入为2M,
则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不正确;
新农村建设前其他收入我0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项正确;
新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项正确;
新农村建设后,养殖收入与第三产业收入的总和占经济收入的,所以超过了经济收入的一半,所以D正确;
故选A.
点睛:该题考查的是有关新农村建设前后的经济收入的构成比例的饼形图,要会从图中读出相应的信息即可得结果.
4.某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【分析】求得卡方值,比对临界值,逐个判断即可.
【详解】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
5.在北京冬奥会上,国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术,为实现绿色冬奥作出了贡献.如图描述了一定条件下二氧化碳所处的状态与T和的关系,其中T表示温度,单位是K;P表示压强,单位是.下列结论中正确的是( )
A.当,时,二氧化碳处于液态
B.当,时,二氧化碳处于气态
C.当,时,二氧化碳处于超临界状态
D.当,时,二氧化碳处于超临界状态
【答案】D
【分析】根据与的关系图可得正确的选项.
【详解】当,时,,此时二氧化碳处于固态,故A错误.
当,时,,此时二氧化碳处于液态,故B错误.
当,时,与4非常接近,故此时二氧化碳处于固态,对应的是非超临界状态,故C错误.
当,时,因,故此时二氧化碳处于超临界状态,故D正确.
故选:D
6.下列说法正确的序号是( )
①在回归直线方程中,当解释变量x每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知X,Y是两个分类变量,若它们的随机变量的观测值k越大,则“X与Y有关系”的把握程度越小;
④已知随机变量服从正态分布,且,则.
A.①②③ B.②③④
C.②④ D.①②④
【答案】D
【分析】根据回归方程的定义和性质即可判断①②;随机变量的观测值越小,则“与有关系”的把握程度越小,即可判断③;根据正态曲线的对称性即可判断④
【详解】对于①,在回归直线方程中,
当解释变量每增加一个单位时,预报变量平均增加0.8个单位,故①正确;
对于②,用随机误差的平方和,即,
并使之达到最小,这样回归直线就是所有直线中取最小值的那一条,
由于平方又叫二乘,所以这种使“随机误差的平方和为最小”的方法叫做最小二乘法,
所以利用最小二乘法求回归直线方程,
就是使得最小的原理,故②正确;
对于③,对分类变量与,对它们的随机变量的观测值越小,
则“与有关系”的把握程度越小,故③错误;
对于④,随机变量服从正态分布,且,
则,故④正确.
故选:D.
7.为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则( )
A.< B.=
C.> D.、关系不能确定
【答案】A
【分析】根据残差点图分析拟合效果,从而得到答案.
【详解】根据残差点图,模型(2)残差点比较均匀地落在水平的带状区域中,带状区域宽度窄,拟合精度较高,所以<,
故选:A.
8.下列说法中,正确的命题的序号是( )
①.已知随机变量服从正态分布N(2,),,则
②.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则的值分别是和
③.若事件A与事件B互斥,则事件A与事件B独立
④.若样本数据的方差为2,则数据的方差为16
A.①④ B.③④ C.②③ D.①②
【答案】D
【分析】根据正态分布的对称性即可判断①;两边同时取对数可得,从而可得,结合题意即可判断②;根据互斥事件和相互独立事件的定义即可判断③;根据方差的定义和性质即可判断④.
【详解】解:对于①,因为N(2,),,
所以,故①正确;
对于②,两边同时取对数可得,
则,
又因,
所以,
所以,故②正确;
对于③,若事件A与事件B互斥,则事件A与事件B不会同时发生,
当事件A与事件B独立,两事件可以同时发生,故③错误;
若样本数据的方差为2,则数据的方差为,故④错误.
所以正确的为①②.
故选:D.
二、多项选择题
9.为保护学生视力、促进学生身心健康发展,某中学研究型学习小组从该校学生中按男、女生比例,采用分层随机抽样的方法选取了100名学生(其中男生60人,女生40人),调查他们每日使用手机的时间.若每日使用手机时间超过40分钟,则认为该生手机成瘾.根据统计数据得到如图所示的等高堆积条形图,用样本估计总体,用频率估计概率,下列说法正确的有( )
A.该校男生和女生人数之比为
B.如果从男生和女生各随机选取一名学生,那么男生手机成瘾的概率小于女生手机成瘾的概率
C.从该校学生中随机抽取一名学生,则该生手机成瘾的概率为
D.从该校学生中抽到一名手机成瘾的学生,则该生是男生的概率为
【答案】ABC
【分析】根据分层随机抽样的特点判断A;结合题意判断B;先求出样本中学生手机成瘾的频率,再利用频率估计概率即可判断C;根据条件概率求出从样本中抽样到一名手机成瘾的学生,该生是男生的概率,再用频率估计概率即可判断D.
【详解】根据分层随机抽样的抽样比可知,样本中男生和女生人数之比为,
用样本估计总体可知全校男生和女生人数之比为,故A正确;
样本中男生有手机成瘾,女生有手机成瘾,比例关系差异很大,
男生手机成瘾的概率小于女生手机成瘾的概率,故B正确;
结合样本数据以及等高堆积条形图可知,
男生中有人手机成瘾,女生中有人手机成瘾,
即样本的100人中有28人手机成瘾,所以样本中学生手机成瘾的频率为,
用频率估计概率可知,从该校学生中随机抽取一名学生,该生手机成瘾的概率为,
故C正确;
根据条件概率可知,在样本中抽样到一名手机成瘾的学生,该生是男生的概率为,
用样本估计总体可知该校学生中抽样到一名手机成瘾的学生,该生是男生的概率也为,
故D错误.
故选:ABC.
10.下列说法正确的是( )
A.若一组数据的方差为0.2,则的方差为
B.已知一组数据的平均数为5,则这组数据的中位数是5
C.这组数据的第80百分位数是80
D.将总体划分为两层,通过分层抽样,得到样本数为的两层样本,其样本平均数和样本方差分别为和,若,则总体方差
【答案】BCD
【分析】对于A,根据方差的线性运算直接计算可得,对于B,根据平均数可求,再利用中位数的定义可求,对于C,根据百分位数的求解步骤直接计算;对于D,利用分层抽样方差公式,再进行化简运算可得.
【详解】对于A的方差为,故A错误;
对于B,已知一组数据的平均数为5,则,即,
解得,则数据的中位数为,故B正确;
对于C,这组数据从小到大排列为:,
又,第8位数是78,第9位数是82,
故这组数据的第80百分位数是,故C正确;
对于D,设两层的数据分别为:和,
则,设总体平均数为,则,
因为,所以.因为,
所以,故D正确.
故选:BCD.
11.下列说法中,正确的是( )
A.一组数据的第75百分位数为16
B.若样本数据的方差为9,则的方差为1
C.已知随机变量服从正态分布,若,则
D.在独立性检验中,基于小概率值的独立性检验规则是:两个事件和,已知显著性水平对应的分位数为,当时,认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断和不独立,可以认为和独立
【答案】BD
【分析】根据百分位数的定义可判断A,根据方差的性质可判断B,根据正态分布曲线的对称性可判断C,根据独立性检验的性质可判断D.
【详解】对于A,因为,所以数据的第75百分位数为18,故A错误;
对于B,若样本数据,,的方差为9,则,,的方差为,故B正确;
对于C,因为,且,所以,所以,故C错误;
对于D,由独立性检验的性质可知,当时,认为和不独立,该推断犯错误的概率不超过:
当时,我们没有充分证据推断和不独立,可以认为和独立,故D正确.
故选:BD.
三、填空题
12.甲、乙两班参加了同一学科的考试,其中甲班50人,乙班40人.甲班的平均成绩为72分,方差为90;乙班的平均成绩为90分,方差为60.那么甲、乙两班全部90名学生的平均成绩是__________分,方差是_________.
【答案】
【分析】根据平均数公式及方差公式计算可得.
【详解】甲、乙两班全部名学生的平均成绩为分,
方差为.
故答案为:;
13.由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为______.
【答案】
【分析】首先求剩余数据的中心点,再代入回归直线方程求,再代入求,即可求残差值.
【详解】由于回归直线过样本中心点,当时,,
去除偏离点后,剩余数据的中心点为,
则,,
将点的坐标代入回归直线方程,可得,解得,所以,新的回归直线方程为,当时,,
所以,去除偏离点后,相应于样本点的残差值为.
故答案为:.
14.下列命题中,正确的命题有__________.
①回归直线恒过样本点的中心,且至少过一个样本点;
②将一组数据的每个数据都加一个相同的常数后,方差不变;
③用相关指数来刻画回归效果,越接近,说明模型的拟合效果越好;
④用系统抽样法从名学生中抽取容量为的样本,将名学生从编号,按编号顺序平均分成组(号,号,号),若第组抽出的号码为,则第一组中用抽签法确定的号码为号.
【答案】②④
【详解】回归直线恒过样本点的中心,不须过样本点;①错误;将一组数据的每个数据都加一个相同的常数后,数据的波动性不变,故方差不变;②正确;用相关指数来刻画回归效果,越接近,说明模型的拟合效果越好;③错误;④中系统抽样方法是正确的.故本题应选②④.
四、解答题
15.某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长(分钟)和学生任务完成率的对应数据如下:
时长
20
24
28
32
36
40
完成率
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)能认为学生选择不同劳动教育课程与性别有关联
(2)①甲的计算公式计算为,乙的计算公式计算为,乙;②是,证明见解析
【分析】(1)根据所给条件计算出列联表中各项数据,再计算卡方统计量并与临界值比较判断零假设是否成立.
(2)①算出甲、乙的偏差系数.先求数据均值,再按甲、乙公式分别计算偏差系数,比较大小后发现乙对大偏差数据体现更明显.
②证明乙处理方式合理,也就是证.设,构造函数,由得二次函数判别式,进而推出不等式,令,最终证得.
【详解】(1)设男生有人,故,解得,
故男生中选择园艺课的人数为40人,又因为其有400人参加课程、
所以女生有200人,女生中选择家政课的人数为80人.
完善列联表,单位:人
课程
性别
合计
男
女
家政
160
80
140
园艺
40
120
160
合计
200
200
400
零假设为:选择不同劳动教育课程与性别无关联.
因为,
故依据小概率值的独立性检验,我们推断不成立,
即认为学生选择不同劳动教育课程与性别有关联,此推断犯错误的概率不大于0.001.
(2)①,
根据甲的计算公式计算:,故;
根据乙的计算公式计算:,
易知,因此乙的偏差系数大,从而乙对大偏差数据的存在体现更明显.
②采用①中对大偏差数据的存在体现更明显的数据处理方式,即乙的处理方式是合理的.
证明:不妨设,只需证明恒成立.
不妨设,为任意实数,
则,,欲证,则证即可,
即证即可,故证即可,
设函数,
结合完全平方公式得,则二次函数的,
可得,即,
从而对于原式,不妨令,得到,,
得到,即恒成立,
故此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是合理的.
1 / 14
学科网(北京)股份有限公司
$
专题22 统计与统计案例
目录
第一部分 研·考情精析 锁定靶心 高效备考
第二部分 理·方法技巧 梳理知识 总结技巧与方法
第三部分 攻·题型速解 典例精析+变式巩固
【题型01】平均数,中位数,众数,方差
【题型02】百分位数
【题型03】统计图表
【题型04】方差的性质计算
【题型05】分层样本的方差
【题型06】统计中的逻辑推理
【题型07】相关系数和决定系数
【题型08】等高堆积条形图
【题型09】独立性检验
【题型10】经验回归方程
第四部分 练·决胜冲刺 精选好题+通关训练
考向聚焦
本专题是高考必考基础板块,以小题 + 解答题组合呈现,侧重数据分析与实际应用,难度中等。小题常考分层抽样、统计图表解读、样本数字特征、相关系数判断;解答题以回归分析、独立性检验为核心,常结合生活、生产情境命题,要求建立回归方程并预测、依据 2×2 列联表完成卡方检验与推断。命题趋势强调图表信息提取、统计量实际意义理解,弱化复杂公式记忆,突出数据处理、数学建模核心素养。备考需熟练掌握图表计算、回归与检验步骤,规范作答表述,确保基础分不丢。
关键能力
需具备数据提取与图表转化能力,能从频率分布直方图、茎叶图、列联表中快速获取关键信息。熟练计算均值、方差、相关系数等统计量,理解其实际意义。掌握线性回归方程推导与应用,能完成参数计算、拟合效果判断及实际预测。具备独立性检验逻辑推理能力,规范完成卡方计算、临界值对比与结论表述。强调数学建模与数据分析素养,注重公式准确运用、步骤完整书写,避免计算失误与表述不规范,确保思路清晰、过程严谨。
备考策略
备考以稳基础、重规范、练速度为核心。先夯实抽样方法、统计图表、均值方差、回归方程、独立性检验五大基础点,做到公式不混淆、计算不出错。重点训练图表信息提取和实际情境建模,熟练解答题固定答题模板,确保步骤完整、表述规范。限时训练小题速度,保证选择填空快速拿分;解答题重点练卡方检验与回归分析书写逻辑,减少失分。回归教材例题与真题,总结常见陷阱,做到基础题全对、中档题稳拿,不丢步骤分。
◇方法技巧 01 统计与统计案例的常用方法
一、平均数、方差
直方图:均值=组中值 × 频率 求和;方差=(组中值-均值)²× 频率 求和。
技巧:先算均值,再算方差,分步列式,不跳步。
二、百分位数
数据从小到大排序
计算
整数:取第与个数的平均
非整数:向上取整,对应即为所求
技巧:看清是原始数据还是频数表。
三、相关系数
正相关;负相关
越接近,线性相关越强
技巧:看趋势判断方向强弱,一般不用硬算。
四、经验回归方程
必过中心点
先求,再求
预测:直接代入求
技巧:题目给就直接用,不用推导。
五、卡方检验
写清列联表
代入公式算
与临界值比较:
临界值:在犯错误概率不超过… 前提下,认为有关
反之:无充分证据认为有关
技巧:结论按模板写,不绝对化。
六、通用秒杀技巧
先读图 / 表,圈出关键数据
选择填空:估算、排除、特殊值
解答题:公式 + 列式 + 结果 + 结论,步骤写全不丢分
◇题型 01 平均数,中位数,众数,方差
典|例|精|析
典例1.某气象爱好者为了解本地冬季的气温变化规律,特记录了本地过去10天的最低气温的数据(单位:℃),结果如下:7,7,5,2,3,6,6,7,4,3,则这10天的最低气温的( )
A.极差为4 B.中位数为6
C.平均数为5 D.方差为3
典例2.(多选)在某校文艺汇演中,六位评委对某小品节目进行打分,得到一组分值7.7,8.1,8.2,8.7,9.4,9.9,若去掉一个最高分和一个最低分,则( )
A.这组分值的极差变小 B.这组分值的均值变大
C.这组分值的方差变小 D.这组分值的第75百分位数不变
注意区分原始数据、频数表、频率分布直方图三种题型。直方图中众数为最高矩形中点,中位数是左右面积相等处,平均数为组中值乘频率求和,不可混淆。方差计算易漏乘频数或频率,数据多时要分步算。异常值会显著拉高 / 拉低平均数,但对中位数、众数影响小,判断集中趋势时要结合实际。单位统一、看清总体与样本,避免因粗心看错数据、算错平方导致失分。
变|式|巩|固
变式1.某老师对比甲、乙两名学生最近5次数学月考成绩,甲:,乙:,则下列结论正确的是( )
A.甲成绩的平均数较小 B.乙成绩的中位数较大
C.乙成绩的极差较大 D.乙比甲的成绩稳定
变式2.有一组样本数据:,,,,,,,,则下列关于该组数据的数字特征中,数值最大的为( )
A.中位数 B.平均数
C.极差 D.众数
变式3.一组数据从小到大依次为3,5,6,7,8,9,m,10,11,13,且众数为9,下列说法错误的是( )
A. B.中位数为8.5
C.平均数为8 D.极差为10
◇题型 02 百分位数
典|例|精|析
典例1.有一位射击运动员在一次射击测试中射靶10次,记录每次命中的环数,得到如下一组数据:7,8,7,9,5,6,9,10,7,4.则这组数据的第25百分位数为( )
A.5.5 B.6
C.8.5 D.9
典例2.本学期某校举行了有关垃圾分类知识竞赛,随机抽取了100名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,则( )
A.图中的值为0.020
B.估计样本数据的众数值为90
C.估计样本数据的第分位数为95
D.估计样本数据的平均数大于中位数
计算百分位数前必须先将数据从小到大排序,否则结果全错。公式中,若是整数,要取第和项的平均值,而非直接取第项;非整数时必须向上取整,不能四舍五入。注意区分频数表与原始数据,不要把频数当作数据个数。看清题目是求第几百分位数,避免位数看错、位置找错,确保计算规范、步骤清晰,减少低级失误。
变|式|巩|固
变式1.已知一组数据:3,7,,12,15的平均数为9,则该组数据的第40百分位数为( )
A.6 B.7
C.7.5 D.8
变式2.已知一组数据从小到大排列为70,72,75,76,82,83,84,m,90,92,这组数据的第70百分位数是86,则( )
A.86 B.87
C.88 D.89
变式3.某人工智能公司为优化新开发的语言模型,在其模型试用人群中开展满意度问卷调查,满意度采用计分制(满分100分),统计满意度并绘制成如下频率分布直方图,图中,则下列结论不正确的是( )
A.
B.满意度计分的众数约为75分
C.满意度计分的平均分约为79分
D.满意度计分的第25百分位数约为70分
◇题型 03 统计图表
典|例|精|析
典例1.(多选)地方一般公共预算收入是地方经济的重要指标之一,如图是某地区2025年2月至10月地方一般公共预算收入累计的图表,其中条形图是地方一般公共预算收入的月累计值(月累计值指当年1月到当月的数据总和),折线图是与上年同月累计值相比的环比增长率.根据图表,下列说法正确的是( )
A.该地区2025年每月的地方一般公共预算收入一直递增
B.2025年9月该地区的地方一般公共预算收入超过30亿元
C.2025年9月该地区的地方一般公共预算收入比2024年9月高
D.2024年前10个月,该地区地方一般公共预算收入平均数低于22亿
典例2.(多选)某市10公里慢跑自2020年首次推出5条路线实现“五龙汇聚”,参与人数逐年增加.下图分别为该市2020年10公里慢跑参与人数的条形统计图(图1)、2025年10公里慢跑参与人数的扇形统计图(图2),已知2025年一号线的参与人数是2020年一号线参与人数的1.5倍,则( )
A.2025年该市10公里慢跑总的参与人数是6万
B.2025年五号线的参与人数超过了2020年二号线与三号线的参与人数总和
C.2020年,五条路线对应的参与人数的极差是11千
D.2025年与2020年相比,五条路线中对应的参与人数的增长率最高的是一号线
看清是频率分布直方图、条形图、折线图还是茎叶图,别混淆纵轴含义:直方图纵轴是频率 / 组距,不是频率,计算频率时要乘组距。中位数是左右面积各 0.5 的位置,不是中点坐标;众数是最高矩形中点。注意图表单位、刻度与组数,避免把频数当频率、组中值代错。茎叶图不要漏读数据,多图结合题要对应好类别,防止看错图例、混淆信息。
变|式|巩|固
变式1.(多选)某超市统计了2025年前10个月该超市的营业额(单位:万元),得到了如图所示的折线图,则下列说法正确的是( )
A.从二月份开始,每月与上个月相比,营业额下降最多的是五月份
B.这10个月营业额的平均数为32.5万元
C.前5个月营业额的方差大于后5个月营业额的方差
D.这10个月营业额数据的第70百分位数为43
变式2.(多选)如图是某地2024年各月同比和环比涨跌幅情况,则下列叙述正确的有( )
A.全年各月同比涨跌幅的极差小于各月环比涨跌幅的极差
B.5月份到7月份的各月同比涨幅越来越大
C.全年各月环比涨跌幅的平均值为
D.3月份到12月份各月同比涨跌幅的分位数为
变式3.(多选)采购经理指数(PurchasingManagers'Index,简称PMI):是国际上通行的宏观经济监测指标体系之一,对国家经济活动的监测和预测具有重要作用.PMI涵盖着生产与流通、制造业与非制造业等领域,分为制造业PMI、服务业PMI.制造业PMI指数在以上,反映制造业总体扩张;低于,通常反映制造业衰退.下图为我国制造业采购经理指数(PMI)变化趋势图,则下列说法正确的是( )
A.根据上图可知有一半的月份我国的制造业总体在扩张
B.这13个月的PMI值的平均数不超过
C.这13个月的PMI值的中位数是
D.2025年1-4月的PMI的方差小于2025年5-8月的PMI的方差
◇题型 04 方差的性质计算
典|例|精|析
典例1.已知一组数据的平均数为,方差为,则数据的( )
A.平均数为 B.平均数为
C.方差为 D.方差为
牢记方差核心性质:若,则,常数不影响方差,极易漏写平方。注意方差非负,不能为负。两组数据和的方差:只有独立时才有 ,不可直接乱用。计算时看清是样本方差还是总体方差,题目没说明一般用总体方差,不除以,避免公式混淆、系数出错。
变|式|巩|固
变式1.已知均值为10,方差为1,则的均值和方差分别为( )
A.20,2 B.21,2
C.21,4 D.20,4
变式2.设一组样本数据的平均数为3,方差为4,则数据的标准差为( )
A.12 B.
C.6 D.36
变式3.已知样本数据的平均数为,方差为,若样本数据的平均数为,方差为,则( )
A. B.1
C.2 D.4
◇题型 05 分层样本的方差
典|例|精|析
典例1.某大学某专业开设了《数据分析》课程,在期末的“APM数据挖掘”项目中,老师从提交的作业中随机抽取了10份样本进行分析,其中选择类方向作为研究对象的有6人(记为组),选择类方向作为研究对象的有4人(记为组).已知组样本APM数据的平均数为120,方差为8,组样本APM数据的平均数为100,方差为8,则这10份样本APM数据的平均数和方差分别是( )
A.112,104 B.112,114
C.114,104 D.114,114
典例2.已知某人收集一个样本容量为50的一组数据,并求得其平均数为70,方差为75,现发现在收集这些数据时,其中得两个数据记录有误,一个错将80记录为60,另一个错将70记录为90,在对错误的数据进行更正后,重新求得样本的平均数为,方差为,则( )
A. B.
C. D.
典例3.某班同学身高的平均数为,方差为,其中女生身高的平均数为,方差为,男生身高的平均数为,方差为,下列说法错误的是( )
A.若,则 B.若,则
C.若,则 D.若,则
分层抽样求总方差时,不能直接将两层方差取平均。必须先算每层均值、总均值,再用两层均值与总均值的差平方加权,加上两层方差的加权和。易漏乘层的样本权重,或错用总均值代替层均值。注意区分总体分层方差与样本分层方差,不要混用公式。计算时分步写出每层数据、均值、权重,避免因合并计算导致结果错误。
变|式|巩|固
变式1.某动漫社团为了调查本校学生对新上映电影的喜好程度,对该校学生进行了满意度调查,其中男生共调查了600人,女生共调查了400人,男生平均给分4分,方差为1,女生平均给分3分,方差也为1.则调研对象总体方差为( )
A. B.
C. D.
变式2.班级里有50名学生,在一次考试中统计出平均分为80分,方差为70,后来发现有3名同学的分数登错了,甲实际得60分却记成了75分,乙实际得80分却记成了90分,丙实际得90分却记成了65分,则关于更正后的平均分和方差分别是( )
A.82,73 B.80,73
C.82,67 D.80,67
变式3.某学校高三学生共有900人,其中男生500人,为获取该校高三学生的身高信息,现采用按性别比例分配的分层随机抽样的方法,抽取了容量为90的样本.计算得男生样本的身高均值为170,方差为19,女生样本的身高均值为161,方差为19,则下列说法正确的是( )
A.抽取男生的样本量为40
B.估计该校高三学生身高的均值为165
C.抽样时女生甲被抽到的概率为
D.估计该校高三学生身高的方差为19
◇题型 06 统计中的逻辑推理
典|例|精|析
典例1.四名同学各投骰子5次,分别记录每次骰子出现的点数,根据四名同学的统计结果,可以判断出一定没有出现点数的是( )
A.平均数为,极差为 B.中位数为,众数为
C.平均数为,方差为 D.平均数为,中位数为
典例2.甲、乙、丙、丁四位同学分别记录了5个正整数数据,根据下面四名同学的统计结果,可以判断出所有数据一定都不小于20的同学人数是( )
甲同学:中位数为22,众数为20
乙同学:中位数为25,平均数为22
丙同学:第40百分位数为22,极差为2
丁同学:有一个数据为30,平均数为24,方差为10.8
A.1 B.2 C.3 D.4
注意区分“一定成立” 与 “可能成立”:
平均数变大,方差不一定变大;数据去掉最大值,平均数一定减小,但中位数、众数不一定变。百分位数只与位置有关,与极端值无关。方差为 0,则所有数据一定相等;方差变大,平均数不一定改变。众数不变,平均数、中位数可任意变化。命题常设置 “一定”“都”“必然” 等绝对化表述,要逐一验证,不凭直觉判断。
变|式|巩|固
变式1.甲、乙、丙、丁对某组数据(该组数据由5个整数组成)进行分析,得到以下数字特征,则不能判断这组数据一定都小于12的是( )
A.甲:中位数为9,众数为11 B.乙:中位数为9,极差为3
C.丙:平均数为8,极差为4 D.丁:平均数为8,方差为3
变式2.获得该校“三好学生”称号,还要求学生在近期连续3次大型考试中,每次考试的名次都在全校前5名(每次考试无并列名次).现有甲、乙、丙、丁四位同学都获得了“三好学生”称号,四位同学在近期连续3次大型考试名次的数据分别为
甲同学:平均数为3,众数为2;乙同学:中位数为3,众数为3;
丙同学:众数为3,方差小于3;丁同学:平均数为3,方差小于3.
则一定符合推荐要求的同学有( )
A.甲和乙 B.乙和丁
C.丙和丁 D.甲和丁
变式3.四名同学各掷骰子7次,分别记录每次骰子出现的点数,根据名同学的统计结果,可以判断出一定没有出现点数的是( )
A.平均数为,中位数为 B.中位数为,众数为
C.平均数为,方差为 D.中位数为,方差为
变式4.一段时间内没有大规模集体流感的标志为“连续10天,每天新增病例不超过7人”,根据过去10天甲、乙、丙、丁四地新增病例数据,一定符合该标志的是( )
A.甲地:平均数为3,中位数为4
B.乙地:平均数为1,方差大于0
C.丙地:中位数为2,众数为3
D.丁地:平均数为2,方差为3
◇题型 07 相关系数和决定系数
典|例|精|析
典例1.有一散点图如图所示,在5个数据中去掉后,下列说法错误的是( )
A.残差平方和变小
B.相关系数变大
C.决定系数变大
D.解释变量与响应变量的相关性变弱
典例2.(多选)下列命题中,真命题的是( )
A.数据,,,,,,,的第百分位数是;
B.若回归方程为,则变量与成负相关
C.若随机变量服从正态分布,,则
D.在线性回归分析中相关指数用来刻画回归的效果,若值越小,则模型的拟合效果越好
相关系数反映线性方向与强弱,正相关,负相关;决定系数表示拟合效果,恒非负,越接近 1 拟合越好。注意:,但不能由反推的正负。不要混淆 “相关强弱”与“因果关系”,不要把拟合好当作一定正确预测。题目常给让判断相关性,切记只能说强弱,不能判断正负。
变|式|巩|固
变式1.对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
变式2.(多选)已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
变式3.(多选)下列关于成对数据统计的表述中,正确的是( )
A.成对样本数据的经验回归直线一定经过点
B.依据小概率事件的验立性检验对零假设进行检验,根据列联表中的数据计算发现,由可推断不成立,即认为和不独立,该推断犯错误的概率不超过0.1
C.在残差图中,残差点的分布随解释变量增大呈现扩散的趋势,说明残差的方差是一个常数,满足一元线性回归模型对随机误差的假设
D.决定系数越大,表示残差平方和越小,即模型的拟合效果越好
◇题型 08 等高堆积条形图
典|例|精|析
典例1.(多选)为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻的经常性有影响,随机抽取了300名学生,对他们是否经常锻炼的情况进行了调查,调查发现经常锻炼人数是不经常锻炼人数的2倍,绘制其等高堆积条形图,如图所示,则( )
A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多
B.从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为
C.依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1
D.假设调查人数为600人,经常锻炼人数与不经常锻炼人数的比例不变,统计得到的等高堆积条形图也不变,依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05
附:,
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
经常锻炼
不经常锻炼
合计
男
100
60
160
女
100
40
140
合计
200
100
300
经常锻炼
不经常锻炼
合计
男
200
120
320
女
200
80
280
合计
400
200
600
等高堆积条形图高度总和为 1,纵轴是频率 / 比例,不是频数。判断两变量是否有关,看同类别不同段比例差异,比例差距越大关联性越强。易把高度当数量,忽略比例本质;看错组别、混淆颜色对应类别。不能仅凭直观判断,需结合比例差分析。注意与普通条形图区分,不混用频率与频数,避免因读图错误导致独立性检验思路跑偏。
变|式|巩|固
变式1.为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
变式2.为了发展学生的兴趣和个性特长,培养全面发展的人才.某学校在不加重学生负担的前提下.提供个性、全面的选修课程.为了解学生对于选修课《学生领导力的开发》的选择意愿情况,对部分高二学生进行了抽样调查,制作出如图所示的两个等高条形图,根据条形图,下列结论正确的是( )
A.样本中不愿意选该门课的人数较多
B.样本中男生人数多于女生人数
C.样本中女生人数多于男生人数
D.该等高条形图无法确定样本中男生人数是否多于女生人数
变式3.某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是( )
0.05
0.01
3.841
6.635
参考公式:,.
A.参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
D.无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
喜欢
不喜欢
合计
男
80
20
100
女
30
70
100
合计
110
90
200
◇题型 09 独立性检验
典|例|精|析
典例1.某中学的两位学生A与B为研究高三年级学生的性别和身高是否大于170cm的关联性,对该中学的高三学生进行了调查.A同学调查了所有高三学生,并整理得到等高堆积条形图,如图(一);B同学从所有高三学生中获取容量为40的有放回简单随机样本,也整理得到列联表,如表(一).
表(一)单位:人
性别
身高
合计
低于170cm
不低于170cm
女
14
7
21
男
8
11
19
合计
22
18
40
(1)请根据A同学的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联,如果结论是有关联,解释它们之间如何相互影响;
(2)根据B同学的列联表,依据的独立性检验,该中学高三年级学生的性别和身高是否有关联,并解释所得结论的实际含义;
(参考公式及数据:,临界值)
(3)请比较(1)和(2)的统计结论是否一致,说明原因.
列联表务必按2×2 规范格式填写,别混淆行、列变量。公式计算时分子、分母别错位,避免算错。判断时要与题目给出的临界值对比,不凭记忆乱套数值。结论表述要严谨:大于临界值是 “在犯错误概率不超过… 前提下认为有关”,小于则是 “无充分证据认为有关”,不能说 “无关”。严禁把统计关联当成因果关系,不绝对化表述。
变|式|巩|固
变式1.为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
变式2.为了探究学生完成数学作业情况与成绩之间的联系,某学校采用按比例分层抽样的方式得到200名学生的测验成绩,样本中认真完成作业的学生成绩频率分布直方图如图1所示.若认为成绩不低于120分为优秀,且数学成绩为优秀的学生年级分布扇形图如图2所示,已知样本中高三年级有15位同学成绩为优秀,且在所有数学成绩为优秀的学生中,认真完成作业的学生占.
(1)求a的值,并且计算出样本中认真完成作业的学生成绩的下四分位数;
(2)根据样本数据完成下方列联表,依据小概率值的独立性检验,分析认真完成作业与成绩是否有关.
认真完成作业
不认真完成作业
成绩优秀
成绩不优秀
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
认真完成作业
不认真完成作业
成绩优秀
成绩不优秀
变式3.某工厂推出一款新产品,为了调查顾客对该新产品的满意程度,厂家分别对甲地的300名使用者和乙地的200名使用者进行问卷调查,统计并得到如下列联表:
甲地使用者
乙地使用者
合计
不满意
100
50
150
满意
200
150
350
合计
300
200
500
(1)根据小概率值的独立性检验,分析使用者的满意度是否与区域有关;
(2)从使用该产品不满意的顾客中,采用分层抽样的方法随机抽取9名使用者,再从这9名使用者中随机抽取4人进一步调研,记4人中乙地人数为,求的分布列和数学期望.
附录:.
0.15
0.1
0.05
0.025
0.01
0.001
2.072
2.706
3.841
5.024
6.635
10.828
0
1
2
3
◇题型 10 经验回归方程
典|例|精|析
典例1.2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
(日)
1
2
3
4
5
(万人)
45
50
60
65
80
(1)计算的相关系数(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,设重复进行三次抽奖中恰有一次中奖的概率为,当取多少时,最大?
参考公式:,,,
参考数据:.
典例2.已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度(单位),对某种鸡的时段产蛋量(单位:)和时段投入成本(单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度和产蛋量的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值.
17.40
82.30
3.6
140
9.7
2935.1
35.0
其中,.
(1)根据散点图判断,与哪一个更适宜作为该种鸡的时段产蛋量关于鸡舍时段控制温度的回归方程类型?(给判断即可,不必说明理由)
(2)若用作为回归方程模型,根据表中数据,建立关于的回归方程;
(3)已知时段投入成本与的关系为,当时段控制温度为时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?
附:①对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,
②
0.08
0.47
2.72
20.09
1096.63
回归直线必过样本中心点,求截距时一定要用此式,不可直接用原始数据计算。注意区分与的位置,不要写反方程。回归方程只表示线性相关,不代表因果关系,预测时不可过度外推。相关系数定方向,决定系数看拟合效果,不要混淆。计算时保留足够小数位,避免四舍五入误差导致结果偏差。
变|式|巩|固
变式1.自2021年以来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧,某地区电动汽车保有量呈现快速增长趋势,下表给出了近5年该地区的电动汽车保有量(单位:万辆).
年份
2021
2022
2023
2024
2025
年份编号
1
2
3
4
5
电动汽车保有量
1.5
2.5
4.9
7.8
若用作为该数据的回归直线模型,并已求得,
(1)结合已知数据求出2023年该地区的电动汽车保有量,并预测2030年该地区的电动汽车保有量;
(2)若已知,求此模型下的决定系数(精确到0.01).
参考公式及数据:一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,决定系数.
变式2.近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆)
年份
2021
2022
2023
2024
年份代号
1
2
3
4
销量
33
69
93
129
附:相关系数;
回归方程中斜率和截距的最小二乘法估计公式分别为,
(1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001)
(2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量.
变式3.泉州少年郎团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的经济收入(单位:百万元)的数据如下表:
月份编号
1
2
3
4
5
6
7
收入(百万元)
6
11
21
34
66
101
196
(1)根据以上数据绘制散点图,并根据散点图判断,与(均为大于零的常数)哪一个适宜作为该团队经济收入y关于月份x的回归方程模型?(给出判断即可,不必说明理由)并根据你的判断结果及表中的数据,求出y关于x的回归方程;
(2)请你根据所求的回归方程,预测该团队下一个月的经济收入;
(3)试从统计学角度分析,如果用所求的回归方程预测该团队接下来1年的经济收入情况是否合理?
参考数据:
435
10.78
2535
50.12
2.82
3.47
其中设,
参考公式:,.
变式3.某公司统计了该公司销售部员工工龄(单位:年)与一年中的月均销售额(单位:万元)的数据,得到下面的散点图及一些统计量的值.
15.1
4.84
24.2
94.9
155.5
82.5
表中.
(1)由散点图知,可用经验回归方程拟合y与x的关系,试根据提供的有关数据,预测月均销售额超过20万元的工龄最小值;
(2)该公司为激励销售部员工,规定每月的销售冠军奖励1万元,其他名次无奖励.甲为该公司销售部的员工,他在第一季度(每年的前3个月)的第一个月成为销售冠军的概率为,从第二个月开始,若上个月不是销售冠军,则这个月为销售冠军的概率为;若上个月为销售冠军,则这个月仍为销售冠军的概率为.求他在第一季度所得奖励金额X的分布列和数学期望.
附:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,,,,,,.
0
1
2
3
一、单项选择题
1.某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理如下表
亩产量
[900,950)
[950,1000)
[1000,1050)
[1050,1100)
[1100,1150)
[1150,1200)
频数
6
12
18
30
24
10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
2.在一组样本数据中,1,2,3,4出现的频率分别为,且,则下面四种情形中,对应样本的标准差最大的一组是( )
A. B.
C. D.
3.某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
4.某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
5.在北京冬奥会上,国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术,为实现绿色冬奥作出了贡献.如图描述了一定条件下二氧化碳所处的状态与T和的关系,其中T表示温度,单位是K;P表示压强,单位是.下列结论中正确的是( )
A.当,时,二氧化碳处于液态
B.当,时,二氧化碳处于气态
C.当,时,二氧化碳处于超临界状态
D.当,时,二氧化碳处于超临界状态
6.下列说法正确的序号是( )
①在回归直线方程中,当解释变量x每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知X,Y是两个分类变量,若它们的随机变量的观测值k越大,则“X与Y有关系”的把握程度越小;
④已知随机变量服从正态分布,且,则.
A.①②③ B.②③④
C.②④ D.①②④
7.为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则( )
A.< B.=
C.> D.、关系不能确定
8.下列说法中,正确的命题的序号是( )
①.已知随机变量服从正态分布N(2,),,则
②.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则的值分别是和
③.若事件A与事件B互斥,则事件A与事件B独立
④.若样本数据的方差为2,则数据的方差为16
A.①④ B.③④ C.②③ D.①②
二、多项选择题
9.为保护学生视力、促进学生身心健康发展,某中学研究型学习小组从该校学生中按男、女生比例,采用分层随机抽样的方法选取了100名学生(其中男生60人,女生40人),调查他们每日使用手机的时间.若每日使用手机时间超过40分钟,则认为该生手机成瘾.根据统计数据得到如图所示的等高堆积条形图,用样本估计总体,用频率估计概率,下列说法正确的有( )
A.该校男生和女生人数之比为
B.如果从男生和女生各随机选取一名学生,那么男生手机成瘾的概率小于女生手机成瘾的概率
C.从该校学生中随机抽取一名学生,则该生手机成瘾的概率为
D.从该校学生中抽到一名手机成瘾的学生,则该生是男生的概率为
10.下列说法正确的是( )
A.若一组数据的方差为0.2,则的方差为
B.已知一组数据的平均数为5,则这组数据的中位数是5
C.这组数据的第80百分位数是80
D.将总体划分为两层,通过分层抽样,得到样本数为的两层样本,其样本平均数和样本方差分别为和,若,则总体方差
11.下列说法中,正确的是( )
A.一组数据的第75百分位数为16
B.若样本数据的方差为9,则的方差为1
C.已知随机变量服从正态分布,若,则
D.在独立性检验中,基于小概率值的独立性检验规则是:两个事件和,已知显著性水平对应的分位数为,当时,认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断和不独立,可以认为和独立
三、填空题
12.甲、乙两班参加了同一学科的考试,其中甲班50人,乙班40人.甲班的平均成绩为72分,方差为90;乙班的平均成绩为90分,方差为60.那么甲、乙两班全部90名学生的平均成绩是__________分,方差是_________.
13.由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为______.
14.下列命题中,正确的命题有__________.
①回归直线恒过样本点的中心,且至少过一个样本点;
②将一组数据的每个数据都加一个相同的常数后,方差不变;
③用相关指数来刻画回归效果,越接近,说明模型的拟合效果越好;
④用系统抽样法从名学生中抽取容量为的样本,将名学生从编号,按编号顺序平均分成组(号,号,号),若第组抽出的号码为,则第一组中用抽签法确定的号码为号.
四、解答题
15.某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长(分钟)和学生任务完成率的对应数据如下:
时长
20
24
28
32
36
40
完成率
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:.
0.1
0.01
0.001
2.706
6.635
10.828
课程
性别
合计
男
女
家政
160
80
140
园艺
40
120
160
合计
200
200
400
1 / 14
学科网(北京)股份有限公司
$