第九章 统 计(教师用书)-【新高考方案】2026年高考数学一轮总复习(普高固基版)
2025-12-01
|
39页
|
26人阅读
|
0人下载
教辅
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | - |
| 年级 | 高三 |
| 章节 | - |
| 类型 | 教案 |
| 知识点 | 计数原理与概率统计 |
| 使用场景 | 高考复习-一轮复习 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | DOCX |
| 文件大小 | 1.07 MB |
| 发布时间 | 2025-12-01 |
| 更新时间 | 2025-12-01 |
| 作者 | 山东一帆融媒教育科技有限公司 |
| 品牌系列 | 新高考方案·高三总复习一轮 |
| 审核时间 | 2025-07-30 |
| 下载链接 | https://m.zxxk.com/soft/53241132.html |
| 价格 | 7.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
内容正文:
第九章 统 计
第一节 随机抽样与统计图表
1.了解获取数据的基本途径.
2.会用简单随机抽样的方法从总体中抽取样本,了解分层随机抽样.
3.能根据实际问题的特点选择恰当的统计图表,体会使用统计图表的重要性.
教材再回首
1.总体、个体、样本
调查对象的全体(或调查对象的某些指标的全体)称为总体,组成总体的每一个调查对象(或每一个调查对象的相应指标)称为个体,在抽样调查中,从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本容量,简称样本量.
2.简单随机抽样
(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样(除非特殊声明,本章所指的简单随机抽样是指不放回简单随机抽样).
(2)简单随机样本:通过简单随机抽样获得的样本称为简单随机样本.
(3)简单随机抽样的常用方法:抽签法和随机数法.
3.分层随机抽样
(1)定义
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(2)特点
①适用于由差异明显的几部分(即层)组成的总体;②分成的各层互不重叠;③各层抽取的比例都等于样本容量在总体中的比例,即,其中n为样本容量,N为总体容量;④分层随机抽样使样本具有较强的代表性,而且在各层抽样时,又可灵活地选用不同的随机抽样方法.
4.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频数分布直方图、频率分布直方图等.
(2)频率分布表、频率分布直方图的制作步骤及意义
求极差
即一组数据中最大值与最小值的差
决定组距
与组数
组数k=,若k∈Z,则组数为k,若k∉Z,则组数为不少于k的最小整数
将数据
分组
各组均为左闭右开区间,最后一组是闭区间
列频率
分布表
一般分四列:分组、频数累计、频数、频率,最后一行是合计,其中频数合计应是样本量,频率合计应是1
画频率
分布直
方图
在频率分布直方图中,纵轴表示,数据落在各小组内的频率用各小长方形的面积来表示,各小长方形的面积的总和等于1
典题细发掘
1.(人A必修②P224T1改编)为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行调查分析,在这个问题中,被抽取的200名学生成绩是 ( )
A.总体 B.个体
C.样本 D.样本量
解析:选C 由题意可得200名学生成绩是样本.
2.(北师大必修①P182T1改编)在某市初三年级举行的一次体育考试中(满分100分),所有考生成绩均在[50,100]内,按照[50,60),[60,70),[70,80),[80,90),[90,100]分成五组,甲、乙两班考生的成绩占比如图所示,则下列说法正确的是 ( )
A.成绩在[70,80)内的考生中,甲班人数多于乙班人数
B.甲班成绩在[80,90)内人数最多
C.乙班成绩在[70,80)内人数最多
D.甲班成绩的极差比乙班成绩的极差小
解析:选B 由题图知,每一组中的成绩占比都是以各自班级的总人数为基数的,所以每一组中的甲班、乙班人数不能从所占的百分比来判断,故A错误;由题图可知甲班成绩主要集中在[80,90)内,乙班成绩主要集中在[60,70)内,故B正确,C错误;由题图可知甲班成绩的极差和乙班成绩的极差的大小无法确定,故D错误.
3.(苏教必修②P233T2改编)某工厂生产A,B,C三种不同型号的产品,产品数量之比依次为2∶3∶5,现用分层随机抽样的方法抽出一个样本容量为80的样本,那么其中A种型号产品有 件.
解析:因为A,B,C三种不同型号的产品的数量之比依次为2∶3∶5,所以样本中A种型号产品有80×=16件.
答案:16
4.(人A必修②P198T1改编)如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民数为 .
解析:由频率分布直方图可知,月均用水量为[2,2.5)范围内的居民所占频率为0.5×0.5=0.25,所以月均用水量为[2,2.5)范围内的居民数为100×0.25=25.
答案:25
题点一 简单随机抽样
[例1]
(1)总体由编号01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 ( )
第1行 78 16 62 32 08 02 62 42 62 52 53 69 97 28 01 98
第2行 32 04 92 34 49 35 82 00 36 23 48 69 69 38 74 81
A.19 B.25
C.26 D.27
解析:选B 由随机数法可知,样本的前5个个体的编号分别为23,20,26,24,25,因此,选出的第5个个体的编号为25.
(2)为了弘扬文化自信,某中学随机抽取了320个学生,调查其是否阅读过四大名著《三国演义》《西游记》《水浒传》及《红楼梦》.经统计,其中阅读过《三国演义》或《西游记》的有220人,阅读过《三国演义》的有180人,同时阅读过《三国演义》和《西游记》两本书的有120人.用样本估计总体,则该中学阅读过《西游记》的学生人数与该中学学生总人数之比的估计值为 .
解析:由题意,知该学校仅阅读过《三国演义》的有180-120=60人,
所以阅读过《西游记》的人数为220-60=160人,则该中学阅读过《西游记》的学生人数与该中学学生总人数之比的估计值为=.
答案:
|思维建模|
(1)简单随机抽样需满足:被抽取的样本总体的个体数有限;逐个抽取;等可能抽取.
(2)简单随机抽样一般有抽签法(适用于总体中个体数较少的情况)和随机数法(适用于总体中个体数较多的情况).
[即时训练]
1.下列抽样方法中,属于简单随机抽样的是 ( )
A.某社团为调查本校学生的环保知识水平,向在图书馆某楼层自习的所有学生发放问卷,隔5分钟后回收
B.某次科普讲座之前,主持人抽取座位尾号为1的听众进行提问
C.一车间主任从堆放的100件产品中抽取了摆放在最上面的10件产品进行检查
D.销售部经理将一个放有部门所有员工工号牌的箱子均匀摇晃后,从中抽取5个工号牌
解析:选D 对于A,人数较多,且图书馆的学生不能代表本校全体学生,故A错误;对于B,按照相同间隔抽取的方法,是系统抽样,不是简单随机
抽样,故B错误;对于C,抽取的产品不具有代表性,故C错误;对于D,符合简单随机抽样的定义,故D项正确.
2.用简单随机抽样的方法从含有6个个体的总体中,抽取一个样本量为2的样本,某一个个体a“第一次被抽到的概率”“第二次被抽到的概率”“在整个抽样过程中被抽到的概率”分别是 、 、 .
解析:从6个个体中抽1个个体,每个个体被抽到的概率均为,与抽取的次数无关,第二次被抽到的概率仍为.但由于在整个抽样过程中是从6个个体中抽2个样本,故个体a被抽到的概率为.
答案:
易错提醒:不理解简单随机抽样中每个个体入样是等可能的,即简单随机抽样中,每个个体被抽到的机会一样,与先后无关.
题点二 分层随机抽样
[例2]
(1)(2025·南通模拟)某学校高二年级选择“物化生”,“物化地”和“史地政”组合的同学人数分别为240,90和120.现采用分层随机抽样的方法选出30位同学进行一项调查研究,则“史地政”组合中选出的同学人数为 ( )
A.8 B.12
C.16 D.6
解析:选A 由题意,可知30×=8,故“史地政”组合中选出的同学人数为8.
(2)(2024·重庆三模)重庆某高校去年招收学生来自成渝地区2 400人,除成渝外的西部地区2 000人,中部地区1 400人,东部地区1 800人,港澳台地区400人.学校为了解学生的饮食习惯,拟选取40人作样本调研,为保证调研结果的代表性,则从该校去年招收的成渝地区学生中不同的抽样结果种数为 ( )
A. B.
C. D.
解析:选C 为保证调研结果的代表性,设从该校去年招收的成渝地区学生中抽取n人,则=,解得n=12,即从该校去年招收的成渝地区学生中不同的抽样结果种数为.
|思维建模| 分层随机抽样问题类型及解题思路
(1)求某层应抽个体数量,按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之求解;根据分层随机抽样就是按比例抽样,列比例式进行计算.
(3)分层随机抽样的计算应根据抽样比例构造方程求解,其中“抽样比例==”.
(4)分层随机抽样时,每层抽取的个体可以不一样多,但必须满足抽取ni=n·(i=1,2,…,k)个个体(其中i是层数,n是抽取的样本容量,Ni是第i层中个体的个数,N是总体容量).
[即时训练]
3.[多选]某学校为了解学生视力健康状况,降低学生近视率,增强学生爱眼护眼意识,对三个年级的学生视力健康状况进行调研,已知高一、高二、高三的学生人数之比为4∶3∶3,现用分层随机抽样的方法抽取一个容量为 n的样本,样本中高一年级学生人数为200人,则 ( )
A.该校三个年级总的学生数为5 000人
B.样本容量n为500
C.该校高二年级总的学生数有1 500人
D.样本中高二年级学生数为150人
解析:选BD 设样本中高二、高三的学生人数分别为a,b,则200∶a∶b=4∶3∶3,则a=b=150,所以样本容量n=200+150+150=500,故B、D正确;无法确定该校三个年级总的学生数和该校高二年级总的学生数,故A、C错误.
4.(2025·上海开学考试)某校老年、中年和青年教师的人数如表(右栏)所示,采用分层随机抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有32人,则该样本的老年教师人数为 .
类别
老年教师
中年教师
青年教师
合计
人数
36
72
64
172
解析:在抽取的样本中,青年教师有32人,而抽样的比例为=,设该样本的老年教师人数为x,则有=,∴x=18.
答案:18
题点三 统计图表
考法(一) 折线图、条形图与扇形图
[例3]
(1)[多选]某中学组织三个年级的学生进行禁毒知识竞赛.经统计,得到成绩排在前200名学生分布的扇形图(图1)和其中的高一学生排名分布的频率条形图(图2).则下列命题正确的是 ( )
A.成绩排在前200名的200人中,高二人数比高三人数多10
B.成绩排在第1~50名的50人中,高一人数比高二人数多
C.成绩排在第51~150名的100人中,高三人数占比可能超过
D.成绩排在第51~100名的50人中,高二人数肯定多于23
解析:选AC 成绩排在前200名的200人中,高二人数比高三人数多200×(30%-25%)=10,故A正确;成绩排在第1~50名的50人中,高一人数为200×45%×20%=18,高二和高三的总人数为50-18=32,高二的具体人数不知道,故B错误;成绩排在第51~150名的100人中,高一人数为200×45%×(0.3+0.4)=63,高二和高三的总人数为100-63=37,所以高三人数占比有可能超过,故C正确;成绩排在第51~100名的50人中,高一学生人数为200×45%×0.3=27,高二人数最多有50-27=23,故D错误.
(2)(2025·盐城模拟)[多选]下面两图分别是2018年至2023年我国新能源汽车年产量和占比(占我国汽车年总产量的比例)情况,则下列说法正确的是 ( )
A.2018~2023年我国新能源汽车年产量逐年增加
B.2018~2023年我国新能源汽车年产量的极差为626.4万辆
C.2023年我国汽车年总产量超过2 700万辆
D.2020年我国汽车年总产量低于2019年我国汽车年总产量
解析:选BCD 题图1中2020年我国新能源汽车年产量低于2019年我国新能源汽车年产量,故A错误;极差为705.8-79.4=626.4(万辆),故B正确;2023年我国汽车年总产量为705.8÷25.6%≈2 757(万辆),故C正确;2020年我国汽车年总产量为124.2÷4.8%≈2 588(万辆),2019年我国汽车年总产量为127÷4.5%≈2 822(万辆),2 588<2 822,故D正确.
|思维建模| 折线图、条形图、扇形图的关注点
(1)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
(2)条形图的长度表示各类别频数的多少,宽度是固定的类别,与频率分布直方图不同.
(3)扇形图能清楚地表示出各部分数量同总数之间的关系.
考法(二) 频率分布直方图
[例4] (2025·包头模拟)某公司为了解用户对其产品的满意度,从使用该产品的用户中随机调查了100个用户,根据用户对产品的满意度评分,得到如图所示的用户满意度评分的频率分布直方图.
根据此频率分布直方图,下面结论不正确的是 ( )
A.对该公司产品满意度评分低于60分的用户比例估计为35%
B.对该公司产品满意度评分不低于70分的用户比例估计为40%
C.估计该公司用户对产品的满意度评分的平均值不超过60分
D.估计该公司有一半以上的用户,对产品的满意度评分介于50分至80分之间
解析:选C 对该公司产品满意度评分低于60分的用户比例估计为(0.015+0.020)×10×100%=35%,故A正确;对该公司产品满意度评分不低于70分的用户比例估计为(0.020+0.010+0.010)×10×100%=40%,故B正确;估计该公司用户对产品的满意度评分的平均值为=45×0.15+55×0.2+65×0.25+75×0.2+85×0.1+95×0.1=67>60,故C错误;对产品的满意度评分介于50分至80分之间的用户比例为(0.020+0.025+0.020)×10×100%=65%,估计该公司有一半以上的用户,对产品的满意度评分介于50分至80分之间,故D正确.故选C.
|思维建模| 频率分布直方图的数据特点
(1)频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.
(2)频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.
[即时训练]
5.[多选]下图为2024年中国大学生使用APP偏好及目的统计图,根据统计图,下列关于2024年中国大学生使用APP的结论正确的是 ( )
A.超过的大学生更爱使用购物类APP
B.超过半数的大学生使用APP是为了学习与生活需要
C.使用APP偏好情况中7个占比数字的极差是23%
D.APP使用目的中6个占比数字的40%分位数是34.3%
解析:选AC 根据题图知,大学生使用购物类APP占比为25.7%,所以A正确;根据题图知,大学生使用APP是为了学习与生活需要的占比为34.3%+14.0%=48.3%,所以B错误;根据题图知,使用APP偏好情况中7个占比数字的极差是25.7%-2.7%=23%,所以C正确;根据题图知,APP使用目的中6个占比数字从小排到大分别为0.6%,8.4%,14.0%,16.3%,26.4%,34.3%,又6×40%=2.4,所以40%分位数是14.0%,故D错误.
6.[多选]某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图,其中支出在[50,60]元的学生有60人,则下列说法正确的是 ( )
A.样本中支出在[50,60]元的频率为0.03
B.采用分层随机抽样从这n人中抽出10人,则在[30,50)中共需抽出6人
C.n的值为200
D.该校学生一周生活方面支出的中位数大约是44元
解析:选BCD 样本中支出在[50,60]元的频率为1-(0.01+0.024+0.036)×10=0.3,故A错误;样本中支出在[30,50)的频率为(0.024+0.036)×10=0.6,所以采用分层随机抽样从这n人中抽出10人,则在[30,50)中共需抽出的人数为10×0.6=6,故B正确;n==200,故C正确;前两个矩形的面积之和为(0.01+0.024)×10=0.34,前三个矩形的面积之和为0.34+0.036×10=0.7,设样本中支出的中位数为x,则40<x<50,且0.34+(x-40)×0.036=0.5,解得x≈44,所以该校学生一周生活方面支出的中位数大约是44元,故D正确.
数智赋能:电子版随堂训练,根据课堂情况灵活选用
[课时跟踪检测]
一、单选题
1.下列情况中,适合用全面调查的是 ( )
A.检查某人血液中的血脂含量
B.调查某地区的空气质量状况
C.乘客上飞机前的安检
D.调查某市市民对垃圾分类处理的意识
解析:选C 乘客上飞机前的安检适合用全面调查,只有确认每一名乘客所携带的物品都安全才能保证航班安全.
2.现要完成下列2项抽样调查:①从10盒酸奶中抽取3盒进行食品卫生检查;②东方中学共有160名教职工,其中教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.较为合理的抽样方法是 ( )
A.①抽签法,②分层随机抽样
B.①随机数法,②分层随机抽样
C.①随机数法,②抽签法
D.①抽签法,②随机数法
解析:选A ①总体较少,宜用抽签法;②各层间差异明显,宜用分层随机抽样.故选A.
3.(2025·邢台期末)某校高一、高二、高三年级的学生人数分别为1 200,1 000,800,按年级进行分层,用比例分配的分层随机抽样方法抽取一个容量为30的样本,调查全校学生的睡眠时间.高一年级抽取的学生的平均睡眠时间为8.5小时,高二年级抽取的学生的平均睡眠时间为7.8小时,三个年级抽取的学生的总平均睡眠时间为8小时,则高三年级抽取的学生的平均睡眠时间为 ( )
A.7.2小时 B.7.3小时
C.7.5小时 D.7.6小时
解析:选C 由题意,得抽样比例为=,则高一、高二、高三年级抽取的学生人数分别为1 200×=12,1 000×=10,800×=8,设高三年级抽取的学生的平均睡眠时间为x小时,则8x+10×7.8+12×8.5=30×8,解得x=7.5.故选C.
4.(2025·哈尔滨开学考试)某校为了了解学生的体能情况,于6月中旬在全校进行体能测试,统计得到所有学生的体能测试成绩均在[70,100]内.现将所有学生的体能测试成绩按[70,80),[80,90),[90,100]分成三组,绘制成如图所示的频率分布直方图.若根据体能测试成绩采用按比例分层随机抽样的方法抽取20名学生作为某项活动的志愿者,则体能测试成绩在[70,80)内的被抽取的学生人数为 ( )
A.4 B.6
C.8 D.10
解析:选A 根据题意得,体能测试成绩在[70,80)内的被抽取的学生人数为20×=4.故选A.
5.某养猪场定购了一批仔猪,从中随机抽查了100头仔猪的体重(单位:斤),经数据处理得到如图所示的频率分布直方图,其中体重最轻的14头仔猪的体重的频数分布表如表所示.为了将这批仔猪分栏喂养,需计算频率分布直方图中的一些数据,其中a+b的值为 ( )
体重
22
24
26
27
28
29
31
频数
1
1
2
3
3
2
2
A.0.144 B.0.152
C.0.76 D.0.076
解析:选B 由题意得c+d=×=0.024,且[2(c+d)+a+b]×5=1,所以2×0.024+a+b=0.2,所以a+b=0.152.故选B.
二、多选题
6.为了了解参加运动会的1 500名运动员的年龄情况,从中抽取了150名运动员的年龄进行调查,则下列说法正确的是 ( )
A.1 500名运动员的年龄是总体
B.抽取到的150名运动员是样本
C.这个抽样方法可以采取随机数法抽样
D.每个运动员被抽到的机会相等
解析:选AD 1 500名运动员的年龄是总体,故A正确;抽取到的150名运动员的年龄是样本,故B错误;随机数法常常用于总体的个体数较少时,当总体中的个体数较多时,编号复杂,将总体“搅拌均匀”也比较困难,用随机数法产生的代表性不合理,故C错误;在简单的随机抽样时,每个运动员被抽到的机会是相等的,故D正确.
7.(2025·武汉模拟)某市2024年经过招商引资后,经济收入较前一年增加了一倍,实现翻番,为更好地了解该市的经济收入的变化情况,统计了该市招商引资前后年经济收入构成比例,得到如下扇形图,则下列结论正确的是 ( )
A.招商引资后,工资净收入较前一年增加
B.招商引资后,转移净收入是前一年的1.25倍
C.招商引资后,转移净收入与财产净收入的总和超过了该年经济收入的
D.招商引资后,经营净收入较前一年增加了一倍
解析:选AD 设招商引资前经济收入为M,而招商引资后经济收入为2M,则招商引资前工资净收入为M×60%=0.6M,而招商引资后工资净收入为2M×37%=0.74M,所以工资净收入增加了,故A正确;招商引资前转移净收入为M×4%=0.04M,招商引资后转移净收入为2M×5%=0.1M,所以招商引资后,转移净收入是前一年的2.5倍,故B错误;招商引资后,转移净收入与财产净收入的总和为0.1M+0.56M=0.66M<×2M=0.8M,所以招商引资后,转移净收入与财产净收入的总和低于该年经济收入的,故C错误;招商引资前经营净收入为M×30%=0.3M,招商引资后经营净收入为2M×30%=0.6M,所以招商引资后,经营净收入较前一年增加了一倍,故D正确.
8.某市为了解该地小微企业年收入的变化情况,对该地小微企业推行的年税收减免政策减免前和减免后的年收入进行了抽样调查.将数据整理,得到如图所示的频率分布直方图,则下列结论正确的是 ( )
A.推行减免政策后,该市小微企业的年收入都有了明显的提高
B.推行减免政策后,该市小微企业的平均年收入有了明显的提高
C.推行减免政策后,该市小微企业的年收入更加均衡
D.推行减免政策后,该市小微企业的年收入没有变化
解析:选BC 年收入在[65,70]万元的,减免前的频率为0.011×5=0.055,减免后的频率为0.008×5=0.040,故A错误;减免前占比最多的年收入为[45,50)万元,其次是[40,45)万元,减免后占比最多的为[50,55)万元,其次是[55,60)万元,所以平均年收入也明显提高,故B正确;减免前年收入在[25,30)万元的占比为0.055,而减免后年收入最少的[25,30)万元没有了,变成[35,40)万元,减免前[65,70]万元的占比为0.055,而减免后年收入最多的[65,70]万元的占比为0.040,即减少了,所以年收入更加均衡,故C正确;从题图上知年收入有所变化,如收入在[65,70]万元的减少了,而收入在[25,30)万元的减免后没有了,所以收入提高了,故D错误.
三、填空题
9.一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如表所示(单位:辆):
轿车A
轿车B
轿车C
舒适型
100
150
z
标准型
300
450
600
按类型用分层随机抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆,则z的值为 .
解析:设该厂这个月共生产轿车n辆,由题意得=,所以n=2 000,则z=2 000-100-300-150-450-600=400.
答案:400
10.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形面积等于其他8个小长方形的面积和的,且样本容量为140,则中间一组的频数为 .
解析:设中间一个小长方形的面积为x,其他8个小长方形的面积和为x,根据频率分布直方图各小长方形的面积之和为1,得x+x=1,则x=,即中间一组的频率为,所以中间一组的频数为140×=40.
答案:40
第二节 用样本估计总体
1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.
2.能用数字特征估计总体集中趋势和总体离散程度.
教材再回首
1.百分位数
(1)定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)四分位数:第25百分位数,第50百分位数,第75百分位数这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
2.众数、中位数、平均数
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
3.标准差与方差
设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=,
s2=[(x1-)2+(x2-)2+…+(xn-)2].
4.比例分配的分层随机抽样所获得样本的均值与方差
利用比例分配的分层(两层)随机抽样获得的样本中,第一层的样本量为n1,均值为,方差为;第二层的样本量为n2,均值为,方差为,则总的样本均值=+,总的样本方差s2=[+(-)2]+[+(-)2].
典题细发掘
1.(人A必修②P181T1)为了合理调配电力资源,某市欲了解全市50 000户居民的日用电量.若通过简单随机抽样从中抽取了300户进行调查,得到其日用电量的平均数为5.5 kW·h,则可以推测全市居民用户日用电量的平均数 ( )
A.一定为5.5 kW·h B.高于5.5 kW·h
C.低于5.5 kW·h D.约为5.5 kW·h
解析:选D 由样本的数字特征与总体的数字特征的关系,可知全市居民用户日用电量的平均数约为5.5 kW·h.
2.(人A必修②P216T3改编)[多选]在去年的足球联赛上,甲队每场比赛平均失球数是1.5,方差为1.1;乙队每场比赛平均失球数是2.1,方差是0.4,下列说法正确的有 ( )
A.平均来说甲队比乙队防守技术好
B.乙队比甲队的防守技术更稳定
C.每轮比赛甲队的失球数一定比乙队少
D.乙队可能有一半的场次不失球
答案:AB
3.(人B必修②P70T2改编)计算数据1,2,3,4,5,6,7,8,9,10的40%分位数为 .
解析:将数据从小到大排列后可得1,2,3,4,5,6,7,8,9,10,因为10×40%=4,所以这组数据的40%分位数是=4.5.
答案:4.5
4.(苏教必修②P271T10改编)已知数据x1,x2,…,x10的平均数为2,方差为3,那么数据2x1+3,2x2+3,…,2x10+3的平均数和方差分别为 .
答案:7,12
题点一 样本数字特征的估计
[例1]
(1)(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理下表:
亩产量
[900,
950)
[950,
1 000)
[1 000,
1 050)
[1 050,
1 100)
[1 100,
1 150)
[1 150,
1 200]
频数
6
12
18
30
24
10
根据表中数据,下列结论中正确的是 ( )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
解析:选C 根据频数分布表可知,6+12+18=36<50,所以亩产量的中位数不小于1 050 kg,故A错误;亩产量不低于1 100 kg的频数为24+10=34,所以低于1 100 kg的稻田占比为=66%,故B错误;稻田亩产量的极差最大约为1 200-900=300,最小约为1 150-950=200,故C正确;由频数分布表可得,100块稻田亩产量的平均值为×(6×925+12×975+18×1 025+30×1 075+24×1 125+10×1 175)=1 067,故D错误.
(2)(2023·新课标Ⅰ卷)[多选]有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则 ( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
解析:选BD 取x1=1,x2=x3=x4=x5=2,x6=9,则x2,x3,x4,x5的平均数等于2,标准差为0,x1,x2,…,x6的平均数等于3,标准差为,故A、C均不正确;根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,由于x1是最小值,x6是最大值,故x1,x2,…,x6的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x2,x3,x4,x5的中位数相等,故B正确;根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.故选BD.
谨记结论:(1)若x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a.
(2)数据x1,x2,…,xn与数据x1'=x1+a,x2'=x2+a,…,xn'=xn+a的方差相等,即数据经过平移后方差不变.
(3)若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.
|思维建模| 计算一组数据的第p百分位数的步骤
[即时训练]
1.(2025·广州模拟)[多选]已知样本数据7,3,5,3,10,8,则这组数据的 ( )
A.众数为3 B.平均数为6.5
C.上四分位数为8 D.方差为
解析:选ACD 首先,我们把数据从小到大排列,得到3,3,5,7,8,10,观察得数据3出现的次数最多,所以众数为3,故A正确;平均数为==6,故B错误;因为一共有6个数据,且6×75%=4.5,所以上四分位数为第5个数,故上四分位数为8,故C正确;方差为[(3-6)2+(3-6)2+(5-6)2+(7-6)2+(8-6)2+(10-6)2]=(9+9+1+1+4+16)=×40=,故D正确.
2.学校为了解学生身高(单位:cm)情况,采用分层随机抽样的方法从4 000名学生(男、女生人数之比为3∶2)中抽取了一个容量为100的样本.其中,男生平均身高为175,方差为184,女生平均身高为160,方差为179,用样本估计总体,则该学校学生身高的方差为 .
解析:根据题意,由于男、女生人数之比为3∶2,则样本中男女生人数之比为3∶2,其中,男生平均身高为175,方差为184,女生平均身高为160,方差为179,则样本的平均数=×175+×160=169,样本的方差s2=×[184+(175-169)2]+×[179+(160-169)2]=236,用样本估计总体,则该学校学生身高的方差为236.
答案:236
题点二 频率分布直方图中的数字特征
[例2] 为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下频率分布直方图.
记C为事件“乙离子残留在体内的百分比不高于5.5”,根据直方图得到P(C)的估计值为0.30.
(1)求乙离子残留百分比直方图中a,b的值;
(2)求甲离子残留百分比的第75百分位数;
(3)估计乙离子残留百分比的平均数.(同一组数据用该组区间的中点值为代表)
解:(1)由已知得0.30=0.05+b+0.15,解得b=0.10,所以a=1-0.20-0.15-0.30=0.35.
(2)根据频率分布直方图,易知甲离子残留百分比的第75百分位数在区间[4.5,5.5),设为x,则0.15+0.20+0.30+(x-4.5)×0.20=0.75,解得x=5.0,所以甲离子残留百分比的第75百分位数为5.0.
(3)乙离子残留百分比的平均数的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.0.
|思维建模| 用频率分布直方图估计样本的数字特征
(1)平均数:= (xi表示第i个小矩形底边中点的横坐标,Si表示第i个小矩形的面积).
(2)方差:s2=
(3)众数:最高小矩形底边中点的横坐标.
(4)中位数:把频率分布直方图划分为左、右两个面积相等的部分时,分界线与横轴交点的横坐标.
(5)百分位数:类比中位数,百分位数所在垂直于x轴的直线把频率分布直方图划分为左、右两个部分,左边所有矩形的面积和为p%.中位数是第50百分位数.
求解公式:已知频率分布直方图的组距为d.
①找出百分位数所在的矩形区间[a,b);
②第p百分位数=a+d·.
[即时训练]
3.随着时代不断地进步,人们的生活条件也越来越好,越来越多的人注重自己的身材,其中体脂率是一个很重要的衡量标准.根据一般的成人标准,女性体脂率的正常范围是20%至25%,男性的正常范围是15%至18%.这一范围适用于大多数成年人,可以帮助判断个体是否存在肥胖的风险.某市有关部门对全市100万名成年女性的体脂率进行一次抽样调查统计,抽取了1 000名成年女性的体脂率作为样本绘制频率分布直方图如图.
(1)求a;
(2)如果女性体脂率为25%至30%属“偏胖”,体脂率超过30%属“过胖”,那么全市女性“偏胖”,“过胖”各约有多少人?
(3)小王说:“我的体脂率是调查所得数据的中位数.”小张说:“我的体脂率是调查所得数据的平均数.”那么谁的体脂率更低?
解:(1)由频率分布直方图可得5×2a+5×0.03+5×0.07+5×6a+5×2a=1,所以a=0.01.
(2)由频率分布直方图可得样本中女性“偏胖”的频率为5×0.06=0.3,
样本中女性“过胖”的频率为5×0.02=0.1,
所以全市女性“偏胖”的人数约为
1 000 000×0.3=300 000,
全市女性“过胖”的人数约为
1 000 000×0.1=100 000.
(3)调查所得数据的平均数为12.5×0.1+17.5×0.15+22.5×0.35+27.5×0.3+32.5×0.1=23.25,即小张的体脂率为23.25%.
设调查所得数据的中位数为x,
因为0.1+0.15=0.25<0.5,0.1+0.15+0.35=0.6>0.5,
所以20<x<25,
所以0.25+(x-20)×0.07=0.5,
所以x=≈23.57,
即小王的体脂率为23.57%.
所以小张的体脂率更低.
题点三 总体离散程度的估计
[例3] (2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验序号i
1
2
3
4
5
6
7
8
9
10
伸缩率xi
545
533
551
522
575
544
541
568
596
548
伸缩率yi
536
527
543
530
560
533
522
550
576
536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2.
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(
).
解:(1)由题意,求出zi的值如表所示,
试验
序号i
1
2
3
4
5
6
7
8
9
10
zi
9
6
8
-8
15
11
19
18
20
12
则=×(9+6+8-8+15+11+19+18+20+12)=11,
s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)因为2=2==11=>,
所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
|思维建模| 总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
[即时训练]
4.为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,从两厂各随机选取了10个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图.
(1)分别计算甲、乙两厂提供的10个轮胎宽度的平均数;
(2)若轮胎的宽度在[194,196]内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个的轮胎相对更好?
解:(1)甲厂10个轮胎宽度的平均数
=×(195+194+196+193+194+197+196+195+193+197)=195(mm),
乙厂10个轮胎宽度的平均数
=×(195+196+193+192+195+194+195+192+195+193)=194(mm).
(2)甲厂10个轮胎中宽度在[194,196]内的数据为195,194,196,194,196,195,
平均数=×(195+194+196+194+196+195)=195,
方差=×[(195-195)2+(194-195)2+(196-195)2+(194-195)2+(196-195)2+(195-195)2]=,
乙厂10个轮胎中宽度在[194,196]内的数据为195,196,195,194,195,195,
平均数=×(195+196+195+194+195+195)=195,
方差=×[(195-195)2+(196-195)2+(195-195)2+(194-195)2+(195-195)2+(195-195)2]=.
∵两厂标准轮胎宽度的平均数相等,但乙厂的方差更小,
∴乙厂的轮胎相对更好.
数智赋能:电子版随堂训练,根据课堂情况灵活选用
[课时跟踪检测]
一、单选题
1.已知一组数据1,2,3,4,x的下四分位数是x,则x的可能取值为 ( )
A.5 B.4
C.3 D.2
解析:选D 一共有5个数据,5×25%=1.25,故数据的下四分位数为数据从小排到大的第2个数据,所以1≤x≤2.
2.10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,17,17,16,14,12.设其平均数为a,中位数为b,众数为c,则 ( )
A.a>b>c B.b>c>a
C.c>a>b D.c>b>a
解析:选D 数据从小到大排列得10,12,14,14,15,15,16,17,17,17.则有a=×(15+17+14+10+15+17+17+16+14+12)=14.7,b=×(15+15)=15,c=17.所以c>b>a.故选D.
3.(2025·贵阳模拟)为了了解某班学生数学成绩,利用分层随机抽样抽取了一个10人的样本,统计如下:
学生数
平均分
方差
男生
6
80
7
女生
4
75
2
则可估计全班学生数学的平均分和方差分别为 ( )
A.77.5,5 B.77.5,11
C.78,5 D.78,11
解析:选D 可估计全班学生数学的平均分为80×+75×=78,方差为[7+(80-78)2]+[2+(75-78)2]=11.故选D.
4.某老师对比甲、乙两名学生最近5次数学月考成绩,甲:126,137,118,129,140,乙:115,125,117,119,124,则下列结论正确的是 ( )
A.甲成绩的平均数较小
B.乙成绩的中位数较大
C.乙成绩的极差较大
D.乙比甲的成绩稳定
解析:选D 设甲、乙成绩的平均数分别为,方差分别为,
则=×(126+137+118+129+140)=130,=×(115+125+117+119+124)=120,
∴>,甲成绩的平均数较大,故A错误;
甲成绩的中位数为129,乙成绩的中位数为119,乙成绩的中位数较小,故B错误;
甲成绩的极差为140-118=22,乙成绩的极差为125-115=10,乙成绩的极差较小,故C错误;
=×[(-4)2+72+(-12)2+(-1)2+102]=62,=×[(-5)2+52+(-3)2+(-1)2+42]=15.2,∴>,乙比甲的成绩稳定,故D正确.
5.在践行“乡村振兴”战略的过程中,某地大力发展特色花卉种植业.某农户种植一种观赏花卉,为了解花卉的长势,随机测量了100枝花卉的高度(单位:cm),得到花卉高度的频率分布直方图,如图所示,则下列说法正确的是 ( )
A.样本花卉高度的极差不超过20 cm
B.样本花卉高度的中位数不小于众数
C.样本花卉高度的平均数不小于中位数
D.样本花卉高度小于60 cm的占比不超过70%
解析:选D 对于A,由频率分布直方图可知,样本花卉高度的极差为70-40=30(cm),A错误;对于B,样本花卉高度的众数为=57.5(cm),设样本花卉高度的中位数为a cm,前三个矩形的面积和为(0.012+0.028+0.036)×5=0.38,前四个矩形的面积和为0.38+0.056×5=0.66,故a∈(55,60),由中位数的定义可得0.38+(a-55)×0.056=0.5,解得a≈57.14(cm),则a<57.5,所以样本花卉高度的中位数小于众数,B错误;对于C,由频率分布直方图可知,样本花卉高度的平均数为=42.5×0.06+47.5×0.14+52.5×0.18+57.5×0.28+62.5×0.24+67.5×0.1=56.5(cm),则<a,所以样本花卉高度的平均数小于中位数,C错误;对于D,由B可知,样本花卉高度小于60 cm的占比为66%,D正确.
6.某同学掷一枚正方体骰子5次,记录每次骰子出现的点数,统计出结果的平均数为2,方差为0.4,可判断这组数据的众数为 ( )
A.1 B.2
C.3 D.4
解析:选B 不妨设五个点数为x1≤x2≤x3≤x4≤x5,由题意知平均数为2,方差为0.4,则(x1-2)2+(x2-2)2+(x3-2)2+(x4-2)2+(x5-2)2=2,x1+x2+x3+x4+x5=10.可知五次的点数中最大点数不可能为4,5,6.五个点也不可能都是2,则五个点数情况可能是3,3,2,1,1,其方差为×[(3-2)2+(3-2)2+(2-2)2+(1-2)2+(1-2)2]==0.8,不合题意.若五个点数情况为3,2,2,2,1,其方差为×[(3-2)2+(2-2)2+(2-2)2+(2-2)2+(1-2)2]==0.4,符合题意,其众数为2.
二、多选题
7.(2025·大庆一模)为弘扬奥运精神,某学校组织高一年级学生进行奥运专题的答题活动.为了调查男生和女生对奥运会的关注程度,在高一年级随机抽取10名男生和10名女生的竞赛成绩(满分100分),按从低到高的顺序排列,得到下表中的样本数据:
男生
82
85
86
87
88
90
90
92
94
96
女生
82
84
85
87
87
87
88
88
90
92
则下列说法正确的是 ( )
A.男生样本数据的25%分位数是86
B.男生样本数据的中位数小于男生样本数据的众数
C.女生样本数据中去掉一个最高分和一个最低分后所得数据的平均数不变
D.女生样本数据中去掉一个最高分和一个最低分后所得数据的方差不变
解析:选ABC 10×25%=2.5,所以男生样本数据的25%分位数是86,故A正确;男生样本数据的中位数为=89,男生样本数据的众数为90,故B正确;女生样本数据的平均数为×(82+84+85+87×3+88×2+90+92)=87,女生样本数据中去掉一个最高分和一个最低分后所得数据的平均数为×(84+85+87×3+88×2+90)=87,故C正确;女生样本数据中去掉一个最高分和一个最低分后所得数据的平均数不变,但是极差变小,所以方差变小,故D错误.
三、填空题
8.(2025·贵阳开学考试)已知一组样本数据1,2,m,6的极差为6,若m>0,则m= ,这组数据的方差为 .
解析:因为一组样本数据1,2,m,6的极差为6,且m>0,所以m-1=6,解得m=7,则==4,所以方差为s2=[(1-4)2+(2-4)2+(6-4)2+(7-4)2]=(9+4+4+9)=.
答案:7
9.互不相等的4个正整数从小到大排序为a1,a2,a3,a4,若它们的平均数为4,且这4个数据的极差是中位数的2倍,则这4个数据的中位数为 .
解析:由题意可知,a1+a2+a3+a4=16,a4-a1=2×=a2+a3,
所以a4=a1+a2+a3=16-a4,解得a4=8,
所以a1+a2+a3=8.
又因为a1,a2,a3,a4是互不相等的4个正整数从小到大排序的,
所以a1=1,a2=2,a3=5或a1=1,a2=3,a3=4,
所以这4个数据的中位数为=.
答案:
四、解答题
10.(10分)(2025·济宁模拟)甲、乙两名学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲
82
81
79
78
95
88
93
84
乙
92
95
80
75
83
80
90
85
(1)求两名学生预赛成绩的平均数和方差;(5分)
(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪名学生参加合适?请说明理由.(5分)
解:(1)=×(82+81+79+78+95+88+93+84)=85,
=×(92+95+80+75+83+80+90+85)=85,
=×[(82-85)2+(81-85)2+(79-85)2+(78-85)2+(95-85)2+(88-85)2+(93-85)2+(84-85)2]=35.5,
=×[(92-85)2+(95-85)2+(80-85)2+(75-85)2+(83-85)2+(80-85)2+(90-85)2+(85-85)2]=41.
(2)由(1)知=<,
甲的成绩较稳定,所以派甲参赛比较合适.
11.(13分)(2025·孝感模拟)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100]得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;(3分)
(2)求样本成绩的第75百分位数;(3分)
(3)已知落在[50,60)的平均成绩是56,方差是7,落在[60,70)的平均成绩为65,方差是4,求两组成绩的总平均数和总方差s2.(7分)
解:(1)每组小矩形的面积之和为1,
∴(0.005+0.010+0.020+a+0.025+0.010)×10=1,
∴a=0.030.
(2)成绩落在[40,80)内的频率为(0.005+0.010+0.020+0.030)×10=0.65,
落在[40,90)内的频率为(0.005+0.010+0.020+0.030+0.025)×10=0.9,
设第75百分位数为m,由0.65+(m-80)×0.025=0.75,
得m=84,故第75百分位数为84.
(3)由频率分布直方图知,成绩在[50,60)的市民人数为100×0.1=10,
成绩在[60,70)的市民人数为100×0.2=20,
所以==62;
由样本方差计算总体方差公式,得总方差为
s2=×{10×[7+(56-62)2]+20×[4+(65-62)2]}=23.
第三节 成对数据的统计分析
1.了解样本相关系数的统计含义,会通过样本相关系数比较多组成对数据的相关性.
2.掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
3.针对实际问题,会用一元线性回归模型进行预测.
4.理解2×2列联表的统计意义.了解2×2列联表独立性检验及其应用.
教材再回首
1.变量的相关关系
(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
(3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)样本相关系数r=
(2)样本相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
②|r|≤1.当|r|越接近于1,成对样本数据的线性相关程度越强;|r|越接近于0,成对样本数据线性相关程度越弱.
3.一元线性回归模型
(1)一元线性回归模型
我们称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
(2)经验回归方程与最小二乘估计
经验回归方程:=x+.
最小二乘估计:
=-.
说明:经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.经验回归直线过点().
(3)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得到的差称为残差.
(4)决定系数:决定系数R2用来比较两个模型的拟合效果,R2=1- .其中(yi-)2是残差平方和,R2越大(越接近1),表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值为{0,1},其样本频数列联表(称为2×2列联表)为
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
(2)独立性检验
χ2=.利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)临界值
对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大.
下表给出了χ2独立性检验中5个常用的小概率值和相应的临界值.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
(4)基于小概率值α的检验规则
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
题点一 成对数据的相关性
[例1] (2024·广安二模)某公司收集了某商品销售收入y(万元)与相应的广告支出x(万元)共10组数据(xi,yi)(i=1,2,3,…,10),绘制出如下散点图,并利用线性回归模型进行拟合.
若将图中10个点中去掉A点后再重新进行线性回归分析,则下列说法正确的是 ( )
A.决定系数R2变小
B.残差平方和变小
C.样本相关系数r的值变小
D.解释变量x与响应变量y的相关性变弱
解析:选B 从题图中可以看出A点较其他点偏离直线远,故去掉A点后,回归效果更好,故决定系数R2会变大,更接近于1,残差平方和变小,样本相关系数r的绝对值,即|r|会更接近于1,由题图可得x与y正相关,故r会更接近于1,即样本相关系数r的值变大,解释变量x与响应变量y的相关性变强,故A、C、D错误,B正确.
|思维建模| 判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
(3)决定系数法:利用决定系数判定,R2越接近1,模型的拟合效果越好,相关性越强.
[即时训练]
1.(苏教选必修②P153“思考”改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是 ( )
答案:D
2.(2024·南昌三模)如图对两组数据x,y和v,u分别进行回归分析,得到散点图如图,并求得经验回归方程分别是=x+和=v+,并对变量x,y进行线性相关检验,得到样本相关系数r1,对变量v,u进行线性相关检验,得到样本相关系数r2,则下列判断正确的是 ( )
A.b1>0 B.b2<0
C.|r1|<|r2| D.r1+r2<0
解析:选D 由散点图可知,x与y负相关,v与u正相关,则<0,>0,故A、B错误;且图形中点(x,y)比(v,u)更加集中在一条直线附近,则|r1|>|r2|.又r1<0,r2>0,得r1+r2<0,故C错误,D正确.
题点二 回归模型
考法(一) 一元线性回归模型
[例2] 为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下.
x/千克
2
4
5
6
8
y/千克
300
400
400
400
500
(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请计算样本相关系数r并加以说明;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为20千克时,西红柿亩产量的增加量约为多少千克?
参考数据:≈3.16.
解:(1)由已知数据可得
=×(2+4+5+6+8)=5,
=×(300+400+400+400+500)=400,
(xi-)(yi-)=600, (xi-)2=20,
(yi-)2=20 000,
∴样本相关系数r==≈0.95.
∵|r|>0.75,∴可用线性回归模型拟合y与x的关系.
(2)===30,
=-=400-30×5=250,
∴经验回归方程为=30x+250.
当x=20时,=30×20+250=850.
即当液体肥料每亩使用量为20千克时,西红柿亩产量的增加量约为850千克.
|思维建模| 回归分析问题的类型及解题方法
(1)求经验回归方程:①当两个系数均未知时,可利用公式法求解;②当两个系数已知一个求另一个时,可利用经验回归直线过样本点的中心求解.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
(3)经验回归方程的拟合效果可以利用样本相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
考法(二) 非线性回归模型
[例3] (2025·广州模拟)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如下散点图,并计算得=6.8,=70,=3,=1.6,=350.
(1)根据散点图可知,可用函数模型=+拟合y与x的关系,试建立y关于x的回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大?(注:年利润=年销售额-年投入成本)
解:(1)令u=,则=0.3.
则y关于u的经验回归方程为=+u,
由题意可得===200,
=-=70-200×0.3=10,则=10+200u,
所以y关于x的回归方程为=10+.
(2)由=10+可得x=,
年利润M=m-x-10=-+++100--10=-(y-20)2+90.8,
当y=20时,年利润M取得最大值,此时x===20,
所以当年技术创新投入为20千万元时,年利润的预报值最大.
|思维建模|
(1)非线性回归分析问题的解题方法:借助散点图,确定合适的非线性回归模型,再通过变换,转化为求线性经验回归方程,最后还原.
(2)常见非线性经验回归方程的变换:
①=+(x-c)2→=+t(令t=(x-c)2);
②=+ln(x-c)→=+t(令t=ln(x-c));
③=+→=+t(令t=);
④=+→=+t;
⑤=·→ln =ln +xln →=+x,
其中
[即时训练]
3.[多选]某厂近几年陆续购买了几台A型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
根据表中的数据可得到经验回归方程为y=1.23x+,则 ( )
A.y与x的样本相关系数r≥0
B.=0.08
C.表中维修费用的第60百分位数为6
D.该型机床已投入生产的时间为10年时,当年所需要支出的维修费用一定是12.38万元
解析:选BC 根据题意可得
=4,=×(2.2+3.8+5.5+6.5+7)=5,
所以样本中心点为(4,5),由表中数据可得y随着x的增大而增大,x与y正相关,所以样本相关系数r>0,r=0时x与y不相关,故A错误;将样本中心点(4,5)代入经验回归方程y=1.23x+,解得=0.08,故B正确;维修费用从小到大依次为2.2,3.8,5.5,6.5,7,第60百分位数为=6,故C正确;根据回归分析的概念,机床投入生产的时间为10年时,所需要支出的维修费用大概是12.38万元,故D错误.
4.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:y=α+βx2;y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,ui=,vi=ln yi(i=1,2,…,10).经计算得如下数据:
=26
=215
=680
=5.36
(xi-)2
=100
(ui-)2
=22 500
(ui-)(yi-)
=260
(yi-)2
=4
(vi-)2
=4
(xi-)(vi-)
=18
(1)请从样本相关系数的角度,分析哪一个模型拟合度更好?
(2)根据(1)的选择及表中数据,建立y关于x的回归方程.(系数精确到0.01)
解:(1)设模型y=α+βx2的样本相关系数为r1,模型y=eλx+t的样本相关系数为r2,
对于模型y=α+βx2,令u=x2,即y=α+βu,
所以r1==
≈0.87.
对于模型y=eλx+t,有ln y=ln eλx+t=λx+t,
令v=ln y,即v=λx+t,
所以r2==
=0.9.
因为r1<r2,所以模型y=eλx+t拟合度更好.
(2)因为===0.18,
=-=5.36-0.18×26=0.68,
所以y关于x的回归方程为=e0.18x+0.68.
反思领悟:对y=eλx+t取对数得ln y=λx+t,求得v关于x的线性回归方程,再转化为y关于x的回归方程,是处理本题的难点和关键点.
题点三 独立性检验
[例4] (2025年1月·八省高考适应性演练)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表.
药物
疾病
合计
未患病
患病
未服用
100
80
s
服用
150
70
220
合计
250
t
400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效?
附:χ2=.
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解:(1)由列联表知s=100+80=180,t=80+70=150.
(2)由列联表知未服用药物A的动物有s=180(只),
未服用药物A且患疾病B的动物有80只,
所以未服用药物A的动物患疾病B的频率为=,所以未服用药物A的动物患疾病B的概率的估计值为p=.
(3)零假设为H0:药物A对预防疾病B无效,
由列联表得到χ2==≈6.734>6.635.
根据小概率值α=0.01的独立性检验,推断H0不成立,
即认为药物A对预防疾病B有效,该推断犯错误的概率不超过0.01,
所以根据小概率值α=0.01的独立性检验,能认为药物A对预防疾病B有效.
|思维建模| 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
[即时训练]
5.(2025·绵阳阶段练习)2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:
喜欢奥数
不喜欢奥数
合计
已选奥数课(A组)
150
50
200
未选奥数课(B组)
90
110
200
合计
240
160
400
(1)若从样本内喜欢奥数的240人中用分层随机抽样的方法随机抽取32人,则应在A组、B组各抽取多少人?
(2)依据小概率值α=0.005的独立性检验,能否认为选报奥数延时课与喜欢奥数有关?
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
解:(1)应在A组抽取×150=20人,应在B组抽取×90=12人.
(2)零假设为H0:选报奥数延时课与喜欢奥数无关联,
根据列联表中的数据,经计算可得
χ2==37.5>7.879,
根据小概率值α=0.005的独立性检验,我们推断零假设不成立,
即认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005.
数智赋能:电子版随堂训练,根据课堂情况灵活选用
[课时跟踪检测]
一、单选题
1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性? ( )
A.甲 B.乙
C.丙 D.丁
解析:选D r的绝对值越大,m越小,线性相关性越强.
2.根据分类变量X和Y的样本观察数据的计算结果,有不少于99.5%的把握认为X和Y有关,则χ2的一个可能取值为 ( )
α
0.10
0.05
0.025
0.010
0.005
xα
2.706
3.841
5.024
6.635
7.879
A.3.971 B.5.872
C.6.775 D.9.698
解析:选D 因为有不少于99.5%的把握认为X和Y有关,所以χ2≥7.879,9.698>7.879,满足题意,故选D.
二、多选题
3.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):
幸福感强
幸福感弱
合计
阅读量多
m
18
72
阅读量少
36
n
78
合计
90
60
150
计算得χ2≈12.981,参照下表:
α
0.10
0.05
0.025
0.010
0.005
0.001
xα
2.706
3.841
5.024
6.635
7.879
10.828
对于下面的选项,正确的是 ( )
A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”
B.m=54
C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”
D.n=52
解析:选BC ∵χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错误,C正确.∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,D错误.
三、填空题
4.(2025·江门阶段练习)已知x,y之间的一组数据:若y与满足经验回归方程=+,则此曲线必过点 .
x
1
4
9
16
y
1
2.98
5.01
7.01
解析:由已知=+,设t=,则=t+,由经验回归直线性质可得()在直线=t+上,又=×(1+2+3+4)=2.5,=×(1+2.98+5.01+7.01)=4,所以点(2.5,4)在直线=t+上,故点(6.25,4)在曲线=+上.
答案:(6.25,4)
5.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示.
性别
注意力
稳定
不稳定
男
29
7
女
33
5
则χ2= (精确到小数点后三位),依据概率值α=0.05的独立性检验,该实验 该年龄段的学生在注意力的稳定性上对于性别没有显著差异.(填“拒绝”或“支持”)
解析:由表中数据可知a=29,b=7,c=33,d=5,
n=a+b+c+d=74,
根据χ2=,
计算可知
χ2=
≈0.538<3.841=x0.05,所以没有充分证据认为学生在注意力的稳定性上与性别有关,即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.
答案:0.538 支持
四、解答题
6.(10分)某地区的一种传染病与饮用水的调查表如下:
饮用水
是否得病
合计
得病
不得病
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关?请说明理由;(5分)
(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两个样本在反映总体时的差异.(5分)
附:χ2=,其中n=a+b+c+d.
α
0.1
0.025
0.01
0.005
0.001
xα
2.706
5.024
6.635
7.879
10.828
解:(1)零假设为H0:这种传染病与饮用水的卫生程度无关.
=≈54.21>10.828=x0.001,根据小概率值α=0.001的独立性检验,可推断H0不成立,即认为该地区这种传染病与饮用水的卫生程度有关,此推断犯错误的概率不超过0.001.
(2)依题意得2×2列联表如下:
饮用水
是否得病
合计
得病
不得病
干净水
5
50
55
不干净水
9
22
31
合计
14
72
86
零假设为H0:这种传染病与饮用水的卫生程度无关.=≈5.785>5.024=x0.025,根据小概率值α=0.025的独立性检验,可推断H0不成立,即认为该种传染病与饮用水的卫生程度有关,此推断犯错误的概率不超过0.025.
两个样本都能得到这种传染病与饮用水的卫生程度有关这一相同结论,但两者的准确程度不同.
7.(10分)我国某农业大学植物研究所相关人员为了解仙人掌的植株高度y(单位:cm),与其根茎长度x(单位:cm)之间是否存在线性相关关系,通过采样和数据记录得到如下数据:
样本编号i
1
2
3
4
根茎长度xi
10
12
14
16
植株高度yi
62
86
112
132
(1)由上表数据计算样本相关系数r,并说明是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则可用线性回归模型拟合,计算结果精确到0.001)(5分)
(2)求y关于x的经验回归方程.(5分)
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线的斜率和截距的最小二乘估计公式、样本相关系数r的公式分别为==-,r=.
参考数据:=20,=2 792,≈59.1.
解:(1)易得=×(10+12+14+16)=13,=×(62+86+112+132)=98,
(xi-)(yi-)=(-3)×(-36)+(-1)×(-12)+1×14+3×34=236,
故r===≈≈0.998.
则|r|>0.75,故可用线性回归模型模拟.
(2)===11.8,
=-=98-11.8×13=-55.4,
故y关于x的经验回归方程为=11.8x-55.4.
8.(15分)数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:
科技投入x
1
2
3
4
5
6
7
收益y
19
20
22
31
40
50
70
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:
xiyi
xizi
5
140
1 239
149
2 134
130
其中zi=log2yi,=zi.
(1)请根据表中数据,建立y关于x的回归方程;(系数精确到0.1)(5分)
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为=8.25x+3,以及该回归模型的决定系数=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好;(6分)
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)(4分)
参考公式及数据:决定系数R2=1-;log25≈2.3.
解:(1)将y=2bx+a两边取对数得log2y=bx+a,令z=log2y,则=x+,
∵=4,
∴根据最小二乘估计可知==≈0.3,
∴=-≈5-0.3×4=3.8,
∴经验回归方程为=0.3x+3.8,
即y关于x的回归方程为=20.3x+3.8.
(2)①甲建立的回归模型的决定系数R2=1-=1-≈0.939>=0.893.
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
设20.3x+3.8≥100,两边取对数得0.3x+3.8≥log2100=2+2log25,
解得x≥9.3.
∴科技投入的费用至少要9.3百万元,该企业的收益才能达到1亿元.
学科网(北京)股份有限公司
$$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。