内容正文:
第九章统计与成对数据的统计分析
第一节 随机抽样与统计图表
【课程标准】 1.了解总体、个体、样本、样本量的概念,了解数据的随机性.2.了解简单随机抽样及分层随机抽样.理解统计图表的含义.
必备知识梳理
教|材|回|顾
1.总体、个体、样本
调查对象的全体(或调查对象的某些指标的全体)称为 总体 ,组成总体的每一个调查对象(或每一个调查对象的相应指标)称为 个体 ,在抽样调查中,从总体中抽取的那部分个体称为 样本 ,样本中包含的个体数称为 样本容量 ,简称样本量.
2.简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做 放回 简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做 不放回 简单随机抽样. 放回简单随机抽样 和 不放回简单随机抽样 统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
常见的简单随机抽样方法:(1) 抽签法 ;(2) 随机数法 .
提醒:除非特殊说明,所称的简单随机抽样指不放回简单随机抽样.
3.分层随机抽样
(1)定义
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行 简单随机 抽样,再把所有子总体中抽取的样本 合在一起 作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(2)比例分配
在分层随机抽样中,如果每层 样本量 都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
(3)平均数计算
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层和第2层样本的平均数分别为,,则样本的平均数= + = + .
4.各类统计图的特点
类型
作用
频率分布
直方图
主要以面积的形式描述数据落在各个小组的频率的大小,可以估计总体数据的分布趋势
扇形图
主要用于直观描述各类数据占总数的比例
条形图
主要用于直观描述不同类别或分组数据的频数和频率,尤其是离散型的数据
折线图
主要用于描述数据随时间的变化趋势
5.作频率分布直方图的步骤
(1)求 极差 (即一组数据中最大值与最小值的差);
(2)决定组距与组数;
(3)将 数据 分组;
(4)列频率分布表;
(5)画频率分布直方图.
微|点|延|伸
1.简单随机抽样和分层随机抽样在抽样过程中每个个体被抽取的机会相等.
2.分层随机抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
3.在频率分布直方图中,中位数左边和右边的直方图的面积是相等的.
4.频率分布直方图中纵轴上的数据是各组的频率除以组距,不要和条形图混淆.
小|题|快|练
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是(A)
A.总体
B.个体
C.样本量
D.从总体中抽取的一个样本
解析 由题目条件知,5 000名居民的阅读时间的全体是总体;其中每1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本量是200.故选A.
2.某校高一年级1 000名学生的血型情况如图所示.某课外兴趣小组采用分层随机抽样的方法从中抽取一个容量为50的样本,则从高一年级A型血的学生中应抽取的人数是(A)
A.11 B.22
C.110 D.220
解析 由图中数据可知高一年级A型血的学生占高一年级学生总体的22%,所以抽取一个容量为50的样本,从A型血的学生中应抽取的人数是50×22%=11.故选A.
3.在调查某中学的学生身高时,利用比例分配的分层随机抽样的方法抽取男生20人,女生15人,得到了男生身高的平均值为170 cm,女生身高的平均值为165 cm.则该中学所有学生的平均身高约为 167.86 cm.(保留两位小数)
解析 =≈167.86.即该中学所有学生的平均身高约为167.86 cm.
4.已知某一段公路限速70千米/时,现抽取400辆通过这一段公路的汽车的速度,其频率分布直方图如图所示,则这400辆汽车中在该路段超速的有 80 辆.
解析 速度在(70,80]内的频率为1-(0.01×10+0.03×10+0.04×10)=0.2,所以在(70,80]内的频数为0.2×400=80.故这400辆汽车中在该路段超速的有80辆.
关键能力落实
类型一 简单随机抽样 自练自悟
1.(多选题)下列抽样方法不是简单随机抽样的是(AB)
A.在机器传送带上抽取30件产品作为样本
B.从平面直角坐标系中抽取5个点作为样本
C.箱子里共有100个零件,从中选取10个零件进行检验,在抽样操作时,每次任意地拿出1个零件进行质量检验,检验后不再把它放回箱子里,直到抽取10个零件为止
D.某可乐公司从仓库中的1 000箱可乐中逐个不放回抽取20箱进行质量检查
解析 A不是,因为传送带上的产品数量不确定;B不是,因为个体的数量无限;C,D是,因为满足简单随机抽样的定义.故选AB.
2.总体由编号01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为(B)
第1行 78 16 62 32 08 02 62 42
62 52 53 69 97 28 01 98
第2行 32 04 92 34 49 35 82 00
36 23 48 69 69 38 74 81
A.19 B.25
C.26 D.27
解析 由随机数法可知,样本的前5个个体的编号分别为23,20,26,24,25,因此,选出的第5个个体的编号为25.故选B.
3.用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是(A)
A., B.,
C., D.,
解析 第一次被抽到,显然为;第二次被抽到,首先第一次不能被抽到,第二次才被抽到,可能性为×=.故选A.
1.简单随机抽样需满足:(1)被抽取的样本总体的个体数有限;(2)逐个抽取;(3)是不放回抽取;(4)是等可能抽取.(一次性抽取和逐个不放回抽取是等价的)
2.简单随机抽样常有抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).
类型二 分层随机抽样
【例1】 (1)(2025·西安联考)某工厂甲、乙、丙三个车间,生产了同一种产品,数量分别为3 200,x,2 400,为了解各车间的产品是否存在显著差异,采用按比例分配分层随机抽样的方式按车间抽取样本进行检测.若在甲、乙两车间共抽取了90件,在乙、丙两车间共抽取了80件,则x=(D)
A.3 000 B.3 200
C.3 600 D.4 000
解析 由按比例分配的分层随机抽样可知=,解得x=4 000.故选D.
(2)某高中团委举办了共青团史知识竞赛(满分100分),其中高一、高二、高三年级参赛的共青团员的人数分别为800,600,600.现用分层随机抽样的方法从三个年级中抽取样本,经计算可得高一、高二年级共青团员成绩的样本平均数分别为85,90,全校共青团员成绩的样本平均数为88,则高三年级共青团员成绩的样本平均数为(C)
A.87 B.89
C.90 D.91
解析 因为高一、高二、高三年级参赛的共青团员的人数分别为800,600,600,设利用分层随机抽样从高一年级抽取4a人,则从高二年级抽取3a人,从高三年级抽取3a人,设高三年级共青团员成绩的样本平均数为x,则=88,解得x=90.故选C.
进行分层随机抽样的相关计算时,常利用以下关系式巧解:
1.=;
2.总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
【训练】 (1)某学校有初级教师21人,中级教师14人,高级教师7人,现采用分层随机抽样的方法从这些教师中抽取6人对绩效工资情况进行调查,再从中随机抽取2名教师进行进一步数据分析,则抽取的2名教师均为初级教师的概率为(B)
A. B.
C. D.
解析 从初级教师、中级教师、高级教师中分别抽取的人数为3,2,1,则再从中随机抽取2名教师进行进一步数据分析,抽取的2名教师均为初级教师的概率为==.故选B.
(2)记样本x1,x2,…,xm的平均数为,样本y1,y2,…,yn的平均数为(≠).若样本x1,x2,…,xm,y1,y2,…,yn的平均数为=+,则的值为(D)
A.3 B.4
C. D.
解析 由题意知x1+x2+…+xm=m,y1+y2+…+yn=n,===+=+,所以=,=,可得n=3m,=.故选D.
类型三 统计图表
考向❶:扇形图、条形图
【例2】 (多选题)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A—结伴步行,B—自行乘车,C—家人接送,D—其他方式.并将收集的数据整理绘制成如图所示的两幅不完整的统计图.根据图中信息,下列说法正确的是(ABD)
A.扇形图中D的占比最小
B.条形图中A和C一样高
C.无法计算扇形图中A的占比
D.估计该校一半的学生选择结伴步行或家人接送
解析 由条形图知,自行乘车上学的有42人,家人接送上学的有30人,其他方式上学的有18人,采用B,C,D三种方式上学的共90人.设结伴步行上学的有x人,由扇形图知,结伴步行上学与自行乘车上学的学生共占60%,所以=,解得x=30,故条形图中A,C一样高;扇形图中A的占比与C一样,都为25%;A和C共占50%,即估计该校一半的学生选择结伴步行或家人接送;扇形图中D的占比最小.故选ABD.
统计图表的作用
1.扇形图:直观描述各类数据占总数的比例.
2.条形图:直观描述不同类别或分组数据的频数和频率.
考向❷:折线图
【例3】 (多选题)如图是全国居民消费价格涨跌幅的统计图(月度同比增长率是指本月和上一年同月相比较的增长率,月度环比增长率是指本月和上一个月相比较的增长率),从2023年5月到2024年5月(BCD)
A.全国居民消费价格月度同比涨跌幅的极差为1.9%
B.2024年1月份全国居民消费价格月度环比涨幅最大
C.2024年5月份全国居民消费价格比2023年5月份全国居民消费价格上涨了0.2%
D.2024年2月份开始,全国居民消费价格持续下降
解析 由题图可知月度同比涨幅最大为2.8%,最小为0.1%,2.8%-0.1%=2.7%,所以全国居民消费价格月度同比涨跌幅的极差为2.7%,故A错误;月度环比曲线中,2024年1月份全国居民消费价格月度环比涨幅最大为0.8%,故B正确;2024年5月份月度同比涨幅为0.2%,则全国居民消费价格上涨了0.2%,故C正确;2024年2月份开始,月度环比增长率都为负数,则全国居民消费价格持续下降,故D正确.故选BCD.
折线图描述了数据随时间的变化趋势.
考向❸:频率分布直方图
【例4】 (2025·云南联考)要调查某地区高中学生身体素质,从高中生中抽取100人进行跳远测试,根据测试成绩制作频率分布直方图如图,现从成绩在[120,140)之间的学生中用分层随机抽样的方法抽取5人,应从[120,130)间抽取人数为b,则(D)
A.a=0.025,b=2 B.a=0.025,b=3
C.a=0.030,b=4 D.a=0.030,b=3
解析 由题得10×(0.005+0.035+a+0.020+0.010)=1,所以a=0.030.在[120,130)之间的学生有100×10×0.030=30(人),在[130,140)之间的学生有100×10×0.020=20(人),则在[120,140)之间的学生有50人,又用分层随机抽样的方法在[120,140)之间的学生中抽取5人,即抽样比为,所以成绩在[120,130)之间的学生中抽取的人数应为30×=3,即b=3.故选D.
频率分布直方图的数据特点
1.频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.
2.频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.
【题组对点练】
题号
1
2
3
考向
❶
❷
❸
1.已知某地区中小学生人数如图①所示,为了解该地区中小学生的近视情况,卫生部门根据当地中小学生人数,用按比例分配的分层随机抽样的方法抽取了10%的学生进行调查,调查数据如图②所示,则估计该地区中小学生的平均近视率为(D)
① ②
A.50% B.32%
C.30% D.27%
解析 根据题意,抽取的样本容量为(3 500+4 500+2 000)×10%=1 000,其中小学生、初中生、高中生抽取人数分别为350,450,200,根据图②知抽取的小学生、初中生、高中生中,近视的人数分别为35,135,100,所以估计该地区学生的平均近视率为×100%=27%.故选D.
2.(多选题)《黄帝内经》中十二时辰养生法认为子时的睡眠对一天至关重要(子时是指23点到次日凌晨1点).相关数据表明,入睡时间越晚,沉睡时间越少,睡眠指数也就越低.根据某次的抽样数据,对早睡群体和晚睡群体的睡眠指数统计如图,则下列说法错误的是(ACD)
A.在睡眠指数[60,80)的人群中,早睡人数多于晚睡人数
B.早睡人群睡眠指数主要集中在[80,90)
C.早睡人群睡眠指数的极差比晚睡人群睡眠指数的极差小
D.晚睡人群睡眠指数主要集中在[60,80)
解析 由题图知,每一组中的早睡人群占比与晚睡人群占比都是以早睡与晚睡各自的总人数为基数的,所以每一组中的早睡人数与晚睡人数不能从所占的百分比来判断,故A错误;早睡人群睡眠指数主要集中在[80,90),晚睡人群睡眠指数主要集中在[50,60),B正确,D错误;早睡人群睡眠指数的极差和晚睡人群睡眠指数的极差的大小无法确定,故C错误.故选ACD.
3.某高校调查了400名学生每周的自习时间(单位:小时),将收集到的自习时间分成5组:[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30](自习时间均在[17.5,30]内),制成了如图所示的频率分布直方图,则这400名学生中每周的自习时间不少于22.5小时的人数是 280 .
解析 由频率分布直方图知,这400名学生中每周的自习时间不少于22.5小时的人数为400×(0.16+0.08+0.04)×2.5=280.
第二节 用样本估计总体
【课程标准】 1.了解百分位数的意义和作用,会计算样本的百分位数,理解它在实际中的应用;2.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释;3.理解样本数据标准差的意义和作用,会计算数据标准差;4.能用样本估计总体的集中趋势参数(平均数、中位数、众数)、离散程度参数(标准差、方差、极差).
必备知识梳理
教|材|回|顾
1.百分位数
(1)一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)四分位数.常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第 25 百分位数也称为第一四分位数或下四分位数等,第 75 百分位数也称为第三四分位数或上四分位数.
2.总体集中趋势的估计
众数、中位数、平均数
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小矩形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分为左右两个面积相等的部分,分界线与x轴交点的横坐标
平均数
样本数据的算术平均数=(x1+x2+…+xn)
每个小矩形的面积乘小矩形底边中点的横坐标之和
3.总体离散程度的估计——方差和标准差
(1)假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,则我们称(xi-)2为这组数据的方差.有时为了计算方差的方便,我们还把方差写成-的形式.为了与原始数据的单位一致,我们对方差开平方,取它的算术平方根,称为这组数据的标准差.
(2)方差和标准差刻画了数据的离散程度或波动幅度.
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
标准差:
s=.
(3)分层随机抽样的均值与方差.
分层随机抽样中,如果样本量是按比例分配,记总的样本平均数为,样本方差为s2.
以分两层抽样的情况为例.假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为,则=xi,=(xi-)2,=yi,=(yi-)2.
则①=+;
②s2={m[+(-)2]+n[+(-)2]}.
微|点|延|伸
1.若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
2.若数据x1,x2,…,xn的方差为s2,则:
(1)数据x1+a,x2+a,…,xn+a的方差也为s2;
(2)数据ax1,ax2,…,axn的方差为a2s2.
小|题|快|练
1.在下列统计量中,用来描述一组数据离散程度的量是(D)
A.平均数 B.众数
C.百分位数 D.标准差
解析 标准差反映了数据离散程度的大小,所以说标准差是用来描述一组数据离散程度的统计量,故D正确.
2.样本数据16,24,14,10,20,30,12,14,40的中位数为(B)
A.14 B.16 C.18 D.20
解析 将所给样本数据按由小到大的顺序排列为10,12,14,14,16,20,24,30,40,故中位数是16.故选B.
3.如图所示,样本A和B分别取自两个不同的总体,它们的样本平均数分别为和,样本标准差分别为sA和sB,则(B)
A.>,sA>sB B.<,sA>sB
C.>,sA<sB D.<,sA<sB
解析 观察题图可得样本A的数据均小于或等于10,样本B的数据均大于或等于10,故<,又样本B的数据波动范围较小,故sA>sB.故选B.
4.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为 14.5 ,第86百分位数为 17 .
解析 因为75%×20=15,所以第75百分位数为=14.5.因为86%×20=17.2,所以第86百分位数为第18个数据17.
5.有一组数据:-1,a,-2,3,4,2,它们的中位数是1,则这组数据的平均数是 1 .
解析 数据-1,a,-2,3,4,2,已知除a以外的数据从小到大排序为-2,-1,2,3,4,要使得中位数为1,则a在第3位或第4位,即=1,a=0,经检验符合题意,所以这组数据的平均数是=1.
关键能力落实
类型一 总体百分位数的估计 自练自悟
1.已知100个数据的第25百分位数是12.5,则下列说法正确的是(C)
A.这100个数据中一定有25个数小于12.5
B.把这100个数据从小到大排列后,12.5是第25个数据
C.把这100个数据从小到大排列后,12.5是第25个数据和第26个数据的平均数
D.把这100个数据从小到大排列后,12.5是第25个数据和第24个数据的平均数
解析 因为100×25%=25为整数,所以根据百分位数的定义,可知将这100个数据从小到大排列后,12.5是第25个数据和第26个数据的平均数,所以这100个数据中一定有25个数小于或等于12.5,故A、B、D错误,C正确.
2.(2025·马鞍山一模)现有一组数据:663,664,665,668,671,664,656,674,651,653,652,656,则这组数据的第85百分位数是(C)
A.652 B.668
C.671 D.674
解析 由题意这组数据共12个,则12×85%=10.2,将这组数据从小到大排列为651,652,653,656,656,663,664,664,665,668,671,674,故这组数据的第85百分位数为第11个数,即671.故选C.
3.某校举办歌唱比赛,将200名参赛选手的成绩整理后画出频率分布直方图如图,根据频率分布直方图,第40百分位数估计为(C)
A.64 B.65 C.66 D.67
解析 由题图可知(a+0.015+0.025+0.035+a+0.005)×10=1,所以a=0.010,0.010+0.015+0.025=0.05,即第40百分位数位于区间[60,70),设第40百分位数为x,则=,解得x=66.故选C.
1.计算一组n个数据第p百分位数的步骤
(1)按从小到大排列原始数据;(2)计算i=n×p%;(3)若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数;若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据.
2.频率分布直方图中总体百分位数的估计与步骤
(1)确定要求的p%分位数所在分组[A,B);(2)由频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×.
类型二 总体集中趋势的估计
【例1】 (1)10名工人某天生产同一零件,生产的件数是:15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有(B)
A.a>b>c B.c>b>a
C.c>a>b D.b>c>a
解析 从小到大排列此数据为:10,12,14,14,15,15,16,17,17,17.平均数为×(10+12+14×2+15×2+16+17×3)=14.7;数据17出现了三次,17为众数;第5位、第6位均是15,故15为中位数.所以a=14.7,b=15,c=17,即a<b<c.故选B.
(2)(多选题)某城市在创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为100的样本,发现数据均在[40,100]内.现将这些分数分成6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,则下列说法正确的是(ABC)
A.频率分布直方图中第三组的频数为10
B.根据频率分布直方图估计样本的众数为75分
C.根据频率分布直方图估计样本的中位数为75分
D.根据频率分布直方图估计样本的平均数为75分
解析 分数在[60,70)内的频率为1-10×(0.005+0.020+0.030+0.025+0.010)=0.10,所以第三组的频数为100×0.10=10,故A正确;因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,从图中可看出众数的估计值为75分,故B正确;因为(0.005+0.020+0.010)×10=0.35<0.5,(0.005+0.020+0.010+0.030)×10=0.65>0.5,所以中位数位于[70,80)内,设中位数为x,则0.35+0.03(x-70)=0.5,解得x=75,所以中位数的估计值为75分,故C正确;样本平均数的估计值为45×(10×0.005)+55×(10×0.020)+65×(10×0.010)+75×(10×0.030)+85×(10×0.025)+95×(10×0.010)=73(分),故D错误.故选ABC.
频率分布直方图的数字特征
1.众数:最高矩形的底边中点的横坐标.
2.中位数:中位数左边和右边的矩形的面积和应该相等.
3.平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
【训练】 (1)(2025·兰州模拟)某校为了提高学生的安全意识,组织高一年级全体学生进行安全知识竞赛答题活动,随机抽取8人的得分作为样本.分数从低到高依次为84,85,87,87,90,a,b,99,若这组数据的第75百分位数为94,则利用样本估计此次竞赛的平均分为(C)
A.85 B.86 C.90 D.95
解析 因为8×75%=6,所以这组数据的第75百分位数为=94,得a+b=188,所以这组数据的平均数为=90,故选C.
(2)众数、平均数、中位数从不同角度刻画了一组数据的集中趋势,它们的大小关系和数据分布的形态有关.在如图所示的分布形态中,平均数、众数和中位数的大小关系是(由小到大排列)(A)
A.众数<中位数<平均数
B.平均数<众数<中位数
C.中位数<平均数<众数
D.众数<平均数<中位数
解析 众数是最高矩形的中点横坐标,因此众数在第二组的中点处.因为直方图在右边拖尾,所以平均数大于中位数,又中位数左边和右边的直方图的面积相等,所以中位数落在第三组内,因此有众数<中位数<平均数.故选A.
类型三 总体离散程度的估计
考向❶:方差与标准差
【例2】 (2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验序号i
1
2
3
4
5
6
7
8
9
10
伸缩率xi
545
533
551
522
575
544
541
568
596
548
伸缩率yi
536
527
543
530
560
533
522
550
576
536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
解 (1)由题意,求出zi的值如表所示,
试验
序号i
1
2
3
4
5
6
7
8
9
10
zi
9
6
8
-8
15
11
19
18
20
12
则=×(9+6+8-8+15+11+19+18+20+12)=11,s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)因为2=2=,=11=>,所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)较大,数据的离散程度越大;标准差(方差)较小,数据的离散程度越小.
考向❷:分层随机抽样的方差
【例3】 (2024·浙江二模)为了解某中学学生假期中每天自主学习的时间,采用样本量按比例分配的分层随机抽样,现抽取高一学生40人,其每天学习时间均值为8小时,方差为0.5,抽取高二学生60人,其每天学习时间均值为9小时,方差为0.8,抽取高三学生100人,其每天学习时间均值为10小时,方差为1,则估计该校学生每天学习时间的方差为(B)
A.1.4 B.1.45
C.1.5 D.1.55
解析 由题意可得,该校学生每天学习时间的均值为=×8+×9+×10=9.3,该校学生每天学习时间的方差为s2=×[0.5+(8-9.3)2]+×[0.8+(9-9.3)2]+×[1+(10-9.3)2]=1.45.故选B.
计算分层随机抽样方差
首先求出各层的平均数与方差,最后应用公式s2=[+(-)2]+[+(-)2]求解.
【题组对点练】
题号
1
2
考向
❶
❷
1.已知一组数据x1,x2,x3,x4,x5的平均数为2,方差为,则另一组数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数、标准差分别为(C)
A.2, B.2,1
C.4, D.4,
解析 因为一组数据x1,x2,x3.x4,x5的平均数为2,方差为,所以另一组数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数为3×2-2=4,方差为32×=,即平均数、标准差分别为4,.故选C.
2.(2025·东北四市联考)为了迎接2025年第九届亚冬会的召开,某班组织全班学生开展有关亚冬会知识的竞赛活动.已知该班男生35人,女生25人.根据统计分析,男生组成绩和女生组成绩的方差分别为,,该班成绩的方差为s2,则下列结论中一定正确的是(D)
A.s2= B.s2≥
C.s2= D.s2≥
解析 设该班的男生组成绩的平均值为,女生组成绩的平均值为,该班成绩的平均值为.因为男生组成绩和女生组成绩的方差分别为,,该班成绩的方差为s2,且男生有35人,女生有25人,所以s2=≥=,故选D.
第三节 成对数据的统计分析
【课程标准】 1.了解样本相关系数的统计含义;2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题;3.会利用统计软件进行数据分析.
必备知识梳理
教|材|回|顾
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)样本相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:r=.
(2)样本相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,其中
(2)残差:观测值减去预测值所得的差称为残差.
(3)决定系数
R2=1-,R2越大,即模型的拟合效果越好,R2越小,即模型的拟合效果越差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
记n=a+b+c+d,则随机变量χ2=.
(2)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
下表给出了χ2独立性检验中五个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
微|点|延|伸
1.相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.经验回归直线=x+必过样本点的中心(,).
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
4.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两个分类变量有关的把握越大.
小|题|快|练
1.(多选题)下列有关回归分析的说法中正确的是(CD)
A.相关关系是一种确定性的关系
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数r>0时,两个变量正相关
D.两个变量的线性相关性越弱,|r|越接近于0
解析 相关关系是不确定的关系,故A错;经验回归直线在散点图中可能不经过任一样本数据点,故B错;当样本相关系数r>0时,两个变量正相关,故C对;两个变量的线性相关性越弱,|r|越接近于0,故D对.故选CD.
2.如图,有5个(x,y)数据,去掉D(3,10)后,下列说法错误的是(B)
A.样本相关系数r变大
B.残差平方和变大
C.R2变大
D.解释变量x与响应变量y的相关程度变强
解析 去掉一个极端值,根据样本相关系数、残差平方和的定义、R2的含义可知,A、C、D正确.故选B.
3.已知某产品的营销费用x(单位:万元)与销售额y(单位:万元)的统计数据如表所示,根据下表可得y关于x的经验回归方程为=7x+,则当该产品的营销费用为6万元时,预计销售额为(C)
营销费用x/万元
2
3
4
5
销售额y/万元
15
20
30
35
A.40.5万元 B.41.5万元
C.42.5万元 D.45万元
解析 ==3.5,==25,因为经验回归方程为=7x+,所以25=3.5×7+,解得=0.5,所以经验回归方程为=7x+0.5,将x=6代入,得=7×6+0.5=42.5.故当该产品的营销费用为6万元时,预计销售额为42.5万元.故选C.
4.已知变量x和y的统计数据如表:
x
6
7
8
9
10
y
3.5
4
5
6
6.5
若由表中数据得到经验回归方程为=0.8x+,则当x=10时的残差为 -0.1 (注:观测值减去预测值所得的差称为残差).
解析 ==8,==5,则=5-0.8×8=-1.4,所以=0.8x-1.4,当x=10时,=6.6,所以当x=10时的残差为6.5-6.6=-0.1.
5.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如表所示:
性别
主修专业
合计
非统计专业
统计专业
男
13
10
23
女
7
20
27
合计
20
30
50
为了判断主修专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844,因为χ2>3.841,所以判定主修专业与性别有关系,那么这种判断出错的可能性 小于 0.05(填“大于”或“小于”).
附:
α
0.1
0.05
0.01
0.001
xa
2.706
3.841
6.635
10.828
解析 因为χ2>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,认为主修专业与性别有关,这种判断出错的可能性小于0.05.
关键能力落实
类型一 成对数据的相关性
【例1】 某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第x天的滑雪人数y(单位:百人)的数据.
天数代码x
1
2
3
4
5
6
7
滑雪人数y/百人
11
13
16
15
20
21
23
根据第1至7天的数据分析,可用线性回归模型来拟合y与x的关系,请用样本相关系数加以说明.(保留两位有效数字)
参考数据:xiyi=532,≈57.48.
参考公式:
对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其样本相关系数r=.
解 因为=×(1+2+3+4+5+6+7)=4,=×(11+13+16+15+20+21+23)=17,所以(xi-)(yi-)=xiyi-7=532-7×4×17=56,所以r=≈≈0.97,所以样本相关系数r的绝对值接近于1,所以可以推断x和y这两个变量线性相关,且相关程度很强.
判断两个变量相关性的方法
1.画散点图:点的分布从左下角区域到右上角区域,两个变量正相关;点的分布从左上角区域到右下角区域,两个变量负相关.
2.样本相关系数:根据成对样本数据,直接求出r,当r>0时,两个变量正相关;当r<0时,两个变量负相关;|r|越接近于1,两个变量相关程度越强.
[注意] 样本相关系数r为判定两个变量是否线性相关的指标,且绝对值越大,线性相关程度越强,而不是r越大,线性相关程度越强.
【训练1】 (2025·石家庄一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重,制作成表格.
身高x
(单位:cm)
167
173
175
177
178
180
181
体重y
(单位:kg)
90
54
59
64
67
72
76
由表格制作成如图所示的散点图,
由最小二乘法计算得到经验回归直线l1的方程为=x+,其相关系数为r1;经过残差分析,点(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线l2的方程为=x+,相关系数为r2,则下列选项正确的是(A)
A.<,>,r1<r2
B.<,<,r1>r2
C.>,<,r1>r2
D.>,>,r1<r2
解析 ==≈176,因为离群点(167,90)的横坐标167小于平均值176,纵坐标90相对过大,所以去掉(167,90)后经验回归直线的截距变小而斜率变大,故<,>,去掉(167,90)后相关性更强,拟合效果也更好,且是正相关,所以r1<r2,故选A.
类型二 经验回归模型
考向❶:一元线性回归模型
【例2】 某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:
利率上升百分点x
0.1
0.2
0.3
0.4
0.5
日均存款总额y/亿元
0.2
0.35
0.5
0.65
0.8
(1)在给出的直角坐标系中画出上表数据的散点图;
(2)根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
(3)已知现行存款利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行存款利率下的2倍时,存款利率需上升多少个百分点?
参考公式及数据:①=,=-,②xiyi=0.9,=0.55.
解 (1)如图所示.
(2)由题表数据可得=×(0.1+0.2+0.3+0.4+0.5)=0.3,=×(0.2+0.35+0.5+0.65+0.8)=0.5,所以===1.5,=-=0.5-1.5×0.3=0.05,故y关于x的经验回归方程为=1.5x+0.05.
(3)设存款利率需上升x个百分点,由(2)及题意得,0.625×2=1.5x+0.05,解得x=0.8,所以预测存款利率需上升0.8个百分点.
线性回归分析问题的解题策略
1.利用最小二乘估计公式,求出回归系数.
2.利用经验回归直线过样本点的中心求系数.
3.写出经验回归方程,并利用经验回归方程进行预测.
【训练2】 (多选题)下表是2024年某市1~5月份新能源汽车销量y(单位:千辆)与月份x的统计数据,
月份x
1
2
3
4
5
销量y
5
5
6
6
8
由表中数据求得经验回归方程为=0.7x+,则下列说法正确的是(ABC)
A.=3.9
B.y与x正相关
C.由经验回归方程估计,月份每增加1个月,销量平均增加0.7千辆
D.由已知数据可以确定,6月份该市新能源汽车销量一定为8.1千辆
解析 由==3,==6,得样本点的中心为(3,6),代入=0.7x+,得6=0.7×3+,解得=3.9,故A正确;由经验回归方程的系数是0.7>0,知y与x正相关,且月份每增加1个月,销量平均增加0.7千辆,故B、C正确;经验回归方程只能顸测趋势,不能确定销量,故D错误.故选ABC.
考向❷:非线性回归模型
【例3】 (2025·广州一模)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与心率f(单位:次/分钟)的对应数据(Wi,fi)(i=1,2,…,8).根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为 -0.3 ;为判断拟合效果,通过经验回归方程求得预测值(i=1,2,…,8),若残差平方和(yi-)2≈0.28,则决定系数R2≈ 0.98 .
解析 将=8,=5代入经验回归方程=x+7.4,得5=8+7.4,解得=-0.3,所以k=-0.3.(yi-)2=(y1-)2+(y2-)2+…+(y8-)2=++…+-2(y1+y2+…+y8)+8=++…+-2·8+8=-8,所以R2=1-=1-≈1-=0.98.
非线性经验回归方程转化为线性经验回归方程常用方法:
1.若y=a+b,设t=,则=+t.
2.若y=a+bln x,设t=ln x,则=+t.
3.若y=c1,两边取自然对数,得ln y=ln c1+c2x,设z=ln y,=ln c1,=c2,则=+x.
【训练3】 用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到经验回归方程为=0.5x+2,则c=(D)
A.0.5 B.e0.5 C.2 D.e2
解析 因为y=cekx,两边取对数,得ln y=ln(cekx)=ln c+ln ekx=kx+ln c,则=x+ln ,而=0.5x+2,于是得ln =2,即=e2.故选D.
类型三 独立性检验
【例4】 (2025·八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:
药物
疾病
合计
未患病
患病
未服用
100
80
s
服用
150
70
220
合计
250
t
400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效?
附:χ2=
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
解 (1)s=100+80=180,t=80+70=150.
(2)p==.
(3)零假设H0:药物A对预防疾病B无效,根据列联表中的数据可求得χ2==≈6.73>6.635,根据小概率值α=0.01的χ2独立性检验,可推断H0不成立.因此认为药物A对预防疾病B有效.
独立性检验的一般步骤
1.提出零假设H0.
2.根据样本数据制成2×2列联表.
3.根据公式χ2=计算.
4.比较χ2与临界值的大小关系,作统计推断.
【训练4】 甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
公司
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)根据小概率值α=0.1的独立性检验,能否认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:χ2=,n=a+b+c+d.
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
解 (1)由题表可得A公司甲、乙两城之间的长途客车准点的概率为=,B公司甲、乙两城之间的长途客车准点的概率为=.
(2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关,列联表如下表所示:
公司
班次是否准点
合计
准点班次数
未准点班次数
A
240
20
260
B
210
30
240
合计
450
50
500
χ2=≈3.205>2.706=x0.1,根据小概率值α=0.1的独立性检验,我们推断H0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
高考真题重温
1.(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量
[900,
950)
[950,
1 000)
[1 000,
1 050)
[1 050,
1 100)
[1 100,
1 150)
[1 150,
1 200]
频数
6
12
18
30
24
10
根据表中数据,下列结论中正确的是(C)
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
解析 对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;对于B,100块稻田中亩产量低于1 100 kg的稻田所占比例为×100%=66%,故B不正确;对于C,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,故C正确;对于D,100块稻田亩产量的平均值为×(925×6+975×12+1 025×18+1 075×30+1 125×24+1 175×10)=1 067(kg),故D不正确.综上所述,故选C.
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则(B)
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
解析 解法一:根据散点图,讲座前问卷答题正确率的10个数据中,小于或等于70%的有5个,这意味着中位数必然大于70%,故选项A错误.讲座后问卷答题正确率的10个数据中,有1个为80%,4个为85%,其余数据大于或等于90%,经估算知,平均数大于85%,故选项B正确.从散点图可以看出,与讲座后的正确率的数据相比,讲座前正确率的数据更为分散,故标准差更大,故选项C错误.从散点图可直接看出,讲座前正确率的极差更大,故选项D错误.故选B.
解法二:根据散点图可知,讲座前问卷答题正确率的中位数为(70%+75%)>70%,故选项A错误.由散点图中数据计算知,讲座后问卷答题正确率的平均数为89.5%,故选项B正确.从散点图可以看出,与讲座后问卷答题的正确率数据相比,讲座前问卷答题的正确率数据更为分散,故标准差更大,选项C错误.由散点图中数据计算可知,讲座前的正确率极差为95%-60%=35%,讲座后问卷答题正确率的极差为100%-80%=20%,故选项D错误.故选B.
3.(多选题)(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则(CD)
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
解析 A项,设=xi,则=yi=(xi+c)=xi+c,所以=+c,因为c≠0,所以≠,所以A选项错误.B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.C项,设=(xi-)2,=(yi-)2,所以=(xi+c--c)2=(xi-)2,所以=,所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.D项,设x1<x2<…<xn,则第一组数据的极差为xn-x1,设y1<y2<…<yn,则第二组数据的极差为yn-y1=(xn+c)-(x1+c)=xn-x1,所以两组数据的极差相同,所以D选项正确,故选CD.
4.(多选题)(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则(BD)
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
解析 对于A,如1,2,2,2,2,4的平均数不等于2,2,2,2的平均数,故A错误;对于B,不妨设x2≤x3≤x4≤x5,则x2,x3,x4,x5的中位数为,x1,x2,…,x6的中位数为,故B正确;对于C,x1,x2,…,x6的数据波动性更大,故C错误;对于D,不妨设x2≤x3≤x4≤x5,则x1≤x2≤x3≤x4≤x5≤x6,所以x5-x2≤x6-x1,故D正确.故选BD.
学科网(北京)股份有限公司
$$