内容正文:
第九章统计与成对数据的统计分析
第一节 随机抽样与统计图表
课标要求
三年考情
1.了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法:抽签法和随机数法.
2.了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.
3.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.
2022
2023
2024
全国Ⅰ卷
全国Ⅱ卷
T19
T3、T19
重点提示:简单随机抽样、分层随机抽样、统计图表
基础梳理自测
回|归|教|材
1.基本概念:总体、个体、样本
在一个调查中,我们把调查对象的全体称为总体,组成总体的每一个调查对象称为个体.在抽样调查中,把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本容量,简称样本量.
2.简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
常见的简单随机抽样方法:(1)抽签法;(2)随机数法.
提醒:除非特殊说明,所称的简单随机抽样指不放回简单随机抽样.
3.分层随机抽样
(1)定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(2)比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
(3)平均数计算:在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层和第2层样本的平均数分别为,,则样本的平均数=+=+.
4.各类统计图的特点
类型
作用
频率分布
直方图
以面积的形式反映了数据落在各个小组的频率的大小,可以估计总体数据的分布趋势
扇形图
主要用于直观描述各类数据占总数的比例
条形图
主要用于直观描述不同类别或分组数据的频数和频率
折线图
主要用于描述数据随时间的变化趋势
5.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差).
(2)决定组距与组数.
(3)将数据分组.
(4)列频率分布表.
(5)画频率分布直方图.
【常用结论】
1.总体中的每一个个体入样的概率都是相同的,与抽样方法无关.
2.分层随机抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
3.频率分布直方图中小长方形高=.
基|础|自|测
1.思考辨析(对的打“√”,错的打“×”)
(1)简单随机抽样是一种不放回抽样.(√)
(2)抽签法和随机数法都是简单随机抽样.(√)
(3)分层随机抽样中,每个个体被抽到的可能性与层数及分层有关.(×)
解析 分层随机抽样中,每个个体被抽到的可能性与层数及分层无关.
(4)频率分布直方图中,小长方形的面积越大,表示样本数据落在该区间的频率越大.(√)
2.从已经生产出来的10万个灯泡中随机抽取1 000个,以此来了解这10万个灯泡的寿命,在这一情境中,总体是指(B)
A.这10万个灯泡
B.这10万个灯泡的寿命
C.抽取的1 000个灯泡
D.抽取的1 000个灯泡的寿命
3.(苏教必二P233T2改编)某工厂生产A,B,C3种不同型号的产品,产量之比为2∶3∶5.现用分层随机抽样的方法抽取1个容量为80的样本,那么其中A种型号的产品有 16 件.
解析 因为A,B,C三种不同型号的产品的数量之比依次为2∶3∶5,所以样本中A种型号产品有80×=16件.
4.(人A必二P184T3改编)已知23名男生的平均身高是170.6 cm,27名女生的平均身高是160.6 cm,则这50名学生的平均身高为 165.2 cm.
解析 平均身高为×170.6+×160.6=165.2(cm).
考点精研突破
考点一 简单随机抽样
【例1】 (1)下列抽样方法是简单随机抽样的是(B)
A.某医院从200名医生中,挑选出50名最优秀的医生去参加培训
B.从10部手机中逐个不放回地随机抽取2部进行质量检验
C.从空间直角坐标系中抽取10个点作为样本
D.饮料公司从仓库中的500箱饮料中一次性抽取前10箱进行质量检查
解析 A选项中,挑选出50名最优秀的医生去参加培训,每个人被抽到的概率不相等,故A错误;B选项中,从10部手机中逐个不放回地随机抽取2部进行质量检验,是简单随机抽样,故B正确;C选项中,由于被抽取的样本的总体个数是无限的,所以不是简单随机抽样,故C错误;D选项中,一次性抽取前10箱,每箱被抽到的概率不相等,所以不是简单随机抽样,故D错误.
(2)某工厂利用随机数法对生产的700个零件进行抽样测试,先将700个零件进行编号,001,002,…,699,700.从中抽取70个样本,下面提供了随机数表的第5行到第6行数据,若从随机数表中第5行第6列开始向右读取数据,则得到的第6个样本编号是(A)
8442125331 3457860736 2530073286
2345788907 2368960804
3256780843 6789535577 3489948375
2253557832 4577892345
A.623 B.328
C.253 D.007
解析 从第5行第6列开始向右读取数据,第一个数为253,第二个数是313,第三个数是457,下一个数是860,不符合要求,下一个数是736,不符合要求,下一个是253,重复,则第四个数是007,第五个数是328,第六个数是623.
[规律方法] (1)简单随机抽样需满足:①被抽取的样本总体的个体数有限;②逐个抽取;③是等可能抽取.
(2)简单随机抽样常有抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).
【训练1】 某校在一次期中作业检查中,对高一(6)班61位同学的作业进行抽样调查,先采用抽签法从中剔除一个人,再从余下的60人中随机抽取6人,下列说法正确的是(C)
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人被抽到的机会不相等
C.每个人在整个抽样过程中被抽到的机会相等,因为每个人被剔除的可能性相等,那么,不被剔除的机会也是相等的
D.由于采用了两步进行的抽样,所以无法判断每个人被抽到的可能性是多少
解析 由于第一次剔除时采用抽签法,对每个人来说可能性相等,然后随机抽取6人对每个人的机会也是均等的,所以总的来说每个人的机会都是均等的,被抽到的可能性都是相等的.
考点二 分层随机抽样
【例2】 (1)(2025·宿迁模拟)某大学共有本科生5 000人,其中一、二、三、四年级的人数比为4∶3∶2∶1,要用分层随机抽样的方法从所有本科生中抽取一个容量为200的样本,则应抽取三年级的学生人数为(C)
A.80 B.60 C.40 D.20
解析 因为要用分层随机抽样的方法从该校所有本科生中抽取一个容量为200的样本,一、二、三、四年级的学生比为4∶3∶2∶1,所以三年级要抽取的学生人数是×200=40.故选C.
(2)在调查某中学的学生身高时,利用比例分配的分层随机抽样的方法抽取男生20人,女生15人,得到了男生身高的平均数为170 cm,女生身高的平均数为165 cm,估计该中学所有学生的平均身高为 167.9 cm(结果精确到0.1).
解析 ≈167.9(cm),即该中学所有学生的平均身高约为167.9 cm.
[规律方法] (1)抽样比==
.
(2)在分层随机抽样中,如果第一层的样本量为m,平均数为x;第二层的样本量为n,平均数为y,则样本的平均数为.
【训练2】 (1)(多选题)在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱多少衰出之,问各几何?”其译文为“今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?”下列说法正确的是(ACD)
A.甲应付51钱
B.乙应付32钱
C.丙应付16钱
D.三者中甲付的钱最多,丙付的钱最少
解析 依题意由分层随机抽样可知,甲、乙、丙出钱的比例为560∶350∶180=56∶35∶18,则甲应付:×100=51(钱);乙应付:×100=32(钱);丙应付:×100=16(钱).故选ACD.
(2)某班级有50名同学,一次数学测试平均成绩是92分,如果30名男生的平均成绩为90分,那么20名女生的平均成绩为 95 分.
解析 设所求平均成绩为,由题意得50×92=30×90+20×,所以=95.
考点三 统计图表
角度1 扇形图、条形图
【例3】 (2024·福建三明模拟)已知某地区中小学生的人数比例和近视情况分别如图①和图②所示,为了了解该地区中小学生的近视形成原因,用比例分配的分层随机抽样的方法随机抽取1%的学生进行调查,其中被抽取的小学生有80人,则样本量和该地区的高中生近视人数分别为(B)
① ②
A.200,25 B.200,2 500
C.8 000,25 D.8 000,2 500
解析 由扇形分布图并结合比例分配的分层随机抽样知识易知样本量为=200,则样本中高中生的人数为200×25%=50,易知该地区高中生人数为=5 000,结合近视率条形图得该地区高中生近视的人数为5 000×50%=2 500.故选B.
[规律方法] 扇形图、条形图的数据特征
(1)扇形图:直观描述各类数据占总数的比例.
(2)条形图:直观描述不同类别或分组数据的频数.
角度2 折线图
【例4】 (多选题)(2025·南京、盐城模拟)新能源汽车包括纯电动汽车、增程式电动汽车、混合动力汽车、燃料电池电动汽车、氢发动机汽车等.我国的新能源汽车发展开始于21世纪初,近年来发展迅速,连续8年产销量位居世界第一.下面两图分别是2018年至2023年我国新能源汽车年产量和占比(占我国汽车年总产量的比例)情况,则(BCD)
①
②
A.2018~2023年我国新能源汽车年产量逐年增加
B.2018~2023年我国新能源汽车年产量的极差为626.4万辆
C.2023年我国汽车年总产量超过2 700万辆
D.2020年我国汽车年总产量低于2019年我国汽车年总产量
解析 对于A,题图①中2020年新能源汽车年产量低于2019年新能源汽车年产量,A错误;对于B,极差为705.8-79.4=626.4(万辆),B正确;对于C,2023年我国汽车年总产量为705.8÷25.6%≈2 757(万辆),C正确;对于D,2020年我国汽车年总产量为124.2÷4.8%≈2 588(万辆),2019年我国汽车年总产量为127÷4.5%≈2 822(万辆),2 588<2 822,D正确.
[规律方法] 折线图的数据特征
折线图可以描述数据随时间的变化趋势.非常适用于显示在相等时间间隔下数据变化的趋势.
角度3 频率分布直方图
【例5】 (2025·云南联考)要调查某地区高中学生身体素质,从高中生中抽取100人进行跳远测试,根据测试成绩制作频率分布直方图如图,现从成绩在[120,140)之间的学生中用分层随机抽样的方法抽取5人,应从[120,130)间抽取人数为b,则(D)
A.a=0.025,b=2 B.a=0.025,b=3
C.a=0.030,b=4 D.a=0.030,b=3
解析 由题得10×(0.005+0.035+a+0.020+0.010)=1,所以a=0.030.在[120,130)之间的学生有100×10×0.030=30人,在[130,140)之间的学生有100×10×0.020=20人,则在[120,140)之间的学生有50人,又用分层随机抽样的方法在[120,140)之间的学生中抽取5人,即抽样比为,所以成绩在[120,130)之间的学生中抽取的人数应为30×=3,即b=3.故选D.
[规律方法] 频率分布直方图的数据特征
(1)频率分布直方图中各小长方形的面积之和为1.
(2)频率分布直方图中纵轴表示,每组样本的频率为组距×,即小长方形的面积.
(3)频率分布直方图中每组样本的频数为频率×样本容量.
角度4 雷达图
【例6】 (多选题)为比较甲,乙两名学生的数学学科素养的各项能力指标值(满分为5分),绘制了如图所示的六维能力雷达图.例如,图中甲的数学抽象能力指标值为4,乙的数学抽象能力指标值为5,则下列说法正确的是(AD)
A.甲的逻辑推理能力指标值高于乙的逻辑推理能力指标值
B.甲的数学建模能力指标值高于乙的直观想象能力指标值
C.甲的数学运算能力指标值高于甲的直观想象能力指标值
D.甲的六维能力整体水平低于乙的六维能力整体水平
解析 对于A,甲的逻辑推理能力指标值为4,乙的逻辑推理能力指标值为3,所以甲的逻辑推理能力指标值高于乙的逻辑推理能力指标值,故A正确;对于B,甲的数学建模能力指标值为3,乙的直观想象能力指标值为5,所以甲的数学建模能力指标值低于乙的直观想象能力指标值,故B错误;对于C,甲的数学运算能力指标值为4,甲的直观想象能力指标值为5,所以甲的数学运算能力指标值低于甲的直观想象能力指标值,所以C错误;对于D,甲的六维能力指标值的平均值为=,乙的六维能力指标值的平均值为=4>,所以甲的六维能力整体水平低于乙的六维能力整体水平,所以D正确.
[规律方法] 雷达图可以在同一坐标系内展示多指标的分析比较情况,它是由一组坐标和多个同心圆组成的图表.雷达图分析法是综合评价中常用的一种方法,尤其适用于对多属性体系结构描述的对象作出全局性、整体性评价,在数据可视化中经常会用到.
【对点练】
1.(角度1)某校数学兴趣小组的同学调查了若干名家长对“中学生带手机上学”现象的看法,统计整理并制作了如下的条形与扇形统计图.
依据图中信息,得出下列结论:
(1)接受这次调查的家长人数为200;
(2)在扇形统计图中,“不赞同”的家长部分所对应的扇形圆心角大小为162°;
(3)表示“无所谓”的家长人数为40.
其中正确的结论个数为(A)
A.3 B.2 C.1 D.0
解析 对于(1),由统计图可知接受这次调查的家长人数为=200,所以(1)正确;对于(2),“不赞同”的家长部分所对应的扇形圆心角大小为×360°=162°,所以(2)正确;对于(3),由统计图可知表示“无所谓”的家长人数为200×20%=40,所以(3)正确,所以正确的结论个数为3.故选A.
2.(角度2)2023年袁隆平“超级稻”突破亩产1 200 kg,再次刷新了杂交水稻单季亩产世界纪录.已知甲、乙两种杂交水稻在面积相等的两块试验田中连续6年的产量如图所示,则(D)
A.甲的平均产量高于乙的平均产量
B.甲的最高产量高于乙的最高产量
C.甲的产量更稳定
D.乙的产量更稳定
解析 A选项,甲的平均产量为
=≈
1 036 kg,乙的平均产量为
=≈1 128 kg>1 036 kg,A错误;B选项,甲的最高产量为1 200 kg,乙的最高产量为1 251 kg,B错误;C、D选项,由折线图可知甲的波动更大,所以乙的产量更稳定,D正确.故选D.
3.(角度3)某校高三共有200人参加体育测试,根据规则,82分以上的考生成绩等级为A,则估计获得A的考生人数约为(C)
A.100 B.75 C.50 D.25
解析 由频率分布直方图可得82分以上的考生的频率约为0.025×10×+0.005×10=0.25,所以获得A的考生人数约为200×0.25=50人,故选C.
4.(角度4)(多选题)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃,下面叙述正确的是(ABD)
A.各月的平均最低气温都在0 ℃以上
B.八月的平均温差比十一月的平均温差大
C.平均最高气温高于20 ℃的月份有4个
D.四月和十一月的平均最低气温基本相同
解析 对于A,由图可知各月的平均最低气温都在0 ℃以上,故A正确;对于B,由图可知,八月的平均最高气温点与平均最低气温点之间的距离大于十一月的平均最高气温点与平均最低气温点之间的距离,故B正确;对于C,平均最高气温高于20 ℃的月份有七月和八月,只有两个月份,故C错误;对于D,四月和十一月的平均最低气温均为5 ℃,D正确.
第二节 用样本估计总体
课标要求
三年考情
1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数)、离散程度参数(标准差、方差、极差),理解集中趋势参数和离散程度参数的统计含义.
2.结合实例,能用样本估计百分位数,理解百分位数的统计含义.
3.结合实例,会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
2022
2023
2024
全国Ⅰ卷
T9
全国Ⅱ卷
T4
重点提示:众数、平均数、中位数、百分位数、方差、标准差
基础梳理自测
回|归|教|材
1.百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.平均数、中位数和众数
(1)平均数:如果有n个数x1,x2,…,xn,那么(x1+x2+…+xn)就是这组数据的平均数,用表示,即=(x1+x2+…+xn).
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)叫做这组数据的中位数.
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数.
3.方差和标准差
假设一组数据是x1,x2,…,xn,平均数记为,则
方差:s2=(xi-)2;
标准差:s=
微提醒 标准差刻画了数据的离散程度或波动幅度.
【常用结论】
1.若x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a.
2.数据x1,x2,…,xn与数据x1'=x1+a,x2'=x2+a,…,xn'=xn+a的方差相等,即数据经过平移后方差不变.
3.若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.
基|础|自|测
1.思考辨析(对的打“√”,错的打“×”)
(1)平均数的估计值等于频率分布直方图中每个小矩形的底边中点的横坐标之和.(×)
(2)一组数据的第p百分位数可以不唯一.(√)
(3)标准差、方差的取值范围为(0,+∞).(×)
(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.(√)
2.(人A必二P215T2改编)若数据x1,x2,…,x9的方差为2,则数据2x1,2x2,…,2x9的方差为(D)
A.2 B.4 C.6 D.8
解析 根据方差的性质可知,数据x1,x2,…,x9的方差s2=2,那么数据2x1,2x2,…,2x9的方差为22s2=8.故选D.
3.(人B必二P70练习AT2改编)计算数据1,2,3,4,5,6,7,8,9,10的40%分位数为 4.5 .
解析 将数据从小到大排列后可得1,2,3,4,5,6,7,8,9,10,因为10×40%=4,所以这组数据的40%分位数是=4.5.
4.(人A必二P205例4改编)有一组数据:-1,a,-2,3,4,2,它们的中位数是1,则这组数据的平均数是 1 .
解析 数据-1,a,-2,3,4,2,已知除a以外的数据从小到大排序为-2,-1,2,3,4,要使得中位数为1,则a在第3位或第4位,即=1,a=0,经检验符合题意,所以这组数据的平均数是=1.
考点精研突破
考点一 样本的数字特征和百分位数的估计
【例1】 (1)(2024·九省适应性考试)样本数据16,24,14,10,20,30,12,14,40的中位数为(B)
A.14 B.16 C.18 D.20
解析 将所给样本数据按由小到大的顺序排列为10,12,14,14,16,20,24,30,40,故中位数是16.故选B.
(2)(多选题)某校组织了300名学生参与测试,随机抽取了40名学生的考试成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法中正确的是(ABD)
A.图中a的值为0.015
B.估计这40名学生考试成绩的众数为75
C.估计这40名学生考试成绩的中位数为82
D.估计这40名学生考试成绩的第75百分位数约为85
解析 由题得10a=1-10×(0.010+0.035+0.030+0.010),解得a=0.015,故A正确;由题中频率分布直方图可知,最高矩形对应区间的中点为75,则估计众数也为75,故B正确;0.010×10+0.015×10=0.25,0.010×10+0.015×10+0.035×10=0.6,可知中位数落在[70,80) 内,即中位数的估计值不是82,故C错误;题图中各组对应的频率分别为0.1,0.15,0.35,0.3,0.1,第75百分位数在[80,90) 内,设第75百分位数约为x,则0.1+0.15+0.35+(x-80)×0.030=0.75,解得x=85,故D正确.故选ABD.
[规律方法] 求总体百分位数的步骤
(1)计算一组n个数据第p百分位数
(2)计算频率分布直方图中第p百分位数可运用面积求.
【训练1】 (1)(2024·山东高三开学考试)某校举办歌唱比赛,将200名参赛选手的成绩整理后画出频率分布直方图如图,根据频率分布直方图,第40百分位数估计为(C)
A.64 B.65 C.66 D.67
解析 由题图可知(a+0.015+0.025+0.035+a+0.005)×10=1,所以a=0.010,0.010+0.015+0.025=0.05,即第40百分位数位于区间[60,70),设第40百分位数为x,则=,解得x=66.故选C.
(2)(2025·唐山模拟)某校高三年级一共有1 200名同学参加数学测验,已知所有学生成绩的第80百分位数是103分,则数学成绩不小于103分的人数至少为(B)
A.220 B.240 C.250 D.300
解析 因为1 200×80%=960,所以小于103分的学生最多有960人,则数学成绩不小于103分的学生至少有1 200-960=240(人).
考点二 总体集中趋势的估计
【例2】 (1)(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理如下表:
亩产量
[900,
950)
[950,
1 000)
[1 000,
1 050)
[1 050,
1 100)
[1 100,
1 150)
[1 150,
1 200]
频数
6
12
18
30
24
10
根据表中数据,下列结论中正确的是(C)
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
解析 对于A, 根据频数分布表可知, 6+12+18=36<50,所以亩产量的中位数不小于 1 050 kg, 故A错误;对于B,亩产量不低于1 100 kg的频数为24+10=34,所以低于1 100 kg的稻田占比为=66%,故B错误;对于C,稻田亩产量的极差最大为1 200-900=300,最小为1 150-950=200,故C正确;对于D,由频数分布表可得,平均值为×(6×925+12×975+18×1 025+30×1 075+24×1 125+10×1 175)=1 067,故D错误.故选C.
(2)某考试机构举行了新高考适应性考试,在联考结束后,根据联考成绩,考生可了解自己的学习情况,作出升学规划,决定是否参加强基计划.在本次适应性考试中,某学校为了解高三学生的联考情况,随机抽取了100名学生的联考数学成绩作为样本,并按照分数段[50,70),[70,90),[90,110),[110,130),[130,150]分组,绘制了如图所示的频率分布直方图.
①求出图中a的值并估计本次考试的及格率(“及格率”指得分为90分及以上的学生所占比例);
②估计该校学生联考数学成绩的第80百分位数;
③估计该校学生联考数学成绩的众数、平均数.
解 ①由频率分布直方图的性质,可得(a+0.004+0.013+0.014+0.016)×20=1,解得a=0.003.所以及格率为(0.016+0.014+0.003)×20=0.66=66%.
②得分在110以下的学生所占比例为(0.004+0.013+0.016)×20=0.66,得分在130以下的学生所占比例为0.66+0.014×20=0.94,所以第80百分位数位于[110,130)内,由110+20×=120,估计第80百分位数为120.
③由图可得,众数的估计值为100.平均数的估计值为0.08×60+0.26×80+0.32×100+0.28×120+0.06×140=99.6.
[规律方法] 频率分布直方图中的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
【训练2】 (多选题)某学校发起了“畅读经典,欢度新年”活动,根据统计数据可知,该校共有1 200名学生,所有学生每天读书时间均在20 min到100 min之间,他们的日阅读时间的频率分布直方图如图所示.则下列结论正确的是(ACD)
A.该校学生日阅读时间的众数约为70
B.该校学生日阅读时间不低于60 min的人数约为360
C.该校学生日阅读时间的第50百分位数约为65
D.该校学生日阅读时间的平均数约为64
解析 由题图可知,[60,80)这一组的小矩形最高,所以众数约为70,故A正确;日阅读时间不低于60 min的频率为(0.020+0.010)×20=0.6,所以该校学生日阅读时间不低于60 min的人数约为1 200×0.6=720,故B错误;第50百分位数即中位数,前两组的频率分别为0.005×20=0.1,0.015×20=0.3,所以中位数在[60,80) 这一组,设中位数为x,则(x-60)×0.020=0.5-0.1-0.3,解得x=65,即第50百分位数约为65,故C正确;该校学生日阅读时间的平均数约为(30×0.005+50×0.015+70×0.020+90×0.010)×20=64,故D正确.故选ACD.
考点三 总体离散程度的估计
【例3】 (2025·济南调研)甲、乙两名学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲
82
81
79
78
95
88
93
84
乙
92
95
80
75
83
80
90
85
(1)求两位学生预赛成绩的平均数和方差;
(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.
解 (1)=×(82+81+79+78+95+88+93+84)=85,=×(92+95+80+75+83+80+90+85)=85,=×[(82-85)2+(81-85)2+(79-85)2+(78-85)2+(95-85)2+(88-85)2+(93-85)2+(84-85)2]=35.5,=×[(92-85)2+(95-85)2+(80-85)2+(75-85)2+(83-85)2+(80-85)2+(90-85)2+(85-85)2]=41.
(2)由(1)知=,<,甲的成绩较稳定,所以派甲参赛比较合适.
[规律方法] 总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
【训练3】 (1)甲、乙两人进行射击比赛,每人射击5次,射击成绩如下表:
甲命中的环数
8
8
9
8
7
乙命中的环数
7
9
10
8
6
根据上述数据,下列判断正确的是(A)
A.甲、乙的平均成绩相同,甲的成绩更稳定
B.甲、乙的平均成绩相同,乙的成绩更稳定
C.甲、乙的平均成绩不同,甲的成绩更稳定
D.甲、乙的平均成绩不同,乙的成绩更稳定
解析 =×(8+8+9+8+7)=8,=×(7+9+10+8+6)=8,=×[(8-8)2+(8-8)2+(9-8)2+(8-8)2+(7-8)2]=,=×[(7-8)2+(9-8)2+(10-8)2+(8-8)2+(6-8)2]==2,<,所以甲的平均成绩和乙的平均成绩相同,甲的方差小于乙的方差,甲的成绩更稳定.故选A.
(2)(多选题)(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则(BD)
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
解析 对于选项A:设x2,x3,x4,x5的平均数为m,x1,x2,…,x6的平均数为n,则n-m=-=,因为没有确定2(x1+x6),x5+x2+x3+x4的大小关系,所以无法判断m,n的大小,例如:1,2,3,4,5,6,可得m=n=3.5;例如1,1,1,1,1,7,可得m=1,n=2;例如1,2,2,2,2,2,可得m=2,n=;故A错误;对于选项B:不妨设x1≤x2≤x3≤x4≤x5≤x6,可知x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数,均为,故B正确;对于选项C:因为x1是最小值,x6是最大值,则x2,x3,x4,x5的波动性不大于x1,x2,…,x6的波动性,即x2,x3,x4,x5的标准差不大于x1,x2,…,x6的标准差,例如:2,4,6,8,10,12,则平均数n=×(2+4+6+8+10+12)=7,标准差s1=
=,4,6,8,10,则平均数m=×(4+6+8+10)=7,标准差s2=
=,显然>,即s1>s2,故C错误;对于选项D:不妨设x1≤x2≤x3≤x4≤x5≤x6,则x6-x1≥x5-x2,当且仅当x1=x2,x5=x6时,等号成立,故D正确.故选BD.
【微点拓展】 计算分层随机抽样的方差的步骤
分层随机抽样中,如果样本量是按比例分配,记第一层有m个数,第二层有n个数,总的样本平均数为,样本方差为s2.
(1)确定,,,.
(2)确定=+.
(3)s2=[+(-)2]+[+(-)2].
【典例】 (2025·广东珠海模拟)某学校在上报《国家学生体质健康标准》高三年级学生的肺活量单项数据中,采用样本量按比例分配的分层随机抽样方法.如果不知道样本数据,只知道抽取了男生20人,其肺活量平均数为3 000 mL,方差为10;抽取了女生30人,其肺活量平均数为2 500 mL,方差为20,则可估计高三年级全体学生肺活量的平均数为 2 700 mL,方差为 60 016 .
解析 把男生样本平均数记为,方差记为;把女生样本平均数记为,方差记为;把总样本数据的平均数记为,方差记为s2.则=+=×3 000+×2 500=2 700,s2={20[+(-)2]+30[+(-)2]}=×{20×[10+(3 000-2 700)2]+30×[20+(2 500-2 700)2]}=60 016.据此可估计高三年级全体学生肺活量的平均数为2 700 mL,方差为60 016.
【微练】 某校有高中生200人,为了获得该校全体高中生的身高信息,抽取了男、女生样本量均为25的样本,计算得到男生样本的平均数为170,方差为16,女生样本的平均数为160,方差为20,则总样本的方差为 43 .
解析 因为男生样本的平均数为170,女生样本的平均数为160,所以总样本的平均数为×170+×160=165,所以总样本的方差s2=×[16+(170-165)2]+×[20+(160-165)2]=43.
第三节 成对数据的统计分析
课标要求
三年考情
1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的经验回归方程系数公式建立经验回归方程.
3.了解独立性检验及回归分析的基本思想、方法及其简单应用.
2022
2023
2024
全国Ⅰ卷
T20
全国Ⅱ卷
重点提示:经验回归方程、独立性检验
第1课时 变量的相关性与一元线性回归模型
基础梳理自测
回|归|教|材
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
(3)非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
微提醒 相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系,相关关系是一种非确定性关系,即相关关系是两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度的这种关系.
2.样本相关系数
(1)样本相关系数r的计算.
变量x和变量y的样本相关系数r的计算公式如下:
r=.
(2)样本相关系数r的性质.
①当r>0时,称成对样本数据正相关;
当r<0时,称成对样本数据负相关;
当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)最小二乘法
求经验回归直线使得样本数据点到经验回归直线的竖直距离平方和最小的方法叫做最小二乘法.
(2)经验回归方程为=x+,其中=,=-.
4.判断回归模型的拟合效果
由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程=x+,其中y叫做观测值,叫做预测值,残差e=y-.相应于样本点(xi,yi)的随机误差=yi-=yi-(xi+).
(1)残差分析法
①作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;
②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
(2)决定系数(R2)法:R2=1-,R2越大,模型的拟合效果越好;R2越小,模型的拟合效果越差.
【常用结论】
1.经验回归直线过样本点的中心(,).
2.根据经验回归方程计算的值,仅是一个预测值,不是真实发生的值.
基|础|自|测
1.思考辨析(对的打“√”,错的打“×”)
(1)相关关系是一种非确定性关系.(√)
(2)散点图是判断两个变量相关关系的一种重要方法和手段.(√)
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.(×)
解析 经验回归直线=x+恒过样本中心点(,).
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(√)
2.(苏教选二P153“思考”改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是(D)
A B
C D
3.(多选题)在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的经验回归方程为=x+,那么下列说法正确的是(ABC)
A.直线=x+必经过点(,)
B.直线=x+表示最接近y与x之间真实关系的一条直线
C.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
D.用决定系数R2来刻画回归效果,R2越小说明拟合效果越好
解析 直线=x+必过样本点中心即点(,),故A正确;直线=x+是采用最小二乘法求解出的直线方程,接近真实关系,故B正确;相关系数r的绝对值越接近于1,表示相关程度越强,越接近于0,相关程度越弱,故C正确;用决定系数R2来刻画回归效果,R2越大,说明模型的拟合效果越好,故D错误.
4.(人A选三P113T2改编)某车间为了确定加工某零件所花费的时间,进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得经验回归方程为=0.67x+54.9.
零件数x/个
10
20
30
40
50
加工时间y/分钟
62
75
81
89
现发现表中有一个数据看不清,则该数据的值为 68 .
解析 由已知得=30,则=0.67×30+54.9=75.设所求数据为a,则62+a+75+81+89=75×5,解得a=68.
考点精研突破
考点一 成对数据的统计相关性
【例1】 (1)(2023·天津高考)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰“鸢飞戾天,鱼跃于渊”.鸢尾花因花瓣形如鸢尾而得名(图①),寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制对应散点图如图②.计算得样本相关系数为0.864 2,利用最小二乘法求得相应的经验回归方程为=0.750 1x+0.610 5.根据以上信息,如下判断正确的为(C)
① ②
A.花萼长度与花瓣长度不存在相关关系
B.花萼长度与花瓣长度负相关
C.花萼长度为7 cm的该品种鸢尾花的花瓣长度的平均值约为5.861 2 cm
D.若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为0.864 2
解析 样本相关系数为0.864 2,这说明成对样本数据之间存在正相关关系,故A和B错误;把x=7代入经验回归方程=0.750 1x+0.610 5,得=5.861 2,故C正确;由于样本发生变化,样本相关系数不一定相同,故D错误.选C.
(2)如图对两组数据x,y和v,u分别进行回归分析,得到散点图如图,并求得线性回归方程分别是y=b1x+a1和u=b2v+a2,并对变量x,y进行线性相关检验,得到相关系数r1,对变量v,u进行线性相关检验,得到相关系数r2,则下列判断正确的是(D)
A.b1>0 B.b2<0
C.|r1|<|r2| D.r1+r2<0
解析 由散点图可知,x与y负相关,v与u正相关,则b1<0,b2>0,故A、B错误;且图形中点(x,y)比点(v,u)更加集中在一条直线附近,则|r1|>|r2|,又r1<0,r2>0,得r1+r2<0.故C错误,D正确.故选D.
[规律方法] 判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,线性相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
【训练1】 (2025·黄冈模拟)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x-5上,则这组样本数据的样本相关系数为(D)
A.- B. C.-1 D.1
解析 由题意可知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x-5上,则这组样本数据完全正相关,且样本相关系数为1,故选D.
考点二 回归模型及应用
角度1 线性回归模型及应用
【例2】 (1)(多选题)下表是某市1~5月份新能源汽车销量y(单位:千辆)与月份x的统计数据,
月份x
1
2
3
4
5
销量y
5
5
6
6
8
由表中数据求得经验回归方程为=0.7x+,则下列说法正确的是(ABC)
A.=3.9
B.y与x正相关
C.由经验回归方程估计,月份每增加1个月,销量平均增加0.7千辆
D.由已知数据可以确定,6月份该市新能源汽车销量一定为8.1千辆
解析 由==3,==6,得样本点的中心为(3,6),代入=0.7x+,得6=0.7×3+,解得=3.9,故A正确;由经验回归方程的系数是0.7>0,知y与x正相关,且月份每增加1个月,销量平均增加0.7千辆,故B、C正确;经验回归方程只能预测趋势,不能确定销量,故D错误.故选ABC.
(2)(2025·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:
利率上升百分点x
0.1
0.2
0.3
0.4
0.5
日均存款总额y(亿元)
0.2
0.35
0.5
0.65
0.8
①在给出的坐标系中画出上表数据的散点图;
②根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
③已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?
参考公式及数据:①=,=-,②xiyi=0.9,=0.55.
解 ①如图所示.
②由表格数据可得=×(0.1+0.2+0.3+0.4+0.5)=0.3,=×(0.2+0.35+0.5+0.65+0.8)=0.5,所以===1.5,=-=0.5-1.5×0.3=0.05,故=1.5x+0.05.
③设利率需上升x个百分点,由②,得0.625×2=1.5x+0.05,解得x=0.8,所以预测利率需上升0.8个百分点.
[规律方法] 一元线性回归模型分析问题的解题步骤
(1)求经验回归方程
(2)利用经验回归方程进行预测
把经验回归方程看作一次函数,求函数值作为预测值.
角度2 非线性回归分析
【例3】 (1)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(D)
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
解析 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是y=a+bln x.故选D.
(2)(2025·广州质检)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本.为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如下散点图,并计算得:=6.8,=70,=3,=1.6,=350.
①根据散点图可知,可用函数模型y=+α拟合y与x的关系,试建立y关于x的回归方程;
②已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据①的结果回答:当年技术创新投入x为何值时,年利润的预报值最大?
(注:年利润=年销售额-年投入成本)
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
解 ①令u=,则y关于u的线性回归方程为y=+u,依题意,得===200,=-=70-200×0.3=10,则y=10+200u,所以y关于x的回归方程为y=10+.
②由y=10+,得x=,年利润M=m-x-10=-+++100--10=-(y-20)2+90.8,当y=20时,年利润M取得最大值,此时,x===20,所以当年技术创新投入20千万元时,年利润的预报值最大.
[规律方法] 非线性回归问题的求解步骤
(1)作出散点图或利用已知散点图.
(2)根据散点图选择恰当的拟合函数.
(3)作恰当变换,将其化成线性函数,求经验回归方程.
(4)在(3)的基础上通过变换,可得非线性回归方程.
【训练2】 (1)(多选题)为研究混凝土的抗震强度y与抗压强度x的关系,某研究部门得到下表的样本数据:
x
140
150
170
180
195
y
23
24
26
28
28
若y与x线性相关,且经验回归方程为=0.1x+,则下列说法正确的是(ABC)
A.=9.1
B.当x增加1个单位时,y增加约0.1个单位
C.y与x正相关
D.若抗压强度为220时,抗震强度一定是33.1
解析 由题意可得==167,==25.8,所以25.8=0.1×167+,解得=9.1,所以经验回归方程为=0.1x+9.1,A正确;对于B,由=0.1x+9.1,可知当x增加一个单位时,y增加约0.1个单位,B正确;对于C,因为0.1>0,所以y与x正相关,C正确;对于D,当x=220时,=0.1×220+9.1=31.1,抗震强度约为31.1,D错误.
(2)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据(i,yi),其中i=1,2,3,4,5,yi为第i次入口人流量数据(单位:百人),由此得到y关于i的回归方程=log2(i+1)+5,∈N*,已知=9,根据回归方程(参考数据:log23≈1.6,log25≈2.3),可预测下午4点时入口游客的人流量为(B)
A.9.6 B.11.0
C.11.4 D.12.0
解析 令z=log2(i+1),则=(log22+log23+log24+log25+log26)=(4+log25+2log23),又=9,由=·+5,得=≈=,因为∈N*,所以≈2,则=2log2(i+1)+5,下午4点时对应的是x=7,可得=2log28+5=11.0,故选B.
考点三 样本相关系数的应用
【例4】 (2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本
号i
1
2
3
4
5
6
7
8
9
10
总和
根部
横截
面积
xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积
量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比,利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数r=,≈1.377.
解 (1)设这种树木平均一棵的根部横截面积为,平均一棵的材积量为,则==0.06,==0.39.
(2)由题意,得(xi-)2=-10=0.038-10×0.062=0.002,(yi-)2=-10=1.615 8-10×0.392=0.094 8,(xi-)(yi-)=xiyi-10 =0.247 4-10×0.06×0.39=0.013 4,所以样本相关系数r==≈≈0.97.
(3)设所有这种树木的根部横截面积总和为X,总材积量为Y,则=,故Y=×186=1 209(m3).
[规律方法] 利用相关系数检验相关性关键点
(1)当|r|越趋近于1时,两变量的线性相关性越强;
(2)当|r|越趋近于0时,两变量的线性相关性越弱.
【训练3】 (1)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析.
方案一:根据图中所有数据,得到经验回归方程=x+,样本相关系数为r1;方案二:剔除点(10,32),根据剩下的数据得到经验回归方程=x+,样本相关系数为r2.则(D)
A.0<r1<r2<1 B.0<r2<r1<1
C.-1<r1<r2<0 D.-1<r2<r1<0
解析 由散点图可知这两个变量为负相关,所以r1<0,r2<0.因为剔除点(10,32)后,剩下点的数据线性相关性更强,|r2| 更接近1,所以-1<r2<r1<0.故选D.
(2)(2025·山东青岛模拟)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”,某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:
使用年限x
(单位:年)
1
2
3
4
5
6
7
失效费y
(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y 与x的样本相关系数为 0.99 .
(精确到0.01,参考公式和数据:r=
,(xi-)(yi-)=14.00,(yi-)2=7.08,≈14.08)
解析 由题意,知==4, ==4.30,(xi-)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28.所以r==≈≈0.99.所以y 与x的样本相关系数近似为0.99.
考点四 残差分析
【例5】 (1)某医院为了提高服务水平和病人满意度,对一周前出院的病人进行电话回访,主要涉及住院期间护士的服务态度、医生是否收取红包、对医院有什么建议等问题.某天上午回访的5人中,通话时间(单位:秒)如表所示:
序号x
1
2
3
4
5
时间y
37
65
21
m
32
根据表中数据,得到y关于x的经验回归方程=x+40.9.据此求出(5,32)残差为-7.4,则m=(A)
(残差=实际值-观测值)
A.45 B.25 C.37 D.7
解析 由题知,当x=5时,=5+40.9=32+7.4=39.4,解得=-0.3,所以y关于x的经验回归方程为=-0.3x+40.9.当x==3时,==-0.3×3+40.9=40,所以×(37+65+21+m+32)=40,解得m=45,故选A.
(2)已知x和y的散点图如图所示,在相关关系中,若用=c1拟合时的决定系数为,用=x+拟合时的决定系数为,则,中较大的是 .
解析 由散点图知,用=c1拟合的效果比=x+拟合的效果要好,所以>,故较大者为.
[规律方法] 检验回归模型的拟合效果的两种方法
(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
【训练4】 (1)(多选题)(2025·滨州模拟)下列说法正确的是(AC)
A.在经验回归方程=-0.3x+10中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位
B.在回归分析中,残差点分布的带状区域的宽度越窄表示拟合效果越差
C.用残差平方和来刻画模型的拟合效果时,若残差平方和越小,则相应模型的拟合效果越好
D.在一元线性回归模型分析中,决定系数R2用来刻画模型的拟合效果,若R2的值越小,则模型的拟合效果越好
解析 在经验回归方程=-0.3x+10中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位,故A正确;在回归分析中,残差点分布的带状区域的宽度越窄表示拟合效果越好,故B错误;残差平方和越小,则相应模型的拟合效果越好,故C正确;在一元线性回归模型分析中,若R2的值越小,则模型的拟合效果越差,故D错误.
(2)(多选题)变量x,y之间的相关数据如下表所示,其经验回归直线=x+经过点(10,m),且相对于点(11,5)的残差为0.2,则(AD)
x
9
9.5
10
10.5
11
y
11
10
m
6
5
A.m=8 B.=-2.8
C.=36 D.残差和为0
解析 因为经验回归直线=x+经过点(10,m),所以m=10+,5m=11+10+m+6+5,因为相对于点(11,5)的残差为0.2,所以5-(11+)=0.2,所以m=8,=-3.2,=40,A正确,B错误,C错误;所以=-3.2x+40,当x=9时,=-3.2×9+40=11.2,当x=9.5时,=-3.2×9.5+40=9.6,当x=10时,=-3.2×10+40=8,当x=10.5时,=-3.2×10.5+40=6.4,当x=11时,=-3.2×11+40=4.8,所以残差和为11-11.2+10-9.6+8-8+6-6.4+5-4.8=0,D正确.故选AD.
第2课时 列联表与独立性检验
基础梳理自测
回|归|教|材
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.列联表
关于分类变量X和Y的抽样数据的2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
3.零假设
以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.
H0:分类变量X和Y独立.通常称H0为零假设或原假设.
4.χ2公式
根据列联表知,χ2=.
对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(χ2≥xα)=α.
我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
微提醒 根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则认为两分类变量有关的把握越大.
5.独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
基|础|自|测
1.思考辨析(对的打“√”,错的打“×”)
(1)2×2列联表中的数据是两个分类变量的频数.(√)
(2)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理成绩优秀.(×)
(3)χ2的值越小,说明两事件相关程度越小.(√)
(4)在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强.(×)
解析 在2×2列联表中,若|ad-bc|越大,则说明两个分类变量之间关系越强.
2.(人A选三P132例3改编)人工智能的发展为许多领域带来了巨大的便利,但同时也伴随着一些潜在的安全隐患.为了调查人们对人工智能所持的态度,某机构从所在地区随机调查100人,所得结果统计如下:
年龄在50岁以
上(含50岁)
年龄在50岁以下
性别
男
女
男
女
持支持态度
15
10
30
15
不持支持态度
10
10
5
5
根据小概率值α=0.01的独立性检验,认为所持态度与年龄 有关 (填“有关”或“无关”).
解析 由题可得如下2×2列联表:
年龄在50岁以
上(含50岁)
年龄在50
岁以下
总计
持支持态度
25
45
70
不持支持态度
20
10
30
总计
45
55
100
根据列联表中的数据,经计算得到χ2=≈8.129>6.635=x0.01,根据小概率值α=0.01的独立性检验,认为所持态度与年龄有关.
3.某课外兴趣小组为研究数学成绩优秀是否与性别有关,通过随机抽样调查,得到成对样本观测数据的分类统计结果,并计算得出χ2≈6.816,经查阅χ2独立性检验的小概率值和相应的临界值,知x0.01=6.635,则下列判断正确的是(C)
A.若某人数学成绩优秀,那么他为男生的概率是0.010
B.每100个数学成绩优秀的人中就会有1名是女生
C.数学成绩优秀与性别有关,此推断犯错误的概率不大于0.01
D.在犯错误的概率不超过1%的前提下认为数学成绩优秀与性别无关
解析 因为χ2≈6.816>6.635=x0.01,所以数学成绩优秀与性别有关,此推断犯错误的概率不大于0.01,即在犯错误率不超过1%的前提下认为“数学成绩优秀与性别有关”,故C正确,D错误;若某人数学成绩优秀,由已知数据不能判断他为男生的概率,故A错误;每100个数学成绩优秀的人中可能没有女生,也有可能有多名女生,由已知数据不能确定结论,故B错误,故选C.
考点精研突破
考点一 分类变量的统计表示形式
【例1】 (1)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
a
7
c
年轻人
6
b
d
合计
e
f
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是(D)
A.a=18 B.b=19
C.c+d=50 D.e-f=2
解析 因为抽取的村民中,老年人有25名,年轻人有25名,所以c=25,d=25,所以a=25-7=18,b=25-6=19,A、B对;所以e=a+6=18+6=24,f=7+b=7+19=26,则c+d=50,C对;则e-f=24-26=-2,D错.故选D.
(2)(2025·长春模拟)观察下列各图,其中两个分类变量x,y之间关系最强的是(D)
A B
C D
解析 观察等高堆积条形图发现与相差很大,就判断两个分类变量之间关系最强.
[规律方法] 分类变量的两种统计表示形式
(1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联性的强弱.
(2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联性的强弱.
【训练1】 (1)如图是学校高二1班、2班期中考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的期中考试数学成绩统计,那么(A)
A.两个班6名学生的数学成绩优秀率可能相等
B.1班6名学生的数学成绩优秀率一定高于2班
C.2班6名学生中数学成绩不优秀的一定多于优秀的
D.两班学生的数学成绩优秀率存在差异
解析 原图是学校高二1、2班期中考试数学成绩优秀率的等高堆积条形图,从两个班随机抽取的6名学生的期中考试数学成绩优秀率无法确定哪个班的比较高,2班6名学生数学成绩不优秀的和优秀的人数也不能确定,故A正确,BC错误;两个班期中考试数学成绩的优秀率均在0.5左右,并不能直接确定“两班学生的数学成绩优秀率存在差异”,故D错误.故选A.
(2)在下列两个分类变量X,Y的样本频数列联表中,可以判断X、Y之间有无关系的是(D)
X
Y
总计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A. B.
C. D.
解析 因为χ2=,则分类变量X和Y有关系时,ad与bc差距会比较大,由-==,故与的值相差应该大,即的大小可以判断X,Y之间有无关系.故选D.
考点二 列联表与χ2的计算
【例2】 有甲、乙两种过滤水中重金属的设备,为了检验使用这两种设备与过滤后水中重金属含量的关系,各过滤了15瓶受重金属污染的相同水体,调查得出以下数据:
重金属含量高
重金属含量低
设备甲
6
9
设备乙
1
14
根据以上数据,则χ2=(A)
A. B. C. D.
解析 由题意得到如下2×2列联表:
重金属含量高
重金属含量低
合计
设备甲
6
9
15
设备乙
1
14
15
合计
7
23
30
所以χ2==.故选A.
[规律方法] 2×2列联表是4行4列,计算时要准确无误,关键是对涉及的变量分清类别.
【训练2】 某校团委对“学生喜欢体育和性别是否有关”做了一次调查,其中被调查的男、女生人数相同,男生喜欢体育的人数占男生人数的,女生喜欢体育的人数占女生人数的,若依据α=0.05的独立性检验,认为是否喜欢体育和性别有关,则调查人数中男生人数可能是(D)
α
0.050
0.010
xα
3.841
6.635
附:χ2=,其中n=a+b+c+d.
A.35 B.39 C.40 D.50
解析 设男生女生人数均为x,则在2×2列联表中a=x,b=x,c=x,d=x,χ2==,若依据α=0.05的独立性检验,认为学生是否喜欢体育和性别有关,可知>3.841,解得x>40.330 5,又x是5的整数倍,可得男生人数可取50.故选D.
考点三 列联表与独立性检验
【例3】 (2025·八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:
药物
疾病
合计
未患病
患病
未服用
100
80
s
服用
150
70
220
合计
250
t
400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效?
附:χ2=
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
解 (1)s=100+80=180,t=80+70=150.
(2)p==.
(3)零假设H0:药物A对预防疾病B无效,根据列联表中的数据可求得χ2==≈6.73>6.635,根据小概率值α=0.01的χ2独立性检验,可推断H0不成立.因此认为药物A对预防疾病B有效.
[规律方法] 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
【训练3】 (1)(2024·枣庄一模)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
经计算得到χ2≈4.881,根据小概率值α=0.005的独立性检验(已知χ2独立性检验中x0.005=7.879),则可以认为(C)
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.005
解析 零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.根据列联表中的数据,χ2≈4.881<7.879=x0.005,根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.故选C.
(2)某市举行了首届阅读大会,为调查市民对阅读大会的满意度,相关部门随机抽取男女市民各50名,每位市民对大会给出满意或不满意的评价,得到下面列联表:
满意
不满意
男市民
60-m
m-10
女市民
m+10
40-m
当m≤25,m∈N*时,若在α=0.05的情况下,我们没有充分的证据推断男、女市民对大会的评价有差异,则m的最小值为 21 .
附:χ2=,其中n=a+b+c+d.
α
0.10
0.05
0.005
xα
2.706
3.841
7.879
解析 由题意得χ2===
,并令χ2=<3.841,即(2 500-100m)2<201 652.5,近似解得-450<2 500-100m<450,即20.5<m<29.5,注意到m≤25,m∈N*,故m的最小值为21.
考点四 独立性检验的综合应用
【例4】 (2025·南京模拟)某高中为了了解高中学生暑假期间阅读古典名著的时间x(小时/每周)和他们的语文成绩y(分)的关系,某实验小组做了调查,得到一些数据(表一).
表一
编号
1
2
3
4
5
阅读时间x
2
4
7
7
10
语文成绩y
82
93
95
108
122
(1)请根据所给数据求出语文成绩y的平均数和方差;
(2)基于上述调查,学校为了确认学生喜欢阅读古典名著与语文成绩的关系,抽样调查了200名学生.按照是否喜欢阅读古典名著与语文成绩是否优秀统计,得到下列数据(表二).请依据表中数据及小概率值α=0.01的独立性检验,分析“喜欢阅读古典名著与语文成绩优秀”是否有关.
表二
语文成绩优秀
语文成绩不优秀
合计
喜欢阅读
75
25
100
不喜欢阅读
55
45
100
合计
130
70
200
附:χ2=,其中n=a+b+c+d.
α
0.10
0.05
0.010
xα
2.706
3.841
6.635
解 (1)==100,s2=[(82-100)2+(93-100)2+(95-100)2+(108-100)2+(122-100)2]=189.2,所以语文成绩y的平均数为100,方差为189.2.
(2)零假设为H0:喜欢阅读古典名著与语文成绩优秀无关.
根据数据,因为χ2==≈8.791>6.635=x0.01,所以依据α=0.01的独立性检验,H0不成立,故可以认为“喜欢阅读古典名著与语文成绩优秀”有关.
[规律方法] 独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般会在原题中给出.
【训练4】 (2025·河北联考)小家电指除大功率、大体积家用电器(如冰箱、洗衣机、空调等)以外的家用电器,运用场景广泛,近年来随着科技发展,智能小家电市场规模呈持续发展趋势,下表为连续5年中国智能小家电市场规模(单位:千亿元),其中年份对应的代码依次为1~5.
年份代码x
1
2
3
4
5
市场规模y
0.9
1.2
1.5
1.4
1.6
(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明;
(2)建立y关于x的经验回归方程(系数精确到0.01);
(3)某传媒公司为了了解中国智能小家电消费者年龄分布,随机调查了200名消费者,统计这200名消费者年龄,按照青少年与中老年分为两组,得到如下2×2列联表:
青少年
中老年
合计
喜欢购买智能小家电
80
不喜欢购买智能小家电
60
合计
110
200
依据小概率值α=0.001的χ2独立性检验,能否认为是否喜欢购买智能小家电与年龄有关?
参考数据:=1.32,xiyi=21.4,≈0.55,≈3.16.
参考公式:样本相关系数r=,经验回归方程=x+中斜率和截距的最小二乘估计公式分别为=,=-.χ2=
,n=a+b+c+d.
附:
α
0.10
0.010
0.001
xα
2.706
6.635
10.828
解 (1)由已知得==3,=1.32,(xi-)2=10, ≈0.55,(xi-)(yi-)=xiyi-5=21.4-5×3×1.32=1.6,所以r≈≈0.92.因为y与x的样本相关系数近似为0.92,说明y与x的线性相关程度较高,从而可以用线性回归模型拟合y与x的关系.
(2)由题可得,xiyi=21.4,=12+22+32+42+52=55,===0.16,=-=1.32-0.16×3=0.84,故y关于x的经验回归方程为=0.16x+0.84.
(3)由题意可得如下2×2列联表:
青少年
中老年
合计
喜欢购买智能小家电
80
30
110
不喜欢购买智能小家电
30
60
90
合计
110
90
200
零假设为H0:是否喜欢购买智能小家电与年龄无关.所以χ2=≈31.038>10.828,所以依据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为是否喜欢购买智能小家电与年龄有关.
学科网(北京)股份有限公司
$$