内容正文:
O专题九计数原理、概率与统计
(3)视样本数据的频率为概率,现从全校随机
P(X=2)=C×(×(-23
抽取4名学生,记X为这4名学生中运动时
间不低于4小时的人数,求X的分布列以及
P(X=3=×(})×()°-,
数学期望.
解:(1)因为该校共有15000人,其中女生有
PX==C×(份}×(}广=
4500人,所以女生占总人数的比例为号
则X的分布列为
又因为采用按比例分配的分层随机抽样的方
3
法收集300名学生的样本数据,
所以女生样本数据应收集品×300=90(个)。
1
27
2
81
256
64
128
64
256
(2)由频率分布直方图可知,学生每周平均体
育运动时间不低于4小时的频率为(0.15+
BC0-4Xg-3,
0.125+0.075+0.025)×2=0.75,
洗题意图
故估计该校学生每周平均体育运动时间不低
让学生学会利用数形结合思想来解决频率分
于4小时的概率为0.75.
布直方图与二项分布的综合问题,解题时要正
(3)由(2)可知,运动时间不低于4小时的概率
确理解频率分布直方图,能利用频率分布直方
为,则X~B(4,),
图正确计算出各组数据.概率问题以计算为
主,往往和实际问题相结合,要注意理解实际
所以P(X=0)=C×()×(保)°=2:
问题的意义,使之和相应的概率计算对应
p(X=1D=CX(4)×(=,
起来
9.5统计与成对数据的分析
⊙
考什么
高效复习必备
核心知识
①抽样方法;②用样本估计总体;③样本相关系数;④一元线性回归模型;⑤独立性检验
本节我们需要掌握的重点是由频率分布直方图求平均数、中位数与百分位数,解决该类问题要
怎么学
正确分析频率分布直方图;回归直线方程和独立性检验也是考查的重点,该类问题要注意计算
的准确性,对于非线性回归方程要转化为线性回归方程进行求解
主要思想、
①数形结合;②转化与化归
方法
①因忽视简单随机抽样、分层随机抽样都为等可能抽样而致误;②当数据发生变化时,没有正确
易错警示
使用平均数和方差的计算公式致误;③计算中位数容易忽略计算前需要将数据按照从小到大或
从大到小的顺序排列而致误
325
讲解
实战高考·数学
⊙
考总内容梳理
⊙
考点1随机抽样、统计图表(高考6年2考)
1.总体、个体、样本
调查对象的全体(或调查对象的某些指标的全体)称为总体,组成总体的每一个调查对象(或每
一个调查对象的相应指标)称为个体,在抽样调查中,从总体中抽取的那部分个体称为样本,样
本中包含的个体数称为样本容量,简称样本量
2.简单随机抽样
放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.除非特殊声明,所称的简单随
机抽样均指不放回简单随机抽样。
(1)抽取方式:逐个不放回抽取;
(2)特点:每个个体被抽到的概率相等;
(3)常用方法:抽签法和随机数法。
3.分层随机抽样
(1)分层随机抽样的相关概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,
在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样
本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.在分层随机抽样中,如果每层样
本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
(2)分层随机抽样的样本均值与样本方差
①在分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别是M,N,抽
取的样本量分别为m,n,第1层和第2层的样本平均数分别为x,y,样本平均数为w,则w=
M-,N-
②在分层随机抽样中,以层数是2层为例,如果抽取的样本量为,样本平均数为之,第1层
和第2层的样本量分别为m1,2,样本平均数分别为x,y,方差分别为s,s,则样本方差s2=
n1[s+(x-z)2]+n2[s3+(y-之)2]
2
4.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频率分布直方图等.
(2)作频率分布直方图的步骤
①求极差;②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.
326
O专题九计数原理、概率与统计
考点2用样本估计总体(高考6年2考)
1.众数、中位数、平均数、百分位数
样本数据
频率分布直方图
众数
组数据中,出现次数最多的数据
取最高的小矩形底边中点的横坐标
把一组数据按从小到大的顺序排列,处在中间位
把频率分布直方图划分为左右两个面积相
中位数
置的一个数据(或最中间两个数据的平均数)
等的部分,分界线与x轴交点的横坐标
每个小矩形的面积乘小矩形底边中点的横
平均数
样本数据的算术平均数
坐标之积的和
般地,一组数据的第p百分位数是这样一个值,
对于数据组[a,b),a以下的数据比例为
它使得这组数据中至少有p%的数据小于或等于
百分位数
m%,b以下的数据比例为n%,若m≤p<
这个值,且至少有(100一)%的数据大于或等于
n,则第p百分位数为a十(b一a),卫一m
这个值
n—m
2.计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据;第2步,计算=×%;第3步,若i不是整数,而大于i的
比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i十
1)项数据的平均数
3.四分位数
(1)第25百分位数、第50百分位数、第75百分位数这三个分位数把一组由小到大排列后的数
据分成四等份,因此称为四分位数。
(2)第25百分位数又称第一四分位数或下四分位数,第75百分位数又称第三四分位数或上四
分位数
4.总体离散程度的估计
方差和标准差:假设一组数据是,2,,x,用x表示这组数据的平均数,称之(G一x)?为
n=1
这组数器的方差,也可以写成含。-7的形式,称,√宫一习为这组数据的标准差
ni=
知识拓展
平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为x,那么x1十a,mx2十a,mx3十a,…,mxn十a的平均数
是mx+a
(2)若数据x1,x2,…,xn的方差为s2,则数据x1十a,x2十a,…,xm十a的方差也为s2,数据a01,
ax2,,axn的方差为a2s2.
327
讲解
实战高考·数学
考点3成对数据的统计分析(高考6年3考)
1.变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为
相关关系,即不确定性关系,
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关,
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减小的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称
这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非
线性相关或曲线相关
3.相关关系的刻画
(1)散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散
点图
(2)样本相关系数r的计算式
含x-00-0
√含-,含-含-含f-四
(3)样本相关系数r的性质
①样本相关系数r的取值范围为[一1,1].
②若>0,成对样本数据正相关,
③若r<0,成对样本数据负相关,
④样本相关系数与相关程度:当越接近1时,成对样本数据的线性相关程度越强;当r越
接近0时,成对样本数据的线性相关程度越弱
注意)当两个变量的相关系数x=1时,两个变量呈函数关系。
4.一元线性回归模型与最小二乘法
(1)一元线性回归模型
Y=bx+a+e,
称
为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
E(e)=0,D(e)=o2
为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx十a之间的随机误差,如果
e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
328
○专题九计数原理、概率与统计
(2)最小二乘法
将y=bx十α称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为
经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b,α叫做b,α的最小二乘
估计,其中
6-0
Zay:-nxy
a=y-bx.
含x
经验回归方程必过样本点的中心(x,y).
5.刻画回归效果的方法
(1)残差图法
在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比
较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高
(2)残差平方和法
残差平方和为之(一),残差平方和越小,模型拟合效果越好.
(3)决定系数法
R2=1
含Gs
其巾了一会)R的值越趋近于1,模型的拟合效果越好。
6.列联表与独立性检验
(1)分类变量X,Y的2×2列联表:
Y
合计
Y=0
Y=1
X=0
a
b
atb
X=1
d
c+d
合计
a十c
b+d
n=a+b+c+d
n(ad-bc)2
则X=a+b)(c十)(a+c)(h+d
(2)利用x的取值推断分类变量X和Y是否独立的方法称为x独立性检验,读作“卡方独立性
检验”,简称独立性检验
(3)x独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
Ta
2.706
3.841
6.635
7.879
10.828
329
讲解册
实战高考·数学
⊙
怎么考
题型各个击破
题型一频率分布直方图的应用
和众数.
题型解读
解:(1)由频率分布直方图的性质,得(0.0050十
1.频率分布直方图中第p百分位数的计算
0.0075+x+0.0125+0.0150)×20=1,解
(1)确定百分位数所在的区间[a,b).
得x=0.0100.
(2)确定小于a和小于b的数据所占的百分
(2)由频率分布直方图,可知
比分别为f%,f%,则第饣百分位数为
得分落在[0,20)内的人数为20×0.0050×20
a+p%-f0x6-a).
=2,
foo-fa%o
得分落在[20,40)内的人数为20×0.0075×
2.数字特征在频率分布直方图中的体现
20=3.
(1)众数:众数一般用频率分布表中频率最
(3)估计所有参赛选手得分的平均数为
高的一组数据的组中值来表示,即用样本数
0.0050×20×10+0.0075×20×30+0.0150×
据的频率分布直方图中,最高的小长方形的
20×50+0.0125×20×70+0.0100×20×90
底边中点的横坐标表示
=56.
(2)中位数:在频率分布直方图中,中位数左
设所有参赛选手得分的中位数估计值为a,
边和右边的小长方形的面积之和相等,
则0.0050×20+0.0075×20+0.0150×(a一
(3)平均数:平均数在频率分布表中等于每
40)-0.5,解得a-19
组数据的组中值与对应频率之积的和,在样
本数据的频率分布直方图中等于每个小长
估计所有叁赛选手得分的众数为0士60=50
方形的面积与其对应的底边中点的横坐标
解题技法
之积的和
频率分布直方图的相关结论:
典例某社区组织了垃圾分类知识竞赛活动,
(1)频率分布直方图中各小长方形的面积之和为1
从所有参赛选手中随机抽取20人,将他们的
得分按照[0,20),[20,40),[40,60),[60,80),
(2)频率分布直方图中纵轴表示频率,
组距,所以每
[80,100]分组,绘成频率分布直方图(如图).
组的频率=频率×组距,即小长方形的面积
组距
频率
组距
题型二变量间的相关关系及回归方程
0.0150
0.0125
题型解读
0.0075
1.判定两个变量正、负相关的方法
0.0050
(1)画散点图:点的分布从左下角到右上角,
04
20406080100得分
两个变量正相关;点的分布从左上角到右下
(1)求x的值;
角,两个变量负相关
(2)分别求出抽取的20人中得分落在[0,20)
(2)相关系数:>0时,正相关;r<0时,负
和[20,40)内的人数
相关,
(3)估计所有参赛选手得分的平均数、中位数
(3)线性经验回归方程中:b>0时,正相关;
330
O专题九计数原理、概率与统计
b<0时,负相关
解:(1D由题意可得x=号1十2+3+4+5)
2.求回归方程的一般步骤
(1)收集样本数据,设为(x,)(i=1,2,…,n).
3,y=
5(1.2+1.8+2.5+3.2+3.8)=2.5,
(2)作出散点图,确定x,y具有线性相关
关系
则r
xy:一5x
i=1
(3计算,
(2-5)[20-w]
=1.2+3.6+7.5+12.8+19-5×3×2.5
(4)代入公式计算b,a,公式为
√55-5×32×W1.69+0.49+0.49+1.69
2x:y一nxy
6.6
6.6
b
V10X√4.36≈6.603≈0.9995.
-nx2
i=1
因为0.9995>0.75,故可以用线性回归模型
a=y-b x.
拟合y与x的关系,
(5)写出回归方程y=bx十a.
(2)由题意可得b=
xy一5xy
i=1
6.6
典例2近几年我国新能源汽车产业快速发展,
x2-5x2
10
=1
据行业数据显示,新能源汽车的数量在不断增
0.66,a=y-bx=2.5-0.66×3=0.52,
加.下表为某城市统计的近5年新能源汽车的
新增数量,其中x为年份代号,y(单位:万辆)
则y=0.66x+0.52.
代表新增新能源汽车的数量.
当x=7时,y=0.66×7+0.52=5.14,
年份
2020
2021
2022
2023
2024
所以估计该城市2026年新增新能源汽车
年份代号x
1
2
3
6
5.14万辆,
新增新能源
解题技法
1.2
1.8
2.5
3.2
3.8
汽车y/万辆
回归分析问题的类型及解题方法
(1)计算样本相关系数r,判断是否可以用线
(1)求经验回归方程
性回归模型拟合y与x的关系.当r∈
①根据散,点图判断两变量是否线性相关,若不
[0.75,1]时,可以认为两个变量有很强的线性
是线性相关,应通过换元构造线性相关,
相关性;否则,没有很强的线性相关性
②利用公式,求出回归系数b
(2)求y关于x的经验回归方程,并据此估计
③利用经验回归方程过样本,点的中心求a.
该城市2026年新增新能源汽车的数量.
(2)利用经验回归方程进行预测,把经验回归
参考数据:√43.6≈6.603.
方程看作一次函数,求函数值.
(3)利用经验回归方程判断正、负相关,决定正
参考公式:b
2xy:一nxy
,a=y-b x,
x-n2
i-1
相关还是负相关的是系数b.
(4)经验回归方程的拟合效果,可以利用相关
系数判断,当|x越趋近于1时,两变量的线性
含-n含o-
相关性越强
331
讲解
实战高考·数学
题型独立性检验
解:(1)完善2×2列联表如下.
题型解读
结果
方案
合计
独立性检验的一般步骤
成功
未成功
(1)根据样本数据制成2×2列联表.
A
40
20
60
B
60
10
70
n(ad-bc)2
(2)根据公式X=(a+b(c十d)(a+c)(b+d)
合计
100
30
130
计算
零假设H:方案的选择对试验结果没有影响.
(3)比较与临界值的大小关系,作统计推断.
根据2×2列联表中的数据,经计算可得X=
典例3甲在进行某项试验时,设计了A,B两
130×(40×10-20×60)2≈6.6>3.841.
60×70×100×30
种方案.为了判断方案的选择对试验结果是否
根据小概率值xo.o5o=3.841的独立性检验,我
有影响,方案A运行了60次,试验成功了40
们推断H不成立,
次;方案B运行了70次,试验成功了60次,
即认为方案的选择对试验结果有影响,此推断
(1)根据题干信息,完善以下2×2列联表,依
犯错的概率不超过0.05.
据α=0.05的独立性检验,能否认为方案的选
(2)在一次试验中,选择方案A记为事件A,选
择对试验结果有影响,
择方案B记为事件B,试验成功记为事件C,
结果
方案
合计
由题意,得A与B是对立事件,且P(A)=},
成功
未成功
A
则P(B=1-PA)-号,
B
P(C)-8-号PCB)-8-9,
合计
所以P(C)=P(A)P(CA)+P(B)P(CB)
(2)以题干样本数据中两个方案试验成功的频
率为相应试验成功的概率,若甲在每次试验
×号+号×器,
=
中,选择方案A的概率为子现已知甲在一次
故甲在一次试验中获得了成功,则此次试验选
试验中获得了成功,请问此次试验选择方案A
择方案A的概率是P(A1C)=PAC=
P(C)
的概率是多少?
1
2
P(A)P(CA)33
7
参考公式及数据:
P(C)
50
251
x=
n(ad-bc)2
63
(a+b)(c+d)(a+c)(b+d)
解题技法
a
0.050
0.010
0.005
X计算公式较复杂,一是公式要清楚;二是代
合
3.841
6.635
7.879
入数值时不能张冠李戴;三是计算时要细心.
怎么学
本节压轴归纳
考查内容
新投入降低了每件产品成本,为了调查年技术
非线性回归模型
创新投人x(单位:千万元)对每件产品成本y
典例一企业生产某种产品,通过加大技术创
(单位:元)的影响,对近10年的年技术创新投
332
O专题九计数原理、概率与统计
入x:和每件产品成本y:(i=1,2,3,…,10)的
=200,
数据进行分析,得到如图所示的散点图,并计
a=y-3u=70-200×0.3=10,则y=10
1=3,
91
算得:x=6.8,y=70,)
=1.6,
+200u,
1℃
号业=350.
所以y关于x的经验回归方程为y=10
=1C;
+200
个每件产品成本元
250
(2)由y=10+20可得x=
200
200·
x
y-10'
150·
100
年利润M=m一x-10=
y2+2y+200
500+25+y-10
50
。。
0
y10-10=500y-20)2+90.8,
200
24681012.14
+100
年技术创新投人千万元
当y=20时,年利润M取得最大值,
(1)根据散点图可知,可用函数模型y=b+a
此时x=200一
-1020-1020,
拟合y与x的关系,试建立y关于x的经验回
所以当年技术创新投人为20千万元时,年利
归方程
润M的预报值最大.
(2)已知该产品的年销售额m(单位:千万元)
选题意图
与每件产品成本y(单位:元)的关系为m=
让学生学会利用转化思想来处理非线性回归
品十器1。+10该企业的年投人成
方程问题,非线性处理策略:要通过换元、取对
本除了年技术创新投入,还要投入其他成本
数等手段把非线性问题转化为线性问题.非线
10千万元,根据(1)的结果回答:当年技术创
性回归问题有时并不给出经验公式,这时我们
新投入x为何值时,年利润M的预报值最大?
可以画出已知数据的散点图,把它与学过的各
(注:年利润=年销售额一年投人成本)
种函数(幂函数、指数函数、对数函数等)图象
参考公式:对于一组数据(1,v),(2,2),…,
作比较,挑选一种跟这些散点拟合得最好的函
数,然后采用适当的变量变换,把问题化为线
(u,u,),其经验回归方程v=a十Bu的斜率和
性回归分析问题,使之得到解决.其一般步
截距的最小二乘估计公式分别为B
骤为:
>uU:一nuv、
作散
i=1
,a=v-Bu
根据原始数据c,)作出散点图
点图
选拟
解:1)冷4=是则y关于a的经验回归方程
根据散点图,选择恰当的拟合函数
合函数
为y=a+Bu.
变换
作恰当的变换,将其转化成线性函数,
求解
求线性回归方程
24y:-10uy
由题意可得B=
350-210
1.6-0.9
变换
在上面的基础上通过相应的变换,即可
还原
得非线性回归方程
333