内容正文:
直线
7.5 正态分布
问题引入
现实中,除了前面已经研究过的离散型随机变量外,还有大量问题中的随机变量不是离散型的,它们的取值往往充满某个区间甚至整个实轴,但取一点的概率为0,我们称这类随机变量为连续型随机变量.下面我们看一个具体问题.
问题:自动流水线包装的食盐,每袋标准质量为400g.由于各种不可控的因素,任意抽取一袋食盐,它的质量与标准质量之间或多或少会存在一定的误差(实际质量减去标准质量).用表示这种误差,则是一个连续型随机变量.检测人员在一次产品检验中,随机抽取了100袋食盐,获得误差(单位:g)的观测值如下:
问题引入
(1)如何描述这100个样本误差数据的分布?
(2)如何构建适当的概率模型刻画误差的分布?
新知探索
根据已学的统计知识,可用频率分布直方图描述这组误差数据的分布,如图所示.频率分布直方图中每个小矩形的面积表示误差落在相应区间内的频率,所有小矩形的面积之和为1.
观察图形可知:误差观测值有正有负,并大致对称地分布在的两侧,而且小误差比大误差出现得更频繁.
新知探索
随着样本数据量越来越大,让分组越来越多,组距越来越小,由频率的稳定性可知,频率分布直方图的轮廓就越来越稳定,接近一条光滑的钟形曲线,如图所示.
根据频率与概率的关系,可用图中的钟形曲线(曲线与水平轴之间的区域的面积为1)来描述袋装食盐质量误差的概率分布.例如,任意抽取一袋食盐,误差落在内的概率,可用图中黄色阴影部分的面积表示.
新知探索
由函数知识知,图中的钟形曲线是一个函数.那么,这个函数是否存在解析式呢?
答案是肯定的.在数学家的不懈努力下,找到了刻画随机误差分布的解析式:,.其中,为参数.
新知探索
显然,对任意的,,它的图象在轴的上方.可以证明轴和曲线之间的区域的面积为1.我们称为正态密度函数,称它的图象为正态密度曲线,简称正态曲线,如图所示.若随机变量的概率分布密度函数为,则称随机变量服从正态分布,记为.特别地,当,时,称随机变量服从标准正态分布.
若,则如图所示,取值不超过的概率为图中区域的面积,而为区域的面积.
新知探索
正态分布在概率和统计中占有重要地位,它广泛存在于自然现象、生产和生活实践之中.在现实生活中,很多随机变量都服从或近似服从正态分布.例如,某些物理量的测量误差,某一地区同年龄人群的身高、体重、肺活量等,一定条件下生长的小麦的株高、穗长、单位面积产量,自动流水线生产的各种产品的质量指标(如零件的尺寸、纤维的纤度、电容器的电容),某地每年7月的平均气温、平均湿度、降水量等,一般都近似服从正态分布.
新知探索
由的密度函数及图象可以发现,正态曲线还有以下特点:
(1)曲线是单峰的,它关于直线对称;
(2)曲线在处达到峰值;
(3)当无限增大时,曲线无限接近轴.
思考1:观察正态曲线及相应的密度函数,你能发现正态曲线的哪些特点?
新知探索
我们知道,函数的图象可由的图象平移得到.因此,在参数取固定值时,正态曲线的位置由确定,且随着的变化而沿轴平移,如图所示.
思考2:一个正态分布由参数和完全确定,这两个参数对正态曲线的形状有何影响?它们反映正态分布的哪些特征?
新知探索
当取定值时,因为正态曲线的峰值与成反比,而且对任意的,正态曲线与轴之间的区域面积总为1.因此,当较小时,峰值高,正态曲线“瘦高”,表示随机变量的分布比较集中;当较大时,峰值低,正态曲线“矮胖”,表示随机变量的分布较分散,如图所示.
观察两个图象可以发现,参数反映了正态分布的集中位置,反映了随机变量的分布相对于均值的离散程度.实际上,我们有:
若,则.
新知探索
例析
例.李明上学有时坐公交车,有时骑自行车.他各记录了50次坐公交车和骑自行车所花的时间,经数据分析得到:坐公交车平均用时30样本方差为36;骑自行车平均用时34,样本方差为4.假设坐公交车用时和骑自行车用时都服从正态分布.
(1)估计,的分布中的参数;
(2)根据(1)中的估计结果,利用信息技术工具画出和的分布密度曲线;
解:(1)随机变量的样本均值为30,样本标准差为6;随机变量的样本均值为34,样本标准差为2.用样本均值估计参数,用样本标准差估计参数,可以得到
.
(2)和的分布密度曲线如图所示.
新知探索
辨析1.[多选]以下关于正态分布密度曲线的说法中正确的是( ).
A.曲线都在轴的上方,左右两侧与轴无限接近,最终可与轴相交
B.曲线关于直线对称
C.曲线呈现“中间高,两边低”的钟形形状
D.曲线与轴之间的面积为1
答案:BCD.
新知探索
辨析2.下列函数是正态密度函数的是( ).
A.,都是实数
B.
C.
D.
答案:B.
新知探索
辨析3.若随