内容正文:
7.5 正态分布
问题 自动流水线包装的食盐 , 每袋标准质量为400g . 由于各种不可控的因素 , 任意抽取一袋食盐,它的质量与标准质量之间或多或少会存在一定的误差 (实际质量减去标准质量) . 用X表示这种误差 , 则 X是一个连续型随机变量 . 检测人员在一次产品检验中 , 随机抽取了100袋食盐 , 获得误差X (单位:g)的观测值如下:
现实中, 除了前面已经研究过的离散型随机变量外, 还有大量问题中的随机变量不是离散的,它们的取值往往充满某个区间甚至整个实轴 , 但取一点的概率为0 , 我们称这类随机变量为连续性随机变量 , 下面我们看一个具体问题.
-0.6 -1.4 -0.7 3.3 -2.9 -5.2 1.4 0.1 4.4 0.9
-2.6 -3.4 -0.7 -3.2 -1.7 2.9 0.6 1.7 2.9 1.2
0.5 -3.7 2.7 1.1 -3.0 -2.6 -1.9 1.7 2.6 0.4
2.6 -2.0 -0.2 1.8 -0.7 -1.3 -0.5 -1.3 0.2 -2.1
2.4 -1.5 -0.4 3.8 -0.1 1.5 0.3 -1.8 0.0 2.5
3.5 -4.2 -1.0 -0.2 0.1 0.9 1.1 2.2 0.9 -0.6
-4.4 -1.1 3.9 -1.0 -0.6 1.7 0.3 -2.4 -0.1 -1.7
-0.5 -0.8 1.7 1.4 4.4 1.2 -1.8 -3.1 -2.1 -1.6
2.2 0.3 4.8 -0.8 -3.5 -2.7 3.8 1.4 -3.5 -0.9
-2.2 -0.7 -1.3 1.5 -1.5 -2.2 1.0 1.3 1.7 -0.9
(1)如何描述这100个样本误差数据的分布?
(2)如何构建适当的概率模型刻画误差X的分布?
观察图形可知:误差观测值有正有负, 并大致对称地分布在X=0的两侧, 而且小误差比大误差出现得更频繁.
频率/组距
X
-6
0
-4
-2
0
0.15
0.05
0.10
0.20
4
2
6
根据已学的统计知识,可用频率分布直方图描述这组误差数据的分布,如右图所示.
频率分布直方图中每个小矩形的面积表示误差落在相应区间内的频率,所有小矩形的面积之和为 1.
随着样本数据量越来越大, 让分组越来越多, 组距越来越小, 由频率的稳定性可知, 频率分布直方图的轮廓就越来越稳定, 接近一条光滑的钟形曲线, 如右图所示.
根据频率与概率的关系,可用右图中的钟形曲线(曲线与水平轴之间的面积为1)来描述袋装食盐质量误差的概率分布.
频率/组距
X
-6
0
-4
-2
0
0.15
0.05
0.10
0.20
4
2
6
例如,任意抽取一袋食盐,误差落在 [-2,-1] 内的概率,可用图中黄色阴影部分的面积表示.
由函数知识可知,上图中的钟形曲线是一个函数.那么,这个函数是否存在解析式呢?
答案是肯定的.在数学家的不懈努力下,找到了以下刻画随机误差分布的解析式:
其中 μ∈R,σ>0 为参数.
显然, 对任意的x∈R , f(x)>0, 它的图象在 x 轴的上方.可以证明 x轴和曲线之间的区域的面积为 1.我们称f(x)为正态密度函数,称它的图象为正态密度曲线,简称正态曲线,如右图所示.
若随机变量 X 的概率分布密度函数为 f (x),则称随机变量X 服从正态分布,记为 X~N(μ,σ2).特别地,当 μ=0,σ=1 时,称随机变量 X 服从标准正态分布.
f (x)
x
μ
a
x
b
O
若X~N(μ, σ2), 则如上图所示, X取值不超过x的概率P(X≤x)为图中区域A的面积, 而P(a≤X≤b)为区域 B的面积.
A
B
正态分布在概率和统计中占有重要地位,它广泛存在于自然现象、生产和生活实践之中.在现实生活中,很多随机变量都服从或近似服从正态分布.例如,某些物理量的测量误差,某一地区同年龄人群的身高、体重、肺活量等,一定条件下生长的小麦的株高、穗长、单位面积产量,自动流水线生产的各种产品的质量指标(如零件的尺寸、纤维的纤度、电容器的电容),某地每年 7月的平均气温、平均湿度、降水量等,一般都近似服从正态分布.
观察正态曲线及相应的密度函数,你能发现正态曲线的哪些特点?
观察
f (x)
x
μ
a
x
b
O
(2)曲线在x=μ处达到峰值