内容正文:
课题:统计案例
知识点一、统计案例
1.分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.列联表
列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量,其中n=a+b+c+d为样本容量.
3.独立性检验
利用随机变量来判断“两个分类变量有关系”的方法称为独立性检验.
4.独立性检验的步骤
(1)计算随机变量的观测值k,查表确定临界值k0:
P(≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
(2)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(≥k0);否则,就认为在犯错误的概率不超过P(≥k0)的前提下不能推断“X与Y有关系”.
5.独立性检验的方法
(1) 独立性检验的步骤:
①根据样本数据制成2×2列联表;
②根据公式,计算的观测值;
③比较与临界值的大小关系作统计推断.
(2)独立性检验得出的结论带有概率性质,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值,3.841和6.635就是两个常用的临界值,一般认为当≥3.841时,则有95%的把握说事件A与B有关;当≥6.635时,则有99%的把握说事件A与B有关.
【典型例题】
【例1】通过随机询问110名性别不同的大学生是否爱好某项运动,得到列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由,计算得
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
【例2】某班学生数学、外语成绩得到2×2列联表如:
数优
数差
总计
外优
34
17
51
外差
15
19
34
总计
49
36
85
那么,随机变量等于________.
【例3】某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
(1)根据以上数据完成下列2×2列联表:
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
合计
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.
【举一反三】
1.随着手机的发展,“微信”越来越成为人们交流的一种方式.某机构对“使用微信交流”的态度进行调查,随机抽取了50人,他们年龄的频数分布及对“使用微信交流”赞成人数如下表.
年龄(单位:岁)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75)
频数
5
10
15
10
5
5
赞成人数
5
10
12
7
2
1
(1)若以“年龄45岁为分界点”,由以上统计数据完成下面列联表,并判断是否有99%的把握认为“使用微信交流”的态度与人的年龄有关;
年龄不低于45岁的人数
年龄低于45岁的人数
合计
赞成
不赞成
合计
(2)若从年龄在[55,65)的被调查人中随机选取2人进行追踪调查,求2人中至少有1人不赞成“使用微信交流”的概率.
参考数据如下:
2.假设某地有男驾驶员300名,女驾驶员200名.为了研究驾驶员日平均开车速度是否与性别有关,现采用分层抽样的方法,从中抽取了100名驾驶员,先统计了他们某月的日平均开车速度,然后按“男驾驶员”和“女驾驶员”分为两组,再将两组驾驶员的日平均开车速度(千米/小时)分成5组:[50,60),[60,70),[70,80),[8