内容正文:
8.3列联表与独立性检验(第一课时)
8.3.1分类变量与列联表
1
学习任务一
分类变量与列联表
问题1:请同学们阅读课本124页第一段、第二段、第三段,观察下述变量,并将其分成两类,并说明分类保准:数学成绩、数学考试等级、体重、国籍、身高、行业
名称 变量 分类标准
数值变量
分类变量
取值为实数,且大小和运算有实际含义
类别取值没有大小和运算意义
分类变量是区别不同现象或性质的随机变量
数学成绩、体重、身高
数学考试等级、国籍、行业
LOGO
2
学习任务一
分类变量与列联表
问题1:请同学们阅读课本124页第一段、第二段、第三段,并从下面对话中
1、你觉得数学难不难学?
2、你戴眼镜吗?
3、你是否吸烟?
4、你的身高是多少?
5、你跑
难学或不难学
戴或不戴
是或不是
160cm、161cm........200cm
10.5s、10.6s..........13s
50kg、51kg..........100kg
名称 变量 分类标准
身高、时长、体重
数值变量
分类变量
性别、是否戴眼镜、
数学是否难学
数据取值大小和运算有实际含义
类别取值没有大小和运算意义
分类变量是区别不同现象或性质的随机变量
LOGO
3
学习任务一
追问1:请举出两个分类变量的实例,并表示分类变量
如Y=1,表示什么?
分类变量虽没有具体取值,但是为了方便可用实数表示,这些数值只是作为编号使用,并没有通常的大小和运算意义,本节我们主要谈论取值于{0,1}的分类变量的关联性问题。
分类变量与列联表
{X=0,Y=1}表示什么?
LOGO
4
学习任务二
情景1:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。学校学生的普查数据如下:
523名女生中有331名经常锻炼;
601名男生中有473名经常锻炼。
问题2:是否有分类变量?如有,请将其列出编号
!发现:两种分类变量可判断是否有关联
分类变量与列联表
LOGO
5
学习任务二
分类变量与列联表
情景1:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。学校学生的普查数据如下:
523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。
问题3:比较以上数据,说说如何判断该校男生女生在体育锻炼的经常性方面是否存在差异?
比较经常锻炼的学生在女生和男生中的比率(比率精确到小数点后三位)
男生经常锻炼的比率比女生高出15.4个百分点,所以该校女生和男生在体育锻炼经常性方面有差异,男生更经常锻炼。
LOGO
6
学习任务二
分类变量与列联表
情景1:全校学生的普查数据如下:
523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。
追问2:请从概率的知识,给出以下事件的概率表示?
该生是女生,则该生经常锻炼的概率:
该生是男生,则该生经常锻炼的概率:
追问1:请从条件概率的角度,解释上述公式是哪个事件的发生概率?
“性别对体育锻炼的经常性没有影响”
“性别对体育锻炼的经常性有影响”
LOGO
7
学习任务二
分类变量与列联表
情景1:全校学生的普查数据如下:
523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。
追问2:能否将以上两组数据整理成表格,使得表示更加直观和清晰?
性别 锻炼 合计
不经常Y=0 经常Y=1
女生X=0 192 331 523
男生X=1 128 473 601
合计 320 804 1124
LOGO
8
我们将形如下表这种形式的数据统计表称为2×2列联表.
2×2列联表给出了成对分类变量数据的交叉分类频数.
学习任务二
分类变量与列联表
学习任务二
分类变量与列联表
情景1:全校学生的普查数据如下:
523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。
追问4:我们是否可以将以上数据整理成图形,使得表示更加直观和清晰?
等高堆积条形图:
清晰表示两分类变量百
分比结果。
LOGO
10
等高堆积条形图
不经常Y=0 女生 X=0 男生X=1 192 128 经常Y=1 女生X=0 男生X=1 331 473
小结
在现实生活当中,人们经常需要回答一定范围内的两种现象和性质之间是否存在关联性或者相互影响的问题
分类变量与列联表
回顾解决问题的过程,请归纳方法和步骤:
①根据问题实际,定义分类变量,引入样本空间,并建立古典概型,;
②将样本数据整理成2×2列联表的形式;
③计算并比较分类变量的X和Y的相应频率
④用等高堆积条形图直观展示上述频率
⑤根据频率稳定于概率的原理,估计分类变量X和Y的相应的条件概率,进而作出判断。
LOGO
11
学习任务三
问题4:教育部想要了解性别因素是否对高中生体育锻炼的经常性有影响我们还可以像上面一样吗?我们应该怎么做?
分类变量与列联表
大多数实际问题,无法获得所关心的全部对象的数据,抽样调查具有其不可代替的地位!
追问1:大多数实际问题,我们通过随机抽样得到样本数据,那么抽样数据的到的结论可以推断总体情况吗?请说明原因。
样本来源于总体,且具有代表性。频率稳定与概率
LOGO
12
学习任务四
例1:为比较甲乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生。通过测验得到如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名成绩优秀。试分析两校学生中数学成绩优秀率之间是否存在差异。
分类变量与列联表
解:用Ω表示两所学校的全体学生构成的集合. 考虑以Ω为样本空间的古典概型 , 对于Ω中每一名学生,定义分类变量X和Y如下:
LOGO
13
合计
乙校(X=1)
甲校(X=0)
优秀(Y=1)
不优秀(Y=0)
合计
数学成绩
学校
我们将所给数据整理成2×2列联表(单位:人).
分类变量与列联表
甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
由2×2列联表可得
学习任务四
LOGO
分类变量与列联表
追问1:通过再次抽样后得到如下数据:
甲校43名学生中有8名数学成绩优秀;乙校45名学生中有10名成绩优秀。
学习任务四
LOGO
等高堆积条形图
数学成绩 不优秀 甲学校 乙学校 33 38 数学成绩 优秀 甲学校 乙学校 10 7
学习任务四
分类变量与列联表
追问2:比较几次抽样结果,结论是否一致?
追问3:为什么会出现这类情况,请你尝试说说原因?
本质原因:样本具有随机性,推断的结论可能会错误。
追问4:有没有更好地改进方案?
改进方案:1、增大样本容量;2、寻求更好的推断方法
LOGO
16
分类变量与列联表
课堂练习
练习1:假设有两个分类变量与,它们的可能取值分别为和,其列联表为:
则当取下面何值时,与之间影响最小( ).
X Y 合计
Y=0 Y=1
X=0 10 18 28
X=1 m 26 m+26
合计 10+m 44 m+10
学习任务五
LOGO
17
分类变量与列联表
练习3:在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并判断二者是否有关系.
学习任务五
LOGO
18
分类变量与列联表
【学习任务六】课堂小节:
请谈谈你本节课的收获?
(1)数值变量和分类变量
(2)2×2列联表
(3)等高堆积条形图?
(4)样本的随机性会导致推断结论出错。
学习任务六
LOGO
19
$