内容正文:
8.3.1 分类变量与列联 导学案
1. 了解 探究分类变量之间关系的方法
2. 制作、理解 2×2列联表,用频率分析法、图形分析法探究两个分类变量之间的关系
3. 能够对统计数据进行简单整理、初步分析提升数学抽象、数据建模及数据分析素养
1. 创设情境,引入新知
思考:玩手机时间长短,会不会影响数学考试成绩?
追问:能不能用数据、用统计方法,而不是凭感觉,来判断这件事?
2.探究新知
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
定义:在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为 .
因此,变量分为: 与
数值变量:例:人的身高;100米短跑所用时间;产品月销量数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系:回归分析法;
分类变量:例:班级;性别;是否经常锻炼;是否每年体检;
分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示
牛刀小试:
练1:在吸烟与患肺病是否有病的研究中,下列属于两个分类变量的是( )
A.吸烟,不吸烟 B.患病,不患病
C.是否吸烟,是否患病 D.以上都不对
思考:如何利用统计数据判断一对分类变量之间是否具有关联性呢?
问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
定义:2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统计表称为 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别
甲(Y=0)
乙(Y=1)
合计
A(X=0)
a
b
A(X=1)
c
d
合计
3.应用新知
例1为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
牛刀小试:
练2:在统计中,研究两个分类变量之间的关联性时常用的图是( )
A.散点图 B.残差图 C.频率分布直方图 D.等高堆积条形图
练3:观察下图的等高条形图,其中最有把握认为两个分类变量,之间没有关系的是( )
A. B. C.D.
练4:下表是、两班关于选择“物理”作为“加三学科”的意愿的列联表,请根据已有数据完善表格.(单位:人)
类别
愿意选择“物理”
不愿意选择“物理”
总计
班
20
42
班
16
总计
44
3.能力提升
类型一: 等高堆积条形图的辨析
例题1 .年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
总结:等高堆积条形图的辨析
(1)利用数形结合思想,借助 来判断两个分类变量是否相关是判断变量是否相关的常见方法.
(2)一般地,在等高堆积条形图中,与相差越 ,两个分类变量有关系的可能性就越 .
(3)等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的 特征,依据频率稳定于概率的原理,我们可以推断结果.
题型二:完善列联表(求参数值)
例题2 (1)2022年9月23日,以“庆丰收同心共富,迎盛会齐向未来”为主题的第五个中国农民丰收节开幕式在盐城市射阳县海河镇举行,射阳县政府同步开展以“湿地绿城庆丰收、向海图强迎盛会”为主题的农民丰收节系列活动,现从某活动现场的观众中随机抽取名(其中男性名),了解他们对该活动的满意情况,得到下表.
不满意
满意
合计
男性
女性
合计
根据统计数据完成列联表.
(2)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
题型三:列联表分析两个分类变量是否有关联(差异)
例题3. 下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
总结:利用2×2列联表分析两变量间的关系时,首先要根据题中数据列出2×2列联表,然后根据 特征,即将P(Y=1|X=0)与P(Y=1|X=1)的值相比较,可直观地反映出两个分类变量间是否相互影响.
4.课堂小结
作业1:完成教材:第127页练习 第4题.
作业2:配套辅导资料对应的《分类变量与列联表》.
学科网(北京)股份有限公司1 / 18
学科网(北京)股份有限公司
$
8.3.1 分类变量与列联表 导学案
1. 了解 探究分类变量之间关系的方法
2. 制作、理解 2×2列联表,用频率分析法、图形分析法探究两个分类变量之间的关系
3. 能够对统计数据进行简单整理、初步分析提升数学抽象、数据建模及数据分析素养
1. 创设情境,引入新知
思考:玩手机时间长短,会不会影响数学考试成绩?
追问:能不能用数据、用统计方法,而不是凭感觉,来判断这件事?
教师:这就是本节课将要学习的 分类变量和列联表
2.探究新知
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
定义:在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
因此,变量分为:数值变量与分类变量
数值变量:例:人的身高;100米短跑所用时间;产品月销量数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系:回归分析法;
分类变量:例:班级;性别;是否经常锻炼;是否每年体检;
分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示
思考:如何利用统计数据判断一对分类变量之间是否具有关联性呢?
牛刀小试:
练1:在吸烟与患肺病是否有病的研究中,下列属于两个分类变量的是( )
A.吸烟,不吸烟 B.患病,不患病
C.是否吸烟,是否患病 D.以上都不对
预设:“是否吸烟”是分类变量,它的两个不同取值:吸烟和不吸烟.
“是否患病”是分类变量,它的两个不同取值:患病和不患病.
可知A,B都是一个分类变量所取的两个不同值.
故选:C.
问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
预设:方法二:由频率估计概率
这是一个简单的统计问题.最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率.为了方便,我们设
,.
那么,只要求出和的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到
,.
由
可知,男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.
预设:方法二:借助条件概率
上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.用表示该校全体学生构成的集合,这是我们所关心的对象的总体.考虑以为样本空间的古典概型,并定义一对分类变量X和Y如下:对于中的每一名学生,分别令
.
我们希望通过比较条件概率和回答上面的问题.按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是,而该男生属于经常锻炼群体的概率是.因此,“性别对体育锻炼的经常性没有影响”可以描述为
;
而“性别对体育锻炼的经常性有影响”可以描述为
.
为了清楚起见,我们用表格整理数据,如表8.3-1所示.
表8.3-1 单位:人
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
合计
320
804
1124
我们用表示事件和的积事件,用表示事件和的积事件.根据古典概型和条件概率的计算公式,我们有
,
.
由大于可以做出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
预设:方法三:借助等高堆积条形图
由表8.3-1 画出以下等高堆积条形图:
由图可知:通过比较发现,男生与女生经常锻炼的人生存在差异,男生经常锻炼的的频率高于女生经常锻炼的人数.依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)>P(Y=1|X=1).因此,该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
定义:2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别
甲(Y=0)
乙(Y=1)
合计
A(X=0)
a
b
a+b
A(X=1)
c
d
c+d
合计
a+c
b+d
a+b+c+d
3.应用新知
例1为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
预设:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.
对于中每一名学生,定义分类变量和如下:
我们将所给数据整理成表8.3-2.
学校
数学成绩
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
表8.3-2是关于分类变量和的抽样数据的列联表:最后一行的前两个数分别是事件和的频数;最后一列的前两个数分别是事件和的频数;中间的四个格中的数是事件的频数;右下角格中的数是样本容量.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
和.
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
和.
我们可以用等高堆积条形图直观地展示上述计算结果,如图8.3-1所示.
在图8.3-1中,左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率.
通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断.
也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
预设:事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题.
牛刀小试:
练2:在统计中,研究两个分类变量之间的关联性时常用的图是( )
A.散点图 B.残差图 C.频率分布直方图 D.等高堆积条形图
预设:在统计中,研究两个分类变量之间的关联性时常用的图是等高堆积条形图,
散点图是研究两个变量之间相关关系时用,残差是研究拟合效果时用到的,频率分布直方图是研究频率分布时用到的,
故选:D
练3:观察下图的等高条形图,其中最有把握认为两个分类变量,之间没有关系的是( )
A. B. C.D.
预设:根据题意,在等高的条形图中,当,所占比例相差越大时,越有把握认为两个分类变量,之间有关系,
由选项可得:B选项中,,所占比例相差无几,所以最有把握认为两个分类变量,之间没有关系,
故选:B
练4:下表是、两班关于选择“物理”作为“加三学科”的意愿的列联表,请根据已有数据完善表格.(单位:人)
类别
愿意选择“物理”
不愿意选择“物理”
总计
班
20
42
班
16
总计
44
预设:根据已知条件得出,又因为,所以,所以,所以.
所以.
3.能力提升
类型一: 等高堆积条形图的辨析
例题1 .年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
预设:设等高条形图对应列联表如下:
岁及以上
岁以下
总计
男性
女性
总计
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
总结:等高堆积条形图的辨析
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否相关是判断变量是否相关的常见方法.
(2)一般地,在等高堆积条形图中,与相差越大,两个分类变量有关系的可能性就越大.
(3)等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
题型二:完善列联表(求参数值)
例题2 (1)2022年9月23日,以“庆丰收同心共富,迎盛会齐向未来”为主题的第五个中国农民丰收节开幕式在盐城市射阳县海河镇举行,射阳县政府同步开展以“湿地绿城庆丰收、向海图强迎盛会”为主题的农民丰收节系列活动,现从某活动现场的观众中随机抽取名(其中男性名),了解他们对该活动的满意情况,得到下表.
不满意
满意
合计
男性
女性
合计
根据统计数据完成列联表.
预设:因为男性有名,一共有名观众,
所以一共有名女性观众,而有名女性观众不满意,
所以有名女性观众满意,而有名男性观众满意,
所以有名男性观众不满意,故有名观众不满意,有名观众满意,
补全的列联表如下.
不满意
满意
合计
男性
女性
合计
(2)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
预设:因为抽取的村民中,老年人有25名,年轻人有25名,所以,
所以,A、B对;
所以,则对;
则错.
故选:.
题型三:列联表分析两个分类变量是否有关联(差异)
例题3. 下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
预设:中学愿意报考某类大学的比率为;
中学愿意报考某类大学的比例为;
,即中学愿意报考某类大学的比例比中学高了,
两所中学的学生对报考某类大学的态度有显著差异,且中学更愿意报考.
总结:利用2×2列联表分析两变量间的关系时,首先要根据题中数据列出2×2列联表,然后根据频率特征,即将P(Y=1|X=0)与P(Y=1|X=1)的值相比较,可直观地反映出两个分类变量间是否相互影响.
4.课堂小结
作业1:完成教材:第127页练习 第4题.
作业2:配套辅导资料对应的《分类变量与列联表》.
学科网(北京)股份有限公司1 / 18
学科网(北京)股份有限公司
$