内容正文:
专题1.5 概率与统计-回归分析、独立性检验
(1)频率分布直方图、茎叶图、平均数、方差,离散型随机变量的分布列与期望仍然是考查的热点,同时应注意和概率、平均数、分布列,期望,二项分布,正态分布等知识的结合,同时应注意独立性检验在实际生活中的应用.
(2)求回归直线方程的一般步骤
①作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系.
②当两变量具有线性相关关系时,求回归系数,写出回归直线方程.
③根据方程进行估计.
(3)独立性检验的一般步骤
①根据样本数据列出列联表;
②计算随机变量的观测值k,查下表确定临界值k0:
③如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”.
注意:①通常认为时,样本数据就没有充分的证据显示“X与Y有关系”.
②独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
③独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
1.随着互联网的飞速发展,我国智能手机用户不断增加,手机在人们日常生活中也占据着越来越重要的地位.某机构做了一项调查,对某市使用智能手机人群的年龄、日使用时长情况做了统计,将18~40岁的人群称为“青年人”(引用青年联合会对青年人的界定),其余人群称为“非青年人”.根据调查发现“青年人”使用智能手机占比为,“非青年人”使用智能手机占比为;日均使用时长情况如下表:
时长
2小时以内
2~3小时
3小时以上
频率
0.4
0.3
0.3
将日均使用时长在2小时以上称为“频繁使用人群”,使用时长在2小时以内称为“非频繁使用人群”.已知“频繁使用人群”中有是“青年人”.
现对该市“日均使用智能手机时长与年龄的关系”进行调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据上面提供的数据.
(1)补全下列列联表;
青年人
非青年人
合计
频繁使用人群
非频繁使用人群
合计
(2)根据列联表的独立性检验,判断有多大把握认为“日均使用智能手机时长与年龄有关”?
附:,其中.
以参考数据:独立性检验界值表
0.15
0.10
0.050
0.025
0.010
2.072
2.706
3.841
5.024
6.635
2.某线上学习平台为保证老学员在此平台持续报名学习,以便吸引更多学员报名,从用户系统中随机选出200名学员,对该学习平台的教学成效评价和课后跟踪辅导评价进行了统计,并用以估计所有学员对该学习平台的满意度.其中对教学成效满意率为,课后跟踪辅导的满意率为,对教学成效和课后跟踪辅导都不满意的有10人.
(1)完成下面列联表,并分析是否有把握认为教学成效满意度与跟踪辅导满意度有关.
对教学成效满意
对教学成效不满意
合计
对课后跟踪辅导满意
对课后跟踪辅导不满意
合计
(2)若用频率代替概率,假设在学习服务协议终止时对教学成效和课后跟踪辅导都满意学员的续签率为,只对其中一项不满意的学员续签率为,对两项都不满意的续签率为.从该学习平台中任选10名学员,估计在学习服务终止时续签学员人数.
附:列联表参考公式:,.临界值:
3.从集市上买回来的蔬菜仍存有残留农药,食用时需要清洗数次,统计表中的x表示清洗的次数,y表示清洗x次后1千克该蔬菜残留的农药量(单位:微克).
(1)在如图的坐标系中,描出散点图,并根据散点图判断,与哪一个适宜作为清洗x次后1千克该蔬菜残留的农药量的回归方程类型:(给出判断即可不必说明理由)
(2)根据判断及下面表格中的数据,建立y关于x的回归方程:
x
1
2
3
4
5
y
4.5
2.2
1.4
1.3
0.6
3
2
0.12
10
0.09
-8.7
0.9
表中,
附:①线性回归方程中系数计算公式分别为,;
4.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),