内容正文:
清单04 统计
(8个考点梳理+题型解读+提升训练)
【清单01】一元线性回归模型
我们称
为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【清单02】线性回归方程与最小二乘法
回归直线方程过样本点的中心(,),是回归直线方程最常用的一个特征
我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(least squares estimate ),
其中
【清单03】残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
【清单04】刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和 (yi-i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
R2=1-,R2越大
【清单05】2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉分类频数.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
【清单06】等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
【清单07】临界值
χ2 统计量也可以用来作相关性的度量.χ2 越小说明变量之间越独立,χ2越大说明变量之间越相关
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
【清单08】独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验(test of independence).
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
【清单09】应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
【考点题型一】用2×2列联表分析两分类变量间的关系
技巧:(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与 的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
【例1】在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( )
A
合计
B
200
800
1000
180
a
180+a
合计
380
800+a
1180+a
A.200 B.720 C.100 D.180
【变式1-1】针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数,若有90%的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有( )人
附表:
0.100
0.050
0.010
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
附:
A.20 B.25 C.30 D.35
【变式1-2】北京冬奥会临近开幕,大众对冰雪运动关注不断上升,各地陆续建成众多冰雪设施,广大市民有条件体验冰雪活动的乐趣,为研究市民性别和喜欢冰雪活动是否有关,某校社团学生在部分市民中进行了一次调查,得到下表:
冰雪运动的喜好
性别
合计
男性
女性
喜欢
140
m
140+m
不喜欢
n
80
80+n
合计
140+n
80+m
220+m+n
已知男性喜欢冰雪运动的人数占男性人数的,女性喜欢冰雪运动的人数占女性人数的,则( )
参考:,P(>3.841)=0.05,P(>6.635)=0.01.
A.列联表中n的值为60,m的值为120
B.有95%的把握认为市民性别和喜欢冰雪运动有关系
C.随机对一路人进行调查,有95%的可能性对方喜欢冰雪运动
D.没有99%的把握认为市民性别和喜欢冰雪运动有关系
【考点题型二】用等高堆积条形图分析两分类变量间的关系
技巧:等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
【例2】观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A. B.
C. D.
【变式2-1】如图是某地区中学生是否喜欢理科的等高堆积条形图,从图中可以看出( )
A.是否喜欢理科与性别无关 B.女生中喜欢理科的百分比为80%
C.男生比女生喜欢理科的可能性大 D.男生中不喜欢理科的百分比为60%
【考点题型三】有关“相关的检验”
技巧:独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值xα.
②利用公式χ2=计算χ2.
③如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
【例3】某视频上传者为确定下一段时间的视频制作方向,在动态中发布投票,投票主题为“你希望我接下来更新哪个方向的视频”,共计人参与此投票,投票结果如下图所示(每位关注者仅选一项).
其中,投票游戏、动漫、生活的关注者之比为.
(1)求参与投票的关注者的性别比;
(2)以游戏与生活两个方向为例,依据小概率值的独立性检验,判断性别与关注者喜欢视频上传者上传视频的类型是否有关.
注:;临界值,.
【变式3-1】根据分类变量与的观察数据,计算得到,依据下表给出的独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.有95%的把握认为变量与独立
B.有95%的把握认为变量与不独立
C.变量与独立,这个结论犯错误的概率不超过10%
D.变量与不独立,这个结论犯错误的概率不超过10%
【变式3-2】2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
A.130 B.190 C.240 D.250
【考点题型四】有关“无关的检验”
技巧:独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
【例4】某县有甲、乙两所规范化学校,教育主管部门为了检验两校九年级学生的数学水平,从甲、乙两校的九年级学生中,分别随机抽取55人和45人(各占全校九年级学生总数的15%)进行统一试题的数学测验.测验结果如下表(单位:人):
及格情况
学校
及格
不及格
甲校
47
8
乙校
30
15
试问:甲、乙两校九年级学生的数学成绩的差异是否显著?
【变式4-1】江苏省从2021年开始,高考取消文理分科,实行“3+1+2”的模式,其中的“1”表示每位学生必须从物理、历史中选择一个科目且只能选择一个科目.某校为了解高一学生对“1”的选课情况,随机抽取了100名学生进行问卷调查,下表是根据调查结果得到的列联表:
选择物理
选择历史
合计
男生
50
b
m
女胜
c
20
40
合计
100
则下列结论中正确的是( )
A.
B.
C.有99.5%的把握认为“选择科目与性别有关”
D.不能作出“选择科目与性别有关”的结论
【考点题型五】独立性检验的综合应用
技巧:(1)解答此类题目的关键在于正确利用χ2=计算χ2的值,再用它与临界值xα的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
【例5】学生视力不良问题是教育部基础教育质量监测中心发布的我国首份《中国义务教育质量监测报告》中指出的众多问题之一,为了解学生的视力情况,某学校从A,B两个年级的学生中各随机选取了100人进行问卷调查,整理数据后获得如下统计表:
近视人数
不近视人数
合计
A年级
75
25
100
B年级
45
55
100
合计
120
80
200
(1)能否有99.5%的把握认为学生的视力情况与年级有关?
(2)以样本的频率估计总体的概率,若从A年级学生中随机抽取4人,记4人中不近视的人数为X,求X的分布列与数学期望.
附:,.
0.010
0.005
0.001
k
6..635
7.879
10.828
【变式5-1】为了解休闲方式是否和性别有关,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)根据列联表进行独立性检验,你能得出什么结论?
【变式5-2】为比较注射A,B两种药物产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2所示的分别是注射药物A和药物B后皮肤疱疹面积的频数分布.(疱疹面积单位:)
表1
疱疹面积
频数
30
40
20
10
表2
疱疹面积
频数
10
25
20
30
15
(1)完成图①和图②所示的分别注射药物A,B后皮肤疱疹面积的频率分布直方图,并求注射药物A后疱疹面积的中位数;
(2)完成下表所示的2×2列联表,并回答能否有99.9%的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异.(的值精确到0.01)
疱疹面积小于
疱疹面积不小于
合计
注射药物A
注射药物B
合计
【考点题型六】求回归直线方程
技巧:求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,x,xiyi.
(5)代入公式计算,,公式为
(6)写出线性回归方程=x+.
【例6】有一位同学家里开了一个小卖部,他为了研究气温对热茶销售的影响,经过统计,得到一个卖出热茶杯数与当天气温的对比表如下:
气温x/℃
-5
0
4
7
12
15
19
23
27
31
36
热茶销售杯数y/杯
156
150
132
128
130
116
104
89
93
76
54
(1)画出散点图;
(2)你能从散点图中发现气温与热茶的销售杯数之间关系的一般规律吗?
(3)如果近似成线性关系的话,请画出一条直线来近似地表示这种线性关系;
(4)试求出回归直线方程;
(5)利用(4)的回归方程,若某天的气温是2 ℃,预测这一天卖出热茶的杯数.
【变式6-1】偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差(实际成绩平均分偏差).在某次考试成绩统计中,某老师为了对学生数学偏差(单位:分)与物理偏差(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号
1
2
3
4
5
6
7
8
数学偏差
20
15
13
3
2
-5
-10
-18
物理偏差
6.5
3.5
3.5
1.5
0.5
-0.5
-2.5
-3.5
(1)若与之间具有线性相关关系,求关于的线性回归方程;
(2)若该次考试该数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.(下面是参考数据和参考公式)
,回归直线方程为,其中
【变式6-2】从2018年1月1日起,广东、等18个保监局所辖地区将纳入商业车险改革试点范围,其中最大的变化是上一年的出险次数决定了下一年的保费倍率,具体关系如下表:
上一年的出险次数
次以上(含次)
下一年保费倍率
连续两年没有出险打折,连续三年没有出险打折
有评估机构从以往购买了车险的车辆中随机抽取1000 辆调查,得到一年中出险次数的频数分布如下(并用相应频率估计车辆每年出险次数的概率):
一年中出险次数
0
1
2
3
4
5次以上(含5次)
频数
500
380
100
15
4
1
(1)求某车在两年中出险次数不超过2次的概率;
(2)经验表明新车商业车险保费与购车价格有较强的线性相关关系,估计其回归直线方程为:.(其中(万元)表示购车价格,(元)表示商业车险保费).李先生2016 年1月购买一辆价值20万元的新车.根据以上信息,试估计该车辆在2017 年1月续保时应缴交的保费,并分析车险新政是否总体上减轻了车主负担.(假设车辆下一年与上一年都购买相同的商业车险产品进行续保)
1 / 1
1 / 1
学科网(北京)股份有限公司
$$
清单04 统计
(8个考点梳理+题型解读+提升训练)
【清单01】一元线性回归模型
我们称
为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【清单02】线性回归方程与最小二乘法
回归直线方程过样本点的中心(,),是回归直线方程最常用的一个特征
我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(least squares estimate ),
其中
【清单03】残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
【清单04】刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和 (yi-i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
R2=1-,R2越大
【清单05】2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉分类频数.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
【清单06】等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
【清单07】临界值
χ2 统计量也可以用来作相关性的度量.χ2 越小说明变量之间越独立,χ2越大说明变量之间越相关
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
【清单08】独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验(test of independence).
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
【清单09】应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
【考点题型一】用2×2列联表分析两分类变量间的关系
技巧:(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与 的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
【例1】在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( )
A
合计
B
200
800
1000
180
a
180+a
合计
380
800+a
1180+a
A.200 B.720 C.100 D.180
【答案】B
【分析】把列联表中所给的数据代入求观测值的公式,建立不等式,代入验证可知a的可能值.
【详解】解:因为两个分类变量A和B没有任何关系,
所以 ,
代入验证可知 .
故选:B.
【变式1-1】针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数,若有90%的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有( )人
附表:
0.100
0.050
0.010
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
附:
A.20 B.25 C.30 D.35
【答案】CD
【分析】设男生可能有人,依题意填写列联表,由求出的取值范围,从而得出正确的选项.
【详解】解:设男生可能有人,依题意得女生有人,填写列联表如下:
喜欢抖音
不喜欢抖音
总计
男生
女生
总计
若有的把握认为是否喜欢抖音和性别有关,则,
即,解得,
由题意知,且是5的整数倍,所以30和35都满足题意.
故选:CD.
【变式1-2】北京冬奥会临近开幕,大众对冰雪运动关注不断上升,各地陆续建成众多冰雪设施,广大市民有条件体验冰雪活动的乐趣,为研究市民性别和喜欢冰雪活动是否有关,某校社团学生在部分市民中进行了一次调查,得到下表:
冰雪运动的喜好
性别
合计
男性
女性
喜欢
140
m
140+m
不喜欢
n
80
80+n
合计
140+n
80+m
220+m+n
已知男性喜欢冰雪运动的人数占男性人数的,女性喜欢冰雪运动的人数占女性人数的,则( )
参考:,P(>3.841)=0.05,P(>6.635)=0.01.
A.列联表中n的值为60,m的值为120
B.有95%的把握认为市民性别和喜欢冰雪运动有关系
C.随机对一路人进行调查,有95%的可能性对方喜欢冰雪运动
D.没有99%的把握认为市民性别和喜欢冰雪运动有关系
【答案】ABD
【分析】利用列联表及给定占比计算判断A;计算观测值再比对判断B;
利用列联表求出对应频率判断C;利用观测值并比对判断D即可作答.
【详解】依题意,,解得,由,解得,A正确;
,则有95%的把握认为市民性别与喜欢冰雪运动有关系,B正确;
随机对一路人进行调查,喜欢冰雪运动的频率为:,
则有65%的可能性对方喜欢冰雪运动,C不正确;
,没有99%的把握认为市民性别与喜欢冰雪运动有关系,D正确.
故选:ABD
【考点题型二】用等高堆积条形图分析两分类变量间的关系
技巧:等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
【例2】观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A. B.
C. D.
【答案】D
【分析】由等高条形图的定义和性质依次分析,即得解
【详解】观察等高条形图发现与相差很大,就判断两个分类变量之量关系最强.
故选:D
【变式2-1】如图是某地区中学生是否喜欢理科的等高堆积条形图,从图中可以看出( )
A.是否喜欢理科与性别无关 B.女生中喜欢理科的百分比为80%
C.男生比女生喜欢理科的可能性大 D.男生中不喜欢理科的百分比为60%
【答案】C
【分析】利用等高堆积条形图求解.
【解析】由等高堆积条形图,可知女生中喜欢理科的百分比为,
男生中喜欢理科的百分比为,
所以男生比女生喜欢理科的可能性大.
故选:C.
【考点题型三】有关“相关的检验”
技巧:独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值xα.
②利用公式χ2=计算χ2.
③如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
【例3】某视频上传者为确定下一段时间的视频制作方向,在动态中发布投票,投票主题为“你希望我接下来更新哪个方向的视频”,共计人参与此投票,投票结果如下图所示(每位关注者仅选一项).
其中,投票游戏、动漫、生活的关注者之比为.
(1)求参与投票的关注者的性别比;
(2)以游戏与生活两个方向为例,依据小概率值的独立性检验,判断性别与关注者喜欢视频上传者上传视频的类型是否有关.
注:;临界值,.
【答案】(1);
(2)可以认为性别与关注者喜欢视频上传者上传视频的类型有关.
【分析】(1)计算出男性关注者和女性关注者的比例,即可得解;
(2)计算出选择游戏、生活的男性和女性关注着的人数,可得出列联表,计算出的观测值,结合临界值可得出结论.
【解析】(1)解:根据统计图,男性关注者占比为,
女性关注者占比为,男女性别比为.
(2)解:根据统计图计算可得,选择游戏的关注者中,男性关注者的人数为人,女性关注者的人数为人;
选择生活的关注者中,男性关注者的人数为人,女性关注者的人数为人.
零假设性别对关注者喜欢视频上传者上传视频的类型有关.
由计算的数据可以得到下面的列联表:
男性关注者人数
女性关注者人数
游戏
生活
的观测值,
因此可以认为性别与关注者喜欢视频上传者上传视频的类型有关.
【变式3-1】根据分类变量与的观察数据,计算得到,依据下表给出的独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.有95%的把握认为变量与独立
B.有95%的把握认为变量与不独立
C.变量与独立,这个结论犯错误的概率不超过10%
D.变量与不独立,这个结论犯错误的概率不超过10%
【答案】C
【分析】根据独立性检验的概率含义可得.
【解析】因为,所以变量与相互独立的概率为为0.1,即变量与相互独立这个结论犯错误的概率不超过10%.
故选:C
【变式3-2】2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
A.130 B.190 C.240 D.250
【答案】B
【分析】设男、女学生的人数都为,则男、女学生的总人数为,建立列联表,由独立性检验算出,结合观测值和选项可得答案.
【解析】依题意,设男、女学生的人数都为,则男、女学生的总人数为,建立列联表如下,
喜欢网络课程
不喜欢网络课程
总计
男生
女生
总计
故,由题意可得,
所以,结合选项可知,只有B符合题意.
故选:B.
【考点题型四】有关“无关的检验”
技巧:独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
【例4】某县有甲、乙两所规范化学校,教育主管部门为了检验两校九年级学生的数学水平,从甲、乙两校的九年级学生中,分别随机抽取55人和45人(各占全校九年级学生总数的15%)进行统一试题的数学测验.测验结果如下表(单位:人):
及格情况
学校
及格
不及格
甲校
47
8
乙校
30
15
试问:甲、乙两校九年级学生的数学成绩的差异是否显著?
【答案】有以上的把握认为甲、乙两校九年级学生的数学成绩的差异显著
【分析】根据列联表,求得,即可判断.
【详解】由题可得,其列联表如下所示:
及格情况
学校
及格
不及格
合计
甲校
47
8
55
乙校
30
15
45
合计
77
23
100
故可得,且,
故有以上的把握认为甲、乙两校九年级学生的数学成绩的差异显著.
【变式4-1】江苏省从2021年开始,高考取消文理分科,实行“3+1+2”的模式,其中的“1”表示每位学生必须从物理、历史中选择一个科目且只能选择一个科目.某校为了解高一学生对“1”的选课情况,随机抽取了100名学生进行问卷调查,下表是根据调查结果得到的列联表:
选择物理
选择历史
合计
男生
50
b
m
女胜
c
20
40
合计
100
则下列结论中正确的是( )
A.
B.
C.有99.5%的把握认为“选择科目与性别有关”
D.不能作出“选择科目与性别有关”的结论
【答案】ABC
【分析】根据抽取学生100人及表格可求出b,c判断AB,再由计算的值判断CD.
【解析】因为随机抽取的100名学生中有40名女生,
所以男生有60名,
则,,,故A,B正确;
列列联表如下:
选择物理
选择历史
合计
男生
50
10
60
女生
20
20
40
合计
70
30
100
由表中数据,得,
所以有99.5%的把握认为“选择科目与性别有关”,故C正确,D错误.
故选:ABC.
【考点题型五】独立性检验的综合应用
技巧:(1)解答此类题目的关键在于正确利用χ2=计算χ2的值,再用它与临界值xα的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
【例5】学生视力不良问题是教育部基础教育质量监测中心发布的我国首份《中国义务教育质量监测报告》中指出的众多问题之一,为了解学生的视力情况,某学校从A,B两个年级的学生中各随机选取了100人进行问卷调查,整理数据后获得如下统计表:
近视人数
不近视人数
合计
A年级
75
25
100
B年级
45
55
100
合计
120
80
200
(1)能否有99.5%的把握认为学生的视力情况与年级有关?
(2)以样本的频率估计总体的概率,若从A年级学生中随机抽取4人,记4人中不近视的人数为X,求X的分布列与数学期望.
附:,.
0.010
0.005
0.001
k
6..635
7.879
10.828
【答案】(1)有
(2)分布列见解析,1
【分析】(1)由题表数据可以求得的值,与临界值表比较即可得结果;
(2)以样本的频率估计总体的概率,由题表得从A年级学生中随机抽取1人且此人不近视的概率,即可得X服从二项分布,利用二项分布的概率公式及数学期望公式即可求解.
【解析】(1)由题意,得,故有99.5%的把握认为学生的视力情况与年级有关.
(2)由统计表得,A年级学生中不近视的频率为,
故从A年级学生中随机抽取1人,此人不近视的概率为,
由题意知则,
,
,
,
,
故X的分布列为
X
0
1
2
3
4
P
所以.
【变式5-1】为了解休闲方式是否和性别有关,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)根据列联表进行独立性检验,你能得出什么结论?
【答案】(1)见解析
(2)有的把握认为“休闲方式与性别有关”
【分析】(1)由题设条件填写即可;
(2)假设“休闲方式与性别无关”,计算,从而得出结论.
【解析】(1)2×2列联表为:
看电视
运动
总计
女
43
27
70
男
21
33
54
总计
64
60
124
(2)假设“休闲方式与性别无关”
所以有理由认为假设“休闲方式与性别无关”是不合理的,即有的把握认为“休闲方式与性别有关”.
【变式5-2】为比较注射A,B两种药物产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2所示的分别是注射药物A和药物B后皮肤疱疹面积的频数分布.(疱疹面积单位:)
表1
疱疹面积
频数
30
40
20
10
表2
疱疹面积
频数
10
25
20
30
15
(1)完成图①和图②所示的分别注射药物A,B后皮肤疱疹面积的频率分布直方图,并求注射药物A后疱疹面积的中位数;
(2)完成下表所示的2×2列联表,并回答能否有99.9%的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异.(的值精确到0.01)
疱疹面积小于
疱疹面积不小于
合计
注射药物A
注射药物B
合计
【答案】(1)直方图见解析,67.5 (2)表格见解析,有
【分析】(1)根据频率分布表,完成频率分布直方图,再利用中位数的定义求解;
(2)根据相关数据,完成列联表,再求得 ,与临界值表对照下结论.
【解析】(1)解:根据题意,完成题图①和题图②所示的频率分布直方图,如图所示:
注射药物A后疱疹面积的中位数为.
(2)根据题意填写列联表如下:
疱疹面积小于
疱疹面积不小于
合计
注射药物A
100
注射药物B
100
合计
105
95
200
.
由于,
所以有99.9%的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异.
【考点题型六】求回归直线方程
技巧:求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,x,xiyi.
(5)代入公式计算,,公式为
(6)写出线性回归方程=x+.
【例6】有一位同学家里开了一个小卖部,他为了研究气温对热茶销售的影响,经过统计,得到一个卖出热茶杯数与当天气温的对比表如下:
气温x/℃
-5
0
4
7
12
15
19
23
27
31
36
热茶销售杯数y/杯
156
150
132
128
130
116
104
89
93
76
54
(1)画出散点图;
(2)你能从散点图中发现气温与热茶的销售杯数之间关系的一般规律吗?
(3)如果近似成线性关系的话,请画出一条直线来近似地表示这种线性关系;
(4)试求出回归直线方程;
(5)利用(4)的回归方程,若某天的气温是2 ℃,预测这一天卖出热茶的杯数.
【答案】(1)见解析;(2)见解析;(3)见解析;(4);(5)143
【分析】:(1)以x轴表示气温,以y轴表示热茶杯数,可作散点图;
(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少;
(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系;
(4)由题中所给的数据求得回归方程即可;
(5)结合回归方程的预测作用和(4)中的结论整理计算即可求得最终结果.
【解析】(1)以x轴表示气温,以y轴表示热茶杯数,可作散点图如下图所示.
(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少.
(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系,如图所示.
(4)因335,778.
所≈-2.35,
所以回归直线方程
(5)由(4)的方程,当x=22 ℃,这一天大约可以卖出143杯热茶.
【变式6-1】偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差(实际成绩平均分偏差).在某次考试成绩统计中,某老师为了对学生数学偏差(单位:分)与物理偏差(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号
1
2
3
4
5
6
7
8
数学偏差
20
15
13
3
2
-5
-10
-18
物理偏差
6.5
3.5
3.5
1.5
0.5
-0.5
-2.5
-3.5
(1)若与之间具有线性相关关系,求关于的线性回归方程;
(2)若该次考试该数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.(下面是参考数据和参考公式)
,回归直线方程为,其中
【答案】(1) (2)
【分析】(1)根据最小二乘法即可求出关于的线性回归方程;
(2)设该同学的物理成绩为,则物理偏差为,数学偏差为,根据回归方程可知,,即可解出.
【解析】(1)由题意可得,,
,
,所以,故线性回归方程为.
(2)由题意,设该同学的物理成绩为,则物理偏差为:.
而数学偏差为128-120=8,∴,解得,
所以,可以预测这位同学的物理成绩为94.
【变式6-2】从2018年1月1日起,广东、等18个保监局所辖地区将纳入商业车险改革试点范围,其中最大的变化是上一年的出险次数决定了下一年的保费倍率,具体关系如下表:
上一年的出险次数
次以上(含次)
下一年保费倍率
连续两年没有出险打折,连续三年没有出险打折
有评估机构从以往购买了车险的车辆中随机抽取1000 辆调查,得到一年中出险次数的频数分布如下(并用相应频率估计车辆每年出险次数的概率):
一年中出险次数
0
1
2
3
4
5次以上(含5次)
频数
500
380
100
15
4
1
(1)求某车在两年中出险次数不超过2次的概率;
(2)经验表明新车商业车险保费与购车价格有较强的线性相关关系,估计其回归直线方程为:.(其中(万元)表示购车价格,(元)表示商业车险保费).李先生2016 年1月购买一辆价值20万元的新车.根据以上信息,试估计该车辆在2017 年1月续保时应缴交的保费,并分析车险新政是否总体上减轻了车主负担.(假设车辆下一年与上一年都购买相同的商业车险产品进行续保)
【答案】(1)0.8744;(2)3846元,减轻了车主负担.
【分析】(1)利用互斥事件的概率公式列式计算即得;
(2)求出下一年车险保费倍率X的分布列,并求出期望,即可得出车主下一年的保费,并根据期望是否大于1得出结论.
【解析】(1)设某车在两年中出险次数为N,
则
,
所以某车在两年中出险次数不超过2次的概率为;
(2)设该车辆2017 年的保费倍率为X ,则X 为随机变量,
X的取值为0.85 ,1,1.25 ,1.5 ,1.75 , 2,
X 的分布列为:
X
0.85
1
1.25
1.5
1.75
2
P
0.50
0.38
0.10
0.015
0.004
0.001
下一年保费倍率X 的期望为,
该车辆估计2017年应缴保费为:元,
因,则车险新政总体上减轻了车主负担.
1 / 1
1 / 1
学科网(北京)股份有限公司
$$