内容正文:
高二沪教版数学下册期末考点大串讲
串讲06 成对数据的统计分析
01
02
04
03
目
录
易错易混
题型剖析
考点透视
押题预测
三大易错易混经典例题
3道期末真题对应考点练
三大重难点题型典例剖析+技巧总结
二大常考点:知识梳理
考点透视
1.回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析,因此回归分析的思想主要是指线性回归分析的思想.
注意理解以下几点:
(1)确定线性相关关系
线性相关关系有两层含义:一是具有相关关系,如广告费用与销售量的关系等在一定条件下具有相关关系,而气球的体积与半径的关系是函数关系,而不是相关关系;二是具有线性相关关系.
判断是否线性相关的依据是观察样本点的散点图或计算相关系数.
(2)回归方程的预报精度
简单来说,线性回归分析就是通过建立回归直线方程对变量进行预报,用回归方程预报时,需对函数值明确理解,它表示当x取值时,真实值在函数值附近或平均值在函数值附近,不能认为就是真实值.
2.独立性检验的基本思想
独立性检验的基本思想类似于反证法.要确认两个分类变量有关系的可信程度,先假设两个分类变量没有关系,再计算统计量χ2的值,最后由χ2的值很大在一定程度上说明两个分类变量有关系.
进行独立性检验要注意理解以下三个问题:
(1)独立性检验适用于两个分类变量.
(2)两个分类变量是否有关系的直观判断:
根据2×2列联表计算|ad-bc|,值越大关系越强,或用等高堆积条形图直观展示.
(3)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握确认两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.
例1某单位为了了解用电量y(单位:度)与气温x(单位:℃)之间的关系,随机统计了某4天的用电量与当天气温.
气温/℃ 14 12 8 6
用电量/度 22 26 34 38
题型一:回归分析
∴b=-2.把(10,30)代入回归方程得30=-2×10+a,
解得a=50.∴经验回归方程为y=-2x+50.
(2)当x=10时,y=30,估计当气温为10 ℃时的用电量为30度.
方法技巧经验回归方程的求法及应用
例2在研究弹簧伸长长度y(单位:cm)与拉力x(单位:N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:
x/N 5 10 15 20 25 30
y/cm 7.25 8.12 8.95 9.90 10.9 11.8
若依据散点图可知x与y线性相关,且由最小二乘法求出的经验回归方程为
=0.18x+6.34,求R2,并利用R2说明拟合效果.
题型二:一元线性回归模型分析
解 列表求值如下:
方法技巧一元线性回归模型拟合问题的求解策略
在一元线性回归模型中,R2与相关系数r都能刻画模型拟合数据的效果.|r|越大,R2就越大,用模型拟合数据的效果就越好.
例3为了调查胃病是否与生活不规律有关联,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)依据α=0.005的独立性检验,能否认为40岁以上的人患胃病与生活不规律有关联?
题型三:独立性检验
解 (1)由题意可列2×2列联表如下:
类型 患胃病 未患胃病 合计
生活规律 20 200 220
生活不规律 60 260 320
合计 80 460 540
(2)零假设为H0:40岁以上的人患胃病与生活不规律无关联.根据列联表得
依据α=0.005的独立性检验,我们推断H0不成立,即认为40岁以上的人患胃病和生活不规律有关联.
方法技巧独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式计算χ2;
(3)比较χ2与临界值xα的大小关系,得到推断结论.
解析
易错点01 混淆相关关系与函数关系致误
例1.下列两个变量具有正相关关系的是( )
A.正方形面积与边长
B.吸烟与健康
C.数学成绩与物理成绩
D.汽车的质量与汽车每消耗1L汽油所行驶的平均路程
C
解析
C
易错点02 不理解独立性检验的基本思想
解析
B
解析
D
易错点03 对独立性检验的结果判断错误
解析
D
1.(2023春•金山区校级期末)如果两种证券在一段时间内收益数据的相关系数为正数,那么表明
( ____ )
A.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
B.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
C.两种证券的收益有同向变动的倾向
D.两种证券的收益有反向变动的倾向
【解析】解:A,两种证券完全同向联动,同涨或同跌,相关系数必须为1,但题目中说的是相关系数为正数,不一定为1,故A选项错误;
B,两种证券完全反向联动,涨和跌是完全相反的,相关系数必须为-1,但题目中说的是相关系数为正数,故B选项错误;
C,题目中说的是相关系数为正数,也就是说两种证券之间变化是正相关,因此是同向变动,故C选项正确;
D,两种证券收益反向变动为负相关,与题目中的相关系数为正数不符,故D选项错误.
故选:C.
C
押题预测
22
2.(2023春•徐汇区校级期末)李先生是一名上班族,为了比较上下班的通勤时间,记录了20天个工作日内,家里到单位的上班时间以及同路线返程的下班时间(单位:分钟),如下茎叶图显示两类时间的共40个记录:
___________
(1)求出这40个通勤记录的中位数M,并完成下列2×2列联表:
超过M 不超过M
上班时间
下班时间
(2)根据列联表中的数据,请问上下班的通勤时间是否有显著差异?并说明理由.
附: ,P(χ2≥3.841)≈0.05
23
【解析】解:(1)根据茎叶图可知,这40个通勤记录的中位数是 ,故M=43,2×2列联表:
超过M 不超过M
上班时间 8 12
下班时间 7 13
(2)根据题意,由 ,则 ,
故上下班的通勤时间没有显著差异.
24
3.(2023春•浦东新区校级期末)某收费APP(手机应用程序)自上架以来,凭借简洁的界面设计、方便的操作方式和强大的实用功能深得用户的喜爱.该APP所在的公司统计了用户一个月月租减免的费用x(单位:元)及该月对应的用户数量y(单位:万人),得到如下数据表格:
用户一个月月租减免的费用x(元) 3 4 5 6 7
用户数量y(万人) 1 1.1 1.5 1.9 2.2
已知x与y线性相关.
(1)求y关于x的线性回归方程
【解析】(1)解:由 , ,
有 ,
故y关于x的线性回归方程为y=0.32x-0.06;
25
(2)据此预测,当月租减免费用为10元时,该月用户数量为多少?
参考公式:对于一组具有线性相关关系的数据(xi,yi)(i=1,2,⋯,n),其回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为 ,
(2)解:由(1)知回归方程为y=0.32x-0.06,
当x=10时,y=0.32×10-0.06=3.14,所以预测该月的用户数量为3.14万人
26
(1)求经验回归方程;(参考数据:xiyi=1 120,=440)
(2)根据(1)的经验回归方程估计当气温为10 ℃时的用电量.
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:
解 (1)=10,=30,xiyi=1 120,=440,
在散点图中,样本点大致分布在一条直线附近,利用公式求出,即可写出经验回归方程,利用经验回归模型进行研究,可近似地利用经验回归方程
x+来预测.
xi
5
10
15
20
25
30
yi
7.25
8.12
8.95
9.90
10.9
11.8
xiyi
36.25
81.2
134.25
198
272.5
354
25
100
225
400
625
900
yi-
0.01
-0.02
-0.09
-0.04
0.06
0.06
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
=17.5,9.49,xiyi=1 076.2,=2 275,
(yi-)2=0.017 4,(yi-)2=14.678 4.
所以R2=1-0.998 81,模型拟合效果较好.
χ2=9.638>7.879=x0.005.
正方形的面积与边长是函数关系,故A选项错误;
吸烟越多,越不健康,所以吸烟与健康具有负相关关系,故B选项错误;
汽车越重,每消耗1 L汽油所行驶的平均路程越短,所以汽车的质量与汽车每消耗1 L汽油所行驶的平均路程具有负相关关系,故D选项错误;一般来说,数学成绩越好,物理成绩越好,所以数学成绩与物理成绩具有正相关关系.故C选项正确.
【例2】为调查乘客的晕机情况,在某一次恶劣气候飞行航程中,统计得到55名男乘客中有24名晕机,34名女乘客中有8名晕机.在检验这些乘客晕机是否与性别有关联时,常采用的数据分析方法是( )
A.频率分布直方图 B.回归分析
C.独立性检验 D.用样本估计总体
根据题意,结合题目中的数据,列出2×2列联表,求出 eq \a\vs4\al(χ2)的值,对照临界值表可得出乘客晕机是否与性别有关联的结论.这种数据分析方法是独立性检验.故选C.
【变式】下列关于独立性检验的说法中,错误的是( )
A.独立性检验依据小概率原理
B.独立性检验原理得到的结论一定正确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判定两类事物是否相关的唯一方法
因为利用独立性检验时与样本的选取有关,所以得到的结论可能有误,因此B中说法错误.故选B.
【例3】.在独立性检验中,假设变量X与变量Y无关联,则在假设成立的情况下,估算概率P(χ2≥10.828)≈0.001表示的意义是( )
A.在犯错误的概率不超过0.01的前提下,认为“变量X与变量Y有关联”
B.在犯错误的概率不超过0.01的前提下,认为“变量X与变量Y无关联”
C.有99.9%的把握认为“变量X与变量Y无关联”
D.有99.9%的把握认为“变量X与变量Y有关联”
∵概率P(eq \a\vs4\al(χ2)≥10.828)≈0.001,∴两个变量有关联的可信度是1-0.001=99.9%.
【变式】在独立性检验中,假设变量X与变量Y无关联,则在上述假设成立的情况下,估算概率P(χ2≥6.635)≈0.01表示的意义是( )
A.变量X与变量Y有关联的概率为1%
B.变量X与变量Y无关联的概率为99.9%
C.变量X与变量Y无关联的概率为99%
D.变量X与变量Y有关联的概率为99%
若估算概率P(eq \a\vs4\al(χ2)≥6.635)≈0.01,则犯错误概率不超过0.01,即变量X与变量Y有关联的概率为99%.故选D.
$$