内容正文:
高考总复习 数学
第十章 统计与统计案例
第三节 成对数据的统计分析
课标解读 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.会通过相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
3.针对实际问题,会用一元线性回归模型进行预测.
4.理解2×2列联表的统计意义.了解2×2列联表独立性检验及其应用.
必备知识 基础落实
增加
增加
增加
减少
必备知识 基础落实
正相关
负相关
必备知识 基础落实
必备知识 基础落实
正相关
负相关
1
0
必备知识 基础落实
必备知识 基础落实
必备知识 基础落实
必备知识 基础落实
越小
必备知识 基础落实
好
差
必备知识 基础落实
必备知识 基础落实
独立
必备知识 基础落实
必备知识 基础落实
一、辨析正误(在括号内画“√”或“×”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
√
×
必备知识 基础落实
√
√
必备知识 基础落实
D
必备知识 基础落实
y1 y2 合计
x1 a 21 73
x2 22 25 47
合计 b 46 120
必备知识 基础落实
C
必备知识 基础落实
必备知识 基础落实
D
必备知识 基础落实
必备知识 基础落实
必备知识 基础落实
D
关键能力 精准突破
关键能力 精准突破
A
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
满意情况 年龄 合计
50岁以下 50岁或50岁以上
满意 95
不满意 25
合计 120 200
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
请完成:分级练(74)
温馨提示
谢谢观看!
知识点一 变量的相关关系
1.定义:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.正相关、负相关:从整体上看,当一个变量的值____时,另一个变量的相应值也呈现____的趋势,我们就称这两个变量正相关;当一个变量的值____时,另一个变量的相应值呈现____的趋势,则称这两个变量负相关.
3.线性相关:一般地,如果两个变量的取值呈现______或______,而且散点落在一条直线附近,我们就称这两个变量线性相关.
知识点二 样本相关系数
1.计算公式:r=.
2.样本相关系数r的特征
(1)r∈[-1,1];
(2)当r>0时,称成对样本数据______,当r<0时,称成对样本数据______;
(3)当|r|越接近__时,成对样本数据的线性相关程度越强,当|r|越接近__时,成对样本数据的线性相关程度越弱.
知识点三 经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn).
当a,b的取值为=,=-时,Q=(yi-bxi-a)2达到最小.将____________称为Y关于x的经验回
=x+
归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
知识点四 刻画回归效果的方式
1.残差图法,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
2.残差平方和法,残差平方和为(yi-i)2,残差平方和____,模型拟合效果越好.
3.利用决定系数R2刻画拟合效果.
R2=1-.R2越大,表示残差平方和越小,即模型的拟合效果越__,R2越小,表示残差平方和越大,即模型的拟合效果越__.
知识点五 独立性检验
1.假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则χ2=_________________________________.
2.利用χ2的取值推断分类变量X和Y是否____的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
3.χ2独立性检验中几个常用的小概率值和相应的临界值如下表所示.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
(2)经验回归方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)事件X,Y关系越密切,由观测数据计算得到的χ2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近1,它们的相关性越强.( )
二、版本互鉴
1.(人教A版选择性必修第三册P103 T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
2.(人教A版选择性必修第三册P132例3改编)下面是一个2×2列联表:
其中a,b处填的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
3.(苏教版选择性必修第二册P144 例2改编)甲、乙、丙、丁四名同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
哪名同学的试验结果体现A,B两变量有更强的线性相关性?你认为是( )
A.甲 B.乙 C.丙 D.丁
4.(苏教版选择性必修第二册P170 T6改编)已知x,y的取值如下表,y与x具有线性相关关系,且经验回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
答案:2.6
5.(人教A版选择性必修第三册P139 T3改编)根据分类变量x与y的成对样本数据,计算得到χ2=3.974>3.841=x0.05,则在犯错误的概率不超过______的前提下,认为x与y不独立.
答案:0.05
考点 成对数据的相关性(自悟通)
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x-5上,则这组样本数据的样本相关系数为( )
A.- B. C.-1 D.1
解析:由题意可知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x-5上,则这组样本数据完全正相关,且相关系数为1.
2.(2024·天津卷)下列图中,线性相关系数最大的是( )
解析:选项A中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集中在一条直线的附近,故选项A中的线性相关系数最大,故选A.
判定两个变量正、负相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)利用相关系数:当r>0时,正相关;当r<0时,负相关.
(3)利用经验回归方程:当>0时,正相关;当<0时,负相关.
考点 一元线性回归模型及应用(精研通)
命题点1 线性回归模型及应用
【例1】随着科技的发展,网购成了人们购物的重要方式,并对实体经济产生了一定影响.为了解实体经济的现状,某研究机构统计了一个大商场2020—2024年的线下销售额如下:
年份编号x
1
2
3
4
5
年份
2020
2021
2022
2023
2024
销售额
y(单位:万元)
1 513
1 465
1 202
1 060
860
(1)由表中数据可以看出,可用线性回归模型拟合销售额y与年份编号x的关系,请用相关系数加以说明;
(2)建立y关于x的回归方程,并预测2025年该商场的线下销售额.
所以y关于x的回归方程为=-171.1x+1 733.3,
令x=6,得=-171.1×6+1 733.3=706.7(万元),
所以预测2025年该商场的线下销售额为706.7万元.
求经验回归方程的步骤
命题点2 非线性回归模型
【例2】某电器企业统计了近10年的年利润额y(单位:千万元)与投入的年广告费用x(单位:十万元)的相关数据,散点图如图所示.对数据作出如下处理:令ui=ln xi,vi=ln yi,得到相关数据如下表所示.
(1)从①y=bx+a,②y=m·xk(m>0,k>0),③y=cx2+dx+e三个函数中选择一个作为年广告费用x和年利润额y的回归类型,判断哪个类型符合,不必说明理由;
(2)根据(1)中选择的回归类型,求出y与x的经验回归方程;
(3)预计要使年利润额突破1亿,下一年应至少投入多少广告费用?(结果保留到万元)
参考公式:回归方程=u+中斜率和截距的最小二乘估计公式分别为=,=-.
参考数据:≈3.678 8,3.678 83≈49.787.
解:(1)由题中散点图知,年广告费用x和年利润额y的回归类型并不是直线型的,而是曲线型的,所以选择回归类型y=m·xk更好.
(2)对y=m·xk两边取对数,得ln y=k ln x+ln m,即v=ku+ln m.
由题表中数据,得
===,
∴ln m=-=1.5-×1.5=1,∴m=e,
∴年广告费用x和年利润额y的回归方程为
=ex.
(3)由(2)知y=ex,令y=ex>10,得x>,即x>3.678 8,
∴x>3.678 83≈49.787,∴x≈49.8(十万元)=498(万元),
∴下一年应至少投入498万元广告费用.
非线性回归问题的求解步骤
(1)作出散点图或利用已知散点图;
(2)根据散点图选择恰当的拟合函数;
(3)作恰当变换,将其化成线性函数,求经验回归方程;
(4)在(3)的基础上通过变换,可得非线性回归方程.
(1)根据散点图可知,可用函数模型y=+a拟合y与x的关系,试建立y关于x的回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大?(注:年利润=年销售额-年投入成本)
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:=,=v-u.
解:(1)令u=,则y关于u的经验回归方程为y=+u,
(2)由y=10+可得x=,
年利润M=m-x-10=-+++100--10=-(y-20)2+90.8,
当y=20时,年利润M取得最大值,此时x===20,
所以当年技术创新投入为20千万元时,年利润的预报值最大.
当y=20时,年利润M取得最大值,此时x===20,
所以当年技术创新投入为20千万元时,年利润的预报值最大.
考点 独立性检验(精研通)
【例3】第五代移动通信技术(简称5G)是最新一代蜂窝移动通信技术,是实现人机物互联的网络基础设施.某市工信部门为了解本市5G手机用户对5G网络的满意情况,随机抽取了本市200名5G手机用户进行调查,所得情况统计如下:
(1)完成上述列联表,并估计本市5G手机用户对5G网络满意的概率;
(2)依据小概率值α=0.05的独立性检验,分析本市5G手机用户对5G网络满意与年龄在50岁以下是否有关.
附:
α
0.100
0.050
0.025
0.010
0.001
xα
2.706
3.841
5.024
6.635
10.828
χ2=,其中n=a+b+c+d.
解:(1)补全列联表如下.
满意情况
年龄
合计
50岁以下
50岁或50岁以上
满意
95
55
150
不满意
25
25
50
合计
120
80
200
所以本市5G手机用户对5G网络满意的概率约为=.
(2)零假设为H0:本市5G手机用户对5G网络满意与年龄在50岁以下无关.
根据列联表中的数据,经计算得到χ2=≈2.778<3.841=x0.05.
根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为本市5G手机用户对5G网络满意与
年龄在50岁以下无关.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=计算;
(3)比较χ2与临界值的大小关系,作统计推断.
为了了解大家对养宠物的看法,某单位对本单位450名职工(其中女职工有150人)进行了调查,发现女职工中支持养宠物的职工占,若从男职工与女职工中各随机选取1人,至少有1名职工支持养宠物的概率为.
(1)求该单位男职工支持养宠物的人数,并填写下列2×2列联表;
支持养宠物
不支持养宠物
合计
男职工
女职工
合计
450
(2)依据小概率值α=0.05的独立性检验,能否认为该单位职工是否支持养宠物与性别有关?
附:χ2=,n=a+b+c+d.
α
0.10
0.05
0.010
0.001
xα
2.706
3.841
6.635
10.828
解:(1)由题意得男职工共有300人,从男职工中随机选取1人,设支持养宠物的概率为p,则从男职工和女职工中各随机选取1人,至少有1名职工支持养宠物是都不支持养宠物的对立事件,
所以1-(1-p)(1-)=,解得p=,则男职工中支持养宠物的人数为300×=75,
2×2列联表如下:
支持养宠物
不支持养宠物
合计
男职工
75
225
300
女职工
50
100
150
合计
125
325
450
(2)零假设为H0:性别与态度无关联.
由于χ2=≈3.462<3.841,
所以不能认为该单位职工是否支持养宠物与性别有关.
综上,男职工中支持养宠物的人数为75,不能认为该单位职工是否支持养宠物与性别有关.
$$