内容正文:
人教A版 数学 选择性必修第三册
期末复习课
第3课时 成对数据的统计分析
知识梳理 构建体系
【知识网络】
【要点梳理】
一、成对数据的统计相关性
1.相关关系、散点图
(1)两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 相关关系 .
(2)每一个序号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做 散点图 .
(3)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;
如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量 负相关.
(4)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(2)当r>0时,变量x与y正相关;当r<0时,变量x与y负相关.
(3)样本相关系数r的取值范围为[-1,1].样本相关系数r的绝对值的大小可以反映成对数据之间线性相关的程度:
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
二、一元线性回归模型及其应用
1.一元线性回归模型及经验回归方程
(1)用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
我们称此式为Y关于x的一元线性回归模型,其中,
Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性回归分析
三、列联表与独立性检验
1.列联表
(1)我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
(2)按研究问题的需要,将数据分类统计,并做成表格加以保存.这种形式的数据统计表称为2×2列联表,关于分类变量X和Y的抽样数据的2×2列联表如下:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
2.独立性检验
(2)基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
(3)χ2独立性检验中常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(4)应用独立性检验解决实际问题大致应包括以下几个主要环节:
①提出零假设H0:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
【思考辨析】
判断下列说法是否正确,正确的在后面的括号内画“√”,错误的画“×”.
(1)残差平方和越小,经验回归方程的拟合效果越好.( √ )
(2)决定系数R2越接近于1,经验回归方程的拟合效果越好.( √ )
(3)经验回归直线不一定过点 .( × )
(4)独立性检验得到的结论一定是正确的.( × )
(5)经验回归直线可以不过(xi,yi)中的每一个点.( √ )
(6)χ2的值大就说明两个分类变量有关.( × )
专题归纳 核心突破
专题整合
专题一 回归分析的基本思想及其应用
【例1】 对于x与y有如下观测数据:
(1)作出散点图;
(2)对x与y作回归分析;
(3)求出y对x的经验回归方程;
(4)根据经验回归方程,预测当y=20时x的值.
x 18 25 30 39 41 42 49 52
y 3 5 6 7 8 8 9 10
专题整合
高考体验
解:(1)散点图如图.
专题整合
高考体验
专题整合
高考体验
专题整合
高考体验
专题整合
高考体验
解决经验回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求出回归方程.通过观察散点图,直观感知两个变量是否具有相关关系,在此基础上,利用最小二乘法求回归系数,然后写出经验回归方程.
(3)实际应用.依据求得的经验回归方程解决问题.
专题整合
高考体验
【变式训练1】 一台机器虽使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转的速度而变化,下表为抽样试验的结果:
转速x/(转/秒) 16 14 12 8
每小时生产有缺点的零件数y/件 11 9 8 5
(1)对变量y与x进行相关性检验;
(2)如果y与x有线性相关关系,求经验回归方程;
(3)若实际生产中,允许每小时生产的产品中有缺点的零件最多为10个,则机器的运转速度应控制在什么范围内?
专题整合
高考体验
专题整合
高考体验
专题整合
高考体验
专题二 独立性检验
【例2】 某校共有100名学生参加考试,其中语文考试成绩低于130的占95%,数学成绩的频率分布直方图如图所示.
(1)若成绩不低于130的为特别优秀,语文和数学两科都特别优秀的共有3人,如果从两科都特别优秀或一科特别优秀的同学中随机抽取2人,求这两人两科成绩都特别优秀的概率.
专题整合
高考体验
(2)根据以上数据,完成列联表,试根据小概率值α=0.001的独立性检验,分析语文特别优秀与数学特别优秀是否相关.
数学是否特别优秀 语文是否特别优秀 合计
语文特别优秀 语文不特别优秀
数学特别优秀
数学不特别优秀
合计
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
专题整合
高考体验
解:(1)该校共有100名学生参加考试,其中语文考试成绩低于130的有95%,
语文成绩特别优秀的概率为P1=1-0.95=0.05,语文特别优秀的同学有100×0.05=5人,
数学成绩特别优秀的概率为P2=0.002×20=0.04,数学特别优秀的同学有100×0.04=4人.
语文、数学两科都优秀的有3人,单科优秀的有3人,记两科都优秀的3人分别为A1,A2,A3,单科优秀的3人分别为B1,B2,B3,从中随机抽取2人,共有(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(A3,B1), (A3,B2),(A3,B3),(B1,B2),(B1,B3),(B2,B3)15种,其中这两人两科成绩都优秀的有(A1,A2),(A1,A3),(A2,A3)3种,这两人两科成绩都优秀的概率
专题整合
高考体验
(2)2×2列联表如下:
数学是否
特别优秀 语文是否特别优秀 合计
语文特别优秀 语文不特别优秀
数学特别优秀 3 1 4
数学不特别优秀 2 94 96
合计 5 95 100
零假设为H0:语文特别优秀与数学特别优秀无关.
根据小概率值α=0.001的独立性检验,有充分证据推断H0不成立,即语文特别优秀与数学特别优秀有关,此判断犯错误的概率不超过0.001.
专题整合
高考体验
独立性检验问题的求解方法
(1)等高堆积条形图法:依据题目信息画出等高堆积条形图,依据频率差异来粗略地判断两个变量的相关性.
(2)χ2统计量法:通过公式 ,先计算χ2值,再与临界值表进行比较,最后得出结论.
专题整合
高考体验
【变式训练2】 某电视台为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图,将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
专题整合
高考体验
(1)根据已知条件完成下面的2×2列联表,试根据小概率值α=0.1的独立性检验,分析“体育迷”是否与性别有关.
(2)将上述调查所得到的频率视为概率,现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X,若每次抽取的结果是相互独立的,求X的分布列、均值E(X)和方差D(X).
性别 是否为体育迷 合计
非体育迷 体育迷
男
女 10 55
合计
专题整合
高考体验
解:(1)由题中频率分布直方图可知,在抽取的100人中“体育迷”有(0.020+0.005)×10×100=25(人).由独立性检验的知识得2×2列联表如下:
性别 是否为体育迷 合计
非体育迷 体育迷
男 30 15 45
女 45 10 55
合计 75 25 100
零假设为H0:“体育迷”与性别无关.
将2×2列联表中的数据代入公式计算,
根据小概率值α=0.1的独立性检验,有充分证据推断H0不成立,即“体育迷”与性别有关,此推断犯错误的概率不超过0.1.
专题整合
高考体验
(2)由频率分布直方图知抽到“体育迷”的频率为(0.020+0.005)×10=0.25,
将频率视为概率,即从观众中抽取1名,此人为“体育迷”的概率为 .
X的分布列为
专题整合
高考体验
高考体验
考点一 线性回归分析
1.(2020·全国Ⅰ高考)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx
B.y=a+bx2
C.y=a+bex
D.y=a+bln x
专题整合
高考体验
解析:由题中散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是y=a+bln x,故选D.
答案:D
专题整合
高考体验
2.(2020·全国Ⅱ高考)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
专题整合
高考体验
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法.并说明理由.
专题整合
高考体验
专题整合
高考体验
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
专题整合
高考体验
考点二 独立性检验
3.(2022·全国新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
小组 卫生习惯
不够良好 良好
病例组 40 60
对照组 10 90
专题整合
高考体验
(1)依据小概率值α=0.01的独立性检验,能否认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”, 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
②利用该调查数据,给出P(A|B),P(A| )的估计值,并利用①的结果给出R的估计值.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
专题整合
高考体验
解:(1)零假设为H0:患该疾病群体与未患该疾病群体的卫生习惯无差异.
由题意可知n=200,
根据小概率值α=0.01的独立性检验,有充分证据推断H0不成立,即认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
专题整合
高考体验
专题整合
高考体验
4.(2021·全国Ⅱ高考)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
机床 产品质量 合计
一级品 二级品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
专题整合
高考体验
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
专题整合
高考体验
专题整合
高考体验
5.(2020·山东高考)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
PM2.5 SO2
[0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
专题整合
高考体验
(2)根据所给数据,完成下面的2×2列联表:
PM2.5 SO2
[0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?
附:
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
专题整合
高考体验
PM2.5 SO2
[0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
专题整合
高考体验
(3)零假设H0:该市一天空气中PM2.5浓度与SO2浓度无关.
依据小概率值α=0.01的独立性检验,有充分证据推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关,此推断犯错误的概率不超过0.01.
专题整合
高考体验
(1)r=,我们称r为变量x和变量y的样本相关系数.
(2)Q=(yi-bxi-a)2,当a,b的取值为时,Q达到最小.
我们将x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做
最小二乘法,求得的叫做b,a的最小二乘估计.
(1)对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)决定系数R2的计算公式为R2=1-,在R2表达式中,与经验回归方程无关,残差平方和(yi-)2与经验回归方程有关.因此R2越大,表示残差平方和(yi-)2越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
(1)χ2=(其中n=a+b+c+d).利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
()
(2)作相关性检验:
×(18+25+30+39+41+42+49+52)==37,
×(3+5+6+7+8+8+9+10)=7,
=182+252+302+392+412+422+492+522=11 920,
=32+52+62+72+82+82+92+102=428,
xiyi=18×3+25×5+30×6+39×7+41×8+42×8+49×9+52×10=2 257,
xiyi-8=2 257-8×37×7=185,
-8=11 920-8×372=968,
-8=428-8×72=36,
故r=≈0.991.
因此认为两个变量有很强的线性相关关系.
(3)由(2)知,可以用线性回归方程拟合.
回归系数≈0.191,
=7-0.191×37=-0.067,故y对x的经验回归方程为=0.191x-0.067.
(4)当y=20时,有20=0.191x-0.067,解得x≈105.
因此当y的值为20时,x的值约为105.
解:(1)因为=12.5,=8.25,xiyi=438,4=412.5,=660,=291,
所以r===
≈0.995.
所以y与x有线性相关关系.
(2)由(1)得,
=≈0.728 6,
≈8.25-0.728 6×12.5=-0.857 5.
故=0.728 6x-0.857 5.
(3)要使y≤10,即0.728 6x-0.857 5≤10,所以x≤14.901 9.
所以机器的转速应控制在14.901 9转/秒以下.
参考数据:①χ2=;②χ2独立性检验中常用的小概率值和相应的临界值
P=.
χ2=≈42.982>10.828=x0.001.
χ2=
得χ2=≈3.030>2.706=x0.1.
X
0
1
2
3
P
E(X)=3×,
D(X)=3×.
xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
附:样本相关系数r=,≈1.414.
解:(1)由已知得样本平均数yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r=≈0.94.
①证明:R=;
则χ2==24>6.635=x0.01.
(2)①证明:R=
.
②P(A|B)==0.4,P(A|)==0.1,
同理P()==0.9,P(|B)==0.6,
所以R==6.
故指标R的估计值为6.
附:χ2=.
解:(1)甲机床生产的产品中的一级品的频率为=75%,乙机床生产的产品中的一级品的频率为=60%.
(2)零假设为H0:甲机床的产品质量与乙机床的产品质量无差异.
χ2=>10>6.635,
依据小概率值α=0.1的χ2独立性检验,有充分证据推断H0不成立,因此可以认为甲机床的产品与乙机床的产品质量有差异.
χ2=.
解:(1)根据抽查数据,该市100天空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
χ2=≈7.484>6.635=x0.01,
$$