第9章 统计(考点串讲)-2023-2024学年高二数学下学期期末考点大串讲(苏教版2019选择性必修第二册)
2024-06-03
|
57页
|
476人阅读
|
8人下载
精品
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学苏教版选择性必修 第二册 |
| 年级 | 高二 |
| 章节 | 第9章 统计 |
| 类型 | 课件 |
| 知识点 | - |
| 使用场景 | 同步教学-期末 |
| 学年 | 2024-2025 |
| 地区(省份) | 江苏省 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | PPTX |
| 文件大小 | 10.70 MB |
| 发布时间 | 2024-06-03 |
| 更新时间 | 2024-06-03 |
| 作者 | 相思湖高中数学 |
| 品牌系列 | 上好课·考点大串讲 |
| 审核时间 | 2024-06-03 |
| 下载链接 | https://m.zxxk.com/soft/45553735.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
内容正文:
苏教版(2019)选择性必修第二册 第9章 统计 考点大串讲
串讲04 第9章 统计
01
02
03
目
录
押题预测
题型剖析
考点透视
5大常考点:知识梳理、思维导图
7个题型典例剖析+技巧点拨
精选13道期末真题对应考点练
考点透视
01
PART
考点1 变量的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系;
(2)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量 正相关 ;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量 负相关 ;
(3)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 一条直线 附近,就称这两个变量线性相关.
正相关
负相关
一条
直线
考点2.样本相关系数
(1)样本相关系数r= ;
(2)样本相关系数r的性质
①当r>0时,称成对样本数据 正 相关;当r<0时,成对样本数据 负 相关;当r=0时,成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为 [-1,1] .当|r|越接近1时,成对样本数据的线性相关程度越 强 ;当|r|越接近0时,成对样本数据的线性相关程度越 弱 .
正
负
[-1,1]
强
弱
考点3.一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线;
(2)经验回归方程为=x+,
其中==,=-;
(3)通过求Q=(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
考点4.判断回归模型的拟合效果
由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程=x+,其中y叫做观测值,叫做预测值,残差=y-.相对于样本点(xi,yi)的随机误差=yi-=yi-(xi+).
(1)残差分析法
①作残差图:作图时纵坐标为 残差 ,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;
残差
②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
(2)决定系数 (R2)法:R2=1-.R2的值越趋近于1,模型的拟合效果越好.
考点5. 列联表与独立性检验
(1)一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B;
Ⅱ也有两类取值,即类1和类2.我们得到如下列联表所示的抽样数据:
Ⅱ 合计
类1 类2
Ⅰ 类A a b a+b
类B c d c+d
合计 a+c b+d a+b+c+d
上述表格称为2×2列联表.
考点5. 列联表与独立性检验
(2)计算随机变量χ2= ,利用χ2的取值推断分
类变量Ⅰ和Ⅱ 的方法称为χ2独立性检验.
是否独立
P(χ2≥x0) 0.10 0.05 0.010 0.005 0.001
x0 2.706 3.841 6.635 7.879 10.828
考点5. 列联表与独立性检验
(1)小概率值α的临界值:对于任何小概率值α,可以找到相应的正实数xα,使得关系P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大;
(2)χ2的计算公式:χ2=;
(3)独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验;
(4)基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立(其中xα为α的临界值);
(5)应用独立性检验解决实际问题的主要环节:
①提出零假设H0:X和Y相互独立,并给出在问题中的解释;
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
③根据检验规则得出推断结论;
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
(6)独立性检验中几个常用的小概率值和相应的临界值:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
题型剖析
02
PART
题型1 变量间相关关系的判断
【例题1】已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是 ( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析:C 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
|练后悟通|
判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关;
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强;
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
题型2.样本相关系数
【例2】 (2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
解 (1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量===0.39.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
解 (2)(xi-)(yi-)=xiyi-10=0.013 4,
(xi-)2=-10()2=0.002,
(yi-)2=-10()2=0.094 8,
所以==≈0.01×1.377=0.013 77,
所以样本相关系数r=≈≈0.97.
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
解 (3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
|解题技法|
样本相关系数r的统计含义及应用
(1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关;
(2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测;
(3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义.
题型3.线性经验回归问题
【例3】 某研究机构为调查人的最大可视距离y(单位:米)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:
x 20 25 30 35 40
y 167 160 150 143 130
(1)根据上表提供的数据,求出y关于x的经验回归方程=x+;
解 (1)由题意可得==30,==150,
xiyi=20×167+25×160+30×150+35×143+40×130=22 045,
=202+252+302+352+402=4 750,
所以===-1.82,
则=-=150+1.82×30=204.6,
故所求经验回归方程为=-1.82x+204.6.
(2)根据(1)中求出的经验回归方程,估计年龄为50岁的人的最大可视距离.
参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.
解 (2)当x=50时,=-1.82×50+204.6=113.6,
即年龄为50岁的人的最大可视距离约为113.6米.
|解题技法|
线性回归分析问题的解题策略
(1)利用公式,求出回归系数;
(2)利用经验回归直线过样本点的中心求系数;
(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值.
题型4.非线性经验回归问题
【例4】 数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:
x(天) 1 2 3 4 5 6 7
y(秒) 990 990 450 320 300 240 210
(1)现用y=a+作为经验回归模型,请利用表中数据,求出该经验回归方程;
解 (1)由题意得=×(990+990+450+320+300+240+210)=500,
令t=,设y关于t的经验回归方程为=t+,
则有===1 000,
=500-1 000×0.37=130,
所以=1 000t+130,
又t=,所以y关于x的经验回归方程为=+130.
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒?
参考数据tiyi=1 845,=0.37,-7=0.55.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为:=,=-·.
解 (2)当x=100时,=140,
所以经过100天训练后,小明每天解题的平均速度约为140秒.
|解题技法|
有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.
【例题5】(多选)根据如图所示的等高堆积条形图,下列叙述正确的是( )
A.吸烟患肺病的频率约为0.2
B.吸烟不患肺病的频率约为0.8
C.不吸烟患肺病的频率小于0.05
D.吸烟与患肺病无关系
解析:ABC 从等高堆积条形图上可以明显地看出,吸烟患肺病的频率远远大于不吸烟患肺病的频率.A、B、C都正确.
题型5.分类变量与列联表
|练后悟通|
分类变量的两种统计表示形式
(1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联强弱;
(2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联强弱.
题型6.分类变量关联性的判断
【例6】 某科研机构为了研究中年人秃发与患心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
患心脏病 无心脏病
秃发 20 300
不秃发 5 450
根据表中数据得到χ2≈15.968,因为χ2>10.828,则断定秃发与患心脏病有关系.那么这种判断出错的可能性为 ( )
A.0.001 B.0.05
C.0.025 D.0.01
解析 因为χ2>10.828=x0.001,因此判断出错的可能性为0.001,故选A.
答案 A
|解题技法|
如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
题型7.独立性检验的应用
【例7】 (2022·全国甲卷·改编)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
解 (1)由题表可得A公司甲、乙两城之间的长途客车准点的概率为=,
B公司甲、乙两城之间的长途客车准点的概率为=.
(2)根据小概率值α=0.1的独立性检验,能否认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:χ2=.
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
解 (2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关,列联表如下表所示:
公司 班次是否准点 合计
准点班次数 未准点班次数
A 240 20 260
B 210 30 240
合计 450 50 500
χ2=≈3.205>2.706=x0.1,
根据小概率值α=0.1的独立性检验我们推断H0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
|解题技法|
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=计算;
(3)比较χ2与临界值的大小关系,作统计推断.
押题预测
03
PART
1.对甲、乙两个班级学生的数学考试成绩按照优秀和不优秀统计人数后,得到如下的列联表,则χ2约为 ( )
班级 数学成绩 合计
优秀 不优秀
甲班 11 34 45
乙班 8 37 45
合计 19 71 90
A.0.600 B.0.828
C.2.712 D.6.014
解析:A χ2=≈0.600,故选A.
2.已知变量x与y,且观测数据如下表(其中6.5>a>4>b>1,a+b=6),则由该观测数据算得的经验回归方程可能是 ( )
x 1 2 3 4 5
y 6.5 a 4 b 1
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+0.44
解析:C 由题意==3,==3.5,把代入各方程,A中,=0.4×3+2.3=3.5,同理有B中,=3.6,C中=3.5,D中,=-0.46,又表格中数据随着x的增大,y减小,因此它们负相关,x的系数为负.故选C.
3.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断 ( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:C 由题图可得两组数据均线性相关,且图①的经验回归直线的斜率为负,图②的经验回归直线的斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
4.某学校开展研究性学习活动,某同学获得一组实验数据如下表:
x 1.99 3 4 5.1 6.12
y 1.5 4.04 7.5 12 18.01
对于表中数据,现给出以下拟合曲线,其中拟合程度最好的是 ( )
A.y=2x-2 B.y=
C.y=log2x D.y=(x2-1)
解析:D 根据实验数据可以得出,x近似增加一个单位时,y的增量近似为2.5,3.5,4.5,6,比较接近y=(x2-1),故选D.
5.已知两个变量x和y之间有线性相关关系,经调查得到样本数据如表所示:
√
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
6.某公司在2018~2022年的收入与支出情况如下表所示:
收入x(亿元) 2.2 2.6 4.0 5.3 5.9
支出y(亿元) 0.2 1.5 2.0 2.5 3.8
根据表中数据可得经验回归方程为=0.8x+,依此估计该公司收入为8亿元时的支出为 ( )
A.4.2亿元 B.4.4亿元
C.5.2亿元 D.5.4亿元
解析:C 根据表中数据,计算=×(2.2+2.6+4.0+5.3+5.9)=4,=×(0.2+1.5+2.0+2.5+3.8)=2,∴=-0.8=2-0.8×4=-1.2,经验回归方程为=0.8x-1.2,当x=8时,=0.8×8-1.2=5.2.
7.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算得χ2=6.023,则市政府断言市民收入增减与旅游愿望有关系的可信程度是( )
A.90% B.95% C.99% D.99.5%
解析:B 由临界值表,得6.023>3.841=x0.05,所以可断言市民收入增减与旅游愿望有关系的可信程度为95%.
8.(多选)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表,经计算χ2≈4.762,则可以推断出( )
满意 不满意
男 30 20
女 40 10
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
解析:AC 对于A,该学校男生对食堂服务满意的概率的估计值为=,故A正确;对于B,该学校女生对食堂服务满意的概率的估计值为=>,故B错误;因为χ2≈4.762>3.841=x0.05,认为男、女生对该食堂服务的评价有差异,此推断犯错误的概率不超过0.05,故C正确,D错误.
9.(多选)下列说法正确的是 ( )
A.设有一个经验回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位
B.若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越接近于1
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好
解析:CD A选项,因为=3-5x,所以变量x增加一个单位时,y平均减少5个单位,故A错误;B选项,线性相关性具有正负,相关性越强,则样本相关系数r的绝对值越接近于1,故B错误;C选项,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C正确;D选项,在一元线性回归模型中,决定系数R2越接近于1,说明模型拟合的精度越高,即回归的效果越好,故D正确.
10.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出零假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知x0.05=3.841.则下列结论中,正确结论的序号是 .
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
解析:χ2≈3.918>3.841=x0.05,所以认为“这种血清能起到预防感冒的作用”,这种推断犯错误的概率不超过0.05.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
答案:①
11.某高校《统计初步》课程的教师随机调查了选该课的学生情况,调查数据如下表:
非统计专业 统计专业
男 13 10
女 7 20
为了判断是否主修统计专业与性别的关系,根据表中的数据,计算得到χ2≈ (保留三位小数),所以判定 (填“能”或“不能”)在犯错误的概率不超过0.05的前提下,认为是否主修统计专业与性别有关.
解析:由题意可知,χ2=≈4.844>3.841=x0.05,所以能在犯错误的概率不超过0.05的前提下,认为是否主修统计专业与性别有关.
答案:4.844 能
12.第24届冬奥会于2022年2月4日在北京市和张家口市联合举行,此项赛事大大激发了国人冰雪运动的热情.某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第x天的滑雪人数(单位:百人)的数据:
天数代码x 1 2 3 4 5 6 7
滑雪人数y/百人 11 13 16 15 20 21 23
根据第1至7天的数据分析,可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明(保留两位有效数字).
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其相关系数r=.
参考数据:xiyi=532,≈57.5.
解:因为=(1+2+3+4+5+6+7)÷7=4,=(11+13+16+15+20+21+23)÷7=17,
所以(xi-)(yi-)=xiyi-7=532-7×4×17=56,
所以r=≈≈0.97,
所以样本相关系数r的绝对值接近于1,
所以可以推断x和y这两个变量线性相关,且相关程度很强.
13.为推行“新课堂”教学法,某化学老师分别用传统教学和“新课堂”两种不同的教学方式,在甲、乙两个平行班级进行教学实验.为了比较教学效果,期中考试后,分别从两个班级中各随机抽取20名学生的成绩进行统计,结果如下表.记成绩不低于70分的为“成绩优良”.
分数 [50,60) [60,70) [70,80) [80,90) [90,100]
甲班
频数 5 6 4 4 1
乙班
频数 1 3 6 5 5
由以上统计数据列出2×2列联表,并判断能否依据小概率值α=0.05的χ2独立性检验认为“成绩优良与教学方式有关”.
解:由题意,列联表如下:
成绩 班级 合计
甲班 乙班
优良 9 16 25
不优良 11 4 15
合计 20 20 40
零假设为H0:成绩优良与教学方式无关,
由列联表计算可得χ2=≈5.227>3.841,
依据独立性检验,有充分证据推断H0不成立,即依据小概率值α=0.05的独立性检验,可以认为“成绩优良与教学方式有关”.
根据表格中的数据求得线性回归方程为=x+,则下列说法中正确的是
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
$$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。