内容正文:
专题04 统计
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 成对数据的统计相关性
题型02 求回归直线方程
题型03 一元线性回归的应用
题型04 用2×2列联表分析两分类变量间的关系
题型05 独立性检验的综合应用
过·分层验收 阶梯实战演练,验收复习成效
核心考点
复习目标
考情规律
成对数据的统计相关性
1. 能准确区分函数关系与相关关系,理解正相关、负相关、线性相关、非线性相关的含义;
2. 能熟练绘制散点图,通过散点图直观判断两个变量的相关性;
3. 掌握样本相关系数的计算公式,能准确计算并根据 r 值判断线性相关程度的强弱.
基础必考点,必考选择 / 填空,以基础题为主,多考查散点图判断相关性、相关系数的意义与计算,难度中等偏易.
一元线性回归模型
1. 理解一元线性回归模型的统计含义,掌握最小二乘法原理;
2. 能熟练运用公式计算回归直线方程的斜率和截距,求出回归方程;
3. 能利用回归方程进行预测和估计,理解残差分析的意义;
4. 掌握决定系数 R² 的含义,能判断模型的拟合效果.
核心重点,大题必考,常以解答题形式出现,结合实际背景考查回归方程的求解与应用,难度中等.
独立性检验
1. 理解分类变量的概念,能正确绘制 2×2 列联表;
2. 掌握独立性检验的基本思想与卡方统计量的计算公式;
3. 能根据临界值表判断两个分类变量是否有关联,准确表述检验结论;
4. 理解独立性检验中的小概率值与犯错误概率的关系.
高频考点,选择 / 填空 / 解答题均可能考查,常结合实际案例(如医学、教育、社会调查)考查列联表与卡方检验,难度中等.
知识点01成对数据的统计相关性
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系;
(2)散点图:将样本中n个数据点()描在平面直角坐标系中得到的统计图叫做散点图,是描述成对数据之间关系的一种直观方法;
(3)正相关与负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
(5)非线性相关与曲线相关:如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关;
2.相关关系与函数关系的异同
(1)相同点:两者均是指两个变量之间的关系;
(2)不同点:①函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系;相关关系是一种不确定的关系,如一块农田的水稻产量与施肥量之间的关系;事实上,函数是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系;
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
3.样本相关系数
(1)样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
(2)相关系数r的性质
①当时,称成对样本数据正相关;
当时,成对样本数据负相关;
当时,成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为[-1,1];
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
4.线性相关
(1)散点图
一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表示
序号
1
2
3
…
变量
…
变量
…
则在平面直角坐标系中描出点,,就可以得到这对数据的散点图.
(2)线性相关:如果由变量的成对数据、散点图或直观经验可知,变量与变量之间的关系可以近似地用一次函数来刻画,则称与线性相关.
(3)正相关和负相关
若与线性相关,如果一个变量增大,另一个变量大体上也增大 ,则称这两个变量正相关;如果一个变量增大,另一个变量大体上也减少,则称这两个变量负相关.
知识点02最小二乘法与经验回归方程
1.最小二乘法
称为y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
2.经验回归方程的系数计算公式
经验回归方程
的计算公式
的计算公式
3.经验回归方程的性质
(1)经验回归方程一定过点;
(2)一次函数的单调性由的符号决定,函数递增的充要条件是;
(3)的实际意义:当x增大一个单位时,平均增大个单位.
(4)观测值:对于响应变量Y,通过观测得到的数据称为观测值.
(5)预测值:通过经验回归方程得到的称为预测值.
(6)残差:观测值减去预测值称为残差.
注意:回归直线一定经过样本的中心.
4.回归方程、回归直线与一元回归分析
(1)定义:把拟合误差取得最小值时得到的线性方程(线性模型)称为变量y随x波动的回归方程或回归模型,其中自变量x称为解释变量,因变量y称为反应变量.回归方程所定义的直线称为回归直线,回归方程的系数(或称回归模型的参数)与称为回归系数.由一组有某种线性关系的成对数据求其回归方程的方法称为一元线性回归分析;
(2)回归直线经过样本点的中心,也就是散点图中数据点的中心.
5.一元线性回归模型
一元线性回归模型的完整表达式为其中Y称为因变量或响应变量,x称为自变量或解释变量;a,b为模型的未知参数,e是Y与之间的随机误差.
知识点03独立性检验
1.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
2.列联表
列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
合计
列联表给出了成对分类变量数据的交叉分类频数.
3.独立性检验
(1)计算公式:,其中.
(2)临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
(3)独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(4)独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
9.独立性检验的基本思想
计算随机变量.统计上已经证明:在变量、独立的前提下,当样本量很大时,近似服从卡方分布.当较大时,说明变量之间不独立.
在统计中,用以下结果对变量的独立性进行判断.
(1)当时,没有充分的证据判断变量、有关联,可以认为变量、是没有关联的;
(2)当时,有的把握判断变量、有关联;
(3)当时,有的把握判断变量、有关联;
(4)当时,有的把握判断变量、有关联.
题型一 成对数据的统计相关性
解|题|技|巧
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系, 而相关关系不一定是因果关系,也可能是伴随关系.
【典例1】(24-25高二下·山东聊城·期末)某同学根据一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.相关系数r变大 B.决定系数变小 C.残差平方和变小 D.不变
【典例2】(24-25高二下·山东枣庄·期末)下列四组成对数据:①,,,,;②,,,,;③,,,,;④,,,,.其中样本相关系数最小的是( )(附:样本相关系数)
A.① B.② C.③ D.④
【变式1】(24-25高二下·河北衡水、廊坊等2地(NT20名校)·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【变式2】(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B. C. D.
【变式3】(24-25高二下·辽宁丹东敬业实验高级中学·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系 B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数 D.图1相关系数和图2相关系数之和小于0
【变式4】(24-25高二下·河南信阳·期末)根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
【变式5】(24-25高二下·江西抚州·)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
题型二 求回归直线方程
答|题|模|板
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格
(4)计算,,x,xiyi.
(5)代入公式计算,,公式为
(6)写出线性回归方程=x+.
【典例1】(24-25高二下·广东湛江第一中学·期末)已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
【典例2】(24-25高三下·上海虹口区·期中)某公司为了解用电量y(单位:千瓦时)与气温x(单位:摄氏度)之间的关系,随机统计了4天的用电量与当天气温,绘制了如下表格,由表中数据可得回归方程,则实数_____.
【变式1】已知与之间的线性回归方程为,其样本点的中心为,样本数据中的取值依次为2.5,,3.4,4.2,5.4,则( )
A.2 B.2.8 C.3 D.3.2
【变式2】(24-25高二下·甘肃定西临洮县·期末)根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
【变式3】已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下对应数据:
2
4
5
6
8
30
40
50
60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为( )
A.45 B.50 C.70 D.65
【变式4】总和生育率有时也简称生育率,是指一个人口群体的各年龄别妇女生育率的总和.它反映的是一名妇女在每年都按照该年龄别现有生育率生育的假设下,在育龄期间生育的子女总数.为了了解中国人均GDPx(单位:万元)和总和生育率y以及女性平均受教育年限z(单位:年)的关系,采用2012~2022近十年来的数据绘制了散点图,并得到经验回归方程,,对应的决定系数分别为,,则( )
A.人均GDP和女性平均受教育年限正相关. B.女性平均受教育年限和总和生育率负相关
C. D.未来三年总和生育率一定继续降低
题型三 一元线性回归的应用
解|题|技|巧
我们称为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【典例1】(24-25高二下·新疆喀什疏附县·期末)根据调查,家庭年收入(万元)与年消费(万元)的回归方程是.若某家庭年收入为50万元,预测其年消费为 __________万元 .
【典例2】我国某农业大学植物研究所相关人员为了解仙人掌的植株高度(单位:),与其根茎长度(单位:)之间是否存在线性相关的关系,通过采样和数据记录得到如下数据:
样本编号
1
2
3
4
根茎长度
10
12
14
16
植株高度
62
86
112
132
参考数据:,,.
(1)由上表数据计算相关系数,并说明是否可用线性回归模型拟合与的关系(若,则可用线性回归模型拟合,计算结果精确到0.001);
(2)求y关于x的经验回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,
【变式1】(24-25高二下·辽宁重点中学协作校·期末)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,统计出小李某月1号到5号每天打篮球时间(单位:h)与当天投篮命中率的成对数据满足的关系式:,,.若与满足线性回归方程,则回归系数( )(参考公式:)
A.0.04 B.0.03 C.0.02 D.0.01
【变式2】(24-25高二下·湖北武汉五校联合体·期末)近年来,我国电动汽车产业发展迅猛,某品牌汽车市场也异常火爆,销售量逐年上升.现统计某汽车专卖店5月份前5天每天电动汽车的实际销量,结果如下表所示.
日期编号
1
2
3
4
5
销量/部
8
a
12
b
23
与有较强的线性相关关系,且线性回归方程为,则等于( )
A.28 B.30 C.33 D.35
【变式3】(24-25高二下·四川德阳高中·)“千年一面,中江挂面”,近年来,中江挂面村火遍全网.这不仅为中江带来了大量游客,还使中江手工挂面供不应求,销售额大幅提升.已知某手工挂面加工企业2024年10月—2025年2月销售额对应如下表.且用最小二乘法得到销售额关于月份序号的回归直线方程为,则2025年1月销售额( )
时间
2024年10月
2024年11月
2024年12月
2025年1月
2025年2月
月份序号
1
2
3
4
5
销售额(万元)
13.5
15.0
17.0
20.5
A.19.0(万元) B.18.8(万元) C.18.6(万元) D.18.4(万元)
【变式4】中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.
73.5
3.85
表中:,
(1)根据散点图判断: ①与②哪一个更适宜作为该茶水温度y关于时间x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归方程
(3)已知该茶水温度降至口感最佳,根据(2)中的经验回归方程,求在相同条件下,刚泡好的茶水,大约需要放置多长时间才能达到最佳饮用口感.
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,.
题型四 用2×2列联表分析两分类变量间的关系
解|题|技|巧
(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与 的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
【典例1】26.(24-25高二下·福建厦门第一中学·期末)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数的.若依据小概率值的独立性检验认为选学生物学和性别有关,则调查人数中男生不可能有( )人.附表:,
其中,,.
A.20 B.30 C.35 D.40
【典例2】(多选)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高堆积条形图.
根据图中的信息,下列结论中一定正确的是( ).
A.样本中男性比女性更关注地铁1号线全线开通
B.样本中多数女性是35岁及以上
C.样本中35岁以下的男性人数比35岁及以上的女性人数多
D.样本中35岁及以上的人对地铁1号线的开通关注度更高
【变式1】为了考察某种营养液对有机蔬菜的增产效果,某研究所进行试验,获得数据,经过计算得到,其中,那么可以认为该营养液对有机蔬菜的增产有效果的把握为( )
A.以上 B.以上 C.以上 D.以下
【变式2】(24-25高二下·辽宁县域重点高中·期末)为了解是否喜欢羽毛球运动与性别的关系,某数学兴趣小组经统计得到如下数据,若要使是否喜欢羽毛球运动与性别无关的可能性最大,则( )
性别
羽毛球
喜欢
不喜欢
女生
男生
50
100
附:,其中.
A.4 B.2 C.1 D.
【变式3】(24-25高二下·吉林友好学校·期末)(多选)某校团委对“学生性别和喜欢运动是否有关”进行了一次调查,其中被调查的男、女生人数相同,男生喜欢运动的人数占男生人数的,女生喜欢运动的人数占女生人数的,若有95%的把握,但没有99%的把握认为“是否喜欢运动和性别有关”,则被调查人中男生可能有( ).临界值参照表:
A.25人 B.45人 C.60人 D.75人
题型五 独立性检验的综合应用
解|题|技|巧
(1)解答此类题目的关键在于正确利用χ2=计算χ2的值,再用它与临界值xα的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
【典例1】(24-25高二下·黑龙江鸡西第二中学校·期末)某市学生校车由“通达”和“运达”两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了两家公司30天校车早上是否准时到校情况,并统计了如下列联表:
准时到校天数
未准时到校天数
合计
通达
8
2
运达
12
8
合计
30
(1)填写上述表格.
(2)根据小概率值的独立性检验,判断校车早上准时到校与校车所属的公司是否有关?
附,
0.100
0.050
0.010
k
2.706
3.841
6.635
【典例2】(24-25高二下·青海西宁大通县·期末)某机构为了解科技工作者对deepseek的使用情况与年龄是否有关,从甲市科技工作者中抽取了200人进行调查,得到下表.
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
中老年人(40周岁以上)
30
80
总计
200
(1)补全表中数据,根据小概率值的独立性检验,是否可以认为科技工作者对deepseek的使用情况与年龄有关联?
(2)将样本中使用deepseek的频率作为甲市科技工作者中使用该软件的概率,从甲市科技工作者中随机抽取3人,记为这3人中使用deepseek的人数,求的分布列和数学期望.
附:,其中.
0.010
0.005
0.001
6.635
7.879
10.828
【变式1】(24-25高二下·吉林长春外五县·期末)人们曾经相信,艺术家将是最后被AI所取代的职业,但技术的进步已经将这一信念敲出了裂痕,这可能是AI第一次引起人类的恐慌.由novalAI,DALL-E2等软件创作出来的绘画作品风格各异,乍看之下,已与人类绘画作品无异.AI会取代人类画师吗?某机构随机对60人进行了一次调查,统计发现认为会取代的有42人,30岁以下认为不会取代的有12人,占30岁以下调查人数的.
(1)根据以上数据完成如下列联表:
年龄
理解情况
总计
会取代
不会取代
30岁以下
12
30岁及以上
总计
42
60
(2)依据小概率值的独立性检验,能否认为年龄与理解情况有关?
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:,其中.
【变式2】(24-25高二下·吉林农安县第十中学·期末)某高校为了了解大学生对篮球运动的喜好是否与性别有关联,随机在该校调查了100名大学生,得到的数据如表所示:
性别
篮球运动
合计
喜欢
不喜欢
男
40
10
50
女
25
25
50
合计
65
35
100
(1)求该校喜欢篮球运动的大学生中性别为男的频率;
(2)根据小概率值的独立性检验,能否认为该校大学生是否喜欢篮球运动与性别有关联?
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式3】(24-25高二下·四川德阳高中·)近期,高中周末双休引起热议,为调查在校高中学生对国家双休政策的支持情况,某中学数学社团在校园内对学生展开随机调查,得到下表.(数据单位:人)
支持
不支持
成绩优秀
60
30
成绩不优秀
90
30
(1)根据该数学社团的调查结果判断,有无90%把握认为支持双休政策与学生成绩是否优秀有关?
0.1
0.05
0.01
2.706
3.841
6.635
附:.
(2)若该数学社团的调查结果可靠,某文学社团按相同方式在该校园内另随机调查了14位同学.其中成绩优秀且支持双休的人数为,请参考数学社团的调查数据,估算和;
(3)该校准备从数学社团调查的210名同学中用“按比例分层抽样”的方法抽取7位同学座谈、并准备在参与座谈的同学中选取5人组成新的调查小组.假设新的调查小组中支持双休但成绩不优秀的人数为,求的分布列.
期末基础通关练(测试时间:10分钟)
1.以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
A. B. C. D.
2.(24-25高二下·河南周口商水县·期末)已知A,B,C,D四组成对样本数据对应的样本相关系数分别为,,,,则线性相关程度最强的是( )
A.A组 B.B组 C.C组 D.D组
3.(24-25高二下·天津部分区·期末)在研究线性回归模型时,成对样本数据所对应的点均在直线上,则样本相关系数( )
A. B.1 C. D.无法确定
4.(22-23高二上·四川广安加德学校·期末)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为.
零件数x(个)
1
2
3
4
5
加工时间y(min)
50
67
71
79
表中有一个数据模糊不清,请你推断出该数据的值为( )
A.55 B.55.8 C.59 D.51
5.(多选)某企业节能降耗技术改造后,在生产某产品过程中记录的产量(吨)与相应的生产能耗(吨)的几组对应数据如表,现发现表中有个数据看不清,已知回归直线方程为,下列说法正确的是( )
2
3
4
5
6
19
25
38
44
A.看不清的数据的值为34
B.具有正相关关系,相关系数
C.第三个样本点对应的残差
D.据此模型预测产量为7吨时,相应的生产能耗约为50吨
6.(24-25高二下·贵州铜仁第二中学·月考)若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B. C. D.
期末重难突破练(测试时间:10分钟)
1.(24-25高二下·贵州黔西南布依族苗族兴义第一中学·期末)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x(元/kg)
日需求量y(kg)
8
6
5
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,当价格元/kg时,日需求量y的预测值为多少?
参考公式:线性回归方程,其中,.
2.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
3.(24-25高二下·西藏林芝·)为了推动智慧课堂的普及和应用,市现对全市中小学智慧课堂的应用情况进行抽样调查,统计数据如下表:
经常应用
偶尔应用或者不应用
总计
农村学校
40
城市学校
80
总计
100
160
(1)补全上面的列联表;
(2)依据小概率的独立性检验,能否判断学校所在区域对智慧课堂的应用有影响?
附:,其中.
0.100
0.050
0.005
2.706
3.841
7.879
4.(24-25高三下·陕西延安·)人工智能对人们的生活有较大的影响,为了让老师更加重视人工智能,某校随机抽出30名男教师和20名女教师参加学校组织的“人工智能”相关知识问卷调查(满分100分),若分数为80分及以上的为优秀,其他为非优秀,统计并得到如下列联表:
男教师
女教师
总计
优秀
20
15
35
非优秀
10
5
15
总计
30
20
50
(1)根据小概率值的独立性检验,能否认为这次成绩是否优秀与性别有关?
(2)从样本中成绩非优秀的15名老师中,随机抽取2人进行调研,记抽出的2人中女老师的人数为,求的分布列和数学期望.附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
5.(24-25高二下·重庆第一中学·期末)部分胎儿在B超检查时会检测出鼻骨缺失,其中有的胎儿是孤立性鼻骨缺失(不合并其他超声异常),有的胎儿是鼻骨缺失的同时合并了其他超声异常.某儿科医院统计了100名鼻骨缺失胎儿的染色体检测结果,得到如下列联表:
是否合并其他超声异常染色体是否异常
不合并
合并
合计
正常
72
6
78
异常
3
19
22
合计
75
25
100
(1)根据小概率值的独立性检验,分析鼻骨缺失的胎儿是否合并其他超声异常与胎儿染色体是否异常有没有关系;
(2)现有3例鼻骨缺失胎儿,以频率估计概率,记为这3例鼻骨缺失胎儿中合并其他超声异常的人数,求的分布列和数学期望.
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
1 / 4
学科网(北京)股份有限公司
$
专题04 统计
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 成对数据的统计相关性
题型02 求回归直线方程
题型03 一元线性回归的应用
题型04 用2×2列联表分析两分类变量间的关系
题型05 独立性检验的综合应用
过·分层验收 阶梯实战演练,验收复习成效
核心考点
复习目标
考情规律
成对数据的统计相关性
1. 能准确区分函数关系与相关关系,理解正相关、负相关、线性相关、非线性相关的含义;
2. 能熟练绘制散点图,通过散点图直观判断两个变量的相关性;
3. 掌握样本相关系数的计算公式,能准确计算并根据 r 值判断线性相关程度的强弱.
基础必考点,必考选择 / 填空,以基础题为主,多考查散点图判断相关性、相关系数的意义与计算,难度中等偏易.
一元线性回归模型
1. 理解一元线性回归模型的统计含义,掌握最小二乘法原理;
2. 能熟练运用公式计算回归直线方程的斜率和截距,求出回归方程;
3. 能利用回归方程进行预测和估计,理解残差分析的意义;
4. 掌握决定系数 R² 的含义,能判断模型的拟合效果.
核心重点,大题必考,常以解答题形式出现,结合实际背景考查回归方程的求解与应用,难度中等.
独立性检验
1. 理解分类变量的概念,能正确绘制 2×2 列联表;
2. 掌握独立性检验的基本思想与卡方统计量的计算公式;
3. 能根据临界值表判断两个分类变量是否有关联,准确表述检验结论;
4. 理解独立性检验中的小概率值与犯错误概率的关系.
高频考点,选择 / 填空 / 解答题均可能考查,常结合实际案例(如医学、教育、社会调查)考查列联表与卡方检验,难度中等.
知识点01成对数据的统计相关性
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系;
(2)散点图:将样本中n个数据点()描在平面直角坐标系中得到的统计图叫做散点图,是描述成对数据之间关系的一种直观方法;
(3)正相关与负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
(5)非线性相关与曲线相关:如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关;
2.相关关系与函数关系的异同
(1)相同点:两者均是指两个变量之间的关系;
(2)不同点:①函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系;相关关系是一种不确定的关系,如一块农田的水稻产量与施肥量之间的关系;事实上,函数是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系;
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
3.样本相关系数
(1)样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
(2)相关系数r的性质
①当时,称成对样本数据正相关;
当时,成对样本数据负相关;
当时,成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为[-1,1];
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
4.线性相关
(1)散点图
一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表示
序号
1
2
3
…
变量
…
变量
…
则在平面直角坐标系中描出点,,就可以得到这对数据的散点图.
(2)线性相关:如果由变量的成对数据、散点图或直观经验可知,变量与变量之间的关系可以近似地用一次函数来刻画,则称与线性相关.
(3)正相关和负相关
若与线性相关,如果一个变量增大,另一个变量大体上也增大 ,则称这两个变量正相关;如果一个变量增大,另一个变量大体上也减少,则称这两个变量负相关.
知识点02最小二乘法与经验回归方程
1.最小二乘法
称为y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
2.经验回归方程的系数计算公式
经验回归方程
的计算公式
的计算公式
3.经验回归方程的性质
(1)经验回归方程一定过点;
(2)一次函数的单调性由的符号决定,函数递增的充要条件是;
(3)的实际意义:当x增大一个单位时,平均增大个单位.
(4)观测值:对于响应变量Y,通过观测得到的数据称为观测值.
(5)预测值:通过经验回归方程得到的称为预测值.
(6)残差:观测值减去预测值称为残差.
注意:回归直线一定经过样本的中心.
4.回归方程、回归直线与一元回归分析
(1)定义:把拟合误差取得最小值时得到的线性方程(线性模型)称为变量y随x波动的回归方程或回归模型,其中自变量x称为解释变量,因变量y称为反应变量.回归方程所定义的直线称为回归直线,回归方程的系数(或称回归模型的参数)与称为回归系数.由一组有某种线性关系的成对数据求其回归方程的方法称为一元线性回归分析;
(2)回归直线经过样本点的中心,也就是散点图中数据点的中心.
5.一元线性回归模型
一元线性回归模型的完整表达式为其中Y称为因变量或响应变量,x称为自变量或解释变量;a,b为模型的未知参数,e是Y与之间的随机误差.
知识点03独立性检验
1.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
2.列联表
列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
合计
列联表给出了成对分类变量数据的交叉分类频数.
3.独立性检验
(1)计算公式:,其中.
(2)临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
(3)独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(4)独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
9.独立性检验的基本思想
计算随机变量.统计上已经证明:在变量、独立的前提下,当样本量很大时,近似服从卡方分布.当较大时,说明变量之间不独立.
在统计中,用以下结果对变量的独立性进行判断.
(1)当时,没有充分的证据判断变量、有关联,可以认为变量、是没有关联的;
(2)当时,有的把握判断变量、有关联;
(3)当时,有的把握判断变量、有关联;
(4)当时,有的把握判断变量、有关联.
题型一 成对数据的统计相关性
解|题|技|巧
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系, 而相关关系不一定是因果关系,也可能是伴随关系.
【典例1】(24-25高二下·山东聊城·期末)某同学根据一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.相关系数r变大 B.决定系数变小 C.残差平方和变小 D.不变
【答案】B
【详解】增加点,从散点图中可以看出拟合效果变差;越接近,相关程度越强,拟合效果越好,由于两个变量成正相关,所以相关系数变小;故A错误;决定系数越接近,拟合效果越好,所以决定系数变小,故B正确;残差平方和越小,拟合效果越好,所以残差平方和变大;故C错误;
增加点前的的平均数为,增加点后的的平均数为,所以变大,故D错误.故选:B
【典例2】(24-25高二下·山东枣庄·期末)下列四组成对数据:①,,,,;②,,,,;③,,,,;④,,,,.其中样本相关系数最小的是( )(附:样本相关系数)
A.① B.② C.③ D.④
【答案】C
【详解】对于①,数据均在上,故样本相关系数为1,
对于③,数据均在上,故样本相关系数为-1,
对于②,可看出其数据为正相关,故样本相关系数大于0,
对于④,显然所有数据无法落在某一个一次函数上,故,事实上,,
其中,故,故,
综上,样本相关系数最小的是③.故选:C
【变式1】(24-25高二下·河北衡水、廊坊等2地(NT20名校)·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】C
【详解】对于BD,散点图分布总体是斜向上,故BD中对应的两个变量之间是正相关;
对于AC,散点图分布总体是斜向下,但C中散点分布较为集中,
而A中散点分布较为分散,故C中对应的两个变量相关性较强且为负相关.
【变式2】(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B. C. D.
【答案】A
【详解】由散点图可知,并且第一个图中的点更为集中,更贴近某条直线分布,第三、四个图中的点的分布更为分散,因此更接近于1,,的绝对值更接近于0,即最大的是.故选:A
【变式3】(24-25高二下·辽宁丹东敬业实验高级中学·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系 B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数 D.图1相关系数和图2相关系数之和小于0
【答案】C
【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;对C,图1正相关,图2负相关,所以C不正确;对D,因为图2相关程度更强,所以D正确.故选C.
【变式4】(24-25高二下·河南信阳·期末)根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
【答案】A
【详解】由散点图知,变量和变量负相关,且相关性较强,所以样本相关系数.故选:A.
【变式5】(24-25高二下·江西抚州·)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
【答案】0.96/
【详解】,故,,.故答案为:0.96
题型二 求回归直线方程
答|题|模|板
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格
(4)计算,,x,xiyi.
(5)代入公式计算,,公式为
(6)写出线性回归方程=x+.
【典例1】(24-25高二下·广东湛江第一中学·期末)已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
【答案】B
【详解】根据题意可得,,,则5对样本数据的样本点中心为,
将其代入方程中得,,则.故选:B.
【典例2】(24-25高三下·上海虹口区·期中)某公司为了解用电量y(单位:千瓦时)与气温x(单位:摄氏度)之间的关系,随机统计了4天的用电量与当天气温,绘制了如下表格,由表中数据可得回归方程,则实数_____.
x
10
13
18
y
62
38
34
m
【答案】24
【详解】由题意,,,所以样本中心点为,将样本中心点的坐标代入回归直线方程可得,解得.
故答案为:24.
【变式1】已知与之间的线性回归方程为,其样本点的中心为,样本数据中的取值依次为2.5,,3.4,4.2,5.4,则( )
A.2 B.2.8 C.3 D.3.2
【答案】C
【详解】因为线性回归方程过样本中心点,所以,所以.故选:C.
【变式2】(24-25高二下·甘肃定西临洮县·期末)根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
【答案】B
【详解】由题意:,.因为一元线性回归直线经过点,
可得:.故选:B
【变式3】已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下对应数据:
2
4
5
6
8
30
40
50
60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为( )
A.45 B.50 C.70 D.65
【答案】C
【详解】由表可知,,.因为回归直线会经过平均数样本中心点,所以=6.5×5+17.5,解得m=70.故选:C.
【变式4】总和生育率有时也简称生育率,是指一个人口群体的各年龄别妇女生育率的总和.它反映的是一名妇女在每年都按照该年龄别现有生育率生育的假设下,在育龄期间生育的子女总数.为了了解中国人均GDPx(单位:万元)和总和生育率y以及女性平均受教育年限z(单位:年)的关系,采用2012~2022近十年来的数据绘制了散点图,并得到经验回归方程,,对应的决定系数分别为,,则( )
A.人均GDP和女性平均受教育年限正相关. B.女性平均受教育年限和总和生育率负相关
C. D.未来三年总和生育率一定继续降低
【答案】AB
【详解】由回归方程知人均GDP和女性平均受教育年限正相关,故A正确;因为,,可得女性平均受教育年限z和总和生育率y的关系式为,所以女性平均受教育年限z和总和生育率y负相关,故B正确;由散点图可知,回归方程相对拟合效果更好,所以,故C错误;根据回归方程预测,未来总和生育率预测值有可能降低,但实际值不一定会降低,故D错误.故选:AB
题型三 一元线性回归的应用
解|题|技|巧
我们称为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【典例1】(24-25高二下·新疆喀什疏附县·期末)根据调查,家庭年收入(万元)与年消费(万元)的回归方程是.若某家庭年收入为50万元,预测其年消费为 __________万元 .
【答案】30.5
【详解】当时,,则若某家庭年收入为50万元,预测其年消费为万元.
故答案为:
【典例2】我国某农业大学植物研究所相关人员为了解仙人掌的植株高度(单位:),与其根茎长度(单位:)之间是否存在线性相关的关系,通过采样和数据记录得到如下数据:
样本编号
1
2
3
4
根茎长度
10
12
14
16
植株高度
62
86
112
132
参考数据:,,.
(1)由上表数据计算相关系数,并说明是否可用线性回归模型拟合与的关系(若,则可用线性回归模型拟合,计算结果精确到0.001);
(2)求y关于x的经验回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,
【详解】(1),,
,
,
,可用线性回归模型拟合与的关系;
(2),,
故关于的经验回归方程为.
【变式1】(24-25高二下·辽宁重点中学协作校·期末)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,统计出小李某月1号到5号每天打篮球时间(单位:h)与当天投篮命中率的成对数据满足的关系式:,,.若与满足线性回归方程,则回归系数( )(参考公式:)
A.0.04 B.0.03 C.0.02 D.0.01
【答案】D
【详解】已知,则,,
则,故选:D.
【变式2】(24-25高二下·湖北武汉五校联合体·期末)近年来,我国电动汽车产业发展迅猛,某品牌汽车市场也异常火爆,销售量逐年上升.现统计某汽车专卖店5月份前5天每天电动汽车的实际销量,结果如下表所示.
日期编号
1
2
3
4
5
销量/部
8
a
12
b
23
与有较强的线性相关关系,且线性回归方程为,则等于( )
A.28 B.30 C.33 D.35
【答案】C
【详解】依题意,,又回归直线方程过点,所以,解得.故选:C.
【变式3】(24-25高二下·四川德阳高中·)“千年一面,中江挂面”,近年来,中江挂面村火遍全网.这不仅为中江带来了大量游客,还使中江手工挂面供不应求,销售额大幅提升.已知某手工挂面加工企业2024年10月—2025年2月销售额对应如下表.且用最小二乘法得到销售额关于月份序号的回归直线方程为,则2025年1月销售额( )
时间
2024年10月
2024年11月
2024年12月
2025年1月
2025年2月
月份序号
1
2
3
4
5
销售额(万元)
13.5
15.0
17.0
20.5
A.19.0(万元) B.18.8(万元) C.18.6(万元) D.18.4(万元)
【答案】A
【详解】,由线性回归方程的性质可知,回归直线必过样本中心点,
将代入回归方程,得, ,
令,解得.
【变式4】中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.
73.5
3.85
表中:,
(1)根据散点图判断: ①与②哪一个更适宜作为该茶水温度y关于时间x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归方程
(3)已知该茶水温度降至口感最佳,根据(2)中的经验回归方程,求在相同条件下,刚泡好的茶水,大约需要放置多长时间才能达到最佳饮用口感.
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,.
【详解】(1)由散点图知,点的分布呈现出曲线的趋势,因此更适宜的回归方程为②,即.
(2)由,得,对等式两边取自然对数,得,
令,则,
,,
结合表中数据,得,
结合参考数据可得,由,
得结合参考数据可得,
所以茶水温度y关于时间x的回归方程为.
(3)依题意,室温下,茶水温度降至口感最佳,
即,整理得,
于是,解得,
所以在相同条件下,刚泡好的茶水大约需要放置7.5min才能达到最佳饮用口感.
题型四 用2×2列联表分析两分类变量间的关系
解|题|技|巧
(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与 的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
【典例1】26.(24-25高二下·福建厦门第一中学·期末)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数的.若依据小概率值的独立性检验认为选学生物学和性别有关,则调查人数中男生不可能有( )人.附表:,
其中,,.
A.20 B.30 C.35 D.40
【答案】A
【详解】设总人数为,则男生选学生物学的人数为,女生选学生物学的人数为,
则列联表为:
男生
女生
合计
选生物学
不选生物学
合计
m
m
2m
因此,即,又为的倍数,所以男生最少有人.故选:A
【典例2】(多选)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高堆积条形图.
根据图中的信息,下列结论中一定正确的是( ).
A.样本中男性比女性更关注地铁1号线全线开通
B.样本中多数女性是35岁及以上
C.样本中35岁以下的男性人数比35岁及以上的女性人数多
D.样本中35岁及以上的人对地铁1号线的开通关注度更高
【答案】ABD
【详解】设等高堆积条形图对应的列联表如下:
项目
35岁及以上
35岁以下
合计
男性
a
c
女性
b
d
合计
根据第1个等高堆积条形图可知,35岁及以上的男性比女性多,即;35岁以下的男性也比女性多,即,根据第2个等高堆积条形图可知,男性中35岁及以上的比35岁以下的多,即;女性中35岁及以上的也比35岁以下的多,即,对于选项A,男性人数为,女性人数为,,,故A正确,对于选项B,35岁及以上女性人数为,35岁以下女性人数为d,,故B正确,对于选项C,35岁以下男性人数为c,35岁及以上女性人数为b,由,无法直接判断b与c的大小关系,故C不一定正确,对于选项D,35岁及以上的人数为,35岁以下的人数为,,,故D正确,故选:ABD.
【变式1】为了考察某种营养液对有机蔬菜的增产效果,某研究所进行试验,获得数据,经过计算得到,其中,那么可以认为该营养液对有机蔬菜的增产有效果的把握为( )
A.以上 B.以上 C.以上 D.以下
【答案】B
【详解】因为,所以认为该营养液对有机蔬菜的增产有效果的把握为以上.故选:B.
【变式2】(24-25高二下·辽宁县域重点高中·期末)为了解是否喜欢羽毛球运动与性别的关系,某数学兴趣小组经统计得到如下数据,若要使是否喜欢羽毛球运动与性别无关的可能性最大,则( )
性别
羽毛球
喜欢
不喜欢
女生
男生
50
100
附:,其中.
A.4 B.2 C.1 D.
【答案】D
【详解】要使是否喜欢羽毛球运动与性别无关的可能性最大,则,所以,所以.
故选:D
【变式3】(24-25高二下·吉林友好学校·期末)(多选)某校团委对“学生性别和喜欢运动是否有关”进行了一次调查,其中被调查的男、女生人数相同,男生喜欢运动的人数占男生人数的,女生喜欢运动的人数占女生人数的,若有95%的把握,但没有99%的把握认为“是否喜欢运动和性别有关”,则被调查人中男生可能有( ).临界值参照表:
A.25人 B.45人 C.60人 D.75人
【答案】BC
【详解】设男生人数为,则女生人数也为,列联表如下:
喜欢运动的人数
不喜欢运动的人数
合计
男生
女生
合计
,由题意,解得,故选:BC.
题型五 独立性检验的综合应用
解|题|技|巧
(1)解答此类题目的关键在于正确利用χ2=计算χ2的值,再用它与临界值xα的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
【典例1】(24-25高二下·黑龙江鸡西第二中学校·期末)某市学生校车由“通达”和“运达”两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了两家公司30天校车早上是否准时到校情况,并统计了如下列联表:
准时到校天数
未准时到校天数
合计
通达
8
2
运达
12
8
合计
30
(1)填写上述表格.
(2)根据小概率值的独立性检验,判断校车早上准时到校与校车所属的公司是否有关?
附,
0.100
0.050
0.010
k
2.706
3.841
6.635
【详解】(1)根据题意,填表如下:
准时到校天数
未准时到校天数
合计
通达
8
2
10
运达
12
8
20
合计
20
10
30
(2)根据表格中的数据求得:
.
因为小概率值时对应的临界值未.
因为,所以根据独立性检验,没有充分证据表明校车早上准时到校与校车所属的公司有关.
【典例2】(24-25高二下·青海西宁大通县·期末)某机构为了解科技工作者对deepseek的使用情况与年龄是否有关,从甲市科技工作者中抽取了200人进行调查,得到下表.
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
中老年人(40周岁以上)
30
80
总计
200
(1)补全表中数据,根据小概率值的独立性检验,是否可以认为科技工作者对deepseek的使用情况与年龄有关联?
(2)将样本中使用deepseek的频率作为甲市科技工作者中使用该软件的概率,从甲市科技工作者中随机抽取3人,记为这3人中使用deepseek的人数,求的分布列和数学期望.
附:,其中.
0.010
0.005
0.001
6.635
7.879
10.828
【详解】(1)依题意,补全列联表如下:
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
20
120
中老年人(40周岁以上)
50
30
80
总计
150
50
200
零假设为:科技工作者对deepseek的使用情况与年龄无关联,
由列联表中的数据,得.
根据小概率值的独立性检验,可以推出不成立,即可以认为科技工作者对deepseek的使用情况与年龄有关联.
(2)样本中使用deepseek的频率为,由题意可知,
的可能取值为,
, ,
, .
所以的分布列为:
0
1
2
3
或.
【变式1】(24-25高二下·吉林长春外五县·期末)人们曾经相信,艺术家将是最后被AI所取代的职业,但技术的进步已经将这一信念敲出了裂痕,这可能是AI第一次引起人类的恐慌.由novalAI,DALL-E2等软件创作出来的绘画作品风格各异,乍看之下,已与人类绘画作品无异.AI会取代人类画师吗?某机构随机对60人进行了一次调查,统计发现认为会取代的有42人,30岁以下认为不会取代的有12人,占30岁以下调查人数的.
(1)根据以上数据完成如下列联表:
年龄
理解情况
总计
会取代
不会取代
30岁以下
12
30岁及以上
总计
42
60
(2)依据小概率值的独立性检验,能否认为年龄与理解情况有关?
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:,其中.
【详解】(1)完成列联表如下:
年龄
理解情况
总计
会取代
不会取代
30岁以下
18
12
30
30岁及以上
24
6
30
总计
42
18
60
(2)零假设为:年龄与理解情况相互独立,即年龄与理解情况无关,
由题意,.
所以根据小概率值的独立性检验,我们推断成立.
即认为年龄与理解情况无关,此推断犯错误的概率不大于0.010.
【变式2】(24-25高二下·吉林农安县第十中学·期末)某高校为了了解大学生对篮球运动的喜好是否与性别有关联,随机在该校调查了100名大学生,得到的数据如表所示:
性别
篮球运动
合计
喜欢
不喜欢
男
40
10
50
女
25
25
50
合计
65
35
100
(1)求该校喜欢篮球运动的大学生中性别为男的频率;
(2)根据小概率值的独立性检验,能否认为该校大学生是否喜欢篮球运动与性别有关联?
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)由题意所求频率为
(2),
根据小概率值的独立性检验,有的把握认为该校大学生是否喜欢篮球运动与性别有关联.
【变式3】(24-25高二下·四川德阳高中·)近期,高中周末双休引起热议,为调查在校高中学生对国家双休政策的支持情况,某中学数学社团在校园内对学生展开随机调查,得到下表.(数据单位:人)
支持
不支持
成绩优秀
60
30
成绩不优秀
90
30
(1)根据该数学社团的调查结果判断,有无90%把握认为支持双休政策与学生成绩是否优秀有关?
0.1
0.05
0.01
2.706
3.841
6.635
附:.
(2)若该数学社团的调查结果可靠,某文学社团按相同方式在该校园内另随机调查了14位同学.其中成绩优秀且支持双休的人数为,请参考数学社团的调查数据,估算和;
(3)该校准备从数学社团调查的210名同学中用“按比例分层抽样”的方法抽取7位同学座谈、并准备在参与座谈的同学中选取5人组成新的调查小组.假设新的调查小组中支持双休但成绩不优秀的人数为,求的分布列.
【详解】(1)由列联表可得(成绩优秀支持人数),(成绩优秀不支持人数),(成绩不优秀支持人数),(成绩不优秀不支持人数),则,
所以,
由题可知,把握对应的临界值为,因为,
所以没有把握认为支持双休政策与学生成绩是否优秀有关.
(2)随机抽取一名学生,该学生为成绩优秀且支持双休的概率,由题意得,
所以,.
(3)分层抽样的抽样比为,则抽取的7人中支持双休但成绩不优秀的共人,其余共4人,因此的可能取值为,;;,
因此的分布列为
期末基础通关练(测试时间:10分钟)
1.以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
A. B. C. D.
【答案】AC
【详解】四个选项中只有选项AC中的点分布在一条直线附近,适合线性回归模型,故选:AC
2.(24-25高二下·河南周口商水县·期末)已知A,B,C,D四组成对样本数据对应的样本相关系数分别为,,,,则线性相关程度最强的是( )
A.A组 B.B组 C.C组 D.D组
【答案】A
【详解】由题设,则线性相关程度最强的是组.故选:A
3.(24-25高二下·天津部分区·期末)在研究线性回归模型时,成对样本数据所对应的点均在直线上,则样本相关系数( )
A. B.1 C. D.无法确定
【答案】B
【详解】因成对样本数据所对应的点均在直线上,
则,又直线的斜率为,满足正相关,故.故选:B.
4.(22-23高二上·四川广安加德学校·期末)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为.
零件数x(个)
1
2
3
4
5
加工时间y(min)
50
67
71
79
表中有一个数据模糊不清,请你推断出该数据的值为( )
A.55 B.55.8 C.59 D.51
【答案】D
【详解】回归直线必过样本点中心,其中,所以,
所以不清楚的数值为.故选:D
5.(多选)某企业节能降耗技术改造后,在生产某产品过程中记录的产量(吨)与相应的生产能耗(吨)的几组对应数据如表,现发现表中有个数据看不清,已知回归直线方程为,下列说法正确的是( )
2
3
4
5
6
19
25
38
44
A.看不清的数据的值为34
B.具有正相关关系,相关系数
C.第三个样本点对应的残差
D.据此模型预测产量为7吨时,相应的生产能耗约为50吨
【答案】ACD
【详解】对于A,,由回归直线方程得,则,A正确;对于B,由回归直线方程及数表知,具有正相关关系,而相关系数的绝对值不超过1,B不正确;对于C,第三个样本点对应的残差,C正确;对于D,在回归直线方程中,时,生产能耗约(吨) ,D正确.故选:ACD
6.(24-25高二下·贵州铜仁第二中学·月考)若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B. C. D.
【答案】D
【详解】由回归直线过样本中心点,得,,代入,得,
方程两边同时乘5,得.故选:D.
期末重难突破练(测试时间:10分钟)
1.(24-25高二下·贵州黔西南布依族苗族兴义第一中学·期末)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x(元/kg)
日需求量y(kg)
8
6
5
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,当价格元/kg时,日需求量y的预测值为多少?
参考公式:线性回归方程,其中,.
【详解】(1)由题知,,
,
.
,.
综上,y关于x的线性回归方程为:.
(2)由(1)知回归方程为.
所以当时,.
故当价格元/kg时,日需求量y的预测值为kg.
2.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【详解】(1)因为,,,
则,解得;
8月份对应的残差值.
(2)因为,
所以,
所以,
所以线性回归模型拟合程度更好.
3.(24-25高二下·西藏林芝·)为了推动智慧课堂的普及和应用,市现对全市中小学智慧课堂的应用情况进行抽样调查,统计数据如下表:
经常应用
偶尔应用或者不应用
总计
农村学校
40
城市学校
80
总计
100
160
(1)补全上面的列联表;
(2)依据小概率的独立性检验,能否判断学校所在区域对智慧课堂的应用有影响?
附:,其中.
0.100
0.050
0.005
2.706
3.841
7.879
【详解】(1)补全的列联表如下:
经常应用
偶尔应用或者不应用
总计
农村学校
40
40
80
城市学校
60
20
80
总计
100
60
160
(2)零假设:学校所在区域对智慧课堂的应用无影响.
根据列联表中的数据,经计算得到
根据小概率的独立性检验,我们推断不成立,因此能判断学校所在区域对智慧课堂的应用有影响.
4.(24-25高三下·陕西延安·)人工智能对人们的生活有较大的影响,为了让老师更加重视人工智能,某校随机抽出30名男教师和20名女教师参加学校组织的“人工智能”相关知识问卷调查(满分100分),若分数为80分及以上的为优秀,其他为非优秀,统计并得到如下列联表:
男教师
女教师
总计
优秀
20
15
35
非优秀
10
5
15
总计
30
20
50
(1)根据小概率值的独立性检验,能否认为这次成绩是否优秀与性别有关?
(2)从样本中成绩非优秀的15名老师中,随机抽取2人进行调研,记抽出的2人中女老师的人数为,求的分布列和数学期望.附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【详解】(1)零假设 : 这次成绩是否优秀与性别无关.
根据表中数据,计算得到
根据小概率值的独立性检验,推断成立,所以不能认为这次成绩是否优秀与性别有关.
(2)的可能取值为.
; ; ;
的分布列为:
0
1
2
数学期望.
5.(24-25高二下·重庆第一中学·期末)部分胎儿在B超检查时会检测出鼻骨缺失,其中有的胎儿是孤立性鼻骨缺失(不合并其他超声异常),有的胎儿是鼻骨缺失的同时合并了其他超声异常.某儿科医院统计了100名鼻骨缺失胎儿的染色体检测结果,得到如下列联表:
是否合并其他超声异常染色体是否异常
不合并
合并
合计
正常
72
6
78
异常
3
19
22
合计
75
25
100
(1)根据小概率值的独立性检验,分析鼻骨缺失的胎儿是否合并其他超声异常与胎儿染色体是否异常有没有关系;
(2)现有3例鼻骨缺失胎儿,以频率估计概率,记为这3例鼻骨缺失胎儿中合并其他超声异常的人数,求的分布列和数学期望.
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)解:设零假设:鼻骨缺失的胎儿是否合并其他超声异常与胎儿染色体异常无关.
由题知.
根据小概率值的独立性检验,我们推断不成立,
即认为胎儿鼻骨缺失合并其他超声异常与胎儿染色体异常有关,此推断犯错误概率不大于.
(2)由列联表所给频数可得鼻骨缺失的胎儿中合并其他超声异常的频率为,
以此估计鼻骨缺失的胎儿的中合并其他超声异常的概率为,
即一例鼻骨缺失胎儿合并其他超声异常的概率为
为3例鼻骨缺失胎儿中合并其他超声异常的人数,所以的所有可能取值为,
且,故.则的分布列如下
0
1
2
3
故的数学期望.
1 / 4
学科网(北京)股份有限公司
$