内容正文:
专题04 统计(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 散点图与相关性 题型02 求回归直线方程
题型03 线性回归分析 题型04 残差分析与相关指数的应用
题型05 非线性回归分析 题型06 有关“相关的检验”
过·分层验收 阶梯实战演练,验收复习成效
核心考点(期末常考)
复习目标
考情总结(命题趋势+高频易错)
1.三种抽样方法简单随机抽样、系统抽样、分层抽样的定义、特点、适用场景及抽样计算
辨析三种抽样方法的核心特征;掌握各类抽样的操作步骤;能精准完成抽样比例、样本数量相关计算
命题趋势:选择填空基础必考,侧重场景辨析;高频易错:混淆分层抽样与系统抽样适用条件;分层抽样比例计算出错;误判抽样的公平性
2.频率分布图表频率分布直方图、频率分布表、折线图的解读与计算
掌握频率分布直方图核心公式;能读取图表数据、计算频率、组距、样本容量;能绘制简单频率分布图表
命题趋势:期末高频基础题型,常结合样本特征综合考查;高频易错:忘记直方图「频率=组距×纵坐标」;混淆频数与频率;所有组频率和不为1不会纠错
3.样本数字特征平均数、中位数、众数、方差、标准差的计算与意义
熟记各类数字特征计算公式;能根据数据、直方图求解特征值;能结合实际场景分析数据集中与离散程度
命题趋势:必考计算考点,解答题高频小问;高频易错:直方图中位数求解错误;方差公式记忆混淆;忽略标准差为非负数;无法区分均值、方差的实际意义
4.数字特征线性变换性质数据平移、伸缩后均值、方差、标准差的变化规律
熟记数据线性变换的特征值变化规律;能快速计算变换后的均值与方差;规避常规计算误区
命题趋势:选择填空拔高题型,区分基础层次;高频易错:数据伸缩时,方差忘记平方缩放;平移操作误改方差大小;混淆均值、方差变换规则
5.相关性与回归直线相关关系判定、相关系数、回归直线方程求解与应用
区分函数关系与相关关系;掌握回归直线方程求解步骤;能利用回归方程进行预测,理解回归直线核心性质
命题趋势:期末重点解答题型,固定套路考查;高频易错:回归直线必过样本中心点记忆遗忘;相关系数正负与相关性强弱混淆;用回归方程盲目外推预测
6.独立性检验(重难点)2×2列联表、卡方计算、独立性判断、结论表述
熟记卡方统计量计算公式;能规范整理列联表数据;能依据临界值精准判断变量是否独立,规范书写结论
命题趋势:期末压轴高频考点,必考统计大题;高频易错:卡方公式代入数据出错;临界值判断标准混淆;结论表述不规范、缺少概率语句;混淆相关与独立
7.统计综合应用题抽样+图表+数字特征+独立性检验综合题型
能整合统计全模块知识点;能完整完成「抽样分析→图表解读→数据计算→统计推断」整套解题流程
命题趋势:期末统计核心大题,贴合实际生活场景;高频易错:审题遗漏统计条件;计算步骤跳步出错;统计结论口语化、不规范;不会结合实际分析数据
知识01 抽样方法(简单随机、系统、分层抽样)
【核心知识点】
1. 简单随机抽样:从总体中逐个不放回抽取,每个个体被抽取概率相等,适用于总体个数较少的情况。常用方法:抽签法、随机数表法。
2. 系统抽样:将总体均分若干组,按固定间隔抽取样本,适用于总体数量大、分布均匀的总体。
3. 分层抽样:将总体按差异特征分为若干层,按比例从各层抽样,适用于总体由差异明显的几部分组成的情况。
核心共性:三种抽样均为等概率抽样,每个个体被抽到概率均等。
【典型示例】
某校高一、高二、高三分别有400人、300人、300人,采用分层抽样抽取100人样本,求各年级抽取人数。
解:总人数1000人,抽样比;高一:人,高二、高三各30人。
【易错点警示】
1. 混淆三种抽样适用场景,总体分层差异明显误用系统抽样;
2. 分层抽样比例计算失误,各层抽样比例不统一;
3. 误认为系统抽样、分层抽样不是等概率抽样;
4. 系统抽样分组间隔计算错误,遗漏首尾个体。
知识02 频率分布直方图与图表分析
【核心知识点】
1. 核心公式:,所有组频率总和为1;
2. 频数、频率、样本容量关系:;
3. 图表类型:频率分布表、频率分布直方图、频率折线图,用于直观反映数据分布规律。
【典型示例】
某组数据组距为5,直方图对应纵坐标为0.04,求该组频率。
解:频率。
【易错点警示】
1. 最大误区:直接将直方图纵坐标当作频率,忽略乘组距;
2. 混淆频数与频率,计算样本容量时公式颠倒;
3. 多组数据求和时,频率总和不等于1不会自查纠错;
4. 组距不统一时,机械套用公式计算出错。
知识03 样本数字特征(平均数、中位数、众数、方差、标准差)
【核心知识点】
1. 集中趋势特征:
众数:出现次数最多的数据;直方图中为最高矩形中点横坐标;
中位数:将数据从小到大均分的数值,直方图中左右频率各占0.5;
平均数:所有数据的平均值,反映数据整体水平。
2. 离散程度特征:
方差,标准差;
方差、标准差越小,数据越稳定、波动越小。
【典型示例】
求数据1、2、3、4、5的平均数和方差。
解:平均数,方差。
【易错点警示】
1. 直方图中位数、平均数求解公式混淆,计算出错;
2. 方差、标准差公式记忆错误,混淆总体方差与样本方差;
3. 误认为方差越大,数据越稳定(反之才正确);
4. 计算后忽略标准差非负的基本性质。
知识04 数据线性变换的数字特征规律
【核心知识点】
若一组数据的平均数为,方差为,令新数据(为常数):
1. 新平均数:;
2. 新方差:;
3. 新标准差:。
核心规律:均值随线性变换同步变,平移不改变方差,伸缩平方变方差。
【典型示例】
已知数据平均数为2,方差为3,求数据的均值和方差。
解:均值,方差。
【易错点警示】
1. 数据平移(加减常数)时,错误认为方差、标准差改变;
2. 数据伸缩时,方差忘记平方系数,是高频易错点;
3. 混淆标准差与方差的变换规则。
知识05 变量的相关性与回归直线
【核心知识点】
1. 相关关系:两个变量非确定性关系,分为正相关、负相关、不相关;
2. 相关系数:,越接近1,相关性越强;越接近0,相关性越弱;
3. 回归直线方程:,必过样本中心点;
4. 正相关,负相关。
【典型示例】
已知变量x、y的样本中心点为(3,4),回归斜率,求回归方程。
解:代入得,,回归方程。
【易错点警示】
1. 遗忘回归直线必过样本中心点的核心性质,解题卡顿;
2. 混淆相关系数正负与正负相关的对应关系;
3. 盲目用回归方程做远距离外推预测,不符合实际意义;
4. 混淆函数关系(确定)与相关关系(不确定)。
知识06 独立性检验(期末解答大题重难点)
【核心知识点】
1. 适用场景:判断两个分类变量是否独立(是否有关联);
2. 核心工具:2×2列联表、卡方统计量;
3. 卡方公式:(为样本容量);
4. 判定规则:计算,与临界值对比,判断是否有把握认为变量有关。
【典型示例】
根据2×2列联表数据计算得,对比临界值,可判断有99%的把握认为两个分类变量有关联。
【易错点警示】
1. 卡方公式代入数据出错,混淆a、b、c、d对应位置;
2. 临界值判断标准记忆混乱,结论判断相反;
3. 答题结论表述不规范,缺少概率性语句(绝对化表述扣分);
4. 混淆「相关」与「独立」,误解检验结果含义。
题型一 散点图与相关性
解|题|技|巧
判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【典例1】对变量,由观测数据得散点图1:对变量,由观测数据得散点图2,由这两个散点图可以推断( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与负相关 D.与负相关,与正相关
【答案】D
【详解】观察图1,增大时,整体逐渐减小,因此与负相关;
观察图2,增大时,整体逐渐增大,因此与正相关.
【变式1】已知变量与变量正相关,样本数据中,,…,和,,…,的均值分别是,,将成对数据按照平移后绘制散点图,关于该散点图说法正确的是( )
A.大部分散点位于第一、四象限 B.大部分散点位于第二、三象限
C.大部分散点位于第一、三象限 D.大部分散点位于第二、四象限
【答案】C
【详解】因为变量与变量正相关,
所以,
设,
所以,
所以变量与变量正相关,因此大部分散点位于第一、三象限.
【变式2】观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
【答案】A
【分析】根据图象和相关系数的意义可得且,且,依次判断即可.
【详解】①分析图1的相关系数观察图1,散点图中的点大致分布在从左上到右下的带状区域内;
随着的增大,总体呈减小趋势,根据相关系数的定义,
两个变量呈负相关,故;
②分析图2的相关系数观察图2,散点图中的点大致分布在从左下到右上的带状区域内;
随着的增大,总体呈增大趋势;
根据相关系数的定义,两个变量呈正相关,故;
此外,观察图2中点的分布比图1更紧密地围绕在一条直线附近,
说明图2的线性相关性更强,即
选项,已知且,且,故 成立;
选项,因为且,所以,故选项B错误;
选项,因为且,则,选项C错误;
选项,因为且,则,显然不可能大于1,故选项D错误.
题型二 求回归直线方程
答|题|技|巧
求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).(2)作出散点图,确定x,y具有线性相关关系.(3)把数据制成表格xi,yi,x,xiyi.(4)计算,,x,xiyi.
(5)代入公式计算,,公式为(6)写出线性回归方程=x+.
【典例1】(多选)某智能机器人公司从2019年起连续7年的利润情况如表所示,若关于的经验回归方程为,则( )
第年
1
2
3
4
5
6
7
利润亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.变量与负相关 B.
C.当时,残差为 D.预测当时,利润约为亿元
【答案】BC
【分析】根据数据即可判断选项A;根据数据求出,的值,从而得到线性回归方程,进而分析选项B,C,D即可.
【详解】对于A,由数据知,随的增大而增大,所以变量与正相关,故A错误;
对于B,,,
由经验回归直线过样本中心点,得,解得,故B正确;
对于C,结合B得,当时,,则残差为,故C正确;
对于D,结合B得,当时,,故D错误.
【变式1】(多选)下列说法正确的是( )
A.回归直线恒过点,且至少过一个样本点;
B.一个样本(数据不全为3)的平均数为3,若添加一个新数据3组成一个新样本,则新样本的平均数不变,方差变小;
C.两个随机变量的线性相关性越强,相关系数越接近于1;
D.从装有3个红球,4个白球的袋中任意摸出3个球,事件“恰好摸出1个红球”,事件“恰好摸出2个红球”,则事件与事件是互斥事件
【答案】BD
【分析】结合回归直线、平均数方差、相关系数、互斥事件的相关概念与性质,逐一判断每个选项.
【详解】对于A:回归直线恒过样本中心点,但不一定过任何样本点,A错误;
对于B:设原样本共个数,原总和为,添加数据后,新平均数为 ,
平均数不变;原方差(因数据不全为3),新方差为,B正确;
对于C:线性相关性越强,是相关系数的绝对值越接近于1,负相关时接近于,C错误;
对于D:事件(恰好1个红球)和事件(恰好2个红球)不可能同时发生,符合互斥事件的定义,D正确.
【变式2】某地区随机抽取5家超市,得到其某1年的广告支出与销售额数据如下表:
超市
1
2
3
4
5
广告支出万元
3
5
4
6
2
销售额万元
22
27
24
28
19
(1)若该地区的超市在同一年的广告支出4.5万元,试根据表中的数据,推断超市该年的销售额约为多少?
(2)若从统计表中的5家超市中随机抽取2家,记销售额不低于24万元的超市家数为,求的分布列、数学期望与方差.
参考公式与数据:,,,.
【答案】(1)25.15万元;
(2)的分布列为:
0
1
2
,
【分析】(1)先计算样本均值,通过最小二乘法求解线性回归方程,代入广告支出数值预测销售额;
(2)确定服从超几何分布,计算各取值对应的概率得到分布列,再求解期望与方差.
【详解】(1)计算样本均值: , ,
由最小二乘法公式计算回归系数: ,
,
因此线性回归方程为 ,
将代入方程得: ,
即A超市该年销售额约为 万元;
(2)由题意得,5家超市中销售额不低于24万元的共3家,低于24万元的共2家,
的所有可能取值为0,1,2,服从参数 的超几何分布,
则 ,
则X的分布列是:
0
1
2
数学期望: ;
方差: .
题型三 线性回归分析
答|题|技|巧
(1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.②残差平方和法:残差平方和 (yi-i)2越小,模型的拟合效果越好.③决定系数法:R2=1-越接近1,表明回归的效果越好.
【典例1】(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
【答案】BCD
【分析】A选项,相关系数的正负决定正负相关,可根据线性回归方程的正负进行判断;
B选项,根据数据点与预测值的差判断残差;
C选项,可利用计算,代入线性回归方程计算平均建筑面积;
D选项,决定系数越接近1,拟合效果越好,比较两个决定系数大小判断拟合效果即可.
【详解】A选项,因为,故房屋的建筑面积和销售价格y呈正相关,相关系数为,A错误;
B选项,代入,可得的预测值:,残差为:,故B正确;
C选项,,因为线性回归方程恒过点,故,
解得:,C正确;
D选项,决定系数越接近1,拟合效果越好,因为,故甲机构选取的模型拟合效果更好,D正确.
【变式1】某电器公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如表所示:
年份
2025年
2026年
月份
9月
10月
11月
12月
1月
2月
月份代码
1
2
3
4
5
6
市场占有率y(%).
11
13
16
15
20
21
(1)求关于的线性回归方程,并预测何时该种产品的市场占有率超过30%?
(2)根据市场供需情况统计,得到该公司产品2025年的月产量(单位:万件)的分布列为
1
1.2
0.6
0.4
2026年的该公司产品的市场价格(单位:万元/件)对应的概率分布为.假设每月固定成本为200万元,求该产品平均每月利润的分布列和数学期望.
参考数据:,,.
参考公式:回归直线方程为,其中:,.
【答案】(1),2026年7月.
(2)分布列见解析,3148万元.
【分析】(1)应用最小二乘法求回归直线,进而估计对应时间.
(2)确定随机变量的可能值并求出对应概率,写出分布列,进而求期望.
【详解】(1)(1)因,
,
由题意得,
而,
于是得,
所以关于的线性回归方程为,
令,即,解得,
又,所以,
故从2026年7月开始,该种产品的市场占有率超过;
(2)(2)设该产品平均每月利润为万元,且,则,,,,
所以Z的可能取值为2800,3300,3400,4000,
故,
,
,
,
所以的分布列为:
2800
3300
3400
4000
0.48
0.12
0.32
0.08
故万元.
【变式2】已知变量,具有线性相关关系,由样本数据(,2,3,4,5)得到关于的经验回归方程为,若,,则当时,的预测值为( )
A. B. C. D.
【答案】A
【详解】由,,得,,
点在回归直线上,故,解得,
,
故当时,.
题型四 残差分析与相关指数的应用
答|题|技|巧
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差1,2,…,n来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
【典例1】已知变量、满足线性相关关系,经验回归方程为且,.现有一对观测数据为,若该数据的残差为0.6,则__________.
【答案】11.6
【详解】由题意,经验回归方程经过点,
则得,解得,所以.
当时,,
则.
【变式1】(多选)变量与变量有较强的线性相关性,由下列表格得到经验回归方程是,则( )
1
2
3
4
5
2
4
5
6
8
A. B.变量与变量负相关
C.当时,预测值 D.当时,样本点对应的残差是
【答案】ACD
【分析】本题考查线性回归方程的性质、相关关系判断、残差计算,核心利用回归直线必过样本中心点求解回归系数,再逐一验证选项即可.
【详解】先计算样本中心点:,.
经验回归直线过样本中心点,代入得,解得.
选项A:由上述计算得,A正确;
选项B:,说明变量与正相关,B错误;
选项C:当时,代入回归方程得,即预测值为11,C正确;
选项D:残差定义为实际值减预测值,当时,,对应实际,
故残差,D正确.
【变式2】某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
【答案】(1)平均电池容量,平均续航里程.
(2)0.995
(3)
【详解】(1)平均电池容量,
平均续航里程.
(2)
(3)由样本数据,可知续航里程与电池容量的比值约为,
故新款车型续航里程的估计值为.
题型五 非线性回归分析
答|题|技|巧
求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
【典例1】现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程.
附:回归方程系数:,.
参考数据:设,,,,,,.
【答案】(1)分布列见解析,;
(2).
【分析】(1)先求出每一轮成功和失败的概率,再由条件概率公式求解即可;
(2)设,则回归方程为,根据所给数据和公式,求出的值,再代回,即可得答案.
【详解】(1)由题意可知:
第1轮:盒子中共有3个小球(2白1黑),
所以成功的概率为,所以失败的概率为;
第2轮:盒子中共有4个小球(3白1黑),
所以成功的概率为,所以失败的概率为;
第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮;
所以,,,
所以的分布列如下:
所以
(2)设,则回归方程为,
因为,,,,,
且,
所以,
所以.
所以回归方程为,
又因为,
所以回归方程为.
【变式1】规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽球试验的轮次数,y表示对应的人数,部分统计数据如下:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,
参考数据:(其中).
【答案】(1)分布列见解析,
(2),
(3)证明见解析
【分析】(1)结合相互独立、独立重复试验的概率计算公式,计算出分布列并求得数学期望;
(2)利用换元法,结合回归直线方程的计算公式,计算出回归方程,并根据方程求得预测值;
(3)通过求“在前轮没有成功的概率”大于来求得“在前轮就成功的概率”小于,从而证得不等式成立.
【详解】(1)由题意可知,X的取值可能为1,2,3,
所以;
;
,
所以X的分布列为
数学期望为.
(2)令,则,由题目可知,,
所以,
,
因此,即关于的回归方程为,
所以,估计时,;估计时,;估计时,;
因此预测成功的总人数为.
(3)由题目可知,在前轮就成功的概率为,
在前轮没有成功的概率为
,
因此.
【变式2】电动自行车作为一种绿色、节能的交通工具,受到广大市民的青睐,但随之而来的电动自行车违规停放和充电的问题,已成为城市管理的一大难题.某市为切实消除电动自行车消防安全隐患,决定在各小区建设智能充电桩,并统计了第1个月到6个月的充电桩的建成数量(单位:千个)如下表所示:
第个月
1
2
3
4
5
6
充电桩建成数量(千个)
0.9
1.7
3.2
5
5.3
5.5
根据表中数据,拟使用模型和模型对两个变量,进行拟合.
(1)请从相关系数的角度,分析哪一个模型的拟合程度更好;
(2)根据(1)的分析,选取拟合程度更好的模型,求出关于的经验回归方程,并预测到第8个月时,全市的充电桩建成数量.
参考公式:对于一组数据,其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,,令,,,;令,,,.
【答案】(1)的拟合程度更好.
(2)经验回归方程为,预测到第8个月时,全市的充电桩建成数量为6400个.
【分析】(1)分别计算两个模型的相关系数,再进行比较即可.
(2)首先计算均值,求出经验回归方程,再代入计算即可.
【详解】(1)对于模型,令,代入公式得.
对于模型,令,代入公式得.
因为,所以的拟合程度更好.
(2),.
根据最小二乘估计,.
因此关于的经验回归方程为.
当时,代入得.
因此预测到第8个月时,全市充电桩建成数量为千个.
题型六 有关“相关的检验”
答|题|技|巧
独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值xα.
②利用公式χ2=计算χ2.
③如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
【典例1】某研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计,根据统计数据制作列联表,提出原假设:“经常用流行用语”与“年轻人”没有关系,计算得,由此可知( ).(显著性水平取0.05,)
A.接受原假设,没有的把握认为“经常用流行用语”与“年轻人”有关系
B.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
C.接受原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
D.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”没有关系
【答案】B
【详解】由于且,故拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系.
【变式1】(多选)下列关于统计与概率的结论中,正确的有( )
A.对于一组数据,改变其中一个数据,平均数一定改变,中位数不一定改变
B.线性回归直线一定经过样本中心点
C.若随机变量,则
D.独立性检验中,的值越小,越有把握认为两个分类变量有关联
【答案】ABC
【分析】应用平均数及中位数定义判断A,应用回归直线性质判断B,应用二项分布的方差判断C,应用独立性检验性质判断D.
【详解】对于一组数据,改变其中一个数据,平均数一定改变,中位数不一定改变,A选项正确;
线性回归直线一定经过样本中心点,B选项正确;
若随机变量,则,C选项正确;
独立性检验中,的值越小,越没有把握认为两个分类变量有关联,D选项错误;
【变式2】某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)观众性别与喜欢的电影类型无关
(2)
【分析】(1)计算卡方值并与临界值比较,即可得出结论;
(2)根据条件概率的公式计算得解.
【详解】(1)零假设:观众性别与喜欢的电影类型无关.
因为.
因此依据的独立性检验,没有充分证据说明不成立,即两者无关.
(2)设事件"选出的2人中至少1名女性",事件"选出的2人都喜欢生活片",
由列联表知,;
,因此.
期末基础通关练(测试时间:10分钟)
1.(24-25高二下·江苏南京·期末)(多选)下列命题中,真命题有( )
A.数据6,2,3,4,5,7,8,9,1,10的70%分位数是8.5
B.若随机变量,则
C.已知两个变量具有线性相关关系,其回归直线方程为;若,则;
D.若,则
【答案】BC
【分析】对于A利用百分位数的定义即可判断,对于B利用二项分布即可求方差,进而判断,对于C利用回归方程必过样本中心点即可判断,对于D利用条件概率公式即可判断.
【详解】对于A:由,所以70%分位数是,故A错误;
对于B:由,所以,故B正确;
对于C:由,所以,故C正确;
对于D:,,所以,故D错误.
故选:BC.
2.(24-25高二下·江苏南通·期末)为了解高中生的体育成绩(优秀与非优秀)和性别是否有关,对某高中在校学生进行了抽样调查,调查结果如下表所示:
优秀
非优秀
合计
男
s
30
50
女
5
t
50
合计
25
75
100
(1)求的值;
(2)依据小概率值的独立性检验,能否认为体育成绩与性别有关?
附:,其中.
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)
(2)成绩与性别有关
【分析】(1)根据表格数据分别求出,即可得解;
(2)利用表格数据求出,与临界值比较即可判断结论.
【详解】(1)由表格数据可知,,
所以.
(2)提出零假设:成绩与性别无关.
根据列联表中的数据可以求得
.
根据小概率值的独立性检验,我们推断不成立,即认为成绩与性别有关.
3.(24-25高二下·江苏南通·期末)下表提供了某厂进行技术改造后生产产品过程中记录的产量x(单位:t)与相应的生产能耗y(单位:t标准煤)的几组数据:
3
4
5
6
标准煤
2.5
3
m
4.5
根据散点图分析知x与y线性相关,且求得经验回归方程为,则( )
A.x与y负相关 B.
C.回归直线过点 D.时的残差为0.05
【答案】C
【分析】由经验回归方程系数为可对A判断求解;分别求出,然后求出,从而可对B、C判断求解;利用残差知识可对D求解判断.
【详解】A:由经验回归方程为,线性系数为,则与正相关,故A错误;
B、C:由,所以,所以回归直线过点,故C正确;
又,解得,故B错误;
D:时,,则残差为:,故D错误.
故选:C.
4.(24-25高二下·江苏淮安·期末)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了50人,得到如下列联表:
正常
不正常
合计
患该疾病
7
18
25
未患该疾病
19
6
25
合计
26
24
50
(1)记超声波检查结果不正常者患该疾病的概率为,求的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:.
【答案】(1)
(2)认为主场作战与比赛胜负与主场有关联
【分析】(1)根据古典概型计算求解;
(2)计算卡方,与临界值比较即可判断.
【详解】(1).
(2):假设超声波检查结果与患该疾病有关没有关联.
根据小概率值的独立性检验,认为超声波检查结果与患该疾病有关联.
5.(24-25高二下·江苏淮安·期末)(多选)为了探讨学生的物理成绩与数学成绩之间的关系,从某批学生中随机抽取10名学生的成绩,并计算出,物理成绩关于数学成绩的线性回归方程为,则下列说法正确的是( )
A.
B.当某学生数学成绩为100时,物理成绩一定为92.5
C.相关系数
D.现发现10位同学中有两位同学数据(70,65)和(90,100)误差较大,剔除这两对数据后,得到的线性回归方程为,则实数的值为
【答案】ACD
【分析】对于AD:根据线性回归方程必过样本中心点运算求解;对于B:代入,结合回归方程的意义分析判断;对于C:根据正相关的定义分析判断.
【详解】对于选项A:因为线性回归方程必过样本中心点,
由题意可得:,故A正确;
对于选项B:令,可得,
但回归方程只能用于预测结果,并不一定与实际结果完全相等,
所以预测物理成绩为92.5,故B错误;
对于选项C:因为,即线性回归方程为的图象是上升的,
可知与满足正相关,所以相关系数,故C正确;
剔除这两对数据后,,
,
因为线性回归方程必过样本中心点,
所以,则,D正确.
故选:ACD
期末重难突破练(测试时间:10分钟)
1.(24-25高二下·江苏徐州·期末)为了解学生对某项运动的喜欢情况,学校进行了一次抽样调查,得到如下数据:
男生
女生
合计
喜欢
65
35
100
不喜欢
50
50
100
合计
115
85
200
(1)能否有99%的把握认为是否喜欢该项运动与性别有关?
(2)若学校有甲,乙两队进行此项运动比赛,每场比赛采用“5局3胜制”(有一队先胜3局即获胜,比赛结束),甲队每局获胜的概率为().
①若比赛打满5局的概率为,求的最大值;
②若,在甲队赢得该场比赛的条件下,求比赛的局数的概率分布及数学期望.
附:,其中.
0.10
0.010
0.001
2.706
6.635
10.828
【答案】(1)没有99%的把握认为是否喜欢该项运动与性别有关
(2)①;②分布列见解析,
【分析】(1)计算卡方,进行独立性检验即可;
(2)①求得,结合基本不等式即可得解;②,计算出对应的概率可得分布列,进一步根据期望公式计算期望即可.
【详解】(1)提出假设:学生对该项运动的喜欢情况与性别无关,
根据列联表中的数据,得,
所以没有99%的把握认为是否喜欢该项运动与性别有关.
(2)①比赛打满5局的概率.
因为,
当且仅当,即时,取得最大值.
②设甲队赢得该场比赛为事件,该场比赛结束时,进行了局为事件(),
且,,
,
则.
在甲队赢得该场比赛的条件下,比赛的局数为(),
则,
,
所以的分布列为
3
4
5
.
2.(24-25高二下·江苏徐州·期末)某研究机构测试了5款新能源汽车,电池容量与实际续航里程之间对应数据如下:
电池容量
40
50
60
70
80
实际续航里程
260
310
380
420
480
已知电池容量与实际续航里程之间具有很强的线性相关关系,求关于的经验回归方程,并估计当时对应的值.
附:经验回归方程中,,.
【答案】,
【分析】求出后根据公式可求回归方程,从而可得预测值.
【详解】,.
,,
所以.
又,,所以,
所以关于的经验回归方程为.
当时,.
3.(24-25高二下·江苏扬州·期末)为了解某小区居民的周末休闲方式是否与性别有关,随机抽取了该小区居民100 人进行了调查,其中女性60人,男性40人,女性中有40人休闲方式是看电视,另外20人休闲方式是运动;男性中有10人休闲方式是看电视,另外30人休闲方式是运动.
(1)根据以上数据将如下2×2列联表补充完整;
合计
40
合计
(2)请根据小概率值的独立性检验,判断休闲方式与性别是否有关.
附:,
【答案】(1)列联表见解析
(2)答案见解析
【分析】(1)根据题意,完善列联表;
(2)计算卡方值并与犯错概率0.001对应的临界值比较,即可得出结论.
【详解】(1)
看电视
运动
合计
男性
10
30
40
女性
40
20
60
合计
50
50
100
(2)提出零假设:该小区居民的周末休闲方式和性别无关,
根据列联表中的数据,可得:
,
根据小概率值的独立性检验,我们推断不成立,
即认为该小区居民的周末休闲方式和性别有关,此推断犯错误的概率不大于.
4.(24-25高二下·江苏扬州·期末)已知变量x,y线性相关,其一组样本数据(,2,3,4,5),满足,用最小二乘法得到的线性回归方程是.现增加一个数据,重新计算得到的回归直线斜率是,时,y的估计值是( )
A.3 B. C. D.
【答案】B
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线方程,估计的对应值,
【详解】由题设,则,
增加数据后,,且回归直线为,
所以,得,则,
所以时,有
故选:B.
5.(24-25高二下·江苏镇江·期末)某校高二年级为研究学生数学成绩与语文成绩的关系,采取有放回的简单随机抽样,从高二学生中抽取样本容量为200的样本,将所得数学成绩与语文成绩的样本观测数据整理如下:
语文成绩
合计
优秀
不优秀
数学成绩
优秀
50
30
80
不优秀
40
80
120
合计
90
110
200
(1)根据的独立性检验,能否认为数学成绩与语文成绩有关联?
(2)现从该校学生中任选一人,A表示“选到的学生语文成绩不优秀”,B表示“选到的学生数学成绩不优秀”.请利用样本数据,估计的值.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)认为数学成绩与语文成绩有关(2).
【分析】(1)计算出,与的临界值比较,得出结论;
(2)根据条件概率的计算公式,利用样本数据,估计的值.
【详解】(1)零假设为:数学成绩与语文成绩无关,据表中数据计算得
根据的独立性检验,我们推断不成立,认为数学成绩与语文成绩有关.
(2)A表示“选到的学生语文成绩不优秀”,
B表示“选到的学生数学成绩不优秀”,
利用样本数据,则有,,
所以,
故估计的成为是.
期末综合拓展练(测试时间:15分钟)
1.(24-25高二下·江苏南京·期末)“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
【答案】(1),186
(2)分布列见解析,600
【分析】(1)求出、,从而求出回归方程,将代入求出即可;
(2)计算对应的概率的值,求出其分布列和期望值即可.
【详解】(1),
,
,
当时,(元),
即某天售出8箱水的预计收益是186元.
(2)X的取值可能为0,300,500,600,800,1000,
,,
,,
,,
即X的分布列为
X
0
300
500
600
800
1000
P
X的数学期望
(元).
2.(24-25高二下·江苏镇江·期末)某小吃店的日盈利(单位:百元)与当天平均气温(单位:)之间有如下数据:由表中数据可得回归方程中.试预测当天平均气温为时,小吃店的日盈利约为__________百元.
0
1
2
百元
5
4
2
2
1
【答案】6
【分析】根据已知数据求出样本中心点,代入得到值,再令即可得解.
【详解】由已知数据可知变量的平均值,
变量的平均值,
所以样本数据的中心点为,
因为,所以,代入,得,
所以,
令,得.
故答案为:6.
3.(24-25高二下·江苏镇江·期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展.下表是近几年某地区新能源乘用车的年销售量与年份的统计表:
年份x
2020
2021
2022
2023
2024
销量y(万台)
1.00
1.40
1.70
1.90
2.00
某机构调查了该地区60位购车车主的性别与购车种类情况,得到的部分数据如下表所示:
购置传统燃油车
购置新能源车
总计
男性车主
10
48
女性车主
2
总计
60
(1)求新能源乘用车的销量y关于x年份的线性相关系数r,并判断y与x是否线性相关;
(2)请将上述列联表补充完整,并判断是否有的把握认为购车车主是否购置新能源乘用车与性别有关.
参考公式:
相关系数;,其中.
参考数据:.
备注:若,则可判断y与x线性相关.
临界值表:
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1),y与x线性相关
(2)列联表见解析,有的把握认为购车车主是否购置新能源乘用车与性别有关
【分析】(1)由题目中的数据,利用相关系数的计算公式,可得答案;
(2)根据独立性检验的解题方法,可得答案.
【详解】(1)由表格知:,,
,
有,
则y与x线性相关
(2)依题意,完善表格如下:
购置传统燃油车
购置新能源车
总计
男性车主
38
10
48
女性车主
2
10
12
总计
40
20
60
提出假设:购车车主是否购置新能源乘用车与性别无关由列联表数据得:
,因为,
故有的把握认为购车车主是否购置新能源乘用车与性别有关.
4.(24-25高二下·江苏·期末)某旅游景点统计今年五一期间进入景区的游客人数(单位:千人)如下:
日期
5月1日
5月2日
5月3日
5月4日
5月5日
第天
1
2
3
4
5
参观人数
2.2
2.6
3.1
5.2
6.9
(1)根据上表数据,判断成对样本数据的线性相关程度,请用样本相关系数加以说明;(若,则认为与的线性相关性很强),如果与的线性相关性很强,那么求出关于的经验回归方程;
(2)五一期间景区开放南门、东门和北门供游客出入,游客从南门、东门和北门进入景区的概率分别为,且出景区与入景区选择相同门的概率为,选择与入景区不同两门的概率各为.假设游客从南门、东门、北门出入景点互不影响,现有甲、乙、丙、丁4名游客于5月1日游玩景点,设为4人中从东门出景区的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:经验回归方程,其中,.
样本相关系数.
【答案】(1),与线性相关性很强;.
(2)分布列见解析,数学期望为1,方差为.
【分析】(1)由题意求出相关系数并求出回归方程即可;
(2)由全概率公式计算,利用二项分布计算概率,列出分布式,由公式计算期望和方差可得.
【详解】(1)依题意,,而,,,
.
因为时线性相关程度高,所以与线性相关性很强,可以用线性回归模型拟合.
,
因此,回归方程为.
(2)“甲从东门出学校”为事件,“甲从南门进学校”为事件,“甲从东门进学校”为事件,“甲从北门进学校”为事件,
由题意可得,,,,,
由全概率公式得:
同理乙、丙、丁从东门出景区的概率也为,
为4人中从东门出景区的人数,则,
,,,,,
故的分布列为:
0
1
2
3
4
,.
5.(24-25高二下·江苏·期末)为调查学生喜欢在食堂就餐是否和性别有关,学校随机调研了男女生各100人,经统计得到如下列联表:
男
女
喜欢
80
40
不喜欢
20
60
(1)依据的独立性检验,判断学生喜欢在食堂就餐是否与性别有关?
(2)为听取学生对食堂的建议,从学生中抽取9人召开座谈会,并给其中3名同学赠送礼品,每人1份(其余人员仅赠送餐券).已知参加座谈会的学生中有且只有4名学生来自高一,求高一这4名学生中得到礼品的人数的分布列和数学期望.
0.010
0.005
0.001
6.635
7.879
10.828
附:,其中
【答案】(1)有的把握认为喜欢食堂就餐与性别有关.
(2)分布列见解析,数学期望为.
【分析】(1)由卡方的计算可判断;
(2)列出的可能取值,由古典概型和组合数计算相应的概率,列出分布列,计算期望可得.
【详解】(1)提出假设:喜欢食堂就餐与性别无关.
,
所以有的把握认为喜欢食堂就餐与性别有关.
(2)高一4名学生中得到礼品的人数的可能取值为,,,,
,,,,
所以的分布列为:
0
1
2
3
所以.
1 / 4
学科网(北京)股份有限公司
$
专题04 统计(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 散点图与相关性 题型02 求回归直线方程
题型03 线性回归分析 题型04 残差分析与相关指数的应用
题型05 非线性回归分析 题型06 有关“相关的检验”
过·分层验收 阶梯实战演练,验收复习成效
核心考点(期末常考)
复习目标
考情总结(命题趋势+高频易错)
1.三种抽样方法简单随机抽样、系统抽样、分层抽样的定义、特点、适用场景及抽样计算
辨析三种抽样方法的核心特征;掌握各类抽样的操作步骤;能精准完成抽样比例、样本数量相关计算
命题趋势:选择填空基础必考,侧重场景辨析;高频易错:混淆分层抽样与系统抽样适用条件;分层抽样比例计算出错;误判抽样的公平性
2.频率分布图表频率分布直方图、频率分布表、折线图的解读与计算
掌握频率分布直方图核心公式;能读取图表数据、计算频率、组距、样本容量;能绘制简单频率分布图表
命题趋势:期末高频基础题型,常结合样本特征综合考查;高频易错:忘记直方图「频率=组距×纵坐标」;混淆频数与频率;所有组频率和不为1不会纠错
3.样本数字特征平均数、中位数、众数、方差、标准差的计算与意义
熟记各类数字特征计算公式;能根据数据、直方图求解特征值;能结合实际场景分析数据集中与离散程度
命题趋势:必考计算考点,解答题高频小问;高频易错:直方图中位数求解错误;方差公式记忆混淆;忽略标准差为非负数;无法区分均值、方差的实际意义
4.数字特征线性变换性质数据平移、伸缩后均值、方差、标准差的变化规律
熟记数据线性变换的特征值变化规律;能快速计算变换后的均值与方差;规避常规计算误区
命题趋势:选择填空拔高题型,区分基础层次;高频易错:数据伸缩时,方差忘记平方缩放;平移操作误改方差大小;混淆均值、方差变换规则
5.相关性与回归直线相关关系判定、相关系数、回归直线方程求解与应用
区分函数关系与相关关系;掌握回归直线方程求解步骤;能利用回归方程进行预测,理解回归直线核心性质
命题趋势:期末重点解答题型,固定套路考查;高频易错:回归直线必过样本中心点记忆遗忘;相关系数正负与相关性强弱混淆;用回归方程盲目外推预测
6.独立性检验(重难点)2×2列联表、卡方计算、独立性判断、结论表述
熟记卡方统计量计算公式;能规范整理列联表数据;能依据临界值精准判断变量是否独立,规范书写结论
命题趋势:期末压轴高频考点,必考统计大题;高频易错:卡方公式代入数据出错;临界值判断标准混淆;结论表述不规范、缺少概率语句;混淆相关与独立
7.统计综合应用题抽样+图表+数字特征+独立性检验综合题型
能整合统计全模块知识点;能完整完成「抽样分析→图表解读→数据计算→统计推断」整套解题流程
命题趋势:期末统计核心大题,贴合实际生活场景;高频易错:审题遗漏统计条件;计算步骤跳步出错;统计结论口语化、不规范;不会结合实际分析数据
知识01 抽样方法(简单随机、系统、分层抽样)
【核心知识点】
1. 简单随机抽样:从总体中逐个不放回抽取,每个个体被抽取概率相等,适用于总体个数较少的情况。常用方法:抽签法、随机数表法。
2. 系统抽样:将总体均分若干组,按固定间隔抽取样本,适用于总体数量大、分布均匀的总体。
3. 分层抽样:将总体按差异特征分为若干层,按比例从各层抽样,适用于总体由差异明显的几部分组成的情况。
核心共性:三种抽样均为等概率抽样,每个个体被抽到概率均等。
【典型示例】
某校高一、高二、高三分别有400人、300人、300人,采用分层抽样抽取100人样本,求各年级抽取人数。
解:总人数1000人,抽样比;高一:人,高二、高三各30人。
【易错点警示】
1. 混淆三种抽样适用场景,总体分层差异明显误用系统抽样;
2. 分层抽样比例计算失误,各层抽样比例不统一;
3. 误认为系统抽样、分层抽样不是等概率抽样;
4. 系统抽样分组间隔计算错误,遗漏首尾个体。
知识02 频率分布直方图与图表分析
【核心知识点】
1. 核心公式:,所有组频率总和为1;
2. 频数、频率、样本容量关系:;
3. 图表类型:频率分布表、频率分布直方图、频率折线图,用于直观反映数据分布规律。
【典型示例】
某组数据组距为5,直方图对应纵坐标为0.04,求该组频率。
解:频率。
【易错点警示】
1. 最大误区:直接将直方图纵坐标当作频率,忽略乘组距;
2. 混淆频数与频率,计算样本容量时公式颠倒;
3. 多组数据求和时,频率总和不等于1不会自查纠错;
4. 组距不统一时,机械套用公式计算出错。
知识03 样本数字特征(平均数、中位数、众数、方差、标准差)
【核心知识点】
1. 集中趋势特征:
众数:出现次数最多的数据;直方图中为最高矩形中点横坐标;
中位数:将数据从小到大均分的数值,直方图中左右频率各占0.5;
平均数:所有数据的平均值,反映数据整体水平。
2. 离散程度特征:
方差,标准差;
方差、标准差越小,数据越稳定、波动越小。
【典型示例】
求数据1、2、3、4、5的平均数和方差。
解:平均数,方差。
【易错点警示】
1. 直方图中位数、平均数求解公式混淆,计算出错;
2. 方差、标准差公式记忆错误,混淆总体方差与样本方差;
3. 误认为方差越大,数据越稳定(反之才正确);
4. 计算后忽略标准差非负的基本性质。
知识04 数据线性变换的数字特征规律
【核心知识点】
若一组数据的平均数为,方差为,令新数据(为常数):
1. 新平均数:;
2. 新方差:;
3. 新标准差:。
核心规律:均值随线性变换同步变,平移不改变方差,伸缩平方变方差。
【典型示例】
已知数据平均数为2,方差为3,求数据的均值和方差。
解:均值,方差。
【易错点警示】
1. 数据平移(加减常数)时,错误认为方差、标准差改变;
2. 数据伸缩时,方差忘记平方系数,是高频易错点;
3. 混淆标准差与方差的变换规则。
知识05 变量的相关性与回归直线
【核心知识点】
1. 相关关系:两个变量非确定性关系,分为正相关、负相关、不相关;
2. 相关系数:,越接近1,相关性越强;越接近0,相关性越弱;
3. 回归直线方程:,必过样本中心点;
4. 正相关,负相关。
【典型示例】
已知变量x、y的样本中心点为(3,4),回归斜率,求回归方程。
解:代入得,,回归方程。
【易错点警示】
1. 遗忘回归直线必过样本中心点的核心性质,解题卡顿;
2. 混淆相关系数正负与正负相关的对应关系;
3. 盲目用回归方程做远距离外推预测,不符合实际意义;
4. 混淆函数关系(确定)与相关关系(不确定)。
知识06 独立性检验(期末解答大题重难点)
【核心知识点】
1. 适用场景:判断两个分类变量是否独立(是否有关联);
2. 核心工具:2×2列联表、卡方统计量;
3. 卡方公式:(为样本容量);
4. 判定规则:计算,与临界值对比,判断是否有把握认为变量有关。
【典型示例】
根据2×2列联表数据计算得,对比临界值,可判断有99%的把握认为两个分类变量有关联。
【易错点警示】
1. 卡方公式代入数据出错,混淆a、b、c、d对应位置;
2. 临界值判断标准记忆混乱,结论判断相反;
3. 答题结论表述不规范,缺少概率性语句(绝对化表述扣分);
4. 混淆「相关」与「独立」,误解检验结果含义。
题型一 散点图与相关性
解|题|技|巧
判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【典例1】对变量,由观测数据得散点图1:对变量,由观测数据得散点图2,由这两个散点图可以推断( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与负相关 D.与负相关,与正相关
【变式1】已知变量与变量正相关,样本数据中,,…,和,,…,的均值分别是,,将成对数据按照平移后绘制散点图,关于该散点图说法正确的是( )
A.大部分散点位于第一、四象限 B.大部分散点位于第二、三象限
C.大部分散点位于第一、三象限 D.大部分散点位于第二、四象限
【变式2】观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
题型二 求回归直线方程
答|题|技|巧
求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).(2)作出散点图,确定x,y具有线性相关关系.(3)把数据制成表格xi,yi,x,xiyi.(4)计算,,x,xiyi.
(5)代入公式计算,,公式为(6)写出线性回归方程=x+.
【典例1】(多选)某智能机器人公司从2019年起连续7年的利润情况如表所示,若关于的经验回归方程为,则( )
第年
1
2
3
4
5
6
7
利润亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.变量与负相关 B.
C.当时,残差为 D.预测当时,利润约为亿元
【变式1】(多选)下列说法正确的是( )
A.回归直线恒过点,且至少过一个样本点;
B.一个样本(数据不全为3)的平均数为3,若添加一个新数据3组成一个新样本,则新样本的平均数不变,方差变小;
C.两个随机变量的线性相关性越强,相关系数越接近于1;
D.从装有3个红球,4个白球的袋中任意摸出3个球,事件“恰好摸出1个红球”,事件“恰好摸出2个红球”,则事件与事件是互斥事件
【变式2】某地区随机抽取5家超市,得到其某1年的广告支出与销售额数据如下表:
超市
1
2
3
4
5
广告支出万元
3
5
4
6
2
销售额万元
22
27
24
28
19
(1)若该地区的超市在同一年的广告支出4.5万元,试根据表中的数据,推断超市该年的销售额约为多少?
(2)若从统计表中的5家超市中随机抽取2家,记销售额不低于24万元的超市家数为,求的分布列、数学期望与方差.
参考公式与数据:,,,.
题型三 线性回归分析
答|题|技|巧
(1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.②残差平方和法:残差平方和 (yi-i)2越小,模型的拟合效果越好.③决定系数法:R2=1-越接近1,表明回归的效果越好.
【典例1】(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
【变式1】某电器公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如表所示:
年份
2025年
2026年
月份
9月
10月
11月
12月
1月
2月
月份代码
1
2
3
4
5
6
市场占有率y(%).
11
13
16
15
20
21
(1)求关于的线性回归方程,并预测何时该种产品的市场占有率超过30%?
(2)根据市场供需情况统计,得到该公司产品2025年的月产量(单位:万件)的分布列为
1
1.2
0.6
0.4
2026年的该公司产品的市场价格(单位:万元/件)对应的概率分布为.假设每月固定成本为200万元,求该产品平均每月利润的分布列和数学期望.
参考数据:,,.
参考公式:回归直线方程为,其中:,.
【变式2】已知变量,具有线性相关关系,由样本数据(,2,3,4,5)得到关于的经验回归方程为,若,,则当时,的预测值为( )
A. B. C. D.
题型四 残差分析与相关指数的应用
答|题|技|巧
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差1,2,…,n来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
【典例1】已知变量、满足线性相关关系,经验回归方程为且,.现有一对观测数据为,若该数据的残差为0.6,则__________.
【变式1】(多选)变量与变量有较强的线性相关性,由下列表格得到经验回归方程是,则( )
1
2
3
4
5
2
4
5
6
8
A. B.变量与变量负相关
C.当时,预测值 D.当时,样本点对应的残差是
【变式2】某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
题型五 非线性回归分析
答|题|技|巧
求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
【典例1】现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程.
附:回归方程系数:,.
参考数据:设,,,,,,.
【变式1】规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽球试验的轮次数,y表示对应的人数,部分统计数据如下:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,
参考数据:(其中).
【变式2】电动自行车作为一种绿色、节能的交通工具,受到广大市民的青睐,但随之而来的电动自行车违规停放和充电的问题,已成为城市管理的一大难题.某市为切实消除电动自行车消防安全隐患,决定在各小区建设智能充电桩,并统计了第1个月到6个月的充电桩的建成数量(单位:千个)如下表所示:
第个月
1
2
3
4
5
6
充电桩建成数量(千个)
0.9
1.7
3.2
5
5.3
5.5
根据表中数据,拟使用模型和模型对两个变量,进行拟合.
(1)请从相关系数的角度,分析哪一个模型的拟合程度更好;
(2)根据(1)的分析,选取拟合程度更好的模型,求出关于的经验回归方程,并预测到第8个月时,全市的充电桩建成数量.
参考公式:对于一组数据,其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,,令,,,;令,,,.
题型六 有关“相关的检验”
答|题|技|巧
独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值xα.
②利用公式χ2=计算χ2.
③如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
【典例1】某研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计,根据统计数据制作列联表,提出原假设:“经常用流行用语”与“年轻人”没有关系,计算得,由此可知( ).(显著性水平取0.05,)
A.接受原假设,没有的把握认为“经常用流行用语”与“年轻人”有关系
B.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
C.接受原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
D.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”没有关系
【变式1】(多选)下列关于统计与概率的结论中,正确的有( )
A.对于一组数据,改变其中一个数据,平均数一定改变,中位数不一定改变
B.线性回归直线一定经过样本中心点
C.若随机变量,则
D.独立性检验中,的值越小,越有把握认为两个分类变量有关联
【变式2】某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
期末基础通关练(测试时间:10分钟)
1.(24-25高二下·江苏南京·期末)(多选)下列命题中,真命题有( )
A.数据6,2,3,4,5,7,8,9,1,10的70%分位数是8.5
B.若随机变量,则
C.已知两个变量具有线性相关关系,其回归直线方程为;若,则;
D.若,则
2.(24-25高二下·江苏南通·期末)为了解高中生的体育成绩(优秀与非优秀)和性别是否有关,对某高中在校学生进行了抽样调查,调查结果如下表所示:
优秀
非优秀
合计
男
s
30
50
女
5
t
50
合计
25
75
100
(1)求的值;
(2)依据小概率值的独立性检验,能否认为体育成绩与性别有关?
附:,其中.
0.050
0.010
0.001
k
3.841
6.635
10.828
3.(24-25高二下·江苏南通·期末)下表提供了某厂进行技术改造后生产产品过程中记录的产量x(单位:t)与相应的生产能耗y(单位:t标准煤)的几组数据:
3
4
5
6
标准煤
2.5
3
m
4.5
根据散点图分析知x与y线性相关,且求得经验回归方程为,则( )
A.x与y负相关 B.
C.回归直线过点 D.时的残差为0.05
4.(24-25高二下·江苏淮安·期末)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了50人,得到如下列联表:
正常
不正常
合计
患该疾病
7
18
25
未患该疾病
19
6
25
合计
26
24
50
(1)记超声波检查结果不正常者患该疾病的概率为,求的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:.
5.(24-25高二下·江苏淮安·期末)(多选)为了探讨学生的物理成绩与数学成绩之间的关系,从某批学生中随机抽取10名学生的成绩,并计算出,物理成绩关于数学成绩的线性回归方程为,则下列说法正确的是( )
A.
B.当某学生数学成绩为100时,物理成绩一定为92.5
C.相关系数
D.现发现10位同学中有两位同学数据(70,65)和(90,100)误差较大,剔除这两对数据后,得到的线性回归方程为,则实数的值为
期末重难突破练(测试时间:10分钟)
1.(24-25高二下·江苏徐州·期末)为了解学生对某项运动的喜欢情况,学校进行了一次抽样调查,得到如下数据:
男生
女生
合计
喜欢
65
35
100
不喜欢
50
50
100
合计
115
85
200
(1)能否有99%的把握认为是否喜欢该项运动与性别有关?
(2)若学校有甲,乙两队进行此项运动比赛,每场比赛采用“5局3胜制”(有一队先胜3局即获胜,比赛结束),甲队每局获胜的概率为().
①若比赛打满5局的概率为,求的最大值;
②若,在甲队赢得该场比赛的条件下,求比赛的局数的概率分布及数学期望.
附:,其中.
0.10
0.010
0.001
2.706
6.635
10.828
2.(24-25高二下·江苏徐州·期末)某研究机构测试了5款新能源汽车,电池容量与实际续航里程之间对应数据如下:
电池容量
40
50
60
70
80
实际续航里程
260
310
380
420
480
已知电池容量与实际续航里程之间具有很强的线性相关关系,求关于的经验回归方程,并估计当时对应的值.
附:经验回归方程中,,.
3.(24-25高二下·江苏扬州·期末)为了解某小区居民的周末休闲方式是否与性别有关,随机抽取了该小区居民100 人进行了调查,其中女性60人,男性40人,女性中有40人休闲方式是看电视,另外20人休闲方式是运动;男性中有10人休闲方式是看电视,另外30人休闲方式是运动.
(1)根据以上数据将如下2×2列联表补充完整;
合计
40
合计
(2)请根据小概率值的独立性检验,判断休闲方式与性别是否有关.
附:,
4.(24-25高二下·江苏扬州·期末)已知变量x,y线性相关,其一组样本数据(,2,3,4,5),满足,用最小二乘法得到的线性回归方程是.现增加一个数据,重新计算得到的回归直线斜率是,时,y的估计值是( )
A.3 B. C. D.
5.(24-25高二下·江苏镇江·期末)某校高二年级为研究学生数学成绩与语文成绩的关系,采取有放回的简单随机抽样,从高二学生中抽取样本容量为200的样本,将所得数学成绩与语文成绩的样本观测数据整理如下:
语文成绩
合计
优秀
不优秀
数学成绩
优秀
50
30
80
不优秀
40
80
120
合计
90
110
200
(1)根据的独立性检验,能否认为数学成绩与语文成绩有关联?
(2)现从该校学生中任选一人,A表示“选到的学生语文成绩不优秀”,B表示“选到的学生数学成绩不优秀”.请利用样本数据,估计的值.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
期末综合拓展练(测试时间:15分钟)
1.(24-25高二下·江苏南京·期末)“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
2.(24-25高二下·江苏镇江·期末)某小吃店的日盈利(单位:百元)与当天平均气温(单位:)之间有如下数据:由表中数据可得回归方程中.试预测当天平均气温为时,小吃店的日盈利约为__________百元.
0
1
2
百元
5
4
2
2
1
3.(24-25高二下·江苏镇江·期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展.下表是近几年某地区新能源乘用车的年销售量与年份的统计表:
年份x
2020
2021
2022
2023
2024
销量y(万台)
1.00
1.40
1.70
1.90
2.00
某机构调查了该地区60位购车车主的性别与购车种类情况,得到的部分数据如下表所示:
购置传统燃油车
购置新能源车
总计
男性车主
10
48
女性车主
2
总计
60
(1)求新能源乘用车的销量y关于x年份的线性相关系数r,并判断y与x是否线性相关;
(2)请将上述列联表补充完整,并判断是否有的把握认为购车车主是否购置新能源乘用车与性别有关.
参考公式:
相关系数;,其中.
参考数据:.
备注:若,则可判断y与x线性相关.
临界值表:
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
4.(24-25高二下·江苏·期末)某旅游景点统计今年五一期间进入景区的游客人数(单位:千人)如下:
日期
5月1日
5月2日
5月3日
5月4日
5月5日
第天
1
2
3
4
5
参观人数
2.2
2.6
3.1
5.2
6.9
(1)根据上表数据,判断成对样本数据的线性相关程度,请用样本相关系数加以说明;(若,则认为与的线性相关性很强),如果与的线性相关性很强,那么求出关于的经验回归方程;
(2)五一期间景区开放南门、东门和北门供游客出入,游客从南门、东门和北门进入景区的概率分别为,且出景区与入景区选择相同门的概率为,选择与入景区不同两门的概率各为.假设游客从南门、东门、北门出入景点互不影响,现有甲、乙、丙、丁4名游客于5月1日游玩景点,设为4人中从东门出景区的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:经验回归方程,其中,.
样本相关系数.
5.(24-25高二下·江苏·期末)为调查学生喜欢在食堂就餐是否和性别有关,学校随机调研了男女生各100人,经统计得到如下列联表:
男
女
喜欢
80
40
不喜欢
20
60
(1)依据的独立性检验,判断学生喜欢在食堂就餐是否与性别有关?
(2)为听取学生对食堂的建议,从学生中抽取9人召开座谈会,并给其中3名同学赠送礼品,每人1份(其余人员仅赠送餐券).已知参加座谈会的学生中有且只有4名学生来自高一,求高一这4名学生中得到礼品的人数的分布列和数学期望.
0.010
0.005
0.001
6.635
7.879
10.828
附:,其中
1 / 4
学科网(北京)股份有限公司
$