内容正文:
【重难点突破】2024-2025学年高二下学期热点题型专练(新高考)
专题4-1成对数据的统计(基础):相关系数,回归方程,独立性检验
总览
题型·解读
【题型1】相关关系与函数关系的概念及辨析
【题型2】 样本相关系数的意义及辨析
【题型3】相关系数的计算
【题型4】回归直线方程的意义与样本中心点
【题型5】残差的计算
【题型6】刻画回归效果的方式
【题型7】利用最小二乘估计公式求回归直线方程
【题型8】决定系数计算
【题型9】由散点图求近似回归方程(非线性)
【题型10】非线性拟合小题
【题型11】联表的完善
【题型12】独立性检验的概念及辨析
【题型13】卡方的计算
题型汇编
知识梳理与常考题型
【题型1】相关关系与函数关系的概念及辨析
基础知识
概念梳理
函数关系:指变量之间存在的一种严格、完全确定性的关系,即一个变量的数值完全由另一个变量的数值所确定、控制。函数关系通常可以用数学公式确切地表示出来,例如圆的面积与半径之间的关系.
相关关系:不是完全确定的,即一个变量的变化不能完全决定另一个变量的变化,例如身高与体重之间的关系,虽然身高和体重有关,但身高不能完全决定体重.
典型例题
【例题1】(24-25高二下·河南洛阳·阶段练习)下列说法正确的是( )
A.任何两个变量都具有相关关系
B.球的体积与该球的半径具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【分析】根据相关关系是一种不确定关系,函数关系是一种确定关系,可判断A;根据球的体积与半径之间的关系,可判断该关系为函数关系,可判断B;根据农作物的产量与施化肥量之间的关系可得该关系为一种相关关系,可判断C;根据学生的数学成绩与物理成绩之间是一种相关关系可判断D.
【详解】解:当两个变量之间具有确定的关系时,两个变量之间是函数关系,而不是相关关系,故A错误;
球的体积与该球的半径之间是函数关系,故B错误;
农作物的产量与施化肥量之间的关系是相关关系,是非确定性关系,故C错误;
学生的数学成绩与物理成绩之间的关系是相关关系,是非确定性关系,故D正确.
【例题2】(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的成本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【答案】B
【分析】根据相关关系的定义判断.
【详解】对于A:产品的成本与生产数量是相关关系,故A正确;
对于B:设球的半径为,球的表面积为、体积为,
则,所以,而,
所以球的表面积与体积是一种函数关系,故B错误;
对于C:家庭的支出与收入是相关关系,故C正确;
对于D:人的年龄与体重是相关关系,故D正确.
巩固练习
题型
【巩固练习1】(23-24高二下·吉林·期末)下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
【答案】D
【分析】根据相关关系的定义判断即可.
【详解】对于A:人的身高与受教育的程度不具有相关关系,故A错误;
对于B:人的体重与眼睛的近视程度不具有相关关系,故B错误;
对于C:企业员工的工号与工资不具有相关关系,故C错误.
对于D:儿子的身高与父亲的身高具有相关关系,故D正确.
【巩固练习2】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【答案】C
【分析】根据相关关系的概念逐项判定,即可求解.
【详解】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
故选:C.
【巩固练习3】(23-24高二下·安徽·期末)下列两个变量之间的关系是相关关系的是( )
A.等边三角形的边长a与其面积S
B.匀速直线行驶的汽车的位移s与行驶时间t
C.杂交水稻植株的高度h与土壤湿润度r
D.某班的学生人数n与该班某次数学考试的平均分x
【答案】C
【分析】根据相关关系的定义即可逐一判断.
【详解】对于A选项,因为,边长a与面积S是确定的函数关系,故A错误;
对于B选项,设匀速直线行驶的汽车的速度为,,所以位移s与行驶时间t是确定的函数关系,故B错误;
对于C选项,杂交水稻植株的高度h与土壤湿润度r具有相关关系,通常情况下,土壤湿润度r会一定程度上影响杂交水稻植株的高度h值的,故C正确;
对于D选项,因为班级某次数学考试的平均分x等于班级总分除以学生人数n,所以当班级总分确定的情况下,某班的学生人数n与该班某次数学考试的平均分x是一种确定关系,故D正确
【题型2】 样本相关系数的意义及辨析
基础知识
样本相关系数r:衡量两个变量之间线性关系的强弱
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
典型例题
【例题1】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【分析】根据相关关系的概念逐项判定,即可求解.
【详解】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
【例题2】(23-24高二下·黑龙江哈尔滨·期末)(多选)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.样本相关系数r变小 D.样本相关系数r变大
【答案】BC
【分析】根据已知条件,结合变量间的相关关系,结合图象分析判断即可.
【详解】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以B正确,A错误;
由于与的线性相关加强,且为负相关,所以相关系数r变小,
由于与的线性相关加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数r变小,所以D错误.
【例题3】(23-24高二下·吉林长春·期中)已知变量x与y的回归直线方程为,变量y与z负相关,则( )
A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关
【答案】D
【分析】根据已知条件,结合回归方程可判断x与y正相关,再由变量y与z负相关,即可判断x与z负相关.
【详解】根据回归方程可知变量x与y正相关,又变量y与z负相关,
由正相关、负相关的定义可知,x与z负相关.
巩固练习
题型
【巩固练习1】(23-24高二下·北京东城·期末)某校学生科研兴趣小组为了解1~12岁儿童的体质健康情况,随机调查了20名儿童的相关数据,分别制作了肺活量、视力、肢体柔韧度、BMI指数和身高之间的散点图,则与身高之间具有正相关关系的是( )
A.肺活量 B.视力 C.肢体柔韧度 D.BMI指数
【答案】A
【分析】根据给定的散点图,结合正相关的意义判断即得.
【详解】对于A,儿童的身高越高,其肺活量越大,肺活量与身高具有正相关关系,A正确;
对于B,儿童的视力随身高的增大先增大,后减小,视力与身高不具有正相关关系,B错误;
对于C,肢体柔韧度随身高增大而减小,肢体柔韧度与身高不具有正相关关系,C错误;
对于D,BMI指数与身高的相关性很弱,不具有正相关关系,D错误.
【巩固练习2】(24-25高二下·江西上饶·阶段练习)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【分析】根据相关系数的概念即可判断.
【详解】由图可知图(1)和图(3)是正相关,故相关系数为正,又因为图(1)的点较图(3)的点分布密集,故相关性图(1)更好,相关系数较大,即;
图(2)和图(4)是负相关,故相关系数为负,又因为图(2)的点较图(4)的点分布密集,故相关性图(2)更好,相关系数的绝对值较大,即,故;
综上可知:
【巩固练习3】(24-25高二上·河北沧州·阶段练习)变量与相对应的一组数据为;变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )
A. B.
C. D.
【分析】根据正相关,负相关判断的正负,即可比较大小.
【详解】由变量与相对应的一组数据为,,
可得变量与正相关,所以.
而由变量与相对应的一组数据为,,
可知变量与负相关,所以,所以与的大小关系是.
【题型3】相关系数的计算
基础知识
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
若线性相关程度很高,则两个变量之间可用线性线性回归模型拟合.
典型例题
【例题1】若已知是的两倍,是的1.2倍,则相关系数r的值为( )
A. B. C.0.92 D.0.65
【解题思路】根据相关系数公式计算可得;
【解答过程】解:
【例题2】部门所属的10个工业企业生产性固定资产价值与工业增加值数据如下(单位:百万元):
固定资产价值
3
3
5
6
6
7
8
9
9
10
工业增加值
15
17
25
28
30
36
37
42
40
45
根据上表数据计算的相关系数为( )
A.0 B.-0.8973 C.1.0228 D.0.9918
【解题思路】根据已知条件,结合相关系数的公式,即可求解.
【解答过程】由表中数据可得,,,
,,
,
故.
巩固练习
题型
【巩固练习1】一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,,,,,则y与x的相关系数r的绝对值为( )
A.0.6 B.0.5
C.0.4 D.0.3
【解题思路】运用相关系数公式进行求解即可.
【解答过程】因为,,所以,
【巩固练习2】某大学生在国家提供的税收、担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数(单位:万元)与时间(单位:年)的数据,列表如下:
1
2
3
4
5
2.4
2.7
4.1
6.4
7.9
依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
【答案】,理由见解析
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】依次计算,,,和,代入相关系数计算公式,计算即得相关系数的值,与比较得出结论.
【详解】由题可知:,,
,
,
则,
即与的线性相关程度很高,可用线性线性回归模型拟合.
【巩固练习3】
【题型4】回归直线方程的意义与样本中心点
基础知识
回归直线方程是统计学中用于描述两个变量间线性关系的数学模型,其形式为,其中a为截距,b为回归系数(斜率)。通过最小二乘法,该方程最小化了数据点与直线的垂直距离平方和,从而反映变量间的整体趋势。
重要考点:回归直线必经过样本中心点,且b表示自变量每增加1单位时因变量的平均变化量。其应用包括预测、决策优化及理论验证,但需先通过散点图确认线性关系,避免非线性或异常值影响结果。
典型例题
【例题1】小明同学在做市场调查时得到如下样本数据:
x
1
3
6
10
y
8
a
4
2
他由此得到回归直线方程为,则下列说法不正确的是( )
A.变量x与y线性负相关 B.当时可以估计
C. D.变量x与y之间是函数关系
【分析】由回归系数,可判定A正确;当时,求得,可判定B正确;求得样本中心,代入回归直线方程,求得的值,可判定C正确;由回归直线方程的意义可判定D不正确.
【详解】对于A中,由回归直线方程,可得,
所以变量x与y线性负相关,所以A正确;
对于B中,当时,可得,所以B正确;
对于C中,由统计图表中的数据,可得,,
即样本中心为,代入回归直线方程,
可得,解得,所以C正确;
对于D中,变量x与y是线性负相关关系,不是函数关系,所以D不正确.
【例题2】某单位为了了解用电量y度与气温之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得回归直线方程中,预测当气温为时,用电量约为 度.
【答案】69.4
【分析】由题意求,,根据回归直线方程过样本中心,代入求解得,再把代入回归直线方程运算求解.
【详解】根据题意得:气温的平均数(℃),用电量的平均数(度)
∵回归直线方程过样本中心,即,则
∴
当时,则
【例题3】某种产品的价格x(单位:元/)与日需求量y(单位:)之间的对应数据如表所示:
x
10
15
20
25
30
y
11
10
8
6
5
根据表中的数据可得回归直线方程为,则以下结论错误的是( )
A.变量y与x呈负相关 B.回归直线经过点
C. D.该产品价格为35元/时,日需求量大约为
【解题思路】算出后可得,从而可判断各项的正误.
【解答过程】,
故即,故ABC都正确.
此时,令,则,
故D错误.
巩固练习
题型
【巩固练习1】下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:°C)的对比表,已知表中数据计算得到y关于x的线性回归方程为,则据此模型预计时卖出奶茶的杯数为( )
气温x/℃
5
10
15
20
25
杯数y
26
20
16
14
14
A.9 B.10 C.11 D.12
【答案】A
【分析】先求得的值,再据此模型计算出时卖出奶茶的杯数.
【详解】,
由,可得,则
则据此模型预计时卖出奶茶的杯数为9
【巩固练习2】(23-24高二下·浙江杭州·期中)已知x,y的对应值如下表所示:若y与x线性相关,且求得的回归直线方程为,则( )
x
12
9
14
y
27
20
m
A.30 B.31 C.32 D.33
【答案】C
【分析】计算样本点中心,代入回归直线方程,即可求解.
【详解】由题意可知,,
将样本点中心代入回归直线方程得,得.
【巩固练习3】某学生在对50位同学的身高(单位:)与鞋码(单位:欧码)的数据进行分析后发现两者呈线性相关,得到经验回归方程.若50位同学身高与鞋码的均值分别为,则 .
【答案】
【分析】利用回归方程必过样本中心,代入求解即可.
【详解】因为经验回归方程为,,
所以.
【巩固练习4】为助力新冠肺炎疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了对该产品进行合理定价,采用不同的单价在平台试销,得到的数据如下表所示:
单价元
销量万件
(1)求单价的平均值;
(2)根据以上数据计算得与具有较强的线性相关程度,并由最小二乘估计求得关于的经验回归方程为,求的值.
【答案】(1);(2)
【分析】(1)由表格数据直接计算平均数即可;
(2)根据表格数据可求得样本中心点,代入回归方程即可求得.
【详解】(1).
(2)由表格数据知:,
,解得:.
【题型5】残差的计算
基础知识
(1)残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(3)残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
典型例题
【例题1】(23-24高二下·湖南长沙·阶段练习)对具有线性相关关系的变量x,y有一组观测数据,其经验回归方程为,且,,则相应于点的残差为 .
【答案】
【分析】将样本中心代入可得,即可根据残差定义求解.
【详解】将,代入可得,
所以,
故当时,,
所以残差为
【例题2】(23-24高二下·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
【答案】
【分析】由表格计算可得,,把,代入回归方程可得,进而得出残差.
【详解】由表格可得:,,
把代入,解得,
,
把代入解得,
在样本处的残差为.
巩固练习
题型
【巩固练习1】(23-24高二下·福建泉州·期末)某学校一同学研究温差与本校当天新增感冒人数人的关系,该同学记录了5天的数据:
5
6
8
9
12
(人)
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则当时,残差为 .
【答案】
【分析】计算出,将代入回归方程,得到,求出回归方程,当时,,计算出残差.
【详解】,,
将代入中得,,
解得,
故,当时,,
故残差为.
【巩固练习2】(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
【答案】0.5
【分析】利用样本中心在回归直线上及残差的定义即可求解.
【详解】将代入,得,解得,
所以,
故当时,,
所以残差.
【巩固练习3】近几年,我国新能源汽车产业进入了加速发展的阶段,呈现市场规模、发展质量“双提升”的良好局面.新能源汽车的核心部件是动力电池,其中的主要成分是碳酸锂.下表是某地2023年3月1日至2023年3月5日电池级碳酸锂的价格与日期的统计数据:
日期代码
1
2
3
4
5
电池级碳酸锂价格(十万元/吨)
4.1
3.9
3.8
3.9
根据表中数据,得出关于的经验回归方程为,根据数据计算出在样本点处的残差为,则的值为 .
【答案】0.25
【分析】由残差定义可得,再由回归方程过点可得m,即可得答案.
【详解】由题知,可得.
又,
由,可得.故.
【题型6】刻画回归效果的方式
基础知识
刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
(4)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
典型例题
【例题1】(23-24高二上·四川绵阳·期末)有一散点图如图所示,在5个数据中去掉后,给出下列说法:①相关系数r变大;②相关指数变大;③残差平方和变小;④变量x与变量y的相关性变强.其中正确说法的个数为( )
A.1个 B.2个 C.3个 D.4个
【解题思路】利用散点图,结合相关性,相关指数,残差以及与的相关性,逐项判定,即可求解.
【解答过程】根据题意,散点图有5个数据中去掉,
可得与的相关性越强,并且是正相关,
所以相关系数变大,相关指数变大,残差的平方和变小,
所以四个命题都正确.
【例题2】下列说法错误的是( )
A.决定系数越大,模型的拟合效果越好
B.若变量和之间的样本相关系数为,则变量和之间的负相关很强
C.残差平方和越小的模型,拟合的效果越好
D.在经验回归方程中,当解释变量每增加1个单位时,响应变量平均增加2个单位
【解题思路】根据相关系数、决定系数、残差平方和及经验回归方程的知识逐项判断即可.
【解答过程】对于A,决定系数越大,模型的拟合效果越好,故A正确;
对于B,若变量和之间的样本相关系数为,则变量和之间的负相关很强,故B正确;
对于C,残差平方和越小的模型,拟合的效果越好,故C正确;
对于D,在经验回归方程中,当解释变量每增加1个单位时,响应变量平均减少2个单位,故D错误.
【例题3】红铃虫是棉花的主要害虫之一,一只红铃虫的产卵数和温度有关.现收集了7组观测数据.用4种模型分别进行拟合.由此得到相应的回归方程并进行残差分析,进一步得到如图4幅残差图,根据残差图,拟合效果最好的模型是( )
A.模型一 B.模型二 C.模型三 D.模型四
【答案】D
【分析】利用残差点分布的带状区域越窄,拟合精度越好, 拟合效果越好即可选出答案.
【详解】当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,
这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,
对比4个残差图,可知模型四的图对应的带状区域的宽度最窄.
巩固练习
题型
【巩固练习1】(23-24高二上·四川绵阳·期末)有一散点图如图所示,在5个数据中去掉后,给出下列说法:①相关系数r变大;②相关指数变大;③残差平方和变小;④变量x与变量y的相关性变强.其中正确说法的个数为( )
A.1个 B.2个 C.3个 D.4个
【解题思路】利用散点图,结合相关性,相关指数,残差以及与的相关性,逐项判定,即可求解.
【解答过程】根据题意,散点图有5个数据中去掉,
可得与的相关性越强,并且是正相关,
所以相关系数变大,相关指数变大,残差的平方和变小,
所以四个命题都正确.
【巩固练习2】为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
【答案】C
【分析】从图中分析得到加入点后,回归效果会变差,再由决定系数,相关系数,残差平方和及相关性的概念和性质作出判断即可.
【详解】对于A,加入点后,变量与预报变量相关性变弱,
但不能说,不具有线性相关性,所以A不正确
对于B,决定系数越接近于1,拟合效果越好,所以加上点后,决定系数变小,故B不正确;
对于C,从图中可以看出点较其他点,偏离直线远,所以加上点后,回归效果变差.
所以相关系数的绝对值越趋于0,故C正确;
对于D,残差平方和变大,拟合效果越差,所以加上点后,残差平方和变大,故D不正确;
【巩固练习3】为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则( )
A.< B.=
C.> D.、关系不能确定
【答案】A
【分析】根据残差点图分析拟合效果,从而得到答案.
【详解】根据残差点图,模型(2)残差点比较均匀地落在水平的带状区域中,带状区域宽度窄,拟合精度较高,所以<
【题型7】利用最小二乘估计公式求回归直线方程
基础知识
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
典型例题
【例题1】(24-25高三上·浙江·期末)年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
【答案】D
【分析】根据所给数据,及参考公式,求线性回归方程即可.
【详解】由题中的数据可知
所以
所以
所以y关于x的线性回归方程为
故选:D
【例题2】节能降耗是企业的生存之本,树立一种“点点滴滴降成本,分分秒秒增效益”的节能意识,以最好的管理,来实现节能效益的最大化,为此某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:
年号
1
2
3
4
5
年生产利润y(单位千万元)
0.7
0.8
1
1.1
1.4
预测第10年该国企的生产利润约为( )
(参考公式)
A.1.85 B.2.02 C.2.19 D.2.36
【解题思路】根据已知数据求得,可得线性回归方程,再令即可得解.
【解答过程】,
则,
,
故,
,
所以国企的生产利润与年份的回归方程为,
当时,,即预测第10年该国企的生产利润约为.
【例题3】(23-24高二下·河北沧州·期末)两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
【答案】(1)138
(2)
【知识点】求回归直线方程、线性回归、相关系数的计算、根据样本中心点求参数
【分析】(1)化简,由此确定正确答案.
(2)根据相关系数求得,进而求得关于的经验回归方程.
【详解】(1)
,
代入数据可得.
(2)由已知得,,∵,
∴,
,
∴关于的经验回归方程为.
巩固练习
题型
【巩固练习1】已知某水果种植基地苹果的种植面积(单位:公顷)与其产量(单位:吨)呈线性相关关系,小王准备承包一块苹果种植地,为了解市场行情,在该基地调查了5家果农,统计得到了苹果种植面积与其产量的数据如表所示,求关于的线性回归方程;
种植面积/公顷
1
2
3
4
5
产量/吨
20
38
64
78
100
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
【解答过程】(1)由题意可得:,
,
,
则,
所以关于的线性回归方程为.
【巩固练习2】(23-24高二下·江西吉安·期末)防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.
【答案】(1),6月份该厂的订单数为59.9万元;
(2),与之间具有很强的正相关关系.
【知识点】求回归直线方程、线性回归、相关系数的计算、根据回归方程进行数据估计
【分析】(1)求出与的值,可得关于的线性回归方程,取求得值得答案;
(2)由已知数据求得值,可得与的相关系数近似为0.99,故与之间的线性相关程度相当高.
【详解】(1)解:由题可得:,
,
,
关于的线性回归方程为,
2022年6月对应的变量为6,将代入,
得,
估计6月份该厂的订单数为59.9万元.
(2)相关系数.
与之间具有很强的正相关关系.
【巩固练习3】某省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合产值如下:
年份代码x,综合产值y(单位:亿元)
年份
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
综合产值y
1.5
2
3.5
8
15
(1)请通过样本相关系数,推断y与x之间的相关程度;(若,则线性相关性程度很强;若,则线性相关性程度一般,若,则线性相关性程度很弱.)
(2)求出y关于x的经验回归方程,并预测 2025 年该省刺梨产业的综合产值.
参考公式:样本相关系数经验回归方程 中斜率和截距的最小二乘法估计公式分别为,.
参考数据:
【解题思路】(1)根据公式计算出相关系数,得到结论.
(2)根据公式求出和,得到经验回归方程,并令,预测2024年该省刺梨产业的综合产量.
【解答过程】(1)依题意,,,
,
,,故 ,
所以线性相关性程度很强.
(2)由(1)得,则,
所以关于的经验回归方程为,当时,.
【题型8】决定系数计算
基础知识
决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
典型例题
【例题1】.(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
【答案】0.96
【分析】依据决定系数的公式计算即可.
【详解】因为.
【例题2】(23-24高二下·四川成都·期中)某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地为了研究海水浓度(%)对亩产量(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度(%)
3
4
5
6
7
亩产量(吨)
0.57
0.53
0.44
0.36
0.30
残差
-0.01
0.02
m
n
0
绘制散点图发现,可以用线性回归模型拟合亩产量(吨)与海水浓度(%)之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.
(1)求的值;(参考公式:)
(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量的差异有是解释变量引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由灌溉海水浓度引起的?
附残差相关指数其中
【答案】(1)0;-0.01
(2)0.99,亩产量的变化有是由灌溉海水浓度引起的.
【知识点】残差的计算、相关指数的计算及分析
【分析】(1)计算代入回归方程可得,利用残差求解方法可得的值;
(2)利用相关指数的公式求解出相关指数的值,结合结果可得判断.
【详解】(1)因为,
所以,即,
所以线性回归方程为,
所以,
.
,
.
(2),
所以相关指数.
故亩产量的变化有是由灌溉海水浓度引起的.
巩固练习
题型
【巩固练习1】(24-25高二下·全国·课后作业)某蔬菜的保鲜时间(小时)与存放温度样本数据如下表所示:
存放温度
21
15
10
6
3
保鲜时间小时
6
14
26
33
41
建立关于的一元线性回归模型,预测存放温度为时,这种蔬菜的保鲜时间约为 小时(,及结果保留到整数);该模型的决定系数 (保留2位小数).附:.
【答案】 42 0.99
【分析】利用最小二乘法求解线性回归方程,进行估算判断第一空,利用给定公式求解第二空即可.
【详解】计算得,
所以,
故线性回归方程为,当时,,
所以可估计其保鲜时间约为42小时;
因为,,所以.
【巩固练习2】(23-24高二下·河南信阳·期末)华为Pura70的发布是中国芯片行业的重大突破,华为的高端手机越来越受到消费者的青睐.某手机店今年2~6月份Pura70手机的销量如下表所示:
月份
2
3
4
5
6
手机销量(部)
42
53
66
109
用最小二乘法得到手机销量(单位:部)关于月份的回归直线方程为,且销量的方差.
(1)求;
(2)求相关系数(精确到0.01),并据此判断手机销量与月份的相关性强弱(若,则可判断与线性相关较强);
(3)求时的残差;已知,求决定系数(精确到0.01).
附:回归系数,相关系数,决定系数,.
【答案】(1)
(2),线性相关较强
(3),
【知识点】相关系数的计算、根据样本中心点求参数、相关指数的计算及分析
【分析】(1)由样本中心点在回归直线上,解出;
(2)由相关系数的公式,结合回归系数的值及公式求得的值,进而得到线性相关性;
(3)根据公式求得的值.
【详解】(1),,
将代入,得,解得.
(2)由,得,
由,得.
所以,
.
所以,手机销量与月份的线性相关较强.
(3),
所以,,.
【题型9】由散点图求近似回归方程(非线性)
典型例题
【例题1】如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下列最适宜作为此模型的回归方程类型的是( )
A. B.
C. D.
【答案】B
【分析】由选项的图象特征即可得到答案.
【详解】选项A,对应的“直线型”的拟合函数,散点图中的点应在某直线附近,故A错误;
选项B,根据散点图可以看出散点大致分布在一条“指数型”函数曲线附近,
则的图象可以如图所示,故B正确;
选项C,对应的“幂函数型”的拟合函数,则其对应图象应上凸下凹,故C错误;
选项D,对应的“对数型”的拟合函数,则其对应图象应上凸下凹,故D错误.
【例题2】某地不同身高的未成年男性的体重平均值如下表:
身高()
60
70
80
90
100
110
120
130
140
150
160
170
平均体重()
6.13
7.9
10
12.2
15
17.5
20.9
26.9
31.1
38.6
47.3
55.1
表格中的数据形成图所示的散点图.则在以下函数模型中,描述这个地区未成年男性平均体重y(单位:)与身高x(单位:)的函数关系最合适的是( )
A. B. C. D.
【答案】B
【分析】根据散点图及函数图象可排除AC,再由特殊值可排除D,即可求解.
【详解】根据所给散点图,结合一次函数、对数函数的图象可知,选项AC不符合;
取时,由可得,当时
由可得,与实际值差距很大,故不适合,故D不符合
巩固练习
题型
【巩固练习1】变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( ).
A. B. C. D.
【解题思路】根据散点图据曲线形状结合一次函数,二次函数,反比例函数及幂函数的性质判断即得.
【解答过程】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:.
【巩固练习2】如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【解题思路】根据散点图与给所函数的图象的偏离情况,即可求解.
【解答过程】由散点图可知,y与x负相关,故排除A,B,对于D:,点偏离较大,而点近似在曲线附近,所以 y关于x的回归方程是C的可能性大.
【题型10】非线性拟合小题
基础知识
高中非线性拟合题型主要涉及变量代换法与最小二乘法,常见于统计与数学建模问题。典型题型包括:
1. 选择题:判断非线性模型类型(如指数型、对数型)及参数关系,例如通过散点图或变换后的线性回归方程推导原模型参数(如已知的回归方程求a, b)
2. 填空题:计算特定参数或预测值,如根据已知数据求指数模型中的k值或预测变量取值。
3. 解答题:分步骤完成拟合过程,包括画散点图、选择模型、求回归方程及验证拟合效果(如利用R²比较模型优劣)。
4. 综合应用题:结合实际情境(如生物种群增长、商品销量预测),建立非线性回归模型并分析结果。
典型例题
【例题1】(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【答案】A
【分析】由题意得,求出,从而可求得线性回归方程,给两边取对数化简,对照回归方程可求得答案.
【详解】由题意得,解得,
因此,
由两边取对数,得,
又,所以,即.
【例题2】用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
【答案】D
【分析】由两边取对数,与,利用待定系数法求解.
【详解】解:因为,,
所以,又,所以,解得,所以
【例题3】(24-25高二下·内蒙古通辽·阶段练习)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
24
2.9
646
168
422688
50.4
70308
表中,,,;
(1)根据残差图,比较模型①、②的拟合效果,模型 比较合适?
(2)根据(1)中所选择的模型,求出y关于x的回归方程是 .附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】 ①
【分析】(1)根据残差点的分布情况分析即可;
(2)先取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【详解】(1)模型①更合适,理由如下:模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适;
(2)令,则,
由所给的参考数据可得,,
所以,
所以关于的线性回归方程为,即,
所以产卵数关于温度的回归方程为,
故答案为:①;.
巩固练习
题型
【巩固练习1】(23-24高二下·河南驻马店·阶段练习)以曲线拟合一组数据时,经代换后的线性回归方程为,则 , .
【答案】 3
【分析】利用对数的运算法则结合回归方程求解即可.
【详解】因为,所以=,
令,则,
又因为,所以,则.
【巩固练习2】(23-24高二下·四川眉山·期末)以曲线拟合一组数据时,经代换后的线性回归方程为,则 .
【答案】
【分析】利用对数的运算法则,再结合回归方程即可求解.
【详解】因为,
所以,
令,则,
又因为,
所以,,
所以.
【巩固练习3】(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【答案】C
【分析】首先利用换元法将回归方程转化为线性回归方程,再代入样本点中心,求,再根据方程进行预测.
【详解】设,,则
所以,
,且
则,得,
所以,
下午4点对应的,此时预测游客的人流量.
【题型11】联表的完善
基础知识
列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
典型例题
【例题1】某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
【分析】根据题意先得出的值,进而再得的值,进而可知的值.
【详解】因为抽取的村民中,老年人有25名,年轻人有25名,所以,
所以,A、B对;
所以,则对;
则错.
巩固练习
题型
【巩固练习1】(24-25高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
【分析】根据成绩优秀的概率求得,进而求得,结合比例判断出正确答案.
【详解】依题意,解得,由解得.
补全列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
甲班的优秀率为,乙班的优秀率为,
,所以成绩与班级有关.所以D选项正确,ABC选项错误.
故选:D.
【巩固练习2】如图列联表中,的值分别为
总计
23
48
总计
78
121
A.54,43 B.53,43 C.53,42 D.54,42
【答案】B
【分析】由列联表,可列出方程(组),求出和的值.
【详解】由列联表,可得,则,又由 解得.
故选:B.
【巩固练习3】
【题型12】独立性检验的概念及辨析
基础知识
独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验,显著性水平判断:根据卡方统计量()与临界值的比较,确定变量关联的显著性。例如,若> 3.841,则有95%的把握认为变量相关;或者说变量相关犯错误的概率不超过 0.05.
越大,变量关联性越强.
典型例题
【例题1】(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【详解】依已知数据,得有的把握认为“患肺癌与吸烟有关”,
则选项D正确,其余都是错误的.
【例题2】(23-24高二下·陕西·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
0.15
0.10
0.05
0.025
0.010
k
2.072
2.706
3.841
5.024
6.635
A. B. C. D.
【答案】B
【分析】根据与临界值的大小关系确定犯错误的概率的范围.
【详解】因为,结合表格可知,
所以认为“性别与喜欢数学有关”犯错误的概率不超过0.010.
【例题3】(多选)为考察一种新型药物预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的列联表中,由列联表中的数据计算得.参照附表,下列结论正确的是( )
附表:
A.根据小概率值的独立性检验,分析认为“药物有效”
B.根据小概率值的独立性检验,分析认为“药物无效”
C.根据小概率值的独立性检验,分析认为“药物有效”
D.根据小概率值的独立性检验,分析认为“药物无效”
【答案】BC
【分析】根据独立性检验的概念直接判断.
【详解】因为,所以,
所以根据小概率值的独立性检验,分析认为“药物无效”;
根据小概率值的独立性检验,分析认为“药物有效”;
故选:BC.
【例题4】(23-24高二下·河南南阳·阶段练习)(多选)如表,在两个变量与的列联表中,已知,其中,下列结论正确的是( )
总计
a
b
c
d
总计
A.若每个数据a,b,c,d均变为原来的2倍,则的值不变
B.越大,两个变量有关联的可能性越大
C.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越大
D.若计算得到,则有的把握认为与有关
【答案】BCD
【分析】根据独立性检验中随机变量的观测值的计算公式,以及它的大小表示“与有关系”的把握程度逐项判断即可.
【详解】对于A,若列联表中的每个数字均变成原来的2倍,
则,
此时的值变为原来的2倍,所以A错误;
对于B,同一个样本中,越小,说明两个变量的关系越弱,
越大,说明两个变量有关的关系越强,所以B正确;
对于C,独立性检验中,随机变量的值越小,
判定“两变量有关系”犯错误的概率越大,所以C正确;
对于D,根据独立性检验的意义可知,
所以有的把握认为与有关,所以正确.
巩固练习
题型
【巩固练习1】(23-24高二下·天津滨海新·阶段练习)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是(参考数据:)( )
①若的观测值满足,我们有99%的把握认为吸烟与患肺病有关系;
②若的观测值满足,那么在100个吸烟的人中约有99人患有肺病;
③从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的可能性会患肺病;
④从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误.
A.②③ B.②③④ C.①②④ D.①④
【分析】由给出的数据,结合观测值的意义判定即可.
【详解】若的观测值满足,则我们有的把握认为吸烟与患肺病有关系,
而得知有的把握认为吸烟与患肺病有关系时,仍有的可能性使推断出现错误,
但不能说明个吸烟的人中约有人患有肺病,
也不能说明每个吸烟的人有的可能性会患肺病.
故①④正确、②③错误.
【巩固练习2】(23-24高二下·广东深圳·阶段练习)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表,并由计算得:,参照附表,则下列结论正确的是( )
附:
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关
【答案】A
【分析】根据独立性检验的原理判断即可得答案.
【详解】因为,所以根据小概率值的独立性检验,
我们认为爱好跳绳与性别无关,且这个结论犯错误的概率超过0.001,故A正确,B错误;
又因为,所以根据小概率值的独立性检验,
我们认为爱好跳绳与性别有关,或在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别有关,故CD错误.
【巩固练习3】(23-24高二下·山东烟台·阶段练习)(多选)关于统计量,下列说法正确的是( )
A.统计量的值越大,两个分类变量的线性相关程度越强
B.若求出统计量,由于6.31比较接近,因此能推断两个分类变量有关系,且犯错误概率不超过0.01
C.独立性检验的本质是比较观测值与期望值之间的差异,由统计量所代表的这种差异的大小是通过确定适当的小概率值来进行判断的
D.根据统计量的构造过程可知,的值越小,零假设成立的可能性越大.
【答案】CD
【分析】根据独立性检验的思想以及的性质逐项分析判断.
【详解】对于选项A:统计量的值越大,两个分类变量的相关的可能性越大,与线性相关程度无关,故A错误;
对于选项B:因为,
在犯错误概率不超过0.01的前提下,没有足够条件推断两个分类变量有关系,故B错误;
对于选项C:根据独立性检验思想可知:
独立性检验的本质是比较观测值与期望值之间的差异,由统计量所代表的这种差异的大小是通过确定适当的小概率值来进行判断的,故C正确;
对于选项D:根据独立性检验思想可知:的值越小,零假设成立的可能性越大,故D正确;
故选:CD.
【巩固练习4】(23-24高二下·福建宁德·期末)根据分类变量 X 和Y 的样本观察数据的计算结果,有不少于95%的把握认为 X 和Y 有关,则的值不可能为( )
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
A.2.819 B.5.512 C.6.635 D.8.243
【答案】A
【分析】利用独立性检验的观测值对应临界表可得答案.
【详解】因为有不少于95%的把握认为 X 和Y 有关,
所以,只有A不满足要求.
【巩固练习5】(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【答案】D
【分析】根据独立性检验可得正确选项.
【详解】依已知数据,得有的把握认为“患肺癌与吸烟有关”,
则选项D正确,其余都是错误的.
【题型13】卡方的计算
基础知识
独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
典型例题
【例题1】(23-24高二下·广东·阶段练习)为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学研究性学习小组进行了调查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:
使用手机情况
成绩
合计
及格
不及格
很少
20
5
25
经常
10
15
25
合计
30
20
50
参考公式:,其中.
附表:
0.05
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
参照附表,得到的正确结论是( )
A.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”
B.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”
C.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩无关”
D.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”
【答案】D
【分析】根据题中数据,计算的值,结合临界值表,即可得出结果.
【详解】由题中数据可得,,
所以有99.5%的把握认为“经常使用手机与数学学习成绩有关”,
即在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”.
所以C错误,D正确;
因为,
所以依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”,A错误;
因为,
所以依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”,B错误.
【例题2】以“智联世界,生成未来”为主题的2023世界人工智能大会在中国上海举行,人工智能的发展为许多领域带来了巨大的便利,但同时也伴随着一些潜在的安全隐患.为了调查人们对人工智能所持的态度,某机构从所在地区随机调查100人,所得结果统计如下:
年龄在50岁以上(含50岁)
年龄在50岁以下
性别
男
女
男
女
持支持态度
15
10
30
15
不持支持态度
10
10
5
5
(填“有”或“没有”)的把握认为所持态度与年龄有关.
附:,.
0.10
0.05
0.01
k
2.706
3.841
6.635
【答案】有
【知识点】卡方的计算、完善列联表
【分析】依题意完善列联表,计算出卡方,与比较即可得.
【详解】由题可得如下列联表:
年龄在50岁以上(含50岁)
年龄在50岁以下
总计
持支持态度
25
45
70
不持支持态度
20
10
30
总计
45
55
100
根据列联表中的数据,经计算得到,
所以有的把握认为所持态度与年龄有关.
【例题3】在2×2列联表中,若每个数据变为原来的2倍,则的值变为原来的倍数为( )
A.8倍 B.4倍
C.2倍 D.不变
【答案】C
【分析】根据公式分析判断即可
【详解】由公式中所有值变为原来的2倍,
得
故也变为原来的2倍.
巩固练习
题型
【巩固练习1】(24-25高二下·山东德州·阶段练习)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
附:
0.10
0.05
0.01
0.005
k
2.706
3.841
6.635
7.789
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【分析】列出列联表,计算即可得解.
【详解】列出列联表:
男生
女生
篮球迷
90
20
110
非篮球迷
60
30
90
150
50
200
,
故在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关.
【巩固练习2】为了研究某种疾病的治愈率,某医院从过往病例中随机抽取了名患者,其中一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如图.
(1)根据图表完善以下关于治疗方法和治愈情况的列联表:
疗法
疗效
合计
未治愈
治愈
外科疗法
化学疗法
合计
(2)依据小概率值的独立性检验,分析此种疾病治愈率是否与治疗方法有关.
附:,
【答案】(1)列联表见解析
(2)答案见解析
【分析】(1)根据题意即可完善列联表;
(2)求出即可求解.
【详解】(1)
疗法
疗效
合计
未治愈
治愈
外科疗法
化学疗法
合计
(2)假设此种疾病治愈率是否与治疗方法无关,
则根据列联表中的数据计算,
所以依据小概率值的独立性检验,认为此种疾病治愈与治疗方法有关,此推断犯错误的概率不大于.
【巩固练习3】某重点中学调查了100位学生在市统考中的理科综合分数,以,,,,,,分组的频率分布直方图如图.
将理科综合分数不低于240分的学生称为成绩“优秀”
(1)估计某学生的成绩为“优秀”的概率;
(2)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为成绩“优秀”与性别有关.
成绩“非优秀”
成绩“优秀”
合计
男
女
15
45
合计
附:,.
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1);(2)列联表答案见解析,没有的把握认为成绩“优秀”与性别有关.
【分析】(1)根据频率分布直方图求出“非优秀”的概率,再利用概率和为1求出“优秀”的概率;(2)先求出优秀的人数,再逐一填其他量,代入公式计算得出结论.
【详解】解:(1)根据频率分布直方图可得某学生的成绩为“优秀”的概率为.
(2)由频率分布直方图可知,在抽取的100人中,成绩“优秀”的有30人,从而2×2列联表如下:
成绩“非优秀”
成绩“优秀”
合计
男
40
15
55
女
30
15
45
合计
70
30
100
将2×2列联表中的数据代入公式计算,得
因为,所以没有的把握认为成绩“优秀”与性别有关.
【巩固练习4】网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如图的频数直方图.将周平均网购次数不小于4次的民众称为网购迷.这100名市民中,年龄不超过40岁的有65人,且网购迷中有5名市民的年龄超过40岁.
(1)根据已知条件完成下面的2×2列联表,能否在犯错误的概率不超过0.10的前提条件下认为网购迷与年龄不超过40岁有关?
网购迷
非网购迷
合计
年龄不超过40岁
年龄超过40岁
合计
(2)现从网购迷中按分层抽样选5人代表进一步进行调查,若从5人代表中任意挑选2人,求挑选的2人中有年龄超过40岁的概率.
附:
【答案】(1)填表见解析;能;(2).
【分析】(1)根据已知条件完成2×2列联表,并求得卡方值,与3.297进行比较,判断相关性;
(2)由频数分布直方图知,网购迷共有25人,现从网购迷中按分层抽样选5人代表,记其中年龄超过40岁的1名市民为A,其余4名年龄不超过40岁的市民为,现从5人中任取2人,列举出所有的情况,找到满足情况的种类数,从而求得概率.
【详解】(1)根据已知条件完成2×2列联表,如下:
网购迷
非网购迷
合计
年龄不超过40岁
20
45
65
年龄超过40岁
5
30
35
合计
25
75
100
计算
因为3.,所以据此列联表判断,能在犯错误的概率不超过的前提下,认为网购迷与年龄不超过40岁有关.
(2)由频数分布直方图知,网购迷共有25人,现从网购迷中按分层抽样选5人代表,记其中年龄超过40岁的1名市民为A,其余4名年龄不超过40岁的市民为,现从5人中任取2人,基本事件是、Ae、Af、cd、ce、cf、de、df,ef共有10种,其中有市民年龄超过40岁的基本事件是共4种,故所求的概率为.
5 / 6
学科网(北京)股份有限公司
$$【重难点突破】2024-2025学年高二下学期热点题型专练(新高考)
专题4-1成对数据的统计(基础):相关系数,回归方程,独立性检验
总览
题型·解读
【题型1】相关关系与函数关系的概念及辨析
【题型2】 样本相关系数的意义及辨析
【题型3】相关系数的计算
【题型4】回归直线方程的意义与样本中心点
【题型5】残差的计算
【题型6】刻画回归效果的方式
【题型7】利用最小二乘估计公式求回归直线方程
【题型8】决定系数计算
【题型9】由散点图求近似回归方程(非线性)
【题型10】非线性拟合小题
【题型11】联表的完善
【题型12】独立性检验的概念及辨析
【题型13】卡方的计算
题型汇编
知识梳理与常考题型
【题型1】相关关系与函数关系的概念及辨析
基础知识
概念梳理
函数关系:指变量之间存在的一种严格、完全确定性的关系,即一个变量的数值完全由另一个变量的数值所确定、控制。函数关系通常可以用数学公式确切地表示出来,例如圆的面积与半径之间的关系.
相关关系:不是完全确定的,即一个变量的变化不能完全决定另一个变量的变化,例如身高与体重之间的关系,虽然身高和体重有关,但身高不能完全决定体重.
典型例题
【例题1】(24-25高二下·河南洛阳·阶段练习)下列说法正确的是( )
A.任何两个变量都具有相关关系
B.球的体积与该球的半径具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【例题2】(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的成本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
巩固练习
题型
【巩固练习1】(23-24高二下·吉林·期末)下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
【巩固练习2】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【巩固练习3】(23-24高二下·安徽·期末)下列两个变量之间的关系是相关关系的是( )
A.等边三角形的边长a与其面积S
B.匀速直线行驶的汽车的位移s与行驶时间t
C.杂交水稻植株的高度h与土壤湿润度r
D.某班的学生人数n与该班某次数学考试的平均分x
【题型2】 样本相关系数的意义及辨析
基础知识
样本相关系数r:衡量两个变量之间线性关系的强弱
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
典型例题
【例题1】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【例题2】(23-24高二下·黑龙江哈尔滨·期末)(多选)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.样本相关系数r变小 D.样本相关系数r变大
【例题3】(23-24高二下·吉林长春·期中)已知变量x与y的回归直线方程为,变量y与z负相关,则( )
A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关
巩固练习
题型
【巩固练习1】(23-24高二下·北京东城·期末)某校学生科研兴趣小组为了解1~12岁儿童的体质健康情况,随机调查了20名儿童的相关数据,分别制作了肺活量、视力、肢体柔韧度、BMI指数和身高之间的散点图,则与身高之间具有正相关关系的是( )
A.肺活量 B.视力 C.肢体柔韧度 D.BMI指数
【巩固练习2】(24-25高二下·江西上饶·阶段练习)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【巩固练习3】(24-25高二上·河北沧州·阶段练习)变量与相对应的一组数据为;变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )
A. B.
C. D.
【题型3】相关系数的计算
基础知识
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
若线性相关程度很高,则两个变量之间可用线性线性回归模型拟合.
典型例题
【例题1】若已知是的两倍,是的1.2倍,则相关系数r的值为( )
A. B. C.0.92 D.0.65
【例题2】部门所属的10个工业企业生产性固定资产价值与工业增加值数据如下(单位:百万元):
固定资产价值
3
3
5
6
6
7
8
9
9
10
工业增加值
15
17
25
28
30
36
37
42
40
45
根据上表数据计算的相关系数为( )
A.0 B.-0.8973 C.1.0228 D.0.9918
巩固练习
题型
【巩固练习1】一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,,,,,则y与x的相关系数r的绝对值为( )
A.0.6 B.0.5
C.0.4 D.0.3
【巩固练习2】某大学生在国家提供的税收、担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数(单位:万元)与时间(单位:年)的数据,列表如下:
1
2
3
4
5
2.4
2.7
4.1
6.4
7.9
依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
【题型4】回归直线方程的意义与样本中心点
基础知识
回归直线方程是统计学中用于描述两个变量间线性关系的数学模型,其形式为,其中a为截距,b为回归系数(斜率)。通过最小二乘法,该方程最小化了数据点与直线的垂直距离平方和,从而反映变量间的整体趋势。
重要考点:回归直线必经过样本中心点,且b表示自变量每增加1单位时因变量的平均变化量。其应用包括预测、决策优化及理论验证,但需先通过散点图确认线性关系,避免非线性或异常值影响结果。
典型例题
【例题1】小明同学在做市场调查时得到如下样本数据:
x
1
3
6
10
y
8
a
4
2
他由此得到回归直线方程为,则下列说法不正确的是( )
A.变量x与y线性负相关 B.当时可以估计
C. D.变量x与y之间是函数关系
【例题2】某单位为了了解用电量y度与气温之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得回归直线方程中,预测当气温为时,用电量约为 度.
【例题3】某种产品的价格x(单位:元/)与日需求量y(单位:)之间的对应数据如表所示:
x
10
15
20
25
30
y
11
10
8
6
5
根据表中的数据可得回归直线方程为,则以下结论错误的是( )
A.变量y与x呈负相关 B.回归直线经过点
C. D.该产品价格为35元/时,日需求量大约为
巩固练习
题型
【巩固练习1】下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:°C)的对比表,已知表中数据计算得到y关于x的线性回归方程为,则据此模型预计时卖出奶茶的杯数为( )
气温x/℃
5
10
15
20
25
杯数y
26
20
16
14
14
A.9 B.10 C.11 D.12
【巩固练习2】(23-24高二下·浙江杭州·期中)已知x,y的对应值如下表所示:若y与x线性相关,且求得的回归直线方程为,则( )
x
12
9
14
y
27
20
m
A.30 B.31 C.32 D.33
【巩固练习3】某学生在对50位同学的身高(单位:)与鞋码(单位:欧码)的数据进行分析后发现两者呈线性相关,得到经验回归方程.若50位同学身高与鞋码的均值分别为,则 .
【巩固练习4】为助力新冠肺炎疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了对该产品进行合理定价,采用不同的单价在平台试销,得到的数据如下表所示:
单价元
销量万件
(1)求单价的平均值;
(2)根据以上数据计算得与具有较强的线性相关程度,并由最小二乘估计求得关于的经验回归方程为,求的值.
【题型5】残差的计算
基础知识
(1)残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(3)残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
典型例题
【例题1】(23-24高二下·湖南长沙·阶段练习)对具有线性相关关系的变量x,y有一组观测数据,其经验回归方程为,且,,则相应于点的残差为 .
【例题2】(23-24高二下·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
巩固练习
题型
【巩固练习1】(23-24高二下·福建泉州·期末)某学校一同学研究温差与本校当天新增感冒人数人的关系,该同学记录了5天的数据:
5
6
8
9
12
(人)
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则当时,残差为 .
【巩固练习2】(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
【巩固练习3】近几年,我国新能源汽车产业进入了加速发展的阶段,呈现市场规模、发展质量“双提升”的良好局面.新能源汽车的核心部件是动力电池,其中的主要成分是碳酸锂.下表是某地2023年3月1日至2023年3月5日电池级碳酸锂的价格与日期的统计数据:
日期代码
1
2
3
4
5
电池级碳酸锂价格(十万元/吨)
4.1
3.9
3.8
3.9
根据表中数据,得出关于的经验回归方程为,根据数据计算出在样本点处的残差为,则的值为 .
【题型6】刻画回归效果的方式
基础知识
刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
(4)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
典型例题
【例题1】(23-24高二上·四川绵阳·期末)有一散点图如图所示,在5个数据中去掉后,给出下列说法:①相关系数r变大;②相关指数变大;③残差平方和变小;④变量x与变量y的相关性变强.其中正确说法的个数为( )
A.1个 B.2个 C.3个 D.4个
【例题2】下列说法错误的是( )
A.决定系数越大,模型的拟合效果越好
B.若变量和之间的样本相关系数为,则变量和之间的负相关很强
C.残差平方和越小的模型,拟合的效果越好
D.在经验回归方程中,当解释变量每增加1个单位时,响应变量平均增加2个单位
【例题3】红铃虫是棉花的主要害虫之一,一只红铃虫的产卵数和温度有关.现收集了7组观测数据.用4种模型分别进行拟合.由此得到相应的回归方程并进行残差分析,进一步得到如图4幅残差图,根据残差图,拟合效果最好的模型是( )
A.模型一 B.模型二 C.模型三 D.模型四
巩固练习
题型
【巩固练习1】(23-24高二上·四川绵阳·期末)有一散点图如图所示,在5个数据中去掉后,给出下列说法:①相关系数r变大;②相关指数变大;③残差平方和变小;④变量x与变量y的相关性变强.其中正确说法的个数为( )
A.1个 B.2个 C.3个 D.4个
【巩固练习2】为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
【巩固练习3】为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则( )
A.< B.=
C.> D.、关系不能确定
【题型7】利用最小二乘估计公式求回归直线方程
基础知识
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
典型例题
【例题1】(24-25高三上·浙江·期末)年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
【例题2】节能降耗是企业的生存之本,树立一种“点点滴滴降成本,分分秒秒增效益”的节能意识,以最好的管理,来实现节能效益的最大化,为此某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:
年号
1
2
3
4
5
年生产利润y(单位千万元)
0.7
0.8
1
1.1
1.4
预测第10年该国企的生产利润约为( )
(参考公式)
A.1.85 B.2.02 C.2.19 D.2.36
【例题3】(23-24高二下·河北沧州·期末)两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
巩固练习
题型
【巩固练习1】已知某水果种植基地苹果的种植面积(单位:公顷)与其产量(单位:吨)呈线性相关关系,小王准备承包一块苹果种植地,为了解市场行情,在该基地调查了5家果农,统计得到了苹果种植面积与其产量的数据如表所示,求关于的线性回归方程;
种植面积/公顷
1
2
3
4
5
产量/吨
20
38
64
78
100
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
【巩固练习2】(23-24高二下·江西·期末)防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.
参考公式:相关系数;回归直线的方程是,其中.
【巩固练习3】某省为做好刺梨产业的高质量发展,统计了全省近5年刺梨产业综合产值如下:
年份代码x,综合产值y(单位:亿元)
年份
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
综合产值y
1.5
2
3.5
8
15
(1)请通过样本相关系数,推断y与x之间的相关程度;(若,则线性相关性程度很强;若,则线性相关性程度一般,若,则线性相关性程度很弱.)
(2)求出y关于x的经验回归方程,并预测 2025 年该省刺梨产业的综合产值.
参考公式:样本相关系数经验回归方程 中斜率和截距的最小二乘法估计公式分别为,.
参考数据:
【题型8】决定系数计算
基础知识
决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
典型例题
【例题1】.(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
【例题2】(23-24高二下·四川成都·期中)某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地为了研究海水浓度(%)对亩产量(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度(%)
3
4
5
6
7
亩产量(吨)
0.57
0.53
0.44
0.36
0.30
残差
-0.01
0.02
m
n
0
绘制散点图发现,可以用线性回归模型拟合亩产量(吨)与海水浓度(%)之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.
(1)求的值;(参考公式:)
(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量的差异有是解释变量引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由灌溉海水浓度引起的?
附残差相关指数其中
巩固练习
题型
【巩固练习1】(24-25高二下·全国·课后作业)某蔬菜的保鲜时间(小时)与存放温度样本数据如下表所示:
存放温度
21
15
10
6
3
保鲜时间小时
6
14
26
33
41
建立关于的一元线性回归模型,预测存放温度为时,这种蔬菜的保鲜时间约为 小时(,及结果保留到整数);该模型的决定系数 (保留2位小数).附:.
【巩固练习2】(23-24高二下·河南信阳·期末)华为Pura70的发布是中国芯片行业的重大突破,华为的高端手机越来越受到消费者的青睐.某手机店今年2~6月份Pura70手机的销量如下表所示:
月份
2
3
4
5
6
手机销量(部)
42
53
66
109
用最小二乘法得到手机销量(单位:部)关于月份的回归直线方程为,且销量的方差.
(1)求;
(2)求相关系数(精确到0.01),并据此判断手机销量与月份的相关性强弱(若,则可判断与线性相关较强);
(3)求时的残差;已知,求决定系数(精确到0.01).
附:回归系数,相关系数,决定系数,.
【题型9】由散点图求近似回归方程(非线性)
典型例题
【例题1】如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下列最适宜作为此模型的回归方程类型的是( )
A. B.
C. D.
【例题2】某地不同身高的未成年男性的体重平均值如下表:
身高()
60
70
80
90
100
110
120
130
140
150
160
170
平均体重()
6.13
7.9
10
12.2
15
17.5
20.9
26.9
31.1
38.6
47.3
55.1
表格中的数据形成图所示的散点图.则在以下函数模型中,描述这个地区未成年男性平均体重y(单位:)与身高x(单位:)的函数关系最合适的是( )
A. B. C. D.
巩固练习
题型
【巩固练习1】变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( ).
A. B. C. D.
【巩固练习2】如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【题型10】非线性拟合小题
基础知识
高中非线性拟合题型主要涉及变量代换法与最小二乘法,常见于统计与数学建模问题。典型题型包括:
1. 选择题:判断非线性模型类型(如指数型、对数型)及参数关系,例如通过散点图或变换后的线性回归方程推导原模型参数(如已知的回归方程求a, b)
2. 填空题:计算特定参数或预测值,如根据已知数据求指数模型中的k值或预测变量取值。
3. 解答题:分步骤完成拟合过程,包括画散点图、选择模型、求回归方程及验证拟合效果(如利用R²比较模型优劣)。
4. 综合应用题:结合实际情境(如生物种群增长、商品销量预测),建立非线性回归模型并分析结果。
典型例题
【例题1】(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【例题2】用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
【例题3】(24-25高二下·内蒙古通辽·阶段练习)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
24
2.9
646
168
422688
50.4
70308
表中,,,;
(1)根据残差图,比较模型①、②的拟合效果,模型 比较合适?
(2)根据(1)中所选择的模型,求出y关于x的回归方程是 .附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
巩固练习
题型
【巩固练习1】(23-24高二下·河南驻马店·阶段练习)以曲线拟合一组数据时,经代换后的线性回归方程为,则 , .
【巩固练习2】(23-24高二下·四川眉山·期末)以曲线拟合一组数据时,经代换后的线性回归方程为,则 .
【巩固练习3】(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【题型11】联表的完善
基础知识
列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
典型例题
【例题1】某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
巩固练习
题型
【巩固练习1】(24-25高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
【巩固练习2】如图列联表中,的值分别为
总计
23
48
总计
78
121
A.54,43 B.53,43 C.53,42 D.54,42
【题型12】独立性检验的概念及辨析
基础知识
独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验,显著性水平判断:根据卡方统计量()与临界值的比较,确定变量关联的显著性。例如,若> 3.841,则有95%的把握认为变量相关;或者说变量相关犯错误的概率不超过 0.05.
越大,变量关联性越强.
典型例题
【例题1】(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【例题2】(23-24高二下·陕西·期中)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
0.15
0.10
0.05
0.025
0.010
k
2.072
2.706
3.841
5.024
6.635
A. B. C. D.
【例题3】(多选)为考察一种新型药物预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的列联表中,由列联表中的数据计算得.参照附表,下列结论正确的是( )
附表:
A.根据小概率值的独立性检验,分析认为“药物有效”
B.根据小概率值的独立性检验,分析认为“药物无效”
C.根据小概率值的独立性检验,分析认为“药物有效”
D.根据小概率值的独立性检验,分析认为“药物无效”
【例题4】(23-24高二下·河南南阳·阶段练习)(多选)如表,在两个变量与的列联表中,已知,其中,下列结论正确的是( )
总计
a
b
c
d
总计
A.若每个数据a,b,c,d均变为原来的2倍,则的值不变
B.越大,两个变量有关联的可能性越大
C.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越大
D.若计算得到,则有的把握认为与有关
巩固练习
题型
【巩固练习1】(23-24高二下·天津滨海新·阶段练习)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是(参考数据:)( )
①若的观测值满足,我们有99%的把握认为吸烟与患肺病有关系;
②若的观测值满足,那么在100个吸烟的人中约有99人患有肺病;
③从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的可能性会患肺病;
④从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误.
A.②③ B.②③④ C.①②④ D.①④
【巩固练习2】(23-24高二下·广东深圳·阶段练习)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表,并由计算得:,参照附表,则下列结论正确的是( )
附:
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关
【巩固练习3】(23-24高二下·山东烟台·阶段练习)(多选)关于统计量,下列说法正确的是( )
A.统计量的值越大,两个分类变量的线性相关程度越强
B.若求出统计量,由于6.31比较接近,因此能推断两个分类变量有关系,且犯错误概率不超过0.01
C.独立性检验的本质是比较观测值与期望值之间的差异,由统计量所代表的这种差异的大小是通过确定适当的小概率值来进行判断的
D.根据统计量的构造过程可知,的值越小,零假设成立的可能性越大.
【巩固练习4】(23-24高二下·福建宁德·期末)根据分类变量 X 和Y 的样本观察数据的计算结果,有不少于95%的把握认为 X 和Y 有关,则的值不可能为( )
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
A.2.819 B.5.512 C.6.635 D.8.243
【巩固练习5】(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【题型13】卡方的计算
基础知识
独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
典型例题
【例题1】(23-24高二下·广东·阶段练习)为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学研究性学习小组进行了调查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:
使用手机情况
成绩
合计
及格
不及格
很少
20
5
25
经常
10
15
25
合计
30
20
50
参考公式:,其中.
附表:
0.05
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
参照附表,得到的正确结论是( )
A.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”
B.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”
C.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩无关”
D.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”
【例题2】以“智联世界,生成未来”为主题的2023世界人工智能大会在中国上海举行,人工智能的发展为许多领域带来了巨大的便利,但同时也伴随着一些潜在的安全隐患.为了调查人们对人工智能所持的态度,某机构从所在地区随机调查100人,所得结果统计如下:
年龄在50岁以上(含50岁)
年龄在50岁以下
性别
男
女
男
女
持支持态度
15
10
30
15
不持支持态度
10
10
5
5
(填“有”或“没有”)的把握认为所持态度与年龄有关.
附:,.
0.10
0.05
0.01
k
2.706
3.841
6.635
【例题3】在2×2列联表中,若每个数据变为原来的2倍,则的值变为原来的倍数为( )
A.8倍 B.4倍 C.2倍 D.不变
巩固练习
题型
【巩固练习1】(24-25高二下·山东德州·阶段练习)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
附:
0.10
0.05
0.01
0.005
k
2.706
3.841
6.635
7.789
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【巩固练习2】为了研究某种疾病的治愈率,某医院从过往病例中随机抽取了名患者,其中一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如图.
(1)根据图表完善以下关于治疗方法和治愈情况的列联表:
疗法
疗效
合计
未治愈
治愈
外科疗法
化学疗法
合计
(2)依据小概率值的独立性检验,分析此种疾病治愈率是否与治疗方法有关.
附:,
【巩固练习3】某重点中学调查了100位学生在市统考中的理科综合分数,以,,,,,,分组的频率分布直方图如图.
将理科综合分数不低于240分的学生称为成绩“优秀”
(1)估计某学生的成绩为“优秀”的概率;
(2)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为成绩“优秀”与性别有关.
成绩“非优秀”
成绩“优秀”
合计
男
女
15
45
合计
附:,.
0.050
0.010
0.001
k
3.841
6.635
10.828
【巩固练习4】网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如图的频数直方图.将周平均网购次数不小于4次的民众称为网购迷.这100名市民中,年龄不超过40岁的有65人,且网购迷中有5名市民的年龄超过40岁.
(1)根据已知条件完成下面的2×2列联表,能否在犯错误的概率不超过0.10的前提条件下认为网购迷与年龄不超过40岁有关?
网购迷
非网购迷
合计
年龄不超过40岁
年龄超过40岁
合计
(2)现从网购迷中按分层抽样选5人代表进一步进行调查,若从5人代表中任意挑选2人,求挑选的2人中有年龄超过40岁的概率.
附:
5 / 6
学科网(北京)股份有限公司
$$