内容正文:
清单07 第七章 统计案例
(4个考点梳理+8题型解读+提升训练)
清单01 相关系数
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
清单02 一元线性回归模型
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
清单03 决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
清单04 独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【考点题型一】相关系数的意义()
【例1】(23-24高二下·浙江宁波·期末)给出四组成对数据:(1);(2);(3);(4),其中样本相关系数最小的是( )(提示:样本相关系数)
A.(1) B.(2) C.(3) D.(4)
【答案】D
【知识点】相关系数的计算、绘制散点图
【分析】画出散点图,结合相关性的定义即可求解.
【详解】分别作出四组数据的散点图,
根据散点图可知:第(1)(2)呈正相关,第(3)(4)组数据呈现负相关,但显然第(4)组相关系数更小,
故选:D
【变式1-1】.(24-25高二下·江西·阶段练习)对两组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】D
【知识点】判断正、负相关、相关系数的意义及辨析
【分析】根据散点图及相关系数的概念判断即可.
【详解】由散点图可知,图(1)中两个变量成正相关,且散点图近似在一条直线上,所以且;
图(2)中两个变量成负相关,且散点图比较分散,所以且;
所以.
故选:D
【变式1-2】.(24-25高二下·辽宁葫芦岛·阶段练习)观察下列散点图,其中两个变量的相关关系判断一定正确的是( )
A.图1中y与x呈正相关
B.图2中y与x不相关
C.图3中y与x的线性相关系数小于0
D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数
【答案】D
【知识点】判断正、负相关、相关系数的意义及辨析
【分析】根据给定的散点图,利用正负相关的意义、相关系数的意义逐项判断.
【详解】对于A,图1中随增大而减小, y与x呈负相关,A错误;
对于B,图2中各点较分散,y与x的相关性不强,不能肯定不相关,B错误;
对于C,图3中随增大而增大,y与x呈正相关,相关系数大于0,C错误;
对于D,图1与图2,y与x都呈负相关,相关系数为负,
而图1中y与x的线性相关性较图2中y与x的线性相关性强,
所以,图1中y与x的线性相关系数小于图2中y与x的线性相关系数,D正确.
故选:D
【变式1-3】.(多选)(24-25高三下·江西赣州·期中)调研某工厂的生产投入(生产工时/天)对产量(件/天)和每件产品的平均能源消耗(千瓦时/件)的影响,得到如下数据:
(生产工时/天)
10
20
30
40
50
60
(件/天)
50
101
149
202
248
301
(千瓦时/件)
19.8
19.1
15.2
14.5
13.0
9.2
现在对与,与分别进行相关性分析,得到相关系数分别为,,则下列判断正确的是( )
A. B. C. D.
【答案】AC
【知识点】相关系数的意义及辨析、判断正、负相关
【分析】根据所给数据及相关系数的概念及性质判断即可.
【详解】由表格数据可知增大也增大,即与呈正相关,所以,故A正确;
因为增大时反而越来越少,所以与呈负相关,所以,故B错误;
因为每增加,增加的量分别为,,,,,增加的量接近且偏差不大,
而每增加,减少的量分别为,,,,,偏差较大,
即与的相关性更强,所以,即,所以,故C正确,D错误.
故选:AC
【变式1-4】.(24-25高二下·山西·期中)以下是标号分别为①,②,③的三幅散点图,它们的样本相关系数分别为,那么相关系数的大小关系为 .(按由小到大的顺序排列).
【答案】
【知识点】判断正、负相关、相关系数的意义及辨析、根据散点图判断是否线性相关
【分析】根据给定的散点图,结合相关性强弱及正负相关求得大小关系.
【详解】图①散点线性相关关系较弱,接近于0;
图②散点数据负相关,且线性相关程度很强,接近于;
图③散点数据正相关,且线性相关程度较强,接近于1,
所以相关系数的大小关系为.
故答案为:
【考点题型二】样本相关系数的计算()
【例2】(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
【答案】(1),
(2),可以用线性回归模型拟合与之间的关系,理由见解析
【知识点】计算几个数的平均数、相关系数的计算、相关系数的意义及辨析
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解,再根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)因为,
,
故;
因为与的相关系数的绝对值近似为,大于且非常接近,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
【变式2-1】.(24-25高二下·全国·课后作业)已知,,,,则相关系数 .(相关系数)
【答案】
【知识点】相关系数的计算
【分析】应用相关系数公式及已知数据求相关系数.
【详解】由题设,有.
故答案为:.
【变式2-2】.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【答案】(1)13;11
(2)
(3)可以用线性回归模型拟合与之间的关系,理由见解析
【知识点】相关系数的意义及辨析、相关系数的计算、计算几个数的平均数
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解;
(3)根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)计算得,
故;
(3)由(2)可知,与的相关系数的绝对值近似为0.992,大于0.75且非常接近1,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
【变式2-3】.(24-25高二·全国·课堂例题)为了对2020年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
68
72
78
81
85
88
91
93
物理成绩
70
66
81
83
79
80
92
89
用变量与的样本相关系数(精确到0.01)说明物理成绩与数学成绩的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据:,.
【答案】答案见解析
【知识点】相关系数的意义及辨析、相关系数的计算
【分析】分别计算出、,然后求出相关系数说明物理与数学的相关程度.
【详解】因为:,
,
所以.
所以,由样本估计总体,可知物理成绩与数学成绩的线性相关程度较强,且呈正相关,它们的变化趋势相同.
【变式2-4】.(23-24高二下·河北张家口·阶段练习)桹据统计得到某蔬菜基地茄子亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明;(若,则线性相关程度很高,可用线性回归模型拟合)
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为10千克时,茄子亩产量的增加量y约为多少?
附:相关系数公式,参考数据:,回归方程中斜率的最小二乘估计公式为:.
【答案】(1),,线性相关程度很高,可用线性回归模型拟合与的关系.
(2),当时,.
【知识点】根据回归方程进行数据估计、相关系数的计算、求回归直线方程
【分析】(1)由散点图求出、、、、,再由相关系数的计算公式求出,比较与0.75的大小即可.
(2)求出和,可得线性回归方程,并利用线性回归方程进行预测即可.
【详解】(1)通过散点图可知,,,
所以,
,
,
所以,
因为,所以线性相关程度很高,可用线性回归模型拟合与的关系.
(2)由(1)可知,,,
所以.
当时,.
所以预测液体肥料每亩使用量为10千克时,茄子亩产量的增加量约为6.5千克.
【考点题型三】样本相关指数计算()
【例3】(23-24高二·全国·课后作业)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本x
83
83.5
80
86.5
89
84.5
79
86.5
利润y
114
116
106
122
132
114
m
132
残差
0.2
0.6
1.8
-3
-1
-4.6
-1
根据最小二乘法公式求得经验回归方程为.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【知识点】线性回归、残差的计算、相关指数的计算及分析
【分析】(1)根据线性回归方程横过定点()可求m,由求得;
(2)根据的计算公式计算的值,再与比较大小即可得解.
【详解】(1)∵,,
∴.
则,解得;
8月份对应的残差值.
(2),
则,
∴线性回归模型拟合程度更好.
【变式3-1】.(23-24高二下·四川眉山·期末)某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(t)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表
海水浓度x(%)
3
4
5
6
7
亩产量y(t)
0.56
0.52
0.46
0.35
0.31
残差
0.01
m
n
0.01
绘制散点图发现,可以用线性回归模型拟合亩产量y(t)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为
(1)求,m,n的值;
(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
附:残差,相关指数,其中
【答案】(1),,;
(2),亩产量的变化有是由浇灌海水浓度引起的.
【知识点】相关指数的计算及分析、根据样本中心点求参数、残差的计算
【分析】(1)求出样本中心点代入回归方程求,再利用残差公式求m、n即可.
(2)根据相关指数公式求,进而写出结论即可.
【详解】(1)由题设,,,
所以,可得,
,
.
(2)由(1)知:,,
所以,
故亩产量的变化有是由浇灌海水浓度引起的.
【变式3-2】.(2024·陕西西安·三模)某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
11
12
2
3
4
6
8
10
13
21
22
23
24
25
15
22
27
40
48
54
60
68.5
68
67.5
66
65
当时,建立了y与x的两个回归模型:
模型①:;模型②:;
当时,确定y与x满足的线性回归直线方程为.
请根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合效果更好的模型.
回归模型
模型①
模型②
回归方程
79.13
20.2
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少元.
附:①若最小二乘法求得回归直线方程为,则;②;③,当时,.
相关指数的计算公式为:,当越大时,回归方程的拟合效果越好;当越小时,回归方程的拟合效果越差.
【答案】(1)答案见解析
(2)(亿元)
【知识点】相关指数的计算及分析、根据回归方程进行数据估计、根据样本中心点求参数
【分析】(1)直接计算模型一和模型二的相关指数,比较大小即可;
(2)先计算出,当投入为20亿元时,直接由的线性回归直线方程求解即可.
【详解】(1)对于模型①,因为,故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合效果更好.
(2)当时,
后五组的,,
可得,
所以当时,确定y与x满足的线性回归直线方程为
故当投入20亿元时,预测公司的收益约为:(亿元).
【变式3-3】.(23-24高二下·陕西西安·期中)某大学一男生统计了本宿舍7名舍友的体重y(单位:kg)与身高x(单位:cm)的数据,见下表:
姓名
吕聪
梁力
李泽文
张天哲
王硕
武勇
商宝清
身高
161
175
169
178
173
168
180
体重
52
62
54
70
66
57
73
(1)若根据表中数据计算得到y关于x的线性回归方程为,求;
(2)为判断(1)中回归方程的拟合效果,请求出相关指数的值(保留两位小数).
参考公式及数据:,.
【答案】(1)
(2)
【知识点】相关指数的计算及分析、计算样本的中心点、根据样本中心点求参数
【分析】(1)利用回归直线方程过样本点的中心,根据表格,分别求出,,代入回归方程即可求解.
(2)根据表中数据,分别求出、的值,进而代入公式求解即可.
【详解】(1)由题知,,
,
将代入回归方程,得.
(2),
因为,所以,
,
所以,
故相关指数的值约为.
【考点题型四】残差有关计算()
【例4】(2025·黑龙江哈尔滨·一模)由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .
【答案】
【知识点】残差的计算、根据样本中心点求参数、计算样本的中心点
【分析】首先求剩余数据的中心点,再代入回归直线方程求,再代入求,即可求残差值.
【详解】由于回归直线过样本中心点,当时,,
去除偏离点后,剩余数据的中心点为,
则,,
将点的坐标代入回归直线方程,可得,解得,所以,新的回归直线方程为,当时,,
所以,去除偏离点后,相应于样本点的残差值为.
故答案为:.
【变式4-1】.(2025·云南·三模)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【知识点】求回归直线方程、根据样本中心点求参数、残差的计算
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线方程,估计的对应值,最后由残差的定义求解即可.
【详解】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以时,有,故残差为,
故选:B.
【变式4-2】.(24-25高二上·吉林·期末)某地根据以往数据,得到当地16岁男性的身高与其父亲身高的经验回归方程为,当地人小王16岁时身高167cm,他父亲身高180cm,则小王身高的残差为( )
A. B. C.2cm D.3cm
【答案】A
【知识点】残差的计算
【分析】首先根据回归方程求小王身高的预测值,再计算残差.
【详解】当时,得,则(),
所以小王身高的残差为.
故选:A
【变式4-3】.(23-24高三上·全国·开学考试)对具有线性相关关系的变量,有一组观测数据,其经验回归方程为,且,则相应于点的残差为 .
【答案】/
【知识点】残差的计算、根据样本中心点求参数
【分析】利用样本中心在回归直线方程上及残差的定义即可求解.
【详解】因为,
所以样本点的中心为,
又因为经验回归直线过样本点的中心,
所以,
所以,
所以经验回归方程为.
当时,,
所以残差为.
故答案为:.
【考点题型五】一元线性回归模型()
【例5】(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
【答案】(1)拟合效果非常好,理由见解析
(2);
【知识点】求回归直线方程、相关系数的计算、相关系数的意义及辨析、根据回归方程进行数据估计
【分析】(1)首先根据表格里面的数据求出的平均值,然后根据根据相关系数公式求出相关系数.
(2)首先求出回归方程的表达式,然后将冷却速率值代入,求出金属的凝固点温度.
【详解】(1)易知,
因为,,
,
因为
所以该经验回归方程的拟合效果非常好.
(2)由(1)知,由,
因为,
所以,故所求的经验回归方程为.
当时,,
所以冷却速率为时,该金属的凝固点温度为.
【变式5-1】.(24-25高二下·甘肃甘南·期末)在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
年产量y(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立y关于x的线性回归方程;
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
【答案】(1)
(2)
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)先求出和的值,然后求出,进而由,,可求出,从而可求出关于的线性回归方程;
(2)当年份为2025年时,年份代码为,由(1)求得的回归方程,求出的值即可.
【详解】(1)由题意可知:
,
,
,
所以,
又,
故关于的线性回归方程为.
(2)由(1)可得,当年份为2025年时,年份代码为,此时.
所以可预测2025年该地区该农产品的年产量约为万吨.
【变式5-2】.(24-25高二下·山东烟台·期中)某种产品销售价格x(万元/吨)和销售量y(吨)的变化情况如表:
x
5
5.5
6
6.5
7
y
13
11
10
9
7
(1)计算y与x的相关系数r,并说明y与x的关系是否可用线性回归模型拟合;(一般地,若,则可认为线性相关程度较高,可用线性回归模型拟合.)
(2)若该产品每吨成本为4万元,请利用y与x的回归.关系预测:销售价格定为多少时该产品的销售利润最大?(结果精确到0.01)
参考公式:对于一组数据,
其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,.
【答案】(1)答案见解析
(2)预测销售价格为6.79万元/吨
【知识点】求回归直线方程、根据回归方程进行数据估计、判断两个变量是否有相关关系
【分析】(1)由相关系数的公式,根据表中数据,求得相关系数,结合其性质,可得答案;
(2)由回归直线方程公式求得回归直线方程,代入数据,可得答案.
【详解】(1)由题意,,,
,
,
.
所以,
所以,故与的线性相关程度较高,可以用线性回归模型拟合与的关系.
(2),
所以关于的经验回归方程为.
由题意,销售利润为,
当时,取得最大值,
所以预测销售价格为6.79万元/吨时,该产品销售利润最大.
【变式5-3】.(24-25高二下·陕西榆林·期中)在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
6
年产量(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立关于的线性回归方程.
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
附:对于一组数据,,…,,
其回归直线方程的斜率和截距的最小二乘估计分别为
,.
【答案】(1)
(2)7.56万吨
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)根据公式直接计算求线性回归方程;
(2)当年份为2025年时,年份代码为,利用线性回归方程求解.
【详解】(1)由题意可知:,
,
,
所以,
又,
故关于的线性回归方程为.
(2)(2)由(1)可得,当年份为2025年时,年份代码为,
此时.
所以可预测2025年该地区该农产品的年产量约为7.56万吨.
【考点题型六】非线性回归模型()
【例6】(山东省潍坊市2024-2025学年高二下学期诊断性调研监测数学试题)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量y(库仑)与使用时间t(小时)的散点图,其中t为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ⅱ)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考数据:记
45
12.02
1.55
20.20
285
45.07
3.42
参考公式:.
【答案】(1)更适宜作为回归模型,理由见解析
(2)(i);(ⅱ)会报警提示,理由见解析
【知识点】求回归直线方程、根据回归方程进行数据估计、非线性回归
【分析】(1)从散点图可以看出,剩余电量y(库仑)与使用时间t(小时)不呈线性变化,故更适宜作为回归模型;
(2)(i)两边取对数得,结合数据和公式求出剩余电量y与使用时间t的回归方程;
(ⅱ)在(i)基础上,令得,故会报警提示.
【详解】(1)更适宜作为回归模型,理由如下:
从散点图可以看出,剩余电量y(库仑)与使用时间t(小时)不呈线性变化,
减小速度越来越慢,
呈线性变化,不适宜作为回归模型,故更适宜作为回归模型;
(2)(i)两边取对数得,
由于,
故,
,
即,故,
(ⅱ)会报警提示,理由如下:
中,令得
,
故会报警提示.
【变式6-1】.(24-25高二下·广东中山·阶段练习)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;;
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(系数精确到0.01),并求温度为34℃时,产卵数y的预报值.
(参考数据:,,,)
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
25
2.89
646
168
422688
48.48
70308
【答案】(1)应该选择模型①,理由见解析
(2);250个
【知识点】残差的计算、非线性回归
【分析】(1)由模型①的残差点比较均匀落在水平的带状区域以及带状区域的宽度窄,所以选择模型①比较合适;
(2)令,z与温度x可以用线性回归方程来拟合,则,利用公式和数据求出和,则可以得到y关于温度x的回归方程,当时,可求出产卵数y的预报值.
【详解】(1)应该选择模型①.
由于模型①残差点比较均匀地落在水平的带状区域中,
且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,
回归方程的预报精度相应就会越高,故选模型①比较合适
(2)令,z与温度x可以用线性回归方程来拟合,则.
,
所以,
则z关于x的线性回归方程为.
于是有,
所以产卵数y关于温度x的回归方程为
当时,(个).
所以,在气温在34℃时,一个红铃虫的产卵数的预报值为250个
【变式6-2】.(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【答案】(1)选择,回归方程为
(2)万
【知识点】非线性回归、根据回归方程进行数据估计
【分析】(1)根据散点图可作出判断,令,所以,利用最小二乘法求出、的值,即可得出回归方程;
(2)将代入回归方程,可得结果.
【详解】(1)由散点图可知,更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型.
因为,所以.
因为,,,,
所以,
所以,所以回归方程为.
所以每年月份来哈尔滨的游客数量关于年份代码的回归直线方程为.
(2)当时,,
所以预测年月份来哈尔滨的游客数量为万.
【变式6-3】.(2024高三·全国·专题练习)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
【答案】(1)分布列见解析,
(2),465
【知识点】非线性回归、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)由条件确定的取值,再求取各值的概率,由此可得分布列,再由期望公式求期望;
(2)令,则,利用最小二乘法结论求,由此可得回归方程,再利用回归方程预测成功的总人数.
【详解】(1)由题知,的取值可能为1,2,3,
所以; ;
所以的分布列为:
1
2
3
所以数学期望为
(2)令,,,
则,
由题知:,
,,
所以,
所以,,
故所求的回归方程为:,
所以,估计时,;
估计时,;
估计时,;
预测成功的总人数为.
【考点题型七】独立性检验的基本思想()
【例7】(24-25高二下·全国·课后作业)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
运动
性别
总计
男
女
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
下列结论正确的是( )
A.认为“爱好该项运用与性别有关”,犯错误的概率不超过0.01
B.认为“爱好该项运用与性别无关”,犯错误的概率不超过0.01
C.认为“爱好该项运动与性别有关”,犯错误的概率不超过0.001
D.认为“爱好该项运动与性别无关”,犯错误的概率不超过0.001
【答案】A
【知识点】独立性检验的概念及辨析、卡方的计算
【分析】由独立性检验卡方计算卡方后,结合独立性检验相关概念可得答案.
【详解】由公式,
由可知,认为“爱好该项运动与性别有关”,
犯错误的概率不超过0.01.
故选:A
【变式7-1】.(24-25高二下·全国·课后作业)假设有两个分类变量和,它们的可能取值分别为和,其列联表如下:
总计
总计
对于以下数据,对同一样本能说明与有关的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【答案】B
【知识点】卡方的计算、独立性检验的概念及辨析
【分析】对于同一样本,越大,说明与之间的关系越强.
【详解】根据(其中),
值越大,说明“与有关系”的可能性越大,
对于同一样本,越大,说明与之间的关系越强
对于A,当,,,时,;
对于B,当,,,时,;
对于C,当,,,时,;
对于D,当,,,时,;
因为,所以B中的值最大,即B对应的值最大,说明与之间的关系越强.
故选:B.
【变式7-2】.(24-25高二下·全国·课后作业)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用列联表进行独立性检验,经计算得,则认为“喜欢乡村音乐与性别有关系”的把握约为( )
A.0.1% B.1% C.99% D.99.9%
【答案】C
【知识点】独立性检验的概念及辨析、卡方的计算
【分析】由独立性检验相关知识可得答案.
【详解】易知,对照临界值表知,有99%的把握认为“喜欢乡村音乐与性别有关系”.
故选:C
【变式7-3】.(24-25高二下·全国·课后作业)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
手术
心脏病
合计
又发作过
未发作过
心脏搭桥
39
157
196
血管清障
29
167
196
合计
68
324
392
试根据上述数据计算 ,能否根据小概率值的独立性检验作出这两种手术对病人又发作心脏病的影响有差别的结论 (填“能”或“不能”).
【答案】 1.779 不能
【知识点】独立性检验的概念及辨析、卡方的计算
【分析】第一空,由独立性检验卡方计算公式可得答案;第二空,由独立性检验知识可得答案.
【详解】零假设为:这两种手术对病人又发作心脏病的影响无差别.
根据列联表中的数据,可以求得
,
根据小概率值的独立性检验,我们没有充分的证据推断不成立,
即认为这两种手术对病人又发作心脏病的影响无差别.
故答案为:1.779;不能
【考点题型八】独立性检验解决实际问题()
【例8】(24-25高二下·江苏南京·期中)某地区大型服装店对在该店购买衣服的客户进行满意度调研以便能更好地服务客户,统计了2024年1月至5月对该家服装店不满意的客户人数如下:
月份x
1
2
3
4
5
不满意的人数y
120
105
100
95
80
(1)通过散点图可知对该服装店服务不满意的客户人数y与月份x之间存在线性相关关系,求y关于x的经验回归方程,并预测2024年8月对该大型服装店服务不满意的客户人数;
(2)工作人员从这5个月内的调查表所记录的客户中随机抽查100人,调查满意度与性别的关系,得到下表,能否有99%的把握认为满意度与性别有关?
满意
不满意
合计
女客户
48
12
男客户
22
18
合计
附:经验回归方程为,其中.
,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1),客户人数为55;
(2)有把握.
【知识点】求回归直线方程、独立性检验解决实际问题
【分析】(1)根据给定数据,利用最小二乘法求出经验回归方程,再预测结果.
(2)根据给定的数据求出的观测值,再与临界值比对即可.
【详解】(1)由表中的数据知,,,
,
,,,
不满意人数y与月份x之间的经验回归方程为,
当x=8时,,
所以预测2024年8月对该大型服装店服务不满意的客户人数为55.
(2)零假设:服务满意度与性别无关,
由表中的数据得,
所以有99%的把握认为满意度与性别有关.
【变式8-1】.(23-24高二下·广东惠州·期中)海水养殖场进行某水产品的新、旧网箱养殖法的产量对比,收获时各随机抽取了100个网箱,测量各水箱水产品的产量(单位:),其频率分布直方图如图所示.
(1)求新养殖法的频率分布直方图中小矩形高度x的值:
(2)根据频率分布直方图,填写下面列联表,并根据小概率的独立性检验,分析箱产量与养殖方法是否有关.(计算结果保留三位小数)
养殖法
箱产量
合计
箱产量
箱产量
旧养殖法
新养殖法
合计
.
【答案】(1)
(2)表格见解析,有关
【知识点】由频率分布直方图计算频率、频数、样本容量、总体容量、独立性检验解决实际问题、完善列联表
【分析】(1)利用频率分布直方图的性质求解即可;
(2)列出列联表,求出,即可得出结论.
【详解】(1)由题得,,
解得.
(2)由频率分布直方图得旧养殖法箱产量的频数为,
由频率分布直方图得新养殖法箱产量的频数为,
所以列联表如下:
养殖法
箱产量
合计
箱产量
箱产量
旧养殖法
60
40
100
新养殖法
34
66
100
合计
94
106
200
零假设为:箱产量与养殖方法独立,即箱产量与养殖方法无关.
因,
所以根据小概率值的独立性检验,推断不成立,即箱产量与养殖方法有关,此推断犯错误的概率不大于.
【变式8-2】.(2025·甘肃金昌·模拟预测)已知某高中高一年级共有1200名学生,高二年级共有1100名学生,高三年级共有1000名学生.
(1)对高一、高二、高三年级按比例用分层随机抽样的方法,从全校抽取99名学生参加活动,则高一、高二、高三年级分别抽取多少名学生?
(2)从全校抽取容量为500的有放回简单随机样本,得到如下数学成绩与学生性别的不完整列联表,请补全列联表.
单位:人
性别
数学成绩
合计
不优秀
优秀
男
260
300
女
30
合计
500
(3)依据小概率值的独立性检验,分析(2)中的抽样数据,能否据此推断数学成绩与学生性别有关联?
附:,.
a
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)高一、高二、高三年级分别抽取学生36名、33名、30名.
(2)列联表见解析
(3)认为数学成绩与学生性别无关.
【知识点】卡方的计算、独立性检验的基本思想、抽样比、样本总量、各层总数、总体容量的计算、完善列联表
【分析】(1)由分层抽样的定义计算可得;
(2)根据所给数据填写;
(3)由公式计算可得.
【详解】(1),,
,
故高一、高二、高三年级分别抽取学生36名、33名、30名.
(2)
单位:人
性别
数学成绩
合计
不优秀
优秀
男
260
40
300
女
170
30
200
合计
430
70
500
(3)零假设为:数学成绩与学生性别无关.
.
故依据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为数学成绩与学生性别无关.
【变式8-3】.(2025·甘肃金昌·模拟预测)某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为80%.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长x(分钟)和学生任务完成率y%的对应数据如下:
时长x
20
24
28
32
36
40
完成率y%
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:,.
α
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)能认为
(2)①甲的计算公式计算为,乙的计算公式计算为,乙;②是,证明见解析
【知识点】相关指数的计算及分析、卡方的计算、完善列联表
【分析】(1)完善列联表,计算即可判断;
(2)①分别计算偏差系数比较大小即可;
②采用①中对大偏差数据的存在体现更明昆的数据处理方式,即乙的处理方式是合理的.不妨设,只需证明恒成立,设函数,即,则二次函数的即可得证.
【详解】(1)设男生有人,故,解得,
故男生中选择园艺课的人数为40人,又因为其有400人参加课程、所以女生有200人,女生中选掸家政课的人数为80人.
完善列联表,单位:人
课程
性别
合计
男
女
家政
160
80
240
园艺
40
120
160
合计
200
200
400
零假设为:选择不同劳动教育课程与性别无关联.
因为,
故依据小概率值的独立性检验,我们推断不成立,即认为学生选择不同劳动教育课程与性别有关联,此推断犯错误的概率不大于0.001.
(2)①,
根据甲的计算公式计算:,故;
根据乙的计算公式计算:,
易知,因此乙的偏差系数大,从而乙对大偏差数据的存在体现更明显.
②采用①中对大偏差数据的存在体现更明显的数据处理方式,即乙的处理方式是合理的.
证明:不妨设,只需证明恒成立.
不妨设,则对于任意的,设函数,
即,
则二次函数的,
即,
从而对于原式,令,有,即恒成立,
故此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是合理的.
提升训练
一、单选题
1.(2025·山东泰安·三模)对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:
月份x
1
2
3
4
5
销量y
0.5
1
1.4
建立y与x的线性回归方程为,则第2个月和第4个月的残差和为( )
A.-0.919 B.-0.1 C.0.1 D.0.919
【答案】C
【知识点】残差的计算、根据样本中心点求参数
【分析】先求平均值,将其代入回归方程,故,将2,4代入线性回归方程,根据残差概念计算即可.
【详解】由题意可得,,
将其代入回归方程,得,故,
将2,4代入线性回归方程,则第2,4个月的预测值分别为,,
故第2个月和第4个月的残差和为.
故选:C.
2.(2025高三·全国·专题练习)某地为了促进消费,带动相关产业的发展,先后发放了6次消费券,且每次发放的消费券数额相同,下表为该地这6次发放消费券带动的消费金额(单位:亿元):
消费券发放次序
第一次
第二次
第三次
第四次
第五次
第六次
编号
1
2
3
4
5
6
消费金额(亿元)
2.5
2.8
3.1
3.4
3.8
已知与具有线性相关关系,且满足经验回归方程,则( )
A.1 B.1.6 C.2.9 D.3
【答案】D
【知识点】计算样本的中心点、根据样本中心点求参数
【分析】根据经验回归直线必过样本点的中心及平均数的计算公式计算即可.
【详解】由题意可得,
因为经验回归直线必过样本点的中心,
所以将代入,可得,
故,解得.
故选:D.
3.(24-25高二下·天津南开·期中)为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制丁下侧所示的2×2列联表(个别数据暂用字母表示):
数学成绩
性别
合计
男
女
优秀
27
70
非优秀
58
110
合计
180
临界值表如下:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
经计算得:,参照右上表,有如下结论:①,②;③可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”;④没有充分的证据显示“数学达到优秀等级与性别有关”,则以上结论中正确的为( )
A.①② B.①②④ C.①②③ D.①②③④
【答案】B
【知识点】完善列联表、独立性检验解决实际问题
【分析】利用列联表中数据计算出的值,结合和卡方的临界值表可判断③④.
【详解】由列联表可知,所以:,①正确.
又因为,,所以,②正确.
因为,所以没有充分的证据显示“数学达到优秀等级与性别有关,故③错误,④正确.
故选:B
4.(24-25高二下·辽宁沈阳·期中)某人工智能公司从某年起7年的利润情况如下表所示,关于的回归直线方程是,预测该人工智能公司第8年的利润是多少亿元( )
第年
1
2
3
4
5
6
7
利润/亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.6.2 B.6.3 C.6.4 D.6.5
【答案】B
【知识点】根据回归方程进行数据估计、根据样本中心点求参数
【分析】根据已知条件,求得,,再结合线性回归方程一定经过样本中心点,可求得,进而得到关于的回归直线方程,将代入即可.
【详解】由题意,,,
所以,
所以关于的回归直线方程为,
当时,.
故选:B.
5.(24-25高三下·天津南开·阶段练习)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,经验回归方程为,则下列说法错误的是( )
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.,时,成对样本数据的相关系数满足
D.必定满足经验回归方程
【答案】A
【知识点】相关系数的意义及辨析、相关指数的计算及分析、判断正、负相关、根据样本中心点求参数
【分析】对于A:根据相关系数的性质分析判断;对于B:根据正相关分析判断;对于C:根据,,代入相关系数和最小二乘法公式中即可判断;对于D:根据经验回归方程必过样本中心点即可判断.
【详解】对当越大时,成对样本数据的线性相关程度越强,
例如,,对应的样本数据的线性相关程度更强,故A错误;
于选项B:当时,变量和变量正相关,则,故B正确,
对于选项C:当,时,不变且,
所以,故C正确;
对于选项D:经验回归方程必过样本中心点,
所以必定满足经验回归方程,故D正确.
故选:A.
6.(2025·甘肃金昌·二模)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【知识点】独立性检验的概念及辨析、独立性检验解决实际问题
【分析】求得卡方值,比对临界值,逐个判断即可.
【详解】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
7.(24-25高二下·天津滨海新·期中)下列说法中,正确的个数是( )
①若随机变量X服从正态分布,且,则;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强.
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05.
⑤决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】B
【知识点】相关系数的意义及辨析、相关指数的计算及分析、解释回归直线方程的意义、正态曲线的性质
【分析】根据正态分布对称性的应用可判断命题①;根据相关系数的定义判断命题②;根据残差图的性质判断命题③;根据独立性检验的知识判断命题④,根据决定系数性质判断命题⑤.
【详解】对于①. 已知随机变量服从正态分布,,
则,所以,故①错误;
对于②,线性相关系数的范围在到1之间,有正有负,相关有正相关和负相关,
相关系数的绝对值的大小越接近于1,两个变量的线性相关性越强;
反之,线性相关性越弱,故②错误;
对于③,在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,
则回归方程的预报精确度越高,故③正确;
对于④,据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05,
故④正确.
对于⑤,因为甲的决定系数比乙的决定系数更接近1,所以模型甲的拟合效果更好,命题⑤错误;
故选:B.
8.(2025·天津河东·二模)2024年12月26日,Deep Seek—V3首个版本正式上线,截至2025年2月9日,Deep Seek APP的累计下载量已超1.1亿次,AI成为当下的热门话题.立德中学高中数学社团以16至40岁人群使用Deep Seek频率为课题,分小组自主选题进行调查研究,下列说法正确的是( )
A.甲小组开展了Deep Seek每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,但相关程度很弱
B.乙小组利用最小二乘法得到Deep Seek每周使用频次y关于年龄x的经验回归方程为,可以推断年龄为30岁的群体每周使用频次一定为17次
C.丙小组用决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.733和0.998,因此经验回归方程②的刻画效果比经验回归方程①的好很多
D.丁小组研究性别因素是否影响Deep Seek使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的Deep Seek使用频次没有差异
【答案】C
【知识点】相关系数的意义及辨析、根据样本中心点求参数、相关指数的计算及分析、独立性检验解决实际问题
【分析】由相关系数,回归方程,决定系数,卡方的检验逐项判断即可.
【详解】对于A,由的绝对值越接近1,相关性越强可得A错误,故A错误;
对于B,回归方程为给出的是预测值,实际值会有随机误差,所以年龄为30岁的群体每周使用频次不一定为17次,故B错误;
对于C,表示模型对因变量的解释比例,大说明经验回归方程②的刻画效果比经验回归方程①的好很多,故C正确;
对于D,,可以认为不同性别的Deep Seek使用频次有差异,故D错误.
故选:C
二、多选题
9.(24-25高二下·辽宁·期中)统计学中,常用的显著性水平以及对应的分位数如下表所示.
在检验与是否有关的过程中,根据已知数据计算得,则( )
A.若,则在犯错误的概率不超过的前提下认为与有关
B.若,则在犯错误的概率不超过的前提下认为与无关
C.若,则有的把握认为与有关
D.若,,则
【答案】ACD
【知识点】独立性检验的基本思想
【分析】根据的计算结果与常用的显著性水平的对应的分位数大小关系,判断ABC,结合的性质判断D.
【详解】对于A,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,A正确;
对于B,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,B错误;
对于C,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,C正确;
对于D,因为分布是单调递增的累积分布函数,所以,
所以,D正确;
故选:ACD.
三、填空题
10.(24-25高二下·福建莆田·期中)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,现取了组观察值.计算知,,,,则关于的经验线性回归方程是 .附:,
【答案】
【知识点】求回归直线方程
【分析】求出、的值,将数据代入最小二乘法公式,可求出经验线性回归方程.
【详解】由题干中的数据可得,,
所以,,则.
因此,关于的经验线性回归方程是.
故答案为:.
四、解答题
11.(24-25高二·全国·课堂例题)耐盐碱水稻俗称“海水稻”,是一种可以长在滩涂和盐碱地的水稻.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究浇灌海水浓度(单位:‰)对亩产量(单位:吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与浇灌海水浓度的有关数据如下表.绘制散点图发现,可用线性回归模型拟合亩产量与浇灌海水浓度之间的相关关系,用最小二乘法计算得与之间的经验回归方程为.
浇灌海水浓度
3
4
5
6
7
亩产量吨
0.62
0.58
0.49
0.4
0.31
残差
(1)求,并估计当浇灌海水浓度为8‰时该品种的亩产量;
(2)①将上表补充完整;
②统计学中常用决定系数来刻画回归效果,越大,模型拟合效果越好,如假设,就说明响应变量的差异有是由解释变量引起的.请计算决定系数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
【答案】(1),0.24吨.
(2)①答案见解析;②0.98,亩产量的变化有是由浇灌海水浓度引起的
【知识点】相关系数的意义及辨析、残差的计算、根据回归方程进行数据估计、根据样本中心点求参数
【分析】(1)计算,代入得,当时,代入计算即可求解;
(2)①根据残差计算即可;②根据公式可求相关指数,从而可得亩产量的变化多大程度上是由浇灌海水浓度引起的.
【详解】(1)经计算,得,由可得,,则当时,,所以估计当浇灌海水浓度为8‰时,该品种的亩产量为0.24吨.
(2)①由(1)知,从而有
浇灌海水浓度/‰
3
4
5
6
7
亩产量吨
0.62
0.58
0.49
0.4
0.31
残差
-0.02
0.02
0.01
0
-0.01
②,所以亩产量的变化有是由浇灌海水浓度引起的.
12.(24-25高二·全国·课堂例题)下表是某旅游区游客数量与平均气温的对比表:
平均气温/℃
-1
4
10
13
18
26
数量/万个
0.2
0.24
0.34
0.38
0.5
0.64
若已知游客数量与平均气温是线性相关的,求经验回归方程.
【答案】
【知识点】计算几个数的平均数、求回归直线方程
【分析】利用公式求出,,得到经验回归方程
【详解】,
,
,
.
,,
即所求的经验回归方程为.
13.(24-25高二下·全国·单元测试)为推进垃圾分类收集处理工作,市通过多种渠道对市民进行垃圾分类收集处理方法的宣传教育,为了解市民能否正确进行垃圾分类处理,调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到如下列联表(单位:人):
年龄
进行垃圾分类情况
总计
能正确进行垃圾分类
不能正确进行垃圾分类
55岁及以下
90
30
120
55岁以上
50
30
80
总计
140
60
200
根据以上数据,依据小概率值()的独立性检验,分析A市能否正确进行垃圾分类处理是否与年龄有关
【答案】认为能否正确进行垃圾分类处理与年龄有关联.
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据独立性检验的解题步骤,可得答案.
【详解】零假设为:能否正确进行垃圾分类处理与年龄无关联.
由列联表可知.
依据小概率值的独立性检验,可以推断不成立,
即认为能否正确进行垃圾分类处理与年龄有关联.
14.(24-25高二下·全国·单元测试)随着夏季的到来,冰枕成为市面上的一种热销产品,某厂家为了调查冰枕在当地大学的销售情况,进行调研,并将所得数据进行统计,如下表:
表一:
性别
温度
合计
温度在30℃以下
温度在30℃以上
女生
10
30
40
男生
40
20
60
合计
50
50
100
随后在该大学一个小卖部里调查了冰枕的出售情况,并将某月的日销售件数与销售天数的数据进行统计,如下表:
表二:
第天
2
4
6
8
10
/件
3
6
7
10
12
(1)请根据表二中的数据在图中绘制出散点图;
(2)请根据表二中提供的数据,用最小二乘法求出关于的经验回归方程.
【答案】(1)答案见解析
(2)
【知识点】绘制散点图、求回归直线方程
【分析】(1)根据数据描点即可;
(2)根据公式求出,再利用样本中心点求出可得回归方程.
【详解】(1)根据表二中的数据作出散点图,如下图.
(2)依题意,得,
,
关于的经验回归方程为.
3 / 3
学科网(北京)股份有限公司
$$
清单07 第七章 统计案例
(4个考点梳理+8题型解读+提升训练)
清单01 相关系数
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
清单02 一元线性回归模型
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
清单03 决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
清单04 独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【考点题型一】相关系数的意义()
【例1】(23-24高二下·浙江宁波·期末)给出四组成对数据:(1);(2);(3);(4),其中样本相关系数最小的是( )(提示:样本相关系数)
A.(1) B.(2) C.(3) D.(4)
【变式1-1】.(24-25高二下·江西·阶段练习)对两组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【变式1-2】.(24-25高二下·辽宁葫芦岛·阶段练习)观察下列散点图,其中两个变量的相关关系判断一定正确的是( )
A.图1中y与x呈正相关
B.图2中y与x不相关
C.图3中y与x的线性相关系数小于0
D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数
【变式1-3】.(多选)(24-25高三下·江西赣州·期中)调研某工厂的生产投入(生产工时/天)对产量(件/天)和每件产品的平均能源消耗(千瓦时/件)的影响,得到如下数据:
(生产工时/天)
10
20
30
40
50
60
(件/天)
50
101
149
202
248
301
(千瓦时/件)
19.8
19.1
15.2
14.5
13.0
9.2
现在对与,与分别进行相关性分析,得到相关系数分别为,,则下列判断正确的是( )
A. B. C. D.
【变式1-4】.(24-25高二下·山西·期中)以下是标号分别为①,②,③的三幅散点图,它们的样本相关系数分别为,那么相关系数的大小关系为 .(按由小到大的顺序排列).
【考点题型二】样本相关系数的计算()
【例2】(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
【变式2-1】.(24-25高二下·全国·课后作业)已知,,,,则相关系数 .(相关系数)
【变式2-2】.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【变式2-3】.(24-25高二·全国·课堂例题)为了对2020年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
68
72
78
81
85
88
91
93
物理成绩
70
66
81
83
79
80
92
89
用变量与的样本相关系数(精确到0.01)说明物理成绩与数学成绩的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据:,.
【变式2-4】.(23-24高二下·河北张家口·阶段练习)桹据统计得到某蔬菜基地茄子亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明;(若,则线性相关程度很高,可用线性回归模型拟合)
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为10千克时,茄子亩产量的增加量y约为多少?
附:相关系数公式,参考数据:,回归方程中斜率的最小二乘估计公式为:.
【考点题型三】样本相关指数计算()
【例3】(23-24高二·全国·课后作业)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本x
83
83.5
80
86.5
89
84.5
79
86.5
利润y
114
116
106
122
132
114
m
132
残差
0.2
0.6
1.8
-3
-1
-4.6
-1
根据最小二乘法公式求得经验回归方程为.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【变式3-1】.(23-24高二下·四川眉山·期末)某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(t)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表
海水浓度x(%)
3
4
5
6
7
亩产量y(t)
0.56
0.52
0.46
0.35
0.31
残差
0.01
m
n
0.01
绘制散点图发现,可以用线性回归模型拟合亩产量y(t)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为
(1)求,m,n的值;
(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
附:残差,相关指数,其中
【变式3-2】.(2024·陕西西安·三模)某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
11
12
2
3
4
6
8
10
13
21
22
23
24
25
15
22
27
40
48
54
60
68.5
68
67.5
66
65
当时,建立了y与x的两个回归模型:
模型①:;模型②:;
当时,确定y与x满足的线性回归直线方程为.
请根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合效果更好的模型.
回归模型
模型①
模型②
回归方程
79.13
20.2
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少元.
附:①若最小二乘法求得回归直线方程为,则;②;③,当时,.
相关指数的计算公式为:,当越大时,回归方程的拟合效果越好;当越小时,回归方程的拟合效果越差.
【变式3-3】.(23-24高二下·陕西西安·期中)某大学一男生统计了本宿舍7名舍友的体重y(单位:kg)与身高x(单位:cm)的数据,见下表:
姓名
吕聪
梁力
李泽文
张天哲
王硕
武勇
商宝清
身高
161
175
169
178
173
168
180
体重
52
62
54
70
66
57
73
(1)若根据表中数据计算得到y关于x的线性回归方程为,求;
(2)为判断(1)中回归方程的拟合效果,请求出相关指数的值(保留两位小数).
参考公式及数据:,.
【考点题型四】残差有关计算()
【例4】(2025·黑龙江哈尔滨·一模)由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .
【变式4-1】.(2025·云南·三模)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
【变式4-2】.(24-25高二上·吉林·期末)某地根据以往数据,得到当地16岁男性的身高与其父亲身高的经验回归方程为,当地人小王16岁时身高167cm,他父亲身高180cm,则小王身高的残差为( )
A. B. C.2cm D.3cm
【变式4-3】.(23-24高三上·全国·开学考试)对具有线性相关关系的变量,有一组观测数据,其经验回归方程为,且,则相应于点的残差为 .
【考点题型五】一元线性回归模型()
【例5】(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
【变式5-1】.(24-25高二下·甘肃甘南·期末)在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
年产量y(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立y关于x的线性回归方程;
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
【变式5-2】.(24-25高二下·山东烟台·期中)某种产品销售价格x(万元/吨)和销售量y(吨)的变化情况如表:
x
5
5.5
6
6.5
7
y
13
11
10
9
7
(1)计算y与x的相关系数r,并说明y与x的关系是否可用线性回归模型拟合;(一般地,若,则可认为线性相关程度较高,可用线性回归模型拟合.)
(2)若该产品每吨成本为4万元,请利用y与x的回归.关系预测:销售价格定为多少时该产品的销售利润最大?(结果精确到0.01)
参考公式:对于一组数据,
其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,.
【变式5-3】.(24-25高二下·陕西榆林·期中)在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
6
年产量(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立关于的线性回归方程.
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
附:对于一组数据,,…,,
其回归直线方程的斜率和截距的最小二乘估计分别为
,.
【考点题型六】非线性回归模型()
【例6】(山东省潍坊市2024-2025学年高二下学期诊断性调研监测数学试题)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量y(库仑)与使用时间t(小时)的散点图,其中t为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ⅱ)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考数据:记
45
12.02
1.55
20.20
285
45.07
3.42
参考公式:.
【变式6-1】.(24-25高二下·广东中山·阶段练习)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;;
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(系数精确到0.01),并求温度为34℃时,产卵数y的预报值.
(参考数据:,,,)
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
25
2.89
646
168
422688
48.48
70308
【变式6-2】.(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【变式6-3】.(2024高三·全国·专题练习)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
【考点题型七】独立性检验的基本思想()
【例7】(24-25高二下·全国·课后作业)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
运动
性别
总计
男
女
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
下列结论正确的是( )
A.认为“爱好该项运用与性别有关”,犯错误的概率不超过0.01
B.认为“爱好该项运用与性别无关”,犯错误的概率不超过0.01
C.认为“爱好该项运动与性别有关”,犯错误的概率不超过0.001
D.认为“爱好该项运动与性别无关”,犯错误的概率不超过0.001
【变式7-1】.(24-25高二下·全国·课后作业)假设有两个分类变量和,它们的可能取值分别为和,其列联表如下:
总计
总计
对于以下数据,对同一样本能说明与有关的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【变式7-2】.(24-25高二下·全国·课后作业)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用列联表进行独立性检验,经计算得,则认为“喜欢乡村音乐与性别有关系”的把握约为( )
A.0.1% B.1% C.99% D.99.9%
【变式7-3】.(24-25高二下·全国·课后作业)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
手术
心脏病
合计
又发作过
未发作过
心脏搭桥
39
157
196
血管清障
29
167
196
合计
68
324
392
试根据上述数据计算 ,能否根据小概率值的独立性检验作出这两种手术对病人又发作心脏病的影响有差别的结论 (填“能”或“不能”).
【考点题型八】独立性检验解决实际问题()
【例8】(24-25高二下·江苏南京·期中)某地区大型服装店对在该店购买衣服的客户进行满意度调研以便能更好地服务客户,统计了2024年1月至5月对该家服装店不满意的客户人数如下:
月份x
1
2
3
4
5
不满意的人数y
120
105
100
95
80
(1)通过散点图可知对该服装店服务不满意的客户人数y与月份x之间存在线性相关关系,求y关于x的经验回归方程,并预测2024年8月对该大型服装店服务不满意的客户人数;
(2)工作人员从这5个月内的调查表所记录的客户中随机抽查100人,调查满意度与性别的关系,得到下表,能否有99%的把握认为满意度与性别有关?
满意
不满意
合计
女客户
48
12
男客户
22
18
合计
附:经验回归方程为,其中.
,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式8-1】.(23-24高二下·广东惠州·期中)海水养殖场进行某水产品的新、旧网箱养殖法的产量对比,收获时各随机抽取了100个网箱,测量各水箱水产品的产量(单位:),其频率分布直方图如图所示.
(1)求新养殖法的频率分布直方图中小矩形高度x的值:
(2)根据频率分布直方图,填写下面列联表,并根据小概率的独立性检验,分析箱产量与养殖方法是否有关.(计算结果保留三位小数)
养殖法
箱产量
合计
箱产量
箱产量
旧养殖法
新养殖法
合计
.
【变式8-2】.(2025·甘肃金昌·模拟预测)已知某高中高一年级共有1200名学生,高二年级共有1100名学生,高三年级共有1000名学生.
(1)对高一、高二、高三年级按比例用分层随机抽样的方法,从全校抽取99名学生参加活动,则高一、高二、高三年级分别抽取多少名学生?
(2)从全校抽取容量为500的有放回简单随机样本,得到如下数学成绩与学生性别的不完整列联表,请补全列联表.
单位:人
性别
数学成绩
合计
不优秀
优秀
男
260
300
女
30
合计
500
(3)依据小概率值的独立性检验,分析(2)中的抽样数据,能否据此推断数学成绩与学生性别有关联?
附:,.
a
0.1
0.05
0.01
2.706
3.841
6.635
【变式8-3】.(2025·甘肃金昌·模拟预测)某校开设劳动教育课程,共设置了两类课程:家政和园艺,共有400名学生参加.学校对选择了这两类课程的学生人数的分布进行了统计,相关数据记录在如下表格中,但其中有缺失.已知男生中选择家政课的比例为80%.
课程
性别
合计
男
女
家政
160
园艺
120
合计
400
(1)根据小概率值的独立性检验,能否认为学生选择不同劳动教育课程与性别有关联?
(2)学校对某一课程中教授同一知识点教师的教授时长与学生任务完成率进行了跟进,授课时长x(分钟)和学生任务完成率y%的对应数据如下:
时长x
20
24
28
32
36
40
完成率y%
50
70
60
66
72
84
在任务完成率不全相等的条件下,学校为了调研是否存在学生任务完成率与平均完成率偏差过大的情况,需计算偏差系数,现给出以下两种数据处理方式:
甲:,乙:,已知偏差系数越大的处理方式,对于数据中大偏差数据的存在体现得越明显.
①用两种处理方式分别计算学生任务完成率的偏差系数,并指出哪一种数据处理方式对大偏差数据的存在体现更明显;
②判断此后学校每次调研均采用①中对大偏差数据的存在体现更明显的数据处理方式是否合理,并证明你的判断.
附:,.
α
0.1
0.01
0.001
2.706
6.635
10.828
提升训练
一、单选题
1.(2025·山东泰安·三模)对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:
月份x
1
2
3
4
5
销量y
0.5
1
1.4
建立y与x的线性回归方程为,则第2个月和第4个月的残差和为( )
A.-0.919 B.-0.1 C.0.1 D.0.919
2.(2025高三·全国·专题练习)某地为了促进消费,带动相关产业的发展,先后发放了6次消费券,且每次发放的消费券数额相同,下表为该地这6次发放消费券带动的消费金额(单位:亿元):
消费券发放次序
第一次
第二次
第三次
第四次
第五次
第六次
编号
1
2
3
4
5
6
消费金额(亿元)
2.5
2.8
3.1
3.4
3.8
已知与具有线性相关关系,且满足经验回归方程,则( )
A.1 B.1.6 C.2.9 D.3
3.(24-25高二下·天津南开·期中)为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制丁下侧所示的2×2列联表(个别数据暂用字母表示):
数学成绩
性别
合计
男
女
优秀
27
70
非优秀
58
110
合计
180
临界值表如下:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
经计算得:,参照右上表,有如下结论:①,②;③可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”;④没有充分的证据显示“数学达到优秀等级与性别有关”,则以上结论中正确的为( )
A.①② B.①②④ C.①②③ D.①②③④
4.(24-25高二下·辽宁沈阳·期中)某人工智能公司从某年起7年的利润情况如下表所示,关于的回归直线方程是,预测该人工智能公司第8年的利润是多少亿元( )
第年
1
2
3
4
5
6
7
利润/亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.6.2 B.6.3 C.6.4 D.6.5
5.(24-25高三下·天津南开·阶段练习)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,经验回归方程为,则下列说法错误的是( )
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.,时,成对样本数据的相关系数满足
D.必定满足经验回归方程
6.(2025·甘肃金昌·二模)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
7.(24-25高二下·天津滨海新·期中)下列说法中,正确的个数是( )
①若随机变量X服从正态分布,且,则;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强.
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05.
⑤决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好.
A.1 B.2 C.3 D.4
8.(2025·天津河东·二模)2024年12月26日,Deep Seek—V3首个版本正式上线,截至2025年2月9日,Deep Seek APP的累计下载量已超1.1亿次,AI成为当下的热门话题.立德中学高中数学社团以16至40岁人群使用Deep Seek频率为课题,分小组自主选题进行调查研究,下列说法正确的是( )
A.甲小组开展了Deep Seek每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,但相关程度很弱
B.乙小组利用最小二乘法得到Deep Seek每周使用频次y关于年龄x的经验回归方程为,可以推断年龄为30岁的群体每周使用频次一定为17次
C.丙小组用决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.733和0.998,因此经验回归方程②的刻画效果比经验回归方程①的好很多
D.丁小组研究性别因素是否影响Deep Seek使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的Deep Seek使用频次没有差异
二、多选题
9.(24-25高二下·辽宁·期中)统计学中,常用的显著性水平以及对应的分位数如下表所示.
在检验与是否有关的过程中,根据已知数据计算得,则( )
A.若,则在犯错误的概率不超过的前提下认为与有关
B.若,则在犯错误的概率不超过的前提下认为与无关
C.若,则有的把握认为与有关
D.若,,则
三、填空题
10.(24-25高二下·福建莆田·期中)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,现取了组观察值.计算知,,,,则关于的经验线性回归方程是 .附:,
四、解答题
11.(24-25高二·全国·课堂例题)耐盐碱水稻俗称“海水稻”,是一种可以长在滩涂和盐碱地的水稻.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究浇灌海水浓度(单位:‰)对亩产量(单位:吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与浇灌海水浓度的有关数据如下表.绘制散点图发现,可用线性回归模型拟合亩产量与浇灌海水浓度之间的相关关系,用最小二乘法计算得与之间的经验回归方程为.
浇灌海水浓度
3
4
5
6
7
亩产量吨
0.62
0.58
0.49
0.4
0.31
残差
(1)求,并估计当浇灌海水浓度为8‰时该品种的亩产量;
(2)①将上表补充完整;
②统计学中常用决定系数来刻画回归效果,越大,模型拟合效果越好,如假设,就说明响应变量的差异有是由解释变量引起的.请计算决定系数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
12.(24-25高二·全国·课堂例题)下表是某旅游区游客数量与平均气温的对比表:
平均气温/℃
-1
4
10
13
18
26
数量/万个
0.2
0.24
0.34
0.38
0.5
0.64
若已知游客数量与平均气温是线性相关的,求经验回归方程.
13.(24-25高二下·全国·单元测试)为推进垃圾分类收集处理工作,市通过多种渠道对市民进行垃圾分类收集处理方法的宣传教育,为了解市民能否正确进行垃圾分类处理,调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到如下列联表(单位:人):
年龄
进行垃圾分类情况
总计
能正确进行垃圾分类
不能正确进行垃圾分类
55岁及以下
90
30
120
55岁以上
50
30
80
总计
140
60
200
根据以上数据,依据小概率值()的独立性检验,分析A市能否正确进行垃圾分类处理是否与年龄有关
14.(24-25高二下·全国·单元测试)随着夏季的到来,冰枕成为市面上的一种热销产品,某厂家为了调查冰枕在当地大学的销售情况,进行调研,并将所得数据进行统计,如下表:
表一:
性别
温度
合计
温度在30℃以下
温度在30℃以上
女生
10
30
40
男生
40
20
60
合计
50
50
100
随后在该大学一个小卖部里调查了冰枕的出售情况,并将某月的日销售件数与销售天数的数据进行统计,如下表:
表二:
第天
2
4
6
8
10
/件
3
6
7
10
12
(1)请根据表二中的数据在图中绘制出散点图;
(2)请根据表二中提供的数据,用最小二乘法求出关于的经验回归方程.
3 / 3
学科网(北京)股份有限公司
$$