培优重难点专题 成对数据的相关性以及一元线性回归的应用(2知识点+20题型+好题必刷)-【上好课】2024-2025学年高二数学同步精品课堂(人教A版2019选择性必修第三册)

2025-04-11
| 2份
| 151页
| 668人阅读
| 39人下载

资源信息

学段 高中
学科 数学
教材版本 高中数学人教A版选择性必修第三册
年级 高二
章节 小结
类型 题集-专项训练
知识点 统计案例
使用场景 同步教学-单元练习
学年 2025-2026
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 11.44 MB
发布时间 2025-04-11
更新时间 2025-04-11
作者 数学精研社
品牌系列 上好课·上好课
审核时间 2025-04-11
下载链接 https://m.zxxk.com/soft/51549568.html
价格 3.00储值(1储值=1元)
来源 学科网

内容正文:

重难点培优专题:成对数据的统计相关性以及一元线性回归 成对数据的统计相关性 知识点1:变量的相关关系 变量与变量之间的关系常见的有两类:一类是变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了;另一类是变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性. (1)相关关系 两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. (2)函数关系与相关关系的异同点 函数关系 相关关系 相同点 两者均是指两个变量之间的关系 不同点 是一种确定性关系 是一种非确定性的关系 是两个变量之间的关系 ①一个为变量,另一个为随机变量;②两个都是随机变量 是一种因果关系 不一定是因果关系,也可能是伴随关系 是一种理想的相关关系模型 是一种更为一般的情况 知识点2:散点图的概念 (1)一般地,如果收集到了变量和变量的对数据(简称为成对样本数据),如下表所示 序号 1 2 3 4 变量 变量 则在直角坐标系中描出点,就可以得到这对数据的散点图 (2)正相关与负相关 如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关; 如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关. (3)线性相关 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关理解. 知识点3:相关关系的强弱 (1)样本相关系数 现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数. (2)相关系数的性质 ①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系. ②样本相关系数的取值范围为 当越接近1时,成对样本数据的线性相关程度越强; 当越接近0时,成对样本数据的线性相关程度越弱. 一元线性回归模型及其应用 知识点1:一元线性回归模型 (1)一元线性回归模型 我们称 为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差. (2)随机误差 在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程. 线性回归模型的完整表达式为 , 在此模型中,随机误差的方差越小,用预报真实值的精度越高. 知识点2:一元线性回归模型参数的最小二乘法 (1)经验回归方程的求解法:最小二乘法 回归直线方程过样本点的中心,是回归直线方程最常用的一个特征; 我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距. 其中 (2)求经验回归方程的步骤 ①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程; ②列表求出,的值; ③利用公式先计算,再根据经验回归直线过样本点的中心计算; ④写出经验回归方程. 求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义. (3)经验回归方程的性质 ①经验回归直线一定过点,点通常称为样本点的中心; ②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是. ③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位. 知识点3:残差 (1)残差 对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差. (2)残差图 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好. (3)残差分析 残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性. 知识点4:决定系数 (1)残差平方和 残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差. (2)决定系数 决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力. ,越大,即拟合效果越好,越小,模型拟合效果越差. (3)决定系数与相关系数的联系与区别 ①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果. ②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为. ③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好. 题型一:相关关系与函数关系的概念与辨析 【例题1-1】.(20-21高三上·黑龙江大庆·阶段练习)汽车急刹车的停车距离与诸多因素有关,其中最为关键的两个因素是驾驶员的反应时间和汽车行驶的速度.设d表示停车距离,表示反应距离,表示制动距离,则,如图是根据美国公路局公布的试验数据制作的停车距离示意图. 由图中数据得到如表的表格,根据表格中的数据,建立停车距离与汽车速度的函数模型.可选择模型①:模型②:,模型③:,模型④:(其中v为汽车速度,a,b为待定系数)进行拟合,如果根据序号3和序号7两组数据分别求出四个函数模型的解析式,并通过计算时的停车距离和实验数据比较,则拟合效果最好的函数模型是(    ) A. B. C. D. 【答案】B 【难度】0.65 【知识点】相关关系与函数关系的概念及辨析 【分析】分别根据表中数据基础出四种函数模型的解析式,然后代入各解析式,计算出各模型在时的停车距离的估计值,然后和实验数据118进行比较,最接近的拟合效果最好. 【详解】若选择模型①,则,解得,, 故, 当时,停车距离d的预测值为, 若选择模型②,则,解得,, 故, 当时,停车距离d的预测值为, 若选择模型③,则,解得,, 故, 当时,停车距离d的预测值为, 若选择模型④,则,解得,, 故, 当时,停车距离d的预测值为, 由实验数据可知当时,停车距离为, 故模型②的预测值更接近,故模型②拟合效果最好. 故选:B. 【点睛】本题考查利用函数模型拟合变量间的相关关系,考查学生的计算能力,属于中档题. 题型二:判断两个变量是否有相关关系 【例题2-1】.(24-25高二下·全国·课后作业)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示: 城市编号 1 2 3 4 5 指标 4 6 2 8 5 指标 4 4 3 5 4 指标 3 6 2 5 4 利用向量夹角来分析与之间及与之间的相关关系. 【答案】答案见解析 【难度】0.65 【知识点】向量夹角的坐标表示、判断正、负相关、判断两个变量是否有相关关系 【分析】根据坐标运算得出向量,再结合夹角公式求出夹角余弦,进而判断相关性解正负相关. 【详解】由已知得,, , 将题表中x,y,z的相关数据分别减去, 记,, . 则,,. 于是 , , 所以与,与正相关,又,则与之间的相关性比与之间的相关性强. 题型三:判断正负相关 【例题3-1】.(2024·湖北襄阳·模拟预测)下列说法正确的有(    ) A.若事件A和事件B互斥, B.数据2,7,4,5,16,1,21,11的第70百分位数为11 C.若随机变量,,则 D.若y关于x的回归方程为,则y与x是线性负相关关系 【答案】BD 【难度】0.65 【知识点】判断正、负相关、指定区间的概率、总体百分位数的估计 【分析】根据互斥事件的定义判断A;根据百分位数的定义判断B;根据正态分布性质判断C;根据正负相关的定义判断D. 【详解】对于A,因为事件A和事件B互斥,所以,故错误; 对于B,将原数据重新排列为:1,2,4,5,7,11,16,21,共8个数, ,所以该组数据的第70百分位数即为第6个数11,故正确; 对于C,因为随机变量,,所以,故错误; 对于D,因为y关于x的回归方程为,,则y与x是线性负相关关系,故正确. 故选:BD. 【变式】.(23-24高三下·湖南长沙·阶段练习)某市7天国庆节假期期间的楼房日认购量(单位:套)与日成交量(单位:套)的折线图如下图所示,小明同学根据折线图对这7天的日认购量与日成交量作出如下判断,则下列结论正确的是(    ) A.日认购量与日期正相关 B.日成交量的中位数是26 C.日成交量超过日平均成交量的有2天 D.10月7日日认购量的增量大于10月7日日成交量的增量 【答案】BD 【难度】0.65 【知识点】根据折线统计图解决实际问题、计算几个数的中位数、计算几个数的平均数、判断正、负相关 【分析】根据正相关的定义结合图象即可判断A;根据中位数的定义结合图象即可判断B;根据图中数据进行计算即可求得平均数,即可判断C;根据图中数据进行计算即可判断D. 【详解】由题图可以看出,数据点并不是从左下至右上分布,所以错; 将成交量数据按大小顺序排列,中位数为26,所以对; 日平均成交量为, 超过42.7的只有一天,所以错; 10月7日认购量的增量为, 成交量的增量为,所以对, 故选:BD. 【变式3-1】.(2023·黑龙江大庆·模拟预测)下列命题中正确的是(    ) A.设随机变量服从正态分布,若,则 B.经验回归方程为时,变量x和y负相关 C.某学生在上学的路上要经过4个路口,假设在各路口是否遇到红灯是相互独立的,遇到红灯的概率都是,那么该生在上学路上到第3个路口首次遇到红灯的概率为 D.若,则取最大值时 【答案】ABC 【难度】0.65 【知识点】根据正态曲线的对称性求参数、服从二项分布的随机变量概率最大问题、独立事件的乘法公式、判断正、负相关 【分析】对于A,正态分布曲线关于直线对称,则,故选项A正确;对于B,回归方程的直线斜率为负数,所以变量x与y呈负的线性相关关系,所以B正确;对于C,所求概率为,所以C正确;对于D,由,解得或,所以D错误. 【详解】对于A,随机变量服从正态分布,若,则正态分布曲线关于直线对称,则,故选项A正确; 对于B,回归方程的直线斜率为负数,所以变量x与y呈负的线性相关关系,所以B正确; 对于C,该生在上学路上到第3个路口首次遇到红灯,则该生在前2个路口不是红灯,第3个路口是红灯,由独立事件的概率乘法可知,所求概率为,所以C正确; 对于D,由,即,解得或,所以D错误. 故选:ABC. 题型四:相关系数的意义及辨析 【例题4-1】.(24-25高二下·天津·阶段练习)以下散点图经过标准化后,相关系数最大的是(   ) A.   B.     C.   D.   【答案】A 【难度】0.65 【知识点】判断正、负相关、相关系数的意义及辨析 【分析】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案. 【详解】对于,散点呈上升趋势,线性相关系数为正数,这些点紧密的聚集在一条直线的附近,线性相关性强; 对于,散点分布呈曲线趋势,线性相关程度比弱; 对于,散点呈下降趋势,线性相关系数为负数; 对于,散点分布比较分散,线性相关程度比弱; 所以相关系数最大的是. 故选:. 【变式4-1】.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度(    ) 5 10 15 20 25 103 105 110 111 114 (参考数据:,,) A.很强 B.很弱 C.无相关 D.不确定 【答案】A 【难度】0.65 【知识点】相关系数的意义及辨析、相关系数的计算 【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度. 【详解】由题可得,, 则 , 因为相关系数很接近于1,故两个变量的线性相关程度很强. 故选:A. 【变式4-2】.(23-24高二下·上海·阶段练习)以下说法正确的个数为(    ) ①两个随机变量的线性相关越强,则相关系数的绝对值越接近0; ②设是随机变量,则; ③设随机变量,若,则; ④设随机变量,则 A.0个 B.1个 C.2个 D.3个 【答案】A 【难度】0.65 【知识点】指定区间的概率、两点分布的方差、方差的性质、相关系数的意义及辨析 【分析】由相关系数的概念判断①,由相关变量的均值和方差的关系判断②,由正态分布的概率计算判断③,由两点分布方差的计算和均值不等式判断④. 【详解】两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故①错误; 若是随机变量,则,故②错误; ,故③错误; 设随机变量,则,当且仅当,时等号成立,故④错误; 故选:A. 【变式4-3】.(2025·江西鹰潭·一模)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则(   ) 参考公式:, A.当时,成对样本数据成线性正相关; B.当越大时,成对样本数据的线性相关程度越强; C.,时,成对样本数据的相关系数满足; D.,时,成对样本数据的线性回归方程满足; 【答案】ACD 【难度】0.65 【知识点】相关系数的意义及辨析、相关系数的计算 【分析】根据相关系数的正负、绝对值大小与变量相关性之间关系可知AB正误;根据,,代入相关系数和最小二乘法公式中,可知CD正误. 【详解】对于A,当时,成对样本数据成线性正相关,A正确; 对于B,当越大时,成对样本数据的线性相关程度越强; 当,时,对应的样本数据的线性相关程度更强,B错误; 对于C,当,时,不变且, ,C正确; 对于D,当,时,不变且, ,D正确. 故选:ACD. 【变式4-4】.(23-24高二下·湖南益阳·阶段练习)下列命题中正确的是(    ) A.已知随机变量服从正态分布,且,则 B.相关系数用来衡量两个变量之间线性关系的强弱,越大,相关性越弱 C.相关指数用来刻画回归的效果,越小,说明模型的拟合效果越好 D.在残差图中,残差点分布的带状区域越狭窄,其模型拟合的精度就越高 【答案】AD 【难度】0.65 【知识点】相关系数的意义及辨析、残差的计算、正态曲线的性质、指定区间的概率 【分析】对A,根据正态分布的性质求解即可.对BCD根据相关系数与残差的性质判定即可. 【详解】对A, ,A对. 对B, 相关系数r用来衡量两个变量之间线性关系的强弱,且越大,相关性越强,B错. 对C, 相关指数用来刻画回归的效果,越小,说明模型的拟合效果越差,C错. 对D, 在残差图中,残差点分布的带状区域越狭窄,其模型拟合的精度就越高,D对. 故AD正确. 故选:AD. 【变式4-5】.(2024·全国·模拟预测)氮氧化物是一种常见的大气污染物,它是由氮和氧两种元素组成的化合物,有多种不同的形式.下图为我国2014年至2022年氮氧化物排放量(单位:万吨)的折线图,其中,年份代码1~9分别对应年份2014~2022. 计算得,,. (1)是否可用线性回归模型拟合与的关系?请用折线图和相关系数加以说明; (2)是否可用题中数据拟合得到的线性回归模型预测2023年和2033年的氮氧化物排放量?请说明理由. 附:相关系数,. 【答案】(1)可以用线性回归模型拟合与的关系,答案见解析 (2)答案见解析 【难度】0.65 【知识点】用回归直线方程对总体进行估计、相关系数的意义及辨析 【分析】(1)结合参考数据,求出相关系数,进而可以得出结论; (2)2023年与题设数据的年份较接近,可以用回归模型预测2023年的氮氧化物排放量,2033年与题设数据的年份相距过远,而影响氮氧化物排放量的因素有很多,不可以预测2033年的氮氧化物排放量. 【详解】(1)从折线图看,各点近似落在一条直线附近,因而可以用线性回归模型拟合与的关系. 因为,所以该组数据的相关系数 . ,因而可以用线性回归模型拟合与的关系. (2)可以用回归模型预测2023年的氮氧化物排放量,但不可以预测2033年的氮氧化物排放量,理由如下: ①2023年与题设数据的年份较接近,因而可以认为,短期内氮氧化物的排放量将延续(1)中的线性趋势,故可以用(1)中的回归模型进行预测; ②2033年与题设数据的年份相距过远,而影响氮氧化物排放量的因素有很多,这些因素在短期内可能保持,但从长期角度看很有可能会变化,因而用(1)中的回归模型预测是不准确的. 题型五:相关系数的计算 【例题5-1】.(2024·陕西西安·模拟预测)之前7年,我国生活垃圾无害处理量如下表: 序号 1 2 3 4 5 6 7 年 1 2 3 4 5 6 7 处理量 通过计算,线性相关系数则(    ). A.与的线性相关性很强,用线性回归模型拟合与的关系比较好 B.与的线性相关性比较弱,可以用线性回归模型拟合与的关系 C.与不线性相关,用线性回归模型㧍合与的关系,会有很大误差 D.与不线性相关,不可以用线性回归模型拟合与的关系 【答案】A 【难度】0.65 【知识点】相关系数的计算 【分析】计算出线性相关系数,判断出与的线性相关性很强,用线性回归模型拟合与的关系比较好. 【详解】, , , 所以与的线性相关性很强,用线性回归模型拟合与的关系比较好. 故选:A 【变式5-1】.(24-25高三上·宁夏银川·期末)已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 . 【答案】 【难度】0.65 【知识点】相关系数的计算 【分析】利用相关系数公式可看成两个维向量的夹角公式,从而把相关系数问题转化为向量夹角问题,即可求解. 【详解】设,,, 则有,,, 由相关系数公式可知, 设与夹角为,与夹角为, 由和的样本相关系数为,所以,和的样本相关系数为,所以, 由这两个夹角为锐角,所以,所以与的夹角可能为,, 则与的夹角余弦最大值为. 故答案为: 【变式5-2】.(23-24高二下·江苏扬州·期末)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 . 参考公式:. 【答案】/1.875 【难度】0.65 【知识点】线性回归、相关系数的计算 【分析】根据参考数据及公式先利用相关系数求出,再求即可. 【详解】因为, 所以, 由, 解得, 所以. 故答案为: 【变式5-3】.(2023·全国·模拟预测)某校20名学生的数学成绩和知识竞赛成绩如下表: 学生编号 1 2 3 4 5 6 7 8 9 10 数学成绩 100 99 96 93 90 88 85 83 80 77 知识竞赛成绩 290 160 220 200 65 70 90 100 60 270 学生编号 11 12 13 14 15 16 17 18 19 20 数学成绩 75 74 72 70 68 66 60 50 39 35 知识竞赛成绩 45 35 40 50 25 30 20 15 10 5 计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,. (1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到). (2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数. (i)记,.证明:. (ii)用(i)的公式求这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”(精确到). (3)比较(1)和(2)(ii)的计算结果,简述“斯皮尔曼相关系数”在分析线性相关性时的优势. 注:参考公式与参考数据.;;. 【答案】(1)0.70 (2)(i)证明见解析;(ii) (3)答案见解析 【难度】0.4 【知识点】统计新定义、相关系数的计算、相关系数的意义及辨析 【分析】(1)利用相关系数的公式进行计算即可; (2)(i)根据题意即相关系数的公式进行计算即可证明;(ii)利用表格写出对应的与 得值,然后用“斯皮尔曼相关系数”的公式进行计算即可; (3)只要能说出斯皮尔曼相关系数与一般的样本相关系数相比的优势即可 【详解】(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为 (2)(i)证明:因为和都是1,2,,的一个排列,所以 , , 从而和的平均数都是. 因此,, 同理可得, 由于, 所以; (ii)由题目数据,可写出与的值如下: 同学编号 1 2 3 4 5 6 7 8 9 10 数学成绩排名 1 2 3 4 5 6 7 8 9 10 知识竞赛成绩排名 1 5 3 4 9 8 7 6 10 2 同学编号 11 12 13 14 15 16 17 18 19 20 数学成绩排名 11 12 13 14 15 16 17 18 19 20 知识竞赛成绩排名 12 14 13 11 16 15 17 18 19 20 所以,并且. 因此这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是 (3)答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系; 答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系. 【点睛】方法点睛:新定义题型的特点是:通过给出一个新概念,或约定一种新运算,或给出几个新模型来创设全新的问题情景,要求考生在阅读理解的基础上,依据题目提供的信息,联系所学的知识和方法,实现信息的迁移,达到灵活解题的目的:遇到新定义问题,应耐心读题,分析新定义的特点,弄清新定义的性质,按新定义的要求,“照章办事”,逐条分析、验证、运算,使问题得以解决. 【变式5-4】.(2025·海南海口·模拟预测)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表: 5 6 7 8 9 0.55 0.50 0.60 0.65 0.70 (1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强); (2)机器人的交互性很强,孩子可以通过输入语音给机器人发布执行指令.机器人执行命令的正确率为,出错率为.当机器人正确执行命令时,使用者满意的概率为;当机器人执行出错时,使用者满意的概率为.如果使用者对某次命令执行结果表示不满意,求机器人实际正确执行命令的概率是多少? (3)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为.假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值. 参考公式:相关系数. 【答案】(1),可以认为该性能指数与孩子的喜爱程度相关性很强 (2) (3) 【难度】0.65 【知识点】相关系数的计算、计算条件概率、独立事件的实际应用、利用全概率公式求概率 【分析】(1)利用公式求出即可判断; (2)根据全概率公式及条件概率公式求解即可; (3)根据题意表示出小李挑战成功的概率为,再结合基本不等式及二次函数的知识求解即可. 【详解】(1)由表知,, , , , , 则, 由此可以认为该性能指数与孩子的喜爱程度相关性很强. (2)设事件为机器人执行命令正确”,事件为“机器人执行命令错误”, 事件为“使用者不满意”, 则,, ,, 则, 所以. (3)当小李答对题数为3时,概率为: , 当小李答对题数为4时,概率为:, 所以小李挑战成功的概率为:, 由,,, 则,当且仅当时等号成立, 所以,由二次函数的知识可知, 当时,小李挑战成功的概率最大,最大为. 【变式5-5】.(24-25高三上·山东济宁·阶段练习)某学校对高三(1)班50名学生的第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,,其中(,且)分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为. (1)求与的样本相关系数; (2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值,试估计该校共1600名高三学生中,数学成绩位于区间的人数. 附:①回归方程中,; ②样本相关系数;③; ④若,则. 【答案】(1) (2) 【难度】0.65 【知识点】正态分布的实际应用、相关系数的计算 【分析】(1)根据相关系数的求法求得正确答案. (2)先求得,然后根据正态分布的对称性求得正确答案. 【详解】(1)由关于的线性回归方程为知, 即, 又由,可得, 所以与的样本相关系数: . (2)由,解得,所以, 又由, 及可得: , 于是估计该校1600名高三学生中, 数学成绩位于区间的人数约为人. 【变式5-6】.(2024高三·全国·专题练习)为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据: 样本号i 1 2 3 4 5 6 7 8 9 10 总和 根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6 材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9 并计算得,,. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量. (2)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为360 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值. (3)求该林区这种树木的根部横截面积与材积量的样本相关系数.(精确到0.01) 参考公式和数据:相关系数,≈1.377. 【答案】(1), (2) (3) 【难度】0.65 【知识点】抽样比、样本总量、各层总数、总体容量的计算、计算几个数的平均数、相关系数的计算 【分析】(1) 计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量; (2) 依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值; (3) 代入题给相关系数公式计算即可求得样本的相关系数值. 【详解】(1)样本中10棵这种树木的根部横截面积的平均值, 样本中10棵这种树木的材积量的平均值, 据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为. (2)设该林区这种树木的总材积量的估计值为, 又已知树木的材积量与其根部横截面积近似成正比,可得,解得, 则该林区这种树木的总材积量估计为. (3)由, 即该林区这种树木的根部横截面积与材积量的样本相关系数为. 【变式5-7】.(2023·江苏南通·二模)我国风云系列卫星可以监测气象和国土资源情况.某地区水文研究人员为了了解汛期人工测雨量(单位:dm)与遥测雨量(单位:dm)的关系,统计得到该地区10组雨量数据如下: 样本号 1 2 3 4 5 6 7 8 9 10 人工测雨量 5.38 7.99 6.37 6.71 7.53 5.53 4.18 4.04 6.02 4.23 遥测雨量 5.43 8.07 6.57 6.14 7.95 5.56 4.27 4.15 6.04 4.49 0.05 0.08 0.2 0.57 0.42 0.03 0.09 0.11 0.02 0.26 并计算得,,,,,. (1)求该地区汛期遥测雨量y与人工测雨量x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系; (2)规定:数组满足为“I类误差”;满足为“II类误差”;满足为“III类误差”.为进一步研究,该地区水文研究人员从“I类误差”、“II类误差”中随机抽取3组数据与“III类误差”数据进行对比,记抽到“I类误差”的数据的组数为X,求X的概率分布与数学期望. 附:相关系数,. 【答案】(1)0.98,汛期遥测雨量y与人工测雨量x有很强的线性相关关系; (2)分布列见解析, . 【难度】0.65 【知识点】相关系数的计算、求离散型随机变量的均值、超几何分布的分布列 【分析】(1)根据参考公式和数据,代入求相关系数,即可判断相关性强或弱; (2)根据条件可知X的所有可能取值为0,1,2,3,再根据超几何分别求分布列和数学期望. 【详解】(1)因为, 代入已知数据, 得. (2)依题意,“I类误差”有5组,“II类误差”有3组,“III类误差”有2组. 若从“I类误差”和“II类误差”数据中抽取3组, 抽到“I类误差”的组数X的所有可能取值为0,1,2,3. 则,, ,. 所以X的概率分布为 0 1 2 3 所以的数学期望. 另解:因为,所以 . 题型六:残差的计算 【例题6-1】.(24-25高三上·湖北·期中)已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为(   ) A. B. C. D. 【答案】B 【难度】0.65 【知识点】求回归直线方程、残差的计算、根据样本中心点求参数 【分析】先计算新的数据的平均值,后得到经验回归方程,再结合残差概念计算即可. 【详解】∵,∴增加两个样本点后的平均数为; ∵,∴, ∴增加两个样本点后y的平均数为, ∴,解得, ∴新的经验回归方程为,则当时,, ∴样本点的残差为 故选:B. 【变式6-1】.(2024·湖北荆州·三模)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得如图所示的残差图.模型误差(    ) A.满足一元线性回归模型的所有假设 B.不满足一元线性回归模型的的假设 C.不满足一元线性回归模型的假设 D.不满足一元线性回归模型的和的假设 【答案】D 【难度】0.65 【知识点】残差的计算 【分析】根据一元线性回归模型的有关概念即可判断. 【详解】用一元线性回归模型得到经验回归模型, 根据对应的残差图,残差的均值不可能成立,且残差图中的点分布在一条拋物线形状的弯曲带状区域上, 说明残差与坐标轴变量有二次关系,不满足一元线性回归模型, 故选:D. 【变式6-2】.(24-25高三上·浙江绍兴·期末)下列说法正确的是(    ) A.事件与事件相互独立,且,,则 B.样本数据2,2,3,4,6,8,9,10,12,12的上四分位数为11 C.某分层抽样有层,第层样本数为,其平均数和方差分别为和,第层样本数为,其平均数和方差分别为和,则总方差为 D.已知一系列样本点的经验回归方程为,若样本点与点的残差相等,则 【答案】ACD 【难度】0.65 【知识点】计算几个数据的极差、方差、标准差、残差的计算、独立事件的乘法公式、总体百分位数的估计 【分析】利用独立事件的概率求法判断A,根据百分位数的定义判断B,根据平均数、方差公式判断C,根据残差的概念判断D. 【详解】选项A:因为事件与事件相互独立,且,, 所以,,说法正确; 选项B:样本数据共10个,从小到大排列为2,2,3,4,6,8,9,10,12,12, 因为,所以该组数据的上四分位数为从小到大排列的第8个数,即10,说法错误; 选项C:两层的样本总数为,总平均数为, 总方差为,说法正确; 选项D:因为经验回归方程为,若样本点与点的残差相等, 则,解得,说法正确; 故选:ACD 【变式6-3】.(23-24高二下·贵州·期末)下列说法正确的是(    ) A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数 B.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好 C.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则,的值分别是4和0.3 D.某人在10次答题中,答对题数为,,则答对7题的概率最大. 【答案】ABD 【难度】0.65 【知识点】服从二项分布的随机变量概率最大问题、残差的计算、非线性回归 【分析】根据频率分布直方图的特征判断样本的分布特征,即可判断A,根据残差的意义,即可判断B,根据转化关系,即可判断C,比较概率,列出不等式,即可判断D. 【详解】A. 对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数,故A正确; B. 在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故B正确;, C.由,设,则,即, 所以,,即,故C错误; D.由题意可知,, 设答对道题的概率最大,所以 ,解得:, 得,所以答对7题的概率最大,故D正确. 故选:ABD 【变式6-4】.(23-24高三上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,. x 141 152 168 182 195 204 223 254 277 y 23.1 24.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2 以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示. (1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系? (2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,. (ⅰ)求; (ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数. 附:相关系数,决定系数,. 【答案】(1),答案见解析 (2)(ⅰ)0;(ⅱ)0.9847 【难度】0.65 【知识点】相关系数的意义及辨析、相关系数的计算、残差的计算、相关指数的计算及分析 【分析】(1)根据相关系数的计算公式即可求解,由相关系数的定义结合统计学知识即可求解, (2)根据残差公式以及决定系数的计算公式即可求解. 【详解】(1)不妨设选择的成对数据分别为,,则 .又由表格数据得,当时,,则. 因为任意两个样本点都在一条直线上,则样本量为2的样本相关系数绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的. 样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推新变量之间相关的正负性及线性相关的程度越可靠,而样本量越小,则越不可靠. (2)(ⅰ)(直线经过数据的中心). (ⅱ)∵,∴, 则, 越大,越接近于1,则模型的拟合效果越好,因此经验回归方程②的拟合效果更好,为最优模型. 题型七:相关指数的计算及分析 【例题7-1】.(2024·浙江·一模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是(    ) A.,不具有线性相关性 B.决定系数变大 C.相关系数变小 D.残差平方和变小 【答案】C 【难度】0.65 【知识点】相关系数的意义及辨析、相关指数的计算及分析 【分析】从图中分析得到加入点后,回归效果会变差,再由决定系数,相关系数,残差平方和及相关性的概念和性质作出判断即可. 【详解】对于A,加入点后,变量与预报变量相关性变弱, 但不能说,不具有线性相关性,所以A不正确 对于B,决定系数越接近于1,拟合效果越好,所以加上点后,决定系数变小,故B不正确; 对于C,从图中可以看出点较其他点,偏离直线远,所以加上点后,回归效果变差. 所以相关系数的绝对值越趋于0,故C正确; 对于D,残差平方和变大,拟合效果越差,所以加上点后,残差平方和变大,故D不正确; 故选:C. 【变式7-1】.(2023·江苏苏州·模拟预测)为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则(     ) A.< B.= C.> D.、关系不能确定 【答案】A 【难度】0.65 【知识点】相关系数的意义及辨析、相关指数的计算及分析 【分析】根据残差点图分析拟合效果,从而得到答案. 【详解】根据残差点图,模型(2)残差点比较均匀地落在水平的带状区域中,带状区域宽度窄,拟合精度较高,所以<, 故选:A. 【变式7-2】.(21-22高二下·吉林白城·阶段练习)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:根据表中的数据可得回归直线方程,,以下说法正确的是(   ) 广告支出费用 2.2 2.6 4.0 5.3 5.9 销售量 3.8 5.4 7.0 11.6 122 A.销售量的多少有96%是由广告支出费用引起的 B.销售量的多少有4%是由广告支出费用引起的 C.第三个样本点对应的残差,回归模型的拟合效果一般 D.第三个样本点对应的残差,回归模型的拟合效果较好 【答案】A 【难度】0.65 【知识点】相关指数的计算及分析、残差的计算 【分析】根据已知条件结合残差和相关系数的定义可得答案. 【详解】因为表示解释变量对于预报变量的贡献率,,所以销售量的多少有96%由广告支出费用引起的,故A正确,B错误; 当时,第三个样本点对应的残差为,又, 故拟合效果较好,故CD错误. 故选:A. 【变式7-3】.(2023·广东汕头·二模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据如下: 行驶里程/万km 0.00 0.64 1.29 1.93 2.57 3.22 3.86 4.51 5.15 轮胎凹槽深度/mm 10.02 8.37 7.39 6.48 5.82 5.20 4.55 4.16 3.82 以行驶里程为横坐标、轮胎凹槽深度为纵坐标作散点图,如图所示. (1)根据散点图,可认为散点集中在直线附近,由此判断行驶里程与轮胎凹槽深度线性相关,并计算得如下数据,请求出行驶里程与轮胎凹槽深度的相关系数(保留两位有效数字),并推断它们线性相关程度的强弱; 2.57 6.20 115.10 29.46 附:相关系数 (2)通过散点图,也可认为散点集中在曲线附近,考虑使用对数回归模型,并求得经验回归方程及该模型的决定系数.已知(1)中的线性回归模型为,在同一坐标系作出这两个模型,据图直观回答:哪个模型的拟合效果更好?并用决定系数验证你的观察所得. 附:线性回归模型中,决定系数等于相关系数的平方,即. 【答案】(1),相关性较强 (2)答案见解析 【难度】0.65 【知识点】相关系数的计算、相关指数的计算及分析 【分析】(1)直接根据相关系数的计算公式求得,从而可判断相关性较强; (2)由图像可直观判断,再求出线性回归模型的决定系数,从而可判断对数回归模型的拟合度更高. 【详解】(1)由题意,, ∵,∴, ∴行驶里程与轮胎凹楳深度成负相关,且相关性较强. (2)由图像可知,车胎凹槽深度与对数回归预报值残差、偏离更小,拟合度更高,线性回归预报值偏美较大. 由题(1)得线性回归模型的相关系数, 决定系数, 由题意,对数回归模型的决定系数, ∵,∴对数回归模型的拟合度更高. 【变式7-4】.(2025·上海浦东新·二模)研究变量,得到一组成对数据,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是(    ) A.变量与变量的相关性变强 B.相关系数的绝对值变小 C.线性回归方程不变 D.拟合误差变大 【答案】C 【难度】0.65 【知识点】求回归直线方程、相关系数的意义及辨析、相关系数的计算、相关指数的计算及分析 【分析】设变量,的平均数分别为,,分析可知,.对于AB:根据相关系数的计算公式和性质分析判断;对于CD:根据回归方程和拟合误差的性质分析判断. 【详解】设变量,的平均数分别为,, 则,,即,, 可知新数据的样本中心点不变,仍为, 对于AB:可得, 同理可得, 则相关系数, 可知相关系数的值不变,变量与变量的相关性不变,故AB错误; 对于C:因为,且线性回归方程过样本中心点, 即均不变,所以线性回归方程不变,故C正确; 因为即为样本中心点,即, 可知残差平方和不变, 所以拟合误差不变,故D错误; 故选:C. 题型八:非线性回归 【例题8-1】.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为(    ) A.9.6 B.11.0 C.11.3 D.12.0 【答案】C 【难度】0.65 【知识点】非线性回归 【分析】首先利用换元法将回归方程转化为线性回归方程,再代入样本点中心,求,再根据方程进行预测. 【详解】设,,则 所以, ,且 则,得, 所以, 下午4点对应的,此时预测游客的人流量. 故选:C 【变式8-1】.(2024·浙江台州·二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:    44 4.8 10 40.3 1.612 19.5 8.06 现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? (3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量). 附:①相关系数, 回归直线中公式分别为,; ②参考数据:,,,. 【答案】(1)模型②的拟合程度更好 (2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆) (3)0.3 【难度】0.65 【知识点】指定区间的概率、相关系数的计算、非线性回归 【分析】(1)分别求得模型①和②的相关系数,,然后比较得出结论; (2)利用最小二乘法求解; (3)由净利润为,求解. 【详解】(1)解:设模型①和②的相关系数分别为,. 由题意可得:, . 所以,由相关系数的相关性质可得,模型②的拟合程度更好. (2)因为, 又由,, 得, 所以,即回归方程为. 当时,, 因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆). (3)净利润为,, 令, 所以. 可得在上为增函数,在上为减函数. 所以, 由题意得:,即, , 即该公司年净利润大于1000(百万元)的概率为0.3. 【变式8-2】.(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表. 360 54.5 1360 44 384 3 588 32 6430 表中,,. (1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程; (2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望. 附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,. 【答案】(1)适宜作为与之间的回归方程模型, (2)答案见解析,. 【难度】0.65 【知识点】非线性回归、求离散型随机变量的均值、利用全概率公式求概率 【分析】(1)根据散点图确定模型,代入数据计算即可; (2)确定随机变量取值,结合全概率公式计算概率,进而可求解; 【详解】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型. 令,则, , , 所以, 所以关于的回归方程为. (2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,, 设“所取两个鱼卵来自第批”, 所以, 设“所取两个鱼卵有个‘死卵’”, 由全概率公式得 , , , 所以取出“死卵”个数的分布列为 0 1 2 所以, 所以取出“死卵”个数的数学期望为. 题型九:一元线性回归之绘制散点图 【例题9-1】.(24-25高三·上海·课堂例题)某厂的生产原料耗费(单位:百万元)与销售额(单位:百万元)之间有如下的对应关系: 2 4 6 8 30 40 50 70 画出的散点图并判断它们是否相关. 【答案】作图见解析,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高 【难度】0.65 【知识点】绘制散点图、根据散点图判断是否线性相关 【分析】根据表中数据在直角坐标系中描点即可,由散点图可看出,图中的数据点接近直线排列,故可以判断有没相关性. 【详解】画出的散点图如图所示. 可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高. 【变式9-1】.(24-25高三·上海·课堂例题)某公司近年来科研费用(单位:万元)与公司所获的利润(单位:万元)之间有如下的统计数据: 2 3 4 5 18 27 32 35 (1)请画出上表数据的散点图; (2)观察散点图,判断与是否具有线性相关关系. 【答案】(1)作图见解析 (2)与有线性相关关系 【难度】0.65 【知识点】绘制散点图、根据散点图判断是否线性相关 【分析】(1)结合题中所给数据,作出散点图即可; (2)根据散点图可以判断有没相关性. 【详解】(1)散点图如下: (2)由图知,所有数据点接近直线排列,因此认为与具有线性相关关系. 【变式9-2】.(2024高一·全国·专题练习)近年来,“双11”网购的观念逐渐深入人心,某人统计了近5年某网站“双11”当天的交易额,统计结果如下表: 年份 2017 2018 2019 2020 2021 年份代码x 1 2 3 4 5 交易额y/百亿元 9 12 17 21 26 请根据表中提供的数据,画出散点图,推断两个变量是否线性相关,并用样本相关系数r说明y与x的线性相关程度(结果保留三位小数).附:. 【答案】散点图见解析,相关,,相关性很强. 【难度】0.65 【知识点】绘制散点图、根据散点图判断是否线性相关、相关系数的意义及辨析、相关系数的计算 【分析】作出散点图,计算相关系数并确定相关程度. 【详解】画出散点图如下: 由图知,交易额y与年份代码x线性相关, 由表中数据,计算得,, 则, , , 所以, 所以变量y与x的线性相关程度很强. 题型十:一元线性回归之根据散点图判断是否线性相关 【例题10-1】.(24-25高三上·山东威海·期末)下列散点图中,线性相关系数最小的是(    ) A. B. C. D. 【答案】A 【难度】0.65 【知识点】根据散点图判断是否线性相关、相关系数的意义及辨析 【分析】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案. 【详解】观察选项A的散点图,这些点紧密地聚集在一条直线附近.其线性相关系数接近于; 选项B的散点图中,线性负相关程度不及A,比较分散,即线性相关系数要比选项A的大. 选项C的散点图里,散点呈现出一定的上升趋势,变量和之间具有强的线性相关关系,其线性相关系数为正数. 选项D的散点图中,散点比较分散,线性相关程度比选项A要弱,线性相关系数的比选项A的大. 综合比较四个选项,选项A,线性负相关程度最强,所以线性相关系数最小. 故选:A. 【变式10-1】(23-24高二下·天津西青·期末)鸢是鹰科的一种鸟,《诗经·大雅·早麓》曰“鸢飞戾天,鱼跃于渊”鸢尾花因花瓣形如鸢尾而得名(图1),寓意鹏程万里、前途无量,通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:),绘制对应散点图(图2)如下:    计算得样本相关系数为0.8642,利用最小二乘法求得相应的经验回归方程为.根据以上信息,如下判断正确的为(    ) A.花萼长度与花瓣长度不存在相关关系; B.花萼长度与花瓣长度负相关; C.花萼长度为的该品种鸢尾花的花瓣长度的平均值约为; D.若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为0.8642. 【答案】C 【难度】0.65 【知识点】根据散点图判断是否线性相关、相关系数的意义及辨析、根据回归方程进行数据估计 【分析】利用散点图可知花萼长度与花瓣长度存在正相关关系,可判断AB错误;将代入回归方程可得C正确;选取其他品种鸢尾花进行抽样相关系数不一定为0.8642. 【详解】由散点图可知,花萼长度与花瓣长度存在正相关关系,可得A错误;B错误; 由经验回归方程可得,当花萼长度为时, 花瓣长度为,可得C正确; 若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数不一定为0.8642,可得D错误. 故选:C 【变式10-2】.(24-25高二上·浙江绍兴·期末)为研究某机器的连续使用时长(小时)和生产产品的合格率之间的关系,某课题研究小组采集了组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是(    ) A.经验回归直线的斜率可能不变 B.样本的线性相关程度更高 C.样本相关系数变小 D.残差平方和变小 【答案】ABD 【难度】0.65 【知识点】根据散点图判断是否线性相关、解释回归直线方程的意义、相关系数的意义及辨析、残差的计算 【分析】根据题设给定散点图为两个特异点,且距离经验回归直线较远,结合相关性、相关系数、残差平方和的概念判断各项的正误. 【详解】由图知,若与所得经验回归直线的距离相同时,去掉后所得直线斜率不变,A对; 由于为两个特异点,且相对于其它点距离经验回归直线较远, 所以去掉后,样本的线性相关程度更高,样本相关系数变大,残差平方和变小,即B、D对,C错. 故选:ABD 【变式10-3】.(22-23高二·全国·随堂练习)下表为某省十二个地区某年1月平均气温与海拔及纬度的数据,试分析1月平均气温与海拔,1月平均气温与纬度之间是否具有相关关系. 气温/℃ 6.9 17 16.9 11.3 14.2 12.3 18.2 17.3 10.4 13.3 6.4 8.6 海拔/m 3640 4420 4220 2840 3200 3140 3360 4650 2680 3970 2080 2260 纬度 32.2 33.8 35 36.3 37.1 38.4 38.9 35.3 36.8 33.8 35.9 36.6 【答案】答案见解析. 【难度】0.65 【知识点】计算样本的中心点、根据散点图判断是否线性相关、绘制散点图 【分析】求出平均数,将成对数据分别以、为零点进行平移,作出散点图,观察分析相关性. 【详解】依题意,气温x的平均数,海拔y的平均数,纬度z的平均数, 将成对数据以为零点进行平移,得到平移后的成对数据 ,作出其散点图得气温与海拔的散点图,如图:    将成对数据以为零点进行平移,得到平移后的成对数据 ,作出其散点图得气温与纬度的散点图,如图:    观察散点图知,气温与海拔的散点图中的点大多数分布在第一、三象限,呈一定的正相关性,相关关系一般, 气温与纬度的散点图在4个象限均有,并且很散,气温与纬度相关关系很弱. 【变式10-4】.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5. (1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)中的判断结果,建立y关于x的回归方程; (3)根据(2)的结果,估计2024年的企业利润. 参考公式及数据; ,, ,,,, 【答案】(1)适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型 (2) (3)估计2024年的企业利润为93.3亿元 【难度】0.65 【知识点】根据回归方程进行数据估计、非线性回归、求回归直线方程、根据散点图判断是否线性相关 【分析】(1)利用散点图的变化趋势,即可得出答案; (2)利用最小二乘法求出即可得解; (3)令即可得解. 【详解】(1)由散点图的变化趋势,知适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型; (2)由题意得:,, , , 所以; (3)令,, 估计2024年的企业利润为99.25亿元. 题型十一:一元线性回归之由散点图求近似回归直线 【例题11-1】.(25-26高三上·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则(    ) A., B., C., D., 【答案】C 【难度】0.65 【知识点】计算几个数的平均数、计算几个数据的极差、方差、标准差、由散点图画求近似回归直线、用回归直线方程对总体进行估计 【分析】根据折线图中各阶段的数据,计算其样本中心纵坐标、极差,并结合数据的变化趋势画出近似回归直线,即可确定回归方程参数之间的大小关系. 【详解】根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,, ∴由图知:2010年至2014年数据为; 2015年至2019年数据为; 2010年至2019年数据为;均成递减趋势. 又,,,且极差分别为6、51、65, 三条回归方程的直线大致图象,如下图示: ∴回归方程的斜率大小关系为,且截距. 故选:C. 【变式11-1】.(2024·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表: 身高(单位: 167 173 175 177 178 180 181 体重(单位: 90 54 59 64 67 72 76 由表格制作成如图所示的散点图:    由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是(    ) A. B. C. D. 【答案】A 【难度】0.65 【知识点】相关系数的意义及辨析、最小二乘法的概念及辨析、解释回归直线方程的意义、由散点图画求近似回归直线 【分析】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数. 【详解】身高的平均数为, 因为离群点的横坐标167小于平均值176,纵坐标90相对过大, 所以去掉后经验回归直线的截距变小而斜率变大,故 去掉后相关性更强,拟合效果也更好,且还是正相关, , 故选:A. 题型十二:一元线性回归之解释回归直线方程的意义 【例题12-1】.(23-24高二下·重庆·期末)下列命题正确的是(    ) A.若是离散型随机变量,则 B.将4个人分到三个不同的岗位工作,每个岗位至少1人,有36种不同的方法 C.样本相关系数越大,成对样本数据的线性相关程度越强 D.以模型去拟合一组数据时,为了求出经验回归方程,设,其变换后得到线性回归方程,则 【答案】ABD 【难度】0.65 【知识点】方差的性质、排列组合综合、相关系数的意义及辨析、解释回归直线方程的意义 【分析】由方差的性质可判断A;先选后排可判断B;根据样本相关系数的定义可判断C;对两边取对数,设,与线性回归方程作比较可判断D. 【详解】对于A,若是离散型随机变量,则,故A正确; 对于B,将4个人分到三个不同的岗位工作,每个岗位至少1人, 有种不同的方法,故B正确; 对于C,样本相关系数的绝对值越大,成对样本数据的线性相关程度越强,故C错误; 对于D,以模型去拟合一组数据时,为了求出经验回归方程, 设,因为其变换后得到线性回归方程, 则,故D正确. 故选:ABD. 【变式12-1】.(23-24高二下·重庆·期末)某科技企业为了对一种新研制的专利产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价(元) 40 50 60 70 80 90 销量(件) 50 44 43 35 28 由表中数据,求得线性回归方程为,则下列说法正确的是(    ) A.产品的销量与单价成负相关 B.为了获得最大的销售额(销售额单价销量,单价应定为70元或80元 C. D.若在这些样本点中任取一点,则它在线性回归直线左下方的概率为 【答案】ACD 【难度】0.65 【知识点】解释回归直线方程的意义、计算古典概型问题的概率、根据回归方程进行数据估计、根据样本中心点求参数 【分析】利用相关系数的正负判断出相关性的正负判断A;利用二次函数计算出最大销售额时的单价判断B;利用单价和销量的均值落在回归线上计算出的值判断C;将分别代入线性回归方程,得到的预测值分别为,从而求解出在线性回归直线左下方的概率判断D. 【详解】对A,由线性回归方程中的回归系数, 可知产品的销量与单价成负相关,故A正确; 对B,由,得, 则销售额, 为了获得最大的销售额,单价应定为82.5元,故B错误; 对C,由表中数据得, , 可得样本点的中心的坐标为,则该回归直线过点, 代入,得,故C正确; 对D,将分别代入线性回归方程, 得到的预测值分别为, 由,故和在线性回归直线的左下方,满足条件的样本点只有2个,故所求概率为,故D正确. 故选:ACD. 题型十三:一元线性回归之用回归直线方程对总体进行估计 【例题13-1】.(2024高二下·全国·专题练习)某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为(    ) A.15名志愿者身高的极差小于臂展的极差 B.15名志愿者身高和臂展成正相关关系 C.可估计身高为的人臂展大约为 D.身高相差的两人臂展都相差 【答案】D 【难度】0.65 【知识点】用回归直线方程对总体进行估计、解释回归直线方程的意义、计算几个数据的极差、方差、标准差 【分析】运用极差概念,回归直线与散点图知识,回归直线的意义,逐项判断即可. 【详解】对于A,身高极差大约为20,臂展极差大约为25,故A正确; 对于B,很明显根据散点图以及回归直线得到,身高矮一些,臂展就可能短一些,身高高一些,臂展就可能长一些,故B正确; 对于C,身高为,代入回归直线方程可得到臂展的预测值为,但不是准确值,故C正确; 对于D,身高相差的两人臂展的预测值相差,但并不是准确值,回归直线上的点并不都是准确的样本点,故D不正确. 故选:D. 题型十四:一元线性回归之根据回归方程求原数据中的值 【例题14-1】.(23-24高二下·广东东莞·期末)两个相关变量满足如下关系: 2 3 4 5 6 25 ● 46 58 65 根据表格已得经验回归方程为.若表格中有一数据模糊不清,则推算该数据是(    ) A.35.5 B.36 C.36.5 D.37 【答案】B 【难度】0.85 【知识点】根据回归方程求原数据中的值、计算样本的中心点 【分析】应用回归直线过样本中心点代入求参即可. 【详解】因为,代入, 所以. 题型十五:一元线性回归之计算样本的中心点 【例题15-1】.(2025·天津宁河·一模)下列说法不正确的是(   ) A.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是 B.若随机变量服从正态分布,且,则 C.若线性相关系数越接近1,则两个变量的线性相关程度越高 D.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14 【答案】D 【难度】0.65 【知识点】相关系数的意义及辨析、指定区间的概率、根据样本中心点求参数、总体百分位数的估计 【分析】利用线性回归方程中的基本量即可判断选项A,利用正态分布的性质即可判断选项B,根据线性相关系数的性质即可判断选项C, 利用百分位数的定义即可判断选项D. 【详解】对A:样本点的中心为,所以,, 因为满足线性回归方程,所以,所以,A正确. 对B:若随机变量服从正态分布,且, 则,则,B正确; 对C:若线性相关系数越接近,则两个变量的线性相关性越强,C正确; 对于D,因为,所以第百分位数为,D错误; 故选:D. 题型十六:一元线性回归之根据回归方程进行数据估计 【例题16-1】.(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是(    ) 时间x(月) 1 2 3 4 5 销售量y(万件) 1 1.6 2.0 a 3 A.由回归方程可知2024年1月份该地区的销售量为6.8万件 B.表中数据的样本中心点为 C. D.由表中数据可知,y和x成正相关 【答案】A 【难度】0.65 【知识点】判断正、负相关、根据回归方程求原数据中的值、计算样本的中心点、根据回归方程进行数据估计 【分析】根据给定数据,结合回归直线的特性逐项判断即得. 【详解】依题意,, 而y与x的回归直线方程为:,则, 解得,,表中数据的样本中心点为,BC正确; 由,得y和x成正相关,D正确; 2024年1月份,即,由回归直线方程,得, 因此2024年1月份该地区的销售量约为6.8万件,A错误. 故选:A 题型十七:一元线性回归之根据样本中心点求参数 【例题17-1】.(2024·广东汕头·二模)2023年,我国新能源汽车产销量占全球比重超过60%,中国成为世界第一大汽车出口国.某汽车城统计新能源汽车从某天开始连续的营业天数与销售总量(单位:辆),采集了一组共20对数据,并计算得到回归方程,且这组数据中,连续的营业天数的方差,销售总量的方差. (1)求样本相关系数,并刻画与的相关程度; (2)在这组数据中,若连续的营业天数满足,试推算销售总量的平均数. 附:经验回归方程,其中,. 样本相关系数,. 【答案】(1),正相关且相关程度很强 (2) 【难度】0.65 【知识点】根据方差、标准差求参数、相关系数的计算、根据样本中心点求参数 【分析】(1)根据相关系数与的公式推导出,代入数据计算可得; (2)由方差公式及求出,再根据回归直线方程必过样本中心点计算可得. 【详解】(1)因为, , 可以推断连续的营业天数与销售总量这两个变量正线性相关,且相关程度很强. (2) , (负值已舍去), 而,从而. 【变式17-1】.(2025·重庆·模拟预测)已知变量和的统计数据如下表. 80 90 100 110 120 y 120 140 165 180 若,线性相关,经验回归方程为,则(    ) A.155 B.158 C.160 D.162 【答案】A 【难度】0.85 【知识点】根据回归方程求原数据中的值、根据样本中心点求参数 【分析】根据样本中心点在回归直线方程上,得到,求出. 【详解】由表中数据可得, 代入经验回归方程可得, 则. 故选:A 【变式17-2】.(2025高三·全国·专题练习)下表为2017—2023年某企业两轮电动车的年产量(单位:万辆),其中2017—2023年的年份代码分别为1—7. 年份代码 1 2 3 4 5 6 7 年产量万辆 31 33 38 44 已知与具有线性相关关系,且满足经验回归方程,则的值为(    ) A.146.5 B.164.8 C.179.5 D.197.8 【答案】B 【难度】0.85 【知识点】根据回归方程求原数据中的值、计算样本的中心点、根据样本中心点求参数 【分析】先求出,又因为点在经验回归直线上,得出即可计算求解. 【详解】由表中数据得,因为点在经验回归直线上, 所以,所以. 故选:B. 【变式17-3】.(24-25高三上·江苏·阶段练习)已知由样本数据=1,2,3,…,8组成的一个样本,得到经验回归方程为,且,增加两个样本点和,得到新样本的经回归方程为.在新的经验回归方程下,当时,的估计值为(   ) A.3.25 B.3.4 C.3.7 D.3.85 【答案】D 【难度】0.65 【知识点】计算样本的中心点、根据回归方程进行数据估计、根据样本中心点求参数 【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得. 【详解】, 增加两个样本点后的平均数为; ,, 增加两个样本点后的平均数为, ,解得:, 新的经验回归方程为:, 则当时,, 故选:D. 【变式17-4】.(24-25高三上·云南昆明·阶段练习)已知变量与的一组样本数据,,…,满足,,对各样本数据求对数,再利用线性回归分析的方法得.若变量,则当的预测值最大时,变量的取值约为 .(,结果保留1位小数) 【答案】 【难度】0.65 【知识点】根据样本中心点求参数、根据回归方程进行数据估计、计算样本的中心点 【分析】先求样本中心点,再由样本中心点求回归直线的参数,最后结合二次函数即可求出最值时变量值. 【详解】由已知可得, 所以, 同理, 代入,得, 所以,所以,则, 令,则, 当时,z取最大值,此时. 故答案为:. 题型十八:一元线性回归之求回归直线方程 【例题18-1】.(2024·山西晋中·模拟预测)比亚迪,这个中国品牌的乘用车,如今已经在全球汽车品牌销量前十中占据一席之地.这一成就是中国新能源汽车行业的里程碑,标志着中国已经在全球范围内成为了新能源汽车领域的强国.现统计了自上市以来截止到2023年8月的宋plus的月销量数据. (1)通过调查研究发现,其他新能源汽车的崛起、购置税减免政策的颁布等,影响了该款汽车的月销量,现将残差过大的数据剔除掉,得到2022年8月至2023年8月部分月份月销量y(单位:万辆)和月份编号x的成对样本数据统计. 月份 2022年8月 2022年9月 2022年12月 2023年1月 2023年2月 2023年3月 2023年4月 2023年6月 2023年7月 2023年8月 月份编号 1 2 3 4 5 6 7 8 9 10 月销量(单位:万辆) 4.25 4.59 4.99 3.56 3.72 3.01 2.46 2.72 3.02 3.28 请用样本相关系数说明y与x之间的关系可否用一元线性回归模型拟合?若能,求出y关于x的经验回归方程;若不能,请说明理由.(运算过程及结果均精确到0.01,若,则线性相关程度很高,可用一元线性回归模型拟合) (2)为迎接2024新春佳节,某地4S店特推出盲盒抽奖营销活动中,店家将从一批汽车模型中随机抽取50个装入盲盒用于抽奖,已知抽出的50个汽车模型的外观和内饰的颜色分布如下表所示. 红色外观 蓝色外观 棕色内饰 20 10 米色内饰 15 5 ①从这50个模型中随机取1个,用A表示事件“取出的模型外观为红色”,用B表示事件“取出的模型内饰为米色”,求和,并判断事件A与B是否相互独立; ②活动规定:在一次抽奖中,每人可以一次性拿2个盲盒.对其中的模型给出以下假设:假设1:拿到的2个模型会出现3种结果,即外观和内饰均为同色、外观和内饰都异色以及仅外观或仅内饰同色.假设2:按结果的可能性大小,概率越小奖项越高.假设3:该抽奖活动的奖金额为一等奖3000元、二等奖2000元、三等奖1000元.请你分析奖项对应的结果,设X为奖金额,写出X的分布列并求出X的期望(精确到元). 参考公式:样本相关系数, ,. 参考数据:,. 【答案】(1)可以使用一元线性回归模型拟合, (2)①,,不独立;②分布列见解析,期望为1694 【难度】0.65 【知识点】求离散型随机变量的均值、写出简单离散型随机变量分布列、相关系数的计算、求回归直线方程 【分析】(1)根据数据和相关系数的公式求出相关系数,结合数值进行判断,利用公式可得回归直线方程; (2)①利用古典概率和条件概率求解即可,结合独立事件的判断方法可知不独立.②确定的所有取值,求出分布列,结合期望公式可得期望. 【详解】(1), , , 因为,所以可以使用一元线性回归模型拟合. , , 所以回归方程为:. (2)①模型内饰为米色的共有20个,所以, 红色外观的模型有35个,其中内饰为米色的共有15个,所以, 红色外观模型且内饰为米色的共有15个,所以, ,因为,所以不独立. ②设事件“取出的模型外观和内饰均为同色”, 事件“取出的模型外观和内饰都异色”, 事件“仅外观或仅内饰同色”, ,, , 因为,所以获得一等奖的概率为,二等奖的概率为,三等奖的概率为. 其分布列为 3000 2000 1000 期望为. 题型十九:各数据同时加减乘除同一数对方差的影响 【例题19-1】.(23-24高三上·江苏常州·阶段练习)下列命题正确的是(    ) A.若样本数据的方差为2,则数据的方差为7 B.若,则. C.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为 D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和4 【答案】BD 【难度】0.65 【知识点】各数据同时加减同一数对方差的影响、各数据同时乘除同一数对方差的影响、非线性回归、相关系数的意义及辨析 【分析】利用方差的概念,条件概率公式,线性回归分析等知识分别对每个选项逐一判断即可. 【详解】对于选项A:若样本数据的方差为2,则数据的方差为,故A不正确; 对于选项B:若,则 ,故B正确; 对于选项C:在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,其中是线性回归方程的一次项系数,不是相关系数,相关系数是刻画一组数据线性相关程度一个量,范围是[−1,1],当相关系数为正时呈正相关关系,为负时呈负相关关系,故C不正确; 对于选项D:以模型去拟合一组数据时,为了求出经验回归方程,设, 则,由题线性回归方程为,则,故的值分别是和4,故D正确. 故选:BD. 题型二十:线性回归和数列的综合应用 【例题20-1】.(2024·广西柳州·一模)某购物平台为了吸引更多的顾客在线购物,推出了和两个套餐服务,并在购物平台上推出了优惠券活动,顾客可自由选择和两个套餐之一,下图是该购物平台7天销售优惠券的情况(单位:千张)的折线图: (1)由折线图可看出,可用回归模型拟合与的关系,请用相关系数加以说明; (2)假设每位顾客选择套餐的概率为,选择套餐的概率为,其中包含一张优惠券,套餐包含两张优惠券,截止某一时刻,该平台恰好销售了张优惠券,设其概率为,求; (3)记(2)中所得概率的值构成数列,求数列的最值. 参考数据:,,, 参考公式:相关系数 【答案】(1)答案见解析 (2) (3)最大值为,最小值为. 【难度】0.65 【知识点】相关系数的计算、求等比数列前n项和、数列的极限 【分析】(1)根据折线图中数据和附注中参考数据可计算相关系数; (2)根据题意得,由递推关系可得等比数列,利用等比数列的前项和公式计算即可; (3)利用指数函数的单调性和极限思想可求最值. 【详解】(1)由折线图中数据和附注中参考数据得,,, , 所以相关系数, 因为与的相关系数近似为0.9632,说明与的相关程度相当高,从而可以用线性回归模型拟合与的关系. (2)依题意得,,其中,, 则, 所以是以首项为,公比为的等比数列, 故成立, 则有, 所以,又, 则. (3)当为偶数时,,单调递减,最大值为,, 当为奇数时,,单调递增,最小值为,, 所以数列的最大值为,最小值为. 一.选择题 1.(24-25高三下·上海·开学考试)下列结论正确的是(   ) A.已知一组样本数据,现有一组新的数据,则与原样本数据相比,新的数据平均数不变,方差变大; B.已知具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,则实数的值是4; C.50名学生在一模考试中的数学成绩,已知,则的人数为30人 D.已知随机变量,若,则 【答案】D 【难度】0.65 【知识点】计算几个数据的极差、方差、标准差、二项分布的均值、计算样本的中心点 【分析】计算可得平均数不变,可得新数据极差变小,可判断A;利用贺归直线过样本中心点,可求m,可判断B;可求得,进而可判断C;由已知得,计算可判断D. 【详解】对于A,新数据的总和为,与原样本数据的总和相等,且数据个数相等,因此平均数不变, ,而, 即极差变小了,由于两组数据平均数不变,而极差变小,说明新数据相对原样本数据更集中于平均数,因此方差变小,A错误; 对于B,经验回归直线必经过样本点的中心, ,解得,B错误; 对于C,一模考试中的数学成绩,, 则,, 那么的人数为人,C错误; 对于D,,,, 解得,D正确, 故选:D. 2.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表: 工作时间 2 4 5 6 8 工资 30 40 50 70 若对的线性回归方程为,则的值为(    ) A.56.5 B.58 C.60 D.62.5 【答案】C 【难度】0.65 【知识点】计算样本的中心点、根据样本中心点求参数 【分析】求出样本中心点,代入回归直线即可求得结果. 【详解】由表格数据知:,, 由线性回归方程为, ,解得. 故选:C. 3.(23-24高三下·四川雅安·开学考试)当两个变量呈非线性相关时,有些可以通过适当的转换进行线性相关化,比如反比例关系,可以设一个新的变量,这样与之间就是线性关系.下列表格中的数据可以用非线性方程进行拟合, 1 2 3 4 5 6 2.5 3.6 4.4 5.4 6.6 7.5 用线性回归的相关知识,可求得的值约为(   ) A.2.98 B.2.88 C.2.78 D.2.68 【答案】B 【难度】0.65 【知识点】计算样本的中心点、根据样本中心点求参数 【分析】设后,得到与之间的关系表格,计算出的值,利用在线性回归方程上进行计算即可. 【详解】设,则,则 1 4 9 16 25 36 2.5 3.6 4.4 5.4 6.6 7.5 则, , 则. 故选:B. 4.(24-25高三下·辽宁·开学考试)已知两个变量x和y之间具有较强的线性相关关系,且y关于x的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差=观测值-预测值),则(    ) A.0.28 B.0.56 C.0.34 D.0.48 【答案】B 【难度】0.65 【知识点】残差的计算、根据回归方程进行数据估计 【分析】先根据回归直线估计得出预测值,再残差计算求解计算求参. 【详解】因为y关于x的经验回归方程为, 所以预测值为,又因为残差=观测值-预测值, 所以, 所以. 故选:B. 5.(24-25高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为,且,发现有两组数据与误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为1.4,那么当时,的值为(    ) A.9.6 B.10 C.10.6 D.9.4 【答案】A 【难度】0.65 【知识点】根据回归方程进行数据估计、根据样本中心点求参数 【分析】先根据,求出,再根据去掉的两组数据发现样本中心点没变,求出新的回归直线方程,将代入即可求得. 【详解】由和,得. 所以去掉数据与后得到的新数据的平均数,, 由题意可设去掉两组数据后的经验回归方程为, 代入,求得, 故去掉与这两组数据后求得的经验回归方程为. 将代入经验回归方程,得. 故选:A. 6.(24-25高二上·黑龙江·期末)某类汽车在今年1至5月销量y(单位:万辆),如下表所示: 月份x 1 2 3 4 5 销量y 5 4.5 4 3.5 2.5 若x与y线性相关,且线性回归方程为,则下列说法不正确的是(   ) A.样本的相关系数为负数 B. C.当时,残差的绝对值为0.1 D.可预测当时销量约为1.5万辆 【答案】C 【难度】0.65 【知识点】相关系数的意义及辨析、残差的计算、根据回归方程进行数据估计、根据样本中心点求参数 【分析】对于A,利用表中的数据就化情况分析判断;对于B,利用样本中心点满足回归方程,求出;对于C,利用回归方程可求出预测值,进而可求出残差绝对值;对于D,利用回归方程可求出预测值. 【详解】对于A,从表中的数据看,随的增大而减小,所以变量负相关,则样本的相关系数为负数,故A正确; 对于B,,所以,得,故B正确; 对于C,因为,所以当时,残差的绝对值为,故C错误; 对于D,当时,,所以预测当时销量约为1.5万瓶,故D正确, 故选:C. 二、多选题 7.(22-23高二下·江苏淮安·期末)如图是某小卖部5天卖出热茶的杯数(单位:杯)与当天气温(单位:℃)的散点图,若去掉后,下列说法正确的有(    )    A.决定系数变大 B.变量与的相关性变弱 C.相关系数的绝对值变大 D.当气温为11℃时,卖出热茶的杯数估计为35杯 【答案】AC 【难度】0.65 【知识点】根据回归方程进行数据估计、相关系数的意义及辨析、由散点图画求近似回归直线、根据散点图判断是否线性相关 【分析】由散点图可知,去掉后,变量与的相关性变强可判断ABC;求出线性回归方程后可判断D. 【详解】由散点图可知,去掉后,变量与的相关性变强,故B错误; 因为是负相关,所以相关系数的绝对值变大,故C正确; 决定系数变大,故A正确; 去掉后,,, , , 所以, , 所以关于的线性回归方程为, 当气温为11℃时,, 卖出热茶的杯数估计为36杯,故D错误. 故选:AC. 8.(24-25高二下·吉林长春·阶段练习)设,,是变量x和y的2025个样本点,直线l是由这些样本点通过最小二乘法得到的经验回归直线,如图所示,下列结论正确的是(   ) A.直线l一定过点 B.直线l一定过点 C.x和y的样本相关系数在区间上 D.因为2025是奇数,所以分布在直线l两侧的样本点的个数一定不相同 【答案】AC 【难度】0.65 【知识点】解释回归直线方程的意义、计算样本的中心点、根据回归方程进行数据估计 【分析】经验回归方程一定过样本中心点,但不一定过某个样本点,可判断A B,根据图象特点可判断CD. 【详解】对于A、B,经验回归方程一定过样本中心点,但不一定过某个样本点,故A正确,B错误; 对于C,由题图可知x和y是负相关,则样本相关系数在区间上,故C正确; 对于D,不能因为2025是奇数就断定分布在直线l两侧的样本点的个数不相同,故D错误. 故选:AC 9.(24-25高二下·河南信阳·开学考试)下列有关线性回归分析的问题中,正确的是(   ) A.线性回归方程至少经过点中的一个点 B.两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于1 C.若设直线回归方程为,则当变量增加1个单位时,平均增加2个单位 D.对具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,则实数的值是. 【答案】BCD 【难度】0.65 【知识点】解释回归直线方程的意义、相关系数的意义及辨析、根据样本中心点求参数 【分析】利用回归直线的性质即可判断选项A,C,利用线性相关系数的性质即可判断选项B,利用线性回归方程中的基本量即可判断选项D. 【详解】对于A,直线由点拟合而成,可以不经过任何样本点,A错; 对于B,相关系数的绝对值越接近于,表示相关性越强,越接近于,相关性越弱,B正确; 对于C,回归直线方程为,变量x增加1个单位时,平均增加2个单位,故C正确; 对于D,样本点的中心为,所以,, 因为满足线性回归方程,所以,所以,D正确. 故选: BCD. 10.(24-25高二上·江西南昌·期末)由一组样本数据,利用最小二乘法得到两个变量的回归直线方程为,记,,则下面说法正确的是(   ) A.直线至少经过点中的一个点 B.直线必经过点 C.样本相关系数与回归系数同号 D.对样本相关系数,越大,两个变量之间的线性相关性越强 【答案】BCD 【难度】0.65 【知识点】解释回归直线方程的意义、相关系数的意义及辨析、相关指数的计算及分析、计算样本的中心点 【分析】根据回归直线性质、相关系数、回归系数的概念逐项分析可得答案. 【详解】回归直线是由点拟合而成的,可能不过任何一个样本点,但必过数据的中心点,A错误,B正确. 样本相关系数为正时,两个变量为正相关,回归系数为正;样本相关系数为负时, 两个变量为负相关,回归系数为负.故样本相关系数与回归系数同号,C正确. 样本相关系数,越大,两个变量之间的线性相关性越强,D正确. 故选:BCD. 11.(2024高三·全国·专题练习)如图是根据一组观测数据得到海拔千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法正确的是(   ) A.由散点图可知,大气压强与海拔高度负相关 B.由方程可知,海拔每升高1千米,大气压强必定降低kPa C.由方程可知,样本点的残差为 D.对比两个回归模型,结合实际情况,方程的预报效果更好 【答案】ACD 【难度】0.65 【知识点】根据回归方程进行数据估计、残差的计算、解释回归直线方程的意义、判断正、负相关 【分析】根据散点图即可得出A项;根据回归方程的含义可判断B项;根据残差计算公式求出残差,可判断C项;根据实际大气压强不能为负,可判断D项. 【详解】对于A,由图象知,海拔高度越高,大气压强越低,所以大气压强与海拔高度负相关,故A正确; 对于B,经验回归方程得到的数据为估计值,而非精确值,故B错误; 对于C,当时, ,所以样本点的残差为,故C正确; 对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程的预报效果更好,故D正确. 故选:ACD. 12.(2025·云南昆明·模拟预测)对于一元线性回归模型,下列说法错误的是(    ) A.对于随机误差,在刻画成对变量的相关关系时,需假定 B.解释变量的取值距离样本数据范围越远,预报的效果越差 C.在经验回归方程中,样本点的残差为 D.在经验回归方程中,当解释变量x每增加1个单位时,响应变量y平均减少3个单位 【答案】CD 【难度】0.65 【知识点】残差的计算、相关系数的意义及辨析、解释回归直线方程的意义 【分析】根据一元线性回归模型判断A,根据残差的定义判断BC,结合回归方程判断D. 【详解】对于A,由一元线性回归模型方程知,对于随机误差,在刻画成对变量的相关关系时,需假定,A正确; 对于B,解释变量的取值距离样本数据范围越远,说明残差越大,故预报的效果越差,B正确; 对于C,在经验回归方程中,取可得,, 所以样本点的残差为,C错误; 对于D,在经验回归方程中,当解释变量每增加个单位时,响应变量平均减少个单位,D错误; 故选:CD. 13.(24-25高二下·全国·课后作业)每年3,4月间,成批白天鹅从地中海沿岸、南亚等温暖的地方越冬来到天山中部广袤的巴音布鲁克草原.为保护这些白天鹅,某动物保护机构研究了这时期6个区域每公顷草原的白天鹅平均只数y与每公顷草原上白天鹅的天敌狼和狐狸的平均只数x之间的对应数据,如下表所示: 10 15 20 25 30 11 10 8 6 5 根据表中的数据计算得经验回归方程为,则以下结论正确的是(    ) A.与负相关 B.回归直线一定经过点 C.估计当白天鹅的天敌每公顷平均只数为5时,白天鹅每公顷平均只数大约为13 D.当时,残差的绝对值最小 【答案】AC 【难度】0.65 【知识点】判断正、负相关、解释回归直线方程的意义、计算样本的中心点、根据回归方程进行数据估计 【分析】根据数据判断回归直线的单调性判断A;应用样本中心点判断B;根据回归直线估计函数值判断C;计算残差判断D. 【详解】由表格数据可知,随着的增加,随之减少,所以与负相关,A正确; 因为,故样本中心为,由回归直线必过样本点的中心,不一定过点,B错误; 由,解得,所以回归方程为,所以当时,估计,C正确; 残差如下: 当时,; 当时,; 当时,; 当时,; 当时,, 故时,残差的绝对值最小,D错误. 故选:AC. 三.解答题 14.(2024·江西吉安·模拟预测)2023年10月国家发改委、工信部等部门联合印发了《加快“以竹代塑”发展三年行动计划》,该计划将推动“以竹代塑”高质量发展,助力减少塑料污染,并将带动竹产业新一轮的增长.下表为2019年—2023年中国竹产业产值规模(单位:千亿元),其中2019年—2023年的年份代码依次为. 1 2 3 4 5 2.89 3.22 3.82 4.34 5.41 (1)记第年与年中国竹产业产值规模差值的2倍的整数部分分别为,从中任取2个数相乘,记乘积为,求的分布列与期望; (2)根据以上数据及相关系数,判断能否用线性回归模型拟合中国竹产业产值规模与年份之间的关系. 参考数据:,,, 相关系数若,则认为与有较强的相关性. 【答案】(1)分布列见解析, (2)可以用线性回归模型拟合与的关系. 【难度】0.65 【知识点】相关系数的计算、写出简单离散型随机变量分布列、求离散型随机变量的均值 【分析】(1)根据已知条件,确定,,,的值,由此确定的取值,求出分布列及期望即可; (2)根据已知条件,利用公式求出相关系数即可. 【详解】(1)第年和第年中国竹产业产值规模差值的2倍为, 整数部分为,所以; 第年和第年中国竹产业产值规模差值的2倍为, 整数部分为,所以; 第年和第年中国竹产业产值规模差值的2倍为, 整数部分为,所以; 第年和第年中国竹产业产值规模差值的2倍为, 整数部分为,所以; 所以,, 所以的取值依次为, , 所以的分布列为: 0 1 2 所以. (2)由题意得,, , , ,, 所以, . 因为与的相关系数大于0.75,说明与的线性相关程度高, 可以用线性回归模型拟合与的关系. 15.(2024·重庆·模拟预测)为丰富第二课堂,拓展素质教育,某校鼓励学生参加书法兴趣小组和绘画兴趣小组,开展相关实践活动.该校共有3000名学生,为了解学生的参加情况,从全校学生中随机抽取150名学生进行调查,发现有5人没有参加兴趣小组,且样本中仅参加书法兴趣小组和仅参加绘画兴趣小组的学生每周投入时间情况如下表: 兴趣小组活动类别 投入时间(小时/周) 大于10 仅参加书法兴趣小组人数z 25 30 15 10 仅参加绘画兴趣小组人数y 10 20 25 5 (1)用频率估计概率,试估计全校学生中书法兴趣小组和绘画兴趣小组都参加的人数; (2)从仅参加书法兴趣小组和仅参加绘画兴趣小组的学生中各抽1人,以X表示2人中每周投入时间大于5小时的人数,求X的分布列和数学期望; (3)根据公式计算仅参加书法兴趣小组和仅参加绘画兴趣小组的学生在各投入时间段人数的样本相关系数,并推断它们的相关程度,其中分别为仅参加书法兴趣小组的学生在各投入时间段人数的均值和标准差,分别为仅参加绘画兴趣小组的学生在各投入时间段人数的均值和标准差. 附: 相关系数r 相关程度 低度线性相关 显著性相关 高度线性相关 【答案】(1)5,100 (2)分布列见解析,数学期望为 (3),仅参加书法兴趣小组和仅参加绘画兴趣小组的学生在各投入时间段人数呈低度线性相关 【难度】0.65 【知识点】求离散型随机变量的均值、写出简单离散型随机变量分布列、相关系数的计算、相关系数的意义及辨析 【分析】(1)从抽取的150名学生中减去仅参加书法兴趣小组的学生人数和仅参加绘画兴趣小组的学生人数及没有参加兴趣小组的人数,得到样本中书法兴趣小组和绘画兴趣小组都参加的人数,求出频率,进而得到全校学生中书法兴趣小组和绘画兴趣小组都参加的人数; (2)易知X的所有可能取值为,分别求出对应概率,列出X的分布列,由公式即可算出数学期望; (3)由已知数据求出和,由公式即可求出样本的相关系数,再由附表中相关系数对应的相关程度即可推断它们的相关程度. 【详解】(1)样本中仅参加书法兴趣小组的学生人数为, 样本中仅参加绘画兴趣小组的学生人数为, 所以样本中书法兴趣小组和绘画兴趣小组都参加的人数为, 故全校学生中书法兴趣小组和绘画兴趣小组都参加的人数约为. (2)从仅参加书法兴趣小组的学生中抽取1人,每周投入时间大于5小时的概率为,从仅参加绘画兴趣小组的学生中抽取1人,每周投入时间大于5小时的概率为. X的所有可能取值为, 则, , , 所以X的分布列为 X 0 1 2 P 故. (3)由题意得, 所以,即, ,即, , 所以样本的相关系数, 由于, 故仅参加书法兴趣小组和仅参加绘画兴趣小组的学生在各投入时间段人数呈低度线性相关. 16.(2024·四川南充·三模)近年来,国内掀起了全民新中式热潮,新中式穿搭,新中式茶饮,新中式快餐,新中式烘焙等,以下为某纺织厂生产“新中式”面料近5个月的利润y(万元)的统计表. 月份 2023.11 2023.12 2024.01 2024.02 2024.03 月份编号x 1 2 3 4 5 利润y(万元) 27 23 20 17 13 (1)根据统计表,试求y与x之间的相关系数r(精确到0.001),并利用r说明y与x是否具有较强的线性相关关系;(若,则认为两个变量具有较强的线性相关性); (2)该纺织厂现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了4件、2件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为X,试求X的分布列与期望. 附:参考数据: 相关系数. 【答案】(1);具有较强的线性相关关系 (2)分布列见解析; 【难度】0.65 【知识点】求离散型随机变量的均值、写出简单离散型随机变量分布列、相关系数的计算、相关系数的意义及辨析 【分析】(1)由相关系数的公式结合题中的数据计算即可; (2)由题意可得的可能取值有,再由古典概率计算其对应的概率,列出分布列,求出期望即可. 【详解】(1),, , 又, 所以可以判断与具有较强的线性相关关系. (2)的可能取值有, 因为,,, 其分布列为: 1 2 3 期望. 17.(2024·四川南充·三模)近年来,国内掀起了全民新中式热潮,新中式穿搭,新中式茶饮,新中式快餐,新中式烘焙等,以下为某纺织厂生产“新中式”面料近5个月的利润(y万元)的统计表. 月份 2023.11 2023.12 2024.01 2024.02 2024.03 月份编号x 1 2 3 4 5 利润(y万元) 27 23 20 17 13 (1)根据统计表,试求y与x之间的相关系数r(精确到0.001),并利用r说明y与x是否具有较强的线性相关关系:(若,则认为两个变量具有较强的线性相关性); (2)从这5个月的利润中任选2个月的利润,分别记为m,n,求事件“m,n均不小于20万元”的概率. 附:参考数据: 相关系数. 【答案】(1),具有较强的线性相关关系 (2) 【难度】0.65 【知识点】计算古典概型问题的概率、相关系数的计算、相关系数的意义及辨析 【分析】(1)计算相关系数中的量,代入相关系数公式,由计算结果得出结论; (2)列出基本事件空间,根据古典概型计算概率. 【详解】(1),, , 又, 所以可以判断与具有较强的线性相关关系. (2)从5个月的利润中任选2个,不同的结果有: (27,23), (27,20), (27,17), (27,13), (23,20), (23,17), (23,13), (20,17), (20,13), (17,13), 共10个基本事件, 记“m,n均不小于20万元”为事件A,则事件A包含的基本事件为(27, 23), (27,20), (23,20),共3个基本事件. 所以,即事件“m, n均不小于20万元"的概率为. 18.(2024·四川泸州·三模)随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.某公司生产了A、B两种不同型号的新能源汽车,为了解大众对生产的新能源汽车的接受程度,公司在某地区采用随机抽样的方式进行调查,对A、B两种不同型号的新能源汽车进行综合评估,综合得分按照,,,分组,绘制成评估综合得分的频率分布直方图(如图): A型号评估综合得分频率分布直方图        B型号评估综合得分频率分布直方图 (1)以调查结果的频率估计概率,从A、B两种不同型号的新能源汽车中各随机抽取一辆,以X表示这两辆中综合得分不低于80分的辆数,求X的分布列和数学期望; (2)为进一步了解该地区新能源汽车销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销量y(单位:万台)关于年份x的线性回归方程为,且销量的方差,年份的方差为.求y与x的相关系数r,并据此判断该地区新能源汽车销量y与年份x的相关性强弱. 参考公式: (ⅰ)线性回归方程:,其中,; (ⅱ)相关系数(若,则相关性较弱;若,则相关性较强;若,则相关性很强). 【答案】(1)分布列见详解,; (2),销量与年份的线性相关很强. 【难度】0.65 【知识点】相关系数的意义及辨析、相关系数的计算、写出简单离散型随机变量分布列、求离散型随机变量的均值 【分析】(1)根据题意,求出的所有可能值,计算每个值的概率,即可写出分布列,再利用期望公式计算期望即可; (2)根据相关系数的公式结合条件求解判断. 【详解】(1)由频率分布直方图可知, A种型号的新能源汽车评估综合得分不低于80分的概率为: , B种型号的新能源汽车评估综合得分不低于80分的概率为: , 所以的所有可能值为, 所以, , , 所以的分布列为: 0 1 2 0.72 0.26 0.02 故的数学期望. (2)相关系数为: . 所以,故与线性相关很强. 19.(2024·陕西咸阳·模拟预测)第31届世界大学生夏季运动会(简称大运会)于2023年7月28日在四川成都开幕,这是中国西部城市第一次举办世界性综合运动会.为开好本次大运会,各个行业都力争做到报好. (1)某体校田径队在备战期间对选手进行了考核,考核设有100米、400米和1500米三个项目,选手需要依次完成考核,成绩合格后的积分分别记为,和(,,1,2),总成绩为累计积分和.考核规定:项目考核逐级进阶,即选手只有在低一级里程项目考核合格后,才能进行下一级较高里程项目的考核,否则考核终止.对于100米和400米项目,每个项目选手必须考核2次,且全部达标才算合格;对于1500米项目,选手必须考核3次,但只要达标2次及以上就算合格.已知选手甲三个项目的达标率依次为,,,每次考核是否达标相互独立.用表示选手甲考核积分的总成绩,求的分布列和数学期望; (2)某体育用品店统计了2023年1~5月份运动器材销量(单位:千套)与售价(单位:元)的情况,统计结果如下表所示: 月份 1 2 3 4 5 器材售价(元) 100 90 80 70 60 销量(千套) 5 7.5 8 9 10.5 求的相关系数,并判断销量与售价是否有很强的线性相关性.(当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到0.001). 参考公式:对于一组数据, 相关系数,参考数据:. 【答案】(1)分布列见解析, (2)与有很强的线性相关性 【难度】0.65 【知识点】相关系数的计算、写出简单离散型随机变量分布列、求离散型随机变量的均值 【分析】(1)对于选手甲:记“米成绩合格”、“米成绩合格”、“米成绩合格”分别为事件、、,求出,,,依题意的可能取值有,求出所对应的概率,即可得到分布列与数学期望. (2)根据公式求出相关系数,即可得出结论; 【详解】(1)对于选手甲:记“米成绩合格”、“米成绩合格”、“米成绩合格”分别为事件、、, 则,,, 由题意可得的可能取值有, 所以, , , , 可得的分布列为: 所以. (2)依题意可得,, , , , 则, 与有很强的线性相关性. 20.(2024·内蒙古赤峰·模拟预测)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额的统计表(金额(万元)). 月份 1月 2月 3月 4月 5月 月份编号 1 2 3 4 5 金额(万元) 7 12 13 19 24 (1)根据统计表, ①求该公司带货金额的平均值; ②求该公司带货金额与月份编号的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为与的线性相关性较强;,则认为与的线性相关性较弱); (2)该公司现有一个直播间销售甲、乙两种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两种产品中分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到甲产品的件数为,试求的分布列与期望. 附:相关系数公式,参考数据:,,,. 【答案】(1)①;②,两个变量具有很强的线性相关性 (2)分布列见解析, 【难度】0.65 【知识点】超几何分布的分布列、超几何分布的均值、相关系数的计算、相关系数的意义及辨析 【分析】(1)根据平均数和相关系数公式代入求解即可; (2)利用超几何分布求分布列,进而求期望即可. 【详解】(1)①由统计表数据可得:, ②由于,,, 所以相关系数, 因此,两个变量具有很强的线性相关性. (2)由题意知,的可能取值为0,1,2,3, 因为,, ,, 所以的分布列为: 0 1 2 3 所以. 21.(2024·广东广州·二模)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据,其中,和,分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得. (1)求样本的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度; (2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列. 附:相关系数 【答案】(1)0.94,相关性较强. (2)见解析 【难度】0.65 【知识点】相关系数的计算、写出简单离散型随机变量分布列、超几何分布的分布列 【分析】(1)根据相关系数的计算公式即可代入求解, (2)根据超几何概率的概率公式求解概率,即可得分布列. 【详解】(1)样本,,2,, 的相关系数为 . 由于相关系数,,则相关性很强,的值越大,相关性越强. 故,故相关性越强. (2)由题意得:的可能取值为0,1,2, 20个样区中有8个样区的这种野生动物数量低于样本平均数,有12个样区的这种野生动物数量不低于样本平均数, 所以, , , 所以的分布列为: 0 1 2 22.(23-24高三上·陕西汉中·期末)大学生刘铭去某工厂实习,实习结束时从自己制作的某种零件中随机选取了10个样品,测量每个零件的横截面积(单位:)和耗材量(单位:),得到如下数据: 样本号 1 2 3 4 5 6 7 8 9 10 总和 零件的横截面积 0.03 0.05 0.04 0.07 0.07 0.04 0.05 0.06 0.06 0.05 0.52 耗材量 0.24 0.40 0.23 0.55 0.50 0.34 0.35 0.45 0.43 0.41 3.9 并计算得,. (1)估算刘铭同学制作的这种零件平均每个零件的横截面积以及平均一个零件的耗材量; (2)求刘铭同学制作的这种零件的横截面积和耗材量的样本相关系数(精确到0.01). 附:相关系数;. 【答案】(1)横截面积为,耗材量为. (2)0.94 【难度】0.65 【知识点】计算几个数的平均数、相关系数的计算 【分析】(1)根据表格中的数据,结合平均数的计算公式,即可求解; (2)由表格中的参考数据和相关系数的公式,准确计算,即可求解. 【详解】(1)解:样本中10个这种零件的横截面积的平均值, 样本中10个这种零件的耗材量的平均值, 由此可估算刘铭同学制作的这种零件平均每个零件的横截面积为,平均一个零件的耗材量为. (2)解:由表格中的参考数据和相关系数的公式,可得 , 所以这种零件的横截面积和耗材量的样本相关系数. 23.(2023·河南·模拟预测)党的二十大以来,国家不断加大对科技创新的支持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升了企业收益水平.下表是对2023 年1 ~5月份该企业的利润y(单位:百万)的统计. 月份 1 月 2 月 3 月 4 月 5 月 月份编号x 1 2 3 4 5 利润y(百万) 7 12 13 19 24 (1)根据统计表,求该企业的利润y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为y与x的线性相关性较强,,则认为y与x的线性相关性较弱.); (2)该企业现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为,试求的分布列与期望. 附:相关系数 【答案】(1);具有很强的线性相关性 (2)分布列见解析; 【难度】0.65 【知识点】相关系数的计算、写出简单离散型随机变量分布列、求离散型随机变量的均值 【分析】(1)根据公式求出相关系数的值,即可判断; (2)根据题意可知可取的为,然后计算列出分布列,求出期望即可求解. 【详解】(1)由统计表数据可得:    所以     所以相关系数 , 因此,两个变量具有很强的线性相关性. (2)由题意知,的可能取值为                         因为 , , 所以 的分布列为: 所以 24.(2023·全国·模拟预测)新冠病毒奥密克戎毒株开始流行后,为了控制新冠肺炎疫情,杭州某高中开展了每周核酸检测工作.周一至周五,每天中午13:30开始,安排位师生进行核酸检测,教职工每天都要检测,用五天时间实现全员覆盖. (1)该校教职工有人,高二学生有人,高三学生有人. ①用分层抽样的方法,求高一学生每天的检测人数. ②高一年级共个班,该年级每天进行核酸检测的学生有两种安排方案.方案一:集中来自部分班级;方案二:分散来自所有班级.你认为哪种方案更合理?给出理由. (2)学校开展核酸检测的第一周,周一至周五核酸检测用时记录如下表. 第天 用时 ①计算变量和的相关系数(精确到),并说明两变量的线性相关程度; ②根据①中的计算结果,判定变量和是正相关还是负相关,并给出可能的原因. 参考数据和公式:,相关系数. 【答案】(1)①;②方案二更合理,理由见解析 (2)①,两变量线性相关性很强;②负相关,理由见解析 【难度】0.65 【知识点】抽样比、样本总量、各层总数、总体容量的计算、相关系数的计算 【分析】(1)①利用分层抽样的概念直接计算,②根据随机抽样的特性直接判断; (2)根据相关系数的公式可得,进而可以判断相关性的强弱及相关性. 【详解】(1)①高一学生每天的检测人数为人, ②方案二更合理,因为新冠病毒奥密克戎毒株传染性更强,潜伏期更短,分散抽检可以全面检测年级中每班学生的状况,更有利于防控筛查工作; (2)①, , , ,, 故, ,两变量线性相关性很强, ②由可知变量和负相关. 可能的原因:随着核酸检测工作的开展,学校相关管理协调工作效率提高,因此用时缩短. 25.(23-24高三上·陕西·期中)人口结构的变化,能明显影响住房需求.当一个地区青壮年人口占比高,住房需求就会增加,而当一个地区老龄化严重,住房需求就会下降.某机构随机选取了某个地区的10个城市,统计了每个城市的老龄化率和空置率,得到如下表格. 城市 1 2 3 4 5 6 7 8 9 10 总和 老龄化率 0.17 0.2 0.18 0.05 0.21 0.09 0.19 0.3 0.17 0.24 1.8 空置率 0.06 0.13 0.09 0.05 0.09 0.08 0.11 0.15 0.16 0.28 1.2 并计算得. (1)若老龄化率不低于,则该城市为超级老龄化城市,根据表中数据,估计该地区城市为超级老龄化城市的频率; (2)估计该地区城市的老龄化率和空置率的相关系数(结果精确到0.01). 参考公式:相关系数. 【答案】(1)估计该地区城市为超级老龄化城市的频率为 (2)该地区城市的老龄化率和空置率的相关系数约为0.63 【难度】0.65 【知识点】用频率估计概率、相关系数的计算 【分析】(1)由已知数据确定老龄化率不低于的城市个数后用频率估计概率; (2)根据所给公式计算相关系数可得. 【详解】(1)由表中数据可知,调查的10个城市中,老龄化率不低于的有4个, 故估计该地区城市为超级老龄化城市的频率为. (2), 则 . 故该地区城市的老龄化率和空置率的相关系数约为0.63. 26.(23-24高三上·山西朔州·开学考试)某校20名学生的数学成绩和知识竞赛成绩如下表: 学生编号i 1 2 3 4 5 6 7 8 9 10 数学成绩 100 99 96 93 90 88 85 83 80 77 知识竞赛成绩 290 160 220 200 65 70 90 100 60 270 学生编号i 11 12 13 14 15 16 17 18 19 20 数学成绩 75 74 72 70 68 66 60 50 39 35 知识竞赛成绩 45 35 40 50 25 30 20 15 10 5 计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,. (1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01); (2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数. (i)记,.证明:; (ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势. 注:参考公式与参考数据. ;;. 【答案】(1)证明见解析 (2)答案见解析 【难度】0.4 【知识点】相关指数的计算及分析、相关系数的计算 【分析】(1)利用相关系数的公式进行计算即可; (2)(i)根据题意即相关系数的公式进行计算即可证明;(ii)只要能说出斯皮尔曼相关系数与一般的样本相关系数相比的优势即可. 【详解】(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为 ; (2)(i)证明:因为和都是1,2,,的一个排列,所以 , , 从而和的平均数都是. 因此,, 同理可得, 由于 , 所以. (ii)这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是0.91, 答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系; 答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系. 【点睛】方法点睛;新定义题型的特点是:通过给出一个新概念,或约定一种新运算,或给出几个新模型来创设全新的问题情景,要求考生在阅读理解的基础上,依据题目提供的信息,联系所学的知识和方法,实现信息的迁移,达到灵活解题的目的;遇到新定义问题,应耐心读题,分析新定义的特点,弄清新定义的性质,按新定义的要求,“照章办事”,逐条分析、验证、运算,使问题得以解决. 10 / 37 学科网(北京)股份有限公司 $$ 重难点培优专题:成对数据的统计相关性以及一元线性回归 成对数据的统计相关性 知识点1:变量的相关关系 变量与变量之间的关系常见的有两类:一类是变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了;另一类是变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性. (1)相关关系 两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. (2)函数关系与相关关系的异同点 函数关系 相关关系 相同点 两者均是指两个变量之间的关系 不同点 是一种确定性关系 是一种非确定性的关系 是两个变量之间的关系 ①一个为变量,另一个为随机变量;②两个都是随机变量 是一种因果关系 不一定是因果关系,也可能是伴随关系 是一种理想的相关关系模型 是一种更为一般的情况 知识点2:散点图的概念 (1)一般地,如果收集到了变量和变量的对数据(简称为成对样本数据),如下表所示 序号 1 2 3 4 变量 变量 则在直角坐标系中描出点,就可以得到这对数据的散点图 (2)正相关与负相关 如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关; 如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关. (3)线性相关 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关理解. 知识点3:相关关系的强弱 (1)样本相关系数 现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数. (2)相关系数的性质 ①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系. ②样本相关系数的取值范围为 当越接近1时,成对样本数据的线性相关程度越强; 当越接近0时,成对样本数据的线性相关程度越弱. 一元线性回归模型及其应用 知识点1:一元线性回归模型 (1)一元线性回归模型 我们称 为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差. (2)随机误差 在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程. 线性回归模型的完整表达式为 , 在此模型中,随机误差的方差越小,用预报真实值的精度越高. 知识点2:一元线性回归模型参数的最小二乘法 (1)经验回归方程的求解法:最小二乘法 回归直线方程过样本点的中心,是回归直线方程最常用的一个特征; 我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距. 其中 (2)求经验回归方程的步骤 ①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程; ②列表求出,的值; ③利用公式先计算,再根据经验回归直线过样本点的中心计算; ④写出经验回归方程. 求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义. (3)经验回归方程的性质 ①经验回归直线一定过点,点通常称为样本点的中心; ②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是. ③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位. 知识点3:残差 (1)残差 对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差. (2)残差图 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好. (3)残差分析 残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性. 知识点4:决定系数 (1)残差平方和 残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差. (2)决定系数 决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力. ,越大,即拟合效果越好,越小,模型拟合效果越差. (3)决定系数与相关系数的联系与区别 ①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果. ②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为. ③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好. 题型一:相关关系与函数关系的概念与辨析 【例题1-1】.(20-21高三上·黑龙江大庆·阶段练习)汽车急刹车的停车距离与诸多因素有关,其中最为关键的两个因素是驾驶员的反应时间和汽车行驶的速度.设d表示停车距离,表示反应距离,表示制动距离,则,如图是根据美国公路局公布的试验数据制作的停车距离示意图. 由图中数据得到如表的表格,根据表格中的数据,建立停车距离与汽车速度的函数模型.可选择模型①:模型②:,模型③:,模型④:(其中v为汽车速度,a,b为待定系数)进行拟合,如果根据序号3和序号7两组数据分别求出四个函数模型的解析式,并通过计算时的停车距离和实验数据比较,则拟合效果最好的函数模型是(    ) A. B. C. D. 题型二:判断两个变量是否有相关关系 【例题2-1】.(24-25高二下·全国·课后作业)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示: 城市编号 1 2 3 4 5 指标 4 6 2 8 5 指标 4 4 3 5 4 指标 3 6 2 5 4 利用向量夹角来分析与之间及与之间的相关关系. 题型三:判断正负相关 【例题3-1】.(2024·湖北襄阳·模拟预测)下列说法正确的有(    ) A.若事件A和事件B互斥, B.数据2,7,4,5,16,1,21,11的第70百分位数为11 C.若随机变量,,则 D.若y关于x的回归方程为,则y与x是线性负相关关系 【变式】.(23-24高三下·湖南长沙·阶段练习)某市7天国庆节假期期间的楼房日认购量(单位:套)与日成交量(单位:套)的折线图如下图所示,小明同学根据折线图对这7天的日认购量与日成交量作出如下判断,则下列结论正确的是(    ) A.日认购量与日期正相关 B.日成交量的中位数是26 C.日成交量超过日平均成交量的有2天 D.10月7日日认购量的增量大于10月7日日成交量的增量 【变式3-1】.(2023·黑龙江大庆·模拟预测)下列命题中正确的是(    ) A.设随机变量服从正态分布,若,则 B.经验回归方程为时,变量x和y负相关 C.某学生在上学的路上要经过4个路口,假设在各路口是否遇到红灯是相互独立的,遇到红灯的概率都是,那么该生在上学路上到第3个路口首次遇到红灯的概率为 D.若,则取最大值时 题型四:相关系数的意义及辨析 【例题4-1】.(24-25高二下·天津·阶段练习)以下散点图经过标准化后,相关系数最大的是(   ) A.   B.     C.   D.   【变式4-1】.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度(    ) 5 10 15 20 25 103 105 110 111 114 (参考数据:,,) A.很强 B.很弱 C.无相关 D.不确定 【变式4-2】.(23-24高二下·上海·阶段练习)以下说法正确的个数为(    ) ①两个随机变量的线性相关越强,则相关系数的绝对值越接近0; ②设是随机变量,则; ③设随机变量,若,则; ④设随机变量,则 A.0个 B.1个 C.2个 D.3个 【变式4-3】.(2025·江西鹰潭·一模)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则(   ) 参考公式:, A.当时,成对样本数据成线性正相关; B.当越大时,成对样本数据的线性相关程度越强; C.,时,成对样本数据的相关系数满足; D.,时,成对样本数据的线性回归方程满足; 【变式4-4】.(23-24高二下·湖南益阳·阶段练习)下列命题中正确的是(    ) A.已知随机变量服从正态分布,且,则 B.相关系数用来衡量两个变量之间线性关系的强弱,越大,相关性越弱 C.相关指数用来刻画回归的效果,越小,说明模型的拟合效果越好 D.在残差图中,残差点分布的带状区域越狭窄,其模型拟合的精度就越高 【变式4-5】.(2024·全国·模拟预测)氮氧化物是一种常见的大气污染物,它是由氮和氧两种元素组成的化合物,有多种不同的形式.下图为我国2014年至2022年氮氧化物排放量(单位:万吨)的折线图,其中,年份代码1~9分别对应年份2014~2022. 计算得,,. (1)是否可用线性回归模型拟合与的关系?请用折线图和相关系数加以说明; (2)是否可用题中数据拟合得到的线性回归模型预测2023年和2033年的氮氧化物排放量?请说明理由. 附:相关系数,. 题型五:相关系数的计算 【例题5-1】.(2024·陕西西安·模拟预测)之前7年,我国生活垃圾无害处理量如下表: 序号 1 2 3 4 5 6 7 年 1 2 3 4 5 6 7 处理量 通过计算,线性相关系数则(    ). A.与的线性相关性很强,用线性回归模型拟合与的关系比较好 B.与的线性相关性比较弱,可以用线性回归模型拟合与的关系 C.与不线性相关,用线性回归模型㧍合与的关系,会有很大误差 D.与不线性相关,不可以用线性回归模型拟合与的关系 【变式5-1】.(24-25高三上·宁夏银川·期末)已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 . 【变式5-2】.(23-24高二下·江苏扬州·期末)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 . 参考公式:. 【变式5-3】.(2023·全国·模拟预测)某校20名学生的数学成绩和知识竞赛成绩如下表: 学生编号 1 2 3 4 5 6 7 8 9 10 数学成绩 100 99 96 93 90 88 85 83 80 77 知识竞赛成绩 290 160 220 200 65 70 90 100 60 270 学生编号 11 12 13 14 15 16 17 18 19 20 数学成绩 75 74 72 70 68 66 60 50 39 35 知识竞赛成绩 45 35 40 50 25 30 20 15 10 5 计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,. (1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到). (2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数. (i)记,.证明:. (ii)用(i)的公式求这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”(精确到). (3)比较(1)和(2)(ii)的计算结果,简述“斯皮尔曼相关系数”在分析线性相关性时的优势. 注:参考公式与参考数据.;;. 【变式5-4】.(2025·海南海口·模拟预测)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表: 5 6 7 8 9 0.55 0.50 0.60 0.65 0.70 (1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强); (2)机器人的交互性很强,孩子可以通过输入语音给机器人发布执行指令.机器人执行命令的正确率为,出错率为.当机器人正确执行命令时,使用者满意的概率为;当机器人执行出错时,使用者满意的概率为.如果使用者对某次命令执行结果表示不满意,求机器人实际正确执行命令的概率是多少? (3)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为.假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值. 参考公式:相关系数. 【变式5-5】.(24-25高三上·山东济宁·阶段练习)某学校对高三(1)班50名学生的第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,,其中(,且)分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为. (1)求与的样本相关系数; (2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值,试估计该校共1600名高三学生中,数学成绩位于区间的人数. 附:①回归方程中,; ②样本相关系数;③; ④若,则. 【变式5-6】.(2024高三·全国·专题练习)为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据: 样本号i 1 2 3 4 5 6 7 8 9 10 总和 根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6 材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9 并计算得,,. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量. (2)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为360 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值. (3)求该林区这种树木的根部横截面积与材积量的样本相关系数.(精确到0.01) 参考公式和数据:相关系数,≈1.377. 【变式5-7】.(2023·江苏南通·二模)我国风云系列卫星可以监测气象和国土资源情况.某地区水文研究人员为了了解汛期人工测雨量(单位:dm)与遥测雨量(单位:dm)的关系,统计得到该地区10组雨量数据如下: 样本号 1 2 3 4 5 6 7 8 9 10 人工测雨量 5.38 7.99 6.37 6.71 7.53 5.53 4.18 4.04 6.02 4.23 遥测雨量 5.43 8.07 6.57 6.14 7.95 5.56 4.27 4.15 6.04 4.49 0.05 0.08 0.2 0.57 0.42 0.03 0.09 0.11 0.02 0.26 并计算得,,,,,. (1)求该地区汛期遥测雨量y与人工测雨量x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系; (2)规定:数组满足为“I类误差”;满足为“II类误差”;满足为“III类误差”.为进一步研究,该地区水文研究人员从“I类误差”、“II类误差”中随机抽取3组数据与“III类误差”数据进行对比,记抽到“I类误差”的数据的组数为X,求X的概率分布与数学期望. 附:相关系数,. 题型六:残差的计算 【例题6-1】.(24-25高三上·湖北·期中)已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为(   ) A. B. C. D. 【变式6-1】.(2024·湖北荆州·三模)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得如图所示的残差图.模型误差(    ) A.满足一元线性回归模型的所有假设 B.不满足一元线性回归模型的的假设 C.不满足一元线性回归模型的假设 D.不满足一元线性回归模型的和的假设 【变式6-2】.(24-25高三上·浙江绍兴·期末)下列说法正确的是(    ) A.事件与事件相互独立,且,,则 B.样本数据2,2,3,4,6,8,9,10,12,12的上四分位数为11 C.某分层抽样有层,第层样本数为,其平均数和方差分别为和,第层样本数为,其平均数和方差分别为和,则总方差为 D.已知一系列样本点的经验回归方程为,若样本点与点的残差相等,则 【变式6-3】.(23-24高二下·贵州·期末)下列说法正确的是(    ) A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数 B.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好 C.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则,的值分别是4和0.3 D.某人在10次答题中,答对题数为,,则答对7题的概率最大. 【变式6-4】.(23-24高三上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,. x 141 152 168 182 195 204 223 254 277 y 23.1 24.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2 以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示. (1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系? (2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,. (ⅰ)求; (ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数. 附:相关系数,决定系数,. 题型七:相关指数的计算及分析 【例题7-1】.(2024·浙江·一模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是(    ) A.,不具有线性相关性 B.决定系数变大 C.相关系数变小 D.残差平方和变小 【变式7-1】.(2023·江苏苏州·模拟预测)为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则(     ) A.< B.= C.> D.、关系不能确定 【变式7-2】.(21-22高二下·吉林白城·阶段练习)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:根据表中的数据可得回归直线方程,,以下说法正确的是(   ) 广告支出费用 2.2 2.6 4.0 5.3 5.9 销售量 3.8 5.4 7.0 11.6 122 A.销售量的多少有96%是由广告支出费用引起的 B.销售量的多少有4%是由广告支出费用引起的 C.第三个样本点对应的残差,回归模型的拟合效果一般 D.第三个样本点对应的残差,回归模型的拟合效果较好 【变式7-3】.(2023·广东汕头·二模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据如下: 行驶里程/万km 0.00 0.64 1.29 1.93 2.57 3.22 3.86 4.51 5.15 轮胎凹槽深度/mm 10.02 8.37 7.39 6.48 5.82 5.20 4.55 4.16 3.82 以行驶里程为横坐标、轮胎凹槽深度为纵坐标作散点图,如图所示. (1)根据散点图,可认为散点集中在直线附近,由此判断行驶里程与轮胎凹槽深度线性相关,并计算得如下数据,请求出行驶里程与轮胎凹槽深度的相关系数(保留两位有效数字),并推断它们线性相关程度的强弱; 2.57 6.20 115.10 29.46 附:相关系数 (2)通过散点图,也可认为散点集中在曲线附近,考虑使用对数回归模型,并求得经验回归方程及该模型的决定系数.已知(1)中的线性回归模型为,在同一坐标系作出这两个模型,据图直观回答:哪个模型的拟合效果更好?并用决定系数验证你的观察所得. 附:线性回归模型中,决定系数等于相关系数的平方,即. 【变式7-4】.(2025·上海浦东新·二模)研究变量,得到一组成对数据,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是(    ) A.变量与变量的相关性变强 B.相关系数的绝对值变小 C.线性回归方程不变 D.拟合误差变大 题型八:非线性回归 【例题8-1】.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为(    ) A.9.6 B.11.0 C.11.3 D.12.0 【变式8-1】.(2024·浙江台州·二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:    44 4.8 10 40.3 1.612 19.5 8.06 现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数. (1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少? (3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量). 附:①相关系数, 回归直线中公式分别为,; ②参考数据:,,,. 【变式8-2】.(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表. 360 54.5 1360 44 384 3 588 32 6430 表中,,. (1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程; (2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望. 附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,. 题型九:一元线性回归之绘制散点图 【例题9-1】.(24-25高三·上海·课堂例题)某厂的生产原料耗费(单位:百万元)与销售额(单位:百万元)之间有如下的对应关系: 2 4 6 8 30 40 50 70 画出的散点图并判断它们是否相关. 【变式9-1】.(24-25高三·上海·课堂例题)某公司近年来科研费用(单位:万元)与公司所获的利润(单位:万元)之间有如下的统计数据: 2 3 4 5 18 27 32 35 (1)请画出上表数据的散点图; (2)观察散点图,判断与是否具有线性相关关系. 【变式9-2】.(2024高一·全国·专题练习)近年来,“双11”网购的观念逐渐深入人心,某人统计了近5年某网站“双11”当天的交易额,统计结果如下表: 年份 2017 2018 2019 2020 2021 年份代码x 1 2 3 4 5 交易额y/百亿元 9 12 17 21 26 请根据表中提供的数据,画出散点图,推断两个变量是否线性相关,并用样本相关系数r说明y与x的线性相关程度(结果保留三位小数).附:. 题型十:一元线性回归之根据散点图判断是否线性相关 【例题10-1】.(24-25高三上·山东威海·期末)下列散点图中,线性相关系数最小的是(    ) A. B. C. D. 【变式10-1】(23-24高二下·天津西青·期末)鸢是鹰科的一种鸟,《诗经·大雅·早麓》曰“鸢飞戾天,鱼跃于渊”鸢尾花因花瓣形如鸢尾而得名(图1),寓意鹏程万里、前途无量,通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:),绘制对应散点图(图2)如下:    计算得样本相关系数为0.8642,利用最小二乘法求得相应的经验回归方程为.根据以上信息,如下判断正确的为(    ) A.花萼长度与花瓣长度不存在相关关系; B.花萼长度与花瓣长度负相关; C.花萼长度为的该品种鸢尾花的花瓣长度的平均值约为; D.若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为0.8642. 【变式10-2】.(24-25高二上·浙江绍兴·期末)为研究某机器的连续使用时长(小时)和生产产品的合格率之间的关系,某课题研究小组采集了组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是(    ) A.经验回归直线的斜率可能不变 B.样本的线性相关程度更高 C.样本相关系数变小 D.残差平方和变小 【变式10-3】.(22-23高二·全国·随堂练习)下表为某省十二个地区某年1月平均气温与海拔及纬度的数据,试分析1月平均气温与海拔,1月平均气温与纬度之间是否具有相关关系. 气温/℃ 6.9 17 16.9 11.3 14.2 12.3 18.2 17.3 10.4 13.3 6.4 8.6 海拔/m 3640 4420 4220 2840 3200 3140 3360 4650 2680 3970 2080 2260 纬度 32.2 33.8 35 36.3 37.1 38.4 38.9 35.3 36.8 33.8 35.9 36.6 【变式10-4】.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5. (1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)中的判断结果,建立y关于x的回归方程; (3)根据(2)的结果,估计2024年的企业利润. 参考公式及数据; ,, ,,,, 题型十一:一元线性回归之由散点图求近似回归直线 【例题11-1】.(25-26高三上·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则(    ) A., B., C., D., 【变式11-1】.(2024·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表: 身高(单位: 167 173 175 177 178 180 181 体重(单位: 90 54 59 64 67 72 76 由表格制作成如图所示的散点图:    由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是(    ) A. B. C. D. 题型十二:一元线性回归之解释回归直线方程的意义 【例题12-1】.(23-24高二下·重庆·期末)下列命题正确的是(    ) A.若是离散型随机变量,则 B.将4个人分到三个不同的岗位工作,每个岗位至少1人,有36种不同的方法 C.样本相关系数越大,成对样本数据的线性相关程度越强 D.以模型去拟合一组数据时,为了求出经验回归方程,设,其变换后得到线性回归方程,则 【变式12-1】.(23-24高二下·重庆·期末)某科技企业为了对一种新研制的专利产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价(元) 40 50 60 70 80 90 销量(件) 50 44 43 35 28 由表中数据,求得线性回归方程为,则下列说法正确的是(    ) A.产品的销量与单价成负相关 B.为了获得最大的销售额(销售额单价销量,单价应定为70元或80元 C. D.若在这些样本点中任取一点,则它在线性回归直线左下方的概率为 题型十三:一元线性回归之用回归直线方程对总体进行估计 【例题13-1】.(2024高二下·全国·专题练习)某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为(    ) A.15名志愿者身高的极差小于臂展的极差 B.15名志愿者身高和臂展成正相关关系 C.可估计身高为的人臂展大约为 D.身高相差的两人臂展都相差 题型十四:一元线性回归之根据回归方程求原数据中的值 【例题14-1】.(23-24高二下·广东东莞·期末)两个相关变量满足如下关系: 2 3 4 5 6 25 ● 46 58 65 根据表格已得经验回归方程为.若表格中有一数据模糊不清,则推算该数据是(    ) A.35.5 B.36 C.36.5 D.37 题型十五:一元线性回归之计算样本的中心点 【例题15-1】.(2025·天津宁河·一模)下列说法不正确的是(   ) A.对具有线性相关关系的变量、,且回归方程为,若样本点的中心为,则实数的值是 B.若随机变量服从正态分布,且,则 C.若线性相关系数越接近1,则两个变量的线性相关程度越高 D.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14 题型十六:一元线性回归之根据回归方程进行数据估计 【例题16-1】.(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是(    ) 时间x(月) 1 2 3 4 5 销售量y(万件) 1 1.6 2.0 a 3 A.由回归方程可知2024年1月份该地区的销售量为6.8万件 B.表中数据的样本中心点为 C. D.由表中数据可知,y和x成正相关 题型十七:一元线性回归之根据样本中心点求参数 【例题17-1】.(2024·广东汕头·二模)2023年,我国新能源汽车产销量占全球比重超过60%,中国成为世界第一大汽车出口国.某汽车城统计新能源汽车从某天开始连续的营业天数与销售总量(单位:辆),采集了一组共20对数据,并计算得到回归方程,且这组数据中,连续的营业天数的方差,销售总量的方差. (1)求样本相关系数,并刻画与的相关程度; (2)在这组数据中,若连续的营业天数满足,试推算销售总量的平均数. 附:经验回归方程,其中,. 样本相关系数,. 【变式17-1】.(2025·重庆·模拟预测)已知变量和的统计数据如下表. 80 90 100 110 120 y 120 140 165 180 若,线性相关,经验回归方程为,则(    ) A.155 B.158 C.160 D.162 【变式17-2】.(2025高三·全国·专题练习)下表为2017—2023年某企业两轮电动车的年产量(单位:万辆),其中2017—2023年的年份代码分别为1—7. 年份代码 1 2 3 4 5 6 7 年产量万辆 31 33 38 44 已知与具有线性相关关系,且满足经验回归方程,则的值为(    ) A.146.5 B.164.8 C.179.5 D.197.8 【变式17-3】.(24-25高三上·江苏·阶段练习)已知由样本数据=1,2,3,…,8组成的一个样本,得到经验回归方程为,且,增加两个样本点和,得到新样本的经回归方程为.在新的经验回归方程下,当时,的估计值为(   ) A.3.25 B.3.4 C.3.7 D.3.85 【变式17-4】.(24-25高三上·云南昆明·阶段练习)已知变量与的一组样本数据,,…,满足,,对各样本数据求对数,再利用线性回归分析的方法得.若变量,则当的预测值最大时,变量的取值约为 .(,结果保留1位小数) 题型十八:一元线性回归之求回归直线方程 【例题18-1】.(2024·山西晋中·模拟预测)比亚迪,这个中国品牌的乘用车,如今已经在全球汽车品牌销量前十中占据一席之地.这一成就是中国新能源汽车行业的里程碑,标志着中国已经在全球范围内成为了新能源汽车领域的强国.现统计了自上市以来截止到2023年8月的宋plus的月销量数据. (1)通过调查研究发现,其他新能源汽车的崛起、购置税减免政策的颁布等,影响了该款汽车的月销量,现将残差过大的数据剔除掉,得到2022年8月至2023年8月部分月份月销量y(单位:万辆)和月份编号x的成对样本数据统计. 月份 2022年8月 2022年9月 2022年12月 2023年1月 2023年2月 2023年3月 2023年4月 2023年6月 2023年7月 2023年8月 月份编号 1 2 3 4 5 6 7 8 9 10 月销量(单位:万辆) 4.25 4.59 4.99 3.56 3.72 3.01 2.46 2.72 3.02 3.28 请用样本相关系数说明y与x之间的关系可否用一元线性回归模型拟合?若能,求出y关于x的经验回归方程;若不能,请说明理由.(运算过程及结果均精确到0.01,若,则线性相关程度很高,可用一元线性回归模型拟合) (2)为迎接2024新春佳节,某地4S店特推出盲盒抽奖营销活动中,店家将从一批汽车模型中随机抽取50个装入盲盒用于抽奖,已知抽出的50个汽车模型的外观和内饰的颜色分布如下表所示. 红色外观 蓝色外观 棕色内饰 20 10 米色内饰 15 5 ①从这50个模型中随机取1个,用A表示事件“取出的模型外观为红色”,用B表示事件“取出的模型内饰为米色”,求和,并判断事件A与B是否相互独立; ②活动规定:在一次抽奖中,每人可以一次性拿2个盲盒.对其中的模型给出以下假设:假设1:拿到的2个模型会出现3种结果,即外观和内饰均为同色、外观和内饰都异色以及仅外观或仅内饰同色.假设2:按结果的可能性大小,概率越小奖项越高.假设3:该抽奖活动的奖金额为一等奖3000元、二等奖2000元、三等奖1000元.请你分析奖项对应的结果,设X为奖金额,写出X的分布列并求出X的期望(精确到元). 参考公式:样本相关系数, ,. 参考数据:,. 题型十九:各数据同时加减乘除同一数对方差的影响 【例题19-1】.(23-24高三上·江苏常州·阶段练习)下列命题正确的是(    ) A.若样本数据的方差为2,则数据的方差为7 B.若,则. C.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为 D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和4 题型二十:线性回归和数列的综合应用 【例题20-1】.(2024·广西柳州·一模)某购物平台为了吸引更多的顾客在线购物,推出了和两个套餐服务,并在购物平台上推出了优惠券活动,顾客可自由选择和两个套餐之一,下图是该购物平台7天销售优惠券的情况(单位:千张)的折线图: (1)由折线图可看出,可用回归模型拟合与的关系,请用相关系数加以说明; (2)假设每位顾客选择套餐的概率为,选择套餐的概率为,其中包含一张优惠券,套餐包含两张优惠券,截止某一时刻,该平台恰好销售了张优惠券,设其概率为,求; (3)记(2)中所得概率的值构成数列,求数列的最值. 参考数据:,,, 参考公式:相关系数 一.选择题 1.(24-25高三下·上海·开学考试)下列结论正确的是(   ) A.已知一组样本数据,现有一组新的数据,则与原样本数据相比,新的数据平均数不变,方差变大; B.已知具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,则实数的值是4; C.50名学生在一模考试中的数学成绩,已知,则的人数为30人 D.已知随机变量,若,则 2.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表: 工作时间 2 4 5 6 8 工资 30 40 50 70 若对的线性回归方程为,则的值为(    ) A.56.5 B.58 C.60 D.62.5 3.(23-24高三下·四川雅安·开学考试)当两个变量呈非线性相关时,有些可以通过适当的转换进行线性相关化,比如反比例关系,可以设一个新的变量,这样与之间就是线性关系.下列表格中的数据可以用非线性方程进行拟合, 1 2 3 4 5 6 2.5 3.6 4.4 5.4 6.6 7.5 用线性回归的相关知识,可求得的值约为(   ) A.2.98 B.2.88 C.2.78 D.2.68 4.(24-25高三下·辽宁·开学考试)已知两个变量x和y之间具有较强的线性相关关系,且y关于x的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差=观测值-预测值),则(    ) A.0.28 B.0.56 C.0.34 D.0.48 5.(24-25高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为,且,发现有两组数据与误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为1.4,那么当时,的值为(    ) A.9.6 B.10 C.10.6 D.9.4 6.(24-25高二上·黑龙江·期末)某类汽车在今年1至5月销量y(单位:万辆),如下表所示: 月份x 1 2 3 4 5 销量y 5 4.5 4 3.5 2.5 若x与y线性相关,且线性回归方程为,则下列说法不正确的是(   ) A.样本的相关系数为负数 B. C.当时,残差的绝对值为0.1 D.可预测当时销量约为1.5万辆 二、多选题 7.(22-23高二下·江苏淮安·期末)如图是某小卖部5天卖出热茶的杯数(单位:杯)与当天气温(单位:℃)的散点图,若去掉后,下列说法正确的有(    )    A.决定系数变大 B.变量与的相关性变弱 C.相关系数的绝对值变大 D.当气温为11℃时,卖出热茶的杯数估计为35杯 8.(24-25高二下·吉林长春·阶段练习)设,,是变量x和y的2025个样本点,直线l是由这些样本点通过最小二乘法得到的经验回归直线,如图所示,下列结论正确的是(   ) A.直线l一定过点 B.直线l一定过点 C.x和y的样本相关系数在区间上 D.因为2025是奇数,所以分布在直线l两侧的样本点的个数一定不相同 9.(24-25高二下·河南信阳·开学考试)下列有关线性回归分析的问题中,正确的是(   ) A.线性回归方程至少经过点中的一个点 B.两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于1 C.若设直线回归方程为,则当变量增加1个单位时,平均增加2个单位 D.对具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,则实数的值是. 10.(24-25高二上·江西南昌·期末)由一组样本数据,利用最小二乘法得到两个变量的回归直线方程为,记,,则下面说法正确的是(   ) A.直线至少经过点中的一个点 B.直线必经过点 C.样本相关系数与回归系数同号 D.对样本相关系数,越大,两个变量之间的线性相关性越强 11.(2024高三·全国·专题练习)如图是根据一组观测数据得到海拔千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法正确的是(   ) A.由散点图可知,大气压强与海拔高度负相关 B.由方程可知,海拔每升高1千米,大气压强必定降低kPa C.由方程可知,样本点的残差为 D.对比两个回归模型,结合实际情况,方程的预报效果更好 12.(2025·云南昆明·模拟预测)对于一元线性回归模型,下列说法错误的是(    ) A.对于随机误差,在刻画成对变量的相关关系时,需假定 B.解释变量的取值距离样本数据范围越远,预报的效果越差 C.在经验回归方程中,样本点的残差为 D.在经验回归方程中,当解释变量x每增加1个单位时,响应变量y平均减少3个单位 13.(24-25高二下·全国·课后作业)每年3,4月间,成批白天鹅从地中海沿岸、南亚等温暖的地方越冬来到天山中部广袤的巴音布鲁克草原.为保护这些白天鹅,某动物保护机构研究了这时期6个区域每公顷草原的白天鹅平均只数y与每公顷草原上白天鹅的天敌狼和狐狸的平均只数x之间的对应数据,如下表所示: 10 15 20 25 30 11 10 8 6 5 根据表中的数据计算得经验回归方程为,则以下结论正确的是(    ) A.与负相关 B.回归直线一定经过点 C.估计当白天鹅的天敌每公顷平均只数为5时,白天鹅每公顷平均只数大约为13 D.当时,残差的绝对值最小 三.解答题 14.(2024·江西吉安·模拟预测)2023年10月国家发改委、工信部等部门联合印发了《加快“以竹代塑”发展三年行动计划》,该计划将推动“以竹代塑”高质量发展,助力减少塑料污染,并将带动竹产业新一轮的增长.下表为2019年—2023年中国竹产业产值规模(单位:千亿元),其中2019年—2023年的年份代码依次为. 1 2 3 4 5 2.89 3.22 3.82 4.34 5.41 (1)记第年与年中国竹产业产值规模差值的2倍的整数部分分别为,从中任取2个数相乘,记乘积为,求的分布列与期望; (2)根据以上数据及相关系数,判断能否用线性回归模型拟合中国竹产业产值规模与年份之间的关系. 参考数据:,,, 相关系数若,则认为与有较强的相关性. 15.(2024·重庆·模拟预测)为丰富第二课堂,拓展素质教育,某校鼓励学生参加书法兴趣小组和绘画兴趣小组,开展相关实践活动.该校共有3000名学生,为了解学生的参加情况,从全校学生中随机抽取150名学生进行调查,发现有5人没有参加兴趣小组,且样本中仅参加书法兴趣小组和仅参加绘画兴趣小组的学生每周投入时间情况如下表: 兴趣小组活动类别 投入时间(小时/周) 大于10 仅参加书法兴趣小组人数z 25 30 15 10 仅参加绘画兴趣小组人数y 10 20 25 5 (1)用频率估计概率,试估计全校学生中书法兴趣小组和绘画兴趣小组都参加的人数; (2)从仅参加书法兴趣小组和仅参加绘画兴趣小组的学生中各抽1人,以X表示2人中每周投入时间大于5小时的人数,求X的分布列和数学期望; (3)根据公式计算仅参加书法兴趣小组和仅参加绘画兴趣小组的学生在各投入时间段人数的样本相关系数,并推断它们的相关程度,其中分别为仅参加书法兴趣小组的学生在各投入时间段人数的均值和标准差,分别为仅参加绘画兴趣小组的学生在各投入时间段人数的均值和标准差. 附: 相关系数r 相关程度 低度线性相关 显著性相关 高度线性相关 16.(2024·四川南充·三模)近年来,国内掀起了全民新中式热潮,新中式穿搭,新中式茶饮,新中式快餐,新中式烘焙等,以下为某纺织厂生产“新中式”面料近5个月的利润y(万元)的统计表. 月份 2023.11 2023.12 2024.01 2024.02 2024.03 月份编号x 1 2 3 4 5 利润y(万元) 27 23 20 17 13 (1)根据统计表,试求y与x之间的相关系数r(精确到0.001),并利用r说明y与x是否具有较强的线性相关关系;(若,则认为两个变量具有较强的线性相关性); (2)该纺织厂现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了4件、2件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为X,试求X的分布列与期望. 附:参考数据: 相关系数. 17.(2024·四川南充·三模)近年来,国内掀起了全民新中式热潮,新中式穿搭,新中式茶饮,新中式快餐,新中式烘焙等,以下为某纺织厂生产“新中式”面料近5个月的利润(y万元)的统计表. 月份 2023.11 2023.12 2024.01 2024.02 2024.03 月份编号x 1 2 3 4 5 利润(y万元) 27 23 20 17 13 (1)根据统计表,试求y与x之间的相关系数r(精确到0.001),并利用r说明y与x是否具有较强的线性相关关系:(若,则认为两个变量具有较强的线性相关性); (2)从这5个月的利润中任选2个月的利润,分别记为m,n,求事件“m,n均不小于20万元”的概率. 附:参考数据: 相关系数. 18.(2024·四川泸州·三模)随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.某公司生产了A、B两种不同型号的新能源汽车,为了解大众对生产的新能源汽车的接受程度,公司在某地区采用随机抽样的方式进行调查,对A、B两种不同型号的新能源汽车进行综合评估,综合得分按照,,,分组,绘制成评估综合得分的频率分布直方图(如图): A型号评估综合得分频率分布直方图        B型号评估综合得分频率分布直方图 (1)以调查结果的频率估计概率,从A、B两种不同型号的新能源汽车中各随机抽取一辆,以X表示这两辆中综合得分不低于80分的辆数,求X的分布列和数学期望; (2)为进一步了解该地区新能源汽车销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销量y(单位:万台)关于年份x的线性回归方程为,且销量的方差,年份的方差为.求y与x的相关系数r,并据此判断该地区新能源汽车销量y与年份x的相关性强弱. 参考公式: (ⅰ)线性回归方程:,其中,; (ⅱ)相关系数(若,则相关性较弱;若,则相关性较强;若,则相关性很强). 19.(2024·陕西咸阳·模拟预测)第31届世界大学生夏季运动会(简称大运会)于2023年7月28日在四川成都开幕,这是中国西部城市第一次举办世界性综合运动会.为开好本次大运会,各个行业都力争做到报好. (1)某体校田径队在备战期间对选手进行了考核,考核设有100米、400米和1500米三个项目,选手需要依次完成考核,成绩合格后的积分分别记为,和(,,1,2),总成绩为累计积分和.考核规定:项目考核逐级进阶,即选手只有在低一级里程项目考核合格后,才能进行下一级较高里程项目的考核,否则考核终止.对于100米和400米项目,每个项目选手必须考核2次,且全部达标才算合格;对于1500米项目,选手必须考核3次,但只要达标2次及以上就算合格.已知选手甲三个项目的达标率依次为,,,每次考核是否达标相互独立.用表示选手甲考核积分的总成绩,求的分布列和数学期望; (2)某体育用品店统计了2023年1~5月份运动器材销量(单位:千套)与售价(单位:元)的情况,统计结果如下表所示: 月份 1 2 3 4 5 器材售价(元) 100 90 80 70 60 销量(千套) 5 7.5 8 9 10.5 求的相关系数,并判断销量与售价是否有很强的线性相关性.(当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到0.001). 参考公式:对于一组数据, 相关系数,参考数据:. 20.(2024·内蒙古赤峰·模拟预测)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额的统计表(金额(万元)). 月份 1月 2月 3月 4月 5月 月份编号 1 2 3 4 5 金额(万元) 7 12 13 19 24 (1)根据统计表, ①求该公司带货金额的平均值; ②求该公司带货金额与月份编号的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为与的线性相关性较强;,则认为与的线性相关性较弱); (2)该公司现有一个直播间销售甲、乙两种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两种产品中分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到甲产品的件数为,试求的分布列与期望. 附:相关系数公式,参考数据:,,,. 21.(2024·广东广州·二模)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据,其中,和,分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得. (1)求样本的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度; (2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列. 附:相关系数 22.(23-24高三上·陕西汉中·期末)大学生刘铭去某工厂实习,实习结束时从自己制作的某种零件中随机选取了10个样品,测量每个零件的横截面积(单位:)和耗材量(单位:),得到如下数据: 样本号 1 2 3 4 5 6 7 8 9 10 总和 零件的横截面积 0.03 0.05 0.04 0.07 0.07 0.04 0.05 0.06 0.06 0.05 0.52 耗材量 0.24 0.40 0.23 0.55 0.50 0.34 0.35 0.45 0.43 0.41 3.9 并计算得,. (1)估算刘铭同学制作的这种零件平均每个零件的横截面积以及平均一个零件的耗材量; (2)求刘铭同学制作的这种零件的横截面积和耗材量的样本相关系数(精确到0.01). 附:相关系数;. 23.(2023·河南·模拟预测)党的二十大以来,国家不断加大对科技创新的支持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升了企业收益水平.下表是对2023 年1 ~5月份该企业的利润y(单位:百万)的统计. 月份 1 月 2 月 3 月 4 月 5 月 月份编号x 1 2 3 4 5 利润y(百万) 7 12 13 19 24 (1)根据统计表,求该企业的利润y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为y与x的线性相关性较强,,则认为y与x的线性相关性较弱.); (2)该企业现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为,试求的分布列与期望. 附:相关系数 24.(2023·全国·模拟预测)新冠病毒奥密克戎毒株开始流行后,为了控制新冠肺炎疫情,杭州某高中开展了每周核酸检测工作.周一至周五,每天中午13:30开始,安排位师生进行核酸检测,教职工每天都要检测,用五天时间实现全员覆盖. (1)该校教职工有人,高二学生有人,高三学生有人. ①用分层抽样的方法,求高一学生每天的检测人数. ②高一年级共个班,该年级每天进行核酸检测的学生有两种安排方案.方案一:集中来自部分班级;方案二:分散来自所有班级.你认为哪种方案更合理?给出理由. (2)学校开展核酸检测的第一周,周一至周五核酸检测用时记录如下表. 第天 用时 ①计算变量和的相关系数(精确到),并说明两变量的线性相关程度; ②根据①中的计算结果,判定变量和是正相关还是负相关,并给出可能的原因. 参考数据和公式:,相关系数. 25.(23-24高三上·陕西·期中)人口结构的变化,能明显影响住房需求.当一个地区青壮年人口占比高,住房需求就会增加,而当一个地区老龄化严重,住房需求就会下降.某机构随机选取了某个地区的10个城市,统计了每个城市的老龄化率和空置率,得到如下表格. 城市 1 2 3 4 5 6 7 8 9 10 总和 老龄化率 0.17 0.2 0.18 0.05 0.21 0.09 0.19 0.3 0.17 0.24 1.8 空置率 0.06 0.13 0.09 0.05 0.09 0.08 0.11 0.15 0.16 0.28 1.2 并计算得. (1)若老龄化率不低于,则该城市为超级老龄化城市,根据表中数据,估计该地区城市为超级老龄化城市的频率; (2)估计该地区城市的老龄化率和空置率的相关系数(结果精确到0.01). 参考公式:相关系数. 26.(23-24高三上·山西朔州·开学考试)某校20名学生的数学成绩和知识竞赛成绩如下表: 学生编号i 1 2 3 4 5 6 7 8 9 10 数学成绩 100 99 96 93 90 88 85 83 80 77 知识竞赛成绩 290 160 220 200 65 70 90 100 60 270 学生编号i 11 12 13 14 15 16 17 18 19 20 数学成绩 75 74 72 70 68 66 60 50 39 35 知识竞赛成绩 45 35 40 50 25 30 20 15 10 5 计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,. (1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01); (2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数. (i)记,.证明:; (ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势. 注:参考公式与参考数据. ;;. 10 / 37 学科网(北京)股份有限公司 $$

资源预览图

培优重难点专题 成对数据的相关性以及一元线性回归的应用(2知识点+20题型+好题必刷)-【上好课】2024-2025学年高二数学同步精品课堂(人教A版2019选择性必修第三册)
1
培优重难点专题 成对数据的相关性以及一元线性回归的应用(2知识点+20题型+好题必刷)-【上好课】2024-2025学年高二数学同步精品课堂(人教A版2019选择性必修第三册)
2
培优重难点专题 成对数据的相关性以及一元线性回归的应用(2知识点+20题型+好题必刷)-【上好课】2024-2025学年高二数学同步精品课堂(人教A版2019选择性必修第三册)
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。