专题10 成对数据的统计分析(高效培优期末专项训练)高二数学沪教版选择性必修第二册

2026-06-10
| 2份
| 78页
| 7人阅读
| 0人下载
优题数研馆
进店逛逛

资源信息

学段 高中
学科 数学
教材版本 高中数学沪教版选择性必修第二册
年级 高二
章节 第8章 成对数据的统计分析
类型 题集-专项训练
知识点 统计案例
使用场景 同步教学-期末
学年 2026-2027
地区(省份) 上海市
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 6.05 MB
发布时间 2026-06-10
更新时间 2026-06-10
作者 优题数研馆
品牌系列 学科专项·举一反三
审核时间 2026-06-10
下载链接 https://m.zxxk.com/soft/58287693.html
价格 3.00储值(1储值=1元)
来源 学科网

摘要:

**基本信息** 系统覆盖成对数据统计分析全考点,以题载知构建完整知识链,培养数据分析与模型构建能力。 **专项设计** |模块|题量/典例|题型特征|知识逻辑| |----|-----------|----------|----------| |相关关系判定|1-21题|散点图分析与相关系数应用|从直观判断到定量分析,构建相关性认知体系| |回归分析|22-46题|线性/非线性回归方程求解与残差分析|遵循"样本中心-参数估计-模型检验"完整流程| |独立性检验|47-68题|列联表完善与卡方检验|从数据整理到统计推断,培养逻辑推理能力|

内容正文:

专题10 成对数据的统计分析 考点01 根据散点图判断是否线性相关 考点02 相关系数的意义及辨析 考点03 相关系数的计算 考点04 判断正、负相关 考点05 样本中心点的应用 考点06 求线性回归方程 考点07 求非线性回归方程 考点08 残差的计算 考点09 列联表完善与分析 考点10 独立性检验的概念及辨析 考点11 卡方的计算 考点12 独立性检验解决实际问题 考点01 根据散点图判断是否线性相关 1.如图所示,4个散点图中,不适合用线性回归模型拟合其中两个变量的是(    ). A.B.C. D. 【答案】A 【详解】选项A的散点分布杂乱,没有明显的线性趋势,即散点不集中在一条直线附近,因此不适合用线性回归模型拟合; 选项B、C、D的散点都大致分布在一条直线附近,存在明显线性相关关系,适合线性回归模型拟合. 2.如图所示,有A,B,C,D,E共5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系. 【答案】D 【分析】根据散点图中的点分布在一条直线附近时,样本数据有较强的线性相关关系进行求解. 【详解】当散点图中的点分布在一条直线附近时,样本数据有较强的线性相关关系, 应去掉D组数据剩下的4组数据的线性相关性较强. 故答案为:D. 3.若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是(    )    A. B. C. D. 【答案】C 【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案. 【详解】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图. 故选:C. 4.如图是两个变量的散点图,y关于x的回归方程可能是(    ) A. B. C. D. 【答案】C 【分析】根据散点图与给所函数的图象的偏离情况,即可求解. 【详解】由散点图可知,y与x负相关,故排除A,B,对于D:,点偏离较大,而点近似在曲线附近,所以 y关于x的回归方程是C的可能性大. 故选:C. 5.某研究小组为了探究变量x与y之间的线性相关关系,收集了5组数据,(),并绘制成如图所示的散点图(点A,B,C,D,E).经计算,这5组数据的样本相关系数为r.若去掉点后,剩余4组数据的样本相关系数为,则下列结论正确的是(   )    A. B. C. D. 【答案】A 【分析】从图中可以看出点较其他点,偏离直线远,所以去掉点后,回归效果更好,结合相关系数的性质判断. 【详解】从散点图中可知,样本数据的两变量是正相关, 由于点较其他点偏离程度大,删除点后,回归效果更好, 从而相关系数的绝对值更接近于1,所以 考点02 相关系数的意义及辨析 6.对四组数据进行统计,获得如图所示的散点图,其中相关系数最小的是(   ) A. B. C. D. 【答案】B 【详解】图①,数据点呈正线性相关,且相关性很强,所以接近1; 图②,数据点呈负线性相关,且相关性很强,所以接近; 图③,数据点呈正线性相关,且相关性比图①弱,所以; 图④,数据点呈负线性相关,且相关性比图②弱,所以; 所以. 7.甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的样本相关系数分别为,,,,则这四人中,研究的两个随机变量的线性相关程度最高的是(   ) A.甲 B.乙 C.丙 D.丁 【答案】B 【详解】因为, 所以这四人中,乙研究的两个随机变量的线性相关程度最高. 8.有一散点图如图,在5个数据中去掉后,下列说法正确的是(    ) A.变量与变量的线性相关性变弱 B.数据的方差变大 C.相关系数变小 D.残差平方和变小 【答案】D 【分析】利用散点图分析数据,判断相关系数,方差,残差的平方和的变化情况. 【详解】从散点图可分析出,若去掉点,则剩下的点更能集中在一条直线附近, 所以解释变量与响应变量的线性相关性变强, 数据的离散程度减小,所以方差变小,相关系数会变大, 因为拟合效果越好,所以残差平方和变小. 故选:D 9.已知为随机变量X和Y的样本相关系数,为随机变量M和N的样本相关系数,则下列说法正确的是(   ) A.若,则X和Y负相关 B.若,则M和N线性不相关 C.若,,则X和Y的线性相关程度比M和N的线性相关程度强 D.若越接近1,则M和N的线性相关程度越弱 【答案】B 【分析】利用,且越接近1,线性相关程度越强,越接近0,线性相关程度越弱,结合每个选项的条件逐项判断即可. 【详解】A,若,则X和Y正相关,故A错误; B,若,则M和N线性不相关,故B正确; C,若,,则, 所以X和Y的线性相关程度比M和N的线性相关程度弱,故C错误; D,若越接近1,则M和N的线性相关程度越强,故D错误. 故选:B 考点03 相关系数的计算 10.为了研究人体的脂肪含量和年龄之间的线性强弱,科研人员随机抽取了14个样本点(代表年龄,代表脂肪含量,,2,……,14.由统计软件得,,,,,且相关系数公式,由以上数据计算得_____. 【答案】0.97 【详解】因为. , 故. , 故. 所以,. 11.网购是现代年轻人重要的购物方式,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与年份代码进行了统计,得如下数据: x 1 2 3 4 5 y 2.5 3.3 4.5 6.2 8.5 则x与y的样本相关系数(   ) 参考公式:,参考数据:,. A.0.99 B.0.98 C.0.97 D.0.96 【答案】B 【分析】代入相关系数公式求解即可. 【详解】由题意,得,,, ,所以. 12.某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据: 样本号 1 2 3 4 5 6 7 8 9 10 总和 电池容量 35 40 45 50 55 65 70 75 80 85 600 续航里程 330 350 390 410 480 520 560 620 640 700 5000 并计算得. (1)估计这10辆车的平均电池容量与平均续航里程; (2)求电池容量与续航里程的样本相关系数;(精确到0.001) (3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1) 附:相关系数. 【答案】(1)平均电池容量,平均续航里程. (2)0.995 (3) 【详解】(1)平均电池容量, 平均续航里程. (2) (3)由样本数据,可知续航里程与电池容量的比值约为, 故新款车型续航里程的估计值为. 13.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,为此该公司统计了2024年前5个月的带货金额如下表(金额y/万元): 月份 1月 2月 3月 4月 5月 月份编号x 1 2 3 4 5 金额y/万元 7 12 13 19 24 并计算得,,. (1)求该公司带货金额的平均值; (2)求该公司带货金额y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有较强的线性相关关系(若,则线性相关性较强,否则认为线性相关性较弱). 附:相关系数,. 【答案】(1)15 (2),与具有较强的线性相关性 【分析】(1)由均值公式直接计算; (2)由相关系数公式计算后可得结论. 【详解】(1)由数据可得, (2)由于,,,所以相关系数, 因此与具有较强的线性相关性. 14.最近7年,我国生活垃圾无害处理量如下表: 年份序号 1 2 3 4 5 6 7 处理量 通过计算得,,,,则样本相关系数(    ) A.0.99 B.0.95 C.0.9 D.0.85 【答案】A 【分析】根据相关系数公式计算即可求解. 【详解】,, , . 故选:A. 15.2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示. 万件 2.08 2.12 2.19 2.28 2.36 2.48 2.59 2.68 2.80 2.87 万元 42.5 43.7 44.0 45.5 46.4 47.5 49.2 50.3 51.4 52.6 (1)计算的值; (2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度. 【答案】(1) (2),与之间具有很强的相关性 【分析】(1)由平均数的计算公式得到和; (2)由相关系数的计算公式计算,再由判断相关性. 【详解】(1)依题意, (2)依题意,,,, 所以, 因为,所以与之间具有很强的相关性. 考点04 判断正、负相关 16.对变量,由观测数据得散点图1:对变量,由观测数据得散点图2,由这两个散点图可以推断(    ) A.与正相关,与正相关 B.与正相关,与负相关 C.与负相关,与负相关 D.与负相关,与正相关 【答案】D 【详解】观察图1,增大时,整体逐渐减小,因此与负相关; 观察图2,增大时,整体逐渐增大,因此与正相关. 17.对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是(    ) A.图1、图2两组数据都具有线性相关关系 B.图1的数据正相关,图2的数据负相关 C.图1的相关系数小于图2的相关系数 D.图1的相关系数的绝对值小于图2的相关系数的绝对值 【答案】C 【详解】两个图的散点都大致分布在直线附近,因此两组数据都具有线性相关关系,故A正确; 图1中,整体随增大而增大,是正相关,即;图2中,整体随增大而减小,是负相关,即,故B正确; 因为,,正数一定大于负数,因此,故C不正确; 相关系数的绝对值越接近1,线性相关性越强,散点越贴近直线. 图2的散点比图1更贴近直线,因此,故D正确. 18.某校随机抽取50名学生的身高与体重的散点图如下所示,则下列说法错误的是(   ) A.身高越高,体重越重; B.身高与体重同向变动的倾向; C.身高与体重之间有明显的相关性; D.身高与体重成正相关 【答案】A 【详解】对于A,由于身高比较高的人,其体重可能大,也可能小,则选项A不正确; 对于B,由散点图知,身高增加时,体重也呈现增加的趋势,有同向变动的倾向,B正确; 对于C,身高和体重有明显的相关性,C正确; 对于D,身高增加时,体重也呈现增加的趋势,所以身高与体重呈正相关,D正确. 19.对变量、有观测数据,得散点图1;对变量、有观测数据,得散点图2.分别用、表示变量与、与之间的线性相关系数,则下列说法正确的是(   ).    A.变量与呈现正相关,且 B.变量与呈现负相关,且 C.变量与呈现正相关,且 D.变量与呈现负相关,且 【答案】D 【分析】根据散点图的分布的趋势和集中程度可得正确的选项. 【详解】对于图1,散点总体斜向上分布,故变量与呈现正相关,故排除B; 对于图2,散点总体斜向上分布,故变量与呈现负相关,故排除C; 图1中散点图分布较为集中,图2中的散点图分布较为分散,故, 故选:D. 20.某中学的兴趣小组在某座山测得了海拔高度、气压和沸点的若干个数据,并绘制成如图所示的散点图,则下列说法错误的是(    ) A.沸点与海拔高度正相关 B.沸点与气压正相关 C.沸点与海拔高度负相关 D.沸点与海拔高度、沸点与气压都线性相关 【答案】A 【分析】根据题设中的统计图表,结合图表中的数据的变化趋势,即可求解. 【详解】由题设中的统计图表知,气压随海拔高度的增加而减小, 由图知沸点随气压的升高而升高,所以沸点与气压正相关,沸点与海拔高度负相关, 由图易得两个散点图中的点都落在一条直线附近,所以沸点与海拔高度、沸点与气压都线性相关,故B、C正确,A错误. 21.对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是(    ) A. B. C. D. 【答案】A 【分析】根据散点图及相关系数的性质,逐一分析各个选项,即可得答案. 【详解】由图1和图2可得,随的增大而增大,随的增大而减小, 所以,所以,故B正确; 因为图1的数据点比图2的更集中,所以, 所以,,故A错误,C正确; ,故D正确. 考点05 样本中心点的应用 22.某研究所研究耕种深度(单位:)与一种农作物每公顷产量(单位:)的关系,所得数据资料如下表: 耕种深度 2 3 5 6 每公顷产量 m 5 7 8 发现与之间具有线性相关关系,其经验回归方程为,则(    ) A.4 B.6 C.8 D.10 【答案】A 【分析】将代入经验回归方程计算即可得. 【详解】,, 则,解得. 23.下表提供了某厂进行技术改造后生产产品过程中记录的产量(单位:t)与相应的生产能耗(单位:t标准煤)的几组数据: 4 5 6 7 标准煤 3.2 3.8 5.3 根据数据可得到的回归方程为,则(    ) A.4.6 B.4.55 C.4.5 D.4.35 【答案】C 【分析】求出,根据回归直线必过样本中心点,代入求解即可. 【详解】依题意,,, 因为回归直线必过样本中心点, 所以,解得. 24.下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆): 月份 1 2 3 4 5 6 销售量 5.1 6.6 7.0 7.6 9.8 若关于的经验回归方程为,且相关系数. (1)求的值(精确到0.01); (2)求的值(精确到0.1). 附:,相关系数. 参考数据:,. 【答案】(1)0.86 (2)8.6 【分析】(1)根据相关系数公式、的求解公式,结合题中数据进行求解即可; (2)根据在回归直线上进行求解即可. 【详解】(1)由题意得, , 所以, 所以, 所以. (2)由(1)知,关于的经验回归方程为, ,, 因为在回归直线上,所以, 所以. 25.用模型去拟合与的关系,令,得到关于的回归直线方程为,则(   ) A.1 B.2 C.3 D.4 【答案】A 【分析】根据对数运算法则将表达式化简即可求出的值. 【详解】由模型可得,所以; 令,所以,可得; 又因为回归直线方程为,因此,可得. 故选:A 26.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为. 零件数x(个) 1 2 3 4 5 加工时间y(min) 50 67 71 79 表中有一个数据模糊不清,请你推断出该数据的值为(  ) A.55 B.55.8 C.59 D.51 【答案】D 【分析】首先根据回归直线必过样本点中心,代入方程求,即可求不清楚的数据. 【详解】回归直线必过样本点中心,其中, 所以, 所以不清楚的数值为. 故选:D 27.某单位为了解日用电量(单位:千瓦时)与当天平均温度(单位:摄氏度)之间的关系,随机统计了4天的日用电量与当天的平均温度,绘制了如下表格,由表中数据可得线性回归方程,则实数________. 5 15 24 60 40 20 【答案】4 【分析】由线性回归方程必过样本中心点求解. 【详解】由表数据可得, 所以线性回归方程必过点, 所以,解得, 故答案为:. 28.在下表的统计量中,有一个数值不清晰,用表示. 1 2 3 4 5 6.3 7.4 8.1 8.7 已知表中数据的经验回归方程同时满足:①过点;②每增加一个单位,增加个单位,则___________;当时,___________. 【答案】 【分析】由经验回归方程恒过样本点的中心求解,进而求得经验回归方程,即可求解时的值. 【详解】因为每增加一个单位,增加个单位,即, 因为经验回归方程过点,所以, 故,则; 又,, 代入,所以,解得, 当时,, 故答案为:,. 29.已知变量x,y的统计数据如下表,对表中数据作分析,发现y与x之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为且当x=9时,残差为-0.1.则当x=11时,y的预测值为___________. x 5 6 7 8 9 y 3.5 4 5 6 6.5 【答案】 【分析】经验回归直线方程过样本点的中心,所以把代入,结合残差公式联立方程组可求得的值,再代入求解即可. 【详解】由已知得,所以,① 又因为时,残差为-0.1,故,② 联立①②得;所以经验回归直线方程为, 所以,当时,. 考点06 求线性回归方程 30.现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功. 1 2 3 4 5 516 209 127 98 50 (1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望; (2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数). 附:回归方程系数:,. 参考数据:设,,,,,,. 【答案】(1)分布列见解析,; (2). 【分析】(1)先求出每一轮成功和失败的概率,再由条件概率公式求解即可; (2)设,则回归方程为,根据所给数据和公式,求出的值,再代回,即可得答案. 【详解】(1)由题意可知: 第1轮:盒子中共有3个小球(2白1黑), 所以成功的概率为,所以失败的概率为; 第2轮:盒子中共有4个小球(3白1黑), 所以成功的概率为,所以失败的概率为; 第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮; 所以,,, 所以的分布列如下: 所以 (2)设,则回归方程为, 因为,,,,, 且, 所以, 所以. 所以回归方程为, 又因为, 所以回归方程为. 31.某科研团队研发新一代硫化物固态锂电池,测试了5块同批次电池的循环次数x(次)与剩余容量y(单位:),得到如下数据: x(次) 100 200 300 400 500 y(Ah) 9.8 9.5 9.2 8.9 8.6 (1)求y关于x的线性回归方程,预测当循环次数为1000次时电池的剩余容量;并计算样本相关系数r,据此说明线性回归模型拟合x与y关系的合理性. (2)该团队另有10块同批次电池,其中改性优化电池6块,普通电池4块;改性优化电池中有4块循环寿命超过1000次,普通电池循环寿命均未超过1000次,规定循环寿命超过1000次为达标.现从这10块电池中随机抽取3块进行破坏性安全测试,记抽取的3块中达标的电池数为,求的分布列和数学期望. 参考公式:回归直线的斜率和截距的最小二乘估计分别为 ,, 相关系数 【答案】(1)线性回归方程为:;当循环次数为1000次时电池的剩余容量为;相关系数,用线性回归模型拟合二者关系是完全合理的. (2)分布列如下: 数学期望为. 【详解】(1)由题意得: ,, ,,所以, 则,所以线性回归方程为:, 将代入得:,即:当循环次数为1000次时电池的剩余容量为. 又因为,所以相关系数, ,表示完全负线性相关,说明循环次数与剩余容量之间存在极强的负线性关系,因此用线性回归模型拟合二者关系是完全合理的。 (2)由题意可知:10块同批次电池中,4块达标,6块未达标,抽取的3块中达标的电池数为,则可能取值为0,1,2,3. ,,,, 所以达标的电池数的分布列为: 数学期望. 32.2026年2月28日起国际油价剧烈波动,下表统计了随后7天原油的大致价格. 随后天数 1 2 3 4 5 6 7 油价(美元/桶) 72.5 75.1 78.1 79.0 82.6 84.3 86.8 (1)由上表数据,从①,②两个函数中选一个作为油价关于随后天数的回归模型,判断哪个更适合,不必说明理由,并求出这个更适合的回归模型的回归方程;(最后系数精确到0.1) (2)由(1)得到的回归方程,预测2026年3月8日的原油价格. 参考数据:. 参考公式:回归方程中斜率和截距的最小二乘法估计公式分别为,. 【答案】(1)选择模型①更适合,回归方程为 (2)预测2026年3月8日原油价格约为89.6美元/桶 【分析】(1)先应用已知数据判断,再结合已知数据及公式计算及即可求解; (2)代入回归直线计算预测. 【详解】(1)根据题意,油价的变化比较平缓, 经比较可知,选择①作为油价关于随后天数的回归模型类型最合适; 对, 结合已知数据得, ,所以, (2)令,代入,可得, 所以预测2026年3月8日原油价格约为美元/桶。 33.2021~2025年我国高铁的运营里程(单位:万公里)统计如下: 年份 2021 2022 2023 2024 2025 年份序号x 1 2 3 4 5 运营里程y 4.0 4.2 4.5 4.8 5.0 (1)求关于的经验回归方程; (2)预测2026年我国高铁的运营里程. 附:在经验回归方程中, ,. 【答案】(1) (2)5.28万公里 【分析】(1)计算年份序号和运营里程的平均值,利用最小二乘法公式求回归系数和,写出经验回归方程; (2)将预测年份对应的代入回归方程,计算得到2026年运营里程的预测值. 【详解】(1)由题意得, , 则 , . 故关于的经验回归方程为 . (2)当时, . 故预测2026年我国高铁的运营里程为5.28万公里. 考点07 求非线性回归方程 34.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________. 【答案】 【分析】由回归直线方程可得:,解出即可求解. 【详解】因为,,所以, 则 35.某市公交公司统计了二月份到六月份使用支付宝或微信扫码支付乘车的人次,用表示月份,表示每月使用扫码支付的人次(单位:千人次).已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下: 2 3 4 5 6 1.02 1.20 1.42 1.62 1.84 则(    ) A.0.596 B. C.-6.92 D. 【答案】B 【分析】将指数模型两边取自然对数,转化为线性回归模型 ,其中,利用已知数据计算样本中心点,通过最小二乘法求出回归系数和截距. 【详解】因为,,所以, ,,所以样本中心点为, 根据最小二乘公式,, 所以线性回归方程为,将样本中心点代入得 ,所以, 所以线性回归方程的截距对应,即,所以. 36.椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值. 46.6 563 6.8 298.8 1.6 1469 108.8 表中 (1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程; (2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少? 附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为: 【答案】(1) (2)644.6;258.3 【分析】(1)根据散点图分析得出回归方程类型,结合非线性回归模型转化线性回归方程分析求解即可; (2)根据(1)中的方程代入相关变量计算分析即可. 【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型, 令,先建立关于的线性回归方程, 由于 , 则, 所以关于的线性回归方程为, 因此关于的回归方程为. (2)当时,年销售量的预报值, 年利润的预报值. 37.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下: 1 2 3 4 5 4 7 12 20 33 经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为(   )(参考公式:,) A. B. C. D. 【答案】A 【分析】根据给定数据,利用最小二乘法求出关于的线性回归方程,进而求出关于的回归方程. 【详解】令,,由与呈线性相关关系,得线性回归方程, 则,, 因此,即,所以关于的回归方程为. 38.为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则(    ) 3 4 6 7 2 2.5 4.5 7 A. B. C. D. 【答案】C 【分析】根据给定条件,求出样本中心点,进而求出,再还原模型即可. 【详解】依题意,, 由与的线性回归方程,得,则, 即,因此,所以. 39.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且. 10.15 108.40 3.04 0.16 14.00 11.67 0.21 21.22 (1)用相关系数说明哪种模型建立y与x的回归方程更合适; (2)根据(1)的结果及表中数据,建立y关于x的回归方程; (3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值. 参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数. 【答案】(1)模型建立y与x的回归方程更合适; (2); (3)960万元. 【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断; (2)利用非线性转化为线性,再求线性回归方程系数即可得解; (3)利用基本不等式求最大值即可. 【详解】(1)由题意知,, 因为,所以用模型建立y与x的回归方程更合适. (2)令,回归方程为,因为,, 所以关于x的回归方程为,即. (3)由题意知, 当且仅当,即时取等号, 则,所以. 所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元. 40.脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图. 根据收集到的数据,计算得到下表数据,其中,. 7.5 2.25 82.50 4.50 12.14 2.88 (1)根据残差图,判断应选择哪个模型,并说明理由. (2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1) 附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,. 【答案】(1)选择模型②,理由见解析 (2),10人 【分析】(1)通过观察两个模型残差的波动幅度和集中程度来选择模型; (2)结合所选模型,令,则可转化为线性回归模型,利用最小二乘法公式计算和;再将代回,得到关于的经验回归方程,进而求解的最小值. 【详解】(1)选择模型②,理由如下: 由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适. (2)根据模型②,令,y与t可用线性回归来拟合,有. 则, 所以, 则y关于t的经验回归方程为, 所以y关于x的经验回归方程为. 由题意,,解得,又x为整数,所以. 所以,要使年收益增量超过8亿元,研发人员增量至少为10人. 考点08 残差的计算 41.根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比(    ) A.决定系数变小 B.残差平方和变小 C.相关系数变大 D.不变 【答案】A 【详解】增加点,从散点图中可以看出拟合效果变差; 决定系数越接近1,拟合效果越好,所以拟合效果变差后决定系数变小,故A正确; 残差平方和越小,拟合效果越好,所以残差平方和变大,故B错误; 越接近1,相关程度越强,拟合效果越好,由于两个变量成正相关,所以相关系数变小,故C错误; 增加点前的的平均数为,增加点后的的平均数为, 所以变大,故D错误. 42.为了解高三年级学生参与“人工智能辅助学习”的频次(次/周)与数学模拟测试成绩(分)之间的关系,学校收集了一组成对数据,计算可得样本平均数,,通过数据分析求得经验回归方程为,下列关于这组数据的统计分析中,说法错误的是(     ) A.变量与呈正相关关系 B.经验回归直线必过样本中心点,且 C.若某学生每周参与辅助学习6次,其测试成绩为110分,则该样本点的残差为 D.若这组数据的残差平方和越小,则决定系数越小,说明经验回归模型的拟合效果越好 【答案】D 【详解】选项 A:回归方程中的系数为 ,所以变量与呈正相关关系,A正确. 选项 B:经验回归直线必过样本中心点 , 将样本中心代入回归方程 进行验证, 可得 ,满足回归直线性质,B正确. 选项 C:当时,预测值 , 残差 ,C 正确. 选项 D:残差平方和越小,决定系数越大,说明模型拟合效果越好,D 错误. 43.已知变量x和y有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则(     ) x 2 3 4 5 y 4 7 8 13 A.经验回归直线必过点 B. C.当时,预测值 D.当时,样本点对应的残差为0.2 【答案】D 【详解】对于A,因为,, 所以经验回归直线必过点,A错误; 对于B,因为经验回归直线的方程为,且该直线过点, 所以,解得,B错误; 对于C,将代入经验回归方程得,C错误; 对于D,当时,实际值,预测值, 所以残差为,D正确. 44.已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为_______. 【答案】 【分析】由回归方程求出,再求出新样本的平均数,,从而求出回归直线方程,再求出预测值,即可得到残差. 【详解】将代入,, 去除两个样本点和后,所以,,, 故去除样本点和后的回归直线方程为, 当时,,则样本的残差为. 45.5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示: 时间 1 2 3 4 5 销售量(千只) 0.5 0.8 1.0 1.2 1.5 若与线性相关,且经验回归方程为,则下列说法不正确的是(   ) A.由题中数据可知,变量与正相关 B.在经验回归方程中 C.可以预测时该商场5G手机销量约为1.72千只 D.时,残差为 【答案】D 【分析】对于A,利用表中的数据分析即可求解;对于B,利用平均数的定义及样本中心,结合样本中心在回归直线上即可求解;对于C,利用回归方程即可求出预测值,对于D,利用预测值和残差的定义即可求解. 【详解】对于A,从数据看随的增加而增加,所以变量与正相关,故A正确; 对于B,由表中数据知,,, 可得样本中心点为,将样本中心点代入中, 得到,故B正确; 对于C,当时该商场5G手机销量约为(千只),故C正确; 对于D,经验回归方程为,所以, 则残差为,故D错误. 46.已知变量 和 有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为 ,则(    ) 2 3 5 6 5 7 9 15 A.经验回归直线必过点 B. C.对应的样本点的残差为 D.当时,预测值 【答案】D 【分析】先求即可判断A,由即可判断B,求出的残差即可判断C,由回归方程求出即可判断D. 【详解】由题意得:, 所以经验回归直线必过点,故A错误; 由,故B错误; 所以,当时,, 所以对应的样本点的残差为,故C错误; 当时,,故D正确. 考点09 列联表完善与分析 47.下面是一个列联表,则______. X Y 合计 a 合计 b 【答案】 【详解】由列联表的性质可知,解得, . 48.博鳌亚洲论坛2024年年会于3月26日至29日在海南博鳌举行.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与是否会俄语”的列联表中,______. 性别 是否会俄语 合计 会 不会 男 20 女 6 合计 18 30 【答案】8 【分析】根据列联表的性质,求出a,b,d的值,即可得答案. 【详解】由列联表的性质,可得:,可得, 所以. 故答案为:8 49.地铁的开通,在一定程度上缓解了市内交通的拥堵状况.某条地铁线路开通后,某调查机构抽取了部分乘坐该线路地铁的市民作为样本,分析其年龄和性别结构,得到如下信息:35岁及以下的市民中,男性约占;35岁以上的市民中,男性约占;男性市民中,35岁及以下的约占;女性市民中,35岁及以下的约占.根据以上信息,下列结论不一定正确的是(    ) A.样本中男性比女性多 B.样本中多数女性是35岁以上 C.样本中35岁及以下的男性人数比35岁以上的女性人数多 D.样本中35岁以上的市民比35岁及以下的多 【答案】C 【分析】根据题意,得到如下两个列联表,再一一分析即可. 【详解】根据题意,得到如下两个列联表. 35岁以上 35岁及以下 总计 男性 女性 总计 35岁以上 35岁及以下 总计 男性 女性 总计 根据第1个列联表可知,样本中男性市民人数为, 女性市民人数为,又,即样本中男性比女性多,故A正确; 根据第2个列联表可知,样本中35岁以上女性市民人数为, 35岁及以下女性市民人数为,又,即样本中多数女性是35岁以上,故B正确; 由题意,,所以,故C不正确; 根据第2个列联表可知,样本中35岁以上市民人数为, 35岁及以下市民人数为,又, 即样本中35岁以上的市民比35岁及以下的多,故D正确. 故选:C. 50.下面是一个2×2列联表: 项目 y1 y2 总计 x1 a 21 70 x2 5 c 30 总计 b d 100 则由上表可得________. 【答案】74 【分析】根据联表性质计算求解. 【详解】由题意知,所以. 故答案为:. 考点10 独立性检验的概念及辨析 51.为了研究性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握至少为(   ) 0.01 0.005 0.001 6.635 7.879 10.828 A. B. C. D. 【答案】C 【分析】根据观测值 ,对照临界值表即可得出结论. 【详解】因为,所以有的把握认为“性别与喜欢乡村音乐有关系”. 52.下列关于独立性检验的说法正确的是(   ) A.独立性检验是对两个变量是否具有线性相关关系的一种检验 B.独立性检验可以确定两个变量之间是否具有某种关系 C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病 D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小 【答案】C 【详解】对于A,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,A错误; 对于B,独立性检验并不能确定两个变量相关,B错误; 对于C,是指“抽烟”和“患肺病”存在关联的可能性大小,并非抽烟人中患肺病的发病率, 因此不可以说在100个吸烟的人中,有99人患肺病,C正确; 对于D,在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,D错误. 53.为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________. 【答案】 / 【详解】由,且,即有的把握认为二者存在关联, 由题设,则, 所以随机抽取一名学生,其成绩达标的概率为. 54.某医疗研究机构为检验某种新研发的药物对特定疾病治疗是否有效,随机选取了200名患者进行双盲实验.其中100人服用新药,100人服用旧药,统计结果如下表 治愈 未治愈 合计 服用新药 67 33 100 服用旧药 48 52 100 合计 115 85 200 附:统计量临界值表 0.10 0.05 0.01 0.005 2.706 3.841 6.635 7.879 其中. 则下列说法正确的是(    ) A.有的把握认为新研发的药物对特定疾病治疗有效 B.有的把握认为新研发的药物对特定疾病治疗无效 C.有的把握认为新研发的药物对特定疾病治疗无效 D.有的把握认为新研发的药物对特定疾病治疗有效 【答案】D 【分析】求出的值,即可得答案。 【详解】因为, 又因为当时,对应的犯错的概率为, 所以有的把握认为新研发的药物对特定疾病治疗有效. 55.近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到. 车型与地区 下表是独立性检验中几个常用的小概率值和相应的临界值. 0.05 0.01 0.005 0.001 3.841 6.635 7.879 10.828 下列说法正确的是(    ) A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人 B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人 C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001 D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001 【答案】C 【分析】借助分层随机抽样定义计算可得A;分别计算出购买燃油车的人数与购买新能源车的人数可得B;利用独立性检验定义可得C、D. 【详解】对A:,故新能源车主有人,故A错误; 对B:购买燃油车的人数为, 购买新能源车的人数为, 则购买燃油车的人数比新能源车的多人,故B错误; 对C、D:依据的独立性检验,即消费者的购车类型与地域有关联, 由,故此推断犯错误的概率不大于,故C正确、D错误. 56.以下结论错误的是(   ) A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系 B.在回归直线中,变量时,变量y的值一定是15 C.的值越大,两个事件的相关性的可能性就越大 D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好 【答案】B 【分析】对于AC,根据独立性检验的定义和性质进行求解;对于BD,根据回归直线的概念和性质进行求解. 【详解】对于选项A:,故根据小概率值的独立性检验,认为两个分类变量有关系,即A正确: 对于选项B,回归直线方程中,当变量等于200时,的值平均是15,不能说一定是15,故B错误; 对于选项C:越大,“与有关系”可信程度越大,即相关性的可能性就越大,即C正确; 对于选项D:在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好,即D正确. 考点11 卡方的计算 57.某电动汽车制造企业为了提升电池性能,研发部门对一款新型号的电池进行了充放电循环测试,测试时分别收集了使用液冷技术与风冷技术的电池各250组,测试电池电容量衰减至初始容量的时所经历的充放电循环次数,若循环次数不低于2000次,则认定为A级电池,否则认定为B级电池,统计结果如下表: A级电池 B级电池 总计 液冷技术 200 50 250 风冷技术 150 100 250 总计 350 150 500 (1)根据小概率值的独立性检验,分析“是A级电池”与“电池冷却技术类型”是否有关; (2)现从使用液冷技术的250组电池中,按比例用分层随机抽样的方法抽取10组电池,再从这10组电池中用无放回的方式随机抽取3组电池,记为抽到的A级电池的组数,求的分布列和数学期望. 附:. 0.050 0.010 0.001 3.841 6.635 10.828 【答案】(1)“是A级电池”与“电池冷却技术类型”有关 (2)分布列见解析, 【分析】(1)根据题中数据求,并与临界值对比,结合独立性检验思想分析判断; (2)分析可知的所有可能取值为,,,结合超几何分布求分布列和期望. 【详解】(1)零假设:“是A级电池”与“电池冷却技术类型”无关, 由题中数据得, 根据小概率值的独立性检验,可以推断零假设不成立, 所以“是A级电池”与“电池冷却技术类型”有关. (2)从使用液冷技术的250组电池中,按比例用分层随机抽样的方法抽取10组电池, 则A级电池抽取8组,B级电池抽取2组,则的所有可能取值为,,, ,,, 故的分布列为 1 2 3 所以. 58.某高校组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,男生、女生各取人.设事件“学生愿意报名参加答题活动”,“学生为男生”,据统计,. (1)根据已知条件,依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关? 性别 男生 女生 合计 不愿报名参加答题活动 愿意报名参加答题活动 合计 200 (2)假设甲每道题回答是否正确相互独立,且每次答对的概率均为.若答题活动设置4道题,且答题规则如下:每次答一题,一旦答对,则结束答题;答错则继续答题,直到4道题答完.已知甲同学报名参加答题活动,用表示在本次答题的题目数量,求的分布列和期望. 参考公式与数据:,其中. 0.10 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【答案】(1)认为学生报名参加答题活动与性别有关联,此推断犯错误的概率不大于0.001 (2)的分布列为: 1 2 3 4 【分析】(1)根据已知条件求出列联表中的数据,再计算出的值判断即可; (2)写出的所有可能取值,结合独立事件的概率特征求出对应的概率,从而可写出的分布列及期望. 【详解】(1)因为,所以愿意报名参加答题活动人数为, 又因为,所以愿意报名参加答题活动的男生人数为,愿意报名参加答题活动的女生人数为, 则可得到列联表为: 性别 男生 女生 合计 不愿报名参加答题活动 20 60 80 愿意报名参加答题活动 80 40 120 合计 100 100 200 零假设为:学生报名参加答题活动与性别无关, 则 依据小概率值的独立性检验,我们推断不成立, 即认为学生报名参加答题活动与性别有关联,此推断犯错误的概率不大于0.001. (2)由题意得,的所有可能取值为:, ,,,, 所以的分布列为: 1 2 3 4 故. 59.为了解喜爱钓鱼是否与性别有关,某同学随机在人群中抽取了若干人进行调查,抽取男性人数与女性人数相同,男性喜爱钓鱼的人数占男性人数的,女性喜爱钓鱼的人数占女性人数的,若有的把握认为是否喜爱钓鱼与性别有关,则被调查的男性中不喜爱钓鱼的至少有(   ) 附:,其中. A.人 B.人 C.人 D.人 【答案】C 【分析】设被调查的男性有人,则女性有人,列出列联表,根据独立性检验的基本思想可得出关于的不等式,结合可得出的值,即可得出被调查的男性中不喜爱钓鱼的人数至少为. 【详解】设被调查的男性有人,则女性有人,根据题意,可得列联表如下: 钓鱼 性别 男性 女性 总计 喜爱钓鱼 不喜爱钓鱼 总计 则, 本次调查得出“有的把握认为是否喜爱钓鱼与性别有关”的结论, 可得,解得, 又因为列联表中相关人数需为整数,则, 所以,被调查的男性中不喜爱钓鱼的至少有人. 60.羽毛球运动在我国是非常受大众喜爱的一项运动,但自2023年以来,由于多种原因,羽毛球价格经历多轮上涨,部分高端型号涨幅甚至超过同期黄金涨幅,越来越多的球友直呼快打不起球了.我国某著名体育厂商抓住这个历史机遇推出了人造羽毛球,名为碳音球,这款羽毛球采用碳纤维复合材料替代天然羽毛,其飞行轨迹与击球手感接近天然羽毛球,但价格却只有天然羽毛球的60%到70%,该羽毛球一经上市便引起热烈反响,但舆论对其评价褒贬不一.某市场调查机构调查了男性和女性各100名羽毛球爱好者对碳音球和天然羽毛球的偏好程度,现统计得出样本中偏好碳音球的人数占样本总数的45%,其中偏好碳音球的女性羽毛球爱好者有50人. 偏好碳音球 偏好天然羽毛球 合计 男性 女性 50 合计 200 (1)请根据已知条件将上述列联表补充完整,并分析是否有90%的把握认为两种羽毛球的偏好与性别有关? (2)现从男性羽毛球爱好者中按对碳音球和天然羽毛球的偏好采用分层抽样的方法抽取10人,然后从这10人中随机抽取3人参加有奖问答,记3人中偏好碳音球的人数为,求的分布列和数学期望. (3)若某羽毛球俱乐部的男女比例为3:2.将样本的频率视为概率,现从该俱乐部中随机抽取一人,已知此人偏好碳音球,求其为男性的概率. 附: 0.100 0.050 0.010 2.706 3.841 6.635 【答案】(1)表格见解析,没有的把握认为两种羽毛球的偏好与性别有关 (2) 0 1 2 3 (3) 【分析】(1)完善列联表,计算出卡方,即可判断; (2)利用超几何分布的概率公式求出分布列,从而求出数学期望; (3)根据全概率公式及条件概率公式计算可得. 【详解】(1)依题意可得列联表如下: 偏好碳音球 偏好天然羽毛球 合计 男性 40 60 100 女性 50 50 100 合计 90 110 200 , 没有的把握认为两种羽毛球的偏好与性别有关. (2)依题意男性羽毛球爱好者偏好碳音球的抽取人, 偏好天然羽毛球的抽取人, 则的可能取值为,,,, 则,, ,, 则的分布列为, 0 1 2 3 所以的数学期望为: ; (3)记事件A为:抽取的人偏好碳音球:事件B为:抽取的人性别为男性, 则, 由全概率公式得, 则,即此人为男性的概率为. 61.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司年前个月的带货金额: 月份 带货金额万元 (1)求关于的线性回归方程,并据此预测年月份该公司的直播带货金额; (2)该公司随机抽取人进行问卷调查,得到如下不完整的列联表: 参加过直播带货 未参加过直播带货 总计 女性 男性 总计 请填写上表,并判断是否有的把握认为参加直播带货与性别有关? 参考公式:,; ,其中. 0.025 0.010 0.005 0.001 5.024 6.635 7.879 10.828 【答案】(1) 关于的线性回归方程为,预测年月份该公司直播带货金额为万元; (2) 列联表见解析,有的把握认为参加直播带货与性别有关。 【分析】(1)先计算样本均值,代入回归系数公式求得线性回归方程,再将代入方程得到预测值; (2)先根据已知数据补全列联表,再计算卡方统计量,与临界值对比判断是否存在相关性. 【详解】(1)由题意,得,。 根据参考数据,得,,则 , , 因此关于的线性回归方程为, 年月对应,代入得(万元),即预测月带货金额为万元. (2)由题意,补全列联表如下: 参加过直播带货 未参加过直播带货 总计 女性 男性 总计 代入卡方公式,得, 由于,对应,因此有的把握认为参加直播带货与性别有关. 62.某车企计划在A 市优化无人快递车的投放量,为测试运行稳定性,并确定投放规模,进行如下调查. (1)为了测试无人快递车的运行稳定性,随机抽取了200辆进行运行测试,得到部分数据,请完成2×2列联表,并回答:有99%的把握认为无人快递车故障与是否维保有关吗? 维保 未维保 合计 故障 12 40 未故障 合计 120 200 (2)对过去的投放量x (单位:百辆)与服务次数y (单位:万次)的数据进行了统计,得到如下表格: x 1 2 3 4 5 6 7 y 5 13 32 79 200 501 1259 拟用函数模型或 对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量x与服务次数y的回归方程模型(给出判断即可,不必说明理由)?并求出y关于x的回归方程. 参考数据: , 0.1 0.05 0.01 2.706 3.841 6.635 298.4 1.9 13262 64.4 2 【答案】(1)列联表见解析;有99%的把握认为无人快递车故障与是否维保有关 (2)选择更适宜,回归方程为 【分析】(1)根据题意完成列联表,利用独立性检验公式,计算的值可判断; (2)根据题意应选指数函数模型,根据已知条件两边同时取对数,转化为关于与的一次函数模型,结合参考数据即可求解; 【详解】(1)由题意得: 维保 未维保 合计 故障 12 28 40 未故障 108 52 160 合计 120 80 200 所以, 所以有99%的把握认为无人快递车故障与是否维保有关; (2)选择更适宜, 由,所以, 令,所以, 因为, 所以, 所以, 所以,即,所以, 所以关于的回归方程为:. 考点12 独立性检验解决实际问题 63.某校举行足球点球比赛,每位参赛者踢点球两次,设有两个点球位置A,B,约定如下规则:参赛者第一次踢点球从A,B中随机选择一个位置进行,若球进,则更换另一个位置进行第二次踢点球;若球未进,则不更换点球位置.规定在A位置球进得5分,在B位置球进得10分,未进均得0分. (1)从甲、乙两班各随机抽取30名参赛者,根据第一次选择点球位置情况,统计如下表: 第一次在A位置踢点球 第一次在B位置踢点球 合计 甲班 20 10 30 乙班 5 25 30 合计 25 35 60 根据小概率值的独立性检验,判断第一次选择点球位置是否与班级有关联? (2)已知张同学在A处踢点球进球的概率为0.6,在B处踢点球进球的概率为0.4. (ⅰ)求张同学第一次踢点球进球的概率; (ⅱ)设X表示张同学的总得分,求X的分布列和数学期望. 附:,其中. 0.1 0.01 0.001 2.706 6.635 10.828 【答案】(1)第一次选择点球位置与班级有关联; (2)(ⅰ); (ⅱ)分布列: 数学期望为. 【分析】(1)利用列联表数据计算卡方统计量,与给定临界值比较,完成独立性检验; (2)(i)根据全概率公式计算第一次进球的概率; (ii)分析所有得分情况,计算各取值概率,列出分布列并求数学期望. 【详解】(1)由列联表得 ,,,,. , 当 时,临界值 . 因为 ,故拒绝原假设,即认为第一次选择点球位置与班级有关联. (2)(i)张同学第一次选择A、B位置的概率均为 , 故第一次踢点球进球的概率:, (ii) 的所有可能取值为 . 故 的分布列为: 数学期望: 64.青岛二中为了解高一高二学生的校园活动偏好,随机抽取两个年级各200名学生,调查他们参与科技类、文艺类活动的情况,并用等高堆积条形图直观地展示调查结果如图所示,经计算得到.下表是独立性检验中几个常用的小概率值和相应的临界值,下列说法正确的是(    ) 0.05 0.01 0.005 0.001 3.841 6.635 7.879 10.828 A.在调查的高一学生中,若按比例分层随机抽样抽取20人,则参加科技类的学生有8人 B.在调查的高二学生中,选择文艺类比选择科技类的学生多20人 C.依据的独立性检验,即年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于0.001 D.没有的把握认为年级与校园活动偏好类型的选择有关联 【答案】C 【详解】对于A,在调查的高一学生中,科技类占比为0.6,若按比例分层随机抽样抽取20人, 则参加科技类的学生应为人,故A错误; 对于B,在调查的高二学生中,选择文艺类的人数为人, 选择科技类的人数为人, 选择文艺类比选择科技类的学生多人,故B错误; 对于C,因为,依据的独立性检验, 即年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于0.001,故C正确; 对于D,当时,,依据的独立性检验, 即年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于0.01,故D错误. 65.某研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计,根据统计数据制作列联表,提出原假设:“经常用流行用语”与“年轻人”没有关系,计算得,由此可知(     ).(显著性水平取0.05,) A.接受原假设,没有的把握认为“经常用流行用语”与“年轻人”有关系 B.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系 C.接受原假设,有的把握认为“经常用流行用语”与“年轻人”有关系 D.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”没有关系 【答案】B 【详解】由于且,故拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系. 66.某学校开展阅读兴趣调查,随机采访男生、女生各人,每人从文学类书籍和科普类书籍中选择最喜欢的一类,喜欢文学类书籍的归为甲组,喜欢科普类书籍的归为乙组.调查发现:甲组成员共人,其中男生人. (1)根据以上数据,填空下述列联表: 甲组 乙组 合计 男生 女生 合计 (2)依据小概率值的独立性检验,分析学生喜欢文学类还是科普类书籍是否与性别有关; (3)现从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,记赠送书签的人在甲组中的人数为,求的分布列及数学期望. 参考公式:,. 参考数据: 【答案】(1)答案见解析 (2)认为学生喜欢文学类还是科普类书籍与性别有关. (3) . 【详解】【小题1】根据题中数据可得列联表如下: 甲组 乙组 合计 男生 女生 合计 【小题2】零假设学生喜欢文学类还是科普类书籍与性别无关, , 根据小概率值的独立性检验,我们推断不成立, 即认为学生喜欢文学类还是科普类书籍与性别有关. 【小题3】从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签, 这人中,甲组的人数为人,乙组的人数为人, 由题意可知,随机变量的可能取值有、、, ,,, 所以随机变量的分布列如下表所示: 所以. 67.为考察某种药物对预防疾病的效果,进行了动物试验,根据300个样本的数据,得到如下列联表: 单位:只 药物 疾病Y 合计 未患病 患病 未服用 80 40 120 服用 150 30 180 合计 230 70 300 (1)从该样本中任选1个,记“该动物未服用药物”为事件,记“该动物患疾病”为事件.根据上表数据,用频率估计概率,分别估计,,并由此直观判断药物对预防疾病是否有效,简要说明理由; (2)能否有99%的把握认为药物对预防疾病有效? 附:, 0.050 0.010 0.001 3.841 6.635 10.828 【答案】(1),,有效,理由见解析 (2)有的把握认为药物对预防疾病有效. 【分析】(1)根据条件概率的概念,计算事件的概率,进而判定药物X对预防疾病Y是否有效. (2)根据独立性检验方法,计算,进而判断药物是否有效. 【详解】(1)在(未服用药物)条件下,患疾病的频率为,用频率估计概率,得, 在(服用药物)条件下,患疾病的频率为,用频率估计概率,得 , 未服用药物X的动物患疾病Y的概率约为,而服用药物X的动物患疾病Y的概率约为,两者有较大差异. 因此直观判断,药物X对预防疾病Y有效. (2)零假设:药物对预防疾病无效, 由列联表得到, 所以有的把握认为药物对预防疾病有效. 68.在一项“人机协作”的心理学实验中,研究人员让20名志愿者和20个AI语言模型分别完成同一项“情感强度打分”任务.志愿者组根据自己的主观感受打分,AI组则根据AI模型内置的情感词典计算打分. 志愿者组的评分如下表: 15.2 16.5 18.8 19 20.2 20.8 21.3 22 22.5 23.2 23.5 24.1 25.8 26 26.5 27 27.5 28.5 30.1 31.2 AI组的评分如下表: 7.8 8.5 9.2 10 11.4 11.8 12.4 13 13.2 14.2 15.5 16 16.2 16.5 17.2 18 18.5 19.2 19.5 20.5 (1)求AI组20个评分的极差与第20百分位数. (2)设这40个评分的中位数为m. (i)求m的值,并统计两组(人类组即志愿者组)样本中小于m与不小于m的数据的个数,完成下面的列联表: 评分小于m 评分不小于m 合计 人类组 AI组 合计 (ii)根据小概率值α=0.001的独立性检验,分析AI的情感量化结果与人类的主观感知是否存在差异. 附: α 0.050 0.010 0.001 3.841 6.635 10.828 【答案】(1)极差为,第百分位数为; (2)(i)中位数, 评分小于m 评分不小于m 合计 人类组 3 17 20 AI组 17 3 20 合计 20 20 40 (ii)认为AI的情感量化结果与人类的主观感知存在差异. 【分析】(1)找出AI组评分的最大值和最小值,进而得到极差;结合百分位数定义求解即可; (2)(i)将所有40个评分从小到大排序,找到第20和第21个数据,计算其平均值得,分别在志愿者组和AI组的评分中,逐个比对数据与的大小,统计对应个数,完成列联表; (ii)先根据列联表中的数据,代入卡方公式计算值,再与10.828比较判断即可. 【详解】(1)AI组20个评分已按从小到大排序,最大值为,最小值为, 因此:极差 计算第20百分位数:,为整数, 因此第20百分位数为第4项和第5项的平均数:; (2)(i)40个数据从小到大排序后,中位数为第20项和第21项的平均数. 则第20项为,第21项为, 因此: . 补充列联表如下: 评分小于m 评分不小于m 合计 人类组 3 17 20 AI组 17 3 20 合计 20 20 40 (ii)零假设:AI的情感量化结果与人类的主观感知无差异. 代入卡方公式计算:, 已知对应的临界值,由于,因此拒绝零假设. 即认为AI的情感量化结果与人类的主观感知存在差异. 2 / 11 学科网(北京)股份有限公司 $ 专题10 成对数据的统计分析 考点01 根据散点图判断是否线性相关 考点02 相关系数的意义及辨析 考点03 相关系数的计算 考点04 判断正、负相关 考点05 样本中心点的应用 考点06 求线性回归方程 考点07 求非线性回归方程 考点08 残差的计算 考点09 列联表完善与分析 考点10 独立性检验的概念及辨析 考点11 卡方的计算 考点12 独立性检验解决实际问题 考点01 根据散点图判断是否线性相关 1.如图所示,4个散点图中,不适合用线性回归模型拟合其中两个变量的是(    ). A.B.C.D. 2.如图所示,有A,B,C,D,E共5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系. 3.若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是(    )    A. B. C. D. 4.如图是两个变量的散点图,y关于x的回归方程可能是(    ) A. B. C. D. 5.某研究小组为了探究变量x与y之间的线性相关关系,收集了5组数据,(),并绘制成如图所示的散点图(点A,B,C,D,E).经计算,这5组数据的样本相关系数为r.若去掉点后,剩余4组数据的样本相关系数为,则下列结论正确的是(   )    A. B. C. D. 考点02 相关系数的意义及辨析 6.对四组数据进行统计,获得如图所示的散点图,其中相关系数最小的是(   ) A. B. C. D. 7.甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的样本相关系数分别为,,,,则这四人中,研究的两个随机变量的线性相关程度最高的是(   ) A.甲 B.乙 C.丙 D.丁 8.有一散点图如图,在5个数据中去掉后,下列说法正确的是(    ) A.变量与变量的线性相关性变弱 B.数据的方差变大 C.相关系数变小 D.残差平方和变小 9.已知为随机变量X和Y的样本相关系数,为随机变量M和N的样本相关系数,则下列说法正确的是(   ) A.若,则X和Y负相关 B.若,则M和N线性不相关 C.若,,则X和Y的线性相关程度比M和N的线性相关程度强 D.若越接近1,则M和N的线性相关程度越弱 考点03 相关系数的计算 10.为了研究人体的脂肪含量和年龄之间的线性强弱,科研人员随机抽取了14个样本点(代表年龄,代表脂肪含量,,2,……,14.由统计软件得,,,,,且相关系数公式,由以上数据计算得_____. 11.网购是现代年轻人重要的购物方式,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与年份代码进行了统计,得如下数据: x 1 2 3 4 5 y 2.5 3.3 4.5 6.2 8.5 则x与y的样本相关系数(   ) 参考公式:,参考数据:,. A.0.99 B.0.98 C.0.97 D.0.96 12.某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据: 样本号 1 2 3 4 5 6 7 8 9 10 总和 电池容量 35 40 45 50 55 65 70 75 80 85 600 续航里程 330 350 390 410 480 520 560 620 640 700 5000 并计算得. (1)估计这10辆车的平均电池容量与平均续航里程; (2)求电池容量与续航里程的样本相关系数;(精确到0.001) (3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1) 附:相关系数. 13.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,为此该公司统计了2024年前5个月的带货金额如下表(金额y/万元): 月份 1月 2月 3月 4月 5月 月份编号x 1 2 3 4 5 金额y/万元 7 12 13 19 24 并计算得,,. (1)求该公司带货金额的平均值; (2)求该公司带货金额y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有较强的线性相关关系(若,则线性相关性较强,否则认为线性相关性较弱). 附:相关系数,. 14.最近7年,我国生活垃圾无害处理量如下表: 年份序号 1 2 3 4 5 6 7 处理量 通过计算得,,,,则样本相关系数(    ) A.0.99 B.0.95 C.0.9 D.0.85 15.2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示. 万件 2.08 2.12 2.19 2.28 2.36 2.48 2.59 2.68 2.80 2.87 万元 42.5 43.7 44.0 45.5 46.4 47.5 49.2 50.3 51.4 52.6 (1)计算的值; (2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度. 考点04 判断正、负相关 16.对变量,由观测数据得散点图1:对变量,由观测数据得散点图2,由这两个散点图可以推断(    ) A.与正相关,与正相关 B.与正相关,与负相关 C.与负相关,与负相关 D.与负相关,与正相关 17.对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是(    ) A.图1、图2两组数据都具有线性相关关系 B.图1的数据正相关,图2的数据负相关 C.图1的相关系数小于图2的相关系数 D.图1的相关系数的绝对值小于图2的相关系数的绝对值 18.某校随机抽取50名学生的身高与体重的散点图如下所示,则下列说法错误的是(   ) A.身高越高,体重越重; B.身高与体重同向变动的倾向; C.身高与体重之间有明显的相关性; D.身高与体重成正相关 19.对变量、有观测数据,得散点图1;对变量、有观测数据,得散点图2.分别用、表示变量与、与之间的线性相关系数,则下列说法正确的是(   ).    A.变量与呈现正相关,且 B.变量与呈现负相关,且 C.变量与呈现正相关,且 D.变量与呈现负相关,且 20.某中学的兴趣小组在某座山测得了海拔高度、气压和沸点的若干个数据,并绘制成如图所示的散点图,则下列说法错误的是(    ) A.沸点与海拔高度正相关 B.沸点与气压正相关 C.沸点与海拔高度负相关 D.沸点与海拔高度、沸点与气压都线性相关 21.对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是(    ) A. B. C. D. 考点05 样本中心点的应用 22.某研究所研究耕种深度(单位:)与一种农作物每公顷产量(单位:)的关系,所得数据资料如下表: 耕种深度 2 3 5 6 每公顷产量 m 5 7 8 发现与之间具有线性相关关系,其经验回归方程为,则(    ) A.4 B.6 C.8 D.10 23.下表提供了某厂进行技术改造后生产产品过程中记录的产量(单位:t)与相应的生产能耗(单位:t标准煤)的几组数据: 4 5 6 7 标准煤 3.2 3.8 5.3 根据数据可得到的回归方程为,则(    ) A.4.6 B.4.55 C.4.5 D.4.35 24.下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆): 月份 1 2 3 4 5 6 销售量 5.1 6.6 7.0 7.6 9.8 若关于的经验回归方程为,且相关系数. (1)求的值(精确到0.01); (2)求的值(精确到0.1). 附:,相关系数. 参考数据:,. 25.用模型去拟合与的关系,令,得到关于的回归直线方程为,则(   ) A.1 B.2 C.3 D.4 26.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为. 零件数x(个) 1 2 3 4 5 加工时间y(min) 50 67 71 79 表中有一个数据模糊不清,请你推断出该数据的值为(  ) A.55 B.55.8 C.59 D.51 27.某单位为了解日用电量(单位:千瓦时)与当天平均温度(单位:摄氏度)之间的关系,随机统计了4天的日用电量与当天的平均温度,绘制了如下表格,由表中数据可得线性回归方程,则实数________. 5 15 24 60 40 20 28.在下表的统计量中,有一个数值不清晰,用表示. 1 2 3 4 5 6.3 7.4 8.1 8.7 已知表中数据的经验回归方程同时满足:①过点;②每增加一个单位,增加个单位,则___________;当时,___________. 29.已知变量x,y的统计数据如下表,对表中数据作分析,发现y与x之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为且当x=9时,残差为-0.1.则当x=11时,y的预测值为___________. x 5 6 7 8 9 y 3.5 4 5 6 6.5 考点06 求线性回归方程 30.现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功. 1 2 3 4 5 516 209 127 98 50 (1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望; (2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数). 附:回归方程系数:,. 参考数据:设,,,,,,. 31.某科研团队研发新一代硫化物固态锂电池,测试了5块同批次电池的循环次数x(次)与剩余容量y(单位:),得到如下数据: x(次) 100 200 300 400 500 y(Ah) 9.8 9.5 9.2 8.9 8.6 (1)求y关于x的线性回归方程,预测当循环次数为1000次时电池的剩余容量;并计算样本相关系数r,据此说明线性回归模型拟合x与y关系的合理性. (2)该团队另有10块同批次电池,其中改性优化电池6块,普通电池4块;改性优化电池中有4块循环寿命超过1000次,普通电池循环寿命均未超过1000次,规定循环寿命超过1000次为达标.现从这10块电池中随机抽取3块进行破坏性安全测试,记抽取的3块中达标的电池数为,求的分布列和数学期望. 参考公式:回归直线的斜率和截距的最小二乘估计分别为 ,, 相关系数 32.2026年2月28日起国际油价剧烈波动,下表统计了随后7天原油的大致价格. 随后天数 1 2 3 4 5 6 7 油价(美元/桶) 72.5 75.1 78.1 79.0 82.6 84.3 86.8 (1)由上表数据,从①,②两个函数中选一个作为油价关于随后天数的回归模型,判断哪个更适合,不必说明理由,并求出这个更适合的回归模型的回归方程;(最后系数精确到0.1) (2)由(1)得到的回归方程,预测2026年3月8日的原油价格. 参考数据:. 参考公式:回归方程中斜率和截距的最小二乘法估计公式分别为,. 33.2021~2025年我国高铁的运营里程(单位:万公里)统计如下: 年份 2021 2022 2023 2024 2025 年份序号x 1 2 3 4 5 运营里程y 4.0 4.2 4.5 4.8 5.0 (1)求关于的经验回归方程; (2)预测2026年我国高铁的运营里程. 附:在经验回归方程中, ,. 考点07 求非线性回归方程 34.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________. 35.某市公交公司统计了二月份到六月份使用支付宝或微信扫码支付乘车的人次,用表示月份,表示每月使用扫码支付的人次(单位:千人次).已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下: 2 3 4 5 6 1.02 1.20 1.42 1.62 1.84 则(    ) A.0.596 B. C.-6.92 D. 36.椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值. 46.6 563 6.8 298.8 1.6 1469 108.8 表中 (1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程; (2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少? 附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为: 37.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下: 1 2 3 4 5 4 7 12 20 33 经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为(   )(参考公式:,) A. B. C. D. 38.为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则(    ) 3 4 6 7 2 2.5 4.5 7 A. B. C. D. 39.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且. 10.15 108.40 3.04 0.16 14.00 11.67 0.21 21.22 (1)用相关系数说明哪种模型建立y与x的回归方程更合适; (2)根据(1)的结果及表中数据,建立y关于x的回归方程; (3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值. 参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数. 40.脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图. 根据收集到的数据,计算得到下表数据,其中,. 7.5 2.25 82.50 4.50 12.14 2.88 (1)根据残差图,判断应选择哪个模型,并说明理由. (2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1) 附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,. 考点08 残差的计算 41.根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比(    ) A.决定系数变小 B.残差平方和变小 C.相关系数变大 D.不变 42.为了解高三年级学生参与“人工智能辅助学习”的频次(次/周)与数学模拟测试成绩(分)之间的关系,学校收集了一组成对数据,计算可得样本平均数,,通过数据分析求得经验回归方程为,下列关于这组数据的统计分析中,说法错误的是(     ) A.变量与呈正相关关系 B.经验回归直线必过样本中心点,且 C.若某学生每周参与辅助学习6次,其测试成绩为110分,则该样本点的残差为 D.若这组数据的残差平方和越小,则决定系数越小,说明经验回归模型的拟合效果越好 43.已知变量x和y有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则(     ) x 2 3 4 5 y 4 7 8 13 A.经验回归直线必过点 B. C.当时,预测值 D.当时,样本点对应的残差为0.2 44.已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为_______. 45.5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示: 时间 1 2 3 4 5 销售量(千只) 0.5 0.8 1.0 1.2 1.5 若与线性相关,且经验回归方程为,则下列说法不正确的是(   ) A.由题中数据可知,变量与正相关 B.在经验回归方程中 C.可以预测时该商场5G手机销量约为1.72千只 D.时,残差为 46.已知变量 和 有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为 ,则(    ) 2 3 5 6 5 7 9 15 A.经验回归直线必过点 B. C.对应的样本点的残差为 D.当时,预测值 考点09 列联表完善与分析 47.下面是一个列联表,则______. X Y 合计 a 合计 b 48.博鳌亚洲论坛2024年年会于3月26日至29日在海南博鳌举行.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与是否会俄语”的列联表中,______. 性别 是否会俄语 合计 会 不会 男 20 女 6 合计 18 30 49.地铁的开通,在一定程度上缓解了市内交通的拥堵状况.某条地铁线路开通后,某调查机构抽取了部分乘坐该线路地铁的市民作为样本,分析其年龄和性别结构,得到如下信息:35岁及以下的市民中,男性约占;35岁以上的市民中,男性约占;男性市民中,35岁及以下的约占;女性市民中,35岁及以下的约占.根据以上信息,下列结论不一定正确的是(    ) A.样本中男性比女性多 B.样本中多数女性是35岁以上 C.样本中35岁及以下的男性人数比35岁以上的女性人数多 D.样本中35岁以上的市民比35岁及以下的多 50.下面是一个2×2列联表: 项目 y1 y2 总计 x1 a 21 70 x2 5 c 30 总计 b d 100 则由上表可得________. 考点10 独立性检验的概念及辨析 51.为了研究性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握至少为(   ) 0.01 0.005 0.001 6.635 7.879 10.828 A. B. C. D. 52.下列关于独立性检验的说法正确的是(   ) A.独立性检验是对两个变量是否具有线性相关关系的一种检验 B.独立性检验可以确定两个变量之间是否具有某种关系 C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病 D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小 53.为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________. 54.某医疗研究机构为检验某种新研发的药物对特定疾病治疗是否有效,随机选取了200名患者进行双盲实验.其中100人服用新药,100人服用旧药,统计结果如下表 治愈 未治愈 合计 服用新药 67 33 100 服用旧药 48 52 100 合计 115 85 200 附:统计量临界值表 0.10 0.05 0.01 0.005 2.706 3.841 6.635 7.879 其中. 则下列说法正确的是(    ) A.有的把握认为新研发的药物对特定疾病治疗有效 B.有的把握认为新研发的药物对特定疾病治疗无效 C.有的把握认为新研发的药物对特定疾病治疗无效 D.有的把握认为新研发的药物对特定疾病治疗有效 55.近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到. 车型与地区 下表是独立性检验中几个常用的小概率值和相应的临界值. 0.05 0.01 0.005 0.001 3.841 6.635 7.879 10.828 下列说法正确的是(    ) A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人 B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人 C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001 D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001 56.以下结论错误的是(   ) A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系 B.在回归直线中,变量时,变量y的值一定是15 C.的值越大,两个事件的相关性的可能性就越大 D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好 考点11 卡方的计算 57.某电动汽车制造企业为了提升电池性能,研发部门对一款新型号的电池进行了充放电循环测试,测试时分别收集了使用液冷技术与风冷技术的电池各250组,测试电池电容量衰减至初始容量的时所经历的充放电循环次数,若循环次数不低于2000次,则认定为A级电池,否则认定为B级电池,统计结果如下表: A级电池 B级电池 总计 液冷技术 200 50 250 风冷技术 150 100 250 总计 350 150 500 (1)根据小概率值的独立性检验,分析“是A级电池”与“电池冷却技术类型”是否有关; (2)现从使用液冷技术的250组电池中,按比例用分层随机抽样的方法抽取10组电池,再从这10组电池中用无放回的方式随机抽取3组电池,记为抽到的A级电池的组数,求的分布列和数学期望. 附:. 0.050 0.010 0.001 3.841 6.635 10.828 58.某高校组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,男生、女生各取人.设事件“学生愿意报名参加答题活动”,“学生为男生”,据统计,. (1)根据已知条件,依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关? 性别 男生 女生 合计 不愿报名参加答题活动 愿意报名参加答题活动 合计 200 (2)假设甲每道题回答是否正确相互独立,且每次答对的概率均为.若答题活动设置4道题,且答题规则如下:每次答一题,一旦答对,则结束答题;答错则继续答题,直到4道题答完.已知甲同学报名参加答题活动,用表示在本次答题的题目数量,求的分布列和期望. 参考公式与数据:,其中. 0.10 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 59.为了解喜爱钓鱼是否与性别有关,某同学随机在人群中抽取了若干人进行调查,抽取男性人数与女性人数相同,男性喜爱钓鱼的人数占男性人数的,女性喜爱钓鱼的人数占女性人数的,若有的把握认为是否喜爱钓鱼与性别有关,则被调查的男性中不喜爱钓鱼的至少有(   ) 附:,其中. A.人 B.人 C.人 D.人 60.羽毛球运动在我国是非常受大众喜爱的一项运动,但自2023年以来,由于多种原因,羽毛球价格经历多轮上涨,部分高端型号涨幅甚至超过同期黄金涨幅,越来越多的球友直呼快打不起球了.我国某著名体育厂商抓住这个历史机遇推出了人造羽毛球,名为碳音球,这款羽毛球采用碳纤维复合材料替代天然羽毛,其飞行轨迹与击球手感接近天然羽毛球,但价格却只有天然羽毛球的60%到70%,该羽毛球一经上市便引起热烈反响,但舆论对其评价褒贬不一.某市场调查机构调查了男性和女性各100名羽毛球爱好者对碳音球和天然羽毛球的偏好程度,现统计得出样本中偏好碳音球的人数占样本总数的45%,其中偏好碳音球的女性羽毛球爱好者有50人. 偏好碳音球 偏好天然羽毛球 合计 男性 女性 50 合计 200 (1)请根据已知条件将上述列联表补充完整,并分析是否有90%的把握认为两种羽毛球的偏好与性别有关? (2)现从男性羽毛球爱好者中按对碳音球和天然羽毛球的偏好采用分层抽样的方法抽取10人,然后从这10人中随机抽取3人参加有奖问答,记3人中偏好碳音球的人数为,求的分布列和数学期望. (3)若某羽毛球俱乐部的男女比例为3:2.将样本的频率视为概率,现从该俱乐部中随机抽取一人,已知此人偏好碳音球,求其为男性的概率. 附: 0.100 0.050 0.010 2.706 3.841 6.635 61.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司年前个月的带货金额: 月份 带货金额万元 (1)求关于的线性回归方程,并据此预测年月份该公司的直播带货金额; (2)该公司随机抽取人进行问卷调查,得到如下不完整的列联表: 参加过直播带货 未参加过直播带货 总计 女性 男性 总计 请填写上表,并判断是否有的把握认为参加直播带货与性别有关? 参考公式:,; ,其中. 0.025 0.010 0.005 0.001 5.024 6.635 7.879 10.828 62.某车企计划在A 市优化无人快递车的投放量,为测试运行稳定性,并确定投放规模,进行如下调查. (1)为了测试无人快递车的运行稳定性,随机抽取了200辆进行运行测试,得到部分数据,请完成2×2列联表,并回答:有99%的把握认为无人快递车故障与是否维保有关吗? 维保 未维保 合计 故障 12 40 未故障 合计 120 200 (2)对过去的投放量x (单位:百辆)与服务次数y (单位:万次)的数据进行了统计,得到如下表格: x 1 2 3 4 5 6 7 y 5 13 32 79 200 501 1259 拟用函数模型或 对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量x与服务次数y的回归方程模型(给出判断即可,不必说明理由)?并求出y关于x的回归方程. 参考数据: , 0.1 0.05 0.01 2.706 3.841 6.635 298.4 1.9 13262 64.4 2 考点12 独立性检验解决实际问题 63.某校举行足球点球比赛,每位参赛者踢点球两次,设有两个点球位置A,B,约定如下规则:参赛者第一次踢点球从A,B中随机选择一个位置进行,若球进,则更换另一个位置进行第二次踢点球;若球未进,则不更换点球位置.规定在A位置球进得5分,在B位置球进得10分,未进均得0分. (1)从甲、乙两班各随机抽取30名参赛者,根据第一次选择点球位置情况,统计如下表: 第一次在A位置踢点球 第一次在B位置踢点球 合计 甲班 20 10 30 乙班 5 25 30 合计 25 35 60 根据小概率值的独立性检验,判断第一次选择点球位置是否与班级有关联? (2)已知张同学在A处踢点球进球的概率为0.6,在B处踢点球进球的概率为0.4. (ⅰ)求张同学第一次踢点球进球的概率; (ⅱ)设X表示张同学的总得分,求X的分布列和数学期望. 附:,其中. 0.1 0.01 0.001 2.706 6.635 10.828 64.青岛二中为了解高一高二学生的校园活动偏好,随机抽取两个年级各200名学生,调查他们参与科技类、文艺类活动的情况,并用等高堆积条形图直观地展示调查结果如图所示,经计算得到.下表是独立性检验中几个常用的小概率值和相应的临界值,下列说法正确的是(    ) 0.05 0.01 0.005 0.001 3.841 6.635 7.879 10.828 A.在调查的高一学生中,若按比例分层随机抽样抽取20人,则参加科技类的学生有8人 B.在调查的高二学生中,选择文艺类比选择科技类的学生多20人 C.依据的独立性检验,即年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于0.001 D.没有的把握认为年级与校园活动偏好类型的选择有关联 65.某研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计,根据统计数据制作列联表,提出原假设:“经常用流行用语”与“年轻人”没有关系,计算得,由此可知(     ).(显著性水平取0.05,) A.接受原假设,没有的把握认为“经常用流行用语”与“年轻人”有关系 B.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系 C.接受原假设,有的把握认为“经常用流行用语”与“年轻人”有关系 D.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”没有关系 66.某学校开展阅读兴趣调查,随机采访男生、女生各人,每人从文学类书籍和科普类书籍中选择最喜欢的一类,喜欢文学类书籍的归为甲组,喜欢科普类书籍的归为乙组.调查发现:甲组成员共人,其中男生人. (1)根据以上数据,填空下述列联表: 甲组 乙组 合计 男生 女生 合计 (2)依据小概率值的独立性检验,分析学生喜欢文学类还是科普类书籍是否与性别有关; (3)现从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,记赠送书签的人在甲组中的人数为,求的分布列及数学期望. 参考公式:,. 参考数据: 67.为考察某种药物对预防疾病的效果,进行了动物试验,根据300个样本的数据,得到如下列联表: 单位:只 药物 疾病Y 合计 未患病 患病 未服用 80 40 120 服用 150 30 180 合计 230 70 300 (1)从该样本中任选1个,记“该动物未服用药物”为事件,记“该动物患疾病”为事件.根据上表数据,用频率估计概率,分别估计,,并由此直观判断药物对预防疾病是否有效,简要说明理由; (2)能否有99%的把握认为药物对预防疾病有效? 附:, 0.050 0.010 0.001 3.841 6.635 10.828 68.在一项“人机协作”的心理学实验中,研究人员让20名志愿者和20个AI语言模型分别完成同一项“情感强度打分”任务.志愿者组根据自己的主观感受打分,AI组则根据AI模型内置的情感词典计算打分. 志愿者组的评分如下表: 15.2 16.5 18.8 19 20.2 20.8 21.3 22 22.5 23.2 23.5 24.1 25.8 26 26.5 27 27.5 28.5 30.1 31.2 AI组的评分如下表: 7.8 8.5 9.2 10 11.4 11.8 12.4 13 13.2 14.2 15.5 16 16.2 16.5 17.2 18 18.5 19.2 19.5 20.5 (1)求AI组20个评分的极差与第20百分位数. (2)设这40个评分的中位数为m. (i)求m的值,并统计两组(人类组即志愿者组)样本中小于m与不小于m的数据的个数,完成下面的列联表: 评分小于m 评分不小于m 合计 人类组 AI组 合计 (ii)根据小概率值α=0.001的独立性检验,分析AI的情感量化结果与人类的主观感知是否存在差异. 附: α 0.050 0.010 0.001 3.841 6.635 10.828 2 / 11 学科网(北京)股份有限公司 $

资源预览图

专题10 成对数据的统计分析(高效培优期末专项训练)高二数学沪教版选择性必修第二册
1
专题10 成对数据的统计分析(高效培优期末专项训练)高二数学沪教版选择性必修第二册
2
专题10 成对数据的统计分析(高效培优期末专项训练)高二数学沪教版选择性必修第二册
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。