9.6 成对数据的统计分析(4大考点+4大题型)(讲义+精练)-2027届新高考数学大一轮复习讲义之技巧精讲与题型全归纳(新高考专用)
2026-05-26
|
2份
|
64页
|
269人阅读
|
2人下载
普通
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | - |
| 年级 | 高三 |
| 章节 | - |
| 类型 | 教案-讲义 |
| 知识点 | 统计案例 |
| 使用场景 | 高考复习-一轮复习 |
| 学年 | 2027-2028 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 5.50 MB |
| 发布时间 | 2026-05-26 |
| 更新时间 | 2026-05-26 |
| 作者 | 冠一高中数学精品打造 |
| 品牌系列 | - |
| 审核时间 | 2026-05-26 |
| 下载链接 | https://m.zxxk.com/soft/58046274.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
该高中数学讲义聚焦成对数据的统计分析,覆盖变量相关关系、线性与非线性回归、独立性检验等高考核心考点,按“知识点梳理-题型探究-课时精练”逻辑架构,通过课标解读、方法归纳、真题演练,帮助学生构建统计方法体系,突破回归方程构建、残差分析等难点。
讲义以数学思维与数学语言为导向,创新设计非线性回归换元转化、独立性检验案例分析等教学活动,设置基础巩固与能力提升分层练习,结合残差图分析、相关系数判断等策略,高效提升学生数据处理与模型应用能力,为教师把控复习节奏提供系统指导。
内容正文:
9.6 成对数据的统计分析
目录
01 课标要求 2
02 落实主干知识 3
知识点一、变量间的相关关系 3
知识点二、线性回归 4
知识点三、非线性回归 4
知识点四、独立性检验 5
03 探究核心题型 7
题型一:变量的相关性 7
题型二:一元线性回归分析 8
题型三:非线性回归分析 11
题型四:独立性检验问题 15
04 课时精练 20
1、了解样本相关系数的统计含义.
2、了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3、会利用统计软件进行数据分析.
知识点一、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
知识点二、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
知识点三、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1、建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
知识点四、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
题型一:变量的相关性
【典例1-1】(2026·天津滨海新区·三模)对四组数据进行统计获得如下散点图并对其相关系数进行比较,正确的是( )
A. B.
C. D.
【典例1-2】5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
【变式1-1】(2026·上海静安·三模)观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
【变式1-2】(2026·高三·上海徐汇·阶段检测)研究线性回归模型时,若成对数据所对应的点均在直线上,则线性相关系数为( )
A.1 B. C.2 D.
【变式1-3】(2026·四川·模拟预测)对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是( )
A. B.
C. D.
题型二:一元线性回归分析
【典例2-1】新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入x(亿元)与产品收益y(亿元)的数据统计如下:
研发投入x(亿元)
1
2
3
4
5
产品收益y(亿元)
3
7
9
10
11
(1)计算x,y的相关系数r,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)
(2)求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.
参考数据:,,.
附:相关系数公式:,回归直线方程的斜率,截距.
【典例2-2】(2026·河北·三模)某创业者计划开设一家咖啡店,他从本市已开业的15家规模相似的咖啡店中收集了以下数据:x表示周边一公里内日均人流量(千人);y表示日均销售额(百元).
x
4.2
5.2
5.2
6.2
6.2
6.2
5.2
7.2
9.2
8.2
8.2
8.2
9.2
9.2
10.2
y
34
38
40
40
46
52
42
52
54
47
58
69
64
74
70
经计算得
(1)求y关于x的线性回归方程;
(2)预测x=8时,y的估计值y₀;
(3)计算变量x和y的样本相关系数r.
附:最小二乘估计公式分别为:
样本相关系数
【变式2-1】(2026·江苏·模拟预测)近年来某用户保持连续增长,若李明收集了年的年份代码与该在线用户数(单位:万)的数据,具体如下表所示:
年份代码
在线用户数(单位:万)
(1)求样本相关系数(精确到小数点后两位),并判断变量与之间的线性相关关系的强弱;
(2)从年中随机抽取三个不同年份所对应的在线用户数据,记最小的数据为,求的分布列及数学期望.
注:样本相关系数.
【变式2-2】(2026·江西抚州·模拟预测)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标(单位:)随给药剂量(单位:)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ii)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;
经验回归方程中斜率和截距的最小二乘估计公式分别为,
【变式2-3】(2026·四川成都·三模)2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
题型三:非线性回归分析
【典例3-1】(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
【典例3-2】(2026·高三·湖北咸宁·阶段检测)蝗虫会对农作物造成严重伤害,每只蝗虫的平均产卵数和平均温度有关.现收集到一只蝗虫的产卵数(单位:个)和温度(单位:)的8组观测数据,制成图1所示的散点图.现用两种模型:①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
整理收集到的数据,得到下表:
24
2.9
646
168
422688
50.4
70308
表中
(1)根据残差图,模型 (填“①”或“②”)的拟合效果更好,说明理由.根据所选的模型,利用上表中的数据,求出关于的回归方程.
(2)据统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年内恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
【变式3-1】(2026·辽宁沈阳·三模)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
【变式3-2】为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【变式3-3】脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
题型四:独立性检验问题
【典例4-1】(2026·高三·云南楚雄·阶段检测)某校为调查学生对“大语言模型”的了解程度,随机抽取70名男生和30名女生参加“大语言模型”相关知识问卷调查(满分100分),若分数为80分及以上的为了解,其他为不了解,统计并得到如下列联表:
男生
女生
合计
了解
50
15
65
不了解
20
15
35
合计
70
30
100
(1)根据小概率值的独立性检验,能否认为对“大语言模型”的了解程度与性别有关联?
(2)从样本中的70名男生中,按对“大语言模型”的了解程度,通过分层随机抽样抽取7人,再从这7人中抽取2人进行调研,记抽出的2人中对“大语言模型”了解的人数为,求的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【典例4-2】(2026·贵州毕节·三模)“阳光杯”中学生篮球联赛是毕节市威宁自治县极具本土特色的体育赛事,赛事深度融合威宁多民族文化与高原风情,是当地群众最喜爱的体育赛事之一.威宁县某中学为了研究不同性别的学生对该赛事的了解情况,进行了一次抽样调查,随机抽取该校男生和女生各80名作为样本.设事件“了解‘阳光杯’中学生篮球联赛”,“学生为女生”,已知,.
(1)完成下列列联表,并依据的独立性检验,能否认为该校学生对“阳光杯”中学生篮球联赛的了解情况与性别有关联?
了解
不了解
合计
男生
女生
合计
(2)现从该样本不了解“阳光杯”中学生篮球联赛的学生中,采用分层随机抽样的方法抽取10名学生,再从这10名学生中随机抽取2人,设抽取的2人中男生的人数为X,求X的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式4-1】(2026·河南驻马店·三模)某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
【变式4-2】(2026·辽宁·模拟预测)某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
【变式4-3】(2026·高三·甘肃白银·期中)为研究大学生使用AI学习工具的情况与自主思考能力是否有关联,随机调查某校100名大学生,数据如下:
单位:人
使用AI学习工具的情况
自主思考能力
合计
强
一般
经常使用
22
28
50
不经常使用
34
16
50
合计
56
44
100
(1)依据小概率值的独立性检验,分析大学生使用AI学习工具的情况是否与自主思考能力有关.
(2)小余之前从未使用过AI学习工具,他计划开始尝试使用AI学习工具进行学习,他在第天使用AI学习工具的概率为,设每天是否使用AI学习工具进行学习相互独立.设小余前3天中使用AI学习工具进行学习的天数为,求的分布列.
参考公式:.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.841
10.828
1.(25-26高三·全国·一轮复习)为了研究性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握至少为( )
0.01
0.005
0.001
6.635
7.879
10.828
A. B. C. D.
2.(2026·天津和平·三模)以下说法不正确的是( )
A.样本数据1,1,1,3,3,3的极差为2,标准差为1
B.对具有线性相关关系的变量,,其经验回归方程为,若样本数据的中心点为,则实数的值为2
C.对一个容量为的总体,抽取容量为的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,三种方法的总体中每个个体被抽中的概率均相等
D.根据分类变量与的成对样本数据,计算得到,则依据的独立性检验,可以认为“与无关联”
3.(2026·河北沧州·二模)某校研究性学习小组收集了某地区近几年的某种经济指标与年份的数据,经计算得经验回归方程为.若年该经济指标的实际值为,则残差为( )
A. B. C. D.
4.(2026·上海浦东新·三模)下列命题中不正确的是( )
A.线性回归方程对应的直线一定经过样本点的中心
B.线性回归方程对应的直线至少经过其样本数据点中的一个点
C.线性回归方程为时,变量与具有负的线性相关关系
D.用最小二乘法求回归方程是为了使最小
5.(2026·天津北辰·二模)下列说法正确的是( )
A.一组数据2,3,8,3,10,18,7,4的第50百分位数为4
B.在残差图中,残差点所在的水平带状区域越宽,回归方程的预报精确度越高
C.设且,则
D.根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不大于0.05
6.(2026·湖南·三模)已知变量x和变量y的一组样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,则在新的回归直线方程的估计下,样本数据所对应的残差为(残差=观察值-估计值)求重新得到的回归直线方程斜率为( )
A. B. C. D.
7.(2026·天津南开·二模)下列说法中,正确的是( )
A.将一组数据中的每一个数据加上同一个正数后,方差变大
B.在回归分析中,为0.98的模型比为0.99的模型拟合的效果更好
C.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越低
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过0.05
8.(2026·天津河北·一模)以下结论错误的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系
B.在回归直线中,变量时,变量y的值一定是15
C.的值越大,两个事件的相关性的可能性就越大
D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好
9.(多选题)(2026·云南曲靖·模拟预测)下列说法正确的是( )
A.若随机变量,则
B.若事件,相互独立,则
C.若样本数据,,,的方差为2,则数据,,,的方差为5
D.用相关指数刻画回归效果,越接近1,说明回归模型的拟合效果越好
10.(多选题)(2026·重庆·三模)下列说法正确的是( )
A.随机变量,则方差
B.2,4,5,7,8,11,15,18的上四分位数是13
C.用1,2,3,4,5,6组成六位数(没有重复数字),在任意相邻两个数字的奇偶性不同的条件下,1和2相邻的概率是
D.对具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,对于样本点对应的残差为
11.(多选题)(2026·甘肃兰州·模拟预测)某智能机器人公司从2019年起连续7年的利润情况如表所示,若关于的经验回归方程为,则( )
第年
1
2
3
4
5
6
7
利润亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.变量与负相关 B.
C.当时,残差为 D.预测当时,利润约为亿元
12.(2026·江苏徐州·模拟预测)将某数学博主1—4月份的粉丝量y整理成如下表格,根据表中数据求出z关于x的经验回归方程为,则预测该数学博主6月末的粉丝量约为______.
月份x
1
2
3
4
粉丝量y
13.(2026·陕西渭南·模拟预测)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
14.(2026·山东滨州·二模)已知变量和变量的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,经重新计算得到新回归直线的斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为__________.(残差观测值预测值)
15.(2026·江苏南通·三模)为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________.
16.(2026·河南·模拟预测)某农业科研团队为探究大棚蔬菜的光照时长对产量的影响,选取5组不同的光照时长方案,在相同种植条件下开展试验,统计对应时长下的蔬菜合格采收量,得到如下数据:
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
(1)求变量与的样本相关系数,判断是否适合线性回归模型拟合,如果适合,求关于的经验回归方程;
(2)当样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,现从这5组数据中任取3组做残差分析,求取到异常拟合数据的组数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
17.(2026·河南开封·模拟预测)某团队为探究大语言模型参数量与模型性能之间的关系,训练了6个不同参数量的模型,并在同一验证集上评估性能得分,得到如下统计数据:
参数量x(亿)
2
4
6
8
10
12
性能得分y(分)
1.8
2.8
3.4
3.6
3.8
4.0
(1)求y关于x的线性回归方程(系数用分数表示),并预测参数量为14亿时,模型的性能得分;
(2)该团队比较了100次实验的实际性能与预测性能,得到“高效”(实际得分≥预测得分)和“低效”(实际得分<预测得分)两种效率组别.同时,他们记录了每次实验所用的训练数据质量等级(优质/普通),得到如下列联表:
训练数据质量等级
训练效率
总计
高效
低效
优质
42
18
60
普通
18
22
40
总计
60
40
100
请依据小概率值的独立性检验,分析训练效率是否与训练数据质量有关.
附:,,,.
.
0.05
0.01
0.001
3.841
6.635
10.828
18.(25-26高三·全国·一轮复习)中国共产党第二十次全国代表大会上的报告中提到,新时代十年我国经济实力实现历史性跃升,国内生产总值从54万亿元增长到114万亿元,我国经济总量稳居世界第二位.建立年份编号为解释变量,地区生产总值为响应变量的一元线性回归模型,现就2012—2016某市的地区生产总值统计如下:
年份
2012
2013
2014
2015
2016
年份编号
1
2
3
4
5
地区生产总值(亿元)
2.8
3.1
3.9
4.6
5.6
(1)求出经验回归方程,并计算2016年地区生产总值的残差;
(2)随着我国打赢了人类历史上规模最大的脱贫攻坚战,该市2017-2022的地区生产总值持续增长,现对这11年的数据有三种经验回归模型,,,它们的分别为和,请根据的数值选择最好的回归模型预测一下2024年该市的地区生产总值;
(3)若2012-2022该市的人口数(单位:百万)与年份编号的回归模型为,结合(2)问中的最佳模型,预测一下在2023年以后,该市人均地区生产总值的变化趋势.
参考公式:,.
19.(2026·浙江·二模)睡眠是人体生理活动的基本阶段,良好的睡眠质量能够保证身体健康、增强免疫力、提高工作和学习的效率.某科研小组为了研究平均每天使用电子产品的时间(单位:h)对睡眠质量的影响,对100位志愿者平均每天使用电子产品的时间和睡眠质量进行了调研,并统计得到了如下表格:
轻度睡眠障碍人数
1
2
3
1
2
重度睡眠障碍人数
4
3
6
4
4
睡眠质量良好人数
25
25
11
5
4
总人数
30
30
20
10
10
(1)由表中的数据求这100人平均每天使用电子产品时间的估计值(同一组中的数据用该组区间的中点值代表);
(2)从这100人中随机抽取一人,求此人在轻度睡眠障碍的前提下,平均每天使用电子产品的时间在内的概率;
(3)若平均每天使用电子产品的时间大于等于4小时为超标.按所给数据,完成下面列联表,并根据小概率值的独立性检验,能否认为睡眠质量与平均每天使用电子产品的时间有关.
睡眠质量
平均每天使用电子产品的时间
合计
超标
不超标
良好
障碍(包括轻度和重度)
合计
100
附:,
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
27/27
学科网(北京)股份有限公司
$
9.6 成对数据的统计分析
目录
01 课标要求 2
02 落实主干知识 3
知识点一、变量间的相关关系 3
知识点二、线性回归 4
知识点三、非线性回归 4
知识点四、独立性检验 5
03 探究核心题型 7
题型一:变量的相关性 7
题型二:一元线性回归分析 9
题型三:非线性回归分析 14
题型四:独立性检验问题 21
04 课时精练 27
1、了解样本相关系数的统计含义.
2、了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3、会利用统计软件进行数据分析.
知识点一、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
知识点二、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
知识点三、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1、建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
知识点四、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
题型一:变量的相关性
【典例1-1】(2026·天津滨海新区·三模)对四组数据进行统计获得如下散点图并对其相关系数进行比较,正确的是( )
A. B.
C. D.
【答案】B
【解析】由给定的四组数据的散点图可以看成:
图(1)和图(3)是正相关,且图(1)中的数据更加集中,更接近,所以;
图(2)和图(4)是负相关,且图(2)中的数据更加集中,更接近,所以,
综上可得,.
【典例1-2】5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
【答案】D
【解析】对于A,从数据看随的增加而增加,所以变量与正相关,故A正确;
对于B,由表中数据知,,,
可得样本中心点为,将样本中心点代入中,
得到,故B正确;
对于C,当时该商场5G手机销量约为(千只),故C正确;
对于D,经验回归方程为,所以,
则残差为,故D错误.
【变式1-1】(2026·上海静安·三模)观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
【答案】A
【解析】①分析图1的相关系数观察图1,散点图中的点大致分布在从左上到右下的带状区域内;
随着的增大,总体呈减小趋势,根据相关系数的定义,
两个变量呈负相关,故;
②分析图2的相关系数观察图2,散点图中的点大致分布在从左下到右上的带状区域内;
随着的增大,总体呈增大趋势;
根据相关系数的定义,两个变量呈正相关,故;
此外,观察图2中点的分布比图1更紧密地围绕在一条直线附近,
说明图2的线性相关性更强,即
选项,已知且,且,故 成立;
选项,因为且,所以,故选项B错误;
选项,因为且,则,选项C错误;
选项,因为且,则,显然不可能大于1,故选项D错误.
【变式1-2】(2026·高三·上海徐汇·阶段检测)研究线性回归模型时,若成对数据所对应的点均在直线上,则线性相关系数为( )
A.1 B. C.2 D.
【答案】B
【解析】所有样本点都在直线上,是完全线性相关.
斜率为负,属于完全负相关,所以线性相关系数.
【变式1-3】(2026·四川·模拟预测)对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是( )
A. B.
C. D.
【答案】A
【解析】由图1和图2可得,随的增大而增大,随的增大而减小,
所以,所以,故B正确;
因为图1的数据点比图2的更集中,所以,
所以,,故A错误,C正确;
,故D正确.
题型二:一元线性回归分析
【典例2-1】新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入x(亿元)与产品收益y(亿元)的数据统计如下:
研发投入x(亿元)
1
2
3
4
5
产品收益y(亿元)
3
7
9
10
11
(1)计算x,y的相关系数r,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)
(2)求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.
参考数据:,,.
附:相关系数公式:,回归直线方程的斜率,截距.
【解析】(1)∵,,,
∴,
∴该中医药企业的研发投入x与产品收益y具有较高的线性相关程度.
(2)∵,
,
∴.
∴y关于x的线性回归方程为,
将代入线性回归方程可得,,
∴预测研发投入20(亿元)时产品的收益为40.3(亿元).
【典例2-2】(2026·河北·三模)某创业者计划开设一家咖啡店,他从本市已开业的15家规模相似的咖啡店中收集了以下数据:x表示周边一公里内日均人流量(千人);y表示日均销售额(百元).
x
4.2
5.2
5.2
6.2
6.2
6.2
5.2
7.2
9.2
8.2
8.2
8.2
9.2
9.2
10.2
y
34
38
40
40
46
52
42
52
54
47
58
69
64
74
70
经计算得
(1)求y关于x的线性回归方程;
(2)预测x=8时,y的估计值y₀;
(3)计算变量x和y的样本相关系数r.
附:最小二乘估计公式分别为:
样本相关系数
【解析】(1) ,
因为样本中心点在回归直线上,所以 ,
所以关于的线性回归方程为 .
(2)当时,的估计值 .
(3).
【变式2-1】(2026·江苏·模拟预测)近年来某用户保持连续增长,若李明收集了年的年份代码与该在线用户数(单位:万)的数据,具体如下表所示:
年份代码
在线用户数(单位:万)
(1)求样本相关系数(精确到小数点后两位),并判断变量与之间的线性相关关系的强弱;
(2)从年中随机抽取三个不同年份所对应的在线用户数据,记最小的数据为,求的分布列及数学期望.
注:样本相关系数.
【解析】(1)
,
,
,
,
,
接近1,
变量与高度线性相关.
(2)表示抽取的三个数据的最小值,可能取值为,
从5个数据中任取3个,共种,
时,含的组合数为种,故;
时,不含,含的组合数为种,故;
时,不含,不含,含的组合数为种,故;
的分布列为:
数学期望.
【变式2-2】(2026·江西抚州·模拟预测)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标(单位:)随给药剂量(单位:)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ii)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;
经验回归方程中斜率和截距的最小二乘估计公式分别为,
【解析】(1)模型一拟合效果好.
理由如下:
模型一的残差图中的点更集中地分布于以取值为0的横轴为中心的宽度更窄的水平带状区域内,
说明预测值与真实值偏差更小.
(2)(ⅰ)在中,代入,得,
于是残差为,因此对于模型一中的A点.
(ⅱ),,
.
【变式2-3】(2026·四川成都·三模)2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
【解析】(1)因为,
所以,
所以
,
故可用线性回归模型拟合与的关系;
(2),
则,
则经验回归方程为,
令,则,
故预估2026年我国全口径发电量为(万亿千瓦时)
题型三:非线性回归分析
【典例3-1】(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
【解析】(1)由题意可知:
第1轮:盒子中共有3个小球(2白1黑),
所以成功的概率为,所以失败的概率为;
第2轮:盒子中共有4个小球(3白1黑),
所以成功的概率为,所以失败的概率为;
第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮;
所以,,,
所以的分布列如下:
所以
(2)设,则回归方程为,
因为,,,,,
且,
所以,
所以.
所以回归方程为,
又因为,
所以回归方程为.
【典例3-2】(2026·高三·湖北咸宁·阶段检测)蝗虫会对农作物造成严重伤害,每只蝗虫的平均产卵数和平均温度有关.现收集到一只蝗虫的产卵数(单位:个)和温度(单位:)的8组观测数据,制成图1所示的散点图.现用两种模型:①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
整理收集到的数据,得到下表:
24
2.9
646
168
422688
50.4
70308
表中
(1)根据残差图,模型 (填“①”或“②”)的拟合效果更好,说明理由.根据所选的模型,利用上表中的数据,求出关于的回归方程.
(2)据统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年内恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
【解析】(1)①理由如下:模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状区域宽度窄,所以模型①的拟合效果更好.
令,则,,
所以,
因此关于的线性回归方程为,
所以产卵数关于温度的回归方程为.
(2)①由题意得,,
所以
令,得,
故当时,单调递增;
当时,单调递减.
所以取得最大值时对应的概率.
②由①知,当时,,即每年需要人工防治的概率为,
且服从二项分布.所以,
.
【变式3-1】(2026·辽宁沈阳·三模)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
【解析】(1)根据题意,可得,
又由,
所以产量y关于施肥量x的回归方程为,
其中的实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩.
(2)设利润为元/亩,
当且仅当kg/亩时取等,即当施肥量为10kg/亩时利润最大.
【变式3-2】为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【解析】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
【变式3-3】脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【解析】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
题型四:独立性检验问题
【典例4-1】(2026·高三·云南楚雄·阶段检测)某校为调查学生对“大语言模型”的了解程度,随机抽取70名男生和30名女生参加“大语言模型”相关知识问卷调查(满分100分),若分数为80分及以上的为了解,其他为不了解,统计并得到如下列联表:
男生
女生
合计
了解
50
15
65
不了解
20
15
35
合计
70
30
100
(1)根据小概率值的独立性检验,能否认为对“大语言模型”的了解程度与性别有关联?
(2)从样本中的70名男生中,按对“大语言模型”的了解程度,通过分层随机抽样抽取7人,再从这7人中抽取2人进行调研,记抽出的2人中对“大语言模型”了解的人数为,求的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【解析】(1)零假设:对“大语言模型”的了解程度与性别无关联.
根据表中数据,计算得到,
根据小概率值的独立性检验,推断不成立,所以认为对“大语言模型”的了解程度与性别有关联.
(2)由题知抽取的7名男生中,对“大语言模型”了解的有人,
对“大语言模型”不了解的有人,
则再从这7人中选取2人,的可能取值为,
,
所以的分布列为
0
1
2
数学期望.
【典例4-2】(2026·贵州毕节·三模)“阳光杯”中学生篮球联赛是毕节市威宁自治县极具本土特色的体育赛事,赛事深度融合威宁多民族文化与高原风情,是当地群众最喜爱的体育赛事之一.威宁县某中学为了研究不同性别的学生对该赛事的了解情况,进行了一次抽样调查,随机抽取该校男生和女生各80名作为样本.设事件“了解‘阳光杯’中学生篮球联赛”,“学生为女生”,已知,.
(1)完成下列列联表,并依据的独立性检验,能否认为该校学生对“阳光杯”中学生篮球联赛的了解情况与性别有关联?
了解
不了解
合计
男生
女生
合计
(2)现从该样本不了解“阳光杯”中学生篮球联赛的学生中,采用分层随机抽样的方法抽取10名学生,再从这10名学生中随机抽取2人,设抽取的2人中男生的人数为X,求X的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【解析】(1)由题意,,
可知“了解‘阳光杯’中学生篮球联赛”的女生有人,则不了解联赛的女生有60人
“了解‘阳光杯’中学生篮球联赛”的男生有 人,则不了解联赛的男生有40人.
所以
了解
不了解
合计
男生
40
40
80
女生
20
60
80
合计
60
100
160
零假设:该校学生对“阳光杯”赛事的了解情况与性别无关.
依题意,
则,
依据的独立性检验,推断不成立,所以认为该校学生对“阳光杯”赛事的了解情况与性别有关联.
(2)由(1)知,抽取的10名学生中,男生有4人,女生有6人.
可能的取值为0,1,2
则,,
X的分布列为
X
0
1
2
P
数学期望
【变式4-1】(2026·河南驻马店·三模)某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
【解析】(1)由题得如下列联表:
抗病株数
易感病株数
合计
实验组
38
12
50
对照组
25
25
50
合计
63
37
100
零假设:小麦抗锈病与接受基因编辑处理无关联.
由列联表的数据,得,
依据小概率值的独立性检验,我们推断不成立,可以认为该小麦抗锈病与接受基因编辑处理有关联.
(2)由题意,估计经过基因编辑处理的单株小麦抗锈病的概率为,
由题知,
故其分布列为,
所以
【变式4-2】(2026·辽宁·模拟预测)某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
【解析】(1)由题得如下2×2列联表:
抗病株数
易感病株数
合计
实验组
38
12
50
对照组
25
25
50
合计
63
37
100
零假设:小麦抗锈病与接受基因编辑处理无关联.
由列联表的数据,得,
依据小概率值的独立性检验,我们推断不成立,可以认为该小麦抗锈病与接受基因编辑处理有关联.
(2)由题意,估计经过基因编辑处理的单株小麦抗锈病的概率为,
随机变量的可能取值为,,,…,,
由题知,
所以,
.
【变式4-3】(2026·高三·甘肃白银·期中)为研究大学生使用AI学习工具的情况与自主思考能力是否有关联,随机调查某校100名大学生,数据如下:
单位:人
使用AI学习工具的情况
自主思考能力
合计
强
一般
经常使用
22
28
50
不经常使用
34
16
50
合计
56
44
100
(1)依据小概率值的独立性检验,分析大学生使用AI学习工具的情况是否与自主思考能力有关.
(2)小余之前从未使用过AI学习工具,他计划开始尝试使用AI学习工具进行学习,他在第天使用AI学习工具的概率为,设每天是否使用AI学习工具进行学习相互独立.设小余前3天中使用AI学习工具进行学习的天数为,求的分布列.
参考公式:.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.841
10.828
【解析】(1)零假设为:大学生使用AI学习工具的情况与自主思考能力无关.
,
根据小概率值的独立性检验,我们推断不成立,
即认为大学生使用AI学习工具的情况与自主思考能力有关.
(2)的可能取值为,
,
,
,
,
故的分布列为
0
1
2
3
1.(25-26高三·全国·一轮复习)为了研究性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握至少为( )
0.01
0.005
0.001
6.635
7.879
10.828
A. B. C. D.
【答案】C
【解析】因为,所以有的把握认为“性别与喜欢乡村音乐有关系”.
2.(2026·天津和平·三模)以下说法不正确的是( )
A.样本数据1,1,1,3,3,3的极差为2,标准差为1
B.对具有线性相关关系的变量,,其经验回归方程为,若样本数据的中心点为,则实数的值为2
C.对一个容量为的总体,抽取容量为的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,三种方法的总体中每个个体被抽中的概率均相等
D.根据分类变量与的成对样本数据,计算得到,则依据的独立性检验,可以认为“与无关联”
【答案】D
【解析】对于A,在样本数据1,1,1,3,3,3中,最大值是3,最小值是1,所以极差为.
样本数据的平均数为,则标准差,所以选项A正确.
对于B,已知经验回归方程为,样本数据的中心点为,
因为样本数据的中心点为一定在经验回归方程上,所以,则,所以选项B正确.
对于C,简单随机抽样、系统抽样和分层抽样都是等概率抽样,即总体中每个个体被抽中的概率均为,所以选项C正确.
对于D,已知,依据的独立性检验,
当时,我们有的把握认为“与有关联”,所以选项D错误.
3.(2026·河北沧州·二模)某校研究性学习小组收集了某地区近几年的某种经济指标与年份的数据,经计算得经验回归方程为.若年该经济指标的实际值为,则残差为( )
A. B. C. D.
【答案】D
【解析】由经验回归方程为得:
预测值,
残差实际值预测值.
4.(2026·上海浦东新·三模)下列命题中不正确的是( )
A.线性回归方程对应的直线一定经过样本点的中心
B.线性回归方程对应的直线至少经过其样本数据点中的一个点
C.线性回归方程为时,变量与具有负的线性相关关系
D.用最小二乘法求回归方程是为了使最小
【答案】B
【解析】对于A,线性回归直线一定经过样本点的中心,故A正确;
对于B,线性回归直线是样本点的‘最佳’拟合直线,可能不经过任何一个样本点,故B错误;
对于C,线性回归直线中的系数为,
则变量与具有负的线性相关关系,故C正确:
对于D,最小二乘法的核心思想就是通过寻找最佳的回归系数,
使得所有的观测值与回归直线上的预测值之间的残差平方和达到最小,
数学表达式是,故D正确.
5.(2026·天津北辰·二模)下列说法正确的是( )
A.一组数据2,3,8,3,10,18,7,4的第50百分位数为4
B.在残差图中,残差点所在的水平带状区域越宽,回归方程的预报精确度越高
C.设且,则
D.根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不大于0.05
【答案】D
【解析】将这一组数据2,3,8,3,10,18,7,4按照从小到大排序得:2,3,3,4,7,8,10,18.
因则50百分位数为第4位和第5位的平均数,即,故A错误.
在残差图中,残差点所在的水平带状区域越窄,回归方程的预报精确度越高,故B错误.
因,则故C错误.
因故判断X与Y有关联,此推断犯错误的概率不大于0.05,故D正确.
6.(2026·湖南·三模)已知变量x和变量y的一组样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,则在新的回归直线方程的估计下,样本数据所对应的残差为(残差=观察值-估计值)求重新得到的回归直线方程斜率为( )
A. B. C. D.
【答案】B
【解析】∵,∴增加两个样本数据后的平均数为;
∵,∴.∴增加两个样本数据后的平均数为,
∴设重新得到的回归方程为,则当时,,又,解得.
7.(2026·天津南开·二模)下列说法中,正确的是( )
A.将一组数据中的每一个数据加上同一个正数后,方差变大
B.在回归分析中,为0.98的模型比为0.99的模型拟合的效果更好
C.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越低
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过0.05
【答案】D
【解析】将一组数据中的每一个数据加上同一个正数后,数据相对平均值的波动情况无变化,方差不变,故A错误;
由越接近1,模型拟合效果越好,知B错误;
若残差点所在的水平带状区域越窄,说明残差的波动越小,回归方程对数据的拟合精度越高,进而回归方程的预报精确度也越高(而非越低),故C错误;
因为,所以判断与有关联,此推断犯错误的概率不超过0.05,故D正确.
8.(2026·天津河北·一模)以下结论错误的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系
B.在回归直线中,变量时,变量y的值一定是15
C.的值越大,两个事件的相关性的可能性就越大
D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好
【答案】B
【解析】对于选项A:,故根据小概率值的独立性检验,认为两个分类变量有关系,即A正确:
对于选项B,回归直线方程中,当变量等于200时,的值平均是15,不能说一定是15,故B错误;
对于选项C:越大,“与有关系”可信程度越大,即相关性的可能性就越大,即C正确;
对于选项D:在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好,即D正确.
9.(多选题)(2026·云南曲靖·模拟预测)下列说法正确的是( )
A.若随机变量,则
B.若事件,相互独立,则
C.若样本数据,,,的方差为2,则数据,,,的方差为5
D.用相关指数刻画回归效果,越接近1,说明回归模型的拟合效果越好
【答案】AD
【解析】对于A:因随机变量,则,
由正态曲线的对称性可得,故A正确;
对于B:由事件,相互独立,可知,对于随机事件,,
都有,
故仅当,互斥时,才有,故该结论不成立,即B错误;
对于C,由题意,,,
对于数据,,,,
其均值为,
其方差为,故C错误;
对于D,相关指数越接近1,值越大,残差平方和接近0,值越小,
则该回归模型的拟合效果越好,故D正确.
10.(多选题)(2026·重庆·三模)下列说法正确的是( )
A.随机变量,则方差
B.2,4,5,7,8,11,15,18的上四分位数是13
C.用1,2,3,4,5,6组成六位数(没有重复数字),在任意相邻两个数字的奇偶性不同的条件下,1和2相邻的概率是
D.对具有线性相关关系的变量,,其线性回归方程为,若样本点的中心为,对于样本点对应的残差为
【答案】BCD
【解析】A:由题设,则,错,
B:由题设,数据从小到大排序知上四分位数是,对,
C:将中任意相邻两个数字的奇偶性不同的六位数,
有两种情况:奇偶奇偶奇偶、偶奇偶奇偶奇,所以共有种,
其中相邻的情况,如:“奇偶奇偶奇偶”的排列,
共有奇偶相邻对有5个,将安排到其中一个,
再把中的奇数、偶数分别安排到余下的4个位置,
所以共有种,
同理“偶奇偶奇偶奇”的情况也有20种,故共有40种,
综上,在任意相邻两个数字的奇偶性不同的条件下,1和2相邻的概率是,对,
D:由题意,可得,则,
当,则,则残差为,对.
11.(多选题)(2026·甘肃兰州·模拟预测)某智能机器人公司从2019年起连续7年的利润情况如表所示,若关于的经验回归方程为,则( )
第年
1
2
3
4
5
6
7
利润亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.变量与负相关 B.
C.当时,残差为 D.预测当时,利润约为亿元
【答案】BC
【解析】对于A,由数据知,随的增大而增大,所以变量与正相关,故A错误;
对于B,,,
由经验回归直线过样本中心点,得,解得,故B正确;
对于C,结合B得,当时,,则残差为,故C正确;
对于D,结合B得,当时,,故D错误.
12.(2026·江苏徐州·模拟预测)将某数学博主1—4月份的粉丝量y整理成如下表格,根据表中数据求出z关于x的经验回归方程为,则预测该数学博主6月末的粉丝量约为______.
月份x
1
2
3
4
粉丝量y
【答案】
【解析】因为,所以当时,,
所以,解得.
故预测该数学博主6月末的粉丝量约为
13.(2026·陕西渭南·模拟预测)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
【答案】
【解析】因为,,所以,
则
14.(2026·山东滨州·二模)已知变量和变量的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,经重新计算得到新回归直线的斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为__________.(残差观测值预测值)
【答案】/
【解析】由题意得,,
则,,
当增加两个样本数据和后,
变量的平均数为,变量的平均数为,
因为新回归直线的斜率为3,所以可设其方程为,
将代入得,则,
令,则,则样本数据所对应的残差为.
15.(2026·江苏南通·三模)为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________.
【答案】 /
【解析】由,且,即有的把握认为二者存在关联,
由题设,则,
所以随机抽取一名学生,其成绩达标的概率为.
16.(2026·河南·模拟预测)某农业科研团队为探究大棚蔬菜的光照时长对产量的影响,选取5组不同的光照时长方案,在相同种植条件下开展试验,统计对应时长下的蔬菜合格采收量,得到如下数据:
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
(1)求变量与的样本相关系数,判断是否适合线性回归模型拟合,如果适合,求关于的经验回归方程;
(2)当样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,现从这5组数据中任取3组做残差分析,求取到异常拟合数据的组数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
【解析】(1)由已知,得,
,
所以,
所以.
因为,说明与的线性相关性很强,所以适合线性回归模型拟合.
因为,
,
所以关于的经验回归方程为.
(2)由(1)知,.
因为样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,
所以5组数据的残差绝对值及数据状态如下表所示.
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
预测值
3.6
9.2
14.8
20.4
26
残差的绝对值
0.4
1.2
1.2
0.4
0
是否为异常拟合数据
否
是
是
否
否
由表可知,异常拟合数据有2组,非异常拟合数据有3组,
所以从这5组数据中任取3组,异常拟合数据的组数的所有可能取值为0,1,2.
则,,,
所以的分布列为:
0
1
2
则的数学期望.
17.(2026·河南开封·模拟预测)某团队为探究大语言模型参数量与模型性能之间的关系,训练了6个不同参数量的模型,并在同一验证集上评估性能得分,得到如下统计数据:
参数量x(亿)
2
4
6
8
10
12
性能得分y(分)
1.8
2.8
3.4
3.6
3.8
4.0
(1)求y关于x的线性回归方程(系数用分数表示),并预测参数量为14亿时,模型的性能得分;
(2)该团队比较了100次实验的实际性能与预测性能,得到“高效”(实际得分≥预测得分)和“低效”(实际得分<预测得分)两种效率组别.同时,他们记录了每次实验所用的训练数据质量等级(优质/普通),得到如下列联表:
训练数据质量等级
训练效率
总计
高效
低效
优质
42
18
60
普通
18
22
40
总计
60
40
100
请依据小概率值的独立性检验,分析训练效率是否与训练数据质量有关.
附:,,,.
.
0.05
0.01
0.001
3.841
6.635
10.828
【解析】(1)由题意可得,n=6,,,
又因为,,所以根据公式计算回归系数可得:
,
,
所以,关于的线性回归方程为: ,
当参数量亿时,代入可得: ,
即预测参数量为14亿时,模型性能得分约为分(或分).
(2)零假设:训练效率与训练数据质量无关,根据列联表可得:
,,,,,
所以卡方统计量为,
因为对应的临界值为,,所以拒绝,
依据的独立性检验,认为训练效率与训练数据质量有关.
18.(25-26高三·全国·一轮复习)中国共产党第二十次全国代表大会上的报告中提到,新时代十年我国经济实力实现历史性跃升,国内生产总值从54万亿元增长到114万亿元,我国经济总量稳居世界第二位.建立年份编号为解释变量,地区生产总值为响应变量的一元线性回归模型,现就2012—2016某市的地区生产总值统计如下:
年份
2012
2013
2014
2015
2016
年份编号
1
2
3
4
5
地区生产总值(亿元)
2.8
3.1
3.9
4.6
5.6
(1)求出经验回归方程,并计算2016年地区生产总值的残差;
(2)随着我国打赢了人类历史上规模最大的脱贫攻坚战,该市2017-2022的地区生产总值持续增长,现对这11年的数据有三种经验回归模型,,,它们的分别为和,请根据的数值选择最好的回归模型预测一下2024年该市的地区生产总值;
(3)若2012-2022该市的人口数(单位:百万)与年份编号的回归模型为,结合(2)问中的最佳模型,预测一下在2023年以后,该市人均地区生产总值的变化趋势.
参考公式:,.
【解析】(1)由数据,,
,
而,,
所以,则,综上,经验回归方程为,
当时,,故2016年地区生产总值残差为;
(2)根据决定系数越大拟合越好,由于,故模型较好,
因2024年对应,则亿元;
(3)设该市人均地区生产总值为,
,
令,且,
若,所以,
而,,则0,故,
所以在上递增,则在上递增,
所以该市人均地区生产总值逐年递增.
19.(2026·浙江·二模)睡眠是人体生理活动的基本阶段,良好的睡眠质量能够保证身体健康、增强免疫力、提高工作和学习的效率.某科研小组为了研究平均每天使用电子产品的时间(单位:h)对睡眠质量的影响,对100位志愿者平均每天使用电子产品的时间和睡眠质量进行了调研,并统计得到了如下表格:
轻度睡眠障碍人数
1
2
3
1
2
重度睡眠障碍人数
4
3
6
4
4
睡眠质量良好人数
25
25
11
5
4
总人数
30
30
20
10
10
(1)由表中的数据求这100人平均每天使用电子产品时间的估计值(同一组中的数据用该组区间的中点值代表);
(2)从这100人中随机抽取一人,求此人在轻度睡眠障碍的前提下,平均每天使用电子产品的时间在内的概率;
(3)若平均每天使用电子产品的时间大于等于4小时为超标.按所给数据,完成下面列联表,并根据小概率值的独立性检验,能否认为睡眠质量与平均每天使用电子产品的时间有关.
睡眠质量
平均每天使用电子产品的时间
合计
超标
不超标
良好
障碍(包括轻度和重度)
合计
100
附:,
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【解析】(1)设这100人平均每天使用电子产品时间的估计值为,
则,
所以这100人平均每天使用电子产品时间的估计值为3.8小时.
(2)设:此人轻度睡眠障碍;:此人平均每天使用电子产品的时间在内,
则,,
所以.
(3)由表中数据得列联表如下:
睡眠质量
平均每天使用电子产品的时间
合计
超标
不超标
良好
20
50
70
障碍(包括轻度和重度)
20
10
30
合计
40
60
100
零假设为:睡眠质量与平均每天使用电子产品的时间无关,
根据列联表中的数据,计算得,
根据小概率值的独立性检验,我们推断不成立,
即认为睡眠质量与平均每天使用电子产品的时间有关.
27/27
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。