内容正文:
专题07 成对数据的统计分析(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 散点图与相关性判断 题型02 相关系数r的计算与意义分析
题型03 一元线性回归方程求解与预测 题型04 非线性回归换元求解
题型05 2×2列联表独立性检验解答题 题型06 综合应用(回归 + 独立性检验)
过·分层验收 阶梯实战演练,验收复习成效
核心考点
复习目标
考情规律
成对数据的统计相关性
1. 能准确区分函数关系与相关关系,理解相关关系的非确定性特征
2. 会绘制成对样本数据的散点图,能通过散点图直观判断两个变量的相关类型、方向和强弱
3. 理解样本相关系数r的统计含义,熟记r的取值范围,能根据r值判断线性相关的程度
4. 能通过相关系数的计算与比较,分析多组变量间的相关性差异
1. 题型:以选择题、填空题为主,偶尔出现在解答题的小问中
2. 考查重点:相关关系的辨析、散点图的相关性判断、样本相关系数r的意义与取值
3. 难度:基础题为主,分值约3-5分,常与统计的其他基础知识点结合考查
4. 易错点:混淆相关关系与函数关系、对r值的正负与相关方向的对应关系理解错误
一元线性回归模型
1. 理解一元线性回归模型的含义,了解最小二乘原理,掌握回归模型参数的最小二乘估计方法
2. 熟记回归系数的计算公式,能准确求解回归直线方程,理解回归直线过样本中心点的核心性质
3. 能根据建立的回归模型,对实际问题中的数据进行合理预测与分析
4. 了解残差分析的基本思想,能通过决定系数R²判断模型的拟合效果
5. 掌握非线性回归问题的线性化方法,能通过换元将非线性回归转化为线性回归问题求解
1. 题型:以解答题为主,常结合实际应用场景考查,也会出现在选择题、填空题中
2. 考查重点:回归直线方程的求解、利用回归方程进行预测、样本中心点的应用、非线性回归的线性化处理
3. 难度:中等题为主,分值约5-12分,是本章的核心考查内容,常与概率、统计的其他知识点综合考查
4. 命题趋势:越来越侧重实际应用场景,结合生活、生产中的数据考查回归分析的应用,对计算能力和数据处理能力要求较高
列联表与独立性检验
1. 认识分类变量,能根据实际问题构造2×2列联表,准确填写列联表中的数据
2. 理解独立性检验的基本思想,能正确提出零假设,明确独立性检验的推理逻辑
3. 熟记卡方统计量的计算公式,能准确计算χ²值,会通过临界值表判断两个分类变量是否独立
4. 掌握独立性检验的完整步骤,能规范表述检验结论,解决实际问题中的关联性判断问题
5. 能结合实际场景,利用独立性检验的结果进行科学决策与分析
1. 题型:以解答题为主,常与概率、统计案例结合考查,也会出现在选择题中
2. 考查重点:2×2列联表的构造、卡方统计量的计算、独立性检验的步骤与结论表述
3. 难度:中等题为主,分值约5-10分,是本章的高频考点,常与实际应用场景结合,考查数据分析与逻辑推理能力
4. 易错点:列联表数据填写错误、卡方公式计算错误、对独立性检验的结论理解与表述不规范
知识点01 . 相关关系与散点图
相关关系定义:两个变量存在关联,但并非确定性的函数关系,是统计层面的随机关系。
正相关:自变量x增大,因变量y整体呈增大趋势,散点图整体呈现左下到右上的分布特征。
负相关:自变量x增大,因变量y整体呈减小趋势,散点图整体呈现左上到右下的分布特征。
线性相关:散点密集分布在某一条直线附近,是高考核心考察的相关关系类型。
知识点02 . 样本相关系数r(皮尔逊相关系数)
核心公式:
核心性质:
符号意义: 为正相关, 为负相关;
取值范围:,|r|越接近1,变量线性相关性越强;越接近0,线性相关性越弱;
高频评判阈值(考试通用):
:高度线性相关
:中度线性相关
:弱线性相关或无线性相关
知识点03. 一元线性回归方程(最小二乘法)
回归方程通式:
核心参数公式:
必考核心结论:
回归直线恒过样本中心点,是解题核心突破口;
斜率与相关系数符号完全一致,正负相关同步;
,x、y正相关;,x、y负相关。
知识点04 . 残差与模型拟合效果
残差定义:(真实值减预测值)
残差平方和:,数值越小,模型拟合效果越好;
决定系数R²(核心判据):
R²核心性质:取值,越接近1,拟合精度越高;一元线性回归中,。
知识点05 2×2列联表与独立性检验(卡方检验)
标准2×2列联表
合计
合计
核心假设与公式:
原假设:变量X与Y相互独立(无关联);
卡方统计量公式:
高频临界值(必背):
:99%的把握认为两个变量有关联;
:95%的把握认为两个变量有关联;
:90%的把握认为两个变量有关联;
:无充分证据证明变量有关联。
题型一 散点图与相关性判断
解|题|技|巧
看整体分布趋势,左下到右上为正相关,左上到右下为负相关;散点越集中贴近直线,线性相关性越强,零散无序则相关性弱。
【典例1】.(22-23高二下·上海徐汇·阶段检测)下列关于散点图的说法中,正确的是( )
A.任意给定统计数据,都可以绘制散点图 B.从散点图中可以看出两个量是否具有一定的关系
C.从散点图中可以看出两个量的因果关系 D.从散点图中无法看出数据的分布情况
【典例1】.(2023高二下·上海·期中)如图给出了某种豆类生长枝数y(枝)与时间t(月)的散点图,那么此种豆类生长枝数与时间的关系用下列函数模型近似刻画最好的是( )
A. B. C. D.
【变式1】.(2026·上海闵行·二模)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
【变式2】.(23-24高二上·上海·期末)某市104路公交车上午7:05—8:55时段在起点站每9分钟发一班次.公交公司为了了解早高峰时段各班次上客情况,某日上午7:14—8:35记录了在起点站各班次车辆上客的人数:
发车时刻
7:14
7:23
7:32
7:41
7:50
7:59
8:08
8:17
8:26
8:35
上车乘客数/人
10
13
13
18
17
15
12
9
3
3
请绘制这组成对数据的散点图,并通过观察散点图大致判断客车发车时刻与上车乘客人数之间的相关性.
【变式3】.(23-24高二上·上海·期中)《国家学生体质健康标准(2014年修订)》中,体能监测包含身高、体重、肺活量、50米跑、坐位体前屈、引体向上(女:仰卧起坐)、立定跳远、1000米跑(女:800米跑),据此得到的每项指标都可以按照相应的单项指标评分表进行测量和计分,分别得到相应的数据.
(1)这些数据中的任意两组是否都可以作为成对数据进行相关分析?
(2)依据你的经验,哪两组数据的相关程度可能最高?哪两组数据的相关程度可能最低?如何通过统计方法检验你的判断?
题型二 相关系数r的计算与意义分析
答|题|模|板
根据样本数据计算r,依据r值判断变量相关程度。
【典例1】.(2025·上海徐汇·二模)在研究线性回归模型时,若样本数据所对应的点都在直线上,则两组数据和的线性相关系数为( )
A. B.1 C. D.2
【典例2】.(23-24高二下·上海·期末)下列命题为真命题的有( )个.
①若随机变量的方差为,则;
②对于随机事件A与B,若,则事件A与B独立;
③相关系数越大,两组数据的相关程度越强.
A.0 B.1 C.2 D.3
【典例3】.(24-25高二下·上海·期末)下列关于统计概率知识的判断,则下列结论正确的是( )
①若样本数据,,…,的方差为4,则数据,,…,的标准差为4;
②在研究成对数据的相关关系时,相关关系越强,相关系数越接近于1;
③若事件,满足,则事件与事件相互独立;
④某医院住院的位新冠患者的潜伏天数分别为,则该样本数据的第百分位数为.
A.只有一个正确 B.只有两个正确
C.只有一个错误 D.四个题是错误的
【变式1】.(24-25高二下·上海浦东新·期末)已知线性相关系数r是描述成对数据线性相关程度的统计量,也称为皮尔逊相关系数;一元线性回归分析是基于拟合误差Q取最小值的假设进行的,最终可得回归方程(回归直线).现有5个数据点,小明对它们进行了一元线性回归分析,得到线性相关系数和回归方程,随后发现自己漏掉了一个数据点且恰好.重新计算6个数据点得到线性相关系数和回归方程,对于下面两个说法:
①一定小于 ②与一定重合
则( )
A.①正确②错误 B.①正确②正确 C.①错误②正确 D.①错误②错误
【变式2】.(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【变式3】.(22-23高二下·上海金山·期末)如果两种证券在一段时间内收益数据的相关系数为正数,那么表明( )
A.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
B.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
C.两种证券的收益有同向变动的倾向
D.两种证券的收益有反向变动的倾向
【变式4】.(24-25高二下·上海浦东新·期末)某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
题型三 一元线性回归方程求解与预测
答|题|模|板
给出成对样本数据,求回归方程,利用方程进行数值预测。
【典例1】.(23-24高二下·上海·期末)为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
【典例2】.(24-25高二下·上海浦东新·期末)由表格数据得到的线性回归方程为,则此回归方程在样本点处的离差是_______
x
3
4
5
6
y
2.5
4
4.5
【变式1】.(22-23高二下·上海浦东新·期末)给出下列有关线性回归分析的四个命题,其中为真命题的是( )
A.线性回归直线未必过样本数据点的中心;
B.回归直线就是散点图中经过数据点最多的那条直线;
C.当相关系数时,两个变量正相关;
D.如果两个变量的相关性越强,则相关系数r就越接近于1.
【变式2】.(24-25高二下·上海·期末)一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下,根据表格可得回归方程,则实数的值为__________.
零件数x(个)
2
3
4
5
加工时间y(分钟)
30
a
40
50
【变式3】.(23-24高二下·上海长宁·期末)某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为______度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
【变式4】.(23-24高二下·上海·期末)党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
题型四 非线性回归换元求解
答|题|模|板
变量变形(取对数)→整体换元→求线性回归方程→还原原始变量。
【典例1】.下列命题中正确的是( )
A.将一组数据中的每个数都加上或减去同一个常数后,均值与方差都不变
B.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为
C.在吸烟与患肺病这两个分类变量的计算中,若由独立性检验知,在犯错误率不超过0.05的前提下,认为吸烟与患肺病有关系.若某人吸烟,则他有95%的可能性患肺病
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和
【变式1】.(24-25高二下·上海·期末)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【变式2】.(2023·上海浦东新·期末)为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中)
6
60
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
(i)建立关于的回归方程;
(ii)样本对原点的距离时,金属含量的预报值是多少?
(3)已知该金属在距离原点米时的平均开采成本(单位:元)与关系为,根据(2)的结果回答,为何值时,开采成本最大?
【变式3】.(2023·上海长宁·二模)某地新能源汽车保有量符合阻沛型增长模型,其中为自统计之日起,经过t年后该地新能源汽车保有量、和r为增长系数、M为饱和量.
下表是该地近6年年底的新能源汽车的保有量(万辆)的统计数据:
年份
2018
2019
2020
2021
2022
t
0
1
2
3
4
保有量
9.6
12.9
17.1
23.2
31.4
假设该地新能源汽车饱和量万辆.
(1)若,假设2018年数据满足公式,计算的值(精确到0.01)并估算2023年年底该地新能源汽车保有量(精确到0.1万辆);
(2)设,则与t线性相关.请依据以上表格中相关数据,利用线性回归分析确定和r的值(精确到0.01).
附:线性回归方程中回归系数计算公式如下:.
题型五 2×2列联表独立性检验解答题
答|题|模|板
根据统计表格数据,计算卡方值,判断两个分类变量是否有关联
【典例1】.(21-22高二下·上海浦东新·期末)下列是关于出生男婴与女婴调查的列联表
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么__________.
【典例2】.(22-23高二上·上海虹口·期末)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
则有______%的把握认为男、女顾客对该商场服务的评价______(有或无)差异
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【典例3】.(24-25高二下·上海奉贤·期末)随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到下表(单位:人)
经常网购
偶尔或不用网购
合计
男性
50
100
女性
70
100
合计
(1)完成上表,并根据以上数据判断是否有99%的把握认为我市市民网购与性别有关?
(2)现从所抽取的女市民中利用分层抽样的方法抽取10人,再从这10人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;
参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【典例4】.(23-24高二下·上海·期末)某汽车生产企业对其生产的四款新能源汽车进行市场调研,从购买者中选取50名车主对车辆进行性能评分,每款车都有1分、2分、3分、4分、5分五个等级,各评分的相应人数统计结果如下表所示.
评分款式
1分
2分
3分
4分
5分
基础版
基础版1
2
2
3
1
0
基础版2
4
4
5
3
1
豪华版
豪华版1
1
3
5
4
1
豪华版2
0
0
3
5
3
(1)求这四款车得分的平均数.
(2)约定当得分不小于4时,认为该款车型性能优秀,否则认为性能一般,根据上述样本数据,完成以下2×2列联表,取显著性水平,能否认为汽车的性能与款式有关?说明理由.
汽车性能
汽车款式
合计
基础版
豪华版
一般
优秀
合计
(3)为进一步提升产品品质,现从样本评分不大于2的基础版车主中,随机抽取3人征求意见,设随机变量X表示其中基础版1车主的人数,求X的分布和期望.
附: ;
【典例5】.(24-25高二下·上海·期中)今年某台风在沿海地区登陆,恰逢暑假,小明调查了当地某小区100户居民由于台风造成的经济损失,将收集的数据(单位:元)分成 , 五组,并绘制如下频率分布直方图.
(1)台风过后居委会号召小区居民为重灾区捐款,小明调查的100户居民捐款情况如下表, 在表格空白处填写正确数字, 并说明是否有95%以上的把握认为捐款数额多于或少于500元和自身经济损失是否超过4000元有关?
()
损失不超过 4000
损失超过 4000
合计
捐款超过 500
60
捐款不超过 500
10
合计
(2)将上述调查所得到的频率视为概率,现从该地区大量受灾居民中,采取随机抽样方法每次抽取1户居民, 抽取3次, 记被抽取的3户居民自身经济损失超过4000元的人数为,若每次抽取的结果是相互独立的,求随机变量的分布列、期望和方差.
【变式1】.(25-26高二下·上海·期中)为研究蔬菜植株感染红叶螨能否引起植株形成某种抗体,使用列联表独立性检验.随机抽取一定量植株,获得观察数据,制作列联表.提出原假设:感染与形成抗体__________;确定显著性水平;若计算得;依据,从而__________原假设,即得统计决断.( )
A.有关;拒绝 B.有关;接受 C.无关;拒绝 D.无关;接受
【变式2】.(23-24高二下·上海·期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【变式3】.(24-25高二下·上海黄浦·期末)已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别________(选填“有关”或“无关”).
【变式4】.(24-25高二下·上海·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查.在全校学生中随机抽取(是正整数)个学生,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有________人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【变式5】.(23-24高二下·上海·期末)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某销售网点为了调查是否购买该款盲盒与性别的关系,得到如下列联表:
女生
男生
总计
购买
40
20
60
未购买
70
70
140
总计
110
90
200
则认为______(填有或没有)的把握认为改款盲盒与性别有关.()
【变式6】.(23-24高二下·上海·期末)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取30名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,取显著性水平为,我们可以认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重________.(填入有关或无关)
身高
体重
超重
不超重
总计
偏高
12
3
15
不偏高
5
10
15
总计
17
13
30
附表:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中
【变式7】.(24-25高二下·上海·期末)2024年末公司的一经发布,引发全球轰动,其科技水准直接对标公司的.某调研公司随机抽取公司和公司各25名客户,对其使用时产生的技术成本进行调研,并绘制成如图所示的茎叶图.(茎为十位数,叶为个位数)
(1)请根据茎叶图判断,与哪家公司的技术成本较低?并说明理由;
(2)若将技术成本小于80称为低成本运营,反之称为高成本运营.结合图表数据,补全下方列联表;
低成本运营
高成本运营
公司
公司
(3)根据(2)中的列联表,能否有95%的把握认为运营成本与公司有关?
附:,.
【变式8】.(24-25高二下·上海·期末)某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表单位:天
锻炼人次
空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为,,,的概率;并求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(2)若某天的空气质量等级为或,则称这天“空气质量好”若某天的空气质量等级为或,则称这天“空气质量不好”
①根据所给数据,完成下面的列联表,并计算第一行第一列数据的预期值.
②根据上一小问的列联表,判断是否有的把握认为一天中到该公园锻炼的人次超过400人与该市当天的空气质量有关.
锻炼人次
空气质量
人次
人次
空气质量好
空气质量不好
题型六 综合应用(回归+独立性检验)
【典例1】.(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
【变式1】.(2024高二下·上海黄浦·期末)某学术平台引入智能检测系统对所收集的文本进行筛查.检测系统对AI生成文本的识别准确率为98%,对人类撰写文本的识别准确率为96.5%.检测系统对所收集的文本进行筛查时,会对每篇文本输出一个“AI生成概率”得分y(分).y与文本长度x(字)可以用一元线性回归模型来刻画,其线性回归方程为,且,,已知该平台中15%的文本由AI生成.
(1)求回归系数;
(2)从该平台随机选取一篇文本,求该文本被检测系统识别为人类撰写文本的概率(精确到0.001);
(3)现从平台中随机抽取200篇文本进行统计分析,填写列联表(篇数四舍五入取整数):
文本真实性
检测结果
总计
识别为AI生成(篇)
识别为人类撰写(篇)
真实AI生成(篇)
真实人类撰写(篇)
总计
200
依据小概率值的独立性检验,能否判断“检测结果”与“文本真实性”有差异?
参考公式:
提示:独立性检验中常用的小概率值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式2】.(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【变式3】.(25-26高二下·上海·期中)中国民间传统文化丰富多彩,涵盖了生活的方方面面,从节庆习俗、民间艺术、传统技艺到宗教信仰和民间文学等.某文化公司在某地开展中国民间传统文化宣传活动,活动期间调查了参加活动的市民对中国民间传统文化的了解程度,前5天调查情况数据如下:
宣传天数
1
2
3
4
5
不了解的人数
108
100
92
80
70
(1)若对中国民间传统文化不了解的人数与宣传天数之间满足线性回归关系,求变量关于变量的回归方程;
(2)从前5天的调查表中随机抽取100份调查表,整理得如下列联表:
性别
对中国民间传统文化了解的程度
合计
了解
不了解
老年
40
10
50
青年
30
20
50
合计
70
30
100
(i)依据显著性水平进行独立性检验,能否认为是否了解中国民间传统文化与年龄有关?
(ii)按分层随机抽样的方式,在上述“了解”的调查表中,随机抽取7份调查表,再从这7份调查表中任意抽取3份,记为抽到的调查表来自青年调查表的份数,求的分布及期望.
附:回归方程中斜率和截距的最小二乘法公式分别为,,
独立性检验常用小概率值和相应的临界值:,
0.05
0.01
0.005
3.841
6.635
7.879
期末基础通关练(测试时间:10分钟)
一、单选题
1.(22-23高二下·上海黄浦·期末)某地政府调查育龄妇女生育意愿与家庭年收入高低的关系时,随机调查了当地3000名育龄妇女,用独立性检验的方法处理数据,并计算得,则根据这一数据以及临界值表,判断育龄妇女生育意愿与家庭年收入高低有关系的可信度( )
参考数据如下:,.
A.低于 B.低于 C.高于 D.高于
2.(25-26高二下·上海·阶段检测)通过随机抽样绘制得到如图所示的某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的散点图.下列说法正确的是( ).
A.若去掉图中右下方的点后,“每千克价格”与“年需求量”这两个变量的线性相关系数变大
B.若去掉图中右下方的点后,“每千克价格”与“年需求量”这两个变量的线性相关系数变小
C.将“每千克价格”的单位由百元变为元,“每千克价格”与“年需求量”这两个变量的线性相关系数变大
D.将“每千克价格”的单位由百元变为元,“每千克价格”与“年需求量”这两个变量的线性相关系数变小
3.(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:
不吸烟者
吸烟者
总计
不患慢性气管炎者
121
162
283
患慢性气管炎者
13
43
56
总计
134
205
339
假设:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量,得,根据分布概率表:,,,.给出下列3个命题,其中正确的个数是( )
①“患慢性气管炎与吸烟没有关系”成立的可能性小于;
②有的把握认为患慢性气管炎与吸烟有关;
③分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生.
A.个 B.个 C.个 D.个
4.(22-23高二下·上海松江·阶段检测)下列命题为真命题的有( )
A.若随机变量的方差为,则.
B.已知经验回归方程,则与具有正线性相关关系.
C.对于随机事件与,若则事件与独立.
D.根据分类变量与的成对样本数据,计算得到,根据的独立性检验,有的把握认为与有关.
二、填空题
5.(24-25高二下·上海黄浦·阶段检测)设某中学的女生体重(单位: kg )与身高(单位: cm) 具有线性相关关系,根据一组样本数据 ,用最小二乘法建立的经验回归方程为.若该中学女生的平均身高为160cm,则该中学女生的平均体重的估计值是__________kg.
6.一项研究同年龄段的男、女生的注意力差别的脑功能实验,实验数据如下表:
注意力稳定
注意力不稳定
男生
29
7
女生
33
5
依据,该__________实验该年龄段的学生在注意力的稳定性上对于性别没有显著差异(填拒绝或支持),
参考公式:
7.(24-25高二下·上海松江·阶段检测)某校对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有95%的把握判断是否喜欢抖音和性别有关,则调查人数中男生至少有________人.
参考数据:,
8.(25-26高二下·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
期末重难突破练(测试时间:10分钟)
一、单选题
9.(25-26高二下·上海·期中)某校随机抽取50名学生的身高与体重的散点图如下所示,则下列说法错误的是( )
A.身高越高,体重越重;
B.身高与体重同向变动的倾向;
C.身高与体重之间有明显的相关性;
D.身高与体重成正相关
10.(25-26高二下·上海·期中)下列说法正确的是( ).
A.如果随机事件与可以同时发生,则事件与不独立
B.若成对样本数据的线性相关程度越强,则样本相关系数越接近1
C.若随机变量满足,则
D.对于随机事件与,若,,则事件与相互独立
11.(25-26高二下·上海·期中)已知变量和之间的一组相关数据如下表所示,设变量和满足回归方程,则下列说法错误的是( )
5
6
9
12
8
7
5
2.4
A. B.
C.变量和具有很强的线性相关性 D.该回归直线过点
12.(25-26高二下·上海松江·期中)给出下列4个命题:
①若事件和事件互斥,则;
②数据2,3,6,7,8,10,11,13的第70百分位数为10;
③已知y关于x的回归方程为,则样本点的残差为;
④若随机变量X的方差为,则.
其中正确命题的序号为( )
A.①② B.①③ C.②③ D.②④
二、填空题
13.(25-26高二下·上海·期中)已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
14.(2025·上海奉贤·二模)通过随机抽样,获得某种商品消费者年需求量与该商品每千克价格之间的一组数据调查,如下表所示:
价格(百元)
4
4
4.6
5
5.2
5.6
6
6.6
7
10
需求量(千克)
3.5
3
2.7
2.4
2.5
2
1.5
1.2
1.2
1
那么线性相关系数______________.(精确到)线性相关系数公式
三、解答题
15.(23-24高二上·上海·课后作业)某连锁日用品销售公司下属5个社区便利店某月的销售额与利润额如下表所示.
便利店编号
1
2
3
4
5
销售额x/万元
30
60
45
80
89
利润额y/万元
2.3
3.5
3.2
4.0
5.3
(1)绘制销售额和利润额的散点图;
(2)若销售额和利润额具有线性相关关系,试计算利润额y与销售额x的经验回归直线方程.
16.(23-24高二上·上海·课后作业)若已知下列各组数据,它们是否可以看作成对数据?是否可以进行相关分析?判断并简要说明理由.
(1)校学生的身高与校学生的体重;
(2)人体内的脂肪含量与体重;
(3)某班学生的物理成绩与数学成绩.
期末综合拓展练(测试时间:15分钟)
一、填空题
17.(25-26高二下·上海·期中)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
二、解答题
18.(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
19.(25-26高二下·上海松江·期中)某商场为了解顾客购买手机的意愿,随机调查了位顾客购买手机的情况,得到数据如下表.
购买手机
购买无技术的手机
总计
男性顾客
女性顾客
总计
(1)根据表中数据,判断是否有的把握认为购买手机与顾客的性别有关?并说明理由;
(2)从这位男性顾客中随机挑选位,求其中至少有位购买手机的概率(精确到);
(3)为促进手机的销量,该商场为购买手机的顾客设置了抽奖环节,共设一、二等奖两种奖项,分别奖励元、元手机话费,抽中一、二等奖的概率分别为和,其余情况不中奖.每位顾客允许连续抽奖两次,且两次抽奖相互独立.记某位顾客两次抽中的奖金之和为元,求随机变量的数学期望.
参考公式及数据:①,其中.
②,,,.
20.(25-26高二下·上海·阶段检测)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
附:;
0.10
0.01
0.001
2.706
6.635
10.828
21.(23-24高二上·上海·课后作业)为了解大学校园附近餐馆的月营业收入(单位:千元)和该店周围的大学生人数(单位:千人)之间的关系,抽取了10所大学附近餐馆的有关数据,如下表所示.
学生人数x/千人
2
6
8
8
12
16
20
20
22
26
月营业收入y/千元
58
105
88
118
117
137
157
169
149
202
(1)根据以上数据,建立月营业收入y与该店周围的大学生人数x的回归方程;
(2)已知某餐馆周围的大学生人数为人,试对该店月营业收入作出预测.
参考公式:,
22.(2025·上海宝山·二模)某游乐园的活动项目共有三类,分别是“过山车”等10个体验类项目、“海豚之舞”等4个表演类项目、“智力闯关”等3个互动类项目.因设备维护需要,项目并非每日都全部开放.以下数据是项目开放的数量(个)和游客平均等待时间(分钟/个)的关系:
项目类别
体验类
演出类
互动类
开放数量(个)
4
5
6
7
8
2
4
2
3
平均等待时间(分钟/个)
76
73
67
60
53
30
46
30
(1)体验类项目中,若关于的回归方程为,请计算的值,并依据该模型预测所有体验类项目均开放时的平均等待时间(精确到整数);
(2)小王游玩当日,体验类、演出类、互动类项目分别开放了8个、4个、3个,他计划随机游玩其中的3个项目,已知他选择的项目中至少包含1个互动类项目,求他的等待总时间恰为120分钟的概率;
(3)为提高游客的参与度,园方在互动类项目“智力闯关”中设计了两关.通过第一关的游客奖励20个游园币,游客可以选择结束或继续闯关.若继续闯关,则必须完成第二关的所有题目.第二关包含2道相互独立的选择题,每答对1题可再奖励20个游园币,每答错1题则要扣除10个游园币.每个游园币可兑换园区内任意一个项目的1分钟等待时间.小王已通过第一关,假设他在第二关中每道题答对的概率均为,为了获得更多项目等待时间的兑换奖励,小王是否应该继续闯关?请你帮他做出决策.
1 / 4
学科网(北京)股份有限公司
$
专题07 成对数据的统计分析(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 散点图与相关性判断 题型02 相关系数r的计算与意义分析
题型03 一元线性回归方程求解与预测 题型04 非线性回归换元求解
题型05 2×2列联表独立性检验解答题 题型06 综合应用(回归 + 独立性检验)
过·分层验收 阶梯实战演练,验收复习成效
核心考点
复习目标
考情规律
成对数据的统计相关性
1. 能准确区分函数关系与相关关系,理解相关关系的非确定性特征
2. 会绘制成对样本数据的散点图,能通过散点图直观判断两个变量的相关类型、方向和强弱
3. 理解样本相关系数r的统计含义,熟记r的取值范围,能根据r值判断线性相关的程度
4. 能通过相关系数的计算与比较,分析多组变量间的相关性差异
1. 题型:以选择题、填空题为主,偶尔出现在解答题的小问中
2. 考查重点:相关关系的辨析、散点图的相关性判断、样本相关系数r的意义与取值
3. 难度:基础题为主,分值约3-5分,常与统计的其他基础知识点结合考查
4. 易错点:混淆相关关系与函数关系、对r值的正负与相关方向的对应关系理解错误
一元线性回归模型
1. 理解一元线性回归模型的含义,了解最小二乘原理,掌握回归模型参数的最小二乘估计方法
2. 熟记回归系数的计算公式,能准确求解回归直线方程,理解回归直线过样本中心点的核心性质
3. 能根据建立的回归模型,对实际问题中的数据进行合理预测与分析
4. 了解残差分析的基本思想,能通过决定系数R²判断模型的拟合效果
5. 掌握非线性回归问题的线性化方法,能通过换元将非线性回归转化为线性回归问题求解
1. 题型:以解答题为主,常结合实际应用场景考查,也会出现在选择题、填空题中
2. 考查重点:回归直线方程的求解、利用回归方程进行预测、样本中心点的应用、非线性回归的线性化处理
3. 难度:中等题为主,分值约5-12分,是本章的核心考查内容,常与概率、统计的其他知识点综合考查
4. 命题趋势:越来越侧重实际应用场景,结合生活、生产中的数据考查回归分析的应用,对计算能力和数据处理能力要求较高
列联表与独立性检验
1. 认识分类变量,能根据实际问题构造2×2列联表,准确填写列联表中的数据
2. 理解独立性检验的基本思想,能正确提出零假设,明确独立性检验的推理逻辑
3. 熟记卡方统计量的计算公式,能准确计算χ²值,会通过临界值表判断两个分类变量是否独立
4. 掌握独立性检验的完整步骤,能规范表述检验结论,解决实际问题中的关联性判断问题
5. 能结合实际场景,利用独立性检验的结果进行科学决策与分析
1. 题型:以解答题为主,常与概率、统计案例结合考查,也会出现在选择题中
2. 考查重点:2×2列联表的构造、卡方统计量的计算、独立性检验的步骤与结论表述
3. 难度:中等题为主,分值约5-10分,是本章的高频考点,常与实际应用场景结合,考查数据分析与逻辑推理能力
4. 易错点:列联表数据填写错误、卡方公式计算错误、对独立性检验的结论理解与表述不规范
知识点01 . 相关关系与散点图
相关关系定义:两个变量存在关联,但并非确定性的函数关系,是统计层面的随机关系。
正相关:自变量x增大,因变量y整体呈增大趋势,散点图整体呈现左下到右上的分布特征。
负相关:自变量x增大,因变量y整体呈减小趋势,散点图整体呈现左上到右下的分布特征。
线性相关:散点密集分布在某一条直线附近,是高考核心考察的相关关系类型。
知识点02 . 样本相关系数r(皮尔逊相关系数)
核心公式:
核心性质:
符号意义: 为正相关, 为负相关;
取值范围:,|r|越接近1,变量线性相关性越强;越接近0,线性相关性越弱;
高频评判阈值(考试通用):
:高度线性相关
:中度线性相关
:弱线性相关或无线性相关
知识点03. 一元线性回归方程(最小二乘法)
回归方程通式:
核心参数公式:
必考核心结论:
回归直线恒过样本中心点,是解题核心突破口;
斜率与相关系数符号完全一致,正负相关同步;
,x、y正相关;,x、y负相关。
知识点04 . 残差与模型拟合效果
残差定义:(真实值减预测值)
残差平方和:,数值越小,模型拟合效果越好;
决定系数R²(核心判据):
R²核心性质:取值,越接近1,拟合精度越高;一元线性回归中,。
知识点05 2×2列联表与独立性检验(卡方检验)
标准2×2列联表
合计
合计
核心假设与公式:
原假设:变量X与Y相互独立(无关联);
卡方统计量公式:
高频临界值(必背):
:99%的把握认为两个变量有关联;
:95%的把握认为两个变量有关联;
:90%的把握认为两个变量有关联;
:无充分证据证明变量有关联。
题型一 散点图与相关性判断
解|题|技|巧
看整体分布趋势,左下到右上为正相关,左上到右下为负相关;散点越集中贴近直线,线性相关性越强,零散无序则相关性弱。
【典例1】.(22-23高二下·上海徐汇·阶段检测)下列关于散点图的说法中,正确的是( )
A.任意给定统计数据,都可以绘制散点图 B.从散点图中可以看出两个量是否具有一定的关系
C.从散点图中可以看出两个量的因果关系 D.从散点图中无法看出数据的分布情况
【答案】B
【知识点】根据散点图判断是否线性相关
【分析】根据散点图的概念判断即可.
【详解】散点图不适合用于展示百分比占比的数据,另外数据量较少的数据也不适合用散点图表示,故A错误;
散点图能看出两个量是否具有一定关系,但是并一定是因果关系,故B正确,C错误;
散点图中能看出数据的分布情况,故D错误.
故选:B
【典例1】.(2023高二下·上海·期中)如图给出了某种豆类生长枝数y(枝)与时间t(月)的散点图,那么此种豆类生长枝数与时间的关系用下列函数模型近似刻画最好的是( )
A. B. C. D.
【答案】D
【知识点】根据散点图判断是否线性相关
【分析】根据散点图确定正确答案.
【详解】从所给的散点图可以看出图象大约过和,
把这两个点代入所给的四个解析式发现只有最合适,
另外,根据图象可知,图象呈指数增长的形式,也可在最合适.
故选:D.
【变式1】.(2026·上海闵行·二模)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
【答案】D
【知识点】判断正、负相关、根据散点图判断是否线性相关
【详解】对于A:散点杂乱无章,无规律可言,看不出两个变量有什么相关性;故A错误;
对于B:两个变量不具有线性相关性,故B错误;
对于C:两个变量之间的关系为负相关关系;故C错误;
对于D:两个变量之间的关系为正相关关系,且散点图中的点分布在一条直线附近,线性相关程度较高;故D正确.
【变式2】.(23-24高二上·上海·期末)某市104路公交车上午7:05—8:55时段在起点站每9分钟发一班次.公交公司为了了解早高峰时段各班次上客情况,某日上午7:14—8:35记录了在起点站各班次车辆上客的人数:
发车时刻
7:14
7:23
7:32
7:41
7:50
7:59
8:08
8:17
8:26
8:35
上车乘客数/人
10
13
13
18
17
15
12
9
3
3
请绘制这组成对数据的散点图,并通过观察散点图大致判断客车发车时刻与上车乘客人数之间的相关性.
【答案】图表见解析
【知识点】根据散点图判断是否线性相关、绘制散点图
【分析】根据题意,直接绘制散点图即可,结合散点图即可判断.
【详解】
绘制散点图如图所示,观察散点图可知,之前客车发车时刻与上车乘客人数之间正相关,之后客车发车时刻与上车乘客人数之间负相关.
【变式3】.(23-24高二上·上海·期中)《国家学生体质健康标准(2014年修订)》中,体能监测包含身高、体重、肺活量、50米跑、坐位体前屈、引体向上(女:仰卧起坐)、立定跳远、1000米跑(女:800米跑),据此得到的每项指标都可以按照相应的单项指标评分表进行测量和计分,分别得到相应的数据.
(1)这些数据中的任意两组是否都可以作为成对数据进行相关分析?
(2)依据你的经验,哪两组数据的相关程度可能最高?哪两组数据的相关程度可能最低?如何通过统计方法检验你的判断?
【答案】(1)都可以
(2)肺活量和50米跑相关程度最高,身高和肺活量相关程度最低(答案不唯一)
【知识点】判断两个变量是否有相关关系
【分析】(1)根据相关关系的定义判断即可;
(2)根据经验找到合理的案例,结合统计学知识分析即可.
【详解】(1)都可以,因为每项指标都可以按照相应的单项指标评分表进行测量和计分,
且任意两项指标之间存在一定的关系,但又没有确切到可由其中的一个精确地决定另一个的程度,
所以任意两组数据均可以作为成对数据进行相关分析,只是有些数据相关性较弱..
(2)依据经验可知肺活量和米跑相关程度最高,身高和肺活量相关程度最低,(答案不唯一),
通过测量出米成绩与肺活量的数据,作出散点图,即可判断.
通过测量出身高与肺活量的数据,作出散点图,即可判断.
题型二 相关系数r的计算与意义分析
答|题|模|板
根据样本数据计算r,依据r值判断变量相关程度。
【典例1】.(2025·上海徐汇·二模)在研究线性回归模型时,若样本数据所对应的点都在直线上,则两组数据和的线性相关系数为( )
A. B.1 C. D.2
【答案】A
【知识点】相关系数的意义及辨析
【分析】根据回归模型性质判断即可.
【详解】若样本数据所对应的点都在直线上,
则两组数据和的线性相关系数为.
故选:A.
【典例2】.(23-24高二下·上海·期末)下列命题为真命题的有( )个.
①若随机变量的方差为,则;
②对于随机事件A与B,若,则事件A与B独立;
③相关系数越大,两组数据的相关程度越强.
A.0 B.1 C.2 D.3
【答案】B
【知识点】相关系数的意义及辨析、条件概率性质的应用、独立事件的判断、方差的性质
【分析】①,由方差的性质计算;②,由对立事件概率公式和条件概率公式得到;③,相关系数越大,两组数据的相关程度越强.
【详解】对于①,若随机变量的方差为,则,①错误;
对于②,,故,
,即,则事件A与B独立,②正确;
对于③,相关系数越大,两组数据的相关程度越强,③错误.
故选:B
【典例3】.(24-25高二下·上海·期末)下列关于统计概率知识的判断,则下列结论正确的是( )
①若样本数据,,…,的方差为4,则数据,,…,的标准差为4;
②在研究成对数据的相关关系时,相关关系越强,相关系数越接近于1;
③若事件,满足,则事件与事件相互独立;
④某医院住院的位新冠患者的潜伏天数分别为,则该样本数据的第百分位数为.
A.只有一个正确 B.只有两个正确
C.只有一个错误 D.四个题是错误的
【答案】B
【知识点】相关系数的意义及辨析、计算条件概率、独立事件的判断、总体百分位数的估计
【分析】利用方差的运算性质得①正确,利用相关系数的性质得②错误,利用条件概率公式和相互独立事件的判断方法可得③错误,利用百分位数的求法可得④错误,即可求解.
【详解】对于命题①,因为样本数据,,…,的方差为4,则数据,,…,的方差为,
标准差为,所以命题①正确,
对于命题②,相关关系越强,相关系数越接近于1,所以命题②错误,
对于命题③,因为,得到,
则事件与事件相互独立,所以命题③正确,
对于命题④,将数据从小排到大得到,
又,所以该样本数据的第百分位数为,故命题④错误,
故选:B.
【变式1】.(24-25高二下·上海浦东新·期末)已知线性相关系数r是描述成对数据线性相关程度的统计量,也称为皮尔逊相关系数;一元线性回归分析是基于拟合误差Q取最小值的假设进行的,最终可得回归方程(回归直线).现有5个数据点,小明对它们进行了一元线性回归分析,得到线性相关系数和回归方程,随后发现自己漏掉了一个数据点且恰好.重新计算6个数据点得到线性相关系数和回归方程,对于下面两个说法:
①一定小于 ②与一定重合
则( )
A.①正确②错误 B.①正确②正确 C.①错误②正确 D.①错误②错误
【答案】C
【知识点】解释回归直线方程的意义、相关系数的意义及辨析
【分析】根据相关系数的定义,以及得到回归直线方程的过程,即可判断选项.
【详解】当增加一个与回归直线完全拟合的数据点后,这个点没有产生新的拟合误差,整体数据点与回归直线的拟合程度变得更好,所以,不一定,故①错误;
回归方程是基于5个数据点通过最小二乘法(使拟合误差取最小值)得到的,当加入新的数据点,因为它在回归直线上,它不会改变原来使取得最小的直线的位置,所以与一定重合,故②正确.
故选:C
【变式2】.(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【知识点】最小二乘法的概念及辨析
【分析】由最小二乘法的定义判断即可.
【详解】根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小,
即残差平方和最小.
故选:D
【变式3】.(22-23高二下·上海金山·期末)如果两种证券在一段时间内收益数据的相关系数为正数,那么表明( )
A.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
B.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
C.两种证券的收益有同向变动的倾向
D.两种证券的收益有反向变动的倾向
【答案】C
【知识点】相关关系与函数关系的概念及辨析
【分析】根据正相关的定义可得出结论.
【详解】因为两种证券在一段时间内收益数据的相关系数为正数,
那么表明两种证券的收益有同向变动的倾向,C对,ABD错.
故选:C.
【变式4】.(24-25高二下·上海浦东新·期末)某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
【答案】D
【知识点】相关系数的意义及辨析、残差的计算
【分析】观察图象,较其他的点偏离回归直线最大,去掉后,回归效果更好,结合相关系数、正负相关性、残差平方和以及相关性逐项分析判断.
【详解】观察图象知:较其他的点偏离回归直线最大,因此去掉后,回归效果更好,
对于A,相关系数越接近于1,线性相关性越强,
因此去掉后,相关系数的绝对值变大,A错误;
对于B,由表格数据可知越大,越大,所以相关变量具有正相关关系,B错误;
对于C,因为残差平方和越大,拟合效果越差,因此去掉后,残差平方和变小,拟合误差变小,C错误;
对于D,由选项A知,去掉后,相关系数的绝对值变大,
因此解释变量与响应变量的相关性变强,D正确.
故选:D
题型三 一元线性回归方程求解与预测
答|题|模|板
给出成对样本数据,求回归方程,利用方程进行数值预测。
【典例1】.(23-24高二下·上海·期末)为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
【答案】D
【知识点】求回归直线方程、相关系数的意义及辨析、根据样本中心点求参数
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A;由的正负即可判断B;.根据回归方程代入计算即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,解得,故A错误;
因为,所以与的样本是正相关,故B错误;
当时,的预估值为,故C错误;
由相关系数公式可知,去掉样本点后,与的样本相关系数不会改变,故D正确.
故选:D.
【典例2】.(24-25高二下·上海浦东新·期末)由表格数据得到的线性回归方程为,则此回归方程在样本点处的离差是_______
x
3
4
5
6
y
2.5
4
4.5
【答案】/
【知识点】求回归直线方程、残差的计算
【分析】先计算出样本的中心点坐标,将其代入中可求得m的值,再结合离差的定义求解即可.
【详解】因为,,且线性回归方程恒过,
所以,解得,
将代入回归方程得,
所以此回归方程在样本点处的离差是.
故答案为:
【变式1】.(22-23高二下·上海浦东新·期末)给出下列有关线性回归分析的四个命题,其中为真命题的是( )
A.线性回归直线未必过样本数据点的中心;
B.回归直线就是散点图中经过数据点最多的那条直线;
C.当相关系数时,两个变量正相关;
D.如果两个变量的相关性越强,则相关系数r就越接近于1.
【答案】C
【知识点】相关系数的意义及辨析、解释回归直线方程的意义
【分析】由回归直线的性质逐一分析四个选项得答案.
【详解】线性回归直线必过样本数据点的中心,故A错误;
回归直线一定经过样本点的中心,但不一定经过散点图中的点,故B错误;
当相关系数时,两个变量正相关,故C正确;
如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故D错误.
故选:C.
【变式2】.(24-25高二下·上海·期末)一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下,根据表格可得回归方程,则实数的值为__________.
零件数x(个)
2
3
4
5
加工时间y(分钟)
30
a
40
50
【答案】36
【知识点】根据回归方程求原数据中的值
【分析】根据回归方程经过样本中心点,代入即可求得的值.
【详解】根据表中数据可知,,
因为回归方程经过样本中心点,
代入回归直线方程可得,解得,
故答案为:36.
【变式3】.(23-24高二下·上海长宁·期末)某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为______度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
【答案】40
【知识点】用回归直线方程对总体进行估计、计算样本的中心点、根据回归方程进行数据估计、根据样本中心点求参数
【分析】先求解,代入方程求得,然后可得气温为时用电量的度数.
【详解】,
,
所以,所以当时,.
故答案为:40.
【变式4】.(23-24高二下·上海·期末)党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
【答案】(1),与具有较高的线性相关程度
(2)
【知识点】相关系数的计算、求回归直线方程
【分析】(1)根据题意求得,利用相关系数公式求得相关系数,比较可得结论;
(2)利用回归方程的系数公式求得,继而求得,即可求得与的回归方程.
【详解】(1)由表数据可得的平均数,
所以,
所以相关系数,
由,所以与具有较高的线性相关程度;
(2)依题意可得,
,
,
所以,
所以关于的线性回归方程为.
题型四 非线性回归换元求解
答|题|模|板
变量变形(取对数)→整体换元→求线性回归方程→还原原始变量。
【典例1】.下列命题中正确的是( )
A.将一组数据中的每个数都加上或减去同一个常数后,均值与方差都不变
B.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为
C.在吸烟与患肺病这两个分类变量的计算中,若由独立性检验知,在犯错误率不超过0.05的前提下,认为吸烟与患肺病有关系.若某人吸烟,则他有95%的可能性患肺病
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和
【答案】D
【知识点】计算几个数据的极差、方差、标准差、非线性回归、相关系数的意义及辨析、独立性检验的基本思想
【分析】对A,由均值的理解可知;对B,由线性相关系数的理解与求法都可得;对C,根据对独立性检验思想的理解可知;对D,非线性转化线性回归,由换元的关系可得.
【详解】对A,将一组数据中的每个数都加上或减去同一个常数后,
均值也应加上或减去同一个常数,故A错误;
对B,所有样本点都在直线上,
由此成对样本数据的两个分量之间满足一种线性关系,
则线性相关系数,由成对样本数据负相关,则,故B错误;
对C,在犯错误率不超过0.05的前提下,认为吸烟与患肺病有关系,
我们可以认为吸烟更容易引发肺病.独立性检验可以推断分类变量吸烟与患肺病是否独立,
而不能得到一个吸烟的人有多大可能性患病的结论,故C错误;
对D,由,,且,若线性回归方程为,
则,即,的值分别是和,故D正确.
【变式1】.(24-25高二下·上海·期末)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【知识点】求回归直线方程、非线性回归、相关系数的意义及辨析、相关系数的计算
【分析】(1)计算相关系数,根据相关系数的绝对值大小得出结论;
(2)(i)两边取自然对数,转化为线性回归方程求解,再转化为指数式即可;
(ii)根据(i)的结论预测销售额y达到80亿元时研发投入即可得解.
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
【变式2】.(2023·上海浦东新·期末)为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中)
6
60
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
(i)建立关于的回归方程;
(ii)样本对原点的距离时,金属含量的预报值是多少?
(3)已知该金属在距离原点米时的平均开采成本(单位:元)与关系为,根据(2)的结果回答,为何值时,开采成本最大?
【答案】(1)
(2)(i);(ii)
(3)10
【知识点】求已知函数的极值点、相关系数的计算、非线性回归、利用给定函数模型解决实际问题
【分析】(1)根据所给数据求出相对应的相关系数,即可判断;
(2)(i)由(1)及所给数据求出、,即可得到回归方程;(ii)将代入计算即可;
(3)依题意,可得,令,利用导数求出函数的单调性,即可求出函数的极大值点,从而得解.
【详解】(1)因为的线性相关系数,
的线性相关系数,
,
更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)(i)依题意,可得,
,
,关于的回归方程为.
(ii)当时,金属含量的预报值为.
(3)因为,
令,则,
当时,,在上单调递增;
当时,,在上单调递减,
在处取得极大值,也是最大值,此时取得最大值,
故为10时,开采成本最大.
【变式3】.(2023·上海长宁·二模)某地新能源汽车保有量符合阻沛型增长模型,其中为自统计之日起,经过t年后该地新能源汽车保有量、和r为增长系数、M为饱和量.
下表是该地近6年年底的新能源汽车的保有量(万辆)的统计数据:
年份
2018
2019
2020
2021
2022
t
0
1
2
3
4
保有量
9.6
12.9
17.1
23.2
31.4
假设该地新能源汽车饱和量万辆.
(1)若,假设2018年数据满足公式,计算的值(精确到0.01)并估算2023年年底该地新能源汽车保有量(精确到0.1万辆);
(2)设,则与t线性相关.请依据以上表格中相关数据,利用线性回归分析确定和r的值(精确到0.01).
附:线性回归方程中回归系数计算公式如下:.
【答案】(1),万辆
(2),
【知识点】利用给定函数模型解决实际问题、求回归直线方程、非线性回归
【分析】(1)根据题意代入即可求出,代入利用公式估算即可得解;
(2)设设,转化为关于的线性回归问题,利用公式求出即可.
【详解】(1)由题意可知,2018年对应,,
满足,所以,解得,
因为年对应的,
所以
所以估计2023年底该地新能源汽车保有量为40.3万辆.
(2),
设,则,
t
0
1
2
3
4
9.6
12.9
17.1
23.2
31.4
3.37
3.07
2.77
2.44
2.11
,,
,
所以,
因为,
所以.
(该题无参考数据,需要计算器计算)
题型五 2×2列联表独立性检验解答题
答|题|模|板
根据统计表格数据,计算卡方值,判断两个分类变量是否有关联
【典例1】.(21-22高二下·上海浦东新·期末)下列是关于出生男婴与女婴调查的列联表
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么__________.
【答案】82
【知识点】完善列联表
【分析】根据列联表,可得方程,解之即可得到结论.
【详解】解:由题意,,,,,
,,,,
故答案为: 82.
【典例2】.(22-23高二上·上海虹口·期末)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
则有______%的把握认为男、女顾客对该商场服务的评价______(有或无)差异
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】 95 有
【知识点】独立性检验解决实际问题、完善列联表
【分析】完善列联表,利用公式求得观测值并与临界值比较分析.
【详解】由题意可得:
满意
不满意
总计
男顾客
40
10
50
女顾客
30
20
50
总计
70
30
100
则,
∵,
∴能有%的把握认为男、女顾客对该商场服务的评价有差异.
故答案为:95;有.
【典例3】.(24-25高二下·上海奉贤·期末)随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到下表(单位:人)
经常网购
偶尔或不用网购
合计
男性
50
100
女性
70
100
合计
(1)完成上表,并根据以上数据判断是否有99%的把握认为我市市民网购与性别有关?
(2)现从所抽取的女市民中利用分层抽样的方法抽取10人,再从这10人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;
参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)表格见解析;有
(2)
【知识点】完善列联表、卡方的计算、计算古典概型问题的概率
【分析】(1)完成列联表,由列联表,得,然后根据独立性检验判断即可;
(2)由题知抽取10人中,经常网购的有人,偶尔或不用网购的有人,由可计算选取的3人中至少有2人经常网购的概率.
【详解】(1)完成列联表:
经常网购
偶尔或不用网购
合计
男性
50
50
100
女性
70
30
100
合计
120
80
200
由列联表得,,
有99%的把握认为我市市民网购与性别有关.
(2)由题知女市民中利用分层抽样的方法抽取10人中,
经常网购的有人,偶尔或不用网购的有人,
选取的3人中至少有2人经常网购的概率,
所以所求概率为.
【典例4】.(23-24高二下·上海·期末)某汽车生产企业对其生产的四款新能源汽车进行市场调研,从购买者中选取50名车主对车辆进行性能评分,每款车都有1分、2分、3分、4分、5分五个等级,各评分的相应人数统计结果如下表所示.
评分款式
1分
2分
3分
4分
5分
基础版
基础版1
2
2
3
1
0
基础版2
4
4
5
3
1
豪华版
豪华版1
1
3
5
4
1
豪华版2
0
0
3
5
3
(1)求这四款车得分的平均数.
(2)约定当得分不小于4时,认为该款车型性能优秀,否则认为性能一般,根据上述样本数据,完成以下2×2列联表,取显著性水平,能否认为汽车的性能与款式有关?说明理由.
汽车性能
汽车款式
合计
基础版
豪华版
一般
优秀
合计
(3)为进一步提升产品品质,现从样本评分不大于2的基础版车主中,随机抽取3人征求意见,设随机变量X表示其中基础版1车主的人数,求X的分布和期望.
附: ;
【答案】(1)
(2)答案见解析
(3)分布列见解析,
【知识点】计算几个数的平均数、完善列联表、卡方的计算、求离散型随机变量的均值
【分析】(1)利用平均数的定义求解即可;
(2)利用题意写出列联表,再结合公式求解即可;
(3)利用超几何分布计算概率,从而求解分布列和期望.
【详解】(1)由题意,这四款车得分的平均数为,
所以这四款车得分的平均数为3.
(2)由题意,列联表如下:
汽车性能
汽车款式
合计
基础版
豪华版
一般
20
12
32
优秀
5
13
18
合计
25
25
50
则,
所以能在犯错误概率不超过的前提下认为汽车的性能与款式有关.
(3)由题意可得:样本评分不大于2的基础版车主中,基础版1车主有4人,基础版2车主有8人,
从这12人中随机抽取3人,其中含基础版1的人数服从超几何分布,则的所有可能取值为
则,,
,,
所以的分布列为:
0
1
2
3
则.
【典例5】.(24-25高二下·上海·期中)今年某台风在沿海地区登陆,恰逢暑假,小明调查了当地某小区100户居民由于台风造成的经济损失,将收集的数据(单位:元)分成 , 五组,并绘制如下频率分布直方图.
(1)台风过后居委会号召小区居民为重灾区捐款,小明调查的100户居民捐款情况如下表, 在表格空白处填写正确数字, 并说明是否有95%以上的把握认为捐款数额多于或少于500元和自身经济损失是否超过4000元有关?
()
损失不超过 4000
损失超过 4000
合计
捐款超过 500
60
捐款不超过 500
10
合计
(2)将上述调查所得到的频率视为概率,现从该地区大量受灾居民中,采取随机抽样方法每次抽取1户居民, 抽取3次, 记被抽取的3户居民自身经济损失超过4000元的人数为,若每次抽取的结果是相互独立的,求随机变量的分布列、期望和方差.
【答案】(1)填表见解析;有
(2)分布列见解析;, .
【知识点】完善列联表、卡方的计算、二项分布的均值、二项分布的方差
【分析】(1)根据频率分布直方图结合列联表中的数据完成列联表,然后计算分析判断即可;
(2)由题意得,然后根据二项分布的概率公式求出相应的概率,从而随机变量的分布列、期望和方差.
【详解】(1)由频率分布直方图可知损失超过4000的有户,
所以列联表为
损失不超过4000
损失超过4000
合计
捐款超过500
60
20
80
捐款不超过500
10
10
20
合计
70
30
100
所以,
于是有95%以上的把握认为捐款数额多于或少于500元和自身经济损失是否超过4000元有关.
(2)由题意知抽取1户居民自身经济损失超过4000元的概率为,
所以由题意得,
所以,,
,,
于是的分布列为
0
1
2
3
0.343
0.441
0.189
0.027
所以, .
【变式1】.(25-26高二下·上海·期中)为研究蔬菜植株感染红叶螨能否引起植株形成某种抗体,使用列联表独立性检验.随机抽取一定量植株,获得观察数据,制作列联表.提出原假设:感染与形成抗体__________;确定显著性水平;若计算得;依据,从而__________原假设,即得统计决断.( )
A.有关;拒绝 B.有关;接受 C.无关;拒绝 D.无关;接受
【答案】D
【知识点】独立性检验的基本思想
【详解】在独立性检验中,提出原假设:感染与形成抗体无关,当计算得到的统计量小于临界值时,就接受原假设.
【变式2】.(23-24高二下·上海·期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【答案】D
【知识点】独立性检验的概念及辨析
【分析】根据卡方表示的意义结合临界值表分析判断即可
【详解】只有时才能在犯错误的概率不超过的前提下认为该电视栏目是否优秀与改革有关系,
而即使也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的推论,与是否有的人等无关.故A,B不正确.
由于,故C错误,D正确.
故选:D.
【变式3】.(24-25高二下·上海黄浦·期末)已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别________(选填“有关”或“无关”).
【答案】有关
【知识点】独立性检验的基本思想、独立性检验解决实际问题
【分析】根据题中所给数据,结合独立性检验的基本思想即可求解.
【详解】∵,∴根据小概率值的独立性检验,喜欢该体育运动与性别有关.
故答案为:有关.
【变式4】.(24-25高二下·上海·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查.在全校学生中随机抽取(是正整数)个学生,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有________人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【答案】
【知识点】卡方的计算、独立性检验解决实际问题
【分析】设男生人数为,依题意可得列联表;根据表格中的数据,代入求观测值的公式,求出观测值同临界值进行比较,列不等式即可得出结论.
【详解】因为抽取个学生,女生人数是男生人数的,
所以抽取个男生,个女生,为了便于计算,我们令,
设男生人数为,依题意可得列联表如下:
喜欢追星
不喜欢追星
总计
男生
女生
总计
根据小概率值的独立性检验,判断中学生追星与性别有关,
则,由,解得,
由题知应为6的整数倍,
而根据小概率值的独立性检验,判断中学生追星与性别有关,
则男生至少有30人,
故答案为:30.
【变式5】.(23-24高二下·上海·期末)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某销售网点为了调查是否购买该款盲盒与性别的关系,得到如下列联表:
女生
男生
总计
购买
40
20
60
未购买
70
70
140
总计
110
90
200
则认为______(填有或没有)的把握认为改款盲盒与性别有关.()
【答案】有
【知识点】卡方的计算、独立性检验的基本思想、独立性检验解决实际问题
【分析】根据列联表数据和的计算公式求出即可根据小概率值的独立性检验得到结论.
【详解】零假设为改款盲盒与性别无关联.
由列联表数据计算得,
所以根据小概率值的独立性检验,推断不成立,故有的把握认为改款盲盒与性别有关.
故答案为:有.
【变式6】.(23-24高二下·上海·期末)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取30名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,取显著性水平为,我们可以认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重________.(填入有关或无关)
身高
体重
超重
不超重
总计
偏高
12
3
15
不偏高
5
10
15
总计
17
13
30
附表:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中
【答案】有关
【知识点】卡方的计算、独立性检验的基本思想、独立性检验解决实际问题
【分析】根据列联表,计算的值并与比较即得结论.
【详解】零假设为假设该学校15至16周岁的30名男生的身高是否偏高与体重是否超重无关,
由,
由小概率值的独立性检验,零假设不成立,
即认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重有关,这个判断犯错误的概率不超过0.05.
故答案为:有关.
【变式7】.(24-25高二下·上海·期末)2024年末公司的一经发布,引发全球轰动,其科技水准直接对标公司的.某调研公司随机抽取公司和公司各25名客户,对其使用时产生的技术成本进行调研,并绘制成如图所示的茎叶图.(茎为十位数,叶为个位数)
(1)请根据茎叶图判断,与哪家公司的技术成本较低?并说明理由;
(2)若将技术成本小于80称为低成本运营,反之称为高成本运营.结合图表数据,补全下方列联表;
低成本运营
高成本运营
公司
公司
(3)根据(2)中的列联表,能否有95%的把握认为运营成本与公司有关?
附:,.
【答案】(1)D公司技术成本较低;A公司平均技术成本为83.4,D公司平均技术成本为75.96
(2)8,17;17,8
(3),有95%把握
【知识点】由茎叶图计算平均数、完善列联表、独立性检验解决实际问题
【分析】(1)计算出两家公司的技术成本,再比较即可得出结论;
(2)根据低成本运营的定义即可得解;
(3)计算卡方,对比临界值即可得解.
【详解】(1)A公司平均技术成本为:,
公司平均技术成本为:,
所以D公司技术成本较低;
(2)由题意补全下方列联表:
低成本运营
高成本运营
公司
8
17
公司
17
8
(3)由(2)可知,
,
有95%的把握认为运营成本与公司有关.
【变式8】.(24-25高二下·上海·期末)某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表单位:天
锻炼人次
空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为,,,的概率;并求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(2)若某天的空气质量等级为或,则称这天“空气质量好”若某天的空气质量等级为或,则称这天“空气质量不好”
①根据所给数据,完成下面的列联表,并计算第一行第一列数据的预期值.
②根据上一小问的列联表,判断是否有的把握认为一天中到该公园锻炼的人次超过400人与该市当天的空气质量有关.
锻炼人次
空气质量
人次
人次
空气质量好
空气质量不好
【答案】(1)概率见解析;350;
(2)①列联表见解析;38.5;②有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
【知识点】由频率分布直方图估计平均数、独立性检验解决实际问题、计算古典概型问题的概率
【分析】(1)用频率估计概率,结合平均数计算公式求解即可;
(2)①得出列联表,进一步求得预期值.②计算卡方值,对比临界值即可判断.
【详解】(1)由所给数据,该市一天的空气质量等级为,,,的概率的估计值如下表:
空气质量等级
概率的估计值
一天中到该公园锻炼的平均人次的估计值为.
(2)根据所给数据,可得列联表:
锻炼人次空气质量
人次
人次
空气质量好
33
37
空气质量不好
22
8
第一行第一列数据的预期值为.
根据列联表得的观测值.由于,
故有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
题型六 综合应用(回归+独立性检验)
【典例1】.(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
【答案】(1)列联表见解析,有关联;
(2),,有价值;
【知识点】根据回归方程求原数据中的值、相关系数的计算、完善列联表、独立性检验解决实际问题
【分析】(1)先补全列联表,再计算卡方,根据独立性检验原则即可判断;
(2)根据回归直线过样本点中心可求得,再根据相关系数公式求得,从而可判断.
【详解】(1)补全列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,推断不成立,
即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,可得,
因为经验回归方程为,可得,
则,求得,
所以,
所以,,
所以,
因为,所以该经验回归方程有价值.
【变式1】.(2024高二下·上海黄浦·期末)某学术平台引入智能检测系统对所收集的文本进行筛查.检测系统对AI生成文本的识别准确率为98%,对人类撰写文本的识别准确率为96.5%.检测系统对所收集的文本进行筛查时,会对每篇文本输出一个“AI生成概率”得分y(分).y与文本长度x(字)可以用一元线性回归模型来刻画,其线性回归方程为,且,,已知该平台中15%的文本由AI生成.
(1)求回归系数;
(2)从该平台随机选取一篇文本,求该文本被检测系统识别为人类撰写文本的概率(精确到0.001);
(3)现从平台中随机抽取200篇文本进行统计分析,填写列联表(篇数四舍五入取整数):
文本真实性
检测结果
总计
识别为AI生成(篇)
识别为人类撰写(篇)
真实AI生成(篇)
真实人类撰写(篇)
总计
200
依据小概率值的独立性检验,能否判断“检测结果”与“文本真实性”有差异?
参考公式:
提示:独立性检验中常用的小概率值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)
(3)判断“检测结果”与“文本真实性”有差异
【知识点】独立性检验解决实际问题、利用全概率公式求概率、线性回归
【分析】(1)利用回归直线过样本中心可求回归系数;
(2)利用全概率公式可求概率;
(3)完善列联表,再根据公式计算卡方,结合临界值表判断即可.
【详解】(1)因为,且,,
故,故.
(2)记事件为 “由AI生成的文本”, 为“由人类撰写的文本”,
为“被检测系统识别为人类撰写的文本”,
由题意知,,,,,
由全概率公式知:
,
即该文本被检测系统识别为人类撰写文本的概率约为.
(3)AI生成的篇数为,人类撰写的篇数为,
真实AI生成且被识别为AI生成的篇数,
真实人类撰写且被识别为人类撰写的篇数,
故列联表为:
文本真实性
检测结果
总计
识别为AI生成(篇)
识别为人类撰写(篇)
真实AI生成(篇)
29
1
30
真实人类撰写(篇)
6
164
170
总计
35
165
200
零假设为:分类变量相互独立,即“检测结果”与“文本真实性”无差异.
由列联表数据计算得,,
所以依据小概率值的独立性检验,可以判断“检测结果”与“文本真实性”有差异.
【变式2】.(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【答案】(1),人次
(2)
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
不能认为“礼让行人”行为与驾龄有关
【知识点】卡方的计算、根据回归方程进行数据估计、独立性检验解决实际问题、根据样本中心点求参数
【分析】(1)代入样本中心点求出的值,进而得到线性回归方程并进行预测;(2)根据已知条件补全列联表后计算的观测值,并与临界值比较得出结论.
【详解】(1)由题意可得,线性回归方程必过样本中心点,
代入可得,,
所以线性回归方程.
当时,,
预测该路口7月份不“礼让行人”违规驾驶人次为人次.
(2)已知不“礼让行人”违规驾驶的共计50人次,所以①,
抽查总人数为人,所以“礼让行人”的总人数为人,
②.
补充完整列联表如下:
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
根据列联表数据,计算的观测值
,
因为,
所以不能认为“礼让行人”行为与驾龄有关.
【变式3】.(25-26高二下·上海·期中)中国民间传统文化丰富多彩,涵盖了生活的方方面面,从节庆习俗、民间艺术、传统技艺到宗教信仰和民间文学等.某文化公司在某地开展中国民间传统文化宣传活动,活动期间调查了参加活动的市民对中国民间传统文化的了解程度,前5天调查情况数据如下:
宣传天数
1
2
3
4
5
不了解的人数
108
100
92
80
70
(1)若对中国民间传统文化不了解的人数与宣传天数之间满足线性回归关系,求变量关于变量的回归方程;
(2)从前5天的调查表中随机抽取100份调查表,整理得如下列联表:
性别
对中国民间传统文化了解的程度
合计
了解
不了解
老年
40
10
50
青年
30
20
50
合计
70
30
100
(i)依据显著性水平进行独立性检验,能否认为是否了解中国民间传统文化与年龄有关?
(ii)按分层随机抽样的方式,在上述“了解”的调查表中,随机抽取7份调查表,再从这7份调查表中任意抽取3份,记为抽到的调查表来自青年调查表的份数,求的分布及期望.
附:回归方程中斜率和截距的最小二乘法公式分别为,,
独立性检验常用小概率值和相应的临界值:,
0.05
0.01
0.005
3.841
6.635
7.879
【答案】(1);
(2)(i)是否了解中国民间传统文化与年龄有关;
(ii)
0
1
2
3
.
【知识点】求回归直线方程、求离散型随机变量的均值、独立性检验解决实际问题、写出简单离散型随机变量分布列
【分析】(1)结合题干和最小二乘法求解回归方程即可;
(2)(i)计算独立性检验的统计量,对比题干显著水平做出判断;
(ii)根据分层抽样确定来自青年调查表的份数,列举随机变量的可能取值,求解对应概率,进而列出分布列并求解期望.
【详解】(1)根据题干可知,
,,,
,
,
,
,
所以关于的回归方程为:
(2)(i)假设:是否了解中国民间传统文化与年龄无关;
由题知显著性水平:,即;
统计量:
,
因为,故拒绝原假设,即是否了解中国民间传统文化与年龄有关;
(ii)按分层抽样抽取老年调查表4份,青年调查表3份,
,
.
所以的分布列为:
0
1
2
3
期望:
期末基础通关练(测试时间:10分钟)
一、单选题
1.(22-23高二下·上海黄浦·期末)某地政府调查育龄妇女生育意愿与家庭年收入高低的关系时,随机调查了当地3000名育龄妇女,用独立性检验的方法处理数据,并计算得,则根据这一数据以及临界值表,判断育龄妇女生育意愿与家庭年收入高低有关系的可信度( )
参考数据如下:,.
A.低于 B.低于 C.高于 D.高于
【答案】C
【知识点】独立性检验解决实际问题
【分析】根据临界值表求得正确答案.
【详解】由于,
而,
所以可信度高于.
故选:C
2.(25-26高二下·上海·阶段检测)通过随机抽样绘制得到如图所示的某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的散点图.下列说法正确的是( ).
A.若去掉图中右下方的点后,“每千克价格”与“年需求量”这两个变量的线性相关系数变大
B.若去掉图中右下方的点后,“每千克价格”与“年需求量”这两个变量的线性相关系数变小
C.将“每千克价格”的单位由百元变为元,“每千克价格”与“年需求量”这两个变量的线性相关系数变大
D.将“每千克价格”的单位由百元变为元,“每千克价格”与“年需求量”这两个变量的线性相关系数变小
【答案】B
【知识点】相关系数的意义及辨析、判断正、负相关
【详解】改变变量的单位,线性相关系数不变,C、D错;
去除A点后,线性相关程度变高,
因为是负相关,所以线性相关系数变小,故A错误、B正确.
3.(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:
不吸烟者
吸烟者
总计
不患慢性气管炎者
121
162
283
患慢性气管炎者
13
43
56
总计
134
205
339
假设:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量,得,根据分布概率表:,,,.给出下列3个命题,其中正确的个数是( )
①“患慢性气管炎与吸烟没有关系”成立的可能性小于;
②有的把握认为患慢性气管炎与吸烟有关;
③分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生.
A.个 B.个 C.个 D.个
【答案】D
【知识点】独立性检验的基本思想、独立性检验的概念及辨析
【分析】根据,与临界值表对照判断.
【详解】解:因为,且,
所以有的把握认为患慢性气管炎与吸烟有关,
即“患慢性气管炎与吸烟没有关系”成立的可能性小于,
故①②正确;
分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生. 故③正确;
故选:D
4.(22-23高二下·上海松江·阶段检测)下列命题为真命题的有( )
A.若随机变量的方差为,则.
B.已知经验回归方程,则与具有正线性相关关系.
C.对于随机事件与,若则事件与独立.
D.根据分类变量与的成对样本数据,计算得到,根据的独立性检验,有的把握认为与有关.
【答案】C
【知识点】方差的性质、条件概率性质的应用、独立性检验的基本思想、判断正、负相关
【分析】A利用方差性质求新方差;B根据回归方程系数的正负判断;C应用对立事件的概率、条件概率公式及独立事件的判定即可判断;D根据独立检验的基本思想即可得结论.
【详解】A:由,则,错;
B:由的一次项系数为负,故与具有负线性相关关系,错;
C:由,而,则,
所以,即事件与相互独立,对;
D:由,故没有的把握认为与有关,错.
故选:C
二、填空题
5.(24-25高二下·上海黄浦·阶段检测)设某中学的女生体重(单位: kg )与身高(单位: cm) 具有线性相关关系,根据一组样本数据 ,用最小二乘法建立的经验回归方程为.若该中学女生的平均身高为160cm,则该中学女生的平均体重的估计值是__________kg.
【答案】47.69
【知识点】计算样本的中心点
【分析】根据经验回归方程的性质,过均值中心点,即,代入数值求平均体重的估计值.
【详解】由得,
故答案为:47.69.
6.一项研究同年龄段的男、女生的注意力差别的脑功能实验,实验数据如下表:
注意力稳定
注意力不稳定
男生
29
7
女生
33
5
依据,该__________实验该年龄段的学生在注意力的稳定性上对于性别没有显著差异(填拒绝或支持),
参考公式:
【答案】支持
【知识点】独立性检验解决实际问题、卡方的计算
【分析】根据卡方公式计算即可做出判断.
【详解】由表中数据:,
所以没有足够把握认为学生在注意力的稳定性上与性别有关,
即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.
故答案为:支持
7.(24-25高二下·上海松江·阶段检测)某校对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有95%的把握判断是否喜欢抖音和性别有关,则调查人数中男生至少有________人.
参考数据:,
【答案】45
【知识点】独立性检验解决实际问题、卡方的计算
【分析】设被调查的男女生为人,写出列联表,应用卡方公式求卡方值,结合求参数范围,进而确定被调查的男生为,即可答案.
【详解】设被调查的男女生为人,则男生喜欢抖音有人,女生喜欢抖音有人,
所以列联表如下:
喜欢抖音
不喜欢抖音
总计
男生
女生
总计
则,解得,
因此被调查的男生为,又,则人数是5的正整数倍,
所以大于等于45的5的整数倍都符合题意,调查人数中男生至少有人.
故答案为:
8.(25-26高二下·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
【答案】
【知识点】根据样本中心点求参数、计算样本的中心点
【详解】由题意可得,
,
因为回归直线方程经过点,
所以.
期末重难突破练(测试时间:10分钟)
一、单选题
9.(25-26高二下·上海·期中)某校随机抽取50名学生的身高与体重的散点图如下所示,则下列说法错误的是( )
A.身高越高,体重越重;
B.身高与体重同向变动的倾向;
C.身高与体重之间有明显的相关性;
D.身高与体重成正相关
【答案】A
【知识点】判断两个变量是否有相关关系、根据散点图判断是否线性相关、判断正、负相关
【详解】对于A,由于身高比较高的人,其体重可能大,也可能小,则选项A不正确;
对于B,由散点图知,身高增加时,体重也呈现增加的趋势,有同向变动的倾向,B正确;
对于C,身高和体重有明显的相关性,C正确;
对于D,身高增加时,体重也呈现增加的趋势,所以身高与体重呈正相关,D正确.
10.(25-26高二下·上海·期中)下列说法正确的是( ).
A.如果随机事件与可以同时发生,则事件与不独立
B.若成对样本数据的线性相关程度越强,则样本相关系数越接近1
C.若随机变量满足,则
D.对于随机事件与,若,,则事件与相互独立
【答案】D
【知识点】方差的性质、独立事件的乘法公式、相关系数的意义及辨析、独立事件的判断
【详解】事件与是否独立,取决于是否满足,而与它们是否可以同时发生没有必然联系,
例如,投掷一枚均匀硬币两次,设事件为“第一次出现正面”,事件为“第二次出现正面”,
与可以同时发生(两次都正面),但与相互独立,因此,可以同时发生的事件也可能独立,所以选项错误;
若成对样本数据的线性相关程度越强,则样本相关系数的绝对值越接近,所以B错误;
若,则,所以若,则,所以C错误;
因为,所以,,所以,所以事件与相互独立,所以D正确.
11.(25-26高二下·上海·期中)已知变量和之间的一组相关数据如下表所示,设变量和满足回归方程,则下列说法错误的是( )
5
6
9
12
8
7
5
2.4
A. B.
C.变量和具有很强的线性相关性 D.该回归直线过点
【答案】D
【知识点】根据样本中心点求参数、计算样本的中心点、相关系数的意义及辨析、求回归直线方程
【详解】样本均值:,;
回归系数:,其中;;;;
;;;
.
分子和为:;分母和为.所以.
回归系数:.
回归直线方程为:.
相关系数:,
选项A:,正确;
选项B:,正确;
选项C:,接近1,具有很强的线性相关性,正确;
选项D:回归直线必过点,不过点,错误.
12.(25-26高二下·上海松江·期中)给出下列4个命题:
①若事件和事件互斥,则;
②数据2,3,6,7,8,10,11,13的第70百分位数为10;
③已知y关于x的回归方程为,则样本点的残差为;
④若随机变量X的方差为,则.
其中正确命题的序号为( )
A.①② B.①③ C.②③ D.②④
【答案】C
【知识点】总体百分位数的估计、方差的性质、相互独立事件与互斥事件、残差的计算
【详解】命题①:互斥事件的定义是,因此;
是相互独立事件的性质,和互斥不等价,故①错误;
命题②: 一共个已排序的数据,计算百分位数位置,不是整数,向上取整得第6个数据,
排序后第6个数是10,因此第70百分位数为10,故②正确;
命题③:残差定义为“实际值减去预测值”,代入,得预测值,
实际,残差为,符合描述,故③正确;
命题④:根据方差性质,得,故④错误.
综上,正确命题为②③.
二、填空题
13.(25-26高二下·上海·期中)已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
【答案】
【知识点】根据样本中心点求参数
【详解】,,
所以
14.(2025·上海奉贤·二模)通过随机抽样,获得某种商品消费者年需求量与该商品每千克价格之间的一组数据调查,如下表所示:
价格(百元)
4
4
4.6
5
5.2
5.6
6
6.6
7
10
需求量(千克)
3.5
3
2.7
2.4
2.5
2
1.5
1.2
1.2
1
那么线性相关系数______________.(精确到)线性相关系数公式
【答案】
【知识点】相关系数的计算
【分析】利用相关系数公式计算即可.
【详解】由题意可得,
,
所以
,
,
所以.
故答案为:.
三、解答题
15.(23-24高二上·上海·课后作业)某连锁日用品销售公司下属5个社区便利店某月的销售额与利润额如下表所示.
便利店编号
1
2
3
4
5
销售额x/万元
30
60
45
80
89
利润额y/万元
2.3
3.5
3.2
4.0
5.3
(1)绘制销售额和利润额的散点图;
(2)若销售额和利润额具有线性相关关系,试计算利润额y与销售额x的经验回归直线方程.
【答案】(1)答案见解析
(2)
【知识点】求回归直线方程、绘制散点图
【分析】(1)根据散点图的作法作出图形即可;
(2)根据经验回归直线方程的求解方法求解.
【详解】(1)根据题意,作散点图图如下,
(2),,
设回归直线方程为,
=,
,
所以经验回归直线方程为.
16.(23-24高二上·上海·课后作业)若已知下列各组数据,它们是否可以看作成对数据?是否可以进行相关分析?判断并简要说明理由.
(1)校学生的身高与校学生的体重;
(2)人体内的脂肪含量与体重;
(3)某班学生的物理成绩与数学成绩.
【答案】(1)不可以,不可以,理由见解析
(2)可以,可以,理由见解析
(3)可以,可以,理由见解析
【知识点】判断两个变量是否有相关关系
【分析】根据两个变量是否具有相关关系,可得答案.
【详解】(1)校学生的身高与校学生的体重毫无关系,因此不能看成成对数据,不能进行相关分析.
(2)人体内的脂肪含量与体重具有相关关系,因此可以看作成对数据,可以进行相关分析.
(3)某班学生的物理成绩与数学成绩具有相关关系,因此可以看作成对数据,可以进行相关分析.
期末综合拓展练(测试时间:15分钟)
一、填空题
17.(25-26高二下·上海·期中)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
【答案】21
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据定义算出的表达式,由题意得,可得出的最小值.
【详解】由题意得,并令,即,近似解得,即,注意到,故的最小值为.
二、解答题
18.(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【答案】(1),人次
(2)
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
不能认为“礼让行人”行为与驾龄有关
【知识点】根据样本中心点求参数、独立性检验解决实际问题、根据回归方程进行数据估计、卡方的计算
【分析】(1)代入样本中心点求出的值,进而得到线性回归方程并进行预测;(2)根据已知条件补全列联表后计算的观测值,并与临界值比较得出结论.
【详解】(1)由题意可得,线性回归方程必过样本中心点,
代入可得,,
所以线性回归方程.
当时,,
预测该路口7月份不“礼让行人”违规驾驶人次为人次.
(2)已知不“礼让行人”违规驾驶的共计50人次,所以①,
抽查总人数为人,所以“礼让行人”的总人数为人,
②.
补充完整列联表如下:
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
根据列联表数据,计算的观测值
,
因为,
所以不能认为“礼让行人”行为与驾龄有关.
19.(25-26高二下·上海松江·期中)某商场为了解顾客购买手机的意愿,随机调查了位顾客购买手机的情况,得到数据如下表.
购买手机
购买无技术的手机
总计
男性顾客
女性顾客
总计
(1)根据表中数据,判断是否有的把握认为购买手机与顾客的性别有关?并说明理由;
(2)从这位男性顾客中随机挑选位,求其中至少有位购买手机的概率(精确到);
(3)为促进手机的销量,该商场为购买手机的顾客设置了抽奖环节,共设一、二等奖两种奖项,分别奖励元、元手机话费,抽中一、二等奖的概率分别为和,其余情况不中奖.每位顾客允许连续抽奖两次,且两次抽奖相互独立.记某位顾客两次抽中的奖金之和为元,求随机变量的数学期望.
参考公式及数据:①,其中.
②,,,.
【答案】(1)有的把握认为购买手机与顾客的性别有关,理由见解析
(2)
(3)
【知识点】计算古典概型问题的概率、卡方的计算、求离散型随机变量的均值、独立性检验解决实际问题
【分析】(1)根据题设中的数据计算,结合临界值表可判断的把握认为购买手机与顾客的性别有关;
(2)利用对立事件可求至少有位购买手机的概率;
(3)先求出的分布列,再根据期望公式可求,或者利用独立事件的期望公式求出.
【详解】(1)作原假设:购买手机与顾客的性别无关,取,
根据题意,代入数据,得 ,
因为,所以否定原假设,即有的把握认为购买手机与顾客的性别有关.
(2)由题意得.
(3)解法一:由题意得,随机变量的可能取值为 ,
而,,
,,
,,
故的分布列为
期望.
解法二:设第次抽中奖金为(),则,
由题设可得()的分布列为
从而,而,相互独立,
故.
20.(25-26高二下·上海·阶段检测)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
附:;
0.10
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且数学成绩总评优秀的经验概率为0.35.
(2)有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)的分布列如下表:
0
1
2
3
期望为.
【知识点】求离散型随机变量的均值、写出简单离散型随机变量分布列、卡方的计算、完善列联表
【分析】(1)完善列联表,求出经验概率;
(2)求出的观测值,与临界值比对得解;
(3)求出的可能值及对应概率,列出分布列并求出期望.
【详解】(1)完善列联表如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且成绩优秀的人数为14,总样本数为40,因此经验概率为.
(2)由(1)得 ,
所以有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)不是每天都整理数学错题的学生有20人,其中数学成绩总评优秀人数为5,
的所有可能值为0,1,2,3,
,
,
所以的分布列如下表:
0
1
2
3
期望.
21.(23-24高二上·上海·课后作业)为了解大学校园附近餐馆的月营业收入(单位:千元)和该店周围的大学生人数(单位:千人)之间的关系,抽取了10所大学附近餐馆的有关数据,如下表所示.
学生人数x/千人
2
6
8
8
12
16
20
20
22
26
月营业收入y/千元
58
105
88
118
117
137
157
169
149
202
(1)根据以上数据,建立月营业收入y与该店周围的大学生人数x的回归方程;
(2)已知某餐馆周围的大学生人数为人,试对该店月营业收入作出预测.
参考公式:,
【答案】(1)
(2)千元
【知识点】根据回归方程进行数据估计、求回归直线方程
【分析】(1)利用最小二乘法即可求得回归方程;
(2)将的值代入回归方程求出的预报值即可得解.
【详解】(1)由表中数据可知,
,
,
,
所以,,
因此回归方程为,
(2)因为餐馆周围的大学生人数为人,即千人,
当时,,
所以该店铺的月销售额约为千元.
22.(2025·上海宝山·二模)某游乐园的活动项目共有三类,分别是“过山车”等10个体验类项目、“海豚之舞”等4个表演类项目、“智力闯关”等3个互动类项目.因设备维护需要,项目并非每日都全部开放.以下数据是项目开放的数量(个)和游客平均等待时间(分钟/个)的关系:
项目类别
体验类
演出类
互动类
开放数量(个)
4
5
6
7
8
2
4
2
3
平均等待时间(分钟/个)
76
73
67
60
53
30
46
30
(1)体验类项目中,若关于的回归方程为,请计算的值,并依据该模型预测所有体验类项目均开放时的平均等待时间(精确到整数);
(2)小王游玩当日,体验类、演出类、互动类项目分别开放了8个、4个、3个,他计划随机游玩其中的3个项目,已知他选择的项目中至少包含1个互动类项目,求他的等待总时间恰为120分钟的概率;
(3)为提高游客的参与度,园方在互动类项目“智力闯关”中设计了两关.通过第一关的游客奖励20个游园币,游客可以选择结束或继续闯关.若继续闯关,则必须完成第二关的所有题目.第二关包含2道相互独立的选择题,每答对1题可再奖励20个游园币,每答错1题则要扣除10个游园币.每个游园币可兑换园区内任意一个项目的1分钟等待时间.小王已通过第一关,假设他在第二关中每道题答对的概率均为,为了获得更多项目等待时间的兑换奖励,小王是否应该继续闯关?请你帮他做出决策.
【答案】(1),51分钟;
(2);
(3)
当时,,不建议小王继续闯关;
当时,,小王可根据自己的情况随机选择;
当时,,建议小王继续闯关.
【知识点】根据回归方程进行数据估计、根据回归方程求原数据中的值、求离散型随机变量的均值、计算条件概率
【分析】(1)根据表中数据分别求出,代入回归方程即可求出,将代入回归方程可求出平均等待时间;
(2)利用条件概率公式,结合分步计数乘法原理和分类计数加法原理以及组合数,计算即可求得概率;
(3)通过计算得到小王参加第二关获得的游园币数的期望,根据每道题答对的概率的取值分类讨论,做出相关决策.
【详解】(1),
代入回归方程,得,解得.
当时,,即开放所有体验类项目时的平均等待时间约为51分钟.
(2)记事件“等待总时间恰为120分钟”,事件“选择的3个项目中至少包含1个互动类项目”,
因为全部的项目数为15个,其中互动类项目有3个,则事件共包含了种;
在事件的条件下,等待总时间恰为120分钟,此时的可能情况有:
①一个互动类项目,一个体验类项目,一个演出类项目,此时共有种情况;
②两个互动类项目,一个体验类项目,此时共有种情况.
由条件概率公式得.
(3)设小王参加第二关获得的游园币数为随机变量,则所有可能取值为,
则
所以.
所以,当时,,不建议小王继续闯关;
当时,,小王可根据自己的情况随机选择;
当时,,建议小王继续闯关.
1 / 4
学科网(北京)股份有限公司
$