摘要:
**基本信息**
聚焦成对数据统计分析,以8大考点为框架,通过典例与变式构建“概念辨析-方法应用-综合拓展”的逻辑体系,培养数据观察、模型应用与逻辑推理能力。
**专项设计**
|模块|题量/典例|题型特征|知识逻辑|
|----|-----------|----------|----------|
|相关系数r及其分析|3题|概念判断与计算|从相关系数性质到线性相关程度分析|
|误差分析|3题|残差与决定系数应用|误差度量与模型拟合效果评估|
|列联表|3题|表格补全与分层抽样|数据分类整理基础|
|等高条形图|3题|图表信息解读|直观展示分类变量关联性|
|独立性检验的实际应用|3题|卡方计算与决策|列联表延伸的统计推断|
|回归直线方程问题|3题|方程性质与预测|线性关系的数学表达|
|最小二乘法的应用|3题|公式应用与预测|回归方程参数求解核心方法|
|数据分析的综合问题|3题|多考点融合|统计方法在实际情境中的综合运用|
内容正文:
专题强化05:成对数据的统计分析
【题型归纳】
· 考点一:相关系数r及其分析
· 考点二:误差分析
· 考点三:列联表
· 考点四:等高条形图
· 考点五:独立性检验的实际应用
· 考点六:回归直线方程问题
· 考点七:最小二乘法的应用
· 考点八:数据分析的综合问题
【题型过关】
题型一:相关系数r及其分析
【典例1】.(25-26高二上·广西桂林·期末)已知为随机变量X和Y的样本相关系数,为随机变量M和N的样本相关系数,则下列说法正确的是( )
A.若,则X和Y负相关
B.若,则M和N线性不相关
C.若,,则X和Y的线性相关程度比M和N的线性相关程度强
D.若越接近1,则M和N的线性相关程度越弱
【变式1】.(25-26高二上·全国·单元测试)最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
【变式2】.(24-25高二下·山东枣庄·期末)下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
题型二:误差分析
【典例2】.(25-26高二下·海南·期中)根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.决定系数变小 B.残差平方和变小
C.相关系数变大 D.不变
【变式1】.(25-26高二下·河南周口·阶段检测)下列命题正确的是( )
A.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.线性回归直线必过样本数据的中心点;
【变式2】.(24-25高二下·上海浦东新·期末)某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
题型三:列联表
【典例3】.(25-26高二上·全国·单元测试)目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别
对汽车的偏好
体验流
技术流
总计
男
30
50
女
40
总计
100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
【变式1】.(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【变式2】.(24-25高二下·广东广州·期末)为了解性别(变量x)与体育锻炼(变量y)是否有关,采取简单随机抽样的方法抽取50名学生,得到成对样本观测数据的分类统计结果,如表所示(单位:人),根据数据计算,并依据小概率值的独立性检验,附:,,下列结论不正确的是( )
锻炼
合计
不经常
经常
女生
15
5
20
男生
10
m
n
合计
25
25
50
A.
B.若从这50人中随机抽取1人,则经常锻炼的概率为
C.变量x与变量y独立,此推断犯错误的概率不超过0.005
D.变量x与变量y不独立,此推断犯错误的概率不超过0.005
题型四:等高条形图
【典例4】.(2026·天津·一模)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
【变式1】.(24-25高三·北京·一轮复习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【变式2】.(24-25高三上·江西新余·阶段检测)如图为对某高中学生是否对父母说过“我爱你”这样的话的统计结果,则下列统计分析中不正确的是:( ).
A.男性被调查者没有对父母说过“我爱你”这样的话的人数比例高于女性
B.无论男女对母亲说“我爱你”这类话的比例都高于对父亲所说
C.大部分调查者没有对父母说过“我爱你”这样的话
D.经常对父母说“我爱你”这样的话的人数总计比例较女生比例有所下降,说明这张统计图的结果可能存在错误
题型五:独立性检验的实际应用
【典例5】.(25-26高二下·安徽宿州·阶段检测)“你好.我是,很高兴见到你我可以帮你写代码、读文件、写作各种创意内容,请把你的任务交给我吧”,从横空出世到与我们日常相伴,成为我们解决问题的“好参谋、好助手”,大模型正在改变着我们的工作和生活的方式.为了了解不同学历人群对的使用情况,随机调查了200人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
65
35
100
本科以下
50
50
100
合计
115
85
200
(1)依据小概率值的独立性检验,能否认为的使用情况与学历有关?
(2)某校组织“模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有3道题目,甲、乙同时依次作答,3道试题作答完毕后比赛结束.规定:若对同一道题目,两人同时答对或答错,每人得0分;若一人答对另一人答错,答对的得10分,答错的得-10分,比赛结束累加得分为正数者获胜.两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲、乙两名选手正确回答每道题的概率分别为,.
(ⅰ)求比赛结束后甲获胜的概率;
(ⅱ)求比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式1】.(25-26高二下·四川宜宾·期末)研究表明,春季早晚温差大,由于个人体质不同,可能会导致感冒.某医学研究小组为了解20-30岁年轻人的体质健康是否与性别有关,在4月感冒易发季节对某一小区中该年龄段的年轻人进行了随机抽样,得到如列联表.
性别
健康状况
感冒
不感冒
合计
男
8
14
女
4
24
合计
(1)在上述感冒的年轻人中按照性别采用分层抽样的方法抽取6人,再从这6人中随机选取3人访谈,记参与访谈的男性人数为,求的分布和期望;
(2)补全上表,并在犯错误的概率不超过0.05的前提下,20-30岁年轻人的体质健康与性别是否有关?
参考数据:参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【变式2】.(2026·江西·二模)羽毛球运动在我国是非常受大众喜爱的一项运动,但自2023年以来,由于多种原因,羽毛球价格经历多轮上涨,部分高端型号涨幅甚至超过同期黄金涨幅,越来越多的球友直呼快打不起球了.我国某著名体育厂商抓住这个历史机遇推出了人造羽毛球,名为碳音球,这款羽毛球采用碳纤维复合材料替代天然羽毛,其飞行轨迹与击球手感接近天然羽毛球,但价格却只有天然羽毛球的60%到70%,该羽毛球一经上市便引起热烈反响,但舆论对其评价褒贬不一.某市场调查机构调查了男性和女性各100名羽毛球爱好者对碳音球和天然羽毛球的偏好程度,现统计得出样本中偏好碳音球的人数占样本总数的45%,其中偏好碳音球的女性羽毛球爱好者有50人.
偏好碳音球
偏好天然羽毛球
合计
男性
女性
50
合计
200
(1)请根据已知条件将上述列联表补充完整,并分析是否有90%的把握认为两种羽毛球的偏好与性别有关?
(2)现从男性羽毛球爱好者中按对碳音球和天然羽毛球的偏好采用分层抽样的方法抽取10人,然后从这10人中随机抽取3人参加有奖问答,记3人中偏好碳音球的人数为,求的分布列和数学期望.
(3)若某羽毛球俱乐部的男女比例为3:2.将样本的频率视为概率,现从该俱乐部中随机抽取一人,已知此人偏好碳音球,求其为男性的概率.
附:
0.100
0.050
0.010
2.706
3.841
6.635
题型六:回归直线方程问题
【典例6】.(25-26高二下·广东湛江·阶段检测)某电子商城统计了最近5个月某品牌电脑的实际销量,如下表所示:
时间x(月份)
1
2
3
4
5
销量y(百台)
0.3
0.4
0.6
0.7
0.9
若y与x线性相关,且经验回归方程为:,则下列说法错误的是( )
A.变量x,y正相关
B.回归直线一定过样本中心
C.
D.可以预测当时,商城内该电脑的销量为1百台
【变式1】.(2026·安徽铜陵·模拟预测)已知变量x和y有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则( )
x
2
3
4
5
y
4
7
8
13
A.经验回归直线必过点
B.
C.当时,预测值
D.当时,样本点对应的残差为0.2
【变式2】.(25-26高二下·黑龙江哈尔滨·期中)为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,.则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.用最小二乘法求得关于的线性回归直线方程为
D.如果研发投入亿元,估计产品收益为亿元
题型七:最小二乘法的应用
【典例7】.(25-26高二下·河北邢台·期中)近几年新能源汽车发展很快,2025年我国在世界纯电动车市场份额占,下面是某新能源汽车制造公司从2019年至2025年的利润情况表:
年份
2019
2020
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
6
7
利润亿元
29
33
36
44
48
52
59
(1)根据表中的数据,推断变量与之间是否线性相关,计算与之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出关于的经验回归方程,并预测该新能源汽车制造公司2030年的利润.
参考数据:,,.
参考公式:对于一组数据,,,,①相关系数;②经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【变式1】.(25-26高二下·河北沧州·期中)新型模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图像数据对一种新型降噪模型进行实验,对使用该模型后,图像中的噪声残留量y(单位:个/像素)进行检测,统计得到下表:
第x轮迭代
1
2
3
4
5
噪声残留量y(个/像素)
67
57
50
42
34
并计算得:.
(1)计算变量x(迭代轮数)和变量y(噪声残留量)的样本相关系数r(r的值精确到0.001);
(2)若图像中的噪声残留量不高于10个/像素,则说明数据降噪完成.用最小二乘法求y关于x的经验回归方程,并预测该模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,,.
【变式2】.(25-26高二下·河南南阳·期中)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2025年前5个月的带货金额:
月份x
1
2
3
4
5
带货金额y/万元
350
440
580
700
880
(1)求y关于x的线性回归方程,并据此预测2025年7月份该公司的直播带货金额;
(2)该公司随机抽取55人进行问卷调查,得到如下不完整的列联表:
参加过直播带货
未参加过直播带货
总计
女性
30
35
男性
10
总计
请填写上表,并判断是否有99.5%的把握认为参加直播带货与性别有关?
参考数据:,,,.
参考公式:,;
,其中.
0.025
0.010
0.005
0.001
5.024
6.635
7.879
10.828
题型八:数据分析的综合问题
【典例8】.(25-26高三上·湖北黄冈·期末)有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,男生、女生各取100人.设事件“学生愿意报名参加答题活动”,“学生为男生”,据统计.
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关?
性别
男生
女生
合计
不愿报名参加答题活动
愿意报名参加答题活动
合计
200
(2)网络答题规则:假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
(i)若答题活动设置且道题,甲仅答对其中10道题的概率最大,求的值.
(ii)若答题活动设置4道题,且答题规则如下:每次答一题,一旦答对,则结束答题;答错则继续答题,直到4道题答完.已知甲同学报名参加答题活动,用表示在本次答题的题目数量,求的分布列和期望.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式1】.(25-26高二下·山东德州·阶段检测)某县博物馆国庆期间统计连续5天进入该博物馆参观的游客人数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.3
3.1
4.3
4.6
5.7
(1)由上表数据看出,可用线性回归模型拟合与的关系,求出关于的线性回归方程;
(2)国庆五天假期博物馆开放1号门、2号门和3号门供游客出入,游客从1号门、2号门和3号门进入博物馆的概率分别为,且出馆与进馆选择相同门的概率为,选择与进馆不同两门的概率各为.假设游客从1号门、2号门、3号门出入博物馆互不影响,现有甲、乙、丙、丁4名游客于10月2日进馆参观,设为4人中从2号门出馆的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
【变式2】.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
【专题通关】
一、单选题
1.(25-26高二下·天津滨海新区·阶段检测)下列命题中正确的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量没有关系
B.在一组样本数据,(,,不全相等)的散点图中,若所有样本点()都在直线上,则这组样本数据的线性相关系数为
C.在回归直线中,变量时,变量的值一定是15
D.决定系数越大,说明模型拟合效果越好
2.(25-26高二下·天津·期末)利用独立性检验的方法调查高中生爱好某项运动与性别是否有关,通过随机调查200名高中生是否爱好某项运动,利用列联表,计算可得,参照下表,得到的正确结论是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.有的高中生爱好该项运动
B.有以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”
D.在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”
3.(25-26高二下·重庆·期中)现有10个样本数据,,,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C.2 D.3
4.(25-26高二下·山东泰安·阶段检测)新泰中学为了解高一高二学生的校园活动偏好,随机抽取两个年级各200名学生,调查他们参与科技类、文艺类活动的情况,并用等高堆积条形图直观地展示调查结果如图所示,经计算得到.下表是独立性检验中几个常用的小概率值和相应的临界值,下列说法正确的是( )
A.在调查的高一学生中,若按比例分层随机抽样抽取20人,则参加科技类的学生有8人
B.在调查的高二学生中,选择文艺类比选择科技类的学生多20人
C.依据的独立性检验,我们认为年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于
D.依据的独立性检验,我们认为年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于
5.(2026·天津河北·二模)以下结论错误的是( )
A.命题:“,”的否定为“,”
B.设随机变量服从正态分布,若,则
C.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
D.回归直线一定过样本中心
6.(2026·天津河西·三模)为了解高三年级学生参与“人工智能辅助学习”的频次(次/周)与数学模拟测试成绩(分)之间的关系,学校收集了一组成对数据,计算可得样本平均数,,通过数据分析求得经验回归方程为,下列关于这组数据的统计分析中,说法错误的是( )
A.变量与呈正相关关系
B.经验回归直线必过样本中心点,且
C.若某学生每周参与辅助学习6次,其测试成绩为110分,则该样本点的残差为
D.若这组数据的残差平方和越小,则决定系数越小,说明经验回归模型的拟合效果越好
7.(25-26高二下·河南南阳·阶段检测)已知变量和满足经验回归方程,且变量和之间的一组相关数据如表所示,则下列说法错误的是( )
A.变量和呈负相关 B.当时,一定等于
C. D.该经验回归直线必过点
二、多选题
8.(25-26高二下·河北衡水·期末)下列说法中正确的是( )
A.若随机变量X,Y满足,则
B.两个随机变量的线性相关程度越强,样本相关系数的绝对值越接近1
C.经验回归直线至少经过其样本数据点中的一个点
D.若事件M,N满足,,,则
9.(25-26高二下·重庆·阶段检测)下列命题中正确的是( )
A.决定系数越大,残差平方和越小,模型拟合效果越好
B.若,两组成对数据的样本相关系数分别为,,则组数据比组数据的线性相关性强
C.在经验回归方程中,若,,则变量与正相关
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验(),可认为与有关
10.(25-26高二下·辽宁沈阳·期中)某设备的使用年限(年)和所支出的维修费用(万元)有如下表的统计资料:
2
3
4
5
6
2.2
3.8
6.5
7.0
已知根据表中原始数据得回归直线方程为.某位工作人员在查阅资料时发现表中有个数据模糊不清了,下列说法正确的是( )
A.所支出的维修费用与使用年限正相关
B.估计使用10年维修费用是12.38万元
C.根据回归方程可推断出模糊不清的数据的值为5
D.第3年维修费用的残差为0.03万元
11.(25-26高二下·河南南阳·期中)已知相关系数,关于的线性回归方程中斜率和截距的最小二乘估计公式分别为,,已知变量与变量的部分数据,建立由最小二乘法得到的两个回归模型:以为自变量,为因变量,得出的线性回归方程为;以为自变量,为因变量,得出的线性回归方程为,若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量的方差,则可得知变量的标准差
B.若已知变量的方差,则不可得知变量的标准差
C.若不给定其他信息,则也可得知变量与变量各自的平均值
D.若不给定其他信息,则也可得知变量与变量的相关系数
12.(2026·山东淄博·三模)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的若干种价格进行试销,统计了连续5个月的月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表所示.则( )
售价x(元/件)
10
11
12
13
14
月销售量y(千件)
10
9
9
7
5
参考公式:①;②;③.
参考数据:,,,.
A.y关于x的线性回归方程为:
B.相关系数(小数点后保留两位)
C.当售价为15元/件时,预测月销售量为3.4千件
D.在线性回归方程的估计下,样本点的残差为
三、填空题
13.(25-26高二下·四川宜宾·期末)由样本数据(),求得回归直线方程为,且,,则相应于样本点的残差值为______.
14.(2026高二·全国·专题练习)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数______.
15.(2026高二·全国·专题练习)已知一系列样本点满足,,由最小二乘法得到与的回归方程,其中,.现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则_____.
16.(2026·江苏南通·三模)为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________.
17.(25-26高二上·全国·课前预习)设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的__________是度量两个变量x与y之间线性相关程度的统计量,其计算公式为,其中,,,它们分别是这两组数据的算术平均数.
四、解答题
18.(25-26高二下·重庆·阶段检测)2026年春节期间,电影《飞驰人生3》、《镖人》持续火爆,现对电影《镖人》从正月初一到正月初六的单日票房统计如下表:(由于统计原因,本题的数据与实际情形可能存在误差,以题目给出的数据为准).
日期
初一
初二
初三
初四
初五
初六
上映第x天
1
2
3
4
5
6
票房y(单位:亿元)
0.9
1.2
1.3
1.5
1.3
1.6
(1)根据数据建立单日票房y关于上映天数x的线性回归方程,并预测第七日的票房收入(计算结果均保留一位小数);
(2)在某天放映结束后,随机抽取6名观众,发现其中有4人看过《镖人》,3人看过《飞驰人生3》,只有1人两部电影均没看过,现从这6人中随机抽取3人,记X为抽取的3人中两部电影都看过的人数,求X的分布列及方差,参考数据及公式如下:
参考数据:,,,.
参考公式:,.
19.(25-26高三·全国·一轮复习)文旅部门统计了某网红景点在2025年3月至7月的旅游收入(单位:万),得到以下数据:
月份
3
4
5
6
7
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,能否在犯错误的概率不超过0.001的情况下认为“游客是否喜欢该网红景点与性别有关联”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,
参考数据:.线性回归方程:,其中,.
.
临界值表:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
20.(2026·贵州毕节·三模)“阳光杯”中学生篮球联赛是毕节市威宁自治县极具本土特色的体育赛事,赛事深度融合威宁多民族文化与高原风情,是当地群众最喜爱的体育赛事之一.威宁县某中学为了研究不同性别的学生对该赛事的了解情况,进行了一次抽样调查,随机抽取该校男生和女生各80名作为样本.设事件“了解‘阳光杯’中学生篮球联赛”,“学生为女生”,已知,.
(1)完成下列列联表,并依据的独立性检验,能否认为该校学生对“阳光杯”中学生篮球联赛的了解情况与性别有关联?
了解
不了解
合计
男生
女生
合计
(2)现从该样本不了解“阳光杯”中学生篮球联赛的学生中,采用分层随机抽样的方法抽取10名学生,再从这10名学生中随机抽取2人,设抽取的2人中男生的人数为X,求X的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
21.(25-26高二下·宁夏银川·期中)人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市120名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于4次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
60
超过45岁
c
60
合计
120
(1)已知从这60名年龄超过45岁的教师中随机抽取2人,2人都喜欢使用技术的概率为.据此完善上面的列联表(最终答案写出参数的取值即可,无需在答题卡上绘制表格),并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,从不超过45岁的样本中,按是否喜欢使用技术进行分层,利用分层随机抽样方法,从中抽取10人进行简单的问卷调查,再从这10人中随机抽取3人进行专访,记抽取的3人中喜欢使用技术的人数为,求的分布列以及数学期望.
(3)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取3人,求其中至少2人喜欢使用技术的条件下,3人年龄均不超过45岁的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
22.(25-26高二下·上海松江·期中)某商场为了解顾客购买手机的意愿,随机调查了位顾客购买手机的情况,得到数据如下表.
购买手机
购买无技术的手机
总计
男性顾客
女性顾客
总计
(1)根据表中数据,判断是否有的把握认为购买手机与顾客的性别有关?并说明理由;
(2)从这位男性顾客中随机挑选位,求其中至少有位购买手机的概率(精确到);
(3)为促进手机的销量,该商场为购买手机的顾客设置了抽奖环节,共设一、二等奖两种奖项,分别奖励元、元手机话费,抽中一、二等奖的概率分别为和,其余情况不中奖.每位顾客允许连续抽奖两次,且两次抽奖相互独立.记某位顾客两次抽中的奖金之和为元,求随机变量的数学期望.
参考公式及数据:①,其中.
②,,,.
(
6
)
学科网(北京)股份有限公司
$
专题强化05:成对数据的统计分析
【题型归纳】
· 考点一:相关系数r及其分析
· 考点二:误差分析
· 考点三:列联表
· 考点四:等高条形图
· 考点五:独立性检验的实际应用
· 考点六:回归直线方程问题
· 考点七:最小二乘法的应用
· 考点八:数据分析的综合问题
【题型过关】
题型一:相关系数r及其分析
【典例1】.(25-26高二上·广西桂林·期末)已知为随机变量X和Y的样本相关系数,为随机变量M和N的样本相关系数,则下列说法正确的是( )
A.若,则X和Y负相关
B.若,则M和N线性不相关
C.若,,则X和Y的线性相关程度比M和N的线性相关程度强
D.若越接近1,则M和N的线性相关程度越弱
【答案】B
【分析】利用,且越接近1,线性相关程度越强,越接近0,线性相关程度越弱,结合每个选项的条件逐项判断即可.
【详解】A,若,则X和Y正相关,故A错误;
B,若,则M和N线性不相关,故B正确;
C,若,,则,
所以X和Y的线性相关程度比M和N的线性相关程度弱,故C错误;
D,若越接近1,则M和N的线性相关程度越强,故D错误.
故选:B
【变式1】.(25-26高二上·全国·单元测试)最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
【答案】A
【分析】根据相关系数公式计算即可求解.
【详解】,,
,
.
故选:A.
【变式2】.(24-25高二下·山东枣庄·期末)下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
【答案】A
【分析】由残差平方和越小的模型,拟合的效果越好可判断A;x与y线性相关越强,在线性回归直线上的点不一定越多,可判断B;两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,可判断C;值越大,则模型的拟合效果越好,可判断D.
【详解】对于A,残差平方和越小的模型,拟合的效果越好,故A正确;
对于B,x与y线性相关越强,在线性回归直线上的点不一定越多,故B错误;
对于C,两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故C错误;
对于D,值越大,则模型的拟合效果越好,故D错误.
故选:A.
题型二:误差分析
【典例2】.(25-26高二下·海南·期中)根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.决定系数变小 B.残差平方和变小
C.相关系数变大 D.不变
【答案】A
【详解】增加点,从散点图中可以看出拟合效果变差;
决定系数越接近1,拟合效果越好,所以拟合效果变差后决定系数变小,故A正确;
残差平方和越小,拟合效果越好,所以残差平方和变大,故B错误;
越接近1,相关程度越强,拟合效果越好,由于两个变量成正相关,所以相关系数变小,故C错误;
增加点前的的平均数为,增加点后的的平均数为,
所以变大,故D错误.
【变式1】.(25-26高二下·河南周口·阶段检测)下列命题正确的是( )
A.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.线性回归直线必过样本数据的中心点;
【答案】D
【分析】利用回归直线的性质,相关系数和决定系数的规定及残差分析的分析方式,逐项判断即可.
【详解】选项A:残差图中残差点所在的水平带状区域越宽,说明观测值与预报值之间的差距越大,数据分布越分散,因此回归方程的预报精确度就越差,所以选项A错误;
选项B:当相关系数时,说明两个变量正相关,所以选项B错误;
选项C:模型的决定系数越大,说明残差平方和越小,拟合效果越好,,所以模型甲的拟合效果更好,所以选项C错误;
选项D:回归直线的定义规定回归直线必过样本数据的中心点,所以选项D正确.
【变式2】.(24-25高二下·上海浦东新·期末)某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
【答案】D
【分析】观察图象,较其他的点偏离回归直线最大,去掉后,回归效果更好,结合相关系数、正负相关性、残差平方和以及相关性逐项分析判断.
【详解】观察图象知:较其他的点偏离回归直线最大,因此去掉后,回归效果更好,
对于A,相关系数越接近于1,线性相关性越强,
因此去掉后,相关系数的绝对值变大,A错误;
对于B,由表格数据可知越大,越大,所以相关变量具有正相关关系,B错误;
对于C,因为残差平方和越大,拟合效果越差,因此去掉后,残差平方和变小,拟合误差变小,C错误;
对于D,由选项A知,去掉后,相关系数的绝对值变大,
因此解释变量与响应变量的相关性变强,D正确.
故选:D
题型三:列联表
【典例3】.(25-26高二上·全国·单元测试)目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别
对汽车的偏好
体验流
技术流
总计
男
30
50
女
40
总计
100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
【答案】D
【分析】对于A,由题可完善列联表,据此可判断选项正误;对于BCD,由题意及独立性检验知识可判断选项正误.
【详解】对于A,由题意,补充完整的列联表如下:
性别
对汽车的偏好
体验流
技术流
总计
男
20
30
50
女
40
10
50
总计
60
40
100
则在样本中的女性中,按分层随机抽样的方法再抽取10人,应从“体验流”中抽取(人).故A错误;
对于BCD,对于成员甲有,
故小组成员甲有99%的把握认为对汽车的偏好与性别有关;
对于成员乙有,
故小组成员乙认为对汽车的偏好与性别无关.
综上,小组成员甲、乙计算出的值不同,他们得出的结论也不同.故B错误,C错误,D正确.
故选:D
【变式1】.(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【分析】求得卡方值,比对临界值,逐个判断即可.
【详解】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
【变式2】.(24-25高二下·广东广州·期末)为了解性别(变量x)与体育锻炼(变量y)是否有关,采取简单随机抽样的方法抽取50名学生,得到成对样本观测数据的分类统计结果,如表所示(单位:人),根据数据计算,并依据小概率值的独立性检验,附:,,下列结论不正确的是( )
锻炼
合计
不经常
经常
女生
15
5
20
男生
10
m
n
合计
25
25
50
A.
B.若从这50人中随机抽取1人,则经常锻炼的概率为
C.变量x与变量y独立,此推断犯错误的概率不超过0.005
D.变量x与变量y不独立,此推断犯错误的概率不超过0.005
【答案】C
【分析】AB选项,根据表中数据得到,概率为;CD选项,计算出卡方,与7.879比较后的结论.
【详解】A选项,根据表中数据可知,A正确;
B选项,若从这50人中随机抽取1人,则经常锻炼的概率为,B正确;
CD选项,,,
故变量x与变量y不独立,此推断犯错误的概率不超过0.005,C错误,D正确.
故选:C
题型四:等高条形图
【典例4】.(2026·天津·一模)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
【答案】C
【分析】借助分层随机抽样定义计算可得A;分别计算出购买燃油车的人数与购买新能源车的人数可得B;利用独立性检验定义可得C、D.
【详解】对A:,故新能源车主有人,故A错误;
对B:购买燃油车的人数为,
购买新能源车的人数为,
则购买燃油车的人数比新能源车的多人,故B错误;
对C、D:依据的独立性检验,即消费者的购车类型与地域有关联,
由,故此推断犯错误的概率不大于,故C正确、D错误.
【变式1】.(24-25高三·北京·一轮复习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【答案】C
【分析】通过对等高堆积条形图的分析,结合所列列联表及不等式性质,逐一对每个选项进行推理判断即可.
【详解】设等高条形图对应列联表如下:
岁及以上
岁以下
总计
男性
女性
总计
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
【变式2】.(24-25高三上·江西新余·阶段检测)如图为对某高中学生是否对父母说过“我爱你”这样的话的统计结果,则下列统计分析中不正确的是:( ).
A.男性被调查者没有对父母说过“我爱你”这样的话的人数比例高于女性
B.无论男女对母亲说“我爱你”这类话的比例都高于对父亲所说
C.大部分调查者没有对父母说过“我爱你”这样的话
D.经常对父母说“我爱你”这样的话的人数总计比例较女生比例有所下降,说明这张统计图的结果可能存在错误
【答案】D
【分析】根据统计图中的数据进行分析,判断每个选项的正确性.
【详解】对于A选项,观察统计图,比较男性和女性未对父母说过“我爱你”的比例,
发现男性未说的比例高于女性,所以A选项正确.
对于B选项,分别对比男女对母亲和对父亲说“我爱你”的比例,
能看出无论男女对母亲说的比例都高于对父亲说的比例,所以B选项正确.
对于C选项,从统计图整体来看,未说过“我爱你”的人数比例较大,
所以大部分调查者没有对父母说过“我爱你”这样的话,C选项正确.
对于D选项,经常对父母说“我爱你”的人数总计比例较女生比例有所下降,
并不能直接说明统计图结果存在错误,有可能是实际调查结果就是如此,所以D选项错误.
故选:D
题型五:独立性检验的实际应用
【典例5】.(25-26高二下·安徽宿州·阶段检测)“你好.我是,很高兴见到你我可以帮你写代码、读文件、写作各种创意内容,请把你的任务交给我吧”,从横空出世到与我们日常相伴,成为我们解决问题的“好参谋、好助手”,大模型正在改变着我们的工作和生活的方式.为了了解不同学历人群对的使用情况,随机调查了200人,得到如下数据:
单位:人
学历
使用情况
合计
经常使用
不经常使用
本科及以上
65
35
100
本科以下
50
50
100
合计
115
85
200
(1)依据小概率值的独立性检验,能否认为的使用情况与学历有关?
(2)某校组织“模型”知识竞赛,甲、乙两名选手在决赛阶段相遇,决赛阶段共有3道题目,甲、乙同时依次作答,3道试题作答完毕后比赛结束.规定:若对同一道题目,两人同时答对或答错,每人得0分;若一人答对另一人答错,答对的得10分,答错的得-10分,比赛结束累加得分为正数者获胜.两人分别独立答题互不影响,每人每次的答题结果也互不影响,若甲、乙两名选手正确回答每道题的概率分别为,.
(ⅰ)求比赛结束后甲获胜的概率;
(ⅱ)求比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)认为的使用情况与学历无关;
(2)(i)(ii)
【详解】(1)零假设为:的使用情况与学历无关,
根据列联表中的数据,
可得,
依据小概率值的独立性检验,没有充分证据证明推断不成立,
因此可以认为成立,即认为的使用情况与学历无关.
(2)(i)当甲,乙同时回答第道题时,甲得分为,
,
,
,
比赛结束甲获胜时的得分可能取值为10,20,30,
则,
,
,
所以比赛结束后,甲获胜的概率,
(ii)设“比赛结束后甲获胜”,“比赛结束后乙答对一道题”,
,
则,因此比赛结束后甲获胜的条件下,乙恰好回答对1道题的概率为.
【变式1】.(25-26高二下·四川宜宾·期末)研究表明,春季早晚温差大,由于个人体质不同,可能会导致感冒.某医学研究小组为了解20-30岁年轻人的体质健康是否与性别有关,在4月感冒易发季节对某一小区中该年龄段的年轻人进行了随机抽样,得到如列联表.
性别
健康状况
感冒
不感冒
合计
男
8
14
女
4
24
合计
(1)在上述感冒的年轻人中按照性别采用分层抽样的方法抽取6人,再从这6人中随机选取3人访谈,记参与访谈的男性人数为,求的分布和期望;
(2)补全上表,并在犯错误的概率不超过0.05的前提下,20-30岁年轻人的体质健康与性别是否有关?
参考数据:参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)
1
2
3
(2)
性别
健康状况
感冒
不感冒
合计
男
8
14
22
女
4
24
28
合计
12
38
50
所以在犯错误的概率不超过0.05的前提下,认为20-30岁年轻人的体质健康与性别无关.
【分析】(1)利用分层抽样的方法抽取6人,则抽取男性4人,女性 2人,随机变量的所有取值为,求出对应概率,即可列出分布列,求出期望;
(2)根据列联表中的数据, 经计算得到,再和参考数据表中对应的数据比较,即可得到结论.
【详解】(1)在上述感冒的年轻人中按照性别采用分层抽样的方法抽取6人,
再从这6人中随机选取3人访谈,
记参与访谈的男性人数为,
样本中感冒的男性有8人,女性有4人,比例为2∶1,
按照性别采用分层抽样的方法抽取6人,则抽取男性4人,女性2人,
随机变量的所有取值为1,2,3,
,,,
所以的分布列为:
1
2
3
所以.
(2)零假设:20-30岁年轻人的体质健康与性别无关,
根据列联表中的数据,得到,
因为,假设成立,
所以在犯错误的概率不超过0.05的前提下,认为20-30岁年轻人的体质健康与性别无关.
【变式2】.(2026·江西·二模)羽毛球运动在我国是非常受大众喜爱的一项运动,但自2023年以来,由于多种原因,羽毛球价格经历多轮上涨,部分高端型号涨幅甚至超过同期黄金涨幅,越来越多的球友直呼快打不起球了.我国某著名体育厂商抓住这个历史机遇推出了人造羽毛球,名为碳音球,这款羽毛球采用碳纤维复合材料替代天然羽毛,其飞行轨迹与击球手感接近天然羽毛球,但价格却只有天然羽毛球的60%到70%,该羽毛球一经上市便引起热烈反响,但舆论对其评价褒贬不一.某市场调查机构调查了男性和女性各100名羽毛球爱好者对碳音球和天然羽毛球的偏好程度,现统计得出样本中偏好碳音球的人数占样本总数的45%,其中偏好碳音球的女性羽毛球爱好者有50人.
偏好碳音球
偏好天然羽毛球
合计
男性
女性
50
合计
200
(1)请根据已知条件将上述列联表补充完整,并分析是否有90%的把握认为两种羽毛球的偏好与性别有关?
(2)现从男性羽毛球爱好者中按对碳音球和天然羽毛球的偏好采用分层抽样的方法抽取10人,然后从这10人中随机抽取3人参加有奖问答,记3人中偏好碳音球的人数为,求的分布列和数学期望.
(3)若某羽毛球俱乐部的男女比例为3:2.将样本的频率视为概率,现从该俱乐部中随机抽取一人,已知此人偏好碳音球,求其为男性的概率.
附:
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)
偏好碳音球
偏好天然羽毛球
合计
男性
40
60
100
女性
50
50
100
合计
90
110
200
没有的把握认为两种羽毛球的偏好与性别有关
(2)
0
1
2
3
(3)
【分析】(1)完善列联表,计算出卡方,即可判断;
(2)利用超几何分布的概率公式求出分布列,从而求出数学期望;
(3)根据全概率公式及条件概率公式计算可得.
【详解】(1)依题意可得列联表如下:
偏好碳音球
偏好天然羽毛球
合计
男性
40
60
100
女性
50
50
100
合计
90
110
200
,
没有的把握认为两种羽毛球的偏好与性别有关.
(2)依题意男性羽毛球爱好者偏好碳音球的抽取人,
偏好天然羽毛球的抽取人,
则的可能取值为,,,,
则,,
,,
则的分布列为,
0
1
2
3
所以的数学期望为: ;
(3)记事件A为:抽取的人偏好碳音球:事件B为:抽取的人性别为男性,
则,
由全概率公式得,
则,即此人为男性的概率为.
题型六:回归直线方程问题
【典例6】.(25-26高二下·广东湛江·阶段检测)某电子商城统计了最近5个月某品牌电脑的实际销量,如下表所示:
时间x(月份)
1
2
3
4
5
销量y(百台)
0.3
0.4
0.6
0.7
0.9
若y与x线性相关,且经验回归方程为:,则下列说法错误的是( )
A.变量x,y正相关
B.回归直线一定过样本中心
C.
D.可以预测当时,商城内该电脑的销量为1百台
【答案】D
【分析】求出样本中心点,进而求出经验回归方程,再逐项求解判断.
【详解】对于A,由,得变量x,y正相关,A正确;
对于B,样本中心点一定在回归直线上,B正确;
对于C,,因此,C正确;
对于D,,当时,(百台),D错误.
【变式1】.(2026·安徽铜陵·模拟预测)已知变量x和y有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则( )
x
2
3
4
5
y
4
7
8
13
A.经验回归直线必过点
B.
C.当时,预测值
D.当时,样本点对应的残差为0.2
【答案】D
【详解】对于A,因为,,
所以经验回归直线必过点,A错误;
对于B,因为经验回归直线的方程为,且该直线过点,
所以,解得,B错误;
对于C,将代入经验回归方程得,C错误;
对于D,当时,实际值,预测值,
所以残差为,D正确.
【变式2】.(25-26高二下·黑龙江哈尔滨·期中)为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,.则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.用最小二乘法求得关于的线性回归直线方程为
D.如果研发投入亿元,估计产品收益为亿元
【答案】C
【分析】根据条件求出,,即可求解判断选项A;画出散点图即可判断选项B;根据公式求出回归方程即可判断选项C;结合选项C,将代入计算即可判断选项D.
【详解】对于A,依题意得,,故A正确;
对于B,由图表可得散点图如下,由散点图知变量和正相关,故B正确;
对于C,由,,,,所以,故C错误;
对于D,结合选项C,当时,,故D正确.
题型七:最小二乘法的应用
【典例7】.(25-26高二下·河北邢台·期中)近几年新能源汽车发展很快,2025年我国在世界纯电动车市场份额占,下面是某新能源汽车制造公司从2019年至2025年的利润情况表:
年份
2019
2020
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
6
7
利润亿元
29
33
36
44
48
52
59
(1)根据表中的数据,推断变量与之间是否线性相关,计算与之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出关于的经验回归方程,并预测该新能源汽车制造公司2030年的利润.
参考数据:,,.
参考公式:对于一组数据,,,,①相关系数;②经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1),可以推断变量与线性相关且相关程度很强.
(2),83亿元.
【详解】(1)由题设,且,,,
,
由于,可以推断变量与线性相关且相关程度很强.
(2)因为,
,
所以关于的经验回归方程为,
当2030年对应的年份代码时,,即预测该新能源汽车制造公司2030年的利润为83亿元.
【变式1】.(25-26高二下·河北沧州·期中)新型模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图像数据对一种新型降噪模型进行实验,对使用该模型后,图像中的噪声残留量y(单位:个/像素)进行检测,统计得到下表:
第x轮迭代
1
2
3
4
5
噪声残留量y(个/像素)
67
57
50
42
34
并计算得:.
(1)计算变量x(迭代轮数)和变量y(噪声残留量)的样本相关系数r(r的值精确到0.001);
(2)若图像中的噪声残留量不高于10个/像素,则说明数据降噪完成.用最小二乘法求y关于x的经验回归方程,并预测该模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,,.
【答案】(1)
(2),8
【详解】(1)由题可得:,
,
样本相关系数;
(2)噪声残留量y的取值为67,57,50,42,34,
所以,
根据题意可得,
所以y关于x的经验回归方程为,
要使图象中的噪声残留量不高于10个/像素,则,
即,所以该AI模型至少需要迭代8轮才可以完成降噪.
【变式2】.(25-26高二下·河南南阳·期中)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2025年前5个月的带货金额:
月份x
1
2
3
4
5
带货金额y/万元
350
440
580
700
880
(1)求y关于x的线性回归方程,并据此预测2025年7月份该公司的直播带货金额;
(2)该公司随机抽取55人进行问卷调查,得到如下不完整的列联表:
参加过直播带货
未参加过直播带货
总计
女性
30
35
男性
10
总计
请填写上表,并判断是否有99.5%的把握认为参加直播带货与性别有关?
参考数据:,,,.
参考公式:,;
,其中.
0.025
0.010
0.005
0.001
5.024
6.635
7.879
10.828
【答案】(1),1118万元
(2)列联表见解析,有99.5%的把握认为参加直播带货与性别有关
【分析】(1)由系数公式直接计算即可求解;
(2)由计算公式,再比较临界值即可求解.
【详解】(1)因为,,
,,
所以,,
所以y关于x的线性回归方程为,
当时,(万元),
所以预测2025年7月份该公司的直播带货金额为1118万元;
(2)补全完整的列联表如下:
参加过直播带货
未参加过直播带货
总计
女性
30
5
35
男性
10
10
20
总计
40
15
55
根据以上数据,经计算得到.
因为,所以有99.5%的把握认为参加直播带货与性别有关.
题型八:数据分析的综合问题
【典例8】.(25-26高三上·湖北黄冈·期末)有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,男生、女生各取100人.设事件“学生愿意报名参加答题活动”,“学生为男生”,据统计.
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关?
性别
男生
女生
合计
不愿报名参加答题活动
愿意报名参加答题活动
合计
200
(2)网络答题规则:假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
(i)若答题活动设置且道题,甲仅答对其中10道题的概率最大,求的值.
(ii)若答题活动设置4道题,且答题规则如下:每次答一题,一旦答对,则结束答题;答错则继续答题,直到4道题答完.已知甲同学报名参加答题活动,用表示在本次答题的题目数量,求的分布列和期望.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,认为学生报名参加答题活动与性别有关联
(2)(i);(ii)的分布列见解析,
【分析】(1)根据题设,结合条件概率的定义求出数据,进而完成列联表,再计算出的值判断即可;
(2)(i)设随机变量Y为甲答对题目的个数,则,根据二项分布的概率性质建立不等式组即可求解;(ii)写出的所有可能取值,结合独立事件的概率特征求出对应的概率,从而可写出的分布列及期望.
【详解】(1)因为,所以愿意报名参加答题活动人数为,
又因为,所以愿意报名参加答题活动的男生人数为,愿意报名参加答题活动的女生人数为,则可得到列联表为:
性别
男生
女生
合计
不愿报名参加答题活动
20
60
80
愿意报名参加答题活动
80
40
120
合计
100
100
200
零假设为:学生报名参加答题活动与性别无关,
则,
依据小概率值的独立性检验,我们推断不成立,
即认为学生报名参加答题活动与性别有关联,此推断犯错误的概率不大于0.001;
(2)(i)设随机变量Y为甲答对题目的个数,则.
则,
假设最有可能答对题目的数量是10次,则
即:
解得,又,则;
(ii)的所有可能取值为:1,2,3,4,
,,,
,
所以的分布列为:
X
1
2
3
4
P
故.
【变式1】.(25-26高二下·山东德州·阶段检测)某县博物馆国庆期间统计连续5天进入该博物馆参观的游客人数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.3
3.1
4.3
4.6
5.7
(1)由上表数据看出,可用线性回归模型拟合与的关系,求出关于的线性回归方程;
(2)国庆五天假期博物馆开放1号门、2号门和3号门供游客出入,游客从1号门、2号门和3号门进入博物馆的概率分别为,且出馆与进馆选择相同门的概率为,选择与进馆不同两门的概率各为.假设游客从1号门、2号门、3号门出入博物馆互不影响,现有甲、乙、丙、丁4名游客于10月2日进馆参观,设为4人中从2号门出馆的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
【答案】(1)
(2)的分布列为:
,
【分析】(1)先算出和,再代入公式求出回归系数和截距,最终可得到线性回归方程;
(2)先由全概率公式求出单个游客从2号门出馆的概率,可知服从二项分布,再根据二项分布的概率计算公式求出每个概率值,从而写出分布列,进而求出期望和方差.
【详解】(1)依题意,,而,,,
所以,,
因此,线性回归方程为.
(2)记“甲从2号门出馆”为事件,“甲从1号门进馆”为事件,
“甲从2号门进馆”为事件,“甲从3号门进馆”为事件,
由题意可得,,,,.
由全概率公式得:
.
同理乙、丙、丁从号门出馆的概率也为,
因为为人中从号门出馆的人数,则,
所以,,
,,
,
故的分布列为:
,.
【变式2】.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
【答案】(1)分布列见解析,;
(2).
【分析】(1)先求出每一轮成功和失败的概率,再由条件概率公式求解即可;
(2)设,则回归方程为,根据所给数据和公式,求出的值,再代回,即可得答案.
【详解】(1)由题意可知:
第1轮:盒子中共有3个小球(2白1黑),
所以成功的概率为,所以失败的概率为;
第2轮:盒子中共有4个小球(3白1黑),
所以成功的概率为,所以失败的概率为;
第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮;
所以,,,
所以的分布列如下:
所以
(2)设,则回归方程为,
因为,,,,,
且,
所以,
所以.
所以回归方程为,
又因为,
所以回归方程为.
【专题通关】
一、单选题
1.(25-26高二下·天津滨海新区·阶段检测)下列命题中正确的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量没有关系
B.在一组样本数据,(,,不全相等)的散点图中,若所有样本点()都在直线上,则这组样本数据的线性相关系数为
C.在回归直线中,变量时,变量的值一定是15
D.决定系数越大,说明模型拟合效果越好
【答案】D
【分析】根据独立性检验、线性相关系数、线性回归方程、决定系数的定义逐一判断各选项正误即可.
【详解】对于A:若,且,则根据小概率值的独立性检验,没有充分理由说明原假设成立,可认为两个分类变量有关系,A错误;
对于B:线性相关系数的取值范围为,当所有样本点都在斜率为负的直线上时,样本数据完全负性相关,此时线性相关系数,故B错误;
对于C:回归直线计算得到的是预测值,当时,为变量的预测值,实际值不一定为15,故C错误;
对于D:决定系数可以刻画回归模型的拟合效果,越大,说明残差平方和越小,模型的拟合效果越好,D正确.
2.(25-26高二下·天津·期末)利用独立性检验的方法调查高中生爱好某项运动与性别是否有关,通过随机调查200名高中生是否爱好某项运动,利用列联表,计算可得,参照下表,得到的正确结论是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.有的高中生爱好该项运动
B.有以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”
D.在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”
【答案】D
【详解】根据题意知,观测值,参照附表,得,
所以在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”.
3.(25-26高二下·重庆·期中)现有10个样本数据,,,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C.2 D.3
【答案】D
【详解】根据题意可知,经验回归方程为,且,
因回归直线过样本中心点,可得,
所以原个样本数据的的值总和为,
去掉后,剩余个样本的的值总和为,的值总和为,
因此新的样本中心点为,依题意新的经验回归直线经过点,
故得,解得.
4.(25-26高二下·山东泰安·阶段检测)新泰中学为了解高一高二学生的校园活动偏好,随机抽取两个年级各200名学生,调查他们参与科技类、文艺类活动的情况,并用等高堆积条形图直观地展示调查结果如图所示,经计算得到.下表是独立性检验中几个常用的小概率值和相应的临界值,下列说法正确的是( )
A.在调查的高一学生中,若按比例分层随机抽样抽取20人,则参加科技类的学生有8人
B.在调查的高二学生中,选择文艺类比选择科技类的学生多20人
C.依据的独立性检验,我们认为年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于
D.依据的独立性检验,我们认为年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于
【答案】C
【分析】由等高堆积条形图,可以分别求出高一、高二学生中参加科技类活动人数与参加文艺类活动人数之比,从而根据分层抽样求出人数,即可判断选项和;根据,对照临界指表,即可判断选项和.
【详解】由等高堆积条形图可知,高一学生中参加科技类活动人数与参加文艺类活动人数之比为,
所以按比例分层随机抽样抽取人,则参加科技类的学生有人,错误;
由等高堆积条形图可知,高二学生中参加科技类活动人数与参加文艺类活动人数之比为,
所以参加科技类活动人数为人,参加文艺类活动人数为人,
所以调查的高二学生中,选择文艺类比选择科技类的学生多人,错误;
已知,根据临界值表可得,
依据的独立性检验,我们认为年级与校园活动偏好类型的选择有关联,此推断犯错的概率不大于,
所以正确;
因为,不满足,因此不能依据的独立性检验得出结论,
所以错误.
5.(2026·天津河北·二模)以下结论错误的是( )
A.命题:“,”的否定为“,”
B.设随机变量服从正态分布,若,则
C.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
D.回归直线一定过样本中心
【答案】C
【分析】对于A,根据存在量词命题的否定为全称量词命题即可判断;对于B,根据正态分布的特征判断;对于C,根据决定系数的意义判断;对于D,根据回归直线的特征判断.
【详解】对于A,命题:“,”的否定是“,”,故A正确;
对于B,根据正态分布的性质可知,,则,那么
,所以,,故B正确;
对于C,用决定系数来刻画回归效果,越大拟合效果越好,故C错误;
对于D,样本中心点一定在回归直线上,故D正确.
6.(2026·天津河西·三模)为了解高三年级学生参与“人工智能辅助学习”的频次(次/周)与数学模拟测试成绩(分)之间的关系,学校收集了一组成对数据,计算可得样本平均数,,通过数据分析求得经验回归方程为,下列关于这组数据的统计分析中,说法错误的是( )
A.变量与呈正相关关系
B.经验回归直线必过样本中心点,且
C.若某学生每周参与辅助学习6次,其测试成绩为110分,则该样本点的残差为
D.若这组数据的残差平方和越小,则决定系数越小,说明经验回归模型的拟合效果越好
【答案】D
【详解】选项 A:回归方程中的系数为 ,所以变量与呈正相关关系,A正确.
选项 B:经验回归直线必过样本中心点 ,
将样本中心代入回归方程 进行验证,
可得 ,满足回归直线性质,B正确.
选项 C:当时,预测值 ,
残差 ,C 正确.
选项 D:残差平方和越小,决定系数越大,说明模型拟合效果越好,D 错误.
7.(25-26高二下·河南南阳·阶段检测)已知变量和满足经验回归方程,且变量和之间的一组相关数据如表所示,则下列说法错误的是( )
A.变量和呈负相关 B.当时,一定等于
C. D.该经验回归直线必过点
【答案】B
【分析】依据经验回归方程的性质、正负相关判断规则、样本中心点的性质逐一判断各选项正误
【详解】对A:经验回归方程的斜率为,故变量和呈负相关,A正确;
对B:经验回归方程的计算结果是变量的估计值,而非确定值,
当时, ,
仅说明的估计值为,并非一定等于,故B错误;
对C:计算样本均值,经验回归直线必过样本中心点,
代入方程得,又,解得,故C正确;
对D:由上述分析知,,故经验回归直线必过点,D正确.
二、多选题
8.(25-26高二下·河北衡水·期末)下列说法中正确的是( )
A.若随机变量X,Y满足,则
B.两个随机变量的线性相关程度越强,样本相关系数的绝对值越接近1
C.经验回归直线至少经过其样本数据点中的一个点
D.若事件M,N满足,,,则
【答案】AB
【详解】选项A:根据方差的运算性质,对任意常数,有,
本题中,因此,A正确.
选项B:样本相关系数的绝对值常用来度量两个随机变量线性的相关程度,其绝对值越接近1,表示线性相关程度越强,B正确.
选项C:经验回归直线一定经过样本中心点,但不一定经过其中的样本数据点,C错误.
选项D:由条件概率性质,,因此,D错误.
9.(25-26高二下·重庆·阶段检测)下列命题中正确的是( )
A.决定系数越大,残差平方和越小,模型拟合效果越好
B.若,两组成对数据的样本相关系数分别为,,则组数据比组数据的线性相关性强
C.在经验回归方程中,若,,则变量与正相关
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验(),可认为与有关
【答案】ACD
【分析】根据决定系数的意义判断A选项;根据线性相关系数的意义判断B选项;根据回归方程的意义判断C选项;根据独立性检验的意义判断D选项.
【详解】根据决定系数越大,模型拟合效果越好,残差的平方和越小,故A正确,
根据样本相关系数越接近1,线性相关性越强,因为,
故组数据比组数据的线性相关性强,故B错误;
根据经验回归方程必然过点,代入可得,解得,
故变量与正相关,故C正确;
根据独立性检验,,故根据小概率值的独立性检验,可认为与有关.
10.(25-26高二下·辽宁沈阳·期中)某设备的使用年限(年)和所支出的维修费用(万元)有如下表的统计资料:
2
3
4
5
6
2.2
3.8
6.5
7.0
已知根据表中原始数据得回归直线方程为.某位工作人员在查阅资料时发现表中有个数据模糊不清了,下列说法正确的是( )
A.所支出的维修费用与使用年限正相关
B.估计使用10年维修费用是12.38万元
C.根据回归方程可推断出模糊不清的数据的值为5
D.第3年维修费用的残差为0.03万元
【答案】ABD
【分析】根据线性回归方程斜率判断A;利用线性回归方程预测的情况判断B;由可求出模糊数据判断C;根据残差公式计算即可判断D.
【详解】解:因为回归直线斜率大于0,所以所支出的维修费用与使用年限正相关,A正确;
将代入回归直线方程得,B正确:
,,
则模糊数据为,C错;
时,估计值,而实际值为,
则第3年维修费用的残差为0.03万元,故D正确.
11.(25-26高二下·河南南阳·期中)已知相关系数,关于的线性回归方程中斜率和截距的最小二乘估计公式分别为,,已知变量与变量的部分数据,建立由最小二乘法得到的两个回归模型:以为自变量,为因变量,得出的线性回归方程为;以为自变量,为因变量,得出的线性回归方程为,若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量的方差,则可得知变量的标准差
B.若已知变量的方差,则不可得知变量的标准差
C.若不给定其他信息,则也可得知变量与变量各自的平均值
D.若不给定其他信息,则也可得知变量与变量的相关系数
【答案】ACD
【分析】根据方差,标准差,相关系数和的定义和表达式,得到及其他关系式,结合数据,代入求值,得到答案
【详解】对于D,以为自变量,为因变量,得出的线性回归方程为,
故,
以为自变量,为因变量,得出的线性回归方程为,
故,
故,
且回归系数为负数,故相关系数,D正确.
对于A,设变量与变量的标准差分别为,,
则,,,
所以
即,
代入已知数据得,即,
若已知变量的方差,即可求得,进而代入上式求得,A正确.
对于B,若已知变量的方差,即可求得,进而代入求得,B错误.
对于C,线性回归直线经过样本中心点,
代入两个回归方程得与,联立解得,,
故不给定其他信息也可得知变量与变量各自的平均值,C正确.
12.(2026·山东淄博·三模)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的若干种价格进行试销,统计了连续5个月的月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表所示.则( )
售价x(元/件)
10
11
12
13
14
月销售量y(千件)
10
9
9
7
5
参考公式:①;②;③.
参考数据:,,,.
A.y关于x的线性回归方程为:
B.相关系数(小数点后保留两位)
C.当售价为15元/件时,预测月销售量为3.4千件
D.在线性回归方程的估计下,样本点的残差为
【答案】ABD
【分析】由已知公式求得线性回归方程可判断ACD,由相关系数计算公式可判断B.
【详解】计算均值: , ,
选项A:根据公式,
,
线性回归方程为,A正确;
选项B:相关系数,B正确;
选项C:代入回归方程: ,预测月销售量为千件,不是千件,C错误;
选项D:时, ,残差 ,D正确.
三、填空题
13.(25-26高二下·四川宜宾·期末)由样本数据(),求得回归直线方程为,且,,则相应于样本点的残差值为______.
【答案】1
【分析】由残差公式求解即可.
【详解】将点代入回归直线方程为,得,
得,
得,
则样本点的残差值为:.
14.(2026高二·全国·专题练习)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数______.
【答案】/
【分析】假设甲输入的为,即可求得以及,然后将正确数据代入,即可求得样本中心点,代入回归直线方程即可得到结果.
【详解】由题意可得,假设甲输入的为,
则,则,
且,则,
则改为正确数据时,,即,
,即,
所以正确的样本中心点为,
将点代入回归直线方程,得.
15.(2026高二·全国·专题练习)已知一系列样本点满足,,由最小二乘法得到与的回归方程,其中,.现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则_____.
【答案】/
【详解】.
16.(2026·江苏南通·三模)为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________.
【答案】 /
【详解】由,且,即有的把握认为二者存在关联,
由题设,则,
所以随机抽取一名学生,其成绩达标的概率为.
17.(25-26高二上·全国·课前预习)设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的__________是度量两个变量x与y之间线性相关程度的统计量,其计算公式为,其中,,,它们分别是这两组数据的算术平均数.
【答案】线性相关系数
【分析】利用线性相关系数的定义分析即可.
【详解】根据相关系数的定义,,
其中,,,它们分别是这两组数据的算术平均数.
和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量.
故答案为:线性相关系数
四、解答题
18.(25-26高二下·重庆·阶段检测)2026年春节期间,电影《飞驰人生3》、《镖人》持续火爆,现对电影《镖人》从正月初一到正月初六的单日票房统计如下表:(由于统计原因,本题的数据与实际情形可能存在误差,以题目给出的数据为准).
日期
初一
初二
初三
初四
初五
初六
上映第x天
1
2
3
4
5
6
票房y(单位:亿元)
0.9
1.2
1.3
1.5
1.3
1.6
(1)根据数据建立单日票房y关于上映天数x的线性回归方程,并预测第七日的票房收入(计算结果均保留一位小数);
(2)在某天放映结束后,随机抽取6名观众,发现其中有4人看过《镖人》,3人看过《飞驰人生3》,只有1人两部电影均没看过,现从这6人中随机抽取3人,记X为抽取的3人中两部电影都看过的人数,求X的分布列及方差,参考数据及公式如下:
参考数据:,,,.
参考公式:,.
【答案】(1)线性回归方程为,第七日票房预测为1.6亿元;
(2)的分布列为:
0
1
2
方差(或0.4).
【分析】(1)先计算,,代入回归系数公式计算即可;
(2)根据题意得出的可能取值为,根据超几何分布计算其概率,再根据方差公式即可求解.
【详解】(1)因为,,
所以,
,
所以回归方程为:,当时,亿元,
正月初七,预计《镖人》的票房为亿元.
(2)由题意可知,人中同时看过两部电影的只有人,
所以的可能取值为,
则,,,
所以的分布列为:
数学期望为.
则.
19.(25-26高三·全国·一轮复习)文旅部门统计了某网红景点在2025年3月至7月的旅游收入(单位:万),得到以下数据:
月份
3
4
5
6
7
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,能否在犯错误的概率不超过0.001的情况下认为“游客是否喜欢该网红景点与性别有关联”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,
参考数据:.线性回归方程:,其中,.
.
临界值表:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)可用线性回归模型拟合与的关系,.
(2)能够在犯错误的概率不超过0.001的情况下认为“游客是否喜欢该网红景点与性别有关联”
【分析】(1)计算,从而得出可用线性回归模型拟合与的关系,再根据最小二乘法求出即可得解.
(2)补全列联表,计算卡方的值,进而判断即可.
【详解】(1)由已知得:
,,,,,
,因为 ,
说明与的线性相关关系很强.
可用线性回归模型拟合与的关系,
,
则关于的线性回归方程为:.
(2)列联表如下所示:
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
根据列联表中数据,,
所以能够在犯错误的概率不超过0.001的情况下认为“游客是否喜欢该网红景点与性别有关联”.
20.(2026·贵州毕节·三模)“阳光杯”中学生篮球联赛是毕节市威宁自治县极具本土特色的体育赛事,赛事深度融合威宁多民族文化与高原风情,是当地群众最喜爱的体育赛事之一.威宁县某中学为了研究不同性别的学生对该赛事的了解情况,进行了一次抽样调查,随机抽取该校男生和女生各80名作为样本.设事件“了解‘阳光杯’中学生篮球联赛”,“学生为女生”,已知,.
(1)完成下列列联表,并依据的独立性检验,能否认为该校学生对“阳光杯”中学生篮球联赛的了解情况与性别有关联?
了解
不了解
合计
男生
女生
合计
(2)现从该样本不了解“阳光杯”中学生篮球联赛的学生中,采用分层随机抽样的方法抽取10名学生,再从这10名学生中随机抽取2人,设抽取的2人中男生的人数为X,求X的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表如下:
了解
不了解
合计
男生
40
40
80
女生
20
60
80
合计
60
100
160
依据的独立性检验,认为该校学生对“阳光杯”赛事的了解情况与性别有关联.
(2)X的分布列为:
X
0
1
2
P
数学期望为.
【分析】(1)先根据条件概率求得人数完善列联表,再代入公式求出,将该值与临界值比较即可求解.
(2)先根据分层抽样确定抽取的男生人数和女生人数,再写出所有可能取值并计算相应的概率,列出分布列并根据数学期望公式可得出答案.
【详解】(1)由题意,,
可知“了解‘阳光杯’中学生篮球联赛”的女生有人,则不了解联赛的女生有60人
“了解‘阳光杯’中学生篮球联赛”的男生有 人,则不了解联赛的男生有40人.
所以
了解
不了解
合计
男生
40
40
80
女生
20
60
80
合计
60
100
160
零假设:该校学生对“阳光杯”赛事的了解情况与性别无关.
依题意,
则,
依据的独立性检验,推断不成立,所以认为该校学生对“阳光杯”赛事的了解情况与性别有关联.
(2)由(1)知,抽取的10名学生中,男生有4人,女生有6人.
可能的取值为0,1,2
则,,
X的分布列为
X
0
1
2
P
数学期望
21.(25-26高二下·宁夏银川·期中)人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市120名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于4次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
60
超过45岁
c
60
合计
120
(1)已知从这60名年龄超过45岁的教师中随机抽取2人,2人都喜欢使用技术的概率为.据此完善上面的列联表(最终答案写出参数的取值即可,无需在答题卡上绘制表格),并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,从不超过45岁的样本中,按是否喜欢使用技术进行分层,利用分层随机抽样方法,从中抽取10人进行简单的问卷调查,再从这10人中随机抽取3人进行专访,记抽取的3人中喜欢使用技术的人数为,求的分布列以及数学期望.
(3)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取3人,求其中至少2人喜欢使用技术的条件下,3人年龄均不超过45岁的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表见解析,依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关.
(2)分布列见解析,,
(3)
【分析】(1)根据组合计数原理以及古典概型的概率公式可得出关于的方程,解出的值,可完善二列联表,利用独立性检验可得结论;
(2)根据超几何的概率公式即可求解分布列,
(3)求出、的值,利用条件概率公式可求得结果.
【详解】(1)设超过45岁的教师中喜欢使用技术的有人,
由题意可得,即,整理可得,
因为,解得.
补充列联表如下
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
54
6
60
超过45岁
36
24
60
合计
90
30
120
零假设该市教师喜欢使用技术与年龄无关,
.
依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关.
(2)根据表中数据可知:不超过45岁的人群中,喜欢和不喜欢使用技术的人数比为,
因此抽取的10人中,喜欢使用技术的有9人,不喜欢使用技术的有1人,
故可取2,3,
且,
故的分布列为
2
3
故
(3)记事件A为至少2人喜欢使用技术,事件B为3人年龄均不超过45岁.
全市某名中学教师喜欢使用技术的概率,
不超过45岁且喜欢使用的概率,
所以,
,
由条件概率公式可得.
22.(25-26高二下·上海松江·期中)某商场为了解顾客购买手机的意愿,随机调查了位顾客购买手机的情况,得到数据如下表.
购买手机
购买无技术的手机
总计
男性顾客
女性顾客
总计
(1)根据表中数据,判断是否有的把握认为购买手机与顾客的性别有关?并说明理由;
(2)从这位男性顾客中随机挑选位,求其中至少有位购买手机的概率(精确到);
(3)为促进手机的销量,该商场为购买手机的顾客设置了抽奖环节,共设一、二等奖两种奖项,分别奖励元、元手机话费,抽中一、二等奖的概率分别为和,其余情况不中奖.每位顾客允许连续抽奖两次,且两次抽奖相互独立.记某位顾客两次抽中的奖金之和为元,求随机变量的数学期望.
参考公式及数据:①,其中.
②,,,.
【答案】(1)有的把握认为购买手机与顾客的性别有关,理由见解析
(2)
(3)
【分析】(1)根据题设中的数据计算,结合临界值表可判断的把握认为购买手机与顾客的性别有关;
(2)利用对立事件可求至少有位购买手机的概率;
(3)先求出的分布列,再根据期望公式可求,或者利用独立事件的期望公式求出.
【详解】(1)作原假设:购买手机与顾客的性别无关,取,
根据题意,代入数据,得 ,
因为,所以否定原假设,即有的把握认为购买手机与顾客的性别有关.
(2)由题意得.
(3)解法一:由题意得,随机变量的可能取值为 ,
而,,
,,
,,
故的分布列为
期望.
解法二:设第次抽中奖金为(),则,
由题设可得()的分布列为
从而,而,相互独立,
故.
(
6
)
学科网(北京)股份有限公司
$