内容正文:
第08讲 成对数据的统计分析
【复习目录】
· 一、变量的相关关系
· 二、样本相关系数
· 三:残差的计算
· 四、相关指数的计算及分析
· 五、一元线性回归方程意义分析
· 六、根据样本中心点求参数
· 七、最小二乘法
· 八、列联表与独立性检验
· 九、成对数据的统计分析综合问题
【知识梳理】
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程, ,
(2)残差:观测值减去预测值,称为残差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
(2)计算随机变量χ2=,利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
【题型归纳】
题型一、变量的相关关系
1.(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的成本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
2.(23-24高二下·安徽·期末)下列两个变量之间的关系是相关关系的是( )
A.等边三角形的边长a与其面积S
B.匀速直线行驶的汽车的位移s与行驶时间t
C.杂交水稻植株的高度h与土壤湿润度r
D.某班的学生人数n与该班某次数学考试的平均分x
3.(23-24高二下·吉林·期末)下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
题型二、样本相关系数
4.(23-24高二下·广东清远·期末)通过计算样本相关系数可以反映两个随机变量之间的线性相关程度,以下四个选项中分别计算出四个样本的相关系数,则反映样本数据成正相关,并且线性相关程度最强的是( )
A. B.
C. D.
5.(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
6.(23-24高二下·安徽·阶段练习)设某制造公司进行技术升级后的第x个月()的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为,若时的观测值,则时的残差为( )
A. B.1 C.3 D.6
题型三:残差的计算
7.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
8.(20-21高二下·山东菏泽·期末)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
研发投入费用
2.2
2.6
4.3
5.0
5.9
销售量
3.8
5.4
7.0
10.35
12.2
根据表中的数据可得回归直线方程,相关系数,以下说法正确的是( )
A.第四个样本点对应的残差,回归模型的拟合效果一般
B.第四个样本点对应的残差,回归模型的拟合效果较好
C.销售量的多少有96%是由研发投入费用引起的
D.销售量的多少有4%是由研发投入费用引起的
9.(21-22高三下·海南省直辖县级单位·阶段练习)从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)数据如下表:
x
165
165
157
170
175
165
155
170
y
48
57
50
54
64
61
43
59
若已知y与x的线性回归方程为,设残差记为观测值与预测值之间的差(即残差)那么选取的女大学生身高为175cm时,相应的残差为 .
题型四、相关指数的计算及分析
10.(23-24高二下·河北石家庄·期末)已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
11.(21-22高二下·宁夏·阶段练习)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是 .①>,②<,③<,④>.
12.(23-24高二下·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
题型五、一元线性回归方程意义分析
13.(23-24高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数的绝对值越接近0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点一定在经验回归直线上
D.若经验回归方程为,则每增加1个单位,的值就增加10个单位
14.(23-24高二上·辽宁·期末)下列有关回归分析的说法正确的是( )
A.样本相关系数越大,则两变量的相关性就越强.
B.回归直线就是散点图中经过样本数据点最多的那条直线.
C.回归直线方程不一定过样本中心点.
D.回归分析中,样本相关系数,则两变量是负相关关系.
15.(22-23高二下·福建泉州·期末)已知由样本数据点集合,求得的回归直线方程为,且.现发现两个数据点和误差较大,去除这两点后重新求得的回归直线方程的斜率为,则正确的是( )
A.变量与具有负相关关系
B.去除后的估计值增加速度变快
C.去除后回归方程为
D.去除后相应于样本点(2,3.75)的残差为
题型六、根据样本中心点求参数
16.(24-25高二下·天津·期中)某学校一同学研究温差x(°C)与本校当天新增感冒人数y (人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列结论错误的是( )
A.样本中心点为 B.
C.时, 残差为 D.相关系数
17.(24-25高二上·江西南昌·期末)经过对中学生记忆能力和识图能力进行统计分析,得到如下数据:
记忆能力
4
6
8
10
识图能力
3
5
6
8
由表中数据,求得线性回归方程为,若小明同学的记忆能力为,则可预测其识图能力为( )
A.8 B.6 C.2 D.1.9
18.(24-25高二上·黑龙江·期末)某类汽车在今年1至5月销量y(单位:万辆),如下表所示:
月份x
1
2
3
4
5
销量y
5
4.5
4
3.5
2.5
若x与y线性相关,且线性回归方程为,则下列说法不正确的是( )
A.样本的相关系数为负数 B.
C.当时,残差的绝对值为0.1 D.可预测当时销量约为1.5万辆
题型七、最小二乘法
19.(24-25高二下·浙江·期中)随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额(单位:百亿)
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱.)
(2)利用最小二乘法建立关于的线性回归方程,并预测2025年该平台的交易额.
参考数据:,,
参考公式:相关系数;
线性回归方程中,斜率和纵截距的最小二乘估计分别为,.
20.(24-25高三下·安徽·阶段练习)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
21.(23-24高二下·江苏南通·阶段练习)某大学组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:
时间x(天)
1
2
3
4
5
6
7
8
9
每天普及的人数y
80
98
129
150
203
190
258
292
310
(1)从这9天的数据中任选2天的数据,以X表示2天中普及人数不少于200人的天数,求X的分布列和数学期望;
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的线性回归方程.
参考数据:,,.附:对于一组数据(,),(,),……,(,),其回归直线的斜率和截距的最小二乘估计分别为:,.
题型八、列联表与独立性检验
22.(2025·福建龙岩·二模)某项科研活动共进行了5次试验,其数据如下表所示:
特征量
第1次
第2次
第3次
第4次
第次
2
5
8
9
11
12
10
8
8
7
(1)根据表中的数据,计算相关系数;
(2)求特征量关于的线性回归方程,并预测当特征量为12时特征量的值.
参考公式:相关系数
,.
参考数据:,,.
23.(24-25高二下·山东烟台·期中)近期,我国国产AI大模型深度求索(DeepSeek)在人工智能领域取得了重大技术突破,并且通过开源策略和高性价比的模式,为AI行业的发展提供了新的可能性.为了评估DeepSeek的使用频率与用户满意度之间是否存在关联,一研究团队在某大学随机抽取了200名用户进行调查,收集整理得到了如表的数据:
高满意度
低满意度
频繁使用DeepSeek
70
30
不频繁使用DeepSeek
50
50
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用频率与用户满意度之间有关联;
(2)若已知样本中学生人数为120人,其中高满意度用户数为80人,教师人数为80人,其中高满意度用户数为40人.以样本频率估计总体的概率.
①若从全校使用DeepSeek的用户中每次抽取1名用户,直到抽出2名高满意度用户即停止抽取.求恰好第4次抽取后停止抽取的概率.
②若从全校使用DeepSeek的学生用户和教师用户中各随机抽取2名,设这4人中学生和教师的高满意度用户数分别为和,令,求的分布列.
参考公式:,其中,.
24.(24-25高二下·河南三门峡·期末)随着人们环保意识的增强和科技的发展,新能源汽车越来越受到消费者的关注.为了解消费者对新能源汽车续航里程和充电设施的满意程度,随机调查了200名新能源汽车车主,得到如下数据:
对充电设施
对续航里程
满意
不满意
满意
70
30
不满意
50
50
(1)任意调查一名新能源汽车车主,设事件“该车主对续航里程满意”为,事件“该车主对充电设施满意”为,求和;
(2)根据小概率值的独立性检验,能否认为消费者对续航里程的满意程度与对充电设施的满意程度有关?
题型九、成对数据的统计分析综合问题
25.(24-25高二下·河南南阳·期中)某科技公司2025年计划推出量子加密通信设备,该设备可实时保护数据传输,目标用户为学校、企业和自由开发者.该公司调查了不同用户对该设备的需求情况,得到数据如下(单位:个):
学校
企业
自由开发者
有需求
170
无需求
120
已知调查了400个学校和150个自由开发者.
(1)求和的值;
(2)估计目标用户对该设备有需求的概率;
(3)是否有的把握认为学校用户与非学校用户对该设备的需求情况有差异?
附:.
0.1
0.01
0.001
2.706
6.635
10.828
26.(24-25高二上·河南焦作·期末)为了解某地区年月份电动汽车的销售情况,某机构经过调查,得到如下表所示的数据.
月份
月
月
月
月
月
月份代码
销售总额亿元
(1)求关于的线性回归方程;
(2)该机构随机调查了该地区位购车车主的性别与购车种类,其中购买非电动汽车的男性有人,女性有人,购买电动汽车的男性有人,女性有人,请问是否有的把握认为购买电动汽车与性别有关.
附:①,在利用最小二乘法求得的线性回归方程中,;②,其中.
27.(23-24高二下·山东青岛·期末)氨基酸在茶叶中约占1%到4%的含量,为研究春夏季节与茶叶氨基酸含量是否有关联,抽取90份样品列表如下:
氨基酸
春季
夏季
含量高
30
20
含量低
15
25
(1)根据小概率值的独立性检验,分析春夏季节对茶叶氨基酸含量是否有影响?
(2)随机抽取1000份茶叶,氨基酸含量近似服从正态分布,其中恰有23份氨基酸含量不小于0.03.
①求;
②如果茶叶中氨基酸含量小于1.5%,则该份茶叶为乙等产品,求这批茶叶中的乙等产品约有多少份.
附:Ⅰ.参考公式:,其中.
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
Ⅱ.对任何一个正态分布服从来说,通过转化为标准正态分布服从,从而查标准正态分布表得到
可供查阅的(部分)标准正态分布表:
1
1.2
1.4
1.6
1.8
2
2.2
2.4
2.6
0.841
0.885
0.919
0.945
0.964
0.977
0.986
0.992
0.995
28.(23-24高二下·天津西青·期末)我国今年4月神舟十八号载人飞船成功发射、神舟十七号载人飞船顺利返回地球,5月嫦娥六号探测器成功发射,航天工作者的艰苦努力和科技创新精神被公众广泛赞誉,航天精神成为新时代的时代楷模.为进一步弘扬航天精神、学习航天知识,传播航天文化,某校计划开展“航天知识大讲堂”活动,为了解学生对“航天知识大讲堂”的喜爱程度,从全校学生中随机抽取50名学生进行问卷调查,以下是调查的部分数据:
喜欢航天知识大讲堂
不喜欢航天知识大讲堂
合计
男
20
26
女
14
合计
50
附:,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
(1)请将上面列联表补充完整,依据的独立性检验,能否认为该校学生是否喜欢“航天知识大讲堂”与性别有关联;
(2)现从抽取的“喜欢航天知识大讲堂”学生中,按性别采用分层抽样的方法抽取6人,并从这6人中随机抽取3人,记这3人中“喜欢航天知识大讲堂“的女生人为X,求X的分布列和数学期望.
【专题强化】
一、单选题
1.(24-25高二上·江苏常州·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
2.(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】C
【分析】结合题意,由决定系数、相关系数、残差平方和及相关性的概念和性质作出判断.
3.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
工作时间
2
4
5
6
8
工资
30
40
50
70
若对的线性回归方程为,则的值为( )
A.56.5 B.58 C.60 D.62.5
4.(24-25高二下·全国)关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数r越大,线性相关程度越强;
③决定系数越接近1拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
5.(23-24高二下·云南曲靖·阶段练习)对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
6.(23-24高二下·广东广州·期末)为了预测某地的经济增长情况,某经济学专家根据该地2023年1~6月的GDP的数据(单位:百亿元)建立了线性回归模型,得到的经验回归方程为,其中自变量指的是月的编号,其中部分数据如表所示:
时间
1月
2月
3月
4月
5月
6月
编号
1
2
3
4
5
6
百亿元
11.1
参考数据:.则下列说法不正确的是( )
A.经验回归直线经过点
B.
C.根据该模型,该地2023年12月的GDP的预测值为14.4百亿元
D.相应于点的残差为0.1
7.(23-24高二下·河南南阳·期末)某商店记录了某种产品近5个月的月销售量(千台)如下表,样本中心点为.由于保管不善,记录的5个数据中有两个数据看不清楚,现用代替,已知,则下列结论正确的是( )
第个月
1
2
3
4
5
月销售量
2.5
4
5
A.在确定的条件下,去掉样本点,则样本的相关系数增大
B.在确定的条件下,样本的相关系数
C.在确定的条件下,经过拟合,发现数据基本符合线性回归方程,则
D.在确定的条件下,经过拟合,发现数据基本符合线性回归方程,则可预计该款商品第6个月的销售量为6280台
8.(23-24高二下·山东枣庄·期末)学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
9.(23-24高二下·湖北武汉·期末)5G 技术在我国已经进入调整发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间x
1
2
3
4
5
销售量y (千只)
0.5
0.8
1.0
1.2
1.5
若x与y线性相关,且线性回归方程为,则下列说法正确的是( )
A.由题中数据可知,变量y与x正相关,且相关系数
B.当解释变量x每增加1个单位时,预报变量平均增加个单位
C.线性回归方程中
D.可以预测时, 该商场5G手机销量约为1.72 (千只)
二、多选题
10.(24-25高二下·湖南·期中)下列说法正确的是( )
A.相关变量的线性回归方程为,若样本点中心为,则
B.的展开式中二项式系数和为32
C.在独立性检验中,随机变量的观测值越小,“认为两个变量有关”这种判断犯错误的概率越小
D.甲、乙两个模型的决定系数分别约为0.95和0.8,则模型甲的拟合效果更好
11.(24-25高二上·陕西渭南·期末)某厂近几年陆续购买了几台A型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.y与x的样本相关系数
B.回归直线恒过点
C.
D.该型机床已投入生产的时间为10年时,当年所需要支出的维修费用一定是12.38万元
12.(23-24高二下·广东广州·期末)随机抽取5家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
A
B
C
D
E
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
下列说法正确的是( )(参考公式:;参考数据:)
A.经验回归直线经过点 B.经验回归方程为
C.样本点的残差为 D.预测广告支出10万元时的销售额为80万元
13.(2024·广东广州·模拟预测)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
参考公式:,
A.当时,
B.当越大时,成对样本数据的线性相关程度越强
C.,时,成对样本数据的相关系数满足
D.,时,成对样本数据的线性回归方程满足
14.(23-24高二下·吉林松原·期末)下列结论不正确的是( )
A.两个变量的线性相关系数决定两变量相关程度的强弱,且相关系数越小,相关性越强
B.若两个变量的线性相关系数,则与 之间不具有线性相关性
C.在一组样本数据中,先剔除部分异常数据,再根据最小二乘法求得线性回归方程为,这样相关系数变大
D.在一组样本数据的散点图中,若所有样本点都在直线 上,则这组样本数据的样本相关系数为
15.(23-24高二下·黑龙江大庆·期末)以下几种说法正确的是( )
A.对于相关系数,越接近1,相关程度越大,越接近0,相关程度越小
B.若随机变量满足,则
C.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断与有关且犯错误的概率不超过0.05
D.某人在次射击中,击中目标的次数为,射击中靶的概率为,若,则
16.(23-24高二下·吉林长春·期末)下列说法中,正确的命题是( )
A.在两个随机变量的线性相关关系中,若相关系数 越大,则样本的线性相关性越强
B.在具有线性相关关系的两个变量的统计数据所得的回归直线方程 中, ,则
C.在回归分析中,决定系数 的值越大,说明残差平方和越小
D.以模型 去拟合一组数据时,为了求出回归方程,设 ,将其变换后得到线性方程 ,则 的值分别是和0.3
17.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
三、填空题
18.(23-24高二下·贵州安顺·期末)经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)之间的关系近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如表:
15
16
18
19
22
102
98
115
120
若由表中样本数据求得线性回归方程为,则实数 .
19(23-24高二下·辽宁葫芦岛·期末)一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
20.(23-24高二下·重庆长寿·期末)某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润,预测第8年该国企的生产利润约为 千万元.
年号
1
2
3
4
5
年生产利润(单位:千万元)
0.7
0.8
1
1.1
1.4
21.(23-24高二下·黑龙江绥化·期中)某研究机构对高三学生的记忆力和判断力进行统计分析,得表数据.
6
8
10
12
2
3
5
6
请根据上表提供的数据,求出关于的线性回归方程 ,据此可预测判断力为的同学的记忆力为 .
(回归直线方程是:,其中,)
四、解答题
22.(24-25高二下·山东烟台·期中)近期,我国国产AI大模型深度求索(DeepSeek)在人工智能领域取得了重大技术突破,并且通过开源策略和高性价比的模式,为AI行业的发展提供了新的可能性.为了评估DeepSeek的使用频率与用户满意度之间是否存在关联,一研究团队在某大学随机抽取了200名用户进行调查,收集整理得到了如表的数据:
高满意度
低满意度
频繁使用DeepSeek
70
30
不频繁使用DeepSeek
50
50
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用频率与用户满意度之间有关联;
(2)若已知样本中学生人数为120人,其中高满意度用户数为80人,教师人数为80人,其中高满意度用户数为40人.以样本频率估计总体的概率.
①若从全校使用DeepSeek的用户中每次抽取1名用户,直到抽出2名高满意度用户即停止抽取.求恰好第4次抽取后停止抽取的概率.
②若从全校使用DeepSeek的学生用户和教师用户中各随机抽取2名,设这4人中学生和教师的高满意度用户数分别为和,令,求的分布列.
参考公式:,其中,.
23.(24-25高二上·江西宜春·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.学生甲获一等奖学金的概率为,获二等奖学金的概率为,不获得奖学金的概率为.求在学生甲获得奖学金的条件下,求他获得一等奖学金的概率.
24.(24-25高二上·黑龙江哈尔滨·期末)2024年初,哈尔滨利用得天独厚的冰雪资源,成功火出圈,吸引了大批游客前来旅游.2024年底,第26届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.超级冰滑梯作为园区最具人气的娱乐项目,每年冬天都会吸引众多游客慕名前来体验,坐上专用爬犁,上演冰雪版的速度与激情,让游客大呼过瘾.为了提升游客的游玩体验,园区决定增加超级冰滑梯的滑道数量.现有开放滑道数量和游客平均排队等待时间的数据如下:
滑道数量
11
12
13
14
15
平均等待时间(分钟)
88
81
75
70
66
(1)通过回归分析,可以利用模型对与的关系进行拟合.利用表中数据,求出关于的回归方程,并依据该模型预测,为了让游客的平均等待时间不超过40分钟,至少应开放多少条滑道?
(2)园区内超级冰滑梯和雪花摩天轮2个项目每个项目的平均排队时间为60分钟,冰雪世界等4个体验项目每个项目的平均排队时间为40分钟,梦想大舞台等3个演出活动每个项目的平均排队时间为30分钟.由于天气原因,小红决定选择其中的3个项目进行游玩,求小红排队时间总和恰为120分钟的概率;
(3)为吸引游客,园区开展了抽奖活动.现有一家三口参加该抽奖活动,有两种抽奖方式可供选择:
方式①:三人独立抽奖,每人抽奖一次,每人中奖的概率为30%;
方式②:三人组队抽奖,共抽奖三次,第一次中奖的概率为20%,若某次抽奖不中,那么下一次中奖的概率会增加10%,若已中奖,那么下一次中奖的概率恢复到20%.为使三人中奖次数的期望更大,应选择哪种抽奖方式?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:设,,,,,,,,,,.
25.(23-24高二下·河北石家庄)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
26.(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
第 1 页
学科网(北京)股份有限公司
$$
第08讲 成对数据的统计分析
【复习目录】
· 一、变量的相关关系
· 二、样本相关系数
· 三:残差的计算
· 四、相关指数的计算及分析
· 五、一元线性回归方程意义分析
· 六、根据样本中心点求参数
· 七、最小二乘法
· 八、列联表与独立性检验
· 九、成对数据的统计分析综合问题
【知识梳理】
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程, ,
(2)残差:观测值减去预测值,称为残差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
(2)计算随机变量χ2=,利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
【题型归纳】
题型一、变量的相关关系
1.(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的成本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【答案】B
【分析】根据相关关系的定义判断.
【详解】对于A:产品的成本与生产数量是相关关系,故A正确;
对于B:设球的半径为,球的表面积为、体积为,
则,所以,而,
所以球的表面积与体积是一种函数关系,故B错误;
对于C:家庭的支出与收入是相关关系,故C正确;
对于D:人的年龄与体重是相关关系,故D正确.
故选:B
2.(23-24高二下·安徽·期末)下列两个变量之间的关系是相关关系的是( )
A.等边三角形的边长a与其面积S
B.匀速直线行驶的汽车的位移s与行驶时间t
C.杂交水稻植株的高度h与土壤湿润度r
D.某班的学生人数n与该班某次数学考试的平均分x
【答案】C
【分析】根据相关关系的定义即可逐一判断.
【详解】对于A选项,因为,边长a与面积S是确定的函数关系,故A错误;
对于B选项,设匀速直线行驶的汽车的速度为,,所以位移s与行驶时间t是确定的函数关系,故B错误;
对于C选项,杂交水稻植株的高度h与土壤湿润度r具有相关关系,通常情况下,土壤湿润度r会一定程度上影响杂交水稻植株的高度h值的,故C正确;
对于D选项,因为班级某次数学考试的平均分x等于班级总分除以学生人数n,所以当班级总分确定的情况下,某班的学生人数n与该班某次数学考试的平均分x是一种确定关系,故D正确;
故选:C.
3.(23-24高二下·吉林·期末)下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
【答案】D
【分析】根据相关关系的定义判断即可.
【详解】对于A:人的身高与受教育的程度不具有相关关系,故A错误;
对于B:人的体重与眼睛的近视程度不具有相关关系,故B错误;
对于C:企业员工的工号与工资不具有相关关系,故C错误.
对于D:儿子的身高与父亲的身高具有相关关系,故D正确.
故选:D
题型二、样本相关系数
4.(23-24高二下·广东清远·期末)通过计算样本相关系数可以反映两个随机变量之间的线性相关程度,以下四个选项中分别计算出四个样本的相关系数,则反映样本数据成正相关,并且线性相关程度最强的是( )
A. B.
C. D.
【答案】A
【分析】利用相关系数的绝对值越大,线性相关程度越强,及为正相关进行分析判断.
【详解】因为相关系数的绝对值越大,线性相关程度越强,且为正相关,
所以时,线性相关程度最强,且为正相关,
故选:A
5.(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
【答案】(1),
(2),可以用线性回归模型拟合与之间的关系,理由见解析
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解,再根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)因为,
,
故;
因为与的相关系数的绝对值近似为,大于且非常接近,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
6.(23-24高二下·安徽·阶段练习)设某制造公司进行技术升级后的第x个月()的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为,若时的观测值,则时的残差为( )
A. B.1 C.3 D.6
【答案】B
【分析】利用残差的定义求解.
【详解】解:因为时的预测值为,
所以残差为.
故选:B.
题型三:残差的计算
7.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【答案】(1)13;11
(2)
(3)可以用线性回归模型拟合与之间的关系,理由见解析
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解;
(3)根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)计算得,
故;
(3)由(2)可知,与的相关系数的绝对值近似为0.992,大于0.75且非常接近1,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
8.(20-21高二下·山东菏泽·期末)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
研发投入费用
2.2
2.6
4.3
5.0
5.9
销售量
3.8
5.4
7.0
10.35
12.2
根据表中的数据可得回归直线方程,相关系数,以下说法正确的是( )
A.第四个样本点对应的残差,回归模型的拟合效果一般
B.第四个样本点对应的残差,回归模型的拟合效果较好
C.销售量的多少有96%是由研发投入费用引起的
D.销售量的多少有4%是由研发投入费用引起的
【答案】C
【分析】先根据回归直线必过样本点中心,求出,即可根据残差=观测值-预测值,判断的真假,再根据相关系数的大小的意义即可判断的真假.
【详解】因为,,所以
,解得,
所以,,故错误;
因为,所以销售量的多少有96%是由研发投入费用引起的, C正确,D错误.
故选:C.
9.(21-22高三下·海南省直辖县级单位·阶段练习)从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)数据如下表:
x
165
165
157
170
175
165
155
170
y
48
57
50
54
64
61
43
59
若已知y与x的线性回归方程为,设残差记为观测值与预测值之间的差(即残差)那么选取的女大学生身高为175cm时,相应的残差为 .
【答案】4
【分析】利用残差的定义直接求解.
【详解】已知y与x的线性同归方程为
当时:,相应的残差为:
故答案为:4
题型四、相关指数的计算及分析
10.(23-24高二下·河北石家庄·期末)已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
【答案】D
【分析】由恒为0,可得,再结合公式可求.
【详解】由恒为0,知恒成立,即恒成立,
故.
故选:D.
11.(21-22高二下·宁夏·阶段练习)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是 .①>,②<,③<,④>.
【答案】①③
【分析】残差平方和越小越好,带状区域的宽度越窄,说明模型的拟合精度越高,越大,模型的拟合效果越好,相关指数越大,模型的拟合效果越好.
【详解】解:用相关指数的值判断模型的拟合效果,越大,说明残差平方和越小,模型的拟合效果越好,因为第①个线性模型比第②个线性模型拟合效果好,所以,;
故答案为:①③
12.(23-24高二下·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【答案】
【分析】将两边同时取对数可得,结合所给经验回归方程求出,由所给参考数据求出,即可求出决定系数.
【详解】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
题型五、一元线性回归方程意义分析
13.(23-24高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数的绝对值越接近0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点一定在经验回归直线上
D.若经验回归方程为,则每增加1个单位,的值就增加10个单位
【答案】D
【分析】由相关系数的定义求解选项A.由残差图的含义求解选项B.由线性回归方程的性质知点一定在经验回归直线上求解选项C.由经验回归方程的性质和意义求解选项D.
【详解】选项A:由相关系数的绝对值越接近0,则两个变量的线性相关程度越弱,可知选项A正确;
选项B:由在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好可知选项B正确;
选项C:由点一定在经验回归直线上知选项C正确;
选项D:由回归方程的性质可知;若经验回归方程为,则每增加1个单位,的值就平均增加3个单位,可知D选项C错误.
故选:D.
14.(23-24高二上·辽宁·期末)下列有关回归分析的说法正确的是( )
A.样本相关系数越大,则两变量的相关性就越强.
B.回归直线就是散点图中经过样本数据点最多的那条直线.
C.回归直线方程不一定过样本中心点.
D.回归分析中,样本相关系数,则两变量是负相关关系.
【答案】D
【分析】由知识点:两变量的相关性就越强,则相关系数越接近或,当相关系数时两个变量正相关,时两个变量负相关;回归直线方程一定过样本中心点;回归直线是基于样本数据使残差平方和最小的拟合直线,可得正确答案.
【详解】由知识点:两变量的相关性就越强,则相关系数越接近或可知A不正确;由回归直线是基于样本数据使残差平方和最小的拟合直线可判断B不正确;由回归直线方程一定过样本中心点可知C不正确;由当相关系数时两个变量正相关,时两个变量负相关可得D正确.
故选:D
15.(22-23高二下·福建泉州·期末)已知由样本数据点集合,求得的回归直线方程为,且.现发现两个数据点和误差较大,去除这两点后重新求得的回归直线方程的斜率为,则正确的是( )
A.变量与具有负相关关系
B.去除后的估计值增加速度变快
C.去除后回归方程为
D.去除后相应于样本点(2,3.75)的残差为
【答案】D
【分析】运用回归直线方程的性质、残差的基本概念等进行解题.
【详解】解:选项A:因为去除前回归直线的斜率为,重新求得的回归直线的斜率为,两者均大于0,所以变量与具有正相关关系,所以选项A错误;
选项B:去除前回归直线的斜率为,去除后回归直线的斜率为,去除前的斜率大于去除后的斜率,所以去除后的估计值增加速度变慢,所以选项B错误;
选项C:去除前,则可得,设,,,,则去除后样本中心设为,所以,,
又因为回归直线方程的斜率为,所以去除后的回归直线方程为,
所以选项C错误;
选项D:由C选项可知,去除后的回归直线方程为,当时,,则残差为,所以选项D正确;
故选:D.
题型六、根据样本中心点求参数
16.(24-25高二下·天津·期中)某学校一同学研究温差x(°C)与本校当天新增感冒人数y (人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列结论错误的是( )
A.样本中心点为 B.
C.时, 残差为 D.相关系数
【答案】C
【分析】由回归直线必过样本中心可判断A项、B项,由残差公式可判断C项,由线性回归方程的斜率即可相关系数正负可判断D项.
【详解】对于A项,因为,,
所以样本中心点为,故A项正确;
对于B项,由回归直线必过样本中心可得:,解得:,故B项正确;
对于C项,由B项知,,令,则,
所以残差为,故C项错误;
对于D项,经验回归方程中,斜率,说明与正相关,
故相关系数,故D项正确.
故选:C
17.(24-25高二上·江西南昌·期末)经过对中学生记忆能力和识图能力进行统计分析,得到如下数据:
记忆能力
4
6
8
10
识图能力
3
5
6
8
由表中数据,求得线性回归方程为,若小明同学的记忆能力为,则可预测其识图能力为( )
A.8 B.6 C.2 D.1.9
【答案】D
【分析】求出,线性回归方程恒过,代入即可求出,再令,代入求解即可.
【详解】由表中数据可得,,,
又线性回归方程为,则,解得,
故,当时,.
故选:D
18.(24-25高二上·黑龙江·期末)某类汽车在今年1至5月销量y(单位:万辆),如下表所示:
月份x
1
2
3
4
5
销量y
5
4.5
4
3.5
2.5
若x与y线性相关,且线性回归方程为,则下列说法不正确的是( )
A.样本的相关系数为负数 B.
C.当时,残差的绝对值为0.1 D.可预测当时销量约为1.5万辆
【答案】C
【分析】对于A,利用表中的数据就化情况分析判断;对于B,利用样本中心点满足回归方程,求出;对于C,利用回归方程可求出预测值,进而可求出残差绝对值;对于D,利用回归方程可求出预测值.
【详解】对于A,从表中的数据看,随的增大而减小,所以变量负相关,则样本的相关系数为负数,故A正确;
对于B,,所以,得,故B正确;
对于C,因为,所以当时,残差的绝对值为,故C错误;
对于D,当时,,所以预测当时销量约为1.5万瓶,故D正确,
故选:C.
题型七、最小二乘法
19.(24-25高二下·浙江·期中)随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额(单位:百亿)
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱.)
(2)利用最小二乘法建立关于的线性回归方程,并预测2025年该平台的交易额.
参考数据:,,
参考公式:相关系数;
线性回归方程中,斜率和纵截距的最小二乘估计分别为,.
【答案】(1)0.92,线性相关性程度很强.
(2),15.9百亿.
【分析】(1)根据相关系数的计算公式可得,再判断可得答案;
(2)根据公式求线性回归方程,再将代入方程进行预测.
【详解】(1)由已知得,,
,,
,
故,
,所以线性相关性程度很强;
(2),,
则,
所以关于的线性回归方程为,
当时,,
所以预计2025年该平台的交易额为15.9百亿.
20.(24-25高三下·安徽·阶段练习)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
【答案】(1)答案见解析
(2);
(3)答案见解析
【分析】(1) 利用相关系数公式直接代入数据求解即可;
(2) 利用公式,先求一次项系数,再利用经过样本中心点,可求出,从而可得回归直线方程;
(3)利用一次项系数可解释会员平均每周锻炼时长增加2个小时,预测平均体重减少量增加0.84千克,与实际效果相当,说明具有参考价价.
【详解】(1)由表可知:
所以= ,
因为与的相关系数接近1,
所以与的线性相关程度很高,可用线性回归模型拟合与的关系.
(2)由题可知: =
,
所以
(3)由(2)可知:根据线性回归方程预测,会员平均每周锻炼时长增加2个小时,
预测平均体重减少量增加0.84千克,与实际增加值0.8千克较为接近,
因此实际结果与预测结果基本一致,说明该回归模型具有参考价值;
造成一定差异的原因可能是由于样本数据过少,
或者造成体重减少的原因还受其他因素影响,
比如睡眠,饮食、锻炼强度以及效果等.
21.(23-24高二下·江苏南通·阶段练习)某大学组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:
时间x(天)
1
2
3
4
5
6
7
8
9
每天普及的人数y
80
98
129
150
203
190
258
292
310
(1)从这9天的数据中任选2天的数据,以X表示2天中普及人数不少于200人的天数,求X的分布列和数学期望;
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的线性回归方程.
参考数据:,,.附:对于一组数据(,),(,),……,(,),其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)分布列见解析,
(2)
【分析】(1)利用超几何分布与数学期望公式即可得解;
(2)去掉第天数据后,结合的计算公式进行转化整理求得其值,从而得解.
【详解】(1)普及人数不少于200人的天数为4天,则X的所有可能取值为0,1,2,
又,
,
.
故X的分布列为:
0
1
2
.
(2)去掉第天的数据可得统计表如下:
时间天
1
2
3
4
6
7
8
9
每天普及的人数
80
98
129
150
190
258
292
310
设原来数据的样本中心点为,去掉第5天的数据后样本中心点为,
所以,,,;
去掉第5天数据后,.
所以,,
所以剩下的数据求得的回归直线方程为:.
题型八、列联表与独立性检验
22.(2025·福建龙岩·二模)某项科研活动共进行了5次试验,其数据如下表所示:
特征量
第1次
第2次
第3次
第4次
第次
2
5
8
9
11
12
10
8
8
7
(1)根据表中的数据,计算相关系数;
(2)求特征量关于的线性回归方程,并预测当特征量为12时特征量的值.
参考公式:相关系数
,.
参考数据:,,.
【答案】(1)
(2),
【分析】(1)根据题意,根据相关系数的计算公式即可求解;
(2)根据题意即可求解关于的线性回归方程,再将特征量为12代入即可求解.
【详解】(1)由题意得,,
,
,,
相关系数.
(2)由(1)知,,
,
所求的线性回归方程是.
当特征量为12时,可预测特征量.
23.(24-25高二下·山东烟台·期中)近期,我国国产AI大模型深度求索(DeepSeek)在人工智能领域取得了重大技术突破,并且通过开源策略和高性价比的模式,为AI行业的发展提供了新的可能性.为了评估DeepSeek的使用频率与用户满意度之间是否存在关联,一研究团队在某大学随机抽取了200名用户进行调查,收集整理得到了如表的数据:
高满意度
低满意度
频繁使用DeepSeek
70
30
不频繁使用DeepSeek
50
50
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用频率与用户满意度之间有关联;
(2)若已知样本中学生人数为120人,其中高满意度用户数为80人,教师人数为80人,其中高满意度用户数为40人.以样本频率估计总体的概率.
①若从全校使用DeepSeek的用户中每次抽取1名用户,直到抽出2名高满意度用户即停止抽取.求恰好第4次抽取后停止抽取的概率.
②若从全校使用DeepSeek的学生用户和教师用户中各随机抽取2名,设这4人中学生和教师的高满意度用户数分别为和,令,求的分布列.
参考公式:,其中,.
【答案】(1)认为DeepSeek的使用频率与用户满意度之间有关联
(2)① ;②答案见解析
【分析】(1)根据计算公式计算即可得出结论;
(2)①由题意转化为前3次抽取中恰有1次抽取的是高满意度用户,第4次恰好抽取的是高满意度用户,利用独立事件同时发生的乘法公式求解;②分别求出对应取值的概率,据此计算对应取值的概率,列出分布列即可.
【详解】(1)零假设为:DeepSeek的使用频率与用户满意度之间无关联.
根据表中数据,,
根据小概率值的独立性检验,推断不成立,
即认为DeepSeek的使用频率与用户满意度之间有关联.
(2)(1)由题知,样本中DeepSeek高满意度用户的频率为,
设事件“恰好第4次抽取后停止抽取”,
需在前3次抽取中恰有1次抽取的是高满意度用户,第4次恰好抽取的是高满意度用户,
则.
即恰好第4次抽取后停止的概率为.
(2)由题知,样本中学生的高满意度用户频率为,教师的高满意度用户频率为.
又,,,
,,,
的所有可能取值为0,1,2,
则
,
.
所以随机变量的分布列为:
0
1
2
P
24.(24-25高二下·河南三门峡·期末)随着人们环保意识的增强和科技的发展,新能源汽车越来越受到消费者的关注.为了解消费者对新能源汽车续航里程和充电设施的满意程度,随机调查了200名新能源汽车车主,得到如下数据:
对充电设施
对续航里程
满意
不满意
满意
70
30
不满意
50
50
(1)任意调查一名新能源汽车车主,设事件“该车主对续航里程满意”为,事件“该车主对充电设施满意”为,求和;
(2)根据小概率值的独立性检验,能否认为消费者对续航里程的满意程度与对充电设施的满意程度有关?
【答案】(1),
(2)能认为消费者对续航里程的满意程度与对充电设施的满意程度有关
【分析】(1)根据古典概型概率公式求解,利用条件概率公式求解;
(2)首先假设,再计算,并和参考数据比较,即可作出判断.
【详解】(1)依题意,.
(2)假设零事件:认为消费者对续航里程的满意程度与对充电设施的满意程度无关,
,
所以根据的独立性检验,认为不成立,
即认为消费者对续航里程的满意程度与对充电设施的满意程度有关.
题型九、成对数据的统计分析综合问题
25.(24-25高二下·河南南阳·期中)某科技公司2025年计划推出量子加密通信设备,该设备可实时保护数据传输,目标用户为学校、企业和自由开发者.该公司调查了不同用户对该设备的需求情况,得到数据如下(单位:个):
学校
企业
自由开发者
有需求
170
无需求
120
已知调查了400个学校和150个自由开发者.
(1)求和的值;
(2)估计目标用户对该设备有需求的概率;
(3)是否有的把握认为学校用户与非学校用户对该设备的需求情况有差异?
附:.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)
(2);
(3)有的把握认为学校用户与非学校用户对该设备的需求情况有差异.
【分析】(1)根据题意列出关于m,n的等量关系式即可求解;
(2)由题设数据结合古典概型直接计算即可得解;
(3)列出列联表,计算出卡方值即可判断得解.
【详解】(1)由题得;
(2)由题可得估计目标用户对该设备有需求的概率为;
(3)列出列联表:
学校用户
非学校用户
总计
有需求
300
270
570
无需求
100
170
270
总计
400
440
840
零假设学校用户与非学校用户对该设备的需求情况无差异.
由表格得,
根据小概率值的独立性检验,推断不成立,
所以有的把握认为学校用户与非学校用户对该设备的需求情况有差异.
26.(24-25高二上·河南焦作·期末)为了解某地区年月份电动汽车的销售情况,某机构经过调查,得到如下表所示的数据.
月份
月
月
月
月
月
月份代码
销售总额亿元
(1)求关于的线性回归方程;
(2)该机构随机调查了该地区位购车车主的性别与购车种类,其中购买非电动汽车的男性有人,女性有人,购买电动汽车的男性有人,女性有人,请问是否有的把握认为购买电动汽车与性别有关.
附:①,在利用最小二乘法求得的线性回归方程中,;②,其中.
【答案】(1)
(2)有的把握认为购买电动汽车与性别有关
【分析】(1)根据已知求出,然后利用最小二乘法直接求出线性回归方程即可;
(2)根据已知列出列联表,然后直接利用公式求出,进而得出结论.
【详解】(1)由题可知,,
所以,,
故所求的线性回归方程为.
(2)由题可得列联表如下.
性别
购买种类
合计
非电动汽车
电动汽车
男
女
合计
因为,
故有的把握认为购买电动汽车与性别有关.
27.(23-24高二下·山东青岛·期末)氨基酸在茶叶中约占1%到4%的含量,为研究春夏季节与茶叶氨基酸含量是否有关联,抽取90份样品列表如下:
氨基酸
春季
夏季
含量高
30
20
含量低
15
25
(1)根据小概率值的独立性检验,分析春夏季节对茶叶氨基酸含量是否有影响?
(2)随机抽取1000份茶叶,氨基酸含量近似服从正态分布,其中恰有23份氨基酸含量不小于0.03.
①求;
②如果茶叶中氨基酸含量小于1.5%,则该份茶叶为乙等产品,求这批茶叶中的乙等产品约有多少份.
附:Ⅰ.参考公式:,其中.
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
Ⅱ.对任何一个正态分布服从来说,通过转化为标准正态分布服从,从而查标准正态分布表得到
可供查阅的(部分)标准正态分布表:
1
1.2
1.4
1.6
1.8
2
2.2
2.4
2.6
0.841
0.885
0.919
0.945
0.964
0.977
0.986
0.992
0.995
【答案】(1)有影响
(2)①;②
【分析】(1)根据公式,计算,进行判断.
(2)根据表格所给的数据,结合正态分布的对称性进行计算.
【详解】(1)因为
所以,依据的独立性检验,可以认为季节(春夏)对茶叶氨基酸含量有影响.
(2)①由题意,
所以
故
因为,所以,.
②茶叶中氨基酸含量小于0.015时为乙等产品,
而
根据标准正态分布的对称性,
所以这批茶叶中的乙等产品约有.
1.(23-24高二下·天津西青·期末)我国今年4月神舟十八号载人飞船成功发射、神舟十七号载人飞船顺利返回地球,5月嫦娥六号探测器成功发射,航天工作者的艰苦努力和科技创新精神被公众广泛赞誉,航天精神成为新时代的时代楷模.为进一步弘扬航天精神、学习航天知识,传播航天文化,某校计划开展“航天知识大讲堂”活动,为了解学生对“航天知识大讲堂”的喜爱程度,从全校学生中随机抽取50名学生进行问卷调查,以下是调查的部分数据:
喜欢航天知识大讲堂
不喜欢航天知识大讲堂
合计
男
20
26
女
14
合计
50
附:,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
(1)请将上面列联表补充完整,依据的独立性检验,能否认为该校学生是否喜欢“航天知识大讲堂”与性别有关联;
(2)现从抽取的“喜欢航天知识大讲堂”学生中,按性别采用分层抽样的方法抽取6人,并从这6人中随机抽取3人,记这3人中“喜欢航天知识大讲堂“的女生人为X,求X的分布列和数学期望.
【答案】(1)填表见解析;有把握认为该校学生是否喜欢“航天知识大讲堂”与“性别”无关
(2)分布列见解析;期望为1
【分析】(1)给出列联表,计算的值,再结合的独立性检验进行判断;
(2)由超几何分布求出分布列,再计算数学期望即可.
【详解】(1)由题意,可得如下的的列联表:
喜欢航天知识大讲堂
不喜欢航天知识大讲堂
合计
男
20
6
26
女
10
14
24
合计
30
20
50
零假设为:该校学生是否喜欢“航天知识大讲堂”与“性别”无关
根据表中数据,计算得到
根据的独立性检验,零假设为成立,
所以有把握认为该校学生是否喜欢“航天知识大讲堂”与“性别”无关
(2)在喜欢航天知识大讲堂的学生中按性别分层抽样,
男生为(人),女生为2人
X的所有可能取值为,
则:
随机变量X的分布列为
X
0
1
2
P
随机变量X的期望
【专题强化】
一、单选题
1.(24-25高二上·江苏常州·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
【答案】C
【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得,由残差定义可得结果.
【详解】,增加两个样本点后的平均数为;
,,
增加两个样本点后的平均数为,
,解得:,新的经验回归方程为:,
则当时,,样本的残差为.
故选:C.
2.(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】C
【分析】结合题意,由决定系数、相关系数、残差平方和及相关性的概念和性质作出判断.
【详解】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
对于A:决定系数越接近1,拟合的回归方程越优,
故去掉点后变大,越趋于1,故A错误;
对于B:相关系数越趋于1,拟合的回归方程越优,
由图可得与正相关,故会越接近1,即相关系数的值变大,故B错误;
对于C:残差平方和变小,拟合效果越好,故C正确;
对于D:解释变量与预报变量相关性增强,故D错误.
故选:C
3.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
工作时间
2
4
5
6
8
工资
30
40
50
70
若对的线性回归方程为,则的值为( )
A.56.5 B.58 C.60 D.62.5
【答案】C
【分析】求出样本中心点,代入回归直线即可求得结果.
【详解】由表格数据知:,,
由线性回归方程为,
,解得.
故选:C.
4.(24-25高二下·全国)关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数r越大,线性相关程度越强;
③决定系数越接近1拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【答案】C
【分析】根据回归直线方程的性质,相关系数、决定系数及随机误差平方和的意义判断各项的正误即可.
【详解】对于①,回归直线一定经过样本点的中心,故①正确;
对于②,相关系数r的绝对值越接近于1,线性相关性越强,故②错误;
对于③,决定系数R越接近1拟合效果越好,故③正确;
对于④,随机误差平方和越小,拟合效果越好,故④正确.
故选:C.
5.(23-24高二下·云南曲靖·阶段练习)对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【答案】A
【分析】根据散点图和相关系数的概念和性质辨析即可.
【详解】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,
而所在散点图比较分散,线性相关性比较弱,相关系数的绝对值越远离.
综上可得:.
故选:A.
6.(23-24高二下·广东广州·期末)为了预测某地的经济增长情况,某经济学专家根据该地2023年1~6月的GDP的数据(单位:百亿元)建立了线性回归模型,得到的经验回归方程为,其中自变量指的是月的编号,其中部分数据如表所示:
时间
1月
2月
3月
4月
5月
6月
编号
1
2
3
4
5
6
百亿元
11.1
参考数据:.则下列说法不正确的是( )
A.经验回归直线经过点
B.
C.根据该模型,该地2023年12月的GDP的预测值为14.4百亿元
D.相应于点的残差为0.1
【答案】D
【分析】求得数据的样本中心点,即可判断A;结合回归直线方程求出可判断B;将代入回归直线方程求得预测值,可判断C;根据残差的定义计算可判断D.
【详解】选项A:由题意得:,
因为,,所以,得,
因此该经验回归直线经过样本点的中心,故A正确;
选项B:由A知,,得,故B正确;
选项C:由B得,则当时,,
故该地2023年12月的GDP的预测值为百亿元,故C正确;
选项D:当时,,
相应于点的残差为,故D错误,
故选:D.
7.(23-24高二下·河南南阳·期末)某商店记录了某种产品近5个月的月销售量(千台)如下表,样本中心点为.由于保管不善,记录的5个数据中有两个数据看不清楚,现用代替,已知,则下列结论正确的是( )
第个月
1
2
3
4
5
月销售量
2.5
4
5
A.在确定的条件下,去掉样本点,则样本的相关系数增大
B.在确定的条件下,样本的相关系数
C.在确定的条件下,经过拟合,发现数据基本符合线性回归方程,则
D.在确定的条件下,经过拟合,发现数据基本符合线性回归方程,则可预计该款商品第6个月的销售量为6280台
【答案】D
【分析】根据回归直线方程过数据的样本中心点可判断A;根据月销售量随着的增大而增大可判断B;根据样本中心点在回归直线上可判断C;求出回归直线方程,则可预计该款商品第6个月的销售量可判断D.
【详解】对于A,因为回归直线方程过数据的样本中心点,
所以在确定的条件下,去掉样本点,则样本的相关系数不变,故A错误;
对于B,在确定的条件下,月销售量随着的增大而增大,
故样本的相关系数,故B错误;
对于C,在确定的条件下,样本中心点为在回归直线上,
可得,解得,故C错误;
对于D,由C得线性回归方程,
因为台,
则可预计该款商品第6个月的销售量为6280台,故D正确.
故选:D.
8.(23-24高二下·山东枣庄·期末)学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
【答案】D
【分析】根据等高堆积条形图即可判断A,B选项,计算出的值即可判断C,D选项.
【详解】对于A,由等高堆积条形图可知,参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数少,故A错误;
对于B,全校学生中男生和女生人数比不确定,故不能确定全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多,故B错误;
对于C,结合等高堆积条形图可得:
性别
游泳
合计
喜欢
不喜欢
男生
0.6n
0.4n
n
女生
0.4n
0.6n
n
合计
n
n
2n
故,
若,则,
故依据的独立性检验,不可以认为游泳运动的喜好和性别有关,故C错误;
对于D,若,则,
依据的独立性检验,可以认为游泳运动的喜好和性别有关,故D正确.
故选:D
9.(23-24高二下·湖北武汉·期末)5G 技术在我国已经进入调整发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间x
1
2
3
4
5
销售量y (千只)
0.5
0.8
1.0
1.2
1.5
若x与y线性相关,且线性回归方程为,则下列说法正确的是( )
A.由题中数据可知,变量y与x正相关,且相关系数
B.当解释变量x每增加1个单位时,预报变量平均增加个单位
C.线性回归方程中
D.可以预测时, 该商场5G手机销量约为1.72 (千只)
【答案】D
【分析】根据已知数据,分析总体单调性,结合增量的变化判断A选项;根据已知数据得到样本中心点,代入回归方程求解即可判断C选项;根据回归方程判断BD选项.
【详解】从数据看,随的增加而增加,故变量与正相关,由于各增量并不相等,故相关系数,故A错误;
根据线性回归方程,可得每增加一个单位时,预报变量平均增加0.24个单位,故B错误;
由已知数据得,,代入中得到,故C错;
将代入中得到,故D正确.
故选:D.
二、多选题
10.(24-25高二下·湖南·期中)下列说法正确的是( )
A.相关变量的线性回归方程为,若样本点中心为,则
B.的展开式中二项式系数和为32
C.在独立性检验中,随机变量的观测值越小,“认为两个变量有关”这种判断犯错误的概率越小
D.甲、乙两个模型的决定系数分别约为0.95和0.8,则模型甲的拟合效果更好
【答案】ABD
【分析】将样本中心点的坐标代入回归直线方程,求得,可判定A正确;根据二项式展开式的二项式系数的性质,可判定B正确;根据独立性检验的定义,可判定C错误;根据决定系数越大,拟合效果越好,可判定D正确.
【详解】对于A中,将样本点中心点代入回归方程为,
可得,解得,所以A正确;
对于B中,二项式的展开式中二项式系数和为,所以B正确;
对于C中,在独立性检验中,随机变量的观测值越大,“认为两个变量有关”这种判断犯错误的概率越小,所以C错误;
对于D中,根据决定系数的含义知:决定系数越大,模型拟合效果越好,
由,所以模型甲的拟合效果更好,所以D正确.
故选:ABD.
11.(24-25高二上·陕西渭南·期末)某厂近几年陆续购买了几台A型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.y与x的样本相关系数
B.回归直线恒过点
C.
D.该型机床已投入生产的时间为10年时,当年所需要支出的维修费用一定是12.38万元
【答案】ABC
【分析】计算平均数可得样本中心,即可判断BC,根据回归方程即可结合相关系数的定义求解A,代入计算即可判断D.
【详解】由表中数据可得,故样本中心为,故B正确,
由于线性回归方程为,斜率为正数,故相关系数,A正确,
将代入可得,故C正确,
当时,,故该型机床已投入生产的时间为10年时,当年所需要支出的维修费用约为12.38万元,故D错误,
故选:ABC
12.(23-24高二下·广东广州·期末)随机抽取5家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
A
B
C
D
E
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
下列说法正确的是( )(参考公式:;参考数据:)
A.经验回归直线经过点 B.经验回归方程为
C.样本点的残差为 D.预测广告支出10万元时的销售额为80万元
【答案】BC
【分析】A选项,计算出样本中心点,得到A错误;B选项,计算出,得到经验回归方程;C选项,代入,求出,得到残差;D选项,代入,计算出,D错误.
【详解】A选项,,,
故经验回归直线经过点,A错误;
B选项,,
,故经验回归方程为,B正确;
C选项,将代入中得,
故样本点的残差为,C正确;
D选项,将代入中得,
预测广告支出10万元时的销售额为87万元,D错误.
故选:BC
13.(2024·广东广州·模拟预测)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
参考公式:,
A.当时,
B.当越大时,成对样本数据的线性相关程度越强
C.,时,成对样本数据的相关系数满足
D.,时,成对样本数据的线性回归方程满足
【答案】ACD
【分析】根据相关系数的正负、绝对值大小与变量相关性之间关系可知AB正误;根据,,代入相关系数和最小二乘法公式中,可知CD正误.
【详解】对于A,当时,变量和变量正相关,则,A正确;
对于B,当越大时,成对样本数据的线性相关程度越强;
当,时,对应的样本数据的线性相关程度更强,B错误;
对于C,当,时,不变且,
,C正确;
对于D,当,时,不变且,
,D正确.
故选:ACD.
14.(23-24高二下·吉林松原·期末)下列结论不正确的是( )
A.两个变量的线性相关系数决定两变量相关程度的强弱,且相关系数越小,相关性越强
B.若两个变量的线性相关系数,则与 之间不具有线性相关性
C.在一组样本数据中,先剔除部分异常数据,再根据最小二乘法求得线性回归方程为,这样相关系数变大
D.在一组样本数据的散点图中,若所有样本点都在直线 上,则这组样本数据的样本相关系数为
【答案】ACD
【分析】根据相关系数的概念和性质逐项分析判断.
【详解】对于选项A:越大,与之间的线性相关性越强,所以A错误;
对于选项B:若,则样本数据不具有线性相关性,所以B正确;
对于选项C:去掉异常数据,则相关性变强,变大,所以C错误;
对于选项D:若所有样本点都在直线上,
则这组样本数据完全相关,且正相关,
所以这组样本数据的样本相关系数为1,所以D错误.
故选:ACD.
15.(23-24高二下·黑龙江大庆·期末)以下几种说法正确的是( )
A.对于相关系数,越接近1,相关程度越大,越接近0,相关程度越小
B.若随机变量满足,则
C.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断与有关且犯错误的概率不超过0.05
D.某人在次射击中,击中目标的次数为,射击中靶的概率为,若,则
【答案】AC
【分析】由相关系数性质可得A;由方差性质计算可得B;由独立性检验定义可得C;由二项分布的期望与方差公式可得D.
【详解】对A:在回归分析中,相关系数的绝对值越接近于1,相关程度就越大,故A正确;
对B:,故B错误;
对C:观测值越大,有关系把握程度越大,故C正确;
对D:由,则有,,
故,即,故D错误.
故选:AC.
16.(23-24高二下·吉林长春·期末)下列说法中,正确的命题是( )
A.在两个随机变量的线性相关关系中,若相关系数 越大,则样本的线性相关性越强
B.在具有线性相关关系的两个变量的统计数据所得的回归直线方程 中, ,则
C.在回归分析中,决定系数 的值越大,说明残差平方和越小
D.以模型 去拟合一组数据时,为了求出回归方程,设 ,将其变换后得到线性方程 ,则 的值分别是和0.3
【答案】BCD
【分析】对选项A,根据相关系数的性质即可判断;对选项B,根据回归直线方程过点,计算可得,即可判断;对选项C,根据的性质即可判断;对选项D,两边取对数,可得,又,求出的值,即可判断.
【详解】对于A,相关系数的绝对值越大,样本的线性相关性越强,故A错误;
对于B,回归直线方程中,,故B正确;
对于C,在回归分析中,相关指数越大,残差平方和越小,回归效果就越好,故C正确;
对于D,,两边取对数,可得,则,
,,所以,故D正确.
故选:BCD.
17.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
【答案】BCD
【分析】根据男生比女生少20人,建立等式求出男生、女生的人数,建立列联表,利用列联表中的信息解决ABC,利用独立性检验来解决D选项.
【详解】解:设男生人数为,则女生人数为,
由题得,
解得,即在被调查者中,男、女生人数为80,100,可得到如下列联表,
性别
锻炼情况
合计
经常锻炼
不经常锻炼
男
48
32
80
女
40
60
100
合计
88
92
180
由表可知,A显然错误,
男生中经常锻炼的人数比女生中经常锻炼的人数多B正确;
在经常锻炼者中是男生的频率为,在不经常锻炼者中是男生的频率为C正确;
零假设:假期是否经常锻炼与性别无关,
则,根据小概率值的独立性检验,我们推断不成立,
即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确,
故选:BCD.
三、填空题
18.(23-24高二下·贵州安顺·期末)经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)之间的关系近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如表:
15
16
18
19
22
102
98
115
120
若由表中样本数据求得线性回归方程为,则实数 .
【答案】115
【分析】根据已知条件,利用回归直线必过样本的中心点,列式求解.
【详解】依题意,,,
而线性回归方程为,则,
所以.
故答案为:115
19(23-24高二下·辽宁葫芦岛·期末)一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
【答案】 满意度与性别有关联,推断犯错误的概率不大于0.05(或:有的把握认为满意度与性别有关).
【分析】代入的计算公式,再和临界值比较,得到结论.
【详解】,
所以满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
故答案为:;满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
20.(23-24高二下·重庆长寿·期末)某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润,预测第8年该国企的生产利润约为 千万元.
年号
1
2
3
4
5
年生产利润(单位:千万元)
0.7
0.8
1
1.1
1.4
【答案】
【分析】求出回归方程可得,代入计算可得结果.
【详解】易知,,
易知;
代入计算可得;
可得,
即可得回归方程为,
将代入可得,
即第8年该国企的生产利润约为千万元.
故答案为:
21.(23-24高二下·黑龙江绥化·期中)某研究机构对高三学生的记忆力和判断力进行统计分析,得表数据.
6
8
10
12
2
3
5
6
请根据上表提供的数据,求出关于的线性回归方程 ,据此可预测判断力为的同学的记忆力为 .
(回归直线方程是:,其中,)
【答案】 ; .
【分析】设回归方程,利用表中数据,根据最小二乘原理求得系数,即得方程;再用方程代入数据预测记忆力即可.
【详解】设y关于x的线性回归方程为,直线过样本中心点
由表格数据得,
,
,
,
故根据最小二乘原理知,
所以,
即线性回归方程为;
将代入方程,得,
即可预测判断力为4的同学的记忆力为.
故答案为:;.
四、解答题
22.(24-25高二下·山东烟台·期中)近期,我国国产AI大模型深度求索(DeepSeek)在人工智能领域取得了重大技术突破,并且通过开源策略和高性价比的模式,为AI行业的发展提供了新的可能性.为了评估DeepSeek的使用频率与用户满意度之间是否存在关联,一研究团队在某大学随机抽取了200名用户进行调查,收集整理得到了如表的数据:
高满意度
低满意度
频繁使用DeepSeek
70
30
不频繁使用DeepSeek
50
50
(1)依据小概率值的独立性检验,能否认为DeepSeek的使用频率与用户满意度之间有关联;
(2)若已知样本中学生人数为120人,其中高满意度用户数为80人,教师人数为80人,其中高满意度用户数为40人.以样本频率估计总体的概率.
①若从全校使用DeepSeek的用户中每次抽取1名用户,直到抽出2名高满意度用户即停止抽取.求恰好第4次抽取后停止抽取的概率.
②若从全校使用DeepSeek的学生用户和教师用户中各随机抽取2名,设这4人中学生和教师的高满意度用户数分别为和,令,求的分布列.
参考公式:,其中,.
【答案】(1)认为DeepSeek的使用频率与用户满意度之间有关联
(2)① ;②答案见解析
【分析】(1)根据计算公式计算即可得出结论;
(2)①由题意转化为前3次抽取中恰有1次抽取的是高满意度用户,第4次恰好抽取的是高满意度用户,利用独立事件同时发生的乘法公式求解;②分别求出对应取值的概率,据此计算对应取值的概率,列出分布列即可.
【详解】(1)零假设为:DeepSeek的使用频率与用户满意度之间无关联.
根据表中数据,,
根据小概率值的独立性检验,推断不成立,
即认为DeepSeek的使用频率与用户满意度之间有关联.
(2)(1)由题知,样本中DeepSeek高满意度用户的频率为,
设事件“恰好第4次抽取后停止抽取”,
需在前3次抽取中恰有1次抽取的是高满意度用户,第4次恰好抽取的是高满意度用户,
则.
即恰好第4次抽取后停止的概率为.
(2)由题知,样本中学生的高满意度用户频率为,教师的高满意度用户频率为.
又,,,
,,,
的所有可能取值为0,1,2,
则
,
.
所以随机变量的分布列为:
0
1
2
P
23.(24-25高二上·江西宜春·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.学生甲获一等奖学金的概率为,获二等奖学金的概率为,不获得奖学金的概率为.求在学生甲获得奖学金的条件下,求他获得一等奖学金的概率.
【答案】(1),186元.
(2)
【分析】(1)利用公式求线性回归方程,代入数据即可得到结果.
(2)利用条件概率公式求解可得结果.
【详解】(1)依题意可得,
,
,
当时,(元),
即每天售出8箱水的预计收益是186元.
(2)设事件为“学生甲获得奖学金”,事件为“学生甲获得一等奖学金”,
则,,所以,
即学生甲获得奖学金的条件下,获得一等奖学金的概率为.
24.(24-25高二上·黑龙江哈尔滨·期末)2024年初,哈尔滨利用得天独厚的冰雪资源,成功火出圈,吸引了大批游客前来旅游.2024年底,第26届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.超级冰滑梯作为园区最具人气的娱乐项目,每年冬天都会吸引众多游客慕名前来体验,坐上专用爬犁,上演冰雪版的速度与激情,让游客大呼过瘾.为了提升游客的游玩体验,园区决定增加超级冰滑梯的滑道数量.现有开放滑道数量和游客平均排队等待时间的数据如下:
滑道数量
11
12
13
14
15
平均等待时间(分钟)
88
81
75
70
66
(1)通过回归分析,可以利用模型对与的关系进行拟合.利用表中数据,求出关于的回归方程,并依据该模型预测,为了让游客的平均等待时间不超过40分钟,至少应开放多少条滑道?
(2)园区内超级冰滑梯和雪花摩天轮2个项目每个项目的平均排队时间为60分钟,冰雪世界等4个体验项目每个项目的平均排队时间为40分钟,梦想大舞台等3个演出活动每个项目的平均排队时间为30分钟.由于天气原因,小红决定选择其中的3个项目进行游玩,求小红排队时间总和恰为120分钟的概率;
(3)为吸引游客,园区开展了抽奖活动.现有一家三口参加该抽奖活动,有两种抽奖方式可供选择:
方式①:三人独立抽奖,每人抽奖一次,每人中奖的概率为30%;
方式②:三人组队抽奖,共抽奖三次,第一次中奖的概率为20%,若某次抽奖不中,那么下一次中奖的概率会增加10%,若已中奖,那么下一次中奖的概率恢复到20%.为使三人中奖次数的期望更大,应选择哪种抽奖方式?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:设,,,,,,,,,,.
【答案】(1),21条
(2)
(3)方式一
【分析】(1)根据所给的数据,利用最小二乘估计法求和,即可求解回归方程,再根据方程转化为不等式,即可求解;
(2)根据古典概型概率公式,结合组合公式,即可求解;
(3)分别求两个方式的分布,以及期望,比较大小,即可判断.
【详解】(1)设,
则,,∴
令,,∴至少应开放21条滑道
(2)设事件“小红排队时间总和恰为120分钟”
则4个体验项目选取3个,或是超级冰滑梯和雪花摩天轮选1个,或是梦想大舞台3个中选2个,则
,
(3)方式①:中奖次数,
方式二:设中奖次数为
,
,
,所以选方式一
25.(23-24高二下·河北石家庄)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
【答案】(1);
(2)乙建立的回归模型拟合效果更好.
【分析】(1)对两边取对数得,令,利用最小二乘法可求得,由此可得回归方程;
(2)根据公式计算可得相关指数,由此可得结论;
【详解】(1)将两边取对数得:,
令,则,
因为,
所以根据最小二乘估计可知:,
所以,
所以回归方程为,即.
(2)甲建立的回归模型的.
所以乙建立的回归模型拟合效果更好.
26.(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)适宜作为与之间的回归方程模型,
(2)答案见解析,.
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
第 1 页
学科网(北京)股份有限公司
$$