内容正文:
猜想04 回归模型及独立性检验高频题型归类
19 / 19
学科网(北京)股份有限公司
· 题型一 变量间的相关关系
· 题型二 相关系数
· 题型三 线性回归分析
· 题型四 非线性回归分析
· 题型五 独立性检验
· 题型六 线性回归分析与概率
· 题型七 独立性检验与概率
题型一 变量间的相关关系
1.(2023·24高二下·江西景德镇·期中)(多选)随机变量X和Y的相关系数为r,则下列说法正确的是( )
A.当时,X和Y具有正线性相关性 B.随着r值减小,X和Y的相关性也减小
C.当时,X和Y不具有相关性 D.当时,X和Y具有较强的线性相关性
2.(2024·浙江·一模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
3.(2023·24高二下·广东深圳·期中)对四组数据进行统计,获得以下散点图,则其相关系数值最大的是( )
A.r1 B.r2 C.r3 D.r4
4.(2023·24高三下·上海浦东新·期中)通过随机抽样,我们绘制了如图所示的某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的散点图.若去掉图中右下方的点后,下列说法正确的是( )
A.“每千克价格”与“年需求量”这两个变量由负相关变为正相关
B.“每千克价格”与“年需求量”这两个变量的线性相关程度不变
C.“每千克价格”与“年需求量”这两个变量的线性相关系数变大
D.“每千克价格”与“年需求量”这两个变量的线性相关系数变小
5.(2023·24高二下·河南南阳·期中)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论不正确的是( )
A.甲、乙两组数据都呈线性相关 B.乙组数据的相关程度比甲强
C.乙组数据的相关系数r比甲大 D.乙组数据的相关系数r的绝对值更接近1
题型二 相关系数
6.(2023·24高二下·浙江宁波·期中)如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
7.(2023·24高二下·山东青岛·期中)(多选)某研究小组用5组数据绘制了如下散点图,若将第六组数据(点)加入后重新进行回归分析,则( )
A.相关系数的绝对值越趋于1
B.决定系数变小
C.残差平方和变小
D.解释变量与预报变量相关性变弱
8.(2023·24高二上·江西鹰潭·期末)关于的一组样本数据的散点图中,所有样本点均在直线上,则这组样本数据的样本相关系数为( )
A.-2 B.-1 C.1 D.2
9.(2023·24高二下·河南·期中)为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为,,,,则这四组数据中线性相关性最强的是 组数据.
10.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
题型三 线性回归分析
11.(2023·24高二下·江苏·期中)(多选)某种产品的价格x(单位:元/kg)与需求量y(单位:kg)之间的对应数据如下表所示:
x
10
15
20
25
30
y
12
11
9
7
6
根据表中的数据可得回归直线方程,则以下正确的是( )
A.相关系数
B.第一个样本点对应的残差为-0.2
C.
D.若该产品价格为35元/kg,则日需求量大约为4.2kg
12.(2023·24高二下·辽宁沈阳·期中)王伯伯家的果园最近4年的支出(单位:万元)和收入(单位:万元)之间的数据如下:
2020年
2021年
2022年
2023年
1.8
2.1
2.3
3.0
2.0
2.8
3.2
4.0
若果园最近4年的收入与支出满足线性相关关系,则的值为 ,若计划2024年该果园的收入达到6万元,预计2024年的支出为 万元.
13.(2023·24高二下·吉林通化·期中)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验收集到的数据如下表:
零件数-x
10
20
30
40
50
加工时间y/min
62
75
81
89
由最小二乘法求得回归方程为,现发现表中有一个数据模糊不清﹐请你推断出该数据的值为 .
14.(2024·25高三上·江苏徐州·期中)下表提供了某厂进行技术改造后生产产品过程中记录的产能(单位:)与相应的生产能耗(单位:标准煤)的几组对应数据:
3
4
5
6
标准煤
3.5
4
5
5.5
(1)求关于的经验回归方程;
(2)已知该厂技术改造前产品的生产能耗为标准煤,试根据(1)中求出的经验回经验回归方程,预测该厂技术改造后产品的生产能耗比技术改造前降低了多少标准煤.
参考公式:
15.(2024·陕西西安·二模)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量y(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
16.(2023·24高二下·青海海东·期中)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据:
第一次
第二次
第三次
第四次
参会人数x(万人)
8
9
10
11
原材料y(袋)
20
23
25
28
(1)请根据所给四组数据,求出y关于x的线性回归方程;
(2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?
参考公式:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
题型四 非线性回归分析
17.(2023·24高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
18.(2018·湖北荆州·一模)已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度(单位),对某种鸡的时段产蛋量(单位: )和时段投入成本(单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度和产蛋量的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值.
17.40
82.30
3.6
140
9.7
2935.1
35.0
其中, .
(1)根据散点图判断, 与哪一个更适宜作为该种鸡的时段产蛋量关于鸡舍时段控制温度的回归方程类型?(给判断即可,不必说明理由)
(2)若用作为回归方程模型,根据表中数据,建立关于的回归方程;
(3)已知时段投入成本与的关系为,当时段控制温度为时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?
附:①对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,
②
0.08
0.47
2.72
20.09
1096.63
19.(2023·24高二下·河南南阳·期中)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
20.(2023·24高二下·宁夏石嘴山·期中)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
21.(2023·24高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1
5
7
8
9
2
3
6
8
11
0.7
1.1
1.8
2.1
2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和4.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
题型五 独立性检验
22.(2024·25高三上·四川·期中)(多选)为了研究某校高三年级学生的性别和身高是否低于的关联性,研究小组从该校高三学生中获取容量为500的有放回简单随机样本,由样本数据整理得到如下列联表:
单位:人
性别
身高
合计
低于
不低于
女
140
60
200
男
120
180
300
合计
260
240
500
附:,其中.
α
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.依据的独立性检验,小组成员甲可以认为该中学高三年级学生的性别与身高有关联
B.依据的独立性检验,小组成员甲不能认为该中学高三年级学生的性别与身高有关联
C.小组成员甲、乙计算出的值相同,依据的独立性检验,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,依据的独立性检验,他们得出的结论也不同
23.(2023·24高二下·湖南长沙·期中)随着国家对中小学“双减”政策的逐步落实,其中增加中学生体育锻炼时间的政策引发社会的广泛关注.某教育时报为研究“支持增加中学生体育锻炼时间的政策是否与性别有关”,从某校男女生中各随机抽取80名学生进行问卷调查,得到如下数据(,)
支持
不支持
男生
女生
若通过计算得,根据小概率值的独立性检验,认为支持增加中学生体育锻炼时间的政策与性别有关,则在这被调查的80名女生中支持增加中学生体育锻炼时间的人数的最小值为 .
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
24.(2023·24高二下·江苏无锡·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若在犯错误的概率不超过5%的前提下,认为中学生追星与性别有关,则男生至少有 人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
,.
25.(2024·25高二上·四川眉山·期中)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
26.(2023·24高二下·河南商丘·期中)某社区对安全卫生进行问卷调查,请居民对社区安全卫生服务给出评价(问卷中设置仅有满意、不满意).现随机抽取了90名居民,调查情况如下表:
男居民
女居民
合计
满意
25
60
不满意
a
2a
合计
90
(1)利用分层抽样的方法从对安全卫生服务评价为不满意的居民中随机抽取6人,再从这6人中随机抽取2人,求这2人中男、女居民各有1人的概率;
(2)试通过计算判断能否在犯错误的概率不超过0.05的情况下认为男居民与女居民对社区安全卫生服务的评价有差异?
附:.
27.(2024·25高三上·上海·期中)2024年某瓷器公司计划向市场推出两种高档中国红瓷杯A和,已知A和烧制成功率分别为和,烧制成功一个A,盈利30元,否则亏损10元;烧制成功一个,盈利80元,否则亏损20元.
(1)设为烧制一个A和一个所得的利润之和,求随机变量的分布和数学期望;
(2)求烧制4个A所得的利润不少于80元的概率;
(3)公司将用户对中国红瓷器的喜欢程度分为“非常满意”(得分不低于85分)和“满意”(得分低于85分)两类,通过调查完成下表.
年龄低于45岁
6
14
42
31
7
年龄不低于45岁
4
6
47
35
8
根据调查数据完成下列列联表,并依据显著性水平的独立性检验,判断居民对瓷器的喜欢程度是否与年龄有关联?
非常满意
满意
合计
年龄低于45岁
年龄不低于45岁
合计
附:,,,与的若干对应数值见下表:
0.25
0.05
0.005
1.323
3.841
7.879
题型六 线性回归分析与概率
28.(2024·25高二上·四川眉山·期中)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
29.(2024·25高三上·江苏南通·期中)为调查某地区学生在高中学习中错题订正整理情况与考试成绩的关系.首先对该地区所有高中学生错题订正整理情况进行分值评价,给出得分;再组织考试.从这些学生中随机抽取20名学生的错题订正整理情况得分和对应的考试成绩作为样本,得到样本数据,其中和分别表示第个样本错题订正整理情况得分和对应的考试成绩,计算得.
(1)求样本的相关系数(精确到0.01),并推断考试成绩和错题订正整理情况得分的相关程度;
(2)已知20个样本中有8个样本的考试成绩低于样本平均数.利用频率估计概率,从该地区所有高中学生中随机抽取4个学生的错题订正整理情况得分和对应的考试成绩,记抽到考试成绩低于的个数为X,求随机变量X的分布列.
附:相关系数.
30.(2023·24高二下·山东青岛·期中)肥胖不仅影响形体美,而且给生活带来不便,此外还有关节软组织损伤、心脏病、糖尿病、脂肪肝、痛风等危害.小王通过运动和节食进行减肥,并将时间x(单位:周)和体重(单位:)记录制作如下统计表:
1
2
3
4
6
8
90.1
87.6
87.2
86.2
84.2
84.3
(1)若和满足经验回归模型,求;
(2)求该模型的决定系数,并判断该经验回归方程是否有价值(认为有价值);
(3)当某组数据残差的绝对值不超过0.3时,称该组数据为“身材有效管理数据”,现从这六组数据中任意抽取两组,设抽取的“身材有效管理数据”的个数为,求的分布列和期望.
附:经验回归方程中,,
参考数据:.
31.(2023·24高二下·广东·期中)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中e为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度(℃)的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出关于的回归方程;
附:回归方程中,.
参考数据
5215
2347.3
33.6
27
81.3
3.6
(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长纤维棉花的根数为X,求X的分布列.
32.(2023·24高二下·辽宁大连·期中)某市联考后,从全体考生中随机抽取44名,获取他们本次考试的数学成绩和物理成绩,绘制成如图散点图:
根据散点图可以看出与之间有线性相关关系,但图中有两个异常点.经调查得知,考生由于重感冒导致物理考试发挥失常,考生因故未能参加物理考试.为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据作处理,得到一些统计的值:其中,分别表示这42名同学的数学成绩、物理成绩,,2,…,42,与的相关系数.
(1)若不剔除两名考生的数据,用44组数据作回归分析,设此时与的相关系数为.试判断与的大小关系,并说明理由;
(2)求关于的线性回归方程,并估计如果考生参加了这次物理考试(已知考生的数学成绩为126分),物理成绩是多少?
(3)从概率统计规律看,本次考试该市的物理成绩服从正态分布,以剔除后的物理成绩作为样本,用样本平均数作为的估计值,用样本方差作为的估计值.试求该市共40000名考生中,物理成绩位于区间的人数的数学期望.
附:①回归方程中:
②若,则
③
题型七 独立性检验与概率
33.(2023·24高三下·湖南长沙·期中)新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.
名女生成绩频数分布表:
成绩
频数
10
10
6
4
附:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
(1)根据以上数据,完成以下列联表,并判断是否有%的把握认为“防疫标兵”与性别有关;
男生
女生
合计
防疫标兵
非防疫标兵
合计
(2)以样本估计总体,以频率估计概率,现从该校女生中随机抽取人,其中“防疫标兵”的人数为,求随机变量的分布列与数学期望.
34.(2024·25高三上·湖南·期中)电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
35.(2024·25高三上·河北·期中)某商场将年度消费总金额不低于万的会员称为尊享会员,超过万不足万的会员称为星级会员.该商场从以上两种会员中随机抽取男、女会员各名进行调研统计,其中抽到男性尊享会员名,女性尊享会员名.
(1)完成下面的列联表,并依据小概率值的独立性检验,判断是否可以认为会员类型与性别有关?
会员类型
会员性别
合计
男性会员
女性会员
尊享会员
星级会员
合计
(2)该商场在今年店庆时将举办尊享与星级会员消费返利活动,该活动以抽奖的形式进行,参与抽奖的会员从放有个红球和个白球(每个球除颜色不同外,其余完全相同)的抽奖箱中抽奖.抽奖规则:①每次抽奖时,每名会员从抽奖箱中随机摸出个球,若摸出的个球颜色相同即为中奖,若颜色不同即为不中奖;②每名会员只能选一种抽奖方案进行抽奖.抽奖方案如下:
方案一:共进行两次抽奖,第一次抽奖后将球放回抽奖箱,再进行第二次抽奖;
方案二:共进行两次抽奖,第一次抽奖后将球不放回抽奖箱,直接进行第二次抽奖.
会员甲欲参加本次抽奖活动,请从中奖次数的期望与方差的角度分析,会员甲选择哪种方案较好?
附:,其中.
36.(2023·24高二下·浙江金华·期中)某超市为促进消费推出优惠活动,为预估活动期间客户投入的消费金额,采用随机抽样统计了200名客户的消费金额,分组如下:(单位:元),得到如图所示频率分布直方图:
活跃客户
非活跃客户
总计
男
20
女
60
总计
(1)利用抽样的数据计算本次活动的人均消费金额(同一组中的数据用该组的中点值表示)
(2)若把消费金额不低于800元的客户,称为“活跃客户”,经数据处理,现在列联表中得到一定的相关数据,求列联表中的值,并根据列联表判断是否有的把握认为“活跃客户”与性别有关?
(3)为感谢客户,该超市推出免单福利,方案如下:
从“活跃客户”中按分层抽样的方法抽取12人,从中抽取2人进行免单,试写出总单金额的分布列及其期望.(每一组消费金额按该组中点值估计,期望结果保留至整数.)
附:
0.150
0.100
0.050
0.010
0.005
k
2.072
2.706
3.841
6.635
7.879
37.(2023·24高二下·吉林长春·期中)某学校号召学生参加“每天锻炼小时”活动,为了解学生参加活动的情况,统计了全校所有学生在假期每周锻炼的时间,现随机抽取了名同学在某一周参加锻炼的数据,整理如下列联表:
性别
不经常锻炼
经常锻炼
合计
男生
7
女生
16
30
合计
21
注:将一周参加锻炼时间不小于小时的称为“经常锻炼”,其余的称为“不经常锻炼”.
(1)请完成上面列联表,并依据小概率值的独立性检验,能否认为性别因素与学生锻炼的经常性有关系;
(2)将一周参加锻炼为0小时的称为“极度缺乏锻炼”.在抽取的名同学中有人“极度缺乏锻炼”.以样本频率估计概率.若在全校抽取名同学,设“极度缺乏锻炼”的人数为,求的数学期望和方差;
附:,
0.1
0.05
0.01
2.706
3.841
6.635
38.(2023·24高二下·山西忻州·期中)某生产企业对原有的生产线进行技术升级,在技术升级前后,分别从其产品中随机抽取样本数据进行统计,制作了如下列联表:
合格品
不合格品
合计
升级前
120
80
200
升级后
150
50
200
合计
270
130
400
(1)根据上表,依据小概率值的独立性检验,能否认为产品的合格率与技术是否升级有关?
(2)在抽取的所有合格品中,按升级前后合格品的比例进行分层随机抽样,抽取9件产品,然后从这9件产品中随机抽取4件,记其中属于升级前生产的有件,属于升级后生产的有件,求的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
$$猜想04 回归模型及独立性检验高频题型归类
19 / 19
学科网(北京)股份有限公司
· 题型一 变量间的相关关系
· 题型二 相关系数
· 题型三 线性回归分析
· 题型四 非线性回归分析
· 题型五 独立性检验
· 题型六 线性回归分析与概率
· 题型七 独立性检验与概率
题型一 变量间的相关关系
1.(2023·24高二下·江西景德镇·期中)(多选)随机变量X和Y的相关系数为r,则下列说法正确的是( )
A.当时,X和Y具有正线性相关性 B.随着r值减小,X和Y的相关性也减小
C.当时,X和Y不具有相关性 D.当时,X和Y具有较强的线性相关性
【答案】AD
【详解】根据相关系数的含义,可得当时,X和Y具有正线性相关性;
当时,成对样本数据间没有线性相关关系;故选项A正确,C错误;
当时,随着r值减小,越接近1,X和Y的线性相关程度越强,故B错误;
当越接近1时,成对样本数据的线性相关程度越强知,
当时,X和Y具有较强的线性相关性,故D正确.
故选:AD
2.(2024·浙江·一模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
【答案】C
【详解】对于A,加入点后,变量与预报变量相关性变弱,
但不能说,不具有线性相关性,所以A不正确
对于B,决定系数越接近于1,拟合效果越好,所以加上点后,决定系数变小,故B不正确;
对于C,从图中可以看出点较其他点,偏离直线远,所以加上点后,回归效果变差.
所以相关系数的绝对值越趋于0,故C正确;
对于D,残差平方和变大,拟合效果越差,所以加上点后,残差平方和变大,故D不正确;
故选:C.
3.(2023·24高二下·广东深圳·期中)对四组数据进行统计,获得以下散点图,则其相关系数值最大的是( )
A.r1 B.r2 C.r3 D.r4
【答案】A
【详解】根据相关系数的定义知,越接近于1关联性越强,
结合图象知,第一、三两幅图为正相关,且第一幅图的相关性较强,所以,
又因为第二、四幅图变量之间为负相关,且第二幅图的相关性较强,所以,
故选:A.
4.(2023·24高三下·上海浦东新·期中)通过随机抽样,我们绘制了如图所示的某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的散点图.若去掉图中右下方的点后,下列说法正确的是( )
A.“每千克价格”与“年需求量”这两个变量由负相关变为正相关
B.“每千克价格”与“年需求量”这两个变量的线性相关程度不变
C.“每千克价格”与“年需求量”这两个变量的线性相关系数变大
D.“每千克价格”与“年需求量”这两个变量的线性相关系数变小
【答案】D
【详解】对于A:去掉图中右下方的点后,根据图象,两个变量还是负相关,A错误;
对于BCD:去掉图中右下方的点后,相对来说数据会集中,相关程度会更高,
但因为是负相关,相关系数会更接近线性相关系数会变小,故D正确,BC错误.
故选:D.
5.(2023·24高二下·河南南阳·期中)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论不正确的是( )
A.甲、乙两组数据都呈线性相关 B.乙组数据的相关程度比甲强
C.乙组数据的相关系数r比甲大 D.乙组数据的相关系数r的绝对值更接近1
【答案】C
【详解】由散点图可以看出,甲、乙两组数据都呈线性相关,所以A正确;
乙图的点相对更加集中,所以其相关性较强,更接近1,所以B,D正确;
甲图是正相关,其相关系数大于0,乙图是负相关,其相关系数小于0,所以C错误.
故选:C.
题型二 相关系数
6.(2023·24高二下·浙江宁波·期中)如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
【答案】C
【详解】共8个点且离群点P的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,故C正确
去掉离群点后相关性更强,拟合效果也更好,且还是正相关,故D错误
有,,故AB错误.
故选:C.
7.(2023·24高二下·山东青岛·期中)(多选)某研究小组用5组数据绘制了如下散点图,若将第六组数据(点)加入后重新进行回归分析,则( )
A.相关系数的绝对值越趋于1
B.决定系数变小
C.残差平方和变小
D.解释变量与预报变量相关性变弱
【答案】BD
【详解】从图中可以看出点较其他点,偏离直线远,
故加入点后,回归效果会变差,
所以相关系数的绝对值越趋于0,决定系数变小,故A错误,B正确;
拟合效果变差,则残差平方和变大,故C错误;
解释变量与预报变量相关性变弱,D正确.
故选:BD.
8.(2023·24高二上·江西鹰潭·期末)关于的一组样本数据的散点图中,所有样本点均在直线上,则这组样本数据的样本相关系数为( )
A.-2 B.-1 C.1 D.2
【答案】B
【详解】因为所有样本点都在直线上,所以回归直线方程是,
可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,
且所有样本点都在直线上,则有相关系数.
故选:B.
9.(2023·24高二下·河南·期中)为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为,,,,则这四组数据中线性相关性最强的是 组数据.
【答案】
【详解】因为线性相关系数的绝对值越大,线性相关性越强,
且,
所以H组数据的线性相关性最强.
故答案为:.
10.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【答案】(1)13;11
(2)
(3)可以用线性回归模型拟合与之间的关系,理由见解析
【详解】(1)由题可知,;
(2)计算得,
故;
(3)由(2)可知,与的相关系数的绝对值近似为0.992,大于0.75且非常接近1,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
题型三 线性回归分析
11.(2023·24高二下·江苏·期中)(多选)某种产品的价格x(单位:元/kg)与需求量y(单位:kg)之间的对应数据如下表所示:
x
10
15
20
25
30
y
12
11
9
7
6
根据表中的数据可得回归直线方程,则以下正确的是( )
A.相关系数
B.第一个样本点对应的残差为-0.2
C.
D.若该产品价格为35元/kg,则日需求量大约为4.2kg
【答案】BCD
【详解】由对应数据可知,增大,减小,所以相关系数
,,
由,得,所以,
即,
所以相关系数,故A错误,C正确;
由回归直线方程,当时,,
所以第一个样本点对应的残差为,故B正确;
当时,,故D正确.
故选:BCD
12.(2023·24高二下·辽宁沈阳·期中)王伯伯家的果园最近4年的支出(单位:万元)和收入(单位:万元)之间的数据如下:
2020年
2021年
2022年
2023年
1.8
2.1
2.3
3.0
2.0
2.8
3.2
4.0
若果园最近4年的收入与支出满足线性相关关系,则的值为 ,若计划2024年该果园的收入达到6万元,预计2024年的支出为 万元.
【答案】 4.175
【详解】由图表可知,,,
则样本点的中心为,
代入,得.
收入与支出满足线性回归方程为.
取,可得,则.
预计2024年的支出为4.175万元.
故答案为:;4.175.
13.(2023·24高二下·吉林通化·期中)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验收集到的数据如下表:
零件数-x
10
20
30
40
50
加工时间y/min
62
75
81
89
由最小二乘法求得回归方程为,现发现表中有一个数据模糊不清﹐请你推断出该数据的值为 .
【答案】68
【详解】由于回归直线方程过样本中心点,,,
代入回归直线方程得,解得,
故答案为:68.
14.(2024·25高三上·江苏徐州·期中)下表提供了某厂进行技术改造后生产产品过程中记录的产能(单位:)与相应的生产能耗(单位:标准煤)的几组对应数据:
3
4
5
6
标准煤
3.5
4
5
5.5
(1)求关于的经验回归方程;
(2)已知该厂技术改造前产品的生产能耗为标准煤,试根据(1)中求出的经验回经验回归方程,预测该厂技术改造后产品的生产能耗比技术改造前降低了多少标准煤.
参考公式:
【答案】(1)
(2)
【详解】(1)
(2),即改造后预测生产能耗为
.
预测该厂改造后100t产品的生产能耗比技术改造前降低了标准煤.
15.(2024·陕西西安·二模)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量y(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
【答案】(1)
(2)万辆
【详解】(1),
,
所以;
(2)由(1)知,,
,
所以关于的线性回归方程是,
当时,(万辆),
该地区年新能源汽车购买数量约为万辆.
16.(2023·24高二下·青海海东·期中)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据:
第一次
第二次
第三次
第四次
参会人数x(万人)
8
9
10
11
原材料y(袋)
20
23
25
28
(1)请根据所给四组数据,求出y关于x的线性回归方程;
(2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?
参考公式:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)11袋
【详解】(1)由数据,得,,
,
,
由公式,求得,,y关于x的线性回归方程为.
(2)由,得,而,
所以该店应至少再补充原材料11袋.
题型四 非线性回归分析
17.(2023·24高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【答案】D
【详解】由表格中数据,得,
则,解得,因此,
由两边取对数,得,又,
所以,即.
故选:D
18.(2018·湖北荆州·一模)已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度(单位),对某种鸡的时段产蛋量(单位: )和时段投入成本(单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度和产蛋量的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值.
17.40
82.30
3.6
140
9.7
2935.1
35.0
其中, .
(1)根据散点图判断, 与哪一个更适宜作为该种鸡的时段产蛋量关于鸡舍时段控制温度的回归方程类型?(给判断即可,不必说明理由)
(2)若用作为回归方程模型,根据表中数据,建立关于的回归方程;
(3)已知时段投入成本与的关系为,当时段控制温度为时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?
附:①对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,
②
0.08
0.47
2.72
20.09
1096.63
【答案】(1)适宜
(2)
(3)
【详解】(1)适宜;
(2)由得,
令, , ,
由图表中的数据可知, ,
所以,
则关于的回归方程为;
(3)时,由回归方程,,
即鸡舍的温度为时,即的时段产量的预报值为,投入的陈本预报值为.
19.(2023·24高二下·河南南阳·期中)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
【答案】(1)模型中与的相关性较强.
(2)(i);(ii)27.1亿元.
【详解】(1)由题意知
.
因为,所以,
故从样本相关系数的角度,模型中与的相关性较强.
(2)(i)由,得,即.
因为,
所以,
故关于的经验回归方程为,即
,所以.
(ii)将代入得.
,故得,解得,
故预测下一年的研发资金投入量是27.1亿元.
20.(2023·24高二下·宁夏石嘴山·期中)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)①;
(2).
【详解】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度x可以用线性回归方程来拟合,则.
,
则关于的线性回归方程为,即,
产卵数y关于温度x的回归方程为.
21.(2023·24高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1
5
7
8
9
2
3
6
8
11
0.7
1.1
1.8
2.1
2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和4.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
【答案】(1),
(2)模型②拟合效果更好,11.94万件
【详解】(1)由题知,
所以,
所以,,
所以模型①的经验回归方程为,
由,两边取自然对数可得,即,
所以,,
所以模型②的经验回归方程为
(2)因为,即②的残差平方和较小,所以,模型②的拟合效果更好.
所以当时,,
即当年投入金额为10万元时的年销售量的估计值为11.94万件.
题型五 独立性检验
22.(2024·25高三上·四川·期中)(多选)为了研究某校高三年级学生的性别和身高是否低于的关联性,研究小组从该校高三学生中获取容量为500的有放回简单随机样本,由样本数据整理得到如下列联表:
单位:人
性别
身高
合计
低于
不低于
女
140
60
200
男
120
180
300
合计
260
240
500
附:,其中.
α
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.依据的独立性检验,小组成员甲可以认为该中学高三年级学生的性别与身高有关联
B.依据的独立性检验,小组成员甲不能认为该中学高三年级学生的性别与身高有关联
C.小组成员甲、乙计算出的值相同,依据的独立性检验,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,依据的独立性检验,他们得出的结论也不同
【答案】AD
【详解】由题设,零假设该中学高三年级学生的性别与身高没有关联,
对于成员甲有,
对于成员乙有,
依据的独立性检验,小组成员甲可认为该中学高三年级学生的性别与身高有关联;
依据的独立性检验,小组成员乙不能认为该中学高三年级学生的性别与身高有关联;
小组成员甲、乙计算出的值不同,他们得出的结论也不同.
故选:AD
23.(2023·24高二下·湖南长沙·期中)随着国家对中小学“双减”政策的逐步落实,其中增加中学生体育锻炼时间的政策引发社会的广泛关注.某教育时报为研究“支持增加中学生体育锻炼时间的政策是否与性别有关”,从某校男女生中各随机抽取80名学生进行问卷调查,得到如下数据(,)
支持
不支持
男生
女生
若通过计算得,根据小概率值的独立性检验,认为支持增加中学生体育锻炼时间的政策与性别有关,则在这被调查的80名女生中支持增加中学生体育锻炼时间的人数的最小值为 .
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【答案】66
【详解】因为有95%以上的把握认为“支持增加中学生体育锻炼时间的政策与性别有关”,
所以,
即,
因为函数在时单调递增,
且,,,
所以的最小值为16,
所以在这被调查的80名女生中支持增加中学生体育锻炼时间的人数的最小值为.
故答案为:66.
24.(2023·24高二下·江苏无锡·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若在犯错误的概率不超过5%的前提下,认为中学生追星与性别有关,则男生至少有 人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
,.
【答案】30
【详解】设男生人数为,依题意可得列联表如下:
喜欢追星
不喜欢追星
总计
男生
女生
总计
在犯错误的概率不超过5%的前提下认为是否喜欢追星和性别有关,
则,
由,解得,
由题知应为6的整数倍,
若在犯错误的概率不超过的前提下认为是否喜欢追星和性别有关,
则男生至少有30人,
故答案为:30.
25.(2024·25高二上·四川眉山·期中)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有关联
(2),该经验回归方程有价值.
【详解】(1)2×2列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
零假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,我们推断不成立,即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,得,,
因为经验回归方程为,
所以,
所以,
所以.
因为,所以该经验回归方程有价值.
26.(2023·24高二下·河南商丘·期中)某社区对安全卫生进行问卷调查,请居民对社区安全卫生服务给出评价(问卷中设置仅有满意、不满意).现随机抽取了90名居民,调查情况如下表:
男居民
女居民
合计
满意
25
60
不满意
a
2a
合计
90
(1)利用分层抽样的方法从对安全卫生服务评价为不满意的居民中随机抽取6人,再从这6人中随机抽取2人,求这2人中男、女居民各有1人的概率;
(2)试通过计算判断能否在犯错误的概率不超过0.05的情况下认为男居民与女居民对社区安全卫生服务的评价有差异?
附:.
【答案】(1)
(2)答案见详解
【详解】(1)由已知,解得,
所以列联表如下:
男
女
合计
满意
35
25
60
不满意
10
20
30
合计
45
45
90
用分层抽样抽取6人,则男居民应抽取2人,女居民应抽取4人,
所以所抽取的2人中男、女居民各有1人的概率为;
(2)由,
所以在犯错的概率不超过0.05的前提下,
可以认为男居民与女居民对社区安全卫生服务的评价有差异.
27.(2024·25高三上·上海·期中)2024年某瓷器公司计划向市场推出两种高档中国红瓷杯A和,已知A和烧制成功率分别为和,烧制成功一个A,盈利30元,否则亏损10元;烧制成功一个,盈利80元,否则亏损20元.
(1)设为烧制一个A和一个所得的利润之和,求随机变量的分布和数学期望;
(2)求烧制4个A所得的利润不少于80元的概率;
(3)公司将用户对中国红瓷器的喜欢程度分为“非常满意”(得分不低于85分)和“满意”(得分低于85分)两类,通过调查完成下表.
年龄低于45岁
6
14
42
31
7
年龄不低于45岁
4
6
47
35
8
根据调查数据完成下列列联表,并依据显著性水平的独立性检验,判断居民对瓷器的喜欢程度是否与年龄有关联?
非常满意
满意
合计
年龄低于45岁
年龄不低于45岁
合计
附:,,,与的若干对应数值见下表:
0.25
0.05
0.005
1.323
3.841
7.879
【答案】(1)分布列见详解;元
(2)0.8192
(3)列联表见解析,居民对瓷器的喜欢程度是否与年龄有关联
【详解】(1)由题意可知:A和烧制成功率分别为0.8和0.9,
随机变量的可能取值为,则有:
,
,
所以随机变量的分布列为
10
70
110
0.02
0.08
0.18
0.72
随机变量的期望(元).
(2)设烧制4个A成功的件数为,则,
设烧制4个A所得的利润为,则,
令,解得,
所以.
(3)根据题意完善列联表可得:
非常满意
满意
合计
年龄低于45岁
80
20
100
年龄不低于45岁
90
10
100
合计
30
170
200
零假设:居民对瓷器的喜欢程度是否与年龄没有关联,
则,
依据显著性水平的独立性检验,可知零假设不成立,
所以居民对瓷器的喜欢程度是否与年龄有关联.
题型六 线性回归分析与概率
28.(2024·25高二上·四川眉山·期中)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
(3)0.3
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以,
可得在上为增函数,在上为减函数,
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为0.3.
29.(2024·25高三上·江苏南通·期中)为调查某地区学生在高中学习中错题订正整理情况与考试成绩的关系.首先对该地区所有高中学生错题订正整理情况进行分值评价,给出得分;再组织考试.从这些学生中随机抽取20名学生的错题订正整理情况得分和对应的考试成绩作为样本,得到样本数据,其中和分别表示第个样本错题订正整理情况得分和对应的考试成绩,计算得.
(1)求样本的相关系数(精确到0.01),并推断考试成绩和错题订正整理情况得分的相关程度;
(2)已知20个样本中有8个样本的考试成绩低于样本平均数.利用频率估计概率,从该地区所有高中学生中随机抽取4个学生的错题订正整理情况得分和对应的考试成绩,记抽到考试成绩低于的个数为X,求随机变量X的分布列.
附:相关系数.
【答案】(1)相关系数,考试成绩和错题订正整理情况得分高度相关
(2)答案见解析
【详解】(1),
接近考试成绩和错题订正整理情况得分高度相关.
(2)考试成绩低于样本平均数的概率记为,
则
x
0
1
2
3
4
p
30.(2023·24高二下·山东青岛·期中)肥胖不仅影响形体美,而且给生活带来不便,此外还有关节软组织损伤、心脏病、糖尿病、脂肪肝、痛风等危害.小王通过运动和节食进行减肥,并将时间x(单位:周)和体重(单位:)记录制作如下统计表:
1
2
3
4
6
8
90.1
87.6
87.2
86.2
84.2
84.3
(1)若和满足经验回归模型,求;
(2)求该模型的决定系数,并判断该经验回归方程是否有价值(认为有价值);
(3)当某组数据残差的绝对值不超过0.3时,称该组数据为“身材有效管理数据”,现从这六组数据中任意抽取两组,设抽取的“身材有效管理数据”的个数为,求的分布列和期望.
附:经验回归方程中,,
参考数据:.
【答案】(1);.
(2);该经验回归方程有价值.
(3)分布列见解析;数学期望是1.
【详解】(1)设则, 因
,
则
又且经验回归直线过点,
故得,,
(2)由(1),
1
2
3
4
6
8
90.1
87.6
87.2
86.2
84.2
84.3
90
88
86.8
86
84.8
84
0.01
0.16
0.16
0.04
0.36
0.09
12.25
1
0.36
0.16
5.76
5.29
则,因,则该经验回归方程有价值;
(3)经计算,这六组数据中,残差的绝对值不超过0.3的有三组,分别是第一组、第四组和第八组,
故从这六组数据中任意抽取两组,的可能值有,
于是,,
则的分布列为:
0
1
2
故数学期望为.
31.(2023·24高二下·广东·期中)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中e为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度(℃)的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出关于的回归方程;
附:回归方程中,.
参考数据
5215
2347.3
33.6
27
81.3
3.6
(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长纤维棉花的根数为X,求X的分布列.
【答案】(1)更适宜,;
(2)分布列见解析.
【详解】(1)根据散点图的形状,判断更适宜作为平均产卵数y关于平均温度x的回归方程类型,
将两边同时取自然对数,得,
依题意,,,
因此,则,
于是z关于x的线性回归方程为,
所以y关于x的回归方程为.
(2)依题意,X的可能值为,
,
,
所以X的分布列为:
0
1
2
3
32.(2023·24高二下·辽宁大连·期中)某市联考后,从全体考生中随机抽取44名,获取他们本次考试的数学成绩和物理成绩,绘制成如图散点图:
根据散点图可以看出与之间有线性相关关系,但图中有两个异常点.经调查得知,考生由于重感冒导致物理考试发挥失常,考生因故未能参加物理考试.为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据作处理,得到一些统计的值:其中,分别表示这42名同学的数学成绩、物理成绩,,2,…,42,与的相关系数.
(1)若不剔除两名考生的数据,用44组数据作回归分析,设此时与的相关系数为.试判断与的大小关系,并说明理由;
(2)求关于的线性回归方程,并估计如果考生参加了这次物理考试(已知考生的数学成绩为126分),物理成绩是多少?
(3)从概率统计规律看,本次考试该市的物理成绩服从正态分布,以剔除后的物理成绩作为样本,用样本平均数作为的估计值,用样本方差作为的估计值.试求该市共40000名考生中,物理成绩位于区间的人数的数学期望.
附:①回归方程中:
②若,则
③
【答案】(1)答案见详解
(2),估计物理成绩82
(3)人数Z的数学期望为27320
【详解】(1),理由如下(任写一条或几条均可):由图可知,与成正相关,
①异常点A,B会降低变量间的线性相关程度.
②44个数据点与其回归直线的总体偏差更大,回归效果更差,所以相关系数会更小.
③42个数据点与其回归直线的总体偏差更小,回归效果更好,所以相关系数会更大.
④42个数据点更贴近回归直线.
⑤44个数据点与其回归直线更离散.
(2)由题中数据可得:,,
,
又,,
,,
将代入,得,
所以估计B同学的物理成绩为82.
(3),,
,又,
,
因为,所以,
所以物理成绩位于区间的人数Z的数学期望为27320.
题型七 独立性检验与概率
33.(2023·24高三下·湖南长沙·期中)新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.
名女生成绩频数分布表:
成绩
频数
10
10
6
4
附:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
(1)根据以上数据,完成以下列联表,并判断是否有%的把握认为“防疫标兵”与性别有关;
男生
女生
合计
防疫标兵
非防疫标兵
合计
(2)以样本估计总体,以频率估计概率,现从该校女生中随机抽取人,其中“防疫标兵”的人数为,求随机变量的分布列与数学期望.
【答案】(1)表格见解析,有%的把握认为“防疫标兵”与性别有关
(2)分布列见解析,
【详解】(1)由频率分布直方图,
可得名男生中成绩大于等于分的频率为,
故名男生中“防疫标兵”人数为人,“非防疫标兵”人数为人.
由频数分布表,可得名女生中“防疫标兵”人数为人,“非防疫标兵”人数为人.
男生
女生
合计
防疫标兵
18
非防疫标兵
合计
故,所以有%的把握认为“防疫标兵”与性别有关.
(2)名女生样本中有人成绩在分以上,所以女生样本中“防疫标兵”的频率为.
用样本估计总体,以频率估计概率,从该校女生中随机抽取人,
则“防疫标兵”的人数服从二项分布,即.
X的可能取值为.
,,,,.
所以随机变量的分布列为
X
0
1
2
3
4
P
数学期望为.
34.(2024·25高三上·湖南·期中)电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,能
(2)
(3)分布列见解析,
【详解】(1)被调查的女性市民人数为,
其中偏好铅酸电池电动车的女性市民人数为.
偏好石墨烯电池电动车的女性市民人数为,
所以2×2列联表为:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
300
女性市民
80
120
200
合计
280
220
500
零假设:市民对这两种电池的电动车的偏好与市民的性别无关,
根据列联表中的数据可以求得
,
由于,
根据小概率值的独立性检验,我们推断不成立,
即认为市民对这两种电池的电动车的偏好与市民的性别有关.
(2)因为偏好石墨烯电池电动车的市民中,男性市民与女性市民的比为,
所以采用分层抽样的方法抽取7的人中,男性市民有5人,女性市民有2人,
设“有女性市民参加座谈”为事件A,“恰有一名女性市民参加座谈”为事件B,
则,,
所以.
(3)因为所有参加调查的市民中,男性市民和女性市民的比为,
所以由分层抽样知,随机抽取的5名市民中,男性市民有3人,女性市民有2人.
根据频率估计概率知,男性市民偏好石墨烯电池电动车的概率为,偏好铅酸电池电动车的概率为,
从选出的5名市民中随机抽取2人进行座谈,则X可能的取值为0,1,2.
“3名被抽取的男性市民中,恰好抽到k人参加座谈”记为事件,
则.
“参加座谈的2名市民中是偏好石墨烯电池电动车的男性市民的人数恰好为m人”记为事件,
则,,
,,
,,
所以
,
,
,
故X的分布列如下:
X
0
1
2
P
.
35.(2024·25高三上·河北·期中)某商场将年度消费总金额不低于万的会员称为尊享会员,超过万不足万的会员称为星级会员.该商场从以上两种会员中随机抽取男、女会员各名进行调研统计,其中抽到男性尊享会员名,女性尊享会员名.
(1)完成下面的列联表,并依据小概率值的独立性检验,判断是否可以认为会员类型与性别有关?
会员类型
会员性别
合计
男性会员
女性会员
尊享会员
星级会员
合计
(2)该商场在今年店庆时将举办尊享与星级会员消费返利活动,该活动以抽奖的形式进行,参与抽奖的会员从放有个红球和个白球(每个球除颜色不同外,其余完全相同)的抽奖箱中抽奖.抽奖规则:①每次抽奖时,每名会员从抽奖箱中随机摸出个球,若摸出的个球颜色相同即为中奖,若颜色不同即为不中奖;②每名会员只能选一种抽奖方案进行抽奖.抽奖方案如下:
方案一:共进行两次抽奖,第一次抽奖后将球放回抽奖箱,再进行第二次抽奖;
方案二:共进行两次抽奖,第一次抽奖后将球不放回抽奖箱,直接进行第二次抽奖.
会员甲欲参加本次抽奖活动,请从中奖次数的期望与方差的角度分析,会员甲选择哪种方案较好?
附:,其中.
【答案】(1)列联表答案见解析,有
(2)方案一,理由见解析
【详解】(1)根据题中信息得到如下列联表:
会员类型
会员性别
合计
男性会员
女性会员
尊享会员
星级会员
合计
由表格中的数据可得,
所以,依据小概率值的独立性检验,可以认为会员类型与性别有关.
(2)设会员甲按照方案一、方案二抽奖的中奖次数分别为、,
对于方案一,则随机变量的可能取值有、、,
会员甲每次中奖的概率为,则,
所以,,,
对于方案二,则随机变量的可能取值有、、,
,,
,
所以,随机变量的分布列如下表所示:
所以,,
,
所以,会员甲选择方案一较好.
36.(2023·24高二下·浙江金华·期中)某超市为促进消费推出优惠活动,为预估活动期间客户投入的消费金额,采用随机抽样统计了200名客户的消费金额,分组如下:(单位:元),得到如图所示频率分布直方图:
活跃客户
非活跃客户
总计
男
20
女
60
总计
(1)利用抽样的数据计算本次活动的人均消费金额(同一组中的数据用该组的中点值表示)
(2)若把消费金额不低于800元的客户,称为“活跃客户”,经数据处理,现在列联表中得到一定的相关数据,求列联表中的值,并根据列联表判断是否有的把握认为“活跃客户”与性别有关?
(3)为感谢客户,该超市推出免单福利,方案如下:
从“活跃客户”中按分层抽样的方法抽取12人,从中抽取2人进行免单,试写出总单金额的分布列及其期望.(每一组消费金额按该组中点值估计,期望结果保留至整数.)
附:
0.150
0.100
0.050
0.010
0.005
k
2.072
2.706
3.841
6.635
7.879
【答案】(1)620
(2),有的把握与性别有关
(3)分布列见解析,1933
【详解】(1)由直方图计算人均消费金额:元
(2)消费金额不低于800元的人数为:人,
则活跃客户共有60人,所以,,
列联表如下
活跃客户
非活跃客户
总计
男
20
80
100
女
40
60
100
总计
60
140
200
计算
因此有的把握与性别有关.
(3)从“活跃客户”中用分层抽样,抽出消费900元:人,消费1100元:人,从中抽取2人免单总金额的取值有:,
则,
,
,
所以的分布列为:
Y
1800
2000
2200
P
即.
37.(2023·24高二下·吉林长春·期中)某学校号召学生参加“每天锻炼小时”活动,为了解学生参加活动的情况,统计了全校所有学生在假期每周锻炼的时间,现随机抽取了名同学在某一周参加锻炼的数据,整理如下列联表:
性别
不经常锻炼
经常锻炼
合计
男生
7
女生
16
30
合计
21
注:将一周参加锻炼时间不小于小时的称为“经常锻炼”,其余的称为“不经常锻炼”.
(1)请完成上面列联表,并依据小概率值的独立性检验,能否认为性别因素与学生锻炼的经常性有关系;
(2)将一周参加锻炼为0小时的称为“极度缺乏锻炼”.在抽取的名同学中有人“极度缺乏锻炼”.以样本频率估计概率.若在全校抽取名同学,设“极度缺乏锻炼”的人数为,求的数学期望和方差;
附:,
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)表格见解析,性别因素与学生体育锻炼的经常性有关系
(2),
【详解】(1)根据题意可得列联表如下;
性别
不经常锻炼
经常锻炼
合计
男生
7
23
30
女生
14
16
30
合计
21
39
60
零假设为:性别与锻炼情况独立,即性别因素与学生体育锻炼的经常性无关;
根据列联表的数据计算可得,
根据小概率值的独立性检验,推断不成立,
即性别因素与学生体育锻炼的经常性有关系,此推断犯错误的概率不超过0.1.
(2)因学校总学生数远大于所抽取的学生数,故X近似服从二项分布,
易知随机抽取一人为“极度缺乏锻炼”者的概率,
所以,
故,.
38.(2023·24高二下·山西忻州·期中)某生产企业对原有的生产线进行技术升级,在技术升级前后,分别从其产品中随机抽取样本数据进行统计,制作了如下列联表:
合格品
不合格品
合计
升级前
120
80
200
升级后
150
50
200
合计
270
130
400
(1)根据上表,依据小概率值的独立性检验,能否认为产品的合格率与技术是否升级有关?
(2)在抽取的所有合格品中,按升级前后合格品的比例进行分层随机抽样,抽取9件产品,然后从这9件产品中随机抽取4件,记其中属于升级前生产的有件,属于升级后生产的有件,求的概率.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有关
(2)
【详解】(1)零假设为:产品的合格率与技术是否升级无关.
,
根据小概率值的独立性检验,推断不成立,
即认为产品的合格率与技术是否升级有关.
(2)由题意,升级前后合格品的比例为4:5,故抽取的9件中有4件属于升级前生产的,
有5件属于升级后生产的.
包括和两种情况:
当,时,,
当,时,,
则的概率.
$$