内容正文:
专题05 成对数据的统计分析
高频考点概览
考点01相关关系
考点02相关系数
考点03一元线性回归模型分析
考点04 一元线性回归方程
考点05 非线性回归方程
考点06 残差和决定系数
考点07 等高堆积条形图和卡方的独立性检验
(
考点01
相关关系
)
1.(18-19高一下·云南楚雄·期中)对两个变量,的几组观测数据统计如下表,则这两个相关变量的关系是( )
10
9
8
7
6
5
2
3
3.5
4
4.8
5
A.负相关 B.正相关 C.先正后负相关 D.先负后正相关
2.(2018·云南昆明·一模)若对于变量的取值为3,4,5,6,7时,变量对应的值依次分别为4.0,2.5,,,;若对于变量的取值为1,2,3,4时,变量对应的值依次分别为2,3,4,6,则变量和,变量和的相关关系是( )
A.变量和是正相关,变量和是正相关
B.变量和是正相关,变量和是负相关
C.变量和是负相关,变量和是负相关
D.变量和是负相关,变量和是正相关
3.(2019·云南昆明·一模)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
4.(20-21高二上·云南·期中)已知变量和满足关系,变量与负相关.下列结论正确的是( )
A.与负相关,与负相关 B.与负相关,x与正相关
C.与正相关,与负相关 D.与正相关,x与正相关
5.(18-19高一下·云南·阶段检测)下面属于相关关系的是( )
A.气温和冷饮销量之间的关系
B.速度一定时,位移和时间的关系
C.亩产量为常数时,土地面积与产量之间的关系
D.正方体的体积和棱长的关系
(
考点
0
2
相关系数
)
1.(24-25高二下·云南昆明·阶段检测)(多选)下列选项正确的是( )
A.数据的第45百分位数是3
B.已知线性相关系数为,若越接近1,则两个变量的线性相关程度越高
C.回归直线方程为,则样本点的残差为
D.随机变量服从二项分布,若方差,则
2.(25-26高三上·云南·阶段检测)下列说法正确的是( )
A.某单位有男职工60人,女职工40人,其中男职工平均年龄为36岁,女职工平均年龄为30岁,则该单位全体职工的平均年龄是33岁
B.已知随机变量,若,则
C.两个随机变量的线性相关性越强,相关系数越接近于1
D.某人每次投篮的命中率为,现投篮5次,设投中次数为随机变量Y,则
3.(22-23高三上·云南保山·期末)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下表:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
用最小二乘法求得关于的经验回归直线方程是,相关系数(若,则线性相关程度一般,若,则线性相关程度较高),下列说法不正确的有( )
A.变量与正相关且相关性较强
B.
C.当时,的估计值为40.3
D.相应于点的残差为0.8
4.(22-23高二下·云南保山·期末)某县城为活跃经济,特举办传统文化民俗节,小张弄了一个套小白兔的摊位,设表示第天的平均气温,表示第天参与活动的人数,,根据统计,计算得到如下一些统计量的值:.
(1)根据所给数据,用相关系数(精确到0.01)判断是否可用线性回归模型拟合与的关系;
(2)现有两个家庭参与套圈,家庭3位成员每轮每人套住小白兔的概率都为家庭3位成员每轮每人套住小白兔的概率分别为,每个家庭的3位成员均玩一次套圈为一轮,每轮每人收费30元,每个小白兔价值60元,且每人是否套住相互独立,以每个家庭的盈利的期望为决策依据,问:一轮结束后,哪个家庭损失较大?
附:相关系数.
5.(22-23高三上·云南·阶段检测)某加工工厂加工产品A,现根据市场调研收集到需加工量X(单位:千件)与加工单价Y(单位:元/件)的四组数据如下表所示:
X
6
8
10
12
Y
12
m
6
4
根据表中数据,得到Y关于X的线性回归方程为,其中.
(1)若某公司产品A需加工量为1.1万件,估计该公司需要给该加工工厂多少加工费;
(2)通过计算线性相关系数,判断Y与X是否高度线性相关.
参考公式:,时,两个相关变量之间高度线性相关.
(
考点
0
3
一元线性回归模型分析
)
1.(20-21高二·云南大理·期中)已知,的取值如表所示,从散点图分析,与线性相关,且,则的值为( )
0
1
3
4
2.2
4.3
4.8
6.7
A.2.8 B.2.6 C.3.6 D.3.2
2.(20-21高二下·云南曲靖·月考)研究发现,人体脂肪含量(百分比)与年龄(岁)具有线性相关关系,根据14组样本数据,用最小二乘法建立的线性回归直线方程为,则下列结论错误的是( ).
A.回归直线一定过样本点的中心
B.与具有正的线性相关关系
C.回归直线的两侧一定各有7个样本数据
D.若某人的年龄增加1岁,则其脂肪含量大约增加%
3.(20-21高二下·云南保山·期末)某种产品的投入(单位:万元)与收入(单位:万元)之间的关系如表:
2
4
5
6
8
30
40
60
50
70
若已知与的线性回归方程为,那么当投入为4万元时,收入的随机误差为( )万元.(随机误差=真实值-预测值)
A.-4.5 B.4.5 C.3.5 D.-3.5
4.(2025·云南昆明·模拟预测)(多选)对于一元线性回归模型,下列说法错误的是( )
A.对于随机误差,在刻画成对变量的相关关系时,需假定
B.解释变量的取值距离样本数据范围越远,预报的效果越差
C.在经验回归方程中,样本点的残差为
D.在经验回归方程中,当解释变量x每增加1个单位时,响应变量y平均减少3个单位
5.(23-24高二下·云南临沧·期末)(多选)某商家统计了最近5个月某产品的销量,如表所示:若y与x线性相关,且线性回归方程为,则( )
时间x
1
2
3
4
5
销售量y/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.
6.(23-24高二下·云南保山·阶段检测)(多选)某学校一名同学研究温差与本校当天新增感冒人数(人)的关系,该同学记录了5天的数据:
5
6
8
9
12
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列说法正确的有( )
(参考公式:相关系数公式)
A.样本中心点为
B.
C.当时,残差为
D.若去掉样本点,则样本的相关系数增大
7.(23-24高三上·云南昆明·阶段检测)(多选)已知由样本数据()组成的一个样本,得到经验回归方程为且,去除两个异常数据和后,得到的新的经验回归直线的斜率为3,则( )
A.相关变量,具有正相关关系
B.去除异常数据后,新的平均数
C.去除异常数据后的经验回归方程为
D.去除异常数据后,随值增加,的值增加速度变小
(
考点
0
4
一元线性回归方程
)
1.(24-25高三下·云南临沧·阶段检测)在研究性学习活动中,某位学生收集了两个变量与之间的几组数据如下表:
根据上表数据所得经验回归方程为.该同学又收集了两组数据,和,,利用这六组数据求得的经验回归方程为,则以下结论正确的是( )
参考公式:经验回归方程为,其中,.
A., B.,
C., D.,
2.(18-19高三·云南昆明·阶段检测)2019年9月24日国家统计局在庆祝中华人民共和国成立70周年活动新闻中心举办新闻发布会指出,1952年~2018年,我国GDP从679.1亿元跃升至90.03万亿元,实际增长174倍;人均CDP从119元提高到6.46万元,实际增长70倍.全国各族人民,砥砺奋进,顽强拼搏,实现了经济社会的跨越式发展.特别是党的十八大以来,在以习近平同志为核心的党中央坚强领导下,党和国家事业取得历史性成就、发生历史性变革,中国特色社会主义进入新时代.如图是全国2012年至2018年GDP总量(万亿元)的折线图.
注:年份代码1~7分别对应年份2012~2018.
(1)由折线图看出,可用线性回归模型拟合与年份代码的关系,请用相关系数加以说明;
(2)建立关于的回归方程(系数精确到0.01),预测2019年全国GDP的总量.
附注:
参考数据:,,,.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为,.
3.(2024·云南昆明·模拟预测)2023年,我国新能源汽车产销量占全球比重超过,中国成为世界第一大汽车出口国.某汽车城统计新能源汽车从某天开始连续的营业天数与销售总量(单位:辆),采集了一组共20对数据,并计算得到回归方程,且这组数据中,连续的营业天数的方差,销售总量的方差.
(1)求样本相关系数,并说明与的相关性;
(2)在这组数据中,若连续的营业天数满足,试推算销售总量的平均数.
附:经验回归方程,其中,.
样本相关系数,.
4.(2019·云南玉溪·模拟预测)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号小白鼠
2号小白鼠
3号小白鼠
4号小白鼠
5号小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的经验回归方程.
(2)现要从这5只小白鼠中随机抽取3只,求至少有1只小白鼠的B项指标数据高于3的概率.
参考公式:经验回归方程中,.
参考数据:,.
5.(24-25高二下·云南昆明·阶段检测)近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省内的发展情况,某调查机构从省内抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)画出散点图;
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省内某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由(其中).
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为.
6.(2021·云南红河·一模)随着电商事业的快速发展,网络购物交易额也快速提升,特别是每年的“双十一”,天猫的交易额数目惊人.2020年天猫公司的工作人员为了迎接天猫“双十一”年度购物狂欢节,加班加点做了大量准备活动,截止至2020年11月11日24时,2020年的天猫“双十一”交易额定格在3700多亿元,天猫总公司所有员工对于新的战绩皆大欢喜,同时又对2021年充满了憧憬,因此公司工作人员反思从2014年至2020年每年“双十一”总交易额(取近似值),进行分析统计如下表:
年份
2014
2015
2016
2017
2018
2019
2020
年份代码()
1
2
3
4
5
6
7
总交易额(单位:百亿)
5.7
9.1
12.1
16.8
21.3
26.8
37
(1)通过分析,发现可用线性回归模型拟合总交易额y与年份代码t的关系,请用相关系数加以说明;
(2)利用最小二乘法建立y关于t的回归方程(系数精确到0.1),预测2021年天猫“双十一”的总交易额.
参考数据:,,;
参考公式:相关系数;
回归方程中,斜率和截距的最小二乘估计公式分别为:,.
7.(2026·云南昆明·模拟预测)某企业八年来的年生产总值(单位;百万元)统计如下表:
第x年
1
2
3
4
5
6
7
8
年生产总值y
12
14
18
24
32
52
73
95
根据表中数据解决下列问题.
(1)在所统计的8个生产总值中任取2个,记其中不低于平均值的个数为,求的分布列和数学期望;
(2)该企业在第5年进行了结构性改革,从第5年开始,企业的年生产总值呈直线上升趋势.试用线性回归模型预测该企业第10年的生产总值.
附:回归方程系数:;
参考数据:,.
(
考点
0
5
非线性回归方程
)
1.(24-25高二下·云南昆明·期中)随着科技的进步及人民生活水平的提高,人们对于智能化生活的需求逐渐增加.李明统计了他在2011年至2020年的年收入与他购买电子产品的花销的数据.
为了预测他在2021年年收入为20万元时,在电子产品上花销为多少,建立了关于的两个回归模型:
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由样本点的分布,可以认为样本点集中在曲线:的附近,对年收入做变换,令.则,且有,,,.
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测李明年收入为20万元时的电子产品花销为多少百元?(结果保留两位小数).
附:样本的最小二乘估计公式为,;
参考数据:,.
2.(22-23高三·云南昆明·阶段检测)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了10名网红直播的观看人次和农产品销售量的数据,得到如图所示的散点图.
(1)利用散点图判断,和哪一个更适合作为观看人次x和销售量y的回归方程类型;(只要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
9.4
30.3
2
366
6.6
439.2
66
其中令,.根据(1)的判断结果及表中数据,求y关于x的回归方程,并预测当观看人次为280万人时的销售量;
(3)规定:观看人次大于等于120万人次的主播为优秀主播,从这10名主播中随机抽取3名,记其中优秀主播的人数为,求的分布列和数学期望.
参考数据和公式:,
附:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.
3.(2023·云南昆明·一模)某新能源汽车公司从2018年到2022年汽车年销售量(单位:万辆)的散点图如下:
记年份代码为
(1)根据散点图判断,模型①与模型②,哪一个更适宜作为年销售量关于年份代码的回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立关于的回归方程;
(3)预测2023年该公司新能源汽车销售量.
参考数据:
34
55
979
657
2805
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,
4.(22-23高三·云南·阶段检测)近年来,云南省保山市龙陵县紧紧围绕打造“中国石斛之乡”的发展定位,大力发展石斛产业,该产业带动龙陵县近四分之一人口脱贫致富.2022年8月,龙陵紫皮石斛获国家地理标志运用促进工程重点项目,并被评为优秀等次.在政府的大力扶持下,龙陵紫皮石斛产量逐年增长,2017年底到2022年底龙陵县石斛产量统计如下及散点图如图.
年份
2017
2018
2019
2020
2021
2022
年份代码x
1
2
3
4
5
6
紫皮石斛产量y(吨)
3200
3400
3600
4200
7500
9000
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)经计算得下表中数据,根据(1)中结果,求出y关于x的回归方程;
3.5
5150
8.46
17.5
20950
3.85
其中.
(3)龙陵县计划到2025年底实现紫皮石斛年产量达1.5万吨,根据(2)所求得的回归方程,预测该目标是否能完成?(参考数据:)
附:,.
(
考点
0
6
残差和
决定系数
)
1.(23-24高三下·云南昆明·阶段检测)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数如下,其中拟合效果最好的模型是( )
A.模型1(决定系数为0.97) B.模型2(决定系数为0.85)
C.模型3(决定系数为0.40) D.模型4(决定系数为0.25)
2.(24-25高三上·云南昆明·阶段检测)下列说法错误的是( )
A.若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中
B.在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
C.在一元线性回归模型中,如果相关系数,表明两个变量的相关程度很强
D.对于一组数据,,…,,若所有数据均变成原来的2倍,则变为原来的2倍
3.(24-25高三下·云南昆明·阶段检测)下列残差图满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
4.(20-21高二下·云南丽江·阶段检测)对两个变量y和x进行回归分析,得到一组样本数据:,,,,则下列说法中不正确的是( )
A.用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好
B.由样本数据得到的线性回归方程必过样本点的中心
C.残差平方和越小的模型,拟合的效果越好
D.若变量y和x之间的相关系数,则变量y与x之间具有线性相关关系
5.(2025·云南·三模)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B.
C.0.1 D.0.2
6.(2025·云南丽江·三模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
7.(2025·云南·模拟预测)自2021年以来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧,某地区电动汽车保有量呈现快速增长趋势,下表给出了近5年该地区的电动汽车保有量(单位:万辆).
年份
2021
2022
2023
2024
2025
年份编号
1
2
3
4
5
电动汽车保有量
1.5
2.5
4.9
7.8
若用作为该数据的回归直线模型,并已求得,
(1)结合已知数据求出2023年该地区的电动汽车保有量,并预测2030年该地区的电动汽车保有量;
(2)若已知,求此模型下的决定系数(精确到0.01).
参考公式及数据:一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,决定系数.
8.(2025·云南·模拟预测)自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
核心产值规模
1.5
2.5
3.4
4.9
7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3
4.02
16.16
104.91
1.24
22.54
1.1
1.5
11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
(
考点
0
7
等高堆积条形图
和卡方的独立性检验
)
1.(2021·云南昆明·模拟预测)我国目前部分普通高中学生在高一升高二时面临着选文理科的问题,某学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图
根据这两幅图中的信息,下列统计结论正确的是( )
A.样本中的男生数量多于女生数量
B.样本中有理科意愿的学生数量少于有文科意愿的学生数量
C.对理科有意愿的男生人数多于对文科有意愿的男生人数
D.对文科有意愿的女生人数多于对理科有意愿的女生人数
2.(23-24高二下·云南曲靖·阶段检测)(多选)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了名学生进行调查,按照性别和体育锻炼情况整理出如下的列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
5
30
35
男生/人
5
10
15
合计/人
10
40
50
常用的小概率值和相应的临界值如下表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
注:独立性检验中,,.
根据这些数据,判断下列说法正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
C.根据小概率值的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
3.(21-22高二下·云南昆明·期末)北京时间2022年4月16日,神舟13号载人飞船返回舱在东风着陆场成功着陆,这趟神奇之旅意义非凡,尤其是“天宫课堂”在广大学生心中引起强烈反响,激起了他们对太空知识的浓厚兴趣.某中学为了解学生的性别和对天宫课堂的喜欢是否有关联,采用简单随机抽样的方法抽取100名学生进行问卷调查,得到如下列联表:
性别
天宫课堂
不喜欢
喜欢
合计
女
20
40
60
男
10
30
40
合计
30
70
100
(1)画出列联表的等高堆积条形图,并判断该中学学生性别与喜欢天宫课堂是否有关联;
(2)依据小概率值的独立性检验,能否据此认为该中学学生性别与喜欢天宫课堂有关联;
(3)以上两种方法得出的结论哪一种更可靠,请说明理由.
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
43.(25-26高三上·云南玉溪·期中)为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此随机抽选了名男生和名女生,统计数据如下表所示:
经常锻炼
不经常锻炼
合计
男生
女生
合计
(1)从这人中随机选一人,已知选到的学生不经常锻炼,求此人是女生的概率;
(2)试依据小概率值的独立性检验,分析学生体育锻炼的经常性与性别是否有关.
附:,其中.
α
4.(25-26高三下·云南楚雄·开学考试)为助力“双碳”目标落地,某新型储能企业调研技术岗员工对钠离子电池产业扶持政策的认知情况,随机选取180名技术岗员工(含研发岗、运维岗)开展问卷调查,统计认知深度(深度认知、基础认知)与岗位类型的关联数据,初步整理数据如下:
类别
研发岗
运维岗
合计
深度认知
60
60
基础认知
20
40
合计
(1)补充表格,并根据小概率值的独立性检验,分析认知深度与岗位类型是否有关;
(2)用按比例分配的分层随机抽样方法从基础认知的人中抽取12人,再从这12人中随机抽取6人,用随机变量表示这6人中研发岗员工人数与运维岗员工人数之差的绝对值,求的分布列和数学期望.
参考公式:,.
独立性检验中常用的小概率值和相应临界值.
0.1
0.05
0.025
0.005
0.001
2.706
3.841
5.024
7.879
10.828
5.(24-25高二下·云南曲靖·期末)2025年,教育部推广“人工智能线上课程”试点应用.某中学随机抽取100名学生(男生与女生的人数之比为)对该线上课程进行评分(满分100分).规定:评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,已知评分不低于70分的频率为0.85.
(1)估计100名学生对人工智能线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“人工智能线上课程是否满意与性别有关”.
性别态度
满意
不满意
合计
男生
女生
10
合计
100
,其中.
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
6.(24-25高二下·云南曲靖·期末)DeepSeekApp于2025年1月11日正式发布并上线,它凭借创新的功能和极富吸引力的用户体验,在社交媒体上引发了广泛的讨论和分享,因而产生了强大的社会效应.公司新开发了一款算法,为了测试该算法在青年人和中年人中的应用效果,机构进行了一项调查,统计结果如下表(单位:人).
效果
用户
总计
青年人用户人数
中年人用户人数
有效
无效
总计
150
150
300
(1)求出,的值;
(2)依据小概率值的独立性检验,请判断算法的效果在两组不同年龄段的用户中是否存在差异?
(3)先用分层抽样在所有接受调查的用户中抽取30人得到一个压缩样本,再在的青年人用户中一次性随机抽取3人,求恰有1人的体验效果为有效的概率.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
7.(24-25高二下·云南保山·期末)保山小粒咖啡是云南省保山市特产,中国国家地理标志保护产品,它以其颗粒均匀饱满、气味清新、香气浓郁、口感醇厚而闻名,被誉为“全国咖啡之冠”.某校高一数学兴趣小组,为了了解当地居民对喝咖啡的态度,随机调查了100人,并将结果整理如下:
年龄段
态度
合计
不喜欢喝咖啡
喜欢喝咖啡
35岁以下(含35岁)
25
35
60
35岁以上
25
15
40
合计
50
50
100
(1)根据小概率值α=0.1的独立性检验,能否据此推断该地居民喜欢喝咖啡与年龄有关?
(2)该兴趣小组在被调查的喜欢喝咖啡的人群中,用分层抽样的方法抽取10人,再从这10人中随机抽取4人参加咖啡文化艺术节.抽取的4人中,35岁以上的人数记为X,求X的分布列与期望.
参考公式:,其中n=a+b+c+d.
参考数据:
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
8.(24-25高二下·云南玉溪·期末)2025斯诺克世锦赛中,中国选手赵心童获得冠军,创造了历史.为了解高二学生喜欢台球是否与性别有关,某学校随机抽取了200名高二年级学生进行统计,得到的列联表如下:
喜欢
不喜欢
合计
男
60
女
90
合计
70
200
参考公式:,其中.
附表:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
(1)求,,,,;
(2)依据小概率值的独立性检验,是否可以推断高二学生喜欢台球与性别有关?
9.(24-25高二下·云南·期末)某杂志社为了解杂志订阅者对某杂志冷色调与暖色调的封面设计偏好是否与他们的性别有关,随机调查并收集了100名该杂志订阅者对该杂志封面设计的色调偏好数据,同时记录了他们的性别,得到如下所示的列联表.
单位:人
性别
封面设计的色调
合计
冷色调
暖色调
男性
28
女性
32
合计
46
(1)请完成以上表格,并根据小概率值的独立性检验,分析该杂志订阅者对该杂志封面设计的色调偏好是否与性别有关联;
(2)从这100名该杂志订阅者中随机抽取2名订阅者参加某读书会,用表示这2名订阅者中女性的人数,求的分布列和数学期望;
(3)用频率估计概率,从全国各地该杂志的所有订阅者中随机抽取部分订阅者参加书籍捐赠活动,从数学期望的角度考虑,若要使得被抽取的订阅者中偏好暖色调封面设计的人数至少为189,则至少应抽取多少名该杂志订阅者?
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
27 / 27
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题05 成对数据的统计分析
高频考点概览
考点01相关关系
考点02相关系数
考点03一元线性回归模型分析
考点04 一元线性回归方程
考点05 非线性回归方程
考点06 残差和决定系数
考点07 等高堆积条形图和卡方的独立性检验
(
考点01
相关关系
)
1.(18-19高一下·云南楚雄·期中)对两个变量,的几组观测数据统计如下表,则这两个相关变量的关系是( )
10
9
8
7
6
5
2
3
3.5
4
4.8
5
A.负相关 B.正相关 C.先正后负相关 D.先负后正相关
【答案】A
【分析】从表中可知变量值在减小时,变量的值反而在增大,它们应是负相关.
【详解】根据给定数据得这两个相关变量的关系是负相关.选A.
【点睛】本题考查变量的相关性,掌握正负相关的概念是解题关键,本题属于基础题.
2.(2018·云南昆明·一模)若对于变量的取值为3,4,5,6,7时,变量对应的值依次分别为4.0,2.5,,,;若对于变量的取值为1,2,3,4时,变量对应的值依次分别为2,3,4,6,则变量和,变量和的相关关系是( )
A.变量和是正相关,变量和是正相关
B.变量和是正相关,变量和是负相关
C.变量和是负相关,变量和是负相关
D.变量和是负相关,变量和是正相关
【答案】D
【分析】利用正相关、负相关的概念进行判断.
【详解】由题知,变量增加,变量减少,所以变量和是负相关;
变量增加,变量增加,所以变量和是正相关,故A,B,C错误.
故选:D.
3.(2019·云南昆明·一模)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
【答案】A
【解析】画出利润率与人均销售额的散点图即可判断.
【详解】画出利润率与人均销售额的散点图,如图.
由图可知利润率与人均销售额成正相关关系.
故选:A.
4.(20-21高二上·云南·期中)已知变量和满足关系,变量与负相关.下列结论正确的是( )
A.与负相关,与负相关 B.与负相关,x与正相关
C.与正相关,与负相关 D.与正相关,x与正相关
【答案】C
【解析】根据和满足的关系式的斜率可确定和正相关,由与负相关可确定与负相关.
【详解】和满足关系:,,和正相关,
又与负相关,和负相关.
故选:C.
5.(18-19高一下·云南·阶段检测)下面属于相关关系的是( )
A.气温和冷饮销量之间的关系
B.速度一定时,位移和时间的关系
C.亩产量为常数时,土地面积与产量之间的关系
D.正方体的体积和棱长的关系
【答案】A
【分析】根据相关关系的定义逐一对四个选项进行判断.
【详解】选项A:气温和冷饮销量之间的关系是正相关关系;
选项B:速度一定时,位移与时间成正比例关系,是确定关系;
选项C:亩产量为常数时,土地面积与产量成正比例关系,是确定关系;
选项D:因为正方体的体积等于棱长的立方,所以正方体的体积与棱长是确定关系,故本题选A.
【点睛】本题考查了相关关系的判断,正确理解相关关系、确定关系的定义是解题的关键.
(
考点
0
2
相关系数
)
1.(24-25高二下·云南昆明·阶段检测)(多选)下列选项正确的是( )
A.数据的第45百分位数是3
B.已知线性相关系数为,若越接近1,则两个变量的线性相关程度越高
C.回归直线方程为,则样本点的残差为
D.随机变量服从二项分布,若方差,则
【答案】BCD
【分析】对于A:利用百分位数定义即可得到结果;对于B:越接近1,则两个变量的线性相关性越强,对于C:利用残差定义即可得到结果;对于D:利用二项分布的方差公式即可求得结果.
【详解】对于A,数据从小到大排列为,因为,所以数据的第45百分位数为2,故A错误;
对于B,若线性相关系数的绝对值越接近1,则两个变量的线性相关性越强,故B正确;
对于C,令,得,则所求残差为,故C正确;
对于D,可得,解得或,
当时,可得,
当时,可得,
综上可得,总有,故D正确,
故选:BCD.
2.(25-26高三上·云南·阶段检测)下列说法正确的是( )
A.某单位有男职工60人,女职工40人,其中男职工平均年龄为36岁,女职工平均年龄为30岁,则该单位全体职工的平均年龄是33岁
B.已知随机变量,若,则
C.两个随机变量的线性相关性越强,相关系数越接近于1
D.某人每次投篮的命中率为,现投篮5次,设投中次数为随机变量Y,则
【答案】D
【分析】根据概率平均数求解可判断A;根据正态分布性质即可判断B;根据相关系数概念可判断C;根据二项分布期望公式及期望运算性质计算可判断D.
【详解】对A,单位男职工概率为,女职工概率为,
其中男职工平均年龄为36岁,女职工平均年龄为30岁,
则该单位全体职工的平均年龄是岁,故A错误;
对B,随机变量,若,则,
则,故B错误;
对C,两个随机变量的线性相关性越强,相关系数绝对值越接近于1,故C错误;
对D,某人每次投篮的命中率为,现投篮5次,设投中次数为随机变量,
则服从二项分布,即,所以,
所以,故D正确.
故选:D
3.(22-23高三上·云南保山·期末)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下表:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
用最小二乘法求得关于的经验回归直线方程是,相关系数(若,则线性相关程度一般,若,则线性相关程度较高),下列说法不正确的有( )
A.变量与正相关且相关性较强
B.
C.当时,的估计值为40.3
D.相应于点的残差为0.8
【答案】D
【分析】根据相关系数可判断A;求出代入回归方程可判断B;将代入线性回归方程可判断C;求出相应于点的残差可判断.
【详解】对于A,由相关系数可知变量与正相关且相关性较强,故A正确;
对于B,由表中数据可得,所以,解得,故B正确;
对于C,关于的线性回归方程为,将代入线性回归方程可得,,故C正确;
对于D,相应于点的残差为,故错误.
故选:D.
4.(22-23高二下·云南保山·期末)某县城为活跃经济,特举办传统文化民俗节,小张弄了一个套小白兔的摊位,设表示第天的平均气温,表示第天参与活动的人数,,根据统计,计算得到如下一些统计量的值:.
(1)根据所给数据,用相关系数(精确到0.01)判断是否可用线性回归模型拟合与的关系;
(2)现有两个家庭参与套圈,家庭3位成员每轮每人套住小白兔的概率都为家庭3位成员每轮每人套住小白兔的概率分别为,每个家庭的3位成员均玩一次套圈为一轮,每轮每人收费30元,每个小白兔价值60元,且每人是否套住相互独立,以每个家庭的盈利的期望为决策依据,问:一轮结束后,哪个家庭损失较大?
附:相关系数.
【答案】(1)相关系数;可用线性回归模型拟合
(2)家庭损失较大
【分析】(1)由相关系数的公式可直接代入求解,再通过相关系数即可判断是否可用线性回归模型拟合与的关系;
(2)由于家庭套小白兔这个试验是独立重复则家庭套住小白兔的人数为且,可求,由家庭的盈利,利用期望的性质可得;由于家庭套小白兔这个试验是独立不重复,所以可用独立事件的概率公式求家庭套住小白兔的人数为得分布列,进而求出,由于家庭的盈利为,同样利用期望的性质可得,所以比较两者即可得出一轮结束后哪个家庭损失较大.
【详解】(1),
,
则根据相关系数,可用线性回归模型拟合与的关系.
(2)设家庭套住小白兔的人数为,
因为事件本身独立重复,则,
,
设家庭的盈利为,
则,
设家庭套住小白兔的人数为,
的可能取值分别为,
则,
,
,
,
设家庭的盈利为,
,
家庭损失较大.
5.(22-23高三上·云南·阶段检测)某加工工厂加工产品A,现根据市场调研收集到需加工量X(单位:千件)与加工单价Y(单位:元/件)的四组数据如下表所示:
X
6
8
10
12
Y
12
m
6
4
根据表中数据,得到Y关于X的线性回归方程为,其中.
(1)若某公司产品A需加工量为1.1万件,估计该公司需要给该加工工厂多少加工费;
(2)通过计算线性相关系数,判断Y与X是否高度线性相关.
参考公式:,时,两个相关变量之间高度线性相关.
【答案】(1)该公司需要给该加工工厂57200元加工费.
(2)Y与X高度线性相关.
【分析】(1)由线性回归直线方程必过,代入方程与已知联立可得与m的值,进而求得回归方程,代入可得单价,由总加工费等于单价乘以件数可得结果.
(2)计算线性相关系数r,比较与0.9可得结果.
【详解】(1)∵,,
则,
又∵
∴,,
∴,
∵1.1万=11千,
∴当时,(元),
∴(元),
答:估计该公司需要给该加工工厂57200元加工费.
(2)由(1)知,,,,
∴
∴,
∴两个相关变量之间高度线性相关.
(
考点
0
3
一元线性回归模型分析
)
1.(20-21高二·云南大理·期中)已知,的取值如表所示,从散点图分析,与线性相关,且,则的值为( )
0
1
3
4
2.2
4.3
4.8
6.7
A.2.8 B.2.6 C.3.6 D.3.2
【答案】B
【分析】本题考查回归直线方程,因为回归直线方程恒过样本中心点,只要求出和的平均值,再代入方程中即可求出的值.
【详解】解:由已知可求得,,
所以有,解得.
故选:B
2.(20-21高二下·云南曲靖·月考)研究发现,人体脂肪含量(百分比)与年龄(岁)具有线性相关关系,根据14组样本数据,用最小二乘法建立的线性回归直线方程为,则下列结论错误的是( ).
A.回归直线一定过样本点的中心
B.与具有正的线性相关关系
C.回归直线的两侧一定各有7个样本数据
D.若某人的年龄增加1岁,则其脂肪含量大约增加%
【答案】C
【分析】根据回归直线方程,及回归方程的性质,对各个选项进行分析、判断正误即可.
【详解】解:对于A,线性回归直线方程一定过样本点的中心,,正确;
对于B,线性回归方程中的系数,与具有正的线性相关关系,正确;
对于C,回归直线方程两侧的样本数据的个数不一定平均分布,有的样本数据就在直线上,C错误;
对于D,根据回归直线方程知,若某人的年龄增加1岁,其脂肪含量大约增加,正确.
故选:C.
3.(20-21高二下·云南保山·期末)某种产品的投入(单位:万元)与收入(单位:万元)之间的关系如表:
2
4
5
6
8
30
40
60
50
70
若已知与的线性回归方程为,那么当投入为4万元时,收入的随机误差为( )万元.(随机误差=真实值-预测值)
A.-4.5 B.4.5 C.3.5 D.-3.5
【答案】D
【分析】直接利用线性回归方程求出时的估计值,再求误差即可
【详解】取,得,
∴当投入为4万元时,随机误差,
故选:D.
4.(2025·云南昆明·模拟预测)(多选)对于一元线性回归模型,下列说法错误的是( )
A.对于随机误差,在刻画成对变量的相关关系时,需假定
B.解释变量的取值距离样本数据范围越远,预报的效果越差
C.在经验回归方程中,样本点的残差为
D.在经验回归方程中,当解释变量x每增加1个单位时,响应变量y平均减少3个单位
【答案】CD
【分析】根据一元线性回归模型判断A,根据残差的定义判断BC,结合回归方程判断D.
【详解】对于A,由一元线性回归模型方程知,对于随机误差,在刻画成对变量的相关关系时,需假定,A正确;
对于B,解释变量的取值距离样本数据范围越远,说明残差越大,故预报的效果越差,B正确;
对于C,在经验回归方程中,取可得,,
所以样本点的残差为,C错误;
对于D,在经验回归方程中,当解释变量每增加个单位时,响应变量平均减少个单位,D错误;
故选:CD.
5.(23-24高二下·云南临沧·期末)(多选)某商家统计了最近5个月某产品的销量,如表所示:若y与x线性相关,且线性回归方程为,则( )
时间x
1
2
3
4
5
销售量y/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.
【答案】ACD
【分析】根据已知条件,结合线性回归方程的性质,即可求解.
【详解】对于A,由题中数据可知,随着x变大,变小,则变量y与x负相关,故A正确;
对于D,由表中数据可知,,,
又因为,则,解得,故D正确;
对于B,当时,残差为,故B错误;
对于C,当时,,
故可以预测当时销量约为2.1万只,故C正确.
故选:ACD.
6.(23-24高二下·云南保山·阶段检测)(多选)某学校一名同学研究温差与本校当天新增感冒人数(人)的关系,该同学记录了5天的数据:
5
6
8
9
12
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列说法正确的有( )
(参考公式:相关系数公式)
A.样本中心点为
B.
C.当时,残差为
D.若去掉样本点,则样本的相关系数增大
【答案】AB
【分析】根据平均数的计算公式判断A,根据样本中心点在回归直线方程上判断B,根据残差的定义判断C,根据相关系数公式分析判断D即可.
【详解】由表格可得,
所以样本中心点为,故A说法正确;
由得,故B说法正确;
由B知,,当时,,则残差为,故C说法错误;
因为,
所以,所以去掉样本点后,相关系数的公式中的分子、分母的大小都不变,故相关系数的大小不变,故D错误;
故选:AB
7.(23-24高三上·云南昆明·阶段检测)(多选)已知由样本数据()组成的一个样本,得到经验回归方程为且,去除两个异常数据和后,得到的新的经验回归直线的斜率为3,则( )
A.相关变量,具有正相关关系
B.去除异常数据后,新的平均数
C.去除异常数据后的经验回归方程为
D.去除异常数据后,随值增加,的值增加速度变小
【答案】AC
【分析】A选项,根据正相关的定义得到A正确;B选项,根据得到B错误;C选项,先求出,进而得到,结合新的经验回归直线的斜率得到新的经验回归方程;D选项,去除异常数据后,斜率由增大到3,故D错误.
【详解】A选项,因为回归方程的斜率为正,所以相关变量,具有正相关关系,所以A正确;
B选项,因为,所以去除两个异常数据和后,
得到新的,所以B错误;
C选项,由代入得,
故去除两个异常数据和后,,
因为得到的新的经验回归直线的斜率为3,
所以,
所以去除异常数据后的经验回归方程为,故C正确;
D选项,因为经验回归直线的斜率为正数,所以变量,具有正相关关系,
且去除异常数据后,斜率由增大到3,故值增加的速度变大,D错误.
故选:AC.
(
考点
0
4
一元线性回归方程
)
1.(24-25高三下·云南临沧·阶段检测)在研究性学习活动中,某位学生收集了两个变量与之间的几组数据如下表:
根据上表数据所得经验回归方程为.该同学又收集了两组数据,和,,利用这六组数据求得的经验回归方程为,则以下结论正确的是( )
参考公式:经验回归方程为,其中,.
A., B.,
C., D.,
【答案】D
【分析】根据最小二乘法分别求出及,即可判断选项.
【详解】由表格数据可得:,,,
则,,
添加两组数据,和,后,,,
,
,
所以,.
故选:D
2.(18-19高三·云南昆明·阶段检测)2019年9月24日国家统计局在庆祝中华人民共和国成立70周年活动新闻中心举办新闻发布会指出,1952年~2018年,我国GDP从679.1亿元跃升至90.03万亿元,实际增长174倍;人均CDP从119元提高到6.46万元,实际增长70倍.全国各族人民,砥砺奋进,顽强拼搏,实现了经济社会的跨越式发展.特别是党的十八大以来,在以习近平同志为核心的党中央坚强领导下,党和国家事业取得历史性成就、发生历史性变革,中国特色社会主义进入新时代.如图是全国2012年至2018年GDP总量(万亿元)的折线图.
注:年份代码1~7分别对应年份2012~2018.
(1)由折线图看出,可用线性回归模型拟合与年份代码的关系,请用相关系数加以说明;
(2)建立关于的回归方程(系数精确到0.01),预测2019年全国GDP的总量.
附注:
参考数据:,,,.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)详见解析(2)关于的回归方程为;预测2019年全国GDP总量约为93.73万亿元
【分析】(1)对式子进行变得,再将相关数据代入,即可求得的值;
(2)将数据代入,求得,再利用回归直线经过样本点中心,可得,求得回归直线方程后,将代入方程即可得答案.
【详解】(1)由折线图中的数据和附注中参考数据得,,
,
所以,
因为与的相关系数近似为0.99,说明与的线性相关程度相当高,
从而可以用线性回归模型拟合与的关系.
(2)由及(1)得,
,
所以关于的回归方程为.
将2019年对应的代码代入回归方程得.
所以预测2019年全国GDP总量约为93.73万亿元.
【点睛】本题考查统计案例中的回归分析、最小二乘法求回归方程,考查函数与方程思想,考查数据处理和运算求解能力,求解时注意对公式的变形推导.
3.(2024·云南昆明·模拟预测)2023年,我国新能源汽车产销量占全球比重超过,中国成为世界第一大汽车出口国.某汽车城统计新能源汽车从某天开始连续的营业天数与销售总量(单位:辆),采集了一组共20对数据,并计算得到回归方程,且这组数据中,连续的营业天数的方差,销售总量的方差.
(1)求样本相关系数,并说明与的相关性;
(2)在这组数据中,若连续的营业天数满足,试推算销售总量的平均数.
附:经验回归方程,其中,.
样本相关系数,.
【答案】(1),正相关且相关程度很强;
(2)74辆.
【分析】(1)根据相关系数与的公式推导出,代入数据计算可得.
(2)由方差公式及求出,再根据回归直线方程必过样本中心点计算可得.
【详解】(1)依题意,,则
,
可以推断连续的营业天数与销售总量这两个变量正线性相关,且相关程度很强.
(2)
,
显然,解得,因此,
所以销售总量的平均数74辆.
4.(2019·云南玉溪·模拟预测)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号小白鼠
2号小白鼠
3号小白鼠
4号小白鼠
5号小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的经验回归方程.
(2)现要从这5只小白鼠中随机抽取3只,求至少有1只小白鼠的B项指标数据高于3的概率.
参考公式:经验回归方程中,.
参考数据:,.
【答案】(1)
(2).
【分析】(1)根据题中数据,先计算,再由公式计算出,即可得出回归直线方程;
(2)先设1号至5号小白鼠依次为,根据题中条件,列举出总的基本事件,以及满足条件的基本事件,基本事件的个数比即为所求概率.
【详解】(1)由题意,可得,,,,.
∵,∴.
∴所求经验回归方程为.
(2)设1号至5号小白鼠依次为,则在这5只小白鼠中随机抽取3只的抽取情况有,共10种,
随机抽取的3只小白鼠中至少有1只的B项指标数据高于3的情况有共9种.
∴从这5只小白鼠中随机抽取3只,至少有1只小白鼠的B项指标数据高于3的概率为.
5.(24-25高二下·云南昆明·阶段检测)近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省内的发展情况,某调查机构从省内抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)画出散点图;
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省内某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由(其中).
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为.
【答案】(1)图象见解析
(2),4.6
(3)需要,理由见解析
【分析】(1)直接描点即可;
(2)根据参考公式进行求解即可;
(3)计算出,得出,再判断出13是否在区间内,即可判断.
【详解】(1)如图所示.
(2)由题表得,.
,
,
得,
所以经验回归方程为.
当时,,
即当指标为7时,指标的估计值为4.6.
(3)该城市的交通管理部门需要进行治理.理由如下:
由(1)知,,由题意得,
因为,所以该城市的交通管理部门需要进行治理.
6.(2021·云南红河·一模)随着电商事业的快速发展,网络购物交易额也快速提升,特别是每年的“双十一”,天猫的交易额数目惊人.2020年天猫公司的工作人员为了迎接天猫“双十一”年度购物狂欢节,加班加点做了大量准备活动,截止至2020年11月11日24时,2020年的天猫“双十一”交易额定格在3700多亿元,天猫总公司所有员工对于新的战绩皆大欢喜,同时又对2021年充满了憧憬,因此公司工作人员反思从2014年至2020年每年“双十一”总交易额(取近似值),进行分析统计如下表:
年份
2014
2015
2016
2017
2018
2019
2020
年份代码()
1
2
3
4
5
6
7
总交易额(单位:百亿)
5.7
9.1
12.1
16.8
21.3
26.8
37
(1)通过分析,发现可用线性回归模型拟合总交易额y与年份代码t的关系,请用相关系数加以说明;
(2)利用最小二乘法建立y关于t的回归方程(系数精确到0.1),预测2021年天猫“双十一”的总交易额.
参考数据:,,;
参考公式:相关系数;
回归方程中,斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)答案见解析;(2)回归方程为,预测2021年天猫“双十一”的总交易额约为38百亿.
【解析】(1)分别计算,,,,然后根据相关系数的计算公式可得,简单判断即可.
(2)计算,然后分别计算,可得回归方程,最后将代入方程即可.
【详解】(1),,
,
所以
因为总交易额y与年份代码t的相关系数近似为0.98,
说明总交易额y与年份代码t的线性相关性很强,
从而可用线性回归模型拟合总交易额y与年份代码t的关系.
(2)因为,,
所以,
,
所以y关于t的回归方程为
又将2021年对应的代入回归方程得:.
所以预测2021年天猫“双十一”的总交易额约为38百亿.
7.(2026·云南昆明·模拟预测)某企业八年来的年生产总值(单位;百万元)统计如下表:
第x年
1
2
3
4
5
6
7
8
年生产总值y
12
14
18
24
32
52
73
95
根据表中数据解决下列问题.
(1)在所统计的8个生产总值中任取2个,记其中不低于平均值的个数为,求的分布列和数学期望;
(2)该企业在第5年进行了结构性改革,从第5年开始,企业的年生产总值呈直线上升趋势.试用线性回归模型预测该企业第10年的生产总值.
附:回归方程系数:;
参考数据:,.
【答案】(1)
0
1
2
(2)
【分析】(1)根据题意列举出随机变量的可能取值,计算对应概率可得分布列,再根据数学期望公式计算即可求解;
(2)根据最小二乘法计算公式可得线性回归直线方程,代入计算可预测该企业第10年的生产总值.
【详解】(1)由题意可得,
其中不低于平均值40的有3个(52、73、95),低于平均值的有5个,
随机变量的可能取值为,
则,,,
所以的分布列为:
0
1
2
则;
(2)由题意可得,,
,,
所以,
所以预测该企业第10年的生产总值为.
(
考点
0
5
非线性回归方程
)
1.(24-25高二下·云南昆明·期中)随着科技的进步及人民生活水平的提高,人们对于智能化生活的需求逐渐增加.李明统计了他在2011年至2020年的年收入与他购买电子产品的花销的数据.
为了预测他在2021年年收入为20万元时,在电子产品上花销为多少,建立了关于的两个回归模型:
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由样本点的分布,可以认为样本点集中在曲线:的附近,对年收入做变换,令.则,且有,,,.
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测李明年收入为20万元时的电子产品花销为多少百元?(结果保留两位小数).
附:样本的最小二乘估计公式为,;
参考数据:,.
【答案】(1)
(2)模型①的电子产品花销的预测值为(万元),模型②的电子产品花销的预测值为(万元)
【分析】(1)结合已知数据和公式求出这两个系数即可得回归方程;
(2)把代入模型①、②的回归方程,算出即可.
【详解】(1)由题意,知,,可得,
又由,
则,
所以,模型②中关于的回归方程.
(2)当时,模型①的电子产品花销的预测值为(百元),
当时,模型②的电子产品花销的预测值为
(百元).
2.(22-23高三·云南昆明·阶段检测)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了10名网红直播的观看人次和农产品销售量的数据,得到如图所示的散点图.
(1)利用散点图判断,和哪一个更适合作为观看人次x和销售量y的回归方程类型;(只要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
9.4
30.3
2
366
6.6
439.2
66
其中令,.根据(1)的判断结果及表中数据,求y关于x的回归方程,并预测当观看人次为280万人时的销售量;
(3)规定:观看人次大于等于120万人次的主播为优秀主播,从这10名主播中随机抽取3名,记其中优秀主播的人数为,求的分布列和数学期望.
参考数据和公式:,
附:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适合
(2),43600件
(3)分布列见解析,
【分析】(1)观察散点图,根据散点的分布规律判断应采用的模型;
(2)令,先求y与的线性回归方程,由此可得y与的回归方程,再利用回归方程预测;
(3)确定随机变量的的可能取值,再求取各值的概率,由此可得的分布列,利用均值公式求其期望.
【详解】(1)由散点图可知,散点分布在一条对数型曲线附近,
所以选择回归方程更适合;
(2)令,则,
因为,,
所以,
又,,
所以,
所以y与的线性回归方程为,
故y关于x的回归方程为.
令,代入回归方程可得(千件),
所以预测观看人次为280万人时的销售量约为43600件.
(3)由散点图可知,这10名主播中,优秀主播的个数有4个,
所以X的可能取值为0,1,2,3,
所以,,
,,
所以X的分布列为:
X
0
1
2
3
P
数学期望.
3.(2023·云南昆明·一模)某新能源汽车公司从2018年到2022年汽车年销售量(单位:万辆)的散点图如下:
记年份代码为
(1)根据散点图判断,模型①与模型②,哪一个更适宜作为年销售量关于年份代码的回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立关于的回归方程;
(3)预测2023年该公司新能源汽车销售量.
参考数据:
34
55
979
657
2805
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,
【答案】(1)
(2)
(3)预测2023年该公司新能源汽车销售量万辆
【分析】(1)根据散点图结合一次函数、二次函数的图象特征分析判断;
(2)换元令,结合题中数据与公式运算求解;
(3)令,代入回归方程运算求解.
【详解】(1)由散点图可知:散点图与一次函数偏差较大,与二次函数较接近,故模型②更适合.
(2)令,则,,
对于回归方程,
可得:,,
故回归方程为,即.
(3)由(2)可得:,
令,则,
预测2023年该公司新能源汽车销售量万辆.
4.(22-23高三·云南·阶段检测)近年来,云南省保山市龙陵县紧紧围绕打造“中国石斛之乡”的发展定位,大力发展石斛产业,该产业带动龙陵县近四分之一人口脱贫致富.2022年8月,龙陵紫皮石斛获国家地理标志运用促进工程重点项目,并被评为优秀等次.在政府的大力扶持下,龙陵紫皮石斛产量逐年增长,2017年底到2022年底龙陵县石斛产量统计如下及散点图如图.
年份
2017
2018
2019
2020
2021
2022
年份代码x
1
2
3
4
5
6
紫皮石斛产量y(吨)
3200
3400
3600
4200
7500
9000
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)经计算得下表中数据,根据(1)中结果,求出y关于x的回归方程;
3.5
5150
8.46
17.5
20950
3.85
其中.
(3)龙陵县计划到2025年底实现紫皮石斛年产量达1.5万吨,根据(2)所求得的回归方程,预测该目标是否能完成?(参考数据:)
附:,.
【答案】(1)更适合
(2)
(3)可以完成
【分析】(1)根据判断即可;
(2)根据表中数据和参考数据,利用公式求解即可;
(3)根据(2)中所得的回归方程即可预测到2025年底该目标值,从而即可判断.
【详解】(1)由散点图可知,更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型.
(2)对两边取自然对数,得.
令,所以.
因为,
所以.
所以,
所以.
所以龙陵县紫皮石斛产量y关于年份代码x的回归方程为.
(3)当时,,
故预测该目标可以完成.
(
考点
0
6
残差和
决定系数
)
1.(23-24高三下·云南昆明·阶段检测)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数如下,其中拟合效果最好的模型是( )
A.模型1(决定系数为0.97) B.模型2(决定系数为0.85)
C.模型3(决定系数为0.40) D.模型4(决定系数为0.25)
【答案】A
【分析】根据回归模型中决定系数越接近,模型拟合效果越好求解.
【详解】在两个变量与x的回归模型中,它们的决定系数越接近,模型拟合效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型,
故选:A.
2.(24-25高三上·云南昆明·阶段检测)下列说法错误的是( )
A.若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中
B.在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
C.在一元线性回归模型中,如果相关系数,表明两个变量的相关程度很强
D.对于一组数据,,…,,若所有数据均变成原来的2倍,则变为原来的2倍
【答案】D
【分析】根据正态分布曲线的性质,可得判定A正确;根据决定系数和相关系数的性质,可得判定B正确,C正确;根据方差的性质,可判定D错误.
【详解】对于A中,若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中,所以A正确;
对于B中,在做回归分析时,可以用决定系数刻画模型回归效果,越大,说明模型拟合的效果越好,所以B正确;
对于C中,一元线性回归模型中,相关系数的绝对值越接近1,表明两个变量的相关性越强,
所以如果相关系数,表明两个变量的相关程度很强,所以C正确;
对于D,若所有数据均变成原来的2倍,则变为原来的4倍,所以D正确.
故选:D.
3.(24-25高三下·云南昆明·阶段检测)下列残差图满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【答案】A
【分析】根据一元线性回归模型中对随机误差的假定:残差应是均值为0、方差为的随机变量的观测值逐项分析即可求解.
【详解】对于A,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,故A正确;
对于B,残差与观测时间有线性关系,故B错误;
对于C,残差与观测时间有非线性关系,故C错误;
对于D,残差的方差不是一个常数,随观测时间变大而变大,故D错误.
故选:A.
4.(20-21高二下·云南丽江·阶段检测)对两个变量y和x进行回归分析,得到一组样本数据:,,,,则下列说法中不正确的是( )
A.用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好
B.由样本数据得到的线性回归方程必过样本点的中心
C.残差平方和越小的模型,拟合的效果越好
D.若变量y和x之间的相关系数,则变量y与x之间具有线性相关关系
【答案】A
【分析】根据相关指数、回归直线方程、残差、相关系数等知识对选项逐一分析,由此确定正确选项.
【详解】A,用相关指数来刻画回归效果,的值越接近,说明模型的拟合效果越好,所以A选项错误.
B,由样本数据得到的线性回归方程必过样本点的中心,正确.
C,残差平方和越小的模型,拟合的效果越好,正确.
D,接近,变量y与x之间具有线性相关关系,正确.
所以错误的为A.
故选:A
5.(2025·云南·三模)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B.
C.0.1 D.0.2
【答案】B
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线方程,估计的对应值,最后由残差的定义求解即可.
【详解】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以时,有,故残差为,
故选:B.
6.(2025·云南丽江·三模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
【答案】(1);
(2)各样本的残差依次为:0.05,-0.15,0.15,-0.05.
(3)小时.
【分析】(1)根据表中数据求出、、、,进而由参考公式求出线性回归方程;
(2)计算每个对应的预测值,计算残差;
(3)将代入回归方程
【详解】(1)
,,
∴所求线性回归方程为.
(2)计算每个对应的预测值:
,
,
,
;
计算残差:
所以,各样本的残差依次为:.
(3)当时,,
∴预测加工个零件需要小时.
7.(2025·云南·模拟预测)自2021年以来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧,某地区电动汽车保有量呈现快速增长趋势,下表给出了近5年该地区的电动汽车保有量(单位:万辆).
年份
2021
2022
2023
2024
2025
年份编号
1
2
3
4
5
电动汽车保有量
1.5
2.5
4.9
7.8
若用作为该数据的回归直线模型,并已求得,
(1)结合已知数据求出2023年该地区的电动汽车保有量,并预测2030年该地区的电动汽车保有量;
(2)若已知,求此模型下的决定系数(精确到0.01).
参考公式及数据:一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,决定系数.
【答案】(1)3.4万辆,14.52万辆.
(2)0.93
【分析】(1)首先根据回归直线方程过样本点中心,根据求2023年汽车的保有量;
(2)首先求的值,再代入决定系数公式,即可求解.
【详解】(1)由题意可得,且,
所以,
所以2023年电动汽车保有量万辆.
2030年对应的年份编号为10,代入回归直线方程,可求得.
即在2030年时,电动汽车保有量可能为14.52万辆.
(2),
所以决定系数.
8.(2025·云南·模拟预测)自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
核心产值规模
1.5
2.5
3.4
4.9
7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3
4.02
16.16
104.91
1.24
22.54
1.1
1.5
11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
【答案】(1)
(2)①,,②预测2025年该地区的人工智能核心产值规模为(亿元).
【分析】(1)利用决定系数公式计算即可;
(2)①将指数模型两边取对数转化为线性模型,利用最小二乘法求解,即可求解;②通过比较判断模型优劣,并代入预测2025年产值即可.
【详解】(1)由题意可得,
所以决定系数
(2)将两边取对数,可得,
设,则模型为,其中,
因为,
所以
,
所以,
则,
所以,,
因为该模型下的决定系数,大于线性模型下的决定系数,
故指数模型拟合效果更好,
令,可得(亿元),
故预测2025年该地区的人工智能核心产值规模为(亿元).
(
考点
0
7
等高堆积条形图
和卡方的独立性检验
)
1.(2021·云南昆明·模拟预测)我国目前部分普通高中学生在高一升高二时面临着选文理科的问题,某学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图
根据这两幅图中的信息,下列统计结论正确的是( )
A.样本中的男生数量多于女生数量
B.样本中有理科意愿的学生数量少于有文科意愿的学生数量
C.对理科有意愿的男生人数多于对文科有意愿的男生人数
D.对文科有意愿的女生人数多于对理科有意愿的女生人数
【答案】C
【分析】由等高条形图的特点和性质进行判断,
【详解】由等高堆积条形图1可知,不管是文科还是理科,女生占比均高于男生,故样本中的女生数量多于男生数量,A错误;从图2可以看出男生和女生中选择理科的人数均高于选择文科的人数,
故选:C.
【点睛】本题主要考查了独立性检验中利用等高条形图判断两个变量之间的差异,属于基础题.
2.(23-24高二下·云南曲靖·阶段检测)(多选)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了名学生进行调查,按照性别和体育锻炼情况整理出如下的列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
5
30
35
男生/人
5
10
15
合计/人
10
40
50
常用的小概率值和相应的临界值如下表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
注:独立性检验中,,.
根据这些数据,判断下列说法正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
C.根据小概率值的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
【答案】BD
【分析】分别求出男生和女生经常锻炼的频率即可依据频率稳定于概率的原理判断,求出卡方值,和3.841比较即可根据小概率值的独立性检验判断.
【详解】女生有人,经常锻炼的有人,频率为,
男生有人,其中经常锻炼的有人,频率为,
因为,依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响,故A错误,B正确;
又,所以根据小概率值的独立性检验,
没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响,故C错误,D正确.
故选:BD.
3.(21-22高二下·云南昆明·期末)北京时间2022年4月16日,神舟13号载人飞船返回舱在东风着陆场成功着陆,这趟神奇之旅意义非凡,尤其是“天宫课堂”在广大学生心中引起强烈反响,激起了他们对太空知识的浓厚兴趣.某中学为了解学生的性别和对天宫课堂的喜欢是否有关联,采用简单随机抽样的方法抽取100名学生进行问卷调查,得到如下列联表:
性别
天宫课堂
不喜欢
喜欢
合计
女
20
40
60
男
10
30
40
合计
30
70
100
(1)画出列联表的等高堆积条形图,并判断该中学学生性别与喜欢天宫课堂是否有关联;
(2)依据小概率值的独立性检验,能否据此认为该中学学生性别与喜欢天宫课堂有关联;
(3)以上两种方法得出的结论哪一种更可靠,请说明理由.
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)作图见解析,可认为该中学学生喜欢天宫课堂与性别有关联
(2)不能计为该中学学生喜欢天宫课堂与性别有关联
(3)用独立性检验得到的结果更可靠,理由见解析
【分析】(1)分别求出该中学女生、男生不喜欢天宫课堂和喜欢天宫课堂的频率,即可画出等高堆积条形图,再根据等高堆积条形图判断该中学学生性别与喜欢天宫课堂是否有关联.
(2)根据列联表中的数据求出,即可得出答案.
(3)用等高堆积条形图只是根据一个样本的两个频率存在差异得出喜欢天宫课堂与性别有关联的结论,并没有考虑由样本随机性可能导致的错误,所以推断依据不太充分,用独立性检验得到的结果更可靠.
【详解】(1)根据上面的列联表,该中学女生不喜欢天宫课堂和喜欢天宫课堂的频率分别为和,该中学男生不喜欢天宫课堂和喜欢天宫课堂的频率分别为和.
根据以上数据,画出等高堆积条形图,如图所示:
图中两个深色条的高分别表示该中学女生和男生中不喜欢天宫课堂的频率,从图中可以看出,女生喜欢天宫课堂的频率明显低于男生喜欢天宫课堂的频率,因此我们可认为该中学学生喜欢天宫课堂与性别有关联.
(2)零假设为:该中学学生喜欢天宫课堂与性别无关联
根据列联表中的数据得:
依据小概率值的独立性检验,没有充分依据推断不成立,因此,不能计为该中学学生喜欢天宫课堂与性别有关联.
(3)用等高堆积条形图只是根据一个样本的两个频率存在差异得出喜欢天宫课堂与性别有关联的结论,并没有考虑由样本随机性可能导致的错误,所以推断依据不太充分.
用独立性检验对零假设进行检验,通过计算推断,接受,推出喜欢天宫课堂与性别无关联.因此,只根据频率的差异得出喜欢天宫课堂与性别有关联的结论是不可靠的.由此可见,相对于等高堆积条形图检验结果,用独立性检验得到的结果更可靠.
43.(25-26高三上·云南玉溪·期中)为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此随机抽选了名男生和名女生,统计数据如下表所示:
经常锻炼
不经常锻炼
合计
男生
女生
合计
(1)从这人中随机选一人,已知选到的学生不经常锻炼,求此人是女生的概率;
(2)试依据小概率值的独立性检验,分析学生体育锻炼的经常性与性别是否有关.
附:,其中.
α
【答案】(1);
(2)认为学生体育锻炼经常性与性别有关
【分析】(1)根据列联表,结合古典概型概率公式,即可求解;
(2)首先假设,再计算,再比较参考数据,即可得到结论.
【详解】(1)记事件为“选到的学生不经常锻炼”,事件为“选到的人是女生”,
根据条件概率公式,故;
即在选到的学生不经常锻炼条件下,是女生的概率为;
(2)提出假设为学生体育锻炼经常性与性别无关,
则,
根据小概率值的独立性检验,
有充分的证据推断不成立,
因此认为学生体育锻炼经常性与性别有关.
4.(25-26高三下·云南楚雄·开学考试)为助力“双碳”目标落地,某新型储能企业调研技术岗员工对钠离子电池产业扶持政策的认知情况,随机选取180名技术岗员工(含研发岗、运维岗)开展问卷调查,统计认知深度(深度认知、基础认知)与岗位类型的关联数据,初步整理数据如下:
类别
研发岗
运维岗
合计
深度认知
60
60
基础认知
20
40
合计
(1)补充表格,并根据小概率值的独立性检验,分析认知深度与岗位类型是否有关;
(2)用按比例分配的分层随机抽样方法从基础认知的人中抽取12人,再从这12人中随机抽取6人,用随机变量表示这6人中研发岗员工人数与运维岗员工人数之差的绝对值,求的分布列和数学期望.
参考公式:,.
独立性检验中常用的小概率值和相应临界值.
0.1
0.05
0.025
0.005
0.001
2.706
3.841
5.024
7.879
10.828
【答案】(1)
类别
研发岗
运维岗
合计
深度认知
60
60
120
基础认知
20
40
60
合计
80
100
180
认知深度与岗位类型无关.
(2)的分布列为:
0
2
4
6
数学期望为.
【分析】(1)根据题意完成表格,然后利用公式计算的值进行分析即可;
(2)根据题意先利用分层抽样的方法抽取研发岗和运维岗员工人数,找出随机变量的值,计算出各值对应的概率,计算出数学期望值即可.
【详解】(1)(1)补充表格如下:
类别
研发岗
运维岗
合计
深度认知
60
60
120
基础认知
20
40
60
合计
80
100
180
零假设为:认知深度与岗位类型无关.
根据列联表中的数据,经计算得到,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认知深度与岗位类型无关.
(2)用按比例分配的分层随机抽样方法在基础认知的60人中抽取12人,抽得研发岗4人,运维岗8人.
再从这12人中随机抽取6人,的可能取值为0,2,4,6.
则,,,.
的分布列为:
0
2
4
6
.
5.(24-25高二下·云南曲靖·期末)2025年,教育部推广“人工智能线上课程”试点应用.某中学随机抽取100名学生(男生与女生的人数之比为)对该线上课程进行评分(满分100分).规定:评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,已知评分不低于70分的频率为0.85.
(1)估计100名学生对人工智能线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“人工智能线上课程是否满意与性别有关”.
性别态度
满意
不满意
合计
男生
女生
10
合计
100
,其中.
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
【答案】(1)80
(2)列联表见解析,有的把握认为对“人工智能线上课程是否满意与性别有关”
【分析】(1)结合频率分布直方图,根据评分不低于70分的频率为0.85即可列式求出a,b;再根据平均数的求解即可求解;
(2)完成列联表,求出与表格中数据对比即可判断.
【详解】(1)由已知得,解得,
又,解得,
评分的平均值为.
(2)不满意的学生人数为人,
完成列联表如下表:
态度性别
满意
不满意
合计
男生
25
35
60
女生
30
10
40
合计
55
45
100
则,
有的把握认为对“人工智能线上课程是否满意与性别有关”.
6.(24-25高二下·云南曲靖·期末)DeepSeekApp于2025年1月11日正式发布并上线,它凭借创新的功能和极富吸引力的用户体验,在社交媒体上引发了广泛的讨论和分享,因而产生了强大的社会效应.公司新开发了一款算法,为了测试该算法在青年人和中年人中的应用效果,机构进行了一项调查,统计结果如下表(单位:人).
效果
用户
总计
青年人用户人数
中年人用户人数
有效
无效
总计
150
150
300
(1)求出,的值;
(2)依据小概率值的独立性检验,请判断算法的效果在两组不同年龄段的用户中是否存在差异?
(3)先用分层抽样在所有接受调查的用户中抽取30人得到一个压缩样本,再在的青年人用户中一次性随机抽取3人,求恰有1人的体验效果为有效的概率.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)算法的效果在两组不同年龄段的用户中存在差异
(3)
【分析】(1)根据题意列式求解即可;
(2)由(1)可得列联表,计算,并与临界值比较可得结论.
(3)利用分层抽样的意义求得体验有效的有12个用户,无效的有3个用户,利用超几何分布可求对应的概率.
【详解】(1)由已知得,,所以.;
(2)由(1)可得
效果
用户
总计
青年人用户人数
中年人用户人数
有效
200
无效
100
总计
150
150
300
零假设为:算法的效果在两组不同年龄段的用户中不存在差异,
由题意计算得,,
所以依据小概率值的独立性检验,推断不成立,
即可以判断:算法的效果在两组不同年龄段的用户中存在差异.
(3)由已知得,分层抽样比为,
故在的青年人用户中,体验有效的有12个用户,无效的有3个用户,
所以一次性随机抽取人3人,恰有1人的体验效果为有效的概率为.
7.(24-25高二下·云南保山·期末)保山小粒咖啡是云南省保山市特产,中国国家地理标志保护产品,它以其颗粒均匀饱满、气味清新、香气浓郁、口感醇厚而闻名,被誉为“全国咖啡之冠”.某校高一数学兴趣小组,为了了解当地居民对喝咖啡的态度,随机调查了100人,并将结果整理如下:
年龄段
态度
合计
不喜欢喝咖啡
喜欢喝咖啡
35岁以下(含35岁)
25
35
60
35岁以上
25
15
40
合计
50
50
100
(1)根据小概率值α=0.1的独立性检验,能否据此推断该地居民喜欢喝咖啡与年龄有关?
(2)该兴趣小组在被调查的喜欢喝咖啡的人群中,用分层抽样的方法抽取10人,再从这10人中随机抽取4人参加咖啡文化艺术节.抽取的4人中,35岁以上的人数记为X,求X的分布列与期望.
参考公式:,其中n=a+b+c+d.
参考数据:
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)推断该地居民喜欢喝咖啡与年龄有关.
(2)分布列见解析,
【分析】(1)先进行零假设,再计算卡方值,根表中数据对比即可下结论;
(2)由分层抽样可求出35岁以下(含35岁)及35岁以上的人数,由此可知可能X取值为0,1,2,3,根据古典概型的概率计算公式求解可得分布列,进而求数学期望.
【详解】(1)零假设为该地居民喜欢喝咖啡与年龄无关,
根据列联表中的数据得
,
∴根据小概率值的独立性检验,没有充分证据推断成立,
因此可以认为不成立,即可推断该地居民喜欢喝咖啡与年龄有关.
(2)由题,在被抽取10人中,35岁以下(含35岁)的有人,35岁以上的有人,
∴的可能取值为0,1,2,3,且
;
;
;
;
∴的分布列为
0
1
2
3
.
8.(24-25高二下·云南玉溪·期末)2025斯诺克世锦赛中,中国选手赵心童获得冠军,创造了历史.为了解高二学生喜欢台球是否与性别有关,某学校随机抽取了200名高二年级学生进行统计,得到的列联表如下:
喜欢
不喜欢
合计
男
60
女
90
合计
70
200
参考公式:,其中.
附表:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
(1)求,,,,;
(2)依据小概率值的独立性检验,是否可以推断高二学生喜欢台球与性别有关?
【答案】(1),,,
(2)可以推断高二学生喜欢台球与性别有关
【分析】(1)根据列联表的相关概念,建立方程,可得答案;
(2)提出零假设,根据独立性检验的计算方法,可得答案.
【详解】(1)由表中数据可知,
,,,,.
(2)由(1),得到列联表如下:
喜欢
不喜欢
合计
男
60
40
100
女
10
90
100
合计
70
130
200
零假设为:该校高二学生喜欢台球与性别有关
计算,
所以依据小概率值的独立性检验,可以推断高二学生喜欢台球与性别有关.
9.(24-25高二下·云南·期末)某杂志社为了解杂志订阅者对某杂志冷色调与暖色调的封面设计偏好是否与他们的性别有关,随机调查并收集了100名该杂志订阅者对该杂志封面设计的色调偏好数据,同时记录了他们的性别,得到如下所示的列联表.
单位:人
性别
封面设计的色调
合计
冷色调
暖色调
男性
28
女性
32
合计
46
(1)请完成以上表格,并根据小概率值的独立性检验,分析该杂志订阅者对该杂志封面设计的色调偏好是否与性别有关联;
(2)从这100名该杂志订阅者中随机抽取2名订阅者参加某读书会,用表示这2名订阅者中女性的人数,求的分布列和数学期望;
(3)用频率估计概率,从全国各地该杂志的所有订阅者中随机抽取部分订阅者参加书籍捐赠活动,从数学期望的角度考虑,若要使得被抽取的订阅者中偏好暖色调封面设计的人数至少为189,则至少应抽取多少名该杂志订阅者?
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)有关联
(2)分布列见解析,
(3)350名
【分析】(1)利用已知行列合计数,通过简单减法运算得出各单元格数据,将列联表数据代入公式计算,与临界值比较,判断关联即可;
(2)明确的所有可能取值,用超几何分布公式算对应概率,按格式列出取值和概率,用期望公式计算即可;
(3)由列联表得暖色调频率,设抽取人数,依据二项分布期望公式建立关系,求解不等式得抽取人数最小值即可.
【详解】(1)列联表如下:
单位:人
性别
封面设计的色调
合计
冷色调
暖色调
男性
28
22
50
女性
18
32
50
合计
46
54
100
零假设为:该杂志订阅者对该杂志封面设计的色调偏好与性别没有关联.
根据列联表中的数据,得,
所以根据小概率值的独立性检验,我们推断不成立,即认为该杂志订阅者对该杂志封面设计的色调偏好与性别有关联.
(2)由题意得的所有可能取值为,
则,
,
,
所以的分布列为
0
1
2
所以.
(3)用频率估计概率,从该杂志订阅者中随机抽取1名订阅者,则该订阅者偏好暖色调封面设计的概率为,
设从该杂志订阅者中随机抽取名订阅者参加书籍捐赠活动,记被抽取的订阅者中偏好暖色调封面设计的人数为,则,
根据题意易得,
解得,故至少应抽取350名该杂志订阅者.
1 / 52
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$