专题04 成对数据的统计分析(期末真题汇编,陕晋青宁专用)高二数学下学期人教A版
2026-06-15
|
2份
|
49页
|
187人阅读
|
3人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学人教A版选择性必修第三册 |
| 年级 | 高二 |
| 章节 | 第八章 成对数据的统计分析 |
| 类型 | 题集-试题汇编 |
| 知识点 | 统计,统计案例 |
| 使用场景 | 同步教学-期末 |
| 学年 | 2026-2027 |
| 地区(省份) | 陕西省,山西省,宁夏回族自治区,青海省 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 2.43 MB |
| 发布时间 | 2026-06-15 |
| 更新时间 | 2026-06-15 |
| 作者 | xkw_026020959 |
| 品牌系列 | 好题汇编·期末真题分类汇编 |
| 审核时间 | 2026-06-15 |
| 下载链接 | https://m.zxxk.com/soft/58348382.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
精选晋陕宁等多地区高二期末试题,聚焦统计相关性、线性回归、独立性检验三大考点,通过广告费与销售额、居民收入预测等真实情境,考查数据分析与模型应用能力。
**题型特征**
|题型|题量/分值|知识覆盖|命题特色|
|----|-----------|----------|----------|
|单选|15题约45分|相关系数判断、回归方程性质|结合散点图辨析相关程度,如不同地区期末题中相关系数大小比较|
|多选|8题约32分|残差分析、独立性检验|以六组成对数据散点图分析异常点对相关性影响,考查决定系数应用|
|填空|3题约15分|残差计算|如广告费与销售额表中,广告支出5万元时残差求解|
|解答|12题约58分|回归方程建立与预测、独立性检验|结合电动车广告投入与销售量、新能源产值预测,考查回归方程与决定系数;通过性别与短视频喜好、景点满意度调查,强化统计推断能力|
内容正文:
高频考点概览
考点01成对数据的统计相关性
考点02一元线性回归模型及其应用
考点03列联表与独立性检验
(
考点01
成对数据的统计相关性
)
一、单选题
1.(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B. C. D.
2.(24-25高二下·山西运城·期末)下列两个变量具有正相关关系的是
A.正方形面积与边长
B.吸烟与健康
C.数学成绩与物理成绩
D.汽车的重量与汽车每消耗汽油所行驶的平均路程
3.(24-25高二下·陕西渭南·期末)已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
4.(24-25高二下·陕西西安·期末)变量X与Y相对应的一组数据为,,,,;变量U与V相对应的一组数据为,,,,.表示变量Y与X之间的线性相关系数,表示变量V与U之间的线性相关系数,则( )
A. B.
C. D.
5.(24-25高二下·陕西汉中·期末)对于样本相关系数r,下列说法正确的是( )
A.r的取值范围是
B.越大,相关程度越弱
C.越接近于0,成对样本数据的线性相关程度越强
D.越接近于1,成对样本数据的线性相关程度越强
6.(24-25高二下·陕西安康·期末)在建立两个变量与的回归模型中,分别选择了4个不同的模型,结合它们的相关指数判断,其中拟合效果最好的为( )
A.模型1的相关指数为0.3 B.模型2的相关指数为0.25
C.模型3的相关指数为0.7 D.模型4的相关指数为0.85
7.(24-25高二下·贵州铜仁·月考)在线性回归模型中,分别选择了4个不同的模型,它们的相关指数依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数为( )
A.0.95 B.0.81 C.0.74 D.0.36
二、多选题
8.(24-25高二下·山西·期末)如图,某同学将搜集的六组成对数据绘制成散点图,若把图中的点去掉,对比原数据重新进行线性回归分析,则下列结论正确的是( )
A.数据的残差平方和变大
B.数据的决定系数变大
C.解释变量与响应变量的线性相关程度变强
D.样本相关系数的绝对值更趋于0
9.(24-25高二下·陕西宝鸡·期末)关于成对数据统计分析的下列结论中,正确的是( )
A.若两个变量与的相关系数,则这两个变量负相关
B.若两个变量与的相关系数越大,则这两个变量的线性相关程度越强
C.若两个变量与的相关系数,则这两个变量不具有相关关系
D.对于两个变量与的经验回归方程,若决定系数越大,则经验回归方程的拟合效果越好
10.(24-25高二下·宁夏银川·期末)某市天国庆节假期期间的楼房认购量单位:套与成交量单位:套的折线图如图所示,则以下说法错误的是( )
A.成交量的中位数是
B.日成交量超过日平均成交量的有天
C.认购量越大,则成交量就越大
D.认购量的第一四分位数是
三、填空题
11.(24-25高二下·山西运城·期末)某种产品的广告费支出与销售额 (单位:万元)之间的关系如下表:
x
2
4
5
6
8
y
30
40
60
50
70
与的线性回归方程为,当广告支出5万元时,随机误差的残差为________.
四、解答题
12.(24-25高二下·陕西汉中·期末)大学生刘铭去某工厂实习,实习结束时从自己制作的某种零件中随机选取了10个样品,测量每个零件的横截面积(单位:)和耗材量(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
零件的横截面积
0.03
0.05
0.04
0.07
0.07
0.04
0.05
0.06
0.06
0.05
0.52
耗材量
0.24
0.40
0.23
0.55
0.50
0.34
0.35
0.45
0.43
0.41
3.9
并计算得.
(1)估算刘铭同学制作的这种零件平均每个零件的横截面积以及平均一个零件的耗材量;
(2)求刘铭同学制作的这种零件的横截面积和耗材量的样本相关系数(精确到0.01);
(3)刘铭同学测量了自己实习期制作的所有这种零件的横截面积,并得到所有这种零件的横截面积的和为,若这种零件的耗材量和其横截面积近似成正比,请帮刘铭计算一下他制作的零件的总耗材量的估计值.附:相关系数.
(
考点0
2
一元线性回归模型及其应用
)
一、单选题
1.(24-25高二下·宁夏中卫·期末)某种产品的广告费支出与销售额 (单位:万元)之间的关系如下表:
与的线性回归方程为,当广告支出万元时,随机误差的残差为( )
A. B. C. D.
2.(24-25高二下·青海海南·期末)用最小二乘法得到的一组数据的经验回归方程为.若,则( )
A.63 B.21 C.28 D.49
【答案】C
【分析】利用经验回归方程必过样本中心点求得答案.
【详解】依题意,,则,所以.
故选:C
3.(24-25高二下·陕西汉中·期末)茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
4.(24-25高二下·陕西渭南·期末)已知两个随机变量的4组成对数据为.由这4组数据可得关于的线性回归方程为,则( )
A.2.8 B.3 C.3.3 D.4
5.(24-25高二下·山西临汾·期末)已知变量与之间的一组数据如下表:
1
2
3
4
5
0.8
2.9
4.8
7.2
9.1
若关于的线性回归方程为,则( )
A.1.31 B. C.1.56 D.
二、多选题
6.(24-25高二下·青海西宁·期末)两个具有线性相关关系的变量的一组数据为,则下列说法正确的是( )
A.若相关系数,则两个变量负相关
B.相关系数的值越小,成对样本数据的线性相关程度越弱
C.决定系数越大,残差平方和越小,模型的拟合效果越好
D.决定系数越小,残差平方越小,模型的拟合效果越好
7.(24-25高二下·陕西西安·期末)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( ).
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
8.(24-25高二下·山西运城·期末)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.其中旱涝频繁发生、世界性与区域性温度的异常给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型(其中e为自然对数的底数)拟合,设,通过实验得到部分数据及其变换后的一组数据如下表:
x
20
23
25
27
30
y
7.39
11.02
20.09
20.09
99.48
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则( )
A.
B.模型中
C.计算得,则在温度时,产卵量y的残差为44.89
D.当时,蝗虫的产卵量y大约为
三、填空题
9.(24-25高二下·陕西咸阳·期末)经验表明,一般树的胸径(树的主干在地面以上处的直径)越大,树就越高.在研究树高与胸径之间的关系时,某同学收集了某种树的5组观测数据(如下表):
胸径
8
9
10
11
12
树高
8.2
10
11
12
13.8
假设树高与胸径满足的经验回归方程为,则当胸径时,树高的预测值为______.
四、解答题
10.(24-25高二下·宁夏银川·期末)由国家统计局提供的数据可知,2017年至2023年中国居民人均可支配收入(单位:万元)的数据如下表:
年份
2017
2018
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
6
7
人均可支配收入
1.65
1.83
2.01
2.19
2.38
2.59
2.82
(1)求关于的线性回归方程(系数精确到0.01);
(2)利用(1)中的回归方程,分析2017年至2023年中国居民人均可支配收入的变化情况,并预测2025年中国居民人均可支配收入.
附注:参考数据:.参考公式:回归直线方程的斜率和截距的最小二乘估计公式分别为:,.
11.(24-25高二下·青海西宁·期末)家居消费是指居民在日常生活中购买和使用的家具、家电、建材、装修等产品和服务所形成的消费行为.长期以来,家居消费一直是居民消费的重要组成部分,对于带动居民消费增长和经济恢复具有重要意义.某家居店为了迎接周年庆举办促销活动,统计了半个月以来天数x与销售额y(万元)的一组数据:.通过分析发现x与y呈线性相关.
(1)求x与y的样本相关系数r(结果保留三位小数);
(2)求x与y的线性回归方程(,的结果用分数表示).
参考公式:相关系数,,.
参考数据:,,,.
12.(24-25高二下·湖南·阶段检测)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
13.(24-25高二下·山西·期末)自2020年以来,某地区新能源产值规模呈快速增长态势,下表给出了近5年该地区的新能源产值(单位:亿元).
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
产值
1.5
2.5
3.4
4.9
7.8
(1)若用作为回归模型,且,求此模型的方程及其决定系数(精确到0.01);
(2)若用作为回归模型,求此模型的方程;
(3)已知回归模型的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的新能源的产值(精确到0.01).
参考数据:
3
4.02
1.24
75.3
104.91
16.16
22.54
1.1
1.5
11.4
附:(1)上表中;
(2)对于一组数据,其经验回归方程为,
;
决定系数.
(
考点0
3
成对数据的统计相关性
)
一、单选题
1.(24-25高二下·青海·期末)某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的 若有的把握认为喜欢短视频和性别相关联,则的最小值为( )
(附,其中.)
A. B. C. D.
2.(24-25高二下·陕西咸阳·期末)下列说法正确的是( )
A.若两个随机变量的线性相关性越强,则相关系数的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于0
C.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过0.05
D.若随机变量,满足,则
二、多选题
3.(24-25高二下·山西吕梁·期末)下列说法正确的是( )
A.数据的第25百分位数为2
B.若随机变量,且,则
C.变量关于变量的经验回归方程为,则样本点的残差为-1
D.在独立性检验中,随机变量的观测值越小,“认为两个变量有关”这种判断犯错误的概率越小
4.(24-25高二下·山西·期末)下列说法正确的是( )
A.设随机变量的均值为,是不等于的常数,则相对于的偏离程度小于相对于的偏离程度(偏离程度用差的平方表示)
B.若一组数据,,…,的方差为0,则所有数据都相同
C.用决定系数比较两个回归模型的拟合效果时,越大,残差平方和越小,模型拟合效果越好
D.在对两个分类变量进行独立性检验时,如果列联表中所有数据都扩大为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论不会发生改变
5.(24-25高二下·宁夏·期末)某校有在校学生900人,其中男生400人,女生500人,为了解该校学生对学校课后延时服务的满意度,随机调查了40名男生和50名女生.每位被调查的学生都对学校的课后延时服务给出了满意或不满意的评价,统计过程中发现随机从这90人中抽取一人,此人评价为满意的概率为.在制定列联表时,由于某些因素缺失了部分数据,而获得如下列联表,下列结论正确的是( )
满意
不满意
合计
男
10
女
合计
90
参考公式与临界值表,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.满意度的调查过程采用了分层抽样的抽样方法
B.50名女生中对课后延时服务满意的人数为20
C.的观测值为9
D.根据小概率的独立性检验,不可以认为“对课后延时服务的满意度与性别有关系”
三、解答题
6.(24-25高二下·山西·期末·山西大同·期末)某市为发展旅游业,市旅游局提出“历史从未远去,它一直在我们身边”“一砖一瓦皆故事,一饭一蔬皆成诗”的文化创意主题,围绕这一主题开展了一系列丰富多彩的文艺活动.为了了解人们对活动的喜爱程度,现随机抽取400人进行调查统计,得到如下列联表:
不喜爱
喜爱
合计
男性
180
240
女性
50
合计
400
(1)完成列联表,并依据小概率值的独立性检验,判断人们对该活动的喜爱程度是否与性别有关联;
(2)为宣传历史文化知识,当地文化局组织了历史知识竞赛活动.活动规定从8道备选题中随机抽取4道题进行作答.假设在8道备选题中,甲正确完成每道题的概率都是,且每道题正确完成与否互不影响;乙只能正确完成其中的6道题.
①求甲至少正确完成其中3道题的概率;
②设随机变量X表示乙可以正确完成题的个数,求变量X的分布列及数学期望.
附:,其中.
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
7.(24-25高二下·山西长治·期末)电视剧《庆余年2》自2024年5月16日在CCTV-8和腾讯视频双平台开播以来,其收视率一路飙升,《庆余年2》剧组为了解该剧的收视情况,在喜欢看电视的居民中随机抽取了1000名居民进行调查,其中,男性居民和女性居民人数之比为9:11,且观看本剧的居民比没有观看本剧的居民多800人,没有观看本剧的女性居民有50人.
(1)完成列联表,并根据小概率值的独立性检验,能否认为是否观看《庆余年2》与性别有关联?
男性居民
女性居民
总计
看过《庆余年2》
没看过《庆余年2》
50
总计
1000
(2)在这1000名居民中,按性别比例用分层随机抽样的方法从看过《庆余年2》的居民中随机抽取9人,并从这9人中随机抽取3人采访其观剧感受,记这3人中男性居民的人数为X,求X的分布列和数学期望.
附:,其中.
a
0.01
0.005
0.001
6.635
7.879
10.828
8.(24-25高二下·陕西汉中·期末)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表:
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
配方材料试样
20
合计
140
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联?
附:,其中,
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
15
90
配方材料试样
30
20
50
合计
105
35
140
(2)认为材料配方与耐热疲劳性能有关联
9.(24-25高二下·青海西宁·期末)某机构为了解科技工作者对deepseek的使用情况与年龄是否有关,从甲市科技工作者中抽取了200人进行调查,得到下表.
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
中老年人(40周岁以上)
30
80
总计
200
(1)补全表中数据,根据小概率值的独立性检验,是否可以认为科技工作者对deepseek的使用情况与年龄有关联?
(2)将样本中使用deepseek的频率作为甲市科技工作者中使用该软件的概率,从甲市科技工作者中随机抽取3人,记为这3人中使用deepseek的人数,求的分布列和数学期望.
附:,其中.
0.010
0.005
0.001
6.635
7.879
10.828
10.(24-25高二下·宁夏·期末)文旅部门统计了某网红景点在2022年3月至7月的旅游收入(单位:万),得到以下数据:
月份
3
4
5
6
7
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到0.001);
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,并判断能否有99.9%的把握认为“游客是否喜欢该网红景点与性别有关”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,参考数据:,线性回归方程:,其中,,,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
11.(24-25高二下·宁夏银川·期末)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
合计
A
240
260
B
30
合计
500
(1)将上述列联表补充完整.
(2)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(3)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:.
0.100
0.050
0.010
2.706
3.841
6.635
12.(24-25高二下·宁夏吴忠·期末)某城市地铁将于2022年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单
位:百元)
赞成定价
者人数
1
2
3
5
3
4
认为价格
偏高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(所有计算结果四舍五入保留整数);
(2)由以上统计数据填下面列联表,依据小概率值的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于55百元的人数
月收入低于55百元的人数
合计
认为价格偏高者
赞成定价者
合计
附:.
参考数据:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
1 / 4
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题04 成对数据的统计分析
高频考点概览
考点01成对数据的统计相关性
考点02一元线性回归模型及其应用
考点03列联表与独立性检验
(
考点01
成对数据的统计相关性
)
一、单选题
1.(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B. C. D.
【答案】A
【分析】根据散点图中点的分布,即可判断答案.
【详解】由散点图可知,并且第一个图中的点更为集中,更贴近某条直线分布,
第三、四个图中的点的分布更为分散,
因此更接近于1,,的绝对值更接近于0,即最大的是.
故选:A
2.(24-25高二下·山西运城·期末)下列两个变量具有正相关关系的是
A.正方形面积与边长
B.吸烟与健康
C.数学成绩与物理成绩
D.汽车的重量与汽车每消耗汽油所行驶的平均路程
【答案】C
【解析】相关关系是一种不确定关系,故A不正确,B两者呈负相关,C成相关关系,D负相关.
【详解】正方形的面积与边长是函数关系,A选项错误;吸烟越多,越不健康,所以吸烟与健康具有负相关关系,B选项错误;汽车越重,每消耗汽油所行驶的平均路程越短,所以汽车的重量与汽车每消耗汽油所行驶的平均路程具有负相关关系,D选项错误;数学成绩越好,物理成绩也会越好,所以数学成绩与物理成绩具有正相关关系,C正确.
故答案为C.
【点睛】这个题目考查了相关关系的概念以及负相关的概念,属于基础题.
3.(24-25高二下·陕西渭南·期末)已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
【答案】D
【分析】根据相关系数的性质即可得到答案.
【详解】相关系数的绝对值越大,则其相关程度越强,
又因为,所以线性相关程度最强的是丁组.
故选:D.
4.(24-25高二下·陕西西安·期末)变量X与Y相对应的一组数据为,,,,;变量U与V相对应的一组数据为,,,,.表示变量Y与X之间的线性相关系数,表示变量V与U之间的线性相关系数,则( )
A. B.
C. D.
【答案】C
【分析】根据正相关,负相关判断的正负,即可比较大小.
【详解】Y随X的增大而增大,故变量Y与X正相关,即,V随U的增大而减小,故变量V与U负相关,即 .故.
故选:C
5.(24-25高二下·陕西汉中·期末)对于样本相关系数r,下列说法正确的是( )
A.r的取值范围是
B.越大,相关程度越弱
C.越接近于0,成对样本数据的线性相关程度越强
D.越接近于1,成对样本数据的线性相关程度越强
【答案】D
【分析】根据相关系数的性质即可结合选项逐一求解.
【详解】对于A,r的取值范围是,故A错误,
对于B,越大,相关程度越强,故B错误,
对于C,, 越接近于0,成对样本数据的线性相关程度越弱,故C错误,
对于D,越接近于1,成对样本数据的线性相关程度越强,故D正确,
故选:D
6.(24-25高二下·陕西安康·期末)在建立两个变量与的回归模型中,分别选择了4个不同的模型,结合它们的相关指数判断,其中拟合效果最好的为( )
A.模型1的相关指数为0.3 B.模型2的相关指数为0.25
C.模型3的相关指数为0.7 D.模型4的相关指数为0.85
【答案】D
【分析】根据相关指数越大拟合效果越好判断.
【详解】解:因为相关指数越大拟合效果越好,又,
所以模型4的拟合效果越好,
故选:D
7.(24-25高二下·贵州铜仁·月考)在线性回归模型中,分别选择了4个不同的模型,它们的相关指数依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数为( )
A.0.95 B.0.81 C.0.74 D.0.36
【答案】A
【分析】比较相关指数的大小,越接近于1,模型的拟合效果越好.
【详解】在两个变量与的回归模型中,它们的相关指数越接近于1,模型的拟合效果越好,在题目所给的四个数据中0.95是最大的相关指数,所以选A.
【点睛】本题考查相关指数,在回归模型中,相关指数 越接近于1,模型的拟合效果越好,属于简单题.
二、多选题
8.(24-25高二下·山西·期末)如图,某同学将搜集的六组成对数据绘制成散点图,若把图中的点去掉,对比原数据重新进行线性回归分析,则下列结论正确的是( )
A.数据的残差平方和变大
B.数据的决定系数变大
C.解释变量与响应变量的线性相关程度变强
D.样本相关系数的绝对值更趋于0
【答案】BC
【分析】从图中可以看出点较其他点,偏离直线远,所以去掉点后,回归效果更好,再结合残差的定义、以及相关系数和决定系数的性质判断.
【详解】由题意,
从散点图中可知,样本数据的两变量正相关,
由于点较其他点偏离程度大,删除点后,回归效果更好,决定系数变大,故B正确,从而相关系数的绝对值更接近于1,所以D错误;
由于拟合效果更好,决定系数越接近于1,所以新样本的残差平方和变小,所以A错误;从而解释变量与响应变量相关性增强,所以C正确.
故选:BC.
9.(24-25高二下·陕西宝鸡·期末)关于成对数据统计分析的下列结论中,正确的是( )
A.若两个变量与的相关系数,则这两个变量负相关
B.若两个变量与的相关系数越大,则这两个变量的线性相关程度越强
C.若两个变量与的相关系数,则这两个变量不具有相关关系
D.对于两个变量与的经验回归方程,若决定系数越大,则经验回归方程的拟合效果越好
【答案】AD
【分析】根据相关系数的意义判断ABC三个选项,根据决定系数的意义判断D选项.
【详解】由相关系数的意义知“若两个变量与的相关系数,则这两个变量负相关”A正确;
“两个变量与的相关系数的绝对值越大,则这两个变量的线性相关程度越强”,B错误;
两个变量与的相关系数只能说明两个变量没有线性相关关系,不能排除它们之间有其他相关关系,C错误;
由决定系数的意义知“对于两个变量与的经验回归方程,若决定系数越大,则经验回归方程的拟合效果越好”,D正确;
故选:AD.
10.(24-25高二下·宁夏银川·期末)某市天国庆节假期期间的楼房认购量单位:套与成交量单位:套的折线图如图所示,则以下说法错误的是( )
A.成交量的中位数是
B.日成交量超过日平均成交量的有天
C.认购量越大,则成交量就越大
D.认购量的第一四分位数是
【答案】AC
【分析】根据统计图中数据,结合平均数、中位数和百分位数的定义求解.
【详解】由图中日成交量的数据,从小到大排序,
故可得中位数为,可知选项A错误;
由图中折线可知:日平均成交量,
日成交量超过日平均成交量的只有月日天,故选项B正确;
由折线可知日认购量有增有减,与日期不是正相关关系,故选项C错误;
,日认购量的数据从小到大排列为:91,100,105,107,112,223,276,
因为,所以认购量的第一四分位数是100,D正确.
故选:AC.
三、填空题
11.(24-25高二下·山西运城·期末)某种产品的广告费支出与销售额 (单位:万元)之间的关系如下表:
x
2
4
5
6
8
y
30
40
60
50
70
与的线性回归方程为,当广告支出5万元时,随机误差的残差为________.
【答案】
【解析】先由回归直线方程,求出对应的预测值,再由残差的概念,即可得出结果.
【详解】由题意,当时,,
因此其残差为.
故答案为:.
【点睛】本题主要考查残差的计算,属于基础题型.
四、解答题
12.(24-25高二下·陕西汉中·期末)大学生刘铭去某工厂实习,实习结束时从自己制作的某种零件中随机选取了10个样品,测量每个零件的横截面积(单位:)和耗材量(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
零件的横截面积
0.03
0.05
0.04
0.07
0.07
0.04
0.05
0.06
0.06
0.05
0.52
耗材量
0.24
0.40
0.23
0.55
0.50
0.34
0.35
0.45
0.43
0.41
3.9
并计算得.
(1)估算刘铭同学制作的这种零件平均每个零件的横截面积以及平均一个零件的耗材量;
(2)求刘铭同学制作的这种零件的横截面积和耗材量的样本相关系数(精确到0.01);
(3)刘铭同学测量了自己实习期制作的所有这种零件的横截面积,并得到所有这种零件的横截面积的和为,若这种零件的耗材量和其横截面积近似成正比,请帮刘铭计算一下他制作的零件的总耗材量的估计值.附:相关系数.
【答案】(1)平均每个零件的横截面积为,一个零件的耗材量
(2)
(3)
【分析】(1)计算出样本中10个零件的横截面积的平均值和耗材量的平均值,得到答案;
(2)代入相关系数公式计算出答案.
(3)根据零件的耗材量和其横截面积近似成正比得到方程,求出答案.
【详解】(1)样本中10个这种零件的横截面积的平均值,
样本中10个这种零件的耗材量的平均值,
由此可估算刘铭同学制作的这种零件平均每个零件的横截面积为,
平均一个零件的耗材量为.
(2)
,
这种零件的横截面积和耗材量的样本相关系数为.
(3)设这种零件的总耗材量的估计值为,
又已知这种零件的耗材量和其横截面积近似成正比,
,解得,
故这种零件的总耗材量的估计值为.
(
考点0
2
一元线性回归模型及其应用
)
一、单选题
1.(24-25高二下·宁夏中卫·期末)某种产品的广告费支出与销售额 (单位:万元)之间的关系如下表:
与的线性回归方程为,当广告支出万元时,随机误差的残差为( )
A. B. C. D.
【答案】D
【分析】结合所给的回归方程首先求得预测值,然后结合所给的表格中的值即可求得最终结果.
【详解】解:由题意结合线性回归方程的预测作用可得:当时,,
则随机误差的效应(残差)为:.
故选:.
2.(24-25高二下·青海海南·期末)用最小二乘法得到的一组数据的经验回归方程为.若,则( )
A.63 B.21 C.28 D.49
【答案】C
【分析】利用经验回归方程必过样本中心点求得答案.
【详解】依题意,,则,所以.
故选:C
3.(24-25高二下·陕西汉中·期末)茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
【答案】C
【分析】由已知表格中的数据,代入回归直线方程即可求解参数判断A,应用回归直线判断B,C,在回归方程中,将代入,求得值即可判断D.
【详解】由题知,.
代入,得出,
所以,A选项正确;
,变量和呈正相关,B选项正确;
由题知,,该经验回归方程必过点,C选项错误;
当时,,
故当某户家庭人口数为8时,预测该户茶产业的年收入为25.7万元,D选项正确;
故选:C
4.(24-25高二下·陕西渭南·期末)已知两个随机变量的4组成对数据为.由这4组数据可得关于的线性回归方程为,则( )
A.2.8 B.3 C.3.3 D.4
【答案】B
【分析】根据回归直线必过样本中心点求解即可.
【详解】,,
∵,∴,
∴.
故选:B.
5.(24-25高二下·山西临汾·期末)已知变量与之间的一组数据如下表:
1
2
3
4
5
0.8
2.9
4.8
7.2
9.1
若关于的线性回归方程为,则( )
A.1.31 B. C.1.56 D.
【答案】B
【分析】求出,,由点在线性回归方程上进行求解.
【详解】,
,
而点在线性回归方程上,
得,
解得,
故选:B
二、多选题
6.(24-25高二下·青海西宁·期末)两个具有线性相关关系的变量的一组数据为,则下列说法正确的是( )
A.若相关系数,则两个变量负相关
B.相关系数的值越小,成对样本数据的线性相关程度越弱
C.决定系数越大,残差平方和越小,模型的拟合效果越好
D.决定系数越小,残差平方越小,模型的拟合效果越好
【答案】AC
【分析】相关系数的符号反映相关关系的正负性,的值越小,成对样本数据的线性相关程度越弱,
决定系数越大,残差平方和越小,模型的拟合效果越好.
【详解】对于A,因为的符号反映相关关系的正负性,故A正确;
对于B,根据相关系数越接近1,变量相关性越强,故B错误;
对于C,决定系数越大,残差平方和越小,效果越好,故C正确,D错误.
故选:AC.
7.(24-25高二下·陕西西安·期末)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( ).
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
【答案】ACD
【分析】根据回归直线斜率知A正确;利用回归直线必过样本中心点可构造方程求得,可知B错误,D正确;将代入回归直线知C正确.
【详解】对于A,由,得,故呈负相关关系,故A正确;
对于B,,,
,解得,故B错误;
对于C,当时,,故C正确;
对于D,由得,回归直线必过点,即必过点,故D正确.
故选:ACD.
8.(24-25高二下·山西运城·期末)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.其中旱涝频繁发生、世界性与区域性温度的异常给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型(其中e为自然对数的底数)拟合,设,通过实验得到部分数据及其变换后的一组数据如下表:
x
20
23
25
27
30
y
7.39
11.02
20.09
20.09
99.48
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则( )
A.
B.模型中
C.计算得,则在温度时,产卵量y的残差为44.89
D.当时,蝗虫的产卵量y大约为
【答案】ACD
【分析】首先求得,,再结合相关概念逐一判断各个选项即可求解.
【详解】对于A,由表格数据知:,,
因为数对满足,得,故A正确;
对于B,,即,∴,∴,故B错误;
对于C,在温度时,,残差为,故C正确;
对于D,当时,蝗虫的产卵量y大约为,故D正确.
故选:ACD.
三、填空题
9.(24-25高二下·陕西咸阳·期末)经验表明,一般树的胸径(树的主干在地面以上处的直径)越大,树就越高.在研究树高与胸径之间的关系时,某同学收集了某种树的5组观测数据(如下表):
胸径
8
9
10
11
12
树高
8.2
10
11
12
13.8
假设树高与胸径满足的经验回归方程为,则当胸径时,树高的预测值为______.
【答案】17.6
【分析】根据经验回归方程必过样本中心点,即将平均数求出代入即可解,再将代入即可求解.
【详解】根据表中数据可求:,.
将其代入方程解得.
所以经验回归方程为.
将代入解得.
所以树高的预测值为 .
故答案为:
四、解答题
10.(24-25高二下·宁夏银川·期末)由国家统计局提供的数据可知,2017年至2023年中国居民人均可支配收入(单位:万元)的数据如下表:
年份
2017
2018
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
6
7
人均可支配收入
1.65
1.83
2.01
2.19
2.38
2.59
2.82
(1)求关于的线性回归方程(系数精确到0.01);
(2)利用(1)中的回归方程,分析2017年至2023年中国居民人均可支配收入的变化情况,并预测2025年中国居民人均可支配收入.
附注:参考数据:.参考公式:回归直线方程的斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)
(2)3.16万元
【分析】(1)由题意求出,,,再代入公式即可求出答案;
(2)由(1)中的回归直线方程的斜率可知2017年至2023年中国居民人均可支配收入逐年增加,再把代入方程即可求出答案.
【详解】(1)由题可知:,,,
∴,
,
故所求线性回归方程为;
(2)由(1)中的回归方程知斜率可知,2017年至2023年中国居民人均可支配收入逐年增加;
令得:,
所以预测2025年中国居民人均可支配收入为3.16万元.
11.(24-25高二下·青海西宁·期末)家居消费是指居民在日常生活中购买和使用的家具、家电、建材、装修等产品和服务所形成的消费行为.长期以来,家居消费一直是居民消费的重要组成部分,对于带动居民消费增长和经济恢复具有重要意义.某家居店为了迎接周年庆举办促销活动,统计了半个月以来天数x与销售额y(万元)的一组数据:.通过分析发现x与y呈线性相关.
(1)求x与y的样本相关系数r(结果保留三位小数);
(2)求x与y的线性回归方程(,的结果用分数表示).
参考公式:相关系数,,.
参考数据:,,,.
【答案】(1)0.984;
(2).
【分析】(1)根据给定数据,求出样本中心点,再代入公式计算即得.
(2)由(1)的信息,结合最小二乘法公式计算即得.
【详解】(1)依题意,,,
所以.
(2)因为,则,
所以y关于x的线性回归方程为.
12.(24-25高二下·湖南·阶段检测)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
【答案】(1)
(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆)
(3)
【分析】(1)由递推公式得到,进而判断为等差数列,即可求解;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)由得:
,
即,
所以,
即,
所以为等差数列,又,
所以公差为1,
所以,
(2)令,则,
由公式,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为.
13.(24-25高二下·山西·期末)自2020年以来,某地区新能源产值规模呈快速增长态势,下表给出了近5年该地区的新能源产值(单位:亿元).
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
产值
1.5
2.5
3.4
4.9
7.8
(1)若用作为回归模型,且,求此模型的方程及其决定系数(精确到0.01);
(2)若用作为回归模型,求此模型的方程;
(3)已知回归模型的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的新能源的产值(精确到0.01).
参考数据:
3
4.02
1.24
75.3
104.91
16.16
22.54
1.1
1.5
11.4
附:(1)上表中;
(2)对于一组数据,其经验回归方程为,
;
决定系数.
【答案】(1),0.93
(2)
(3)拟合效果更好,12.54
【分析】(1)由最小二乘法即可求解回归方程,由决定系数的计算公式代入即可求解,
(2)利用对数的运算得,即可由最小二乘法求解,
(3)根据决定系数的大小即可作出比较,代入方程即可求解.
【详解】(1)由题意得,
,故此模型的方程为,
,
.
(2)令,则,
则
,
故此模型的方程为.
(3)拟合效果更好,
当时,即预测2025年该地区的新能源的产值为.
(
考点0
3
成对数据的统计相关性
)
一、单选题
1.(24-25高二下·青海·期末)某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的 若有的把握认为喜欢短视频和性别相关联,则的最小值为( )
(附,其中.)
A. B. C. D.
【答案】B
【分析】根据题意先列出列联表计算值,再根据计算出的最小值.
【详解】根据题意,列联表如下:
喜欢
不喜欢
合计
男
女
合计
;
∵有的把握认为喜欢短视频和性别相关联,即,
,,又,
则的最小值为.
故选:B.
2.(24-25高二下·陕西咸阳·期末)下列说法正确的是( )
A.若两个随机变量的线性相关性越强,则相关系数的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于0
C.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过0.05
D.若随机变量,满足,则
【答案】C
【分析】对于AB:根据相关系数的性质分判断;对于C:根据独立性检验的思想分析判断;对于D:根据期望的性质分析判断.
【详解】对于选项AB:若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故AB错误;
对于选项C:因为,
根据独立性检验可知:与有关联,此推断犯错误的概率不超过0.05,故C正确;
对于选项D:因为,所以,故D错误;
故选:C.
二、多选题
3.(24-25高二下·山西吕梁·期末)下列说法正确的是( )
A.数据的第25百分位数为2
B.若随机变量,且,则
C.变量关于变量的经验回归方程为,则样本点的残差为-1
D.在独立性检验中,随机变量的观测值越小,“认为两个变量有关”这种判断犯错误的概率越小
【答案】AC
【分析】根据第25百分位数的概念,判断选项A的正误;根据正态分布的对称性,判断选项B的正误;根据残差的概念,判断选项C的正误;根据独立性检验中随机变量的观测值的性质,判断选项D的正误;
【详解】对于A选项,数据共有6个数,则,所以第25百分位数为2,故A正确;
对于B选项,由,得,故B错误;
对于C选项,当时,,所以样本点的残差为,故C正确;
对于D选项,在独立性检验中,随机变量的观测值越大,“认为两个变量有关”这种判断犯错误的概率越小,故D错误;
故选:AC.
4.(24-25高二下·山西·期末)下列说法正确的是( )
A.设随机变量的均值为,是不等于的常数,则相对于的偏离程度小于相对于的偏离程度(偏离程度用差的平方表示)
B.若一组数据,,…,的方差为0,则所有数据都相同
C.用决定系数比较两个回归模型的拟合效果时,越大,残差平方和越小,模型拟合效果越好
D.在对两个分类变量进行独立性检验时,如果列联表中所有数据都扩大为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论不会发生改变
【答案】ABC
【分析】根据均值的性质以及方差的公式以及决定系数的含义可判断A,B,C;根据独立性检验的含义可判断D.
【详解】对于A,由均值的性质可知,
由于是不等于的常数,故可得,
即相对于的偏离程度小于相对于的偏离程度,A正确;
对于B,根据方差公式,
可知若一组数据,,…,的方差为0,则,B正确;
对于C,由决定系数的定义可知,C正确,
对于D,的值变为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论可能发生改变,D错误,
故选:ABC
5.(24-25高二下·宁夏·期末)某校有在校学生900人,其中男生400人,女生500人,为了解该校学生对学校课后延时服务的满意度,随机调查了40名男生和50名女生.每位被调查的学生都对学校的课后延时服务给出了满意或不满意的评价,统计过程中发现随机从这90人中抽取一人,此人评价为满意的概率为.在制定列联表时,由于某些因素缺失了部分数据,而获得如下列联表,下列结论正确的是( )
满意
不满意
合计
男
10
女
合计
90
参考公式与临界值表,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.满意度的调查过程采用了分层抽样的抽样方法
B.50名女生中对课后延时服务满意的人数为20
C.的观测值为9
D.根据小概率的独立性检验,不可以认为“对课后延时服务的满意度与性别有关系”
【答案】AD
【分析】根据题意计算男女比例,即可判断A选项;计算满意的总人数人数,根据男生满意人数即可得女生满意人数判断B选项;由列联表中数据计算的值即可判断C、D选项.
【详解】A选项,因为在校学生中有400名男生,500名女生,随机调查了40名男生和50名女生,
男女比例始终是4:5,所以采用了分层抽样的方法,故A正确;
B选项,调查的90人中,对学校课后延时服务满意的人数为,
其中男生满意的人数为,所以女生满意的人数为30,女生不满意的人数为20,故B错误;
C选项,由B选项的分析,补全列联表如下:
满意
不满意
合计
男
30
10
40
女
30
20
50
合计
60
30
90
由列联表可得,故C错误;
D选项,:对课后延时服务的满意度与性别无关,由,
根据小概率的独立性检验,没有充足的证据推断不成立,
即不能认为“对课后延时服务的满意度与性别有关系”,故D正确.
故选:AD.
三、解答题
6.(24-25高二下·山西·期末·山西大同·期末)某市为发展旅游业,市旅游局提出“历史从未远去,它一直在我们身边”“一砖一瓦皆故事,一饭一蔬皆成诗”的文化创意主题,围绕这一主题开展了一系列丰富多彩的文艺活动.为了了解人们对活动的喜爱程度,现随机抽取400人进行调查统计,得到如下列联表:
不喜爱
喜爱
合计
男性
180
240
女性
50
合计
400
(1)完成列联表,并依据小概率值的独立性检验,判断人们对该活动的喜爱程度是否与性别有关联;
(2)为宣传历史文化知识,当地文化局组织了历史知识竞赛活动.活动规定从8道备选题中随机抽取4道题进行作答.假设在8道备选题中,甲正确完成每道题的概率都是,且每道题正确完成与否互不影响;乙只能正确完成其中的6道题.
①求甲至少正确完成其中3道题的概率;
②设随机变量X表示乙可以正确完成题的个数,求变量X的分布列及数学期望.
附:,其中.
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)表格见解析,认为人们对该活动的喜爱程度与性别无关;
(2)①;②分布列见解析,3.
【分析】(1)根据已知完善列联表,应用卡方公式求卡方值,结合独立检验基本思想即可得结论;
(2)①应用独立重复试验的概率求法及互斥事件加法求概率;②由题意X的所有可能取值为2,3,4,依次求出对应概率即可得分布列,进而求期望.
【详解】(1)补全的列联表如下
不喜爱
喜爱
合计
男性
60
180
240
女性
50
110
160
合计
110
290
400
零假设为:人们对该活动的喜爱程度与性别无关,
根据表中数据,计算得到,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此我们可以认为成立,即认为人们对该活动的喜爱程度与性别无关.
(2)①记“甲至少正确完成其中3道题”为事件A,则;
②X的所有可能取值为2,3,4,
,,
X的分布列为
X
2
3
4
P
X的数学期望.
7.(24-25高二下·山西长治·期末)电视剧《庆余年2》自2024年5月16日在CCTV-8和腾讯视频双平台开播以来,其收视率一路飙升,《庆余年2》剧组为了解该剧的收视情况,在喜欢看电视的居民中随机抽取了1000名居民进行调查,其中,男性居民和女性居民人数之比为9:11,且观看本剧的居民比没有观看本剧的居民多800人,没有观看本剧的女性居民有50人.
(1)完成列联表,并根据小概率值的独立性检验,能否认为是否观看《庆余年2》与性别有关联?
男性居民
女性居民
总计
看过《庆余年2》
没看过《庆余年2》
50
总计
1000
(2)在这1000名居民中,按性别比例用分层随机抽样的方法从看过《庆余年2》的居民中随机抽取9人,并从这9人中随机抽取3人采访其观剧感受,记这3人中男性居民的人数为X,求X的分布列和数学期望.
附:,其中.
a
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1)列联表见解析,无关
(2)分布列见解析,
【分析】(1)补充完表格计算卡方,然后判断是否大于等于6.635;
(2)服从超几何分布,根据超几何分布概率公式计算即可.
【详解】(1)男居民人数人,女居民人数人,
设看过《庆余年2》的人数为,没看过《庆余年2》的人数为,
则,
男性居民
女性居民
总计
看过《庆余年2》
400
500
900
没看过《庆余年2》
50
50
100
总计
450
550
1000
提出假设:是否观看过《庆余年2》与性别无关,
,
所以根据小概率值,可以认为是否观看过《庆余年2》与性别无关.
(2)由(1)可知,在看过《庆余年2》的人中随机抽取9人中,男性居民有4人,女性居民有5人,服从超几何分布,
,,
,,
所以的分布列如下表
0
1
2
3
.
8.(24-25高二下·陕西汉中·期末)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表:
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
配方材料试样
20
合计
140
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联?
附:,其中,
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
15
90
配方材料试样
30
20
50
合计
105
35
140
(2)认为材料配方与耐热疲劳性能有关联
【分析】(1)按照样本总量比例计算A和B配方的抽样数量;
(2)用卡方独立性检验判断配方类型与性能是否有关
【详解】(1)由已知合金部件应抽取件,合金部件应抽取件,由此可得列联表如下
材料配方类型
耐热疲劳性能
合计
测试合格
测试不合格
配方材料试样
75
15
90
配方材料试样
30
20
50
合计
105
35
140
(2)零假设为:材料配方与耐热疲劳性能无关联,
由表知,,,,,,
代入公式得,
根据小概率值的独立性检验,我们推断不成立,
即认为材料配方与耐热疲劳性能有关联,此推断犯错误的概率不大于0.05.
9.(24-25高二下·青海西宁·期末)某机构为了解科技工作者对deepseek的使用情况与年龄是否有关,从甲市科技工作者中抽取了200人进行调查,得到下表.
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
中老年人(40周岁以上)
30
80
总计
200
(1)补全表中数据,根据小概率值的独立性检验,是否可以认为科技工作者对deepseek的使用情况与年龄有关联?
(2)将样本中使用deepseek的频率作为甲市科技工作者中使用该软件的概率,从甲市科技工作者中随机抽取3人,记为这3人中使用deepseek的人数,求的分布列和数学期望.
附:,其中.
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1)列联表见解析,可以认为两者相关联
(2)分布列见解析,
【分析】(1)先根据题意补全列联表,写出零假设,求得卡方值并与对应的小概率值比较即得结论;
(2)先求出样本中使用deepseek的频率,依题可得,求出二项分布的分布列,利用随机变量的期望公式或二项分布的概率期望公式即可求得.
【详解】(1)依题意,补全列联表如下:
使用deepseek
不使用deepseek
总计
年轻人(40周岁及40周岁以下)
100
20
120
中老年人(40周岁以上)
50
30
80
总计
150
50
200
零假设为:科技工作者对deepseek的使用情况与年龄无关联,
由列联表中的数据,得.
根据小概率值的独立性检验,可以推出不成立,即可以认为科技工作者对deepseek的使用情况与年龄有关联.
(2)样本中使用deepseek的频率为,由题意可知,
的可能取值为,
, ,
, .
所以的分布列为:
0
1
2
3
或.
10.(24-25高二下·宁夏·期末)文旅部门统计了某网红景点在2022年3月至7月的旅游收入(单位:万),得到以下数据:
月份
3
4
5
6
7
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到0.001);
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,并判断能否有99.9%的把握认为“游客是否喜欢该网红景点与性别有关”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,参考数据:,线性回归方程:,其中,,,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1)可用线性回归模型拟合与的关系,.
(2)列联表见解析,有99.9%的把握认为游客是否喜欢该网红景点与性别有关.
【分析】(1)先依据已知条件依次计算、、、和,进而计算,从而得出可用线性回归模型拟合与的关系,再根据最小二乘法求出即可得解.
(2)由已知数据即可填写列联表;根据表格数据计算,再结合独立性检验基本思想方法即可得解.
【详解】(1)由已知得:,,
所以,
,
,
所以,
因为,说明与的线性相关关系很强,可用线性回归模型拟合与的关系,
所以,
所以关于的线性回归方程为:.
(2)列联表如下所示:
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
零假设:游客是否喜欢该网红景点与性别无关,
根据列联表中数据,,
依据小概率值的独立性检验推断不成立,
即有的把握认为游客是否喜欢该网红景点与性别有关.
11.(24-25高二下·宁夏银川·期末)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
合计
A
240
260
B
30
合计
500
(1)将上述列联表补充完整.
(2)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(3)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:.
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)答案见解析
(2)公司的长途客车准点的概率为,公司的长途客车准点的概率为;
(3)有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关;
【分析】(1)根据表格数据直接求解;
(2)由概率定义直接代入数据计算即可;
(3)提出零假设,计算出卡方的值并进行比较即可得出结论.
【详解】(1)依题意可知,列联表如下:
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
(2)根据(1)中表格数据可知,
估计公司的长途客车准点的概率为;
估计公司的长途客车准点的概率为;
(3)零假设为:甲、乙两城之间的长途客车是否准点与客车所属公司无关;
易知,显然,
所以根据小概率值的独立性检验,推断不成立,
故有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
12.(24-25高二下·宁夏吴忠·期末)某城市地铁将于2022年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单
位:百元)
赞成定价
者人数
1
2
3
5
3
4
认为价格
偏高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(所有计算结果四舍五入保留整数);
(2)由以上统计数据填下面列联表,依据小概率值的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于55百元的人数
月收入低于55百元的人数
合计
认为价格偏高者
赞成定价者
合计
附:.
参考数据:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)12(百元)
(2)填表见解析;可以认为“月收入以百元为分界点对地铁定价的态度没有差异”
【分析】(1)利用组中值,计算月平均收入,即可得出结论;
(2)根据提供数据,可填写表格,利用公式,可计算的值,根据临界值表,即可得到结论.
【详解】(1).
“认为价格偏高者”的月平均收入为
,
“赞成定价者”与“认为价格偏高者”的月平均收入的差距是百元.
(2)根据条件可得列联表如下:
月收入不低于百元人数
月收入低于百元人数
合计
认为价格偏高者
赞成定价者
合计
零假设为月收入以百元为分界点对地铁定价的态度无差异.
.
依据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为“月收入以百元为分界点对地铁定价的态度没有差异”.
1 / 4
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。