内容正文:
专题8.2-8.3 一元线性回归模型与独立性检验(六大题型)
【题型1:解释回归直线方程的意义】
【题型2:求回归直线方程】
【题型3:用回归直线方程对总体进行估计】
【题型4:样本中心点的有关计算】
【题型5:列联表分析】
【题型6:独立性检验】
【题型1:解释回归直线方程的意义】
1.下列残差图满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
2.在研究线性回归模型时,样本数据所对应的点均在直线上,用r表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.2
3.下列命题中
①散点图不能直观地判断两个变量是否具有线性相关关系;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③回归直线一定经过样本中心点.
其中正确命题的个数为( )
A. B. C. D.
4.多选题某公司收集了某商品销售收入(单位:万元)与相应的广告支出(单位:万元)共10组数据,绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法错误的是( )
A.决定系数变小 B.残差平方和变小
C.相关系数的值变小 D.自变量与因变量相关性变弱
5.多选题为研究某机器的连续使用时长(小时)和生产产品的合格率之间的关系,某课题研究小组采集了组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是( )
A.经验回归直线的斜率可能不变 B.样本的线性相关程度更高
C.样本相关系数变小 D.残差平方和变小
6. (多选)下列说法中正确的有( )
A.经验回归直线必过点
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数时,两个变量正相关
D.如果两个变量的相关性越弱,则就越接近于0
7.经验回归方程:两个具有线性相关关系的变量的一组数据,,…,,其经验回归方程为,
则,,其中,是经验回归直线的 ,是在y轴上的 .
【题型2:求回归直线方程】
8.下表为2018年—2022年的中国数字经济规模(单位:万亿元):
年份
2018
2019
2020
2021
2022
年份代码x
1
2
3
4
5
中国数字经济规模y
31.3
35.8
39.2
45.5
50.2
则下列所给函数模型中比较适合这一数据关系的是( )
A. B.
C. D.
9.若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
10.已知关于变量有相关关系,由观测数据得到的样本数据散点图如图所示,则该组观测数据中关于的回归方程可能是( )
A. B.
C. D.
11.鲫鱼产卵后,鱼卵的孵化时间(单位:天)会受到水温(单位:℃)的影响,下面是某生物研究小组进行8次观察实验收集到的数据:
水温x/℃
15
16
18
20
21
23
26
29
孵化时间y/天
8
7
6
5
5
4
3
2
(1)画出上述成对数据的散点图;
(2)已知水温对鱼卵的孵化时间可表示为一元线性回归模型,请在散点图中近似地作出表示孵化时间y和水温x之间关系的直线,并说明该一元线性回归模型的自变量与因变量.
【题型3:用回归直线方程对总体进行估计】
12.设某中学的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据,用最小二乘法建立的经验回归方程为.若该中学女生的平均身高为,则该中学女生的平均体重的估计值是( )
A. B. C. D.
13.已知施肥量与玉米产量之间的回归方程为,则当施肥量时,对玉米产量的估计值为( )
A. B.545 C. D.
14.若对具有线性相关关系的两个变量建立的回归方程为,则当时,的估计值为 .
15.假如女儿的身高y(单位:cm)关于父亲身高x(单位:cm)的线性回归方程是,已知父亲身高为175cm,则估计女儿的身高为 cm.(结果精确到整数)
【题型4:样本中心点的有关计算】
16.已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
17.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为,则的值为( )
2
4
6
8
10
6
5
4
3
2
A. B. C. D.
18.已知之间的一组数据:
1
2
3
4
5.5
4
3.5
3
若与满足回归方程,则的值为( )
A. B. C. D.
19.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了6次试验,收集数据如下表所示,建立加工时间关于零件数的一元线性回归模型,则回归直线必过点( )
零件数个
50
60
70
80
90
100
加工时间min
88
95
102
108
115
122
A. B. C. D.
20.根据成对样本数据建立变量y关于x的经验回归方程为.若y的均值为6.2,则x的均值为( )
A.1.5 B.2 C.2.5 D.3
21.两个相关变量满足如下关系:
2
3
4
5
6
25
●
46
58
65
根据表格已得经验回归方程为.若表格中有一数据模糊不清,则推算该数据是( )
A.35.5 B.36 C.36.5 D.37
22.已知x,y的对应值如下表所示:若y与x线性相关,且求得的回归直线方程为,则( )
x
12
9
14
y
27
20
m
A.30 B.31 C.32 D.33
23.数据 组成一个样本,其回归直线方程为,其中,剔除一个异常点后,得到新的回归直线必过点 .
24.已知的取值如表所示,从散点图分析可知与线性相关,如果线性回归方程为,那么表格中数据的值为 .
0
1
2
4
4.3
4.8
6.7
25.某蔬菜种植基地最近五年的年投资成本(万元)和年利润(万元)的统计表如下:
10
11
12
13
14
11
12
19
若关于的线性回归方程为,则的平均数 .
26.为了研究某种菌在特定环境下随时变化的繁殖情况,得如下实验数据:
天数(天)
繁殖个数(个)
由以上信息,计算得回归直线方程为,则的值为 .
27.某产品的宣传费用(单位:万元)与销售额(单位:万元)的统计数据如表所示:
4
5
6
7
8
60
80
90
100
120
根据上表可得回归方程,则宣传费用为9万元时,销售额为 万元.(填整数)
28.已知线性相关的两个变量和的取值如下表,且经验回归方程为,则 .
0
1
3
4
2.2
4.3
4.8
6.7
29.已知变量,由它们的样本数据计算得到的观测值,的部分临界值表如下:
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
则最大有 的把握说变量有关系.(填百分数)
【题型5:列联表分析】
30.考查棉花种子经过处理跟生病之间的关系得到如表数据:
项目
种子处理
种子未处理
总计
得病
32
101
133
不得病
192
213
405
总计
224
314
538
根据以上数据,则( )
A.种子是否经过处理决定是否生病
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理跟是否生病有关
D.以上都是错误的
31.下表是一个列联表,则表中,的值分别为( )
总计
21
25
33
总计
100
A.46,54 B.54,46 C.52,54 D.50,52
32.为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
【题型6:独立性检验】
33.某校有高一学生1800人,高二学生1200人,学校采取按比例分配的分层抽样的方式从中抽取100人进行体育测试.测试后,统计得到高一样本的一分钟跳绳次数的均值为165,方差为61,高二样本的一分钟跳绳次数的均值为145,方差为31.
(1)计算总样本的一分钟跳绳次数的均值和方差;
(2)将一分钟跳绳次数视为及格,整理出以下列联表:
及格
不及格
合计
高一
52
8
60
高二
38
2
40
合计
90
10
100
试根据小概率值的独立性检验,分析一分钟跳绳次数及格情况是否与年级有关;(结果保留小数点后三位)
(3)如果将(2)表格中的所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断一分钟跳绳次数及格情况与年级之间的关联性,结果还一样吗?请你试着解释其中的原因.
附:,.
独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
34.在2025年春节档电影中,由饺子导演的《哪吒之魔童闹海》电影在国内外受到一致好评,票房也一路飙升到国内第一,也是国内首部百亿票房,暂居全球票房第五.其中有不少观众对角色喜欢都有自己的见解.刘同学为了了解学生喜欢哪吒角色是否与性别有关,他对全班50人进行了问卷调查,得到如下列联表:
喜欢哪吒角色
不喜欢哪吒角色
总计
女生
10
男生
5
总计
50
已知从全班50人中随机抽取1人,抽到喜欢哪吒角色的学生的概率为0.6.
(1)请将上面的列联表补充完整,并且判断是否有的把握认为喜欢哪吒角色与性别有关;
(2)从喜欢哪吒角色的同学中,按分层抽样的分式,随机抽取6人做进一步的问卷调查,再从这6人中随机选出3人采访发言.设这3人中男生人数为,求的分布列及期望值.
附:,.
0.050
0.010
0.001
3.841
6.635
10.828
35.已知某高中高一年级共有1200名学生,高二年级共有1100名学生,高三年级共有1000名学生.
(1)对高一、高二、高三年级按比例用分层随机抽样的方法,从全校抽取99名学生参加活动,则高一、高二、高三年级分别抽取多少名学生?
(2)从全校抽取容量为500的有放回简单随机样本,得到如下数学成绩与学生性别的不完整列联表,请补全列联表.
单位:人
性别
数学成绩
合计
不优秀
优秀
男
260
300
女
30
合计
500
(3)依据小概率值的独立性检验,分析(2)中的抽样数据,能否据此推断数学成绩与学生性别有关联?
附:,.
a
0.1
0.05
0.01
2.706
3.841
6.635
36.2025年由教育部及各省教育厅组织的九省联考,全程模拟高考及考后的志愿填报等.某高中分别随机调研了50名男同学和50名女同学对计算机专业感兴趣的情况,其中男同学感兴趣有40名,女同学不感兴趣有20名.
(1)根据小概率值的独立性检验,能否认为该校学生是否对计算机专业感兴趣与性别有关;
(2)将样本的频率作为概率,现从全校的学生中随机抽取30名学生,求其中对计算机专业感兴趣的学生人数的期望和方差.
0.05
0.01
0.005
3.841
6.635
7.879
附:,其中.
37.某工厂生产了两批次的某种产品,现从两批次的产品中共抽取500件进行检测,根据检测结果(“次品”或“合格品”)得到如下列联表:
生产批次
产品检测结果
合计
次品
合格品
第一批次
10
190
200
第二批次
40
260
300
合计
50
450
500
(1)根据小概率值的独立性检验,能否认为产品检测结果与生产批次有关联?
(2)用样本估计总体,频率估计概率.现等可能地从两批次中选一批次,再从该批次中随机抽取1件产品.
(ⅰ)求取出的产品是次品的概率;
(ⅱ)已知取出的产品是次品,求它是从第一批次的产品中取出的概率.
参考公式:,其中.
参考数据:
0.15
0.10
0.05
0.010
2.072
2.706
3.841
6.635
38.为了研究DeepSeek(AI学习助手)对学生数学成绩的影响,将20名学生均分为两组,分别为使用组(使用DeepSeek)和非使用组.一段时间后,测得20名学生的数学成绩变化如下(单位:分):
使用组
1
1
2
2
3
3
3
4
非使用组
0
0
1
1
2
3
(1)从使用组中随机抽取两名学生,设其中成绩进步的人数为,求的分布列和数学期望;
(2)求20名学生数学成绩变化的中位数,并分别统计两组中低于与不低于的人数,完成如下列联表:
低于
不低于
总计
使用组
非使用组
总计
(3)根据(2)中的列联表,能否有的把握认为使用DeepSeek与数学成绩变化有显著关联?
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
39.为考察某种药物预防和治疗流感的效果,某药物研究所用100只小白鼠进行了分组试验,该分组试验分两个阶段:第一阶段为5天的观察预防期,第二阶段为10天的观察治疗期.第一阶段结束时,统计数据如下:患病小白鼠的比例为,未服药小白鼠的比例为,未服药且未患病的小白鼠有20只.
(1)完成下面列联表,并依据小概率值的独立性检验,推断该药物对预防流感是否有效.
药物
流感
合计
未患病
患病
未服用
服用
合计
(2)第一阶段结束时,若在患病的小白鼠中随机抽取2只,用表示服药的只数,求的分布列和数学期望.
(3)第二阶段结束时,针对第一阶段结束时的服药且患病的小白鼠中有16%被治愈,未服药患病的小白鼠中有5%自愈,服药未患病的小白鼠中有20%患病,未服药未患病的小白鼠中有15%患病.用频率估计概率,试验结束后,从这100只小白鼠中任选1只,检测是否患病后放回,若该操作进行5次,求选出的5只小白鼠中至少有2只患病的概率.
附:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
40.中国春节档电影《哪吒之魔童闹海》票房突破百亿,是中国第一部冲入全球影史票房前5的作品.同学小华在某影院用简单随机抽样的方法调查了200位观影人观看该电影的次数,并对他们的观影次数作出统计,具体如下:
年龄(岁)
少年组(18及以下)
青年组(19-35)
中年组(36-60)
老年组(61及以上)
调查人数
70
80
30
20
少年组、青年组、中年组、老年组分别有,,,的人看了2次该电影,其余的人都只看了1次.
(1)求这200位观众观看该电影的平均次数;
(2)小华记少年组与青年组为“组”,记中年组和老年组为“组”.请完成以下列联表,依据小概率值的独立性检验,能否认为观影次数与年龄层次有关联?
观影次数
年龄层次
合计
组
组
1次
2次
合计
附表:
0.1
0.05
0.01
2.706
3.841
6.635
参考公式:,.
41.AI的快速发展在某些方面引发了人们对自己所在行业前景的焦虑,某心理辅导机构为了了解人们对于未来行业前景的焦虑是否与性别有关,对某社区居民进行了一次抽样调查,分别抽取男性和女性各50人作为样本,得到如下数据.
焦虑
不焦虑
合计
男性
10
女性
20
合计
(1)根据已知条件,填写上面列联表,并根据小概率值为的独立性检验,能否认为该社区居民对行业前景的焦虑与性别有关?
(2)现从该样本焦虑的居民中,采用分层随机抽样的方法随机抽取6人进行问卷调查,再从这6人中随机抽取3人进行心理辅导,设抽取的3人中男性的人数为,求的分布列和数学期望.
附:为样本容量.
原创精品资源学科网独家享有版权,侵权必究!6
1
学科网(北京)股份有限公司
$$
专题8.2-8.3 一元线性回归模型与独立性检验(六大题型)
【题型1:解释回归直线方程的意义】
【题型2:求回归直线方程】
【题型3:用回归直线方程对总体进行估计】
【题型4:样本中心点的有关计算】
【题型5:列联表分析】
【题型6:独立性检验】
【题型1:解释回归直线方程的意义】
1.下列残差图满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【答案】A
【分析】根据一元线性回归模型中对随机误差的假定:残差应是均值为0、方差为的随机变量的观测值逐项分析即可求解.
【详解】对于A,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,故A正确;
对于B,残差与观测时间有线性关系,故B错误;
对于C,残差与观测时间有非线性关系,故C错误;
对于D,残差的方差不是一个常数,随观测时间变大而变大,故D错误.
故选:A.
2.在研究线性回归模型时,样本数据所对应的点均在直线上,用r表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.2
【答案】A
【分析】根据线性相关系数的定义直接得解.
【详解】由已知样本数据所对应的点均在直线上,
则,又,所以满足负相关,即.
故选:A.
3.下列命题中
①散点图不能直观地判断两个变量是否具有线性相关关系;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③回归直线一定经过样本中心点.
其中正确命题的个数为( )
A. B. C. D.
【答案】B
【分析】根据变量间的相关关系以及回归直线定义和性质即可判断选项.
【详解】对于①,散点图可以直观地判断两个变量是否具有线性相关关系,故错误;
对于②,回归直线也可能不过任何一个点,故错误;
对于③,回归直线一定经过样本中心点,故正确.
故选:B
4.多选题某公司收集了某商品销售收入(单位:万元)与相应的广告支出(单位:万元)共10组数据,绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法错误的是( )
A.决定系数变小 B.残差平方和变小
C.相关系数的值变小 D.自变量与因变量相关性变弱
【答案】ACD
【分析】从图中分析得到去掉点后,回归效果更好,再由决定系数,残差平方和,相关系数和相关性的概念和性质作出判断.
【详解】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好.
故决定系数会变大,更接近于1,残差平方和变小.
相关系数的绝对值,即会更接近于1,由图可得与正相关,故会更接近于1,即相关系数的值变大.
自变量与因变量相关性变强.
故A,C,D错误,B正确.
故选:ACD
5.多选题为研究某机器的连续使用时长(小时)和生产产品的合格率之间的关系,某课题研究小组采集了组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是( )
A.经验回归直线的斜率可能不变 B.样本的线性相关程度更高
C.样本相关系数变小 D.残差平方和变小
【答案】ABD
【分析】根据题设给定散点图为两个特异点,且距离经验回归直线较远,结合相关性、相关系数、残差平方和的概念判断各项的正误.
【详解】由图知,若与所得经验回归直线的距离相同时,去掉后所得直线斜率不变,A对;
由于为两个特异点,且相对于其它点距离经验回归直线较远,
所以去掉后,样本的线性相关程度更高,样本相关系数变大,残差平方和变小,即B、D对,C错.
故选:ABD
6. (多选)下列说法中正确的有( )
A.经验回归直线必过点
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数时,两个变量正相关
D.如果两个变量的相关性越弱,则就越接近于0
【答案】ACD
【分析】A选项,经验回归直线必过样本中心点,A正确;B选项,根据经验回归方程的定义知B错误;CD选项,由相关系数的定义知CD选项正确.
【详解】对于A,经验回归直线必过点,故A正确;
对于B,经验回归直线在散点图中可能不经过任一样本数据点,故B不正确;
对于C,当样本相关系数时,则两个变量正相关,故C正确;
对于D,如果两个变量的相关性越弱,则就越接近于0,故D正确.
故选:ACD
7.经验回归方程:两个具有线性相关关系的变量的一组数据,,…,,其经验回归方程为,
则,,其中,是经验回归直线的 ,是在y轴上的 .
【答案】 斜率 截距
【分析】由直线回归方程的几何意义即可得答案.
【详解】解:由,可得,
所以是经验回归直线的斜率,是在y轴上的截距.
故答案为:斜率;截距
【题型2:求回归直线方程】
8.下表为2018年—2022年的中国数字经济规模(单位:万亿元):
年份
2018
2019
2020
2021
2022
年份代码x
1
2
3
4
5
中国数字经济规模y
31.3
35.8
39.2
45.5
50.2
则下列所给函数模型中比较适合这一数据关系的是( )
A. B.
C. D.
【答案】C
【分析】取代入各选项中求出y值,再与50.2比较即可得答案.
【详解】对于,当时,.与50.2相差较大;
对于,当时,,与50.2相差较大;
对于,当时,,与50.2相差较大;
根据数据可得中国数字经济规模每年比上一年增长12%左右,所以比较合适,
故选:C.
9.若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【答案】C
【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【详解】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
10.已知关于变量有相关关系,由观测数据得到的样本数据散点图如图所示,则该组观测数据中关于的回归方程可能是( )
A. B.
C. D.
【答案】D
【分析】根据数据散点图的单调性,结合选项中的函数,逐项判定,即可求解.
【详解】由散点图可知,所求回归方程先减后增,选项中A,B均为定义域上的增函数,不符合题意;
选项C中的函数图象为开口向下的抛物线,不符合题意;
而选项D中的函数图象增减性与散点图符合题意,故D正确.
故选:D.
11.鲫鱼产卵后,鱼卵的孵化时间(单位:天)会受到水温(单位:℃)的影响,下面是某生物研究小组进行8次观察实验收集到的数据:
水温x/℃
15
16
18
20
21
23
26
29
孵化时间y/天
8
7
6
5
5
4
3
2
(1)画出上述成对数据的散点图;
(2)已知水温对鱼卵的孵化时间可表示为一元线性回归模型,请在散点图中近似地作出表示孵化时间y和水温x之间关系的直线,并说明该一元线性回归模型的自变量与因变量.
【答案】(1)作图见解析
(2)作图见解析,水温x为自变量,孵化时间y为因变量
【分析】(1)根据表格中的数据,以x轴表示水温,y轴表示孵化时间,画出散点图;
(2)由一元线性回归模型定义,近似作出直线,并分析回归模型中自变量和因变量.
【详解】(1)以x轴表示水温,y轴表示孵化时间,可作散点图如下:
(2)直线如图所示,由(1)中散点图及一元线性回归模型定义可得,其中水温x为自变量,孵化时间y为因变量.
【题型3:用回归直线方程对总体进行估计】
12.设某中学的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据,用最小二乘法建立的经验回归方程为.若该中学女生的平均身高为,则该中学女生的平均体重的估计值是( )
A. B. C. D.
【答案】A
【分析】将代入回归直线方程,可得出该中学女生的平均体重的估计值.
【详解】将代入回归直线方程得,
因此,该中学女生的平均体重的估计值是.
故选:A.
13.已知施肥量与玉米产量之间的回归方程为,则当施肥量时,对玉米产量的估计值为( )
A. B.545 C. D.
【答案】C
【分析】将代入回归方程即可求解
【详解】因为施肥量与玉米产量之间的回归方程为,
则当施肥量时,,
故选:C
14.若对具有线性相关关系的两个变量建立的回归方程为,则当时,的估计值为 .
【答案】
【分析】
将代入回归直线方程可得结果.
【详解】将代入回归直线方程可得.
故答案为:.
15.假如女儿的身高y(单位:cm)关于父亲身高x(单位:cm)的线性回归方程是,已知父亲身高为175cm,则估计女儿的身高为 cm.(结果精确到整数)
【答案】
【分析】根据回归方程代入数据计算即得.
【详解】因为女儿身高为(单位:)关于父亲身高(单位:)的经验回归方程是,
所以当父亲的身高为时,.
故答案为:.
【题型4:样本中心点的有关计算】
16.已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
【答案】D
【分析】根据样本中心点在回归直线方程上代入计算可得结果.
【详解】易知样本数据的中心点在回归直线方程上,
易知,所以,
即,可得.
故选:D
17.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为,则的值为( )
2
4
6
8
10
6
5
4
3
2
A. B. C. D.
【答案】D
【分析】根据表格中的数据,求得样本中心点,将其代入回归直线方程,求得的值,即可得到答案.
【详解】由表格中的数据,可得,,
又样本中心点必在线性回归直线上,将代入回归直线方程,
可得,解得.
故选:D.
18.已知之间的一组数据:
1
2
3
4
5.5
4
3.5
3
若与满足回归方程,则的值为( )
A. B. C. D.
【答案】B
【分析】根据题意求,结合线性回归方程必过样本中心点运算求解.
【详解】由表可得,
因为线性回归方程过样本中心点,
则,解得.
故选:B.
19.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了6次试验,收集数据如下表所示,建立加工时间关于零件数的一元线性回归模型,则回归直线必过点( )
零件数个
50
60
70
80
90
100
加工时间min
88
95
102
108
115
122
A. B. C. D.
【答案】B
【分析】求出,,根据回归直线方程必过样本中心点,即可判断.
【详解】依题意可得,
,
所以回归直线必过点.
故选:B
20.根据成对样本数据建立变量y关于x的经验回归方程为.若y的均值为6.2,则x的均值为( )
A.1.5 B.2 C.2.5 D.3
【答案】B
【分析】利用经验在归方程经过点,即可求出结果.
【详解】将代入方程,解得.
故选:B.
21.两个相关变量满足如下关系:
2
3
4
5
6
25
●
46
58
65
根据表格已得经验回归方程为.若表格中有一数据模糊不清,则推算该数据是( )
A.35.5 B.36 C.36.5 D.37
【答案】B
【分析】应用回归直线过样本中心点代入求参即可.
【详解】因为,代入,
所以.
故选:B.
22.已知x,y的对应值如下表所示:若y与x线性相关,且求得的回归直线方程为,则( )
x
12
9
14
y
27
20
m
A.30 B.31 C.32 D.33
【答案】C
【分析】计算样本点中心,代入回归直线方程,即可求解.
【详解】由题意可知,,
将样本点中心代入回归直线方程得,得.
故选:C
23.数据 组成一个样本,其回归直线方程为,其中,剔除一个异常点后,得到新的回归直线必过点 .
【答案】
【分析】根据样本中心一定在回归直线上求解即可.
【详解】由可知,即,;
剔除后,,,
因为样本中心一定在回归直线上,故得到新的回归直线必过点,
故答案为:.
24.已知的取值如表所示,从散点图分析可知与线性相关,如果线性回归方程为,那么表格中数据的值为 .
0
1
2
4
4.3
4.8
6.7
【答案】
【分析】先求,根据线性回归方程必过样本中心点运算求解.
【详解】因为,
可知样本中心点在线性回归方程为上,
则,解得.
故答案为:.
25.某蔬菜种植基地最近五年的年投资成本(万元)和年利润(万元)的统计表如下:
10
11
12
13
14
11
12
19
若关于的线性回归方程为,则的平均数 .
【答案】/
【分析】因为线性回归方程过样本中心点,将代入即可.
【详解】因为线性回归方程过样本中心点,将代入得
故答案为:
26.为了研究某种菌在特定环境下随时变化的繁殖情况,得如下实验数据:
天数(天)
繁殖个数(个)
由以上信息,计算得回归直线方程为,则的值为 .
【答案】
【分析】首先求得样本中心点,然后利用回归方程过样本中心点求得实数的值即可.
【详解】由题意可得:,
回归方程过样本中心点,则:,即:,解得:,
所以的值为3.
故答案为:
27.某产品的宣传费用(单位:万元)与销售额(单位:万元)的统计数据如表所示:
4
5
6
7
8
60
80
90
100
120
根据上表可得回归方程,则宣传费用为9万元时,销售额为 万元.(填整数)
【答案】132
【分析】由表格数据求样本中心,根据回归直线过样本中心点求,将代入方程求销售额估计值即可.
【详解】由表格数据知:,,
∴由回归方程,有:,即,故,
∴当万元时,万元.
故答案为:132.
28.已知线性相关的两个变量和的取值如下表,且经验回归方程为,则 .
0
1
3
4
2.2
4.3
4.8
6.7
【答案】2.6
【分析】求出样本中心点,代入回归方程即可.
【详解】由已知可得,,
∴
∴.
故答案为:2.6.
29.已知变量,由它们的样本数据计算得到的观测值,的部分临界值表如下:
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
则最大有 的把握说变量有关系.(填百分数)
【答案】
【分析】因为的观测值,进而可得结果.
【详解】因为的观测值,所以在犯错误的概率不超过0.05的前提下认为变量有关系.所以最大有的把握说变量有关系.
故答案为:
【题型5:列联表分析】
30.考查棉花种子经过处理跟生病之间的关系得到如表数据:
项目
种子处理
种子未处理
总计
得病
32
101
133
不得病
192
213
405
总计
224
314
538
根据以上数据,则( )
A.种子是否经过处理决定是否生病
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理跟是否生病有关
D.以上都是错误的
【答案】C
【分析】根据表格提供的数据作出判断.
【详解】由列联表中的数据可知,
种子经过处理,得病的比例明显降低,
种子未经过处理,得病的比例要高些,
所以可得结论:种子是否经过处理跟是否生病有关.
故选:C
31.下表是一个列联表,则表中,的值分别为( )
总计
21
25
33
总计
100
A.46,54 B.54,46 C.52,54 D.50,52
【答案】B
【分析】根据列联表的数据特征求解.
【详解】由表格中的数据可得,,
所以,.
故选:B.
32.为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
【答案】C
【分析】根据列联表中的数据分析即可得答案.
【详解】解:由列联表中的数据可知,乙校共抽的样本人,其中优秀的有人.
故选:C
【题型6:独立性检验】
33.某校有高一学生1800人,高二学生1200人,学校采取按比例分配的分层抽样的方式从中抽取100人进行体育测试.测试后,统计得到高一样本的一分钟跳绳次数的均值为165,方差为61,高二样本的一分钟跳绳次数的均值为145,方差为31.
(1)计算总样本的一分钟跳绳次数的均值和方差;
(2)将一分钟跳绳次数视为及格,整理出以下列联表:
及格
不及格
合计
高一
52
8
60
高二
38
2
40
合计
90
10
100
试根据小概率值的独立性检验,分析一分钟跳绳次数及格情况是否与年级有关;(结果保留小数点后三位)
(3)如果将(2)表格中的所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断一分钟跳绳次数及格情况与年级之间的关联性,结果还一样吗?请你试着解释其中的原因.
附:,.
独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)均值157,方差145
(2)无关
(3)不一样,结论变为有关,理由见解析
【分析】(1)根据分层抽样计算均值和方差即可;
(2)根据卡方检验,即可判断;
(3)计算出新的卡方即可进行判断.
【详解】(1)高一人数占比,故样本量为,同理高二样本量为40,
所以总样本均值为,
总样本方差为.
(2)零假设为:一分钟跳绳次数及格情况与年级无关,
根据列联表,,
所以根据小概率值的独立性检验,推断成立,即一分钟跳绳次数及格情况与年级无关.
(3)将(2)表格中的所有数据都扩大为原来的10倍,
则,
所以根据小概率值的独立性检验,推断不成立,即一分钟跳绳次数及格情况与年级有关,
所以将(2)表格中的所有数据都扩大为原来的10倍,结果不一样,
因为样本量增大使得相对差异的绝对值增大,导致卡方统计量显著上升.
34.在2025年春节档电影中,由饺子导演的《哪吒之魔童闹海》电影在国内外受到一致好评,票房也一路飙升到国内第一,也是国内首部百亿票房,暂居全球票房第五.其中有不少观众对角色喜欢都有自己的见解.刘同学为了了解学生喜欢哪吒角色是否与性别有关,他对全班50人进行了问卷调查,得到如下列联表:
喜欢哪吒角色
不喜欢哪吒角色
总计
女生
10
男生
5
总计
50
已知从全班50人中随机抽取1人,抽到喜欢哪吒角色的学生的概率为0.6.
(1)请将上面的列联表补充完整,并且判断是否有的把握认为喜欢哪吒角色与性别有关;
(2)从喜欢哪吒角色的同学中,按分层抽样的分式,随机抽取6人做进一步的问卷调查,再从这6人中随机选出3人采访发言.设这3人中男生人数为,求的分布列及期望值.
附:,.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)列联表见解析,没有的把握认为喜欢哪吒角色与性别有关
(2)分布列见解析,.
【分析】(1)根据题意计算即可完善列联表,再根据卡方的计算即可求解;
(2)根据分层抽样计算出男女生人数,结合服从超几何分布计算概率写出分布列,最后计算数学期望.
【详解】(1)因为从全班50人中随机抽取1人,抽到喜欢哪吒角色的学生的概率为0.6,
所以喜欢哪吒角色的学生人数为,其中女生10人,则男生20人.
不喜欢哪吒角色的人数为,其中男生5人,则女生15人.
列联表补充如下,
喜欢哪吒角色
不喜欢哪吒角色
总计
女生
10
15
25
男生
20
5
25
总计
30
20
50
根据列联表中的数据,计算可得
,故没有的把握认为喜欢哪吒角色与性别有关.
(2)由题意,按分层抽样抽取的6人中,男生人数为,女生人数为.
表示从这6人中随机选出3人中男生的人数,所以的所有可能取值为.
则,
,
.
所以的分布列为
1
2
3
数学期望.
35.已知某高中高一年级共有1200名学生,高二年级共有1100名学生,高三年级共有1000名学生.
(1)对高一、高二、高三年级按比例用分层随机抽样的方法,从全校抽取99名学生参加活动,则高一、高二、高三年级分别抽取多少名学生?
(2)从全校抽取容量为500的有放回简单随机样本,得到如下数学成绩与学生性别的不完整列联表,请补全列联表.
单位:人
性别
数学成绩
合计
不优秀
优秀
男
260
300
女
30
合计
500
(3)依据小概率值的独立性检验,分析(2)中的抽样数据,能否据此推断数学成绩与学生性别有关联?
附:,.
a
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)高一、高二、高三年级分别抽取学生36名、33名、30名.
(2)列联表见解析
(3)认为数学成绩与学生性别无关.
【分析】(1)由分层抽样的定义计算可得;
(2)根据所给数据填写;
(3)由公式计算可得.
【详解】(1),,
,
故高一、高二、高三年级分别抽取学生36名、33名、30名.
(2)
单位:人
性别
数学成绩
合计
不优秀
优秀
男
260
40
300
女
170
30
200
合计
430
70
500
(3)零假设为:数学成绩与学生性别无关.
.
故依据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为数学成绩与学生性别无关.
36.2025年由教育部及各省教育厅组织的九省联考,全程模拟高考及考后的志愿填报等.某高中分别随机调研了50名男同学和50名女同学对计算机专业感兴趣的情况,其中男同学感兴趣有40名,女同学不感兴趣有20名.
(1)根据小概率值的独立性检验,能否认为该校学生是否对计算机专业感兴趣与性别有关;
(2)将样本的频率作为概率,现从全校的学生中随机抽取30名学生,求其中对计算机专业感兴趣的学生人数的期望和方差.
0.05
0.01
0.005
3.841
6.635
7.879
附:,其中.
【答案】(1)不能
(2)期望,方差
【分析】(1)根据条件,直接得出列联表,再根据公式计算出,即可得出结果;
(2)根据条件得出,再根据二项分布的期望和方差的计算公式,即可求出结果.
【详解】(1)完善列联表如下:
对计算机专业感兴趣
对计算机专业不感兴趣
合计
男同学
40
10
50
女同学
30
20
50
合计
70
30
100
则,
故根据小概率值的独立性检验,不能认为该校学生是否对计算机专业感兴趣与性别有关.
(2)由(1)知,对计算机专业感兴趣的样本频率为,
设抽取的30名学生中对计算机专业感兴趣的学生的人数为X,所以随机变量,
故,.
37.某工厂生产了两批次的某种产品,现从两批次的产品中共抽取500件进行检测,根据检测结果(“次品”或“合格品”)得到如下列联表:
生产批次
产品检测结果
合计
次品
合格品
第一批次
10
190
200
第二批次
40
260
300
合计
50
450
500
(1)根据小概率值的独立性检验,能否认为产品检测结果与生产批次有关联?
(2)用样本估计总体,频率估计概率.现等可能地从两批次中选一批次,再从该批次中随机抽取1件产品.
(ⅰ)求取出的产品是次品的概率;
(ⅱ)已知取出的产品是次品,求它是从第一批次的产品中取出的概率.
参考公式:,其中.
参考数据:
0.15
0.10
0.05
0.010
2.072
2.706
3.841
6.635
【答案】(1)有关联
(2)(ⅰ);(ⅱ)
【分析】(1)计算出卡方,即可判断;
(2)(ⅰ)设事件“取出的产品是次品”,事件“被选出的是第一批次”,由全概率公式计算可得;(ⅱ)由条件概率公式计算可得.
【详解】(1)提出零假设:产品检测结果与生产批次没有关联,
由,
根据小概率值的独立性检验,推断不成立,
即产品检测结果与生产批次有关联,此推断犯错误的概率不大于;
(2)设事件“取出的产品是次品”,事件“被选出的是第一批次”,
(ⅰ)依题意,,
,
由全概率公式得:;
(ⅱ)取出的是次品,则它是从第一批次的产品中取出的概率为:
.
38.为了研究DeepSeek(AI学习助手)对学生数学成绩的影响,将20名学生均分为两组,分别为使用组(使用DeepSeek)和非使用组.一段时间后,测得20名学生的数学成绩变化如下(单位:分):
使用组
1
1
2
2
3
3
3
4
非使用组
0
0
1
1
2
3
(1)从使用组中随机抽取两名学生,设其中成绩进步的人数为,求的分布列和数学期望;
(2)求20名学生数学成绩变化的中位数,并分别统计两组中低于与不低于的人数,完成如下列联表:
低于
不低于
总计
使用组
非使用组
总计
(3)根据(2)中的列联表,能否有的把握认为使用DeepSeek与数学成绩变化有显著关联?
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)分布列见解析,数学期望为
(2),列联表见解析
(3)有
【分析】(1)利用组合数公式计算离散型随机变量取不同值的概率,进而得到分布列,再根据期望公式计算期望;
(2)根据中位数的定义确定的值并列出列联表;
(3)依据独立性检验的公式计算值,并与临界值比较,判断是否有把握认为两个变量有关联.
【详解】(1)由题意知:的可能取值为,
,
的分布列为:
0
1
2
(2)由题意知:20名学生成绩变化的中位数为
列联表如下:
低于
不低于
总计
使用组
2
8
10
非使用组
6
4
10
总计
8
12
20
(3)零假设:认为使用DeepSeek与数学成绩变化无关,
,则不成立,
有的把握认为使用DeepSeek与数学成绩变化有显著关联.
39.为考察某种药物预防和治疗流感的效果,某药物研究所用100只小白鼠进行了分组试验,该分组试验分两个阶段:第一阶段为5天的观察预防期,第二阶段为10天的观察治疗期.第一阶段结束时,统计数据如下:患病小白鼠的比例为,未服药小白鼠的比例为,未服药且未患病的小白鼠有20只.
(1)完成下面列联表,并依据小概率值的独立性检验,推断该药物对预防流感是否有效.
药物
流感
合计
未患病
患病
未服用
服用
合计
(2)第一阶段结束时,若在患病的小白鼠中随机抽取2只,用表示服药的只数,求的分布列和数学期望.
(3)第二阶段结束时,针对第一阶段结束时的服药且患病的小白鼠中有16%被治愈,未服药患病的小白鼠中有5%自愈,服药未患病的小白鼠中有20%患病,未服药未患病的小白鼠中有15%患病.用频率估计概率,试验结束后,从这100只小白鼠中任选1只,检测是否患病后放回,若该操作进行5次,求选出的5只小白鼠中至少有2只患病的概率.
附:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)列联表见解析,没有充分证据表明该药物对预防流感有效
(2)分布列见解析,数学期望为
(3)
【分析】(1)根据数据完善列联表,提出零假设,由公式计算的值,比较其与临界值的大小即可判断;
(2)由题意可得X的所有可能取值,根据超几何分布的概率计算方法求解概率,进而得出分布列,再结合期望公式即可求解;
(3)先确定第二阶段结束时患病的小白鼠的数量,即可确定任取1只患病小白鼠的概率,然后结合对立事件概率公式,利用二项分布列的概率公式计算求解即可.
【详解】(1)因为患病小白鼠的比例为,所以患病小白鼠有只,
则不患病的小白鼠有只,又未服药小白鼠的比例为,
所以未服药小白鼠有,从而完善列联表,如下表:
药物
流感
合计
未患病
患病
未服用
20
20
40
服用
35
25
60
合计
55
45
100
零假设为:该药物对预防流感无关联.
因为,显然,
根据小概率值的独立性检验,推断成立,
没有充分证据表明该药物对预防流感有效.
(2)由题意X的所有可能取值为,
则,,
,
所以的分布列为:
0
1
2
所以的数学期望为.
(3)第二阶段结束后,服药且患病的小白鼠中有16%被治愈,
那么服药且患病后仍患病的小白鼠的数量为,
未服药患病的小白鼠中有5%自愈,
那么未服药患病后仍患病的小白鼠的数量为,
服药未患病的小白鼠中有20%患病,那么服药未患病后患病的小白鼠的数量为,
未服药未患病的小白鼠中有15%患病,那么未服药未患病后患病的小白鼠的数量为,
所以第二阶段结束后患病的小白鼠的总数量为,
所以从这100只小白鼠中任选1只,患病的概率为,
设表示选出的5只小白鼠中患病的只数,则,
“至少有2只患病”的对立事件为“0只患病”或“1只患病”,
所以 .
40.中国春节档电影《哪吒之魔童闹海》票房突破百亿,是中国第一部冲入全球影史票房前5的作品.同学小华在某影院用简单随机抽样的方法调查了200位观影人观看该电影的次数,并对他们的观影次数作出统计,具体如下:
年龄(岁)
少年组(18及以下)
青年组(19-35)
中年组(36-60)
老年组(61及以上)
调查人数
70
80
30
20
少年组、青年组、中年组、老年组分别有,,,的人看了2次该电影,其余的人都只看了1次.
(1)求这200位观众观看该电影的平均次数;
(2)小华记少年组与青年组为“组”,记中年组和老年组为“组”.请完成以下列联表,依据小概率值的独立性检验,能否认为观影次数与年龄层次有关联?
观影次数
年龄层次
合计
组
组
1次
2次
合计
附表:
0.1
0.05
0.01
2.706
3.841
6.635
参考公式:,.
【答案】(1)
(2)列联表见解析;认为观影次数与年龄层次有关联,此推断犯错误的概率不大于0.05.
【分析】(1)先分别算出观看不同次数电影的人数,再根据公式计算平均次数.
(2)零假设是认为两个变量无关联,通过计算卡方统计量,并与给定的小概率值对应的临界值比较,来判断是否拒绝零假设.
【详解】(1)70人的群体中观看2次电影的人数为人;
80人的群体中观看2次电影的人数为人;
30人的群体中观看2次电影的人数为人;
20人的群体中观看2次电影的人数为人.
将这些人数相加,可得观看2次该电影总人数为人.
已知观看1次电影的总人数为200-72=128人,观看2次电影的总人数为72人,总人数为200人.
这200位观众观看该电影的平均次数为.
(2)零假设:观影次数与年龄层次无关联.
从题目中可知,A组观看1次电影的有90人,B组观看1次电影的有38人,所以观看1次电影的合计128人;
A组观看2次电影的有60人,B组观看2次电影的有12人,所以观看2次电影的合计72人;
A组合计150人,B组合计50人,总人数200人.
整理数据得到列联表:
观影次数
年龄层次
合计
A组
B组
1次
90
38
128
2次
60
12
72
合计
150
50
200
计算卡方统计量:代入可得.
根据小概率值的独立性检验,我们推断不成立,即认为观影次数与年龄层次有关联,此推断犯错误的概率不大于0.05.
41.AI的快速发展在某些方面引发了人们对自己所在行业前景的焦虑,某心理辅导机构为了了解人们对于未来行业前景的焦虑是否与性别有关,对某社区居民进行了一次抽样调查,分别抽取男性和女性各50人作为样本,得到如下数据.
焦虑
不焦虑
合计
男性
10
女性
20
合计
(1)根据已知条件,填写上面列联表,并根据小概率值为的独立性检验,能否认为该社区居民对行业前景的焦虑与性别有关?
(2)现从该样本焦虑的居民中,采用分层随机抽样的方法随机抽取6人进行问卷调查,再从这6人中随机抽取3人进行心理辅导,设抽取的3人中男性的人数为,求的分布列和数学期望.
附:为样本容量.
【答案】(1)列联表见解析,与性别有关
(2)分布列见解析,2
【分析】(1)根据表中数据即可完成表格,提出零假设并计算得出的取值,得出结论;
(2)根据随机变量的所有可能取值,利用超几何分布求出对应概率可得分布列,计算可得期望值.
【详解】(1)填写列联表为:
焦虑
不焦虑
合计
男性
40
10
50
女性
20
30
50
合计
60
40
100
零假设:焦虑与否与性别无关.
根据列联表中的数据得,
故依据的独立性检验,可以推断不成立,
即认为该社区居民对行业前景的焦虑与性别有关.
(2)由(1)知,采用分层随机抽样的方法随机抽取6人,
其中男性人数为(人);女性人数为(人)
由题意可得,随机变量的所有可能取值为1,2,3.
,
随机变量的分布列如下:
1
2
3
则.
原创精品资源学科网独家享有版权,侵权必究!6
1
学科网(北京)股份有限公司
$$