内容正文:
专题05 线性回归及独立性检验
考点01判断正负相关
考点02相关系数的计算
考点03一元线性回归求算
考点04计算样本中心点
考点05残差的求算
考点06非线性回归考察
考点07联列表分析
考点08 独立性检验卡方计算
考点09 独立性检验的实际应用
考点10 成对数据的统计相关性综合考察
考点01判断正负相关
1.已知变量与变量正相关,样本数据中,,…,和,,…,的均值分别是,,将成对数据按照平移后绘制散点图,关于该散点图说法正确的是( )
A.大部分散点位于第一、四象限 B.大部分散点位于第二、三象限
C.大部分散点位于第一、三象限 D.大部分散点位于第二、四象限
2.(多选)年我国粮食产量(单位:万吨)如图所示,下列结论正确的是( )
A.年我国粮食产量逐年增加
B.年我国粮食产量的中位数为万吨
C.年我国粮食产量的极差为万吨
D.年我国粮食产量与年份负相关
3.(多选)下列结论正确的是( )
A.一组数据7,8,8,9,11,13,15,18,20,22的第80百分位数为18
B.若随机变量,满足,则
C.若随机变量,且,则
D.若回归方程为,则变量y与x成负相关
4.(多选)(多选)以下两个变量呈负相关的是( )
A.学生的学籍号与学生的数学成绩
B.坚持每天吃早餐的人数与患胃病的人数
C.气温与冷饮销售量
D.变量和变量对应的成对数据关于均值平移后的散点大多数分布在第二象限、第四象限,则变量和变量是负相关
5.在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是( )
A.图(2)(3)(4)中的y和x之间存在相关关系
B.图(2)(4)中的y和x之间呈现正相关关系
C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强
D.图(4)中的y和x之间呈现非线性相关关系
考点02相关系数的计算
6.网购是现代年轻人重要的购物方式,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与年份代码进行了统计,得如下数据:
x
1
2
3
4
5
y
2.5
3.3
4.5
6.2
8.5
则x与y的样本相关系数( )
参考公式:,参考数据:,.
A.0.99 B.0.98 C.0.97 D.0.96
7.粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码i,表示年份代码为i的产量,经计算得,,.
(1)求样本的相关系数r;(精确到0.01)
(2)现从这5年中随机抽取3年,记这3年中小麦产量大于13.6千万吨的年数为X,求X的分布列与数学期望.
附:相关系数,.
8.某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
9.具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
10.近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
考点03一元线性回归求算
11.“一人公司”是指个人借助工具,独立完成产品设计研发到市场投放的全链路商业闭环,某数字文化创意制作有限公司是“一人公司”,连续5个月的科技投入(万元)与利润额(万元)的数据如下:
第月
1
2
3
4
5
投入
2
2
4
5
7
利润额
3
7
10
15
20
(1)从这5个月的利润额中随机抽取3个数值,记大于9万元的数值个数为,求的分布列及均值:
(2)已知与线性相关,求关于的经验回归方程,并预测投入为10万元时的利润额.附:经验回归直线中斜率和截距的最小二乘估计公式分别为,.
12.某农业科研团队为探究大棚蔬菜的光照时长对产量的影响,选取5组不同的光照时长方案,在相同种植条件下开展试验,统计对应时长下的蔬菜合格采收量,得到如下数据:
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
(1)求变量与的样本相关系数,判断是否适合线性回归模型拟合,如果适合,求关于的经验回归方程;
(2)当样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,现从这5组数据中任取3组做残差分析,求取到异常拟合数据的组数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
13.某班数学兴趣小组为研究本班同学的锻炼频次与身体素质指标的关系,统计得到5名同学每周锻炼频次与身体素质指标的数据如下:
锻炼频次()
2
4
5
6
8
身体素质指标()
30
40
50
60
70
(1)若,之间具有线性相关关系,试建立,之间的经验回归方程,并预测每周锻炼频次为9次的同学的身体素质指标;
(2)依据表中数据,在这5名同学中任取三人,记身体素质指标大于等于50的人数为,求随机变量的分布列和数学期望.
附:①参考数据:,;
②经验回归方程的斜率和截距最小二乘估计公式分别为,.
14.已知变量与变量的观测数据为,,…,,满足经验回归方程.若,则( )
A.9 B.10.5 C.133 D.139
15.(多选)有一组成对样本数据,先计算相关系数为,再根据最小二乘法计算回归直线方程为,最后计算出残差.下列说法正确的是( )
A.回归直线经过点.
B.由这组数据得到新成对样本数据,再根据最小二乘法计算回归直线方程,则两条回归直线的斜率相同.
C.相关系数越大,两个变量之间的线性相关性越强.
D.残差和越小,回归直线方程为拟合效果越好.
考点04计算样本中心点
16.“千年一面,中江挂面”,近年来,中江挂面村火遍全网.这不仅为中江带来了大量游客,还使中江手工挂面供不应求,销售额大幅提升.已知某手工挂面加工企业2024年10月—2025年2月销售额对应如下表.且用最小二乘法得到销售额关于月份序号的回归直线方程为,则2025年1月销售额( )
时间
2024年10月
2024年11月
2024年12月
2025年1月
2025年2月
月份序号
1
2
3
4
5
销售额(万元)
13.5
15.0
17.0
20.5
A.19.0(万元) B.18.8(万元) C.18.6(万元) D.18.4(万元)
17.(多选)已知某软件公司开发了一款新型智能解题软件,现将该软件上市后的月份以及当月获得的利润(单位:万元)统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
6
7
9
A.
B.可以估计每增加1个月份,月利润平均提高万元
C.可以估计上市后的第7个月的利润为万元
D.上市后的第4个月的利润的残差为万元
18.根据如下样本数据:
得到的回归方程为,则( )
A., B., C., D.,
19.下列命题中不正确的是( )
A.线性回归方程对应的直线一定经过样本点的中心
B.线性回归方程对应的直线至少经过其样本数据点中的一个点
C.线性回归方程为时,变量与具有负的线性相关关系
D.用最小二乘法求回归方程是为了使最小
20.若一组点通过最小二乘估计得到的回归直线方程为,且,则______.
考点05残差的求算
21.(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
22.(多选)变量与变量有较强的线性相关性,由下列表格得到经验回归方程是,则( )
1
2
3
4
5
2
4
5
6
8
A. B.变量与变量负相关
C.当时,预测值 D.当时,样本点对应的残差是
23.(多选)市物价部门对五家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价(元)和销售量(件)之间的数据如表所示:
9
9.5
10
10.5
11
120
100
70
60
50
用最小二乘法求得经验回归方程为,相关系数,则( )
A.
B.变量,相关性较强
C.相对于点的残差为1
D.当时,的估计值为152
24.5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
25.已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
考点06非线性回归考察
26.现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程.
附:回归方程系数:,.
参考数据:设,,,,,,.
27.(多选)下列说法正确的是( )
A.若,,,则
B.随机变量X的方差,期望,则
C.360的正因数有24个
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得经验回归方程为,则c,k的值分别是和4
28.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
29.(多选)下列命题正确的是( )
A.随机变量,当最大,则的取值为3
B.以模型去拟合一组数据时,为求出回归方程,设,将其变换后得到线性方程,则,的值分别是,0.3
C.已知关于的回归方程为,则样本数据点的残差为2.2
D.若,,则事件,相互独立
30.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
考点07联列表分析
31.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.
(1)根据以上数据,作出考前心情与性格的列联表,并求性格外向的学生中考前心情紧张的概率.
(2)作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
32.(多选)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高堆积条形图.
根据图中的信息,下列结论中一定正确的是( ).
A.样本中男性比女性更关注地铁1号线全线开通
B.样本中多数女性是35岁及以上
C.样本中35岁以下的男性人数比35岁及以上的女性人数多
D.样本中35岁及以上的人对地铁1号线的开通关注度更高
33.为增强学生体质,充分展示当代青少年积极健康向上的精神风貌,某学校在校内新开设羽毛球课和健美操课,且每名同学只选一课.为了研究选课是否与性别有关系,现随机抽取了高一年级200名学生选课情况(其中男生120人,女生80人).
(1)完成下面的列联表,判断是否有的把握认为选课与性别有关,并说明理由.
羽毛球课
健美操课
合计
男
女
48
合计
112
(2)从上述120名男生中按选羽毛球课和选健美操课进行分层抽样,抽取6人,求从这6人中任取2人,至少有1人选择了羽毛球课的概率.
附:
0.15
0.10
0.05
0.010
0.005
0.001
2.072
2.706
3.841
6.635
7.879
10.828
(参考公式:,其中
34.随着电商事业的发展和工作生活节奏的加快,人们的生活方式和生活理念正在发生巨大的改变.通过外卖App下单订餐叫外卖,正受到越来越多的市民尤其是青年上班族的喜爱.为了解市民是否经常利用外卖平台点餐,调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,其中经常用外卖平台点餐的人数是基本不用外卖平台点餐的人数的倍;岁以上经常用外卖平台点餐的人数和基本不用外卖平台点餐的人数相等;岁及以下有人基本不用外卖平台点餐.
(1)请完善下面列联表(单位:人),并依据的独立性检验,分析经常利用外卖平台点餐是否与年龄有关?
经常用外卖平台点餐
基本不用外卖平台点餐
总计
岁及以下
岁以上
总计
(2)利用分层抽样方法在经常用外卖平台点餐的市民中随机抽取人,再从以上人中随机抽取人.记被抽取的人中“岁以上”的人数为,求随机变量的分布列和均值.
附:,其中.
临界值表:
35.(多选)为预防近视,某校对“学生性别和喜欢躺着看书”是否有关做了一次调查,其中被调查的男女生人数相同,男生喜欢躺着看书的人数占男生人数的,女生喜欢躺着看书的人数占女生人数的,若有的把握认为是否喜欢躺着看书和性别有关,则调查人数中男生人数可能是( )
参考公式及数据:,其中.
附:
A.8 B.10 C.12 D.14
考点08 独立性检验卡方计算
36.近期,高中周末双休引起热议,为调查在校高中学生对国家双休政策的支持情况,某中学数学社团在校园内对学生展开随机调查,得到下表.(数据单位:人)
支持
不支持
成绩优秀
60
30
成绩不优秀
90
30
(1)根据该数学社团的调查结果判断,有无90%把握认为支持双休政策与学生成绩是否优秀有关?
0.1
0.05
0.01
2.706
3.841
6.635
附:.
(2)若该数学社团的调查结果可靠,某文学社团按相同方式在该校园内另随机调查了14位同学.其中成绩优秀且支持双休的人数为,请参考数学社团的调查数据,估算和;
(3)该校准备从数学社团调查的210名同学中用“按比例分层抽样”的方法抽取7位同学座谈、并准备在参与座谈的同学中选取5人组成新的调查小组.假设新的调查小组中支持双休但成绩不优秀的人数为,求的分布列.
37.为了解居民体育锻炼情况,某地区对辖区内居民体育锻炼进行抽样调查.统计其中200名居民体育锻炼的次数与年龄,得到如下的频数分布表.
年龄次数
每周0∼2次
33
22
22
23
每周3∼4次
12
17
25
22
每周5次及以上
3
3
12
6
(1)若把年龄在的锻炼者称为青年,年龄在的锻炼者称为中年,每周体育锻炼不超过2次的称为体育锻炼频率低,
不低于3次的称为体育锻炼频率高,根据小概率值的独立性检验判断体育锻炼频率的高低与年龄是否有关联;
(2)从每周体育锻炼5次及以上的锻炼者中,按照表中年龄段采用按比例分配的分层随机抽样,抽取8人,
再从这8人中随机抽取3人,记这3人中年龄在与的人数分别为,求ξ的分布列与期望;
参考公式:
附:
α
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
38.某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
39.某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
40.为研究大学生使用AI学习工具的情况与自主思考能力是否有关联,随机调查某校100名大学生,数据如下:
单位:人
使用AI学习工具的情况
自主思考能力
合计
强
一般
经常使用
22
28
50
不经常使用
34
16
50
合计
56
44
100
(1)依据小概率值的独立性检验,分析大学生使用AI学习工具的情况是否与自主思考能力有关.
(2)小余之前从未使用过AI学习工具,他计划开始尝试使用AI学习工具进行学习,他在第天使用AI学习工具的概率为,设每天是否使用AI学习工具进行学习相互独立.设小余前3天中使用AI学习工具进行学习的天数为,求的分布列.
参考公式:.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.841
10.828
考点09 独立性检验的实际应用
41.某研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计,根据统计数据制作列联表,提出原假设:“经常用流行用语”与“年轻人”没有关系,计算得,由此可知( ).(显著性水平取0.05,)
A.接受原假设,没有的把握认为“经常用流行用语”与“年轻人”有关系
B.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
C.接受原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
D.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”没有关系
42.为了比较甲,乙两所学校学生的数学水平,采用简单随机抽样的方法抽取了100名学生,通过测验得到了如下数据:甲校50名学生中有10名数学成绩优秀,乙校50名学生中有15名数学成绩优秀.
(1)请将列联表补充完整;
学校
数学成绩
合计
优秀
不优秀
甲校
10
乙校
15
合计
100
(2)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异.
(3)用甲校数学成绩样本的优秀率作为甲校数学成绩总体的优秀率,估计甲校的3名学生中恰好有两名学生数学成绩优秀的概率.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
43.为推动农村可持续生态农业的发展,广东某农场用五年的时间按照有机标准新改良了100亩土地,预计在改良后的土地上种植有机水果和其他作物,并根据市场需求确定有机水果的种植面积.农场经营采用的是CSA农业经营模式即社区支持农业,农场从CSA会员中随机抽取了南方、北方会员共200人,调查数据如下.
喜欢有机水果
不喜欢有机水果
南方会员
80
40
北方会员
40
40
(1)视频率为概率,分别估计南方、北方会员中喜欢有机水果的概率;
(2)(ⅰ)判断是否有的把握认为是否喜欢有机水果与会员的区域有关?
(ⅱ)已知农场CSA会员有2000人,其中南方会员有1200人,若喜欢有机水果的人不低于1100人,则可种植50亩左右的有机水果,否则只能种植30亩左右,试问该农场应怎样安排有机水果的种植面积.
附:,.
0.05
0.025
0.005
3.841
5.024
7.879
44.科技进步催生了大批智慧养老科技产品.在某养老服务中心,室内、、物联网等智能设备,精准对接老年人多样化健康养老需求.该中心配备有多台摄像机,通过智能分析,辅助发现老人异常行为状态,产生预警信息并实时推送至护理站,及时对老人进行救助.为防止老人摔倒,在房间内还铺设有智能地板,一旦出现特殊情况,地板就会立即报警.在该中心所在地区随机抽取200名70岁以上的老人进行问卷调查,得到如下列联表:
智能设备
摔倒
合计
发生
未发生
使用
8
m
100
未使用
n
68
合计
200
(1)求m,n的值,并依据小概率值的独立性检验,分析使用智能设备是否能有效预防摔倒的发生?
(2)在参与问卷调查发生摔倒的老人中,按是否使用智能设备进行分层,采用样本量比例分配的分层随机抽样方法,从样本中抽取5人作进一步调查,再从这5人中随机抽取2人进行面谈,记这2人中未使用智能设备的人数为X,求X的数学期望及方差.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
45.某校共有名高一学生,其中男生人.为了解该校高一学生的数学学习水平,采取按性别分层、比例分配的分层随机抽样方法,随机抽取了名学生进行调查,分数分布在分之间.将分数不低于分的学生称为“优等生”.根据调查的结果绘制的学生分数频率分布直方图如图.
(1)求实数的值,并估计该样本中“优等生”的人数;
(2)若样本中属于“优等生”的男生有人,完成下列列联表;根据小概率值的独立性检验,能否认为这次成绩是否优秀(分数不低于分)与性别有关?
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
附:.
考点10 成对数据的统计相关性综合考察
46.某公司为了了解某商品的月销售量(单位:万件)与月销售单价(单位:元)之间的关系,随机统计了5个月的销售量与销售单价,并制作了对照表:
月销售单价元
10
20
25
30
35
月销售量万件
16
13
10
6
5
由表中数据可得回归方程中,则______.
47.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号
1
2
3
4
5
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
现已知其线性回归方程为,则________,根据此线性回归方程估计数学得90分的同学的物理成绩为________.(四舍五入到整数)
48.已知变量和变量的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,经重新计算得到新回归直线的斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为__________.(残差观测值预测值)
49.某工厂为判断两种不同的操作方法是否对生产某种零件的合格个数有影响,收集了相关数据,绘制了列联表,设原假设:两种不同的操作方法对生产该种零件的合格个数没有影响,计算出统计量,已知,则在显著性水平下,推断的结论为________.(用“拒绝”或“接受”填空)
50.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有______人.
参考数据及公式:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
1 / 37
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题05 线性回归及独立性检验
考点01判断正负相关
考点02相关系数的计算
考点03一元线性回归求算
考点04计算样本中心点
考点05残差的求算
考点06非线性回归考察
考点07联列表分析
考点08 独立性检验卡方计算
考点09 独立性检验的实际应用
考点10 成对数据的统计相关性综合考察
考点01判断正负相关
1.已知变量与变量正相关,样本数据中,,…,和,,…,的均值分别是,,将成对数据按照平移后绘制散点图,关于该散点图说法正确的是( )
A.大部分散点位于第一、四象限 B.大部分散点位于第二、三象限
C.大部分散点位于第一、三象限 D.大部分散点位于第二、四象限
【答案】C
【详解】因为变量与变量正相关,
所以,
设,
所以,
所以变量与变量正相关,因此大部分散点位于第一、三象限.
2.(多选)年我国粮食产量(单位:万吨)如图所示,下列结论正确的是( )
A.年我国粮食产量逐年增加
B.年我国粮食产量的中位数为万吨
C.年我国粮食产量的极差为万吨
D.年我国粮食产量与年份负相关
【答案】AB
【分析】利用条形图结合中位数、极差以及相关性逐项判断即可.
【详解】对于A选项,年我国粮食产量逐年增加,A正确.
对于B选项,年我国粮食产量的中位数为万吨,B正确.
对于C选项,年我国粮食产量的极差为万吨,C错误.
对于D选项,年我国粮食产量与年份正相关,D错误.
3.(多选)下列结论正确的是( )
A.一组数据7,8,8,9,11,13,15,18,20,22的第80百分位数为18
B.若随机变量,满足,则
C.若随机变量,且,则
D.若回归方程为,则变量y与x成负相关
【答案】CD
【详解】对于A,由,所以第80百分位数为,错误;
对于B,已知随机变量,满足,由方差的性质可得,错误;
对于C,由正态分布的图象的对称性可得,正确;
对于D,由于,所以变量y与x成负相关,正确.
4.(多选)(多选)以下两个变量呈负相关的是( )
A.学生的学籍号与学生的数学成绩
B.坚持每天吃早餐的人数与患胃病的人数
C.气温与冷饮销售量
D.变量和变量对应的成对数据关于均值平移后的散点大多数分布在第二象限、第四象限,则变量和变量是负相关
【答案】BD
【分析】A选项,无相关关系;B选项,具有负相关关系;C选项,具有正相关关系;D选项,由题意得到与具有负相关关系,不妨设,,得到,,所以变量和变量具有负相关关系,D正确.
【详解】A选项中学生的学籍号与学生的数学成绩,两个变量无相关关系;
B选项中坚持每天吃早餐的人数与患胃病的人数,两个变量具有负相关关系;
C选项中气温与冷饮销售量,两个变量具有正相关关系;
D选项中成对数据,以为零点平移,
即均值平移后的散点坐标为,
由于大多数分布在第二象限,第四象限,
故与具有负相关关系,不妨设,,
则,,
则变量和变量具有负相关关系,D正确.
综上可知,两个变量呈负相关的是B,D.
故选:BD
5.在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是( )
A.图(2)(3)(4)中的y和x之间存在相关关系
B.图(2)(4)中的y和x之间呈现正相关关系
C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强
D.图(4)中的y和x之间呈现非线性相关关系
【答案】C
【分析】根据散点图中点集的分布变化趋势判断正负相关性、是否为线性关系,但从点的分布密度无法判断(2)(3)的相关性强弱,即可得答案.
【详解】由题图,(1)中点没有明显的变化趋势,
(2)中点有从左下向右上的线性变化趋势,y和x之间呈现正相关且为线性关系,
(3)中点有从左上向右下的线性变化趋势,y和x之间呈现负相关且为线性关系,
(4)中点有从左下向右上的非线性变化趋势,y和x之间呈现正相关且为非线性关系,
但(2)(3)相关性强弱不能从图中点的分布密度直接分析得出,故(2)的相关性不一定比(3)强,
综上,A、B、D对,C错.
故选:C
考点02相关系数的计算
6.网购是现代年轻人重要的购物方式,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与年份代码进行了统计,得如下数据:
x
1
2
3
4
5
y
2.5
3.3
4.5
6.2
8.5
则x与y的样本相关系数( )
参考公式:,参考数据:,.
A.0.99 B.0.98 C.0.97 D.0.96
【答案】B
【分析】代入相关系数公式求解即可.
【详解】由题意,得,,, ,所以.
7.粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码i,表示年份代码为i的产量,经计算得,,.
(1)求样本的相关系数r;(精确到0.01)
(2)现从这5年中随机抽取3年,记这3年中小麦产量大于13.6千万吨的年数为X,求X的分布列与数学期望.
附:相关系数,.
【答案】(1)0.92
(2)随机变量的分布列为
X
1
2
3
P
【分析】(1)根据统计表格中的数据,求得,,结合参考数据和相关系数的公式,即可求解;
(2)根据题意,得到随机变量的取值为,利用超几何分布的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)解:根据统计表格中的数据,可得,,
以及,,.
可得样本相关系数.
(2)解:根据题意,可得随机变量的取值为,
则,,,
所以随机变量的分布列为
X
1
2
3
P
所以期望为.
8.某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
【答案】(1);变量x与y之间具有很强的线性相关关系
(2)分布列见解析;期望:1.8
【分析】(1)使用相关系数计算公式求相关系数,根据求解结果判断线性相关关系的强弱;
(2)结合超几何分布的概率公式求分布列,再由期望公式求期望.
【详解】(1),,
,
,
,
样本相关系数:
,
因为非常接近1,所以变量x与y之间具有很强的线性相关关系.
(2)5天中取件人数小于100的天数有3天,
从这5天中随机选取3天,的可能取值为1,2,3.
,
,
,
所以的分布列为:
1
2
3
的数学期望
9.具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
【答案】C
【分析】先求得样本中心点,再结合相关系数公式判断即可.
【详解】由题知,,
所以数据的样本中心点为
所以去掉其中样本数据,样本相关系数r不会发生改变.
10.近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
【答案】(1),很强的线性正相关关系
(2)
X
80
150
210
P
【详解】(1)由题意,,,
则,
由,
同理,
则,
则,
由接近1且为正,故变量x与y之间有很强的线性正相关关系.
(2)由题意,X的可能取值为80、150、210,
则,,
,
故X的分布列为:
X
80
150
210
P
则.
考点03一元线性回归求算
11.“一人公司”是指个人借助工具,独立完成产品设计研发到市场投放的全链路商业闭环,某数字文化创意制作有限公司是“一人公司”,连续5个月的科技投入(万元)与利润额(万元)的数据如下:
第月
1
2
3
4
5
投入
2
2
4
5
7
利润额
3
7
10
15
20
(1)从这5个月的利润额中随机抽取3个数值,记大于9万元的数值个数为,求的分布列及均值:
(2)已知与线性相关,求关于的经验回归方程,并预测投入为10万元时的利润额.附:经验回归直线中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)X的分布列为:
1
2
3
均值(或1.8)
(2)经验回归方程为,投入10万元时预测利润额为万元(或约29.33万元)
【分析】(1)分析出服从参数为的超几何分布,即可得出分布列及均值;
(2)根据公式即可得出经验回归方程,再计算当时,的值即可求解.
【详解】(1)由题可知,5个利润额中大于9万元的共3个,不大于9万元的共2个,抽取3个数值时,的可能取值为1,2,3,服从参数为的超几何分布:
,
,
,
因此X的分布列为:
1
2
3
均值为:.
(2)首先计算样本均值:,
计算最小二乘估计所需的分子、分母:
,
,
所以,
因此经验回归方程为,
当时,,即投入10万元时预测利润额为万元.
12.某农业科研团队为探究大棚蔬菜的光照时长对产量的影响,选取5组不同的光照时长方案,在相同种植条件下开展试验,统计对应时长下的蔬菜合格采收量,得到如下数据:
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
(1)求变量与的样本相关系数,判断是否适合线性回归模型拟合,如果适合,求关于的经验回归方程;
(2)当样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,现从这5组数据中任取3组做残差分析,求取到异常拟合数据的组数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
【答案】(1)适合,
(2)
0
1
2
【分析】(1)根据公式先求得,可得与的线性相关性很强,适合线性回归模型拟合,进而结合公式求解即可;
(2)计算可得异常拟合数据有2组,非异常拟合数据有3组,进而可得的所有可能取值为0,1,2,分别求出每一个对应的概率,再根据数学期望的公式求解即可.
【详解】(1)由已知,得,
,
所以,
所以.
因为,说明与的线性相关性很强,所以适合线性回归模型拟合.
因为,
,
所以关于的经验回归方程为.
(2)由(1)知,.
因为样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,
所以5组数据的残差绝对值及数据状态如下表所示.
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
预测值
3.6
9.2
14.8
20.4
26
残差的绝对值
0.4
1.2
1.2
0.4
0
是否为异常拟合数据
否
是
是
否
否
由表可知,异常拟合数据有2组,非异常拟合数据有3组,
所以从这5组数据中任取3组,异常拟合数据的组数的所有可能取值为0,1,2.
则,,,
所以的分布列为:
0
1
2
则的数学期望.
13.某班数学兴趣小组为研究本班同学的锻炼频次与身体素质指标的关系,统计得到5名同学每周锻炼频次与身体素质指标的数据如下:
锻炼频次()
2
4
5
6
8
身体素质指标()
30
40
50
60
70
(1)若,之间具有线性相关关系,试建立,之间的经验回归方程,并预测每周锻炼频次为9次的同学的身体素质指标;
(2)依据表中数据,在这5名同学中任取三人,记身体素质指标大于等于50的人数为,求随机变量的分布列和数学期望.
附:①参考数据:,;
②经验回归方程的斜率和截距最小二乘估计公式分别为,.
【答案】(1)经验回归方程,预测身体素质指标为
(2)的分布列为:
数学期望为
【分析】(1)利用最小二乘法公式求解线性回归方程,代入自变量完成预测;
(2)确定超几何分布模型,计算对应概率得到分布列,结合期望公式求解数学期望.
【详解】(1),.
,
,
因此经验回归方程为.
将代入方程,得,
即每周锻炼频次为9次的同学身体素质指标预测值为.
(2)身体素质指标大于等于50的同学有3人,小于50的同学有2人.
随机变量表示抽取3人中身体素质指标大于等于50的人数,则的可能取值为.
,
的分布列为:
.
14.已知变量与变量的观测数据为,,…,,满足经验回归方程.若,则( )
A.9 B.10.5 C.133 D.139
【答案】B
【分析】利用经验回归直线必过样本中心点的性质,先求,再代入回归方程求,最后计算即可.
【详解】因为,所以,因为经验回归直线必过样本中心点,所以,,所以,所以.
15.(多选)有一组成对样本数据,先计算相关系数为,再根据最小二乘法计算回归直线方程为,最后计算出残差.下列说法正确的是( )
A.回归直线经过点.
B.由这组数据得到新成对样本数据,再根据最小二乘法计算回归直线方程,则两条回归直线的斜率相同.
C.相关系数越大,两个变量之间的线性相关性越强.
D.残差和越小,回归直线方程为拟合效果越好.
【答案】AB
【分析】选项A回归直线必经过样本中心点;选项B代入计算新数据的斜率公式,可得两条回归直线的斜率相同;选项C绝对值越接近于,线性相关性越强;选项D无法通过残差和判断拟合效果.
【详解】回归直线必经过样本中心点,选项A正确;
新样本数据的样本中心点为,
其斜率为,
所以两条回归直线的斜率相同,选项B正确;
相关系数的取值范围为,其绝对值越接近于,线性相关性越强,
相关系数越大,不能说明两个变量之间的线性相关性越强,
比如与,所以选项C错误;
残差和是指,由于回归直线必过样本中心点,残差和恒为零,
无法通过残差和判断拟合效果,选项D错误.
考点04计算样本中心点
16.“千年一面,中江挂面”,近年来,中江挂面村火遍全网.这不仅为中江带来了大量游客,还使中江手工挂面供不应求,销售额大幅提升.已知某手工挂面加工企业2024年10月—2025年2月销售额对应如下表.且用最小二乘法得到销售额关于月份序号的回归直线方程为,则2025年1月销售额( )
时间
2024年10月
2024年11月
2024年12月
2025年1月
2025年2月
月份序号
1
2
3
4
5
销售额(万元)
13.5
15.0
17.0
20.5
A.19.0(万元) B.18.8(万元) C.18.6(万元) D.18.4(万元)
【答案】A
【分析】利用线性回归直线恒过样本中心点的性质,先求的均值代入回归方程得到的均值,再列方程求解即可.
【详解】,
由线性回归方程的性质可知,回归直线必过样本中心点,
将代入回归方程,得,
,
令,解得.
17.(多选)已知某软件公司开发了一款新型智能解题软件,现将该软件上市后的月份以及当月获得的利润(单位:万元)统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
6
7
9
A.
B.可以估计每增加1个月份,月利润平均提高万元
C.可以估计上市后的第7个月的利润为万元
D.上市后的第4个月的利润的残差为万元
【答案】AC
【详解】由统计表可知:
,,
则回归直线过样本中心点,代入回归方程得,
,解得,故A正确;
回归方程为,斜率为,则每增加1个月份,月利润平均提高万元,
故B错误;
时,万元,故C正确;
由统计表知,第4个月,预测值,
残差万元,故D错误.
18.根据如下样本数据:
得到的回归方程为,则( )
A., B., C., D.,
【答案】B
【详解】,,
因为回归方程过样本中心点,
所以,
由样本数据可知,的值随值的增大而大致呈减小趋势,可判断为负相关,
所以,,要使等式成立,必须.
19.下列命题中不正确的是( )
A.线性回归方程对应的直线一定经过样本点的中心
B.线性回归方程对应的直线至少经过其样本数据点中的一个点
C.线性回归方程为时,变量与具有负的线性相关关系
D.用最小二乘法求回归方程是为了使最小
【答案】B
【分析】利用线性回归直线的性质逐个分析判断即可.
【详解】对于A,线性回归直线一定经过样本点的中心,故A正确;
对于B,线性回归直线是样本点的‘最佳’拟合直线,可能不经过任何一个样本点,故B错误;
对于C,线性回归直线中的系数为,
则变量与具有负的线性相关关系,故C正确:
对于D,最小二乘法的核心思想就是通过寻找最佳的回归系数,
使得所有的观测值与回归直线上的预测值之间的残差平方和达到最小,
数学表达式是,故D正确.
20.若一组点通过最小二乘估计得到的回归直线方程为,且,则______.
【答案】
【详解】.
回归直线方程一定经过样本中心点,
,即,.
又,.
考点05残差的求算
21.(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
【答案】BCD
【分析】A选项,相关系数的正负决定正负相关,可根据线性回归方程的正负进行判断;
B选项,根据数据点与预测值的差判断残差;
C选项,可利用计算,代入线性回归方程计算平均建筑面积;
D选项,决定系数越接近1,拟合效果越好,比较两个决定系数大小判断拟合效果即可.
【详解】A选项,因为,故房屋的建筑面积和销售价格y呈正相关,相关系数为,A错误;
B选项,代入,可得的预测值:,残差为:,故B正确;
C选项,,因为线性回归方程恒过点,故,
解得:,C正确;
D选项,决定系数越接近1,拟合效果越好,因为,故甲机构选取的模型拟合效果更好,D正确.
22.(多选)变量与变量有较强的线性相关性,由下列表格得到经验回归方程是,则( )
1
2
3
4
5
2
4
5
6
8
A. B.变量与变量负相关
C.当时,预测值 D.当时,样本点对应的残差是
【答案】ACD
【分析】本题考查线性回归方程的性质、相关关系判断、残差计算,核心利用回归直线必过样本中心点求解回归系数,再逐一验证选项即可.
【详解】先计算样本中心点:,.
经验回归直线过样本中心点,代入得,解得.
选项A:由上述计算得,A正确;
选项B:,说明变量与正相关,B错误;
选项C:当时,代入回归方程得,即预测值为11,C正确;
选项D:残差定义为实际值减预测值,当时,,对应实际,
故残差,D正确.
23.(多选)市物价部门对五家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价(元)和销售量(件)之间的数据如表所示:
9
9.5
10
10.5
11
120
100
70
60
50
用最小二乘法求得经验回归方程为,相关系数,则( )
A.
B.变量,相关性较强
C.相对于点的残差为1
D.当时,的估计值为152
【答案】ABD
【分析】根据最小二乘法、残差、相关系数等知识逐项计算判断即可.
【详解】对于A,由题意得,.
因为用最小二乘法求得经验回归方程为,所以.
解得,A正确;
对于B,因为相关系数,其绝对值大小非常接近1,所以变量,相关性较强,B正确;
对于C,相对于点的残差为,C错误;
对于D,当时,的估计值为,D正确.
24.5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
【答案】D
【分析】对于A,利用表中的数据分析即可求解;对于B,利用平均数的定义及样本中心,结合样本中心在回归直线上即可求解;对于C,利用回归方程即可求出预测值,对于D,利用预测值和残差的定义即可求解.
【详解】对于A,从数据看随的增加而增加,所以变量与正相关,故A正确;
对于B,由表中数据知,,,
可得样本中心点为,将样本中心点代入中,
得到,故B正确;
对于C,当时该商场5G手机销量约为(千只),故C正确;
对于D,经验回归方程为,所以,
则残差为,故D错误.
25.已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
【答案】D
【详解】对于①,残差图中,残差点所在水平带状区域越窄,说明残差波动越小,
即回归方程的预报精确度越高,残差点所在水平带状区域越宽,说明残差波动越大,
即回归方程的预报精确度越低,错误;
对于②,决定系数越接近1,说明模型对数据的拟合效果越好,故模型甲的拟合效果更好,错误;
对于③,回归直线过样本数据,,,的中心点,
并不一定过样本数据中的某一个点,错误;
对于④,在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强,正确.
考点06非线性回归考察
26.现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程.
附:回归方程系数:,.
参考数据:设,,,,,,.
【答案】(1)分布列见解析,;
(2).
【分析】(1)先求出每一轮成功和失败的概率,再由条件概率公式求解即可;
(2)设,则回归方程为,根据所给数据和公式,求出的值,再代回,即可得答案.
【详解】(1)由题意可知:
第1轮:盒子中共有3个小球(2白1黑),
所以成功的概率为,所以失败的概率为;
第2轮:盒子中共有4个小球(3白1黑),
所以成功的概率为,所以失败的概率为;
第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮;
所以,,,
所以的分布列如下:
所以
(2)设,则回归方程为,
因为,,,,,
且,
所以,
所以.
所以回归方程为,
又因为,
所以回归方程为.
27.(多选)下列说法正确的是( )
A.若,,,则
B.随机变量X的方差,期望,则
C.360的正因数有24个
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得经验回归方程为,则c,k的值分别是和4
【答案】ACD
【详解】A.,故A正确.
B.因为,由方差,期望,
可得,即B错误.
C.又;
其正因数(,1,2,3;,1,2;,1);
故正因数个数有,故C正确.
D.模型取对数得,令,
则回归方程为,已知,故,,即,
,故D正确.
28.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
【答案】
【分析】由回归直线方程可得:,解出即可求解.
【详解】因为,,所以,
则
29.(多选)下列命题正确的是( )
A.随机变量,当最大,则的取值为3
B.以模型去拟合一组数据时,为求出回归方程,设,将其变换后得到线性方程,则,的值分别是,0.3
C.已知关于的回归方程为,则样本数据点的残差为2.2
D.若,,则事件,相互独立
【答案】ABD
【分析】使用二项分布概率公式分析选项,使用线性回归方程及残差的定义分析选项,使用全概率公式和条件概率公式分析选项.
【详解】,
由,解得,
由,解得,
又因为,且,所以,选项正确;
已知,两边取自然对数得,令,则,
因为变换后的线性方程为,所以,,即,选项正确;
已知关于的回归方程为,当时,,
而样本数据点为,则残差,选项错误;
已知,,由条件概率公式,
则,即,
所以,即,
则事件,相互独立,选项正确.
30.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
【答案】A
【分析】根据给定数据,利用最小二乘法求出关于的线性回归方程,进而求出关于的回归方程.
【详解】令,,由与呈线性相关关系,得线性回归方程,
则,,
因此,即,所以关于的回归方程为.
考点07联列表分析
31.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.
(1)根据以上数据,作出考前心情与性格的列联表,并求性格外向的学生中考前心情紧张的概率.
(2)作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
【答案】(1)答案见解析,
(2)答案见解析,有关
【分析】(1)古典概型即可求解;
(2)由图即可求解.
【详解】(1)作列联表如下:
心情
性格
合计
性格内向
性格外向
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
合计
426
594
1020
由列联表中数据可得,性格外向的学生中考前心情紧张的概率为
(2)相应的等高条形图如图所示.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数所占的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
32.(多选)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高堆积条形图.
根据图中的信息,下列结论中一定正确的是( ).
A.样本中男性比女性更关注地铁1号线全线开通
B.样本中多数女性是35岁及以上
C.样本中35岁以下的男性人数比35岁及以上的女性人数多
D.样本中35岁及以上的人对地铁1号线的开通关注度更高
【答案】ABD
【分析】通过等高堆积条形图构建列联表,根据条形图所呈现的信息得出列联表中各部分数量的大小关系,再依据这些关系对各个选项进行分析.
【详解】设等高堆积条形图对应的列联表如下:
项目
35岁及以上
35岁以下
合计
男性
a
c
女性
b
d
合计
根据第1个等高堆积条形图可知,35岁及以上的男性比女性多,即;
35岁以下的男性也比女性多,即,
根据第2个等高堆积条形图可知,男性中35岁及以上的比35岁以下的多,即;
女性中35岁及以上的也比35岁以下的多,即,
对于选项A,男性人数为,女性人数为,,,故A正确,
对于选项B,35岁及以上女性人数为,35岁以下女性人数为d,,故B正确,
对于选项C,35岁以下男性人数为c,35岁及以上女性人数为b,由,无法直接判断b与c的大小关系,故C不一定正确,
对于选项D,35岁及以上的人数为,35岁以下的人数为,,,故D正确,
故选:ABD.
33.为增强学生体质,充分展示当代青少年积极健康向上的精神风貌,某学校在校内新开设羽毛球课和健美操课,且每名同学只选一课.为了研究选课是否与性别有关系,现随机抽取了高一年级200名学生选课情况(其中男生120人,女生80人).
(1)完成下面的列联表,判断是否有的把握认为选课与性别有关,并说明理由.
羽毛球课
健美操课
合计
男
女
48
合计
112
(2)从上述120名男生中按选羽毛球课和选健美操课进行分层抽样,抽取6人,求从这6人中任取2人,至少有1人选择了羽毛球课的概率.
附:
0.15
0.10
0.05
0.010
0.005
0.001
2.072
2.706
3.841
6.635
7.879
10.828
(参考公式:,其中
【答案】(1)表格见解析,有,理由见解析
(2)
【分析】(1)代入公式求得,再与7.879进行比较即可解决;
(2)列出所有基本事件,从中选出符合要求的基本事件,以古典概型解之即可.
【详解】(1)列联表如下:
羽毛球课
健美操课
合计
男
80
40
120
女
32
48
80
合计
112
88
200
将列联表中的数据代入公式计算,得
因为,所以我们有的把握认为选课与性别有关
(2)因为男生中选羽毛球课和选健美操课的人数之比为,所以用分层抽样的方法抽取一个容量为6的样本,得到这6人中选羽毛球课的人数为4人,记为.
选健美操课的人数为2人,记为.
从中任取两人的所有基本事件为:共15种.
其中至少有一人选择了羽毛球课包含了14种,
故所求的概率.
34.随着电商事业的发展和工作生活节奏的加快,人们的生活方式和生活理念正在发生巨大的改变.通过外卖App下单订餐叫外卖,正受到越来越多的市民尤其是青年上班族的喜爱.为了解市民是否经常利用外卖平台点餐,调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,其中经常用外卖平台点餐的人数是基本不用外卖平台点餐的人数的倍;岁以上经常用外卖平台点餐的人数和基本不用外卖平台点餐的人数相等;岁及以下有人基本不用外卖平台点餐.
(1)请完善下面列联表(单位:人),并依据的独立性检验,分析经常利用外卖平台点餐是否与年龄有关?
经常用外卖平台点餐
基本不用外卖平台点餐
总计
岁及以下
岁以上
总计
(2)利用分层抽样方法在经常用外卖平台点餐的市民中随机抽取人,再从以上人中随机抽取人.记被抽取的人中“岁以上”的人数为,求随机变量的分布列和均值.
附:,其中.
临界值表:
【答案】(1)列联表见解析,认为经常利用外卖平台点餐与年龄有关联,此推断犯错误的概率不大于;(2)分布列见解析,均值.
【分析】(1)根据题中的数据完善列联表,再运用公式分析列联表;
(2)根据题意及公式求解随机变量的分布列并计算期望得出结果.
【详解】解:(1)设基本不用外卖平台点餐人数为,
得
所以基本不用外卖平台点餐人数为人
因为岁及以下有15人基本不用外卖平台点餐
所以岁以上有10人基本不用外卖平台点餐,岁以上有10人经常用外卖平台点餐岁及以下有40人经常用外卖平台点餐
列联表如下:
经常用外卖平台点餐
基本不用外卖平台点餐
总计
岁及以下
岁以上
总计
由列联表可知
因为
所以依据小概率值的独立性检验,认为经常利用外卖平台点餐与年龄有关联,此推断犯错误的概率不大于;
(2)由题意可知,抽取的10人中“40岁以上”的市民有2人,
的所有可能取值为
所以的分布列为
0
1
2
所以
35.(多选)为预防近视,某校对“学生性别和喜欢躺着看书”是否有关做了一次调查,其中被调查的男女生人数相同,男生喜欢躺着看书的人数占男生人数的,女生喜欢躺着看书的人数占女生人数的,若有的把握认为是否喜欢躺着看书和性别有关,则调查人数中男生人数可能是( )
参考公式及数据:,其中.
附:
A.8 B.10 C.12 D.14
【答案】CD
【分析】先设男生人数为,,列出列联表,利用独立性检验计算观测值,再结合观测值列关系式可得答案.
【详解】解:由题意被调查的男女生人数相同,设男生的人数为:,,由题意可列出
列联表:
男生
女生
合计
喜欢躺着看书
2m
不喜欢躺着看书
合计
.
由于有的把握认为是否喜欢躺着看书和性别有关,
所以;
解得:,因为,
故的可能取值为:12,13,14,15,16,17,18,19,
即男生的人数可以是:12,13,14,15,16,17,18,19,
所以选项AB错误,选项CD正确
故选:CD.
考点08 独立性检验卡方计算
36.近期,高中周末双休引起热议,为调查在校高中学生对国家双休政策的支持情况,某中学数学社团在校园内对学生展开随机调查,得到下表.(数据单位:人)
支持
不支持
成绩优秀
60
30
成绩不优秀
90
30
(1)根据该数学社团的调查结果判断,有无90%把握认为支持双休政策与学生成绩是否优秀有关?
0.1
0.05
0.01
2.706
3.841
6.635
附:.
(2)若该数学社团的调查结果可靠,某文学社团按相同方式在该校园内另随机调查了14位同学.其中成绩优秀且支持双休的人数为,请参考数学社团的调查数据,估算和;
(3)该校准备从数学社团调查的210名同学中用“按比例分层抽样”的方法抽取7位同学座谈、并准备在参与座谈的同学中选取5人组成新的调查小组.假设新的调查小组中支持双休但成绩不优秀的人数为,求的分布列.
【答案】(1)
没有90%的把握认为支持双休政策与学生成绩是否优秀有关
(2)
,
(3)
答案见解析
【详解】(1)由列联表可得(成绩优秀支持人数),(成绩优秀不支持人数),(成绩不优秀支持人数),(成绩不优秀不支持人数),则,
所以,
由题可知,把握对应的临界值为,因为,
所以没有把握认为支持双休政策与学生成绩是否优秀有关.
(2)随机抽取一名学生,该学生为成绩优秀且支持双休的概率,
由题意得,
所以,.
(3)分层抽样的抽样比为,则抽取的7人中支持双休但成绩不优秀的共人,其余共4人,
因此的可能取值为,
;;,
因此的分布列为
.
37.为了解居民体育锻炼情况,某地区对辖区内居民体育锻炼进行抽样调查.统计其中200名居民体育锻炼的次数与年龄,得到如下的频数分布表.
年龄次数
每周0∼2次
33
22
22
23
每周3∼4次
12
17
25
22
每周5次及以上
3
3
12
6
(1)若把年龄在的锻炼者称为青年,年龄在的锻炼者称为中年,每周体育锻炼不超过2次的称为体育锻炼频率低,
不低于3次的称为体育锻炼频率高,根据小概率值的独立性检验判断体育锻炼频率的高低与年龄是否有关联;
(2)从每周体育锻炼5次及以上的锻炼者中,按照表中年龄段采用按比例分配的分层随机抽样,抽取8人,
再从这8人中随机抽取3人,记这3人中年龄在与的人数分别为,求ξ的分布列与期望;
参考公式:
附:
α
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)认为体育锻炼频率的高低与年龄有关;
(2)分布列为:
0
1
2
P
【详解】(1)零假设:体育锻炼频率的高低与年龄无关.
由题得列联表如下:
青年
中年
合计
体育锻炼频率低
55
45
100
体育锻炼频率高
35
65
100
合计
90
110
200
,
根据小概率值的独立性检验推断不成立,
即认为体育锻炼频率的高低与年龄有关,此推断犯错误的概率不大于0.01.
(2)由表知,利用分层抽样的方法抽取的8人中,年龄在,内的人数分别为1,2,
依题意,的所有可能取值分别为为0,1,2,
所以,
,
,
所以的分布列:
0
1
2
P
所以的数学期望为.
38.某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
【答案】(1)表格见解析,有关联
(2)
【分析】(1)根据已知条件完善列联表,然后计算的值,进而得到结论;
(2)先根据题意得到经过基因编辑处理的单株小麦抗锈病的概率为,再结合题意得到,进而利用公式即可求出的数学期望与方差.
【详解】(1)由题得如下列联表:
抗病株数
易感病株数
合计
实验组
38
12
50
对照组
25
25
50
合计
63
37
100
零假设:小麦抗锈病与接受基因编辑处理无关联.
由列联表的数据,得,
依据小概率值的独立性检验,我们推断不成立,可以认为该小麦抗锈病与接受基因编辑处理有关联.
(2)由题意,估计经过基因编辑处理的单株小麦抗锈病的概率为,
由题知,
故其分布列为,
所以
39.某实验室利用基因编辑技术改良一种小麦品种,使其对锈病产生抗性.实验中将100株小麦分为两组:实验组50株接受基因编辑处理,对照组50株未处理,实验后统计各组抗病情况如下表:
抗病株数
易感病株数
实验组
38
12
对照组
25
25
(1)完成列联表并依据小概率值的独立性检验,分析该小麦品种抗锈病与接受基因编辑处理是否有关联;
(2)用接受基因编辑后小麦抗锈病株数的频率估计基因编辑后单株小麦抗锈病的概率,从接受基因编辑的小麦中随机选取10株,记其中抗锈病的株数为,求的数学期望与方差.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)列联表见解析,可以认为该小麦抗锈病与接受基因编辑处理有关联.
(2);
【分析】(1)根据已知条件完善列联表,然后计算的值,进而得到结论;
(2)先根据题意得到经过基因编辑处理的单株小麦抗锈病的概率为,再结合题意得到,进而利用公式即可求出的数学期望与方差.
【详解】(1)由题得如下2×2列联表:
抗病株数
易感病株数
合计
实验组
38
12
50
对照组
25
25
50
合计
63
37
100
零假设:小麦抗锈病与接受基因编辑处理无关联.
由列联表的数据,得,
依据小概率值的独立性检验,我们推断不成立,可以认为该小麦抗锈病与接受基因编辑处理有关联.
(2)由题意,估计经过基因编辑处理的单株小麦抗锈病的概率为,
随机变量的可能取值为,,,…,,
由题知,
所以,
.
40.为研究大学生使用AI学习工具的情况与自主思考能力是否有关联,随机调查某校100名大学生,数据如下:
单位:人
使用AI学习工具的情况
自主思考能力
合计
强
一般
经常使用
22
28
50
不经常使用
34
16
50
合计
56
44
100
(1)依据小概率值的独立性检验,分析大学生使用AI学习工具的情况是否与自主思考能力有关.
(2)小余之前从未使用过AI学习工具,他计划开始尝试使用AI学习工具进行学习,他在第天使用AI学习工具的概率为,设每天是否使用AI学习工具进行学习相互独立.设小余前3天中使用AI学习工具进行学习的天数为,求的分布列.
参考公式:.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.841
10.828
【答案】(1)认为大学生使用AI学习工具的情况与自主思考能力有关
(2)
0
1
2
3
【分析】(1)根据独立性检验计算值,再判断即可;
(2)由题可知的可能取值为,再利用独立事件乘法公式得到对应概率,列出分布列即可.
【详解】(1)解:零假设为:大学生使用AI学习工具的情况与自主思考能力无关.
,
根据小概率值的独立性检验,我们推断不成立,
即认为大学生使用AI学习工具的情况与自主思考能力有关.
(2)的可能取值为,
,
,
,
,
故的分布列为
0
1
2
3
考点09 独立性检验的实际应用
41.某研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计,根据统计数据制作列联表,提出原假设:“经常用流行用语”与“年轻人”没有关系,计算得,由此可知( ).(显著性水平取0.05,)
A.接受原假设,没有的把握认为“经常用流行用语”与“年轻人”有关系
B.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
C.接受原假设,有的把握认为“经常用流行用语”与“年轻人”有关系
D.拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”没有关系
【答案】B
【详解】由于且,故拒绝原假设,有的把握认为“经常用流行用语”与“年轻人”有关系.
42.为了比较甲,乙两所学校学生的数学水平,采用简单随机抽样的方法抽取了100名学生,通过测验得到了如下数据:甲校50名学生中有10名数学成绩优秀,乙校50名学生中有15名数学成绩优秀.
(1)请将列联表补充完整;
学校
数学成绩
合计
优秀
不优秀
甲校
10
乙校
15
合计
100
(2)依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异.
(3)用甲校数学成绩样本的优秀率作为甲校数学成绩总体的优秀率,估计甲校的3名学生中恰好有两名学生数学成绩优秀的概率.
参考数据:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
学校
数学成绩
合计
优秀
不优秀
甲校
10
40
50
乙校
15
35
50
合计
25
75
100
(2)不能据此推断两校学生的数学成绩优秀率有差异
(3)
【分析】(1)根据题意完成列联表,
(2)结合零假设、卡方公式进行运算求解判断即可;
(3)利用二项分布求解即可.
【详解】(1)由已知,列联表如下:
单位:人
学校
数学成绩
合计
优秀
不优秀
甲校
10
40
50
乙校
15
35
50
合计
25
75
100
(2)零假设为:两校学生的数学成绩优秀率无差异.
根据列联表数据,计算得到
.
根据小概率值的独立性检验,没有充分证据推断不成立,
因此不拒绝原假设,即不能认为两校学生的数学成绩优秀率有差异.
(3)甲校数学成绩样本的优秀率为,作为甲校数学成绩总体的优秀率,
设甲校的3名学生中成绩优秀的人数为,则,
所求概率为.
43.为推动农村可持续生态农业的发展,广东某农场用五年的时间按照有机标准新改良了100亩土地,预计在改良后的土地上种植有机水果和其他作物,并根据市场需求确定有机水果的种植面积.农场经营采用的是CSA农业经营模式即社区支持农业,农场从CSA会员中随机抽取了南方、北方会员共200人,调查数据如下.
喜欢有机水果
不喜欢有机水果
南方会员
80
40
北方会员
40
40
(1)视频率为概率,分别估计南方、北方会员中喜欢有机水果的概率;
(2)(ⅰ)判断是否有的把握认为是否喜欢有机水果与会员的区域有关?
(ⅱ)已知农场CSA会员有2000人,其中南方会员有1200人,若喜欢有机水果的人不低于1100人,则可种植50亩左右的有机水果,否则只能种植30亩左右,试问该农场应怎样安排有机水果的种植面积.
附:,.
0.05
0.025
0.005
3.841
5.024
7.879
【答案】(1),.
(2)(ⅰ)有的把握认为是否喜欢有机水果与会员的区域有关;(ⅱ)农场可以种植50亩左右的有机水果.
【分析】(1)利用频率估计概率求南方、北方会员中喜欢有机水果A的概率;
(2)(i)根据列联表及卡方公式求出卡方值,结合独立检验基本思想即可得结论;
(ii)估计农场会员中喜欢有机水果的总人数,与1100比较大小,即可得结论.
【详解】(1)由题得南方会员中喜欢有机水果的概率;
北方会员中喜欢有机水果的概率为,
所以南方、北方会员中喜欢有机水果的概率分别为,.
(2)(ⅰ) ,
所以有的把握认为是否喜欢有机水果与会员的区域有关
(ⅱ)由题可估计农场的CSA会员中喜欢有机水果的人数为,
所以农场可以种植50亩左右的有机水果.
44.科技进步催生了大批智慧养老科技产品.在某养老服务中心,室内、、物联网等智能设备,精准对接老年人多样化健康养老需求.该中心配备有多台摄像机,通过智能分析,辅助发现老人异常行为状态,产生预警信息并实时推送至护理站,及时对老人进行救助.为防止老人摔倒,在房间内还铺设有智能地板,一旦出现特殊情况,地板就会立即报警.在该中心所在地区随机抽取200名70岁以上的老人进行问卷调查,得到如下列联表:
智能设备
摔倒
合计
发生
未发生
使用
8
m
100
未使用
n
68
合计
200
(1)求m,n的值,并依据小概率值的独立性检验,分析使用智能设备是否能有效预防摔倒的发生?
(2)在参与问卷调查发生摔倒的老人中,按是否使用智能设备进行分层,采用样本量比例分配的分层随机抽样方法,从样本中抽取5人作进一步调查,再从这5人中随机抽取2人进行面谈,记这2人中未使用智能设备的人数为X,求X的数学期望及方差.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1),,认为使用智能设备能有效预防摔倒的发生
(2)X的期望;X的方差.
【分析】(1)本题先由列联表数据求出参数,设立独立性检验零假设,代入卡方公式计算值并与临界值比对,依据小概率值否定零假设,判定使用智能设备与预防摔倒有关;
(2)再确定摔倒老人中使用和未使用智能设备的人数,明确随机变量的取值,用组合数求对应概率,进而计算出的数学期望与方差.
【详解】(1)由表中数据可得,.
智能设备
摔倒
合计
发生
未发生
使用
8
92
100
未使用
32
68
100
合计
40
160
200
零假设为:使用智能设备与有效预防摔倒的发生无关.
故根据小概率值的独立性检验,推断不成立,即认为使用智能设备能有效预防摔倒的发生.
(2)易知5名“发生摔倒”的老人中有1人使用智能设备,4人未使用智能设备,
故X的所有可能取值为1,2,
,,
所以X的期望;
X的方差.
45.某校共有名高一学生,其中男生人.为了解该校高一学生的数学学习水平,采取按性别分层、比例分配的分层随机抽样方法,随机抽取了名学生进行调查,分数分布在分之间.将分数不低于分的学生称为“优等生”.根据调查的结果绘制的学生分数频率分布直方图如图.
(1)求实数的值,并估计该样本中“优等生”的人数;
(2)若样本中属于“优等生”的男生有人,完成下列列联表;根据小概率值的独立性检验,能否认为这次成绩是否优秀(分数不低于分)与性别有关?
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
附:.
【答案】(1),人
(2)表格如下:
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
不能认为这次成绩是否优秀与性别有关.
【详解】(1)由各组频率之和为,得,解得,
则属于“优等生”的有 人.
(2)由题意,样本中男生有人,则女生有人.
属于“优等生”的男生有人,则属于“优等生”的女生有人.
不属于“优等生”的男生有人,不属于“优等生”的女生有人.
所以得到列联表如下:
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
零假设:这次成绩是否优秀与性别无关.
根据表中数据,计算得.
根据小概率值的独立性检验,推断成立.所以不能认为这次成绩是否优秀与性别有关.
考点10 成对数据的统计相关性综合考察
46.某公司为了了解某商品的月销售量(单位:万件)与月销售单价(单位:元)之间的关系,随机统计了5个月的销售量与销售单价,并制作了对照表:
月销售单价元
10
20
25
30
35
月销售量万件
16
13
10
6
5
由表中数据可得回归方程中,则______.
【答案】21.28
【详解】已知,线性回归直线必过样本中心点,
计算样本均值:,.
将代入可得 .
47.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号
1
2
3
4
5
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
现已知其线性回归方程为,则________,根据此线性回归方程估计数学得90分的同学的物理成绩为________.(四舍五入到整数)
【答案】 40.8 73
【详解】,,
所以,即,
即线性回归方程为.
当时,.
48.已知变量和变量的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,经重新计算得到新回归直线的斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为__________.(残差观测值预测值)
【答案】/
【分析】将样本中心点代入回归方程中求出,即可得出,进而得出新数据的样本中心点和回归方程,代入计算即可.
【详解】由题意得,,
则,,
当增加两个样本数据和后,
变量的平均数为,变量的平均数为,
因为新回归直线的斜率为3,所以可设其方程为,
将代入得,则,
令,则,则样本数据所对应的残差为.
49.某工厂为判断两种不同的操作方法是否对生产某种零件的合格个数有影响,收集了相关数据,绘制了列联表,设原假设:两种不同的操作方法对生产该种零件的合格个数没有影响,计算出统计量,已知,则在显著性水平下,推断的结论为________.(用“拒绝”或“接受”填空)
【答案】拒绝
【详解】在独立性检验中,当计算出的统计量大于给定显著性水平对应的临界值时,样本数据出现的概率小于,
属于小概率事件,根据小概率原理,我们拒绝原假设,认为两个变量之间存在显著关联,
本题中,所以拒绝,即认为两种操作方法对合格个数有影响.
50.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有______人.
参考数据及公式:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】48
【分析】设男生人数为,由题可得列联表,然后由题设可得关于不等式,据此可得答案.
【详解】设男生人数为,则女生人数为,男生追星人数为,不追星人数为,
女生追星人数为,不追星人数为,据此可得列联表如下:
追星
不追星
总计
男生
女生
总计
则由独立性检验相关计算公式结合题设,可得:
.
又为保证所有人数为正整数,需为的倍数,则.
1 / 37
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$