内容正文:
第七章:统计案例章末重点题型复习
题型一:散点图
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A. B. C. D.
2.下图是根据的观测数据得到的散点图,则变量能用一元线性回归模型来刻画,且的是( )
A.B.C. D.
3.若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
4.已知某个样本点中的变量线性相关,相关系数,平移坐标系,则在以为坐标原点的坐标系下的散点图,大多数的点都落在第 象限.
题型二:样本中心点
1.(多选)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
2.(多选)某厂近几年陆续购买了几台 A 型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
根据表中的数据可得到经验回归方程为. ,则( )
A.y与x的样本相关系数
B.
C.表中维修费用的第60百分位数为6
D.该型机床已投入生产的时间为 10年时,当年所需要支出的维修费用一定是12.38万元
3.已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
4.某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 .
广告支出费用/万元
1
3
4
6
11
销售量万件
1.9
3.2
4.4
6.3
12.7
题型三:线性回归方程
1.由一组样本数据得到经验回归方程,那么下列说法正确的是( )
A.若相关系数r越小,则两组变量的相关性越弱
B.若越大,则两组变量的相关性越强
C.经验回归方程至少经过样本数据中的一个
D.在经验回归方程中,当解释变量x每增加1个单位时,相应的观测值y约增加个单位
2.商家项目投资的利润产生是一个复杂的系统结果.它与项目落地国的商业环境,政府执政能力,法律生态等都有重大的关联.如表所示是某项目在中国和南亚某国投资额和相应利润的统计表.
项目落地国
中国
南亚某国
投资额x(亿元)
10
11
12
13
14
10
11
12
13
14
利润y(亿元)
11
12
14
16
19
12
13
13
14
15
请选择平均利润较高的落地国,用最小二乘法求出回归直线方程为 .参考数据和公式:,中国,南亚某国,,.
3.今年立秋以后,我国西南地区持续性高温登上热搜,引发关注讨论、根据专家推测,主要是由于大陆高压和西太平洋副热带高压呈现非常强大,在高压的控制下,西南地区上空晴朗少云,在太阳辐射增温和气流下沉增温的共同作用下,两个地区的气温出现了直接攀升的状态.西南地区某城市一室内游泳馆,为给顾客更好的体验,推出了和两个套餐服务,顾客可自由选择和两个套餐之一;该游泳馆在App平台上推出了优惠券活动,下表是App平台统计某周内周一至周五销售优惠券情况.
星期
1
2
3
4
5
销售量(张)
218
224
230
232
236
经计算可得:.
(1)已知关于的经验回归方程为,求关于的经验回归方程;
(2)若购买优惠券的顾客选择套餐的概率为,选择套餐的概率为,并且套餐包含两张优惠券,套餐包含一张优惠券,记App平台累计销售优惠券为张的概率为.
(i)求及;
(ii)求及的最值.
4.下表提供了某厂进行技术改造后生产产品过程中记录的产能(单位:)与相应的生产能耗(单位:标准煤)的几组对应数据:
3
4
5
6
标准煤
3.5
4
5
5.5
(1)求关于的经验回归方程;
(2)已知该厂技术改造前产品的生产能耗为标准煤,试根据(1)中求出的经验回经验回归方程,预测该厂技术改造后产品的生产能耗比技术改造前降低了多少标准煤.
参考公式:
题型四:变量的相关关系
=1.已知气候温度和海水表层温度相关,且相关系数为负数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
2.变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.可能存在负相关 B.可能存在正相关 C.一定存在正相关 D.一定存在负相关
3.某校学生科研兴趣小组为了解1~12岁儿童的体质健康情况,随机调查了20名儿童的相关数据,分别制作了肺活量、视力、肢体柔韧度、BMI指数和身高之间的散点图,则与身高之间具有正相关关系的是( )
A.肺活量 B.视力 C.肢体柔韧度 D.BMI指数
4.已知变量x与y的回归直线方程为,变量y与z负相关,则( )
A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关
题型五:相关系数
1.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量x,y,z若x,y的样本相关系数为,y,z的样本相关系数为,则x、z的样本相关系数的最大值为( )
附:相关系数
A. B. C. D.1
2.(多选)有变量与变量对应的4组样本数据,计算出它们的线性相关系数分别为,则与线性相关关系最弱的是( )
A. B. C. D.
3.下列说法正确的有( )
A.若一组数据的方差为0.2,则的方差为1
B.68,60,62,78,70,84,74,46,73,82这组数据的第80百分位数是80
C.样本相关系数可以用来判断成对样本数据正相关还是负相关
D.若变量,则
4.为调查某地区学生在高中学习中错题订正整理情况与考试成绩的关系.首先对该地区所有高中学生错题订正整理情况进行分值评价,给出得分;再组织考试.从这些学生中随机抽取20名学生的错题订正整理情况得分和对应的考试成绩作为样本,得到样本数据,其中和分别表示第个样本错题订正整理情况得分和对应的考试成绩,计算得.
(1)求样本的相关系数(精确到0.01),并推断考试成绩和错题订正整理情况得分的相关程度;
(2)已知20个样本中有8个样本的考试成绩低于样本平均数.利用频率估计概率,从该地区所有高中学生中随机抽取4个学生的错题订正整理情况得分和对应的考试成绩,记抽到考试成绩低于的个数为X,求随机变量X的分布列.
附:相关系数.
题型六:残差
1.根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
2.下列说法正确的是( )
A.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
B.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
C.正态分布的图象越瘦高,越大
D.残差平方和越小的模型,拟合的效果越好
3.(多选)已知某产品的销售额(单位:万元)与广告费用(单位:万元)的数据如表所示:
万元
1
2
3
4
5
万元
21
90
109
根据表中数据可知具有较强的线性相关关系,其经验回归方程为,则( )
A.样本相关系数在内
B.当时,残差为2
C.点一定在经验回归直线上
D.广告费用是6万元时,销售额一定为130万元
4.(多选)下列说法正确的是( )
A.将一组数据的每一个数据减去同一个数后,新数据的方差与原数据方差相同
B.线性相关系数越大,两个变量的线性相关性越强
C.设随机变量,,则
D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
题型七:相关指数
1.已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
2.在建立两个变量与的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数依次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
3.(多选)下列有关回归分析的结论中,正确的有( )
A.对于回归方程,变量每增加1个单位,则平均减少个单位
B.两个变量,的相关系数越小,,之间的线性相关程度越弱
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
D.用最小二乘法求得一组成对数据的回归方程,若增加一个新的样本点,则得到的新回归方程可能不变
4.近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
题型八:非线性回归
1.2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
2.(多选)对具有相关关系的两个变量x和进行回归分析时,下列结论正确的是( )
A.若A,B两组成对数据的样本相关系数分别为,,则A组数据比B组数据的相关性较强
B.若所有样本点都落在一条斜率为非零实数的直线上,则决定系数的值为1
C.若样本点的经验回归方程为,则在样本点处的残差为0.3
D.以模型去拟合一组数据时,为求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是和2
3.某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
4.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数,
回归直线中公式分别为,;
②参考数据:,,,.
题型九:分类变量与列联表
1.根据分类变量x与y的观察数据,计算得到,依据下表给出的独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是( )
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
A.有95%的把握认为变量x与y独立
B.有95%的把握认为变量x与y不独立
C.变量x与y独立,这个结论犯错误的概率不超过10%
D.变量x与y不独立,这个结论犯错误的概率不超过10%
2.下面是一个列联表,其中a、b处填的值分别为( )
总计
a
21
73
2
25
27
总计
b
46
100
A.52、54
B.54、52
C.94、146
D.146、94
3.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
药物
疾病
合计
未患病
患病
服用
a
50
未服用
50
合计
80
20
100
若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为 .(其中且)(参考数据:,)
附:,
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
4.《开学第一课》是一年一度面向全国中小学生的大型公益节目,从2008年起于每年9月1日播出.2023年《开学第一课》以“强国复兴有我”为主题.为了了解观众对节目的喜爱程度,随机调查了,两个地区的100名观众,得到如下的2×2列联表.
非常喜欢
喜欢
合计
35
10
合计
已知在被调查的100名观众中随机抽取1名,该观众来自地区且喜爱程度为“非常喜欢”的概率为0.45.
(1)完成上述表格.现从100名观众中根据喜爱程度及地区的不同用分层抽样的方法抽取20名进行问卷调查,则应抽取喜爱程度为“非常喜欢”的,地区的人数各是多少?
(2)若以抽样调查的频率为概率,从地区随机抽取2人,设抽到喜爱程度为“非常喜欢”的观众的人数为,求的分布列和期望.
题型十:独立性概念与计算
1.下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
2.(多选)某县教育部门在辖区三所高中用简单随机抽样的方法调查了100名教师,征求其对延迟退休的态度(支持,不支持),就分类变量“教师对延迟退休的态度”与“性别”的成对样本数据计算得,依据的独立性检验,结论为( )
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.教师对延迟退休的态度与性别独立
B.教师对延迟退休的态度与性别独立,这个结论犯错误的概率不超过
C.教师对延迟退休的态度与性别不独立,这个结论犯错误的概率不超过
D.调查时按性别分层,采用分层随机抽样方法比简单随机抽样方法更好
3.在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
4.某社区对安全卫生进行问卷调查,请居民对社区安全卫生服务给出评价(问卷中设置仅有满意、不满意).现随机抽取了90名居民,调查情况如下表:
男居民
女居民
合计
满意
25
60
不满意
a
2a
合计
90
(1)利用分层抽样的方法从对安全卫生服务评价为不满意的居民中随机抽取6人,再从这6人中随机抽取2人,求这2人中男、女居民各有1人的概率;
(2)试通过计算判断能否在犯错误的概率不超过0.05的情况下认为男居民与女居民对社区安全卫生服务的评价有差异?
附:.
题型十一:独立性检验的实际应用
1.(多选)根据分类变量与的成对样本数据,计算得到.已知,依据0.01的独立性检验,下列结论正确的是( )
A.若,则变量与不独立
B.若,则变量与独立
C.若,则变量与独立
D.若,则变量与不独立
2.为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
3. 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
4.电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
(
2
)原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
第七章:统计案例章末重点题型复习
题型一:散点图
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A. B. C. D.
【答案】D
【分析】根据变量的相关关系判断即可.
【详解】观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
故选:D.
2.下图是根据的观测数据得到的散点图,则变量能用一元线性回归模型来刻画,且的是( )
A.B.C. D.
【答案】A
【分析】由一元线性回归模型的散点图特征判断.
【详解】根据变量具有线性相关关系,则散点在某条直线附近,又,所以散点从左上至右下.
故选:A.
3.若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【答案】C
【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【详解】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
4.已知某个样本点中的变量线性相关,相关系数,平移坐标系,则在以为坐标原点的坐标系下的散点图,大多数的点都落在第 象限.
【答案】一、三
【分析】由得出正相关,得出大多数的点所在象限.
【详解】因为,变量正相关,
则在以为坐标原点的坐标系下的散点图,大多数的点都落在第一、三象限.
故答案为:一、三.
题型二:样本中心点
1.(多选)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
【答案】ACD
【分析】根据回归直线斜率知A正确;利用回归直线必过样本中心点可构造方程求得,可知B错误,D正确;将代入回归直线知C正确.
【详解】对于A,由,得,故呈负相关关系,故A正确;
对于B,,,
,解得,故B错误;
对于C,当时,,故C正确;
对于D,由得,回归直线必过点,即必过点,故D正确.
故选:ACD.
2.(多选)某厂近几年陆续购买了几台 A 型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
根据表中的数据可得到经验回归方程为. ,则( )
A.y与x的样本相关系数
B.
C.表中维修费用的第60百分位数为6
D.该型机床已投入生产的时间为 10年时,当年所需要支出的维修费用一定是12.38万元
【答案】ABC
【分析】对A,根据相关系数的概念可判断,对B,计算出样本中心,代入方程计算出,对C,根据百分位数的定义求解,对D,根据回归分析概念判断.
【详解】根据题意可得,,,
所以样本中心点为,
对于A,由表中数据可得随着增大而增大,与正相关,所以相关系数,故A正确;
对于B,将样本中心点代入回归方程,可得,故B正确;
对于C,维修费用从小到大依次为,第60百分位数为,故C正确;
对于D,根据回归分析的概念,机床投入生产的时间为 10年时,所需要支出的维修费用大概是12.38万元,故D错误.
故选:ABC.
3.已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
【答案】
【分析】设,则,根据回归方程性质可得回归直线所过定点.
【详解】由已知,
设,则,
由回归直线性质可得在直线上,
又,,
所以点在直线上,故点在曲线上.
故答案为:.
4.某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 .
广告支出费用/万元
1
3
4
6
11
销售量万件
1.9
3.2
4.4
6.3
12.7
【答案】2.02
【分析】先求出样本点的中心点,然后代入回归方程求出,从而求出当时,解得,从而可求解.
【详解】由题意,,
而样本点的中心点在经验回归直线上,
代入得,解得.
所以,当时,解得,
所以残差为.
故答案为:.
题型三:线性回归方程
1.由一组样本数据得到经验回归方程,那么下列说法正确的是( )
A.若相关系数r越小,则两组变量的相关性越弱
B.若越大,则两组变量的相关性越强
C.经验回归方程至少经过样本数据中的一个
D.在经验回归方程中,当解释变量x每增加1个单位时,相应的观测值y约增加个单位
【答案】D
【分析】根据相关系数的含义可判断AB;根据回归直线的含义可判断CD;
【详解】对于A,若相关系数越小,则两组变量的相关性越弱,A错误;
对于B,若越大,则两组变量的相关性越强,是回归直线的斜率,
它不反应两变量的相关性强弱,B错误;
对于C,经验回归方程不一定经过样本数据中的一个,C错误;
对于D,在经验回归方程中,当解释变量x每增加1个单位时,
若,相应的观测值y约增加个单位;若,相应的观测值y约增加个单位;
故当解释变量x每增加1个单位时,相应的观测值y约增加个单位,正确,
故选:D
2.商家项目投资的利润产生是一个复杂的系统结果.它与项目落地国的商业环境,政府执政能力,法律生态等都有重大的关联.如表所示是某项目在中国和南亚某国投资额和相应利润的统计表.
项目落地国
中国
南亚某国
投资额x(亿元)
10
11
12
13
14
10
11
12
13
14
利润y(亿元)
11
12
14
16
19
12
13
13
14
15
请选择平均利润较高的落地国,用最小二乘法求出回归直线方程为 .参考数据和公式:,中国,南亚某国,,.
【答案】
【分析】比较平均利润,然后根据题设数据得到答案.
【详解】两国的平均利润分别为和,故中国的平均利润较高.
根据题设数据,有,.
故答案为:.
3.今年立秋以后,我国西南地区持续性高温登上热搜,引发关注讨论、根据专家推测,主要是由于大陆高压和西太平洋副热带高压呈现非常强大,在高压的控制下,西南地区上空晴朗少云,在太阳辐射增温和气流下沉增温的共同作用下,两个地区的气温出现了直接攀升的状态.西南地区某城市一室内游泳馆,为给顾客更好的体验,推出了和两个套餐服务,顾客可自由选择和两个套餐之一;该游泳馆在App平台上推出了优惠券活动,下表是App平台统计某周内周一至周五销售优惠券情况.
星期
1
2
3
4
5
销售量(张)
218
224
230
232
236
经计算可得:.
(1)已知关于的经验回归方程为,求关于的经验回归方程;
(2)若购买优惠券的顾客选择套餐的概率为,选择套餐的概率为,并且套餐包含两张优惠券,套餐包含一张优惠券,记App平台累计销售优惠券为张的概率为.
(i)求及;
(ii)求及的最值.
参考公式:.
【答案】(1)
(2)(i),,;(ii),的最大值为,最小值为.
【分析】(1)将相关数据代入和的公式,即可得经验回归方程;
(2)由题意知,,构造等比数列,再利用等比数列的通项公式求解即可.
【详解】(1)由题意,,
则,
.
所以关于的经验回归方程为.
(2)(i)由题意,可知,
,
,
(求解另一种方法:)
(ii)当时,,即,
又,
所以当时,数列为各项都为1的常数列,
即,
所以,又,
所以数列为首项为公比为的等比数列,
所以,即.
当为偶数时,,且随的增大而减小,
因此的最大值为;
当为奇数时,,且随的增大而增大,
因此的最小值为,综上所述,的最大值为,最小值为.
4.下表提供了某厂进行技术改造后生产产品过程中记录的产能(单位:)与相应的生产能耗(单位:标准煤)的几组对应数据:
3
4
5
6
标准煤
3.5
4
5
5.5
(1)求关于的经验回归方程;
(2)已知该厂技术改造前产品的生产能耗为标准煤,试根据(1)中求出的经验回经验回归方程,预测该厂技术改造后产品的生产能耗比技术改造前降低了多少标准煤.
参考公式:
【答案】(1)
(2)
【分析】直接利用公式求解即可.
【详解】(1)
(2),即改造后预测生产能耗为
.
预测该厂改造后100t产品的生产能耗比技术改造前降低了标准煤.
题型四:变量的相关关系
=1.已知气候温度和海水表层温度相关,且相关系数为负数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【答案】D
【分析】根据相关系数的意义判断各项的正误即可.
【详解】由于相关系数表示一个变量变化对另一个变量变化趋势的影响,
所以随着气候温度由低到高,海水表层温度呈下降趋势.
故选:D
2.变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.可能存在负相关 B.可能存在正相关 C.一定存在正相关 D.一定存在负相关
【答案】A
【分析】根据散点图以及相关关系的定义判断即可.
【详解】解:从散点图看,这些点在一条线的附近,且从左上角到右下角呈递减的趋势,所以据此可以推断变量x与y之间可能存在负相关,
故选:A.
3.某校学生科研兴趣小组为了解1~12岁儿童的体质健康情况,随机调查了20名儿童的相关数据,分别制作了肺活量、视力、肢体柔韧度、BMI指数和身高之间的散点图,则与身高之间具有正相关关系的是( )
A.肺活量 B.视力 C.肢体柔韧度 D.BMI指数
【答案】A
【分析】根据给定的散点图,结合正相关的意义判断即得.
【详解】对于A,儿童的身高越高,其肺活量越大,肺活量与身高具有正相关关系,A正确;
对于B,儿童的视力随身高的增大先增大,后减小,视力与身高不具有正相关关系,B错误;
对于C,肢体柔韧度随身高增大而减小,肢体柔韧度与身高不具有正相关关系,C错误;
对于D,BMI指数与身高的相关性很弱,不具有正相关关系,D错误.
故选:A
4.已知变量x与y的回归直线方程为,变量y与z负相关,则( )
A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关
【答案】D
【分析】根据已知条件,结合回归方程可判断x与y正相关,再由变量y与z负相关,即可判断x与z负相关.
【详解】根据回归方程可知变量x与y正相关,又变量y与z负相关,
由正相关、负相关的定义可知,x与z负相关.
故选:D
题型五:相关系数
1.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量x,y,z若x,y的样本相关系数为,y,z的样本相关系数为,则x、z的样本相关系数的最大值为( )
附:相关系数
A. B. C. D.1
【答案】B
【分析】利用相关系数公式,可看成两个维向量的夹角公式,从而把相关系系数问题转化为向量夹角问题,即可得解.
【详解】设,,,
则有,,,
由相关系数公式可知:,
设与夹角为,与夹角为,
由x,y的样本相关系数为,所以,,
由这两个夹角均为锐角且,所以与夹角的可能性是,
则与夹角余弦值的最大值为,此时x与z样本相关系数最大,
即,
故选:B.
2.(多选)有变量与变量对应的4组样本数据,计算出它们的线性相关系数分别为,则与线性相关关系最弱的是( )
A. B. C. D.
【答案】BD
【分析】根据相关系数的定义及性质结合绝对值判断即可.
【详解】相关系数的绝对值越小,变量间的线性相关性越弱,
因为,所以与线性相关关系最弱的是.
故选:BD.
3.下列说法正确的有( )
A.若一组数据的方差为0.2,则的方差为1
B.68,60,62,78,70,84,74,46,73,82这组数据的第80百分位数是80
C.样本相关系数可以用来判断成对样本数据正相关还是负相关
D.若变量,则
【答案】BCD
【分析】根据方差的性质计算方差判断A,应用百分位数定义计算判断B,根据相关系数判断C,应用正态分布对称性计算概率判断D.
【详解】对于A,的方差为,故A错误;
对于B,这组数据从小到大排列为:46,60,62,68,70,73,74,78,82,84,又,
第8位数字是78,第9位数字是82,故这组数据的第80百分位数是,故B正确;
对于C,样本相关系数的符号反映了相关关系的正负性,当时,成对样本数据正相关,当时,成对样本数据负相关,故C正确;
对于D,因为,所以,故D正确,
故选:BCD.
4.为调查某地区学生在高中学习中错题订正整理情况与考试成绩的关系.首先对该地区所有高中学生错题订正整理情况进行分值评价,给出得分;再组织考试.从这些学生中随机抽取20名学生的错题订正整理情况得分和对应的考试成绩作为样本,得到样本数据,其中和分别表示第个样本错题订正整理情况得分和对应的考试成绩,计算得.
(1)求样本的相关系数(精确到0.01),并推断考试成绩和错题订正整理情况得分的相关程度;
(2)已知20个样本中有8个样本的考试成绩低于样本平均数.利用频率估计概率,从该地区所有高中学生中随机抽取4个学生的错题订正整理情况得分和对应的考试成绩,记抽到考试成绩低于的个数为X,求随机变量X的分布列.
附:相关系数.
【答案】(1)相关系数,考试成绩和错题订正整理情况得分高度相关
(2)答案见解析
【分析】(1)根据相关系数的计算公式即可代入求解;
(2)根据二项分布概率公式求解概率,即可得分布列.
【详解】(1),
接近考试成绩和错题订正整理情况得分高度相关.
(2)考试成绩低于样本平均数的概率记为,
则
x
0
1
2
3
4
p
题型六:残差
1.根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
【答案】A
【分析】根据一元线性回归模型中对随机误差的假定进行判断.
【详解】对于A,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,故A正确;
对于B,残差与观测时间有线性关系,故B错误;
对于C,残差的方差不是一个常数,随着观测时间变大而变小再变大,故C错误;
对于D,残差与观测时间是非线性关系,故D错误.
故选:A.
2.下列说法正确的是( )
A.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
B.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
C.正态分布的图象越瘦高,越大
D.残差平方和越小的模型,拟合的效果越好
【答案】D
【分析】值越大,模型的拟合效果越好可判断A;两个随机变量的线性相关性越强, 则相关系数的绝对值越接近于1,可判断B,正态分布的图象越瘦高,越小可判断C;残差平方和越小的模型,拟合的效果越好,判断D;
【详解】对于A:值越大,模型的拟合效果越好,故A错误;
对于B, 两个随机变量的线性相关性越强, 则相关系数的绝对值越接近于1 ,故B错误.
对于C,正态分布的图象越瘦高,越小,故C错误;
对于D,残差平方和越小的模型,拟合的效果越好,故D正确.
故选:D.
3.(多选)已知某产品的销售额(单位:万元)与广告费用(单位:万元)的数据如表所示:
万元
1
2
3
4
5
万元
21
90
109
根据表中数据可知具有较强的线性相关关系,其经验回归方程为,则( )
A.样本相关系数在内
B.当时,残差为2
C.点一定在经验回归直线上
D.广告费用是6万元时,销售额一定为130万元
【答案】AB
【分析】根据相关系数的定义判断A;求出样本中心点,即可求出的值,再计算残差即可判断B;令、判断C、D.
【详解】对于A,因为具有较强的线性相关关系,且经验回归方程为,
所以,具有较强的正相关关系,故样本相关系数在内,故A正确;
对于B,根据题意得,,
又必过样本中心点,
所以,解得,
故当时,,残差为,故B正确;
对于C,点即点,当时,,即点不在经验回归直线上,故C错误;
对于D,当时,,即广告费用是万元时,销售额估计为130万元,故D错误.
故选:AB.
4.(多选)下列说法正确的是( )
A.将一组数据的每一个数据减去同一个数后,新数据的方差与原数据方差相同
B.线性相关系数越大,两个变量的线性相关性越强
C.设随机变量,,则
D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
【答案】ACD
【分析】借助方差的性质即可判断A;根据线性相关系数的性质即可判断B;利用正态分布的对称性即可判断C;利用残差的性质逐项判断即可得.
【详解】对A:由方差的性质可知,将一组数据的每一个数减去同一个数后,
新数据的方差与原数据方差相同,故A正确;
对B:线性相关系数越大,两个变量的线性相关性越强,,故B错误;
对C:根据正态分布的对称性知,故C正确;
对D:在残差的散点图中,残差分布的水平带状区域的宽度越窄,
其模型的拟合效果越好,故D正确.
故选:ACD.
题型七:相关指数
1.已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
【答案】D
【分析】由恒为0,可得,再结合公式可求.
【详解】由恒为0,知恒成立,即恒成立,
故.
故选:D.
2.在建立两个变量与的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数依次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
【答案】C
【分析】根据决定系数的定义判断即可.
【详解】因为越大,表示残差平方和越小,即模型的拟合效果越好,所以这4个不同的模型拟合效果最好的模型是模型3.
故选:C
3.(多选)下列有关回归分析的结论中,正确的有( )
A.对于回归方程,变量每增加1个单位,则平均减少个单位
B.两个变量,的相关系数越小,,之间的线性相关程度越弱
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
D.用最小二乘法求得一组成对数据的回归方程,若增加一个新的样本点,则得到的新回归方程可能不变
【答案】ACD
【分析】根据回归直线方程的意义判断A、D,根据相关系数的概念判断B,根据相关指数的定义判断C.
【详解】对于A:对于回归方程,变量每增加1个单位,则平均减少个单位,故A正确;
对于B:越接近于,则,之间的线性相关程度越强,
越接近于,则,之间的线性相关程度越弱,故B错误;
对于C:在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C正确;
对于D:若增加的样本点恰好为原回归直线的样本中心点时,
则增加该样本点后,回归方程不会发生改变,故D正确.
故选:ACD
4.近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【答案】
【分析】将两边同时取对数可得,结合所给经验回归方程求出,由所给参考数据求出,即可求出决定系数.
【详解】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
题型八:非线性回归
1.2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【答案】C
【分析】首先利用换元法将回归方程转化为线性回归方程,再代入样本点中心,求,再根据方程进行预测.
【详解】设,,则
所以,
,且
则,得,
所以,
下午4点对应的,此时预测游客的人流量.
故选:C
2.(多选)对具有相关关系的两个变量x和进行回归分析时,下列结论正确的是( )
A.若A,B两组成对数据的样本相关系数分别为,,则A组数据比B组数据的相关性较强
B.若所有样本点都落在一条斜率为非零实数的直线上,则决定系数的值为1
C.若样本点的经验回归方程为,则在样本点处的残差为0.3
D.以模型去拟合一组数据时,为求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是和2
【答案】BD
【分析】对于A,根据相关系数的性质分析判断,对于B,根据决定系数的性质分析判断,对于C,根据残差的定义计算判断,对于D,对两边取对数化简与比较可求出c,k的值.
【详解】对于A,因为相关系数的绝对值越大,数据的相关性越强,而,
所以B组数据比A组数据的相关性较强,所以A错误,
对于B,因为所有样本点都落在一条斜率为非零实数的直线上,所以两个变量x和之间是一次函数,所以决定系数的值为1,所以B正确,
对于C,因为样本点的经验回归方程为,所以当时,,
所以残差为,所以C错误,
对于D,由,得,因为,所以,
因为,所以,得,所以D正确.
故选:BD
3.某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
【答案】(1)
(2),约为万元
【分析】(1)根据所给数据求出,,,,,即可求出相关系数;
(2)根据(1)的结论,可判断选择模型②,令,求出关于的线性回归方程,即可求出关于的经验方程,再代入计算可得.
【详解】(1)因为,
,
所以,
,
,
模型①中,相关系数,
(2)因为,所以选择模型②,
令,先建立关于的线性回归方程,
由于,
,
所以关于的线性回归方程为,
即,
当时,(万元),
所以若投入经费万元,收益约为万元.
4.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数,
回归直线中公式分别为,;
②参考数据:,,,.
【答案】(1)模型②的拟合程度更好
(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆)
(3)0.3
【分析】(1)分别求得模型①和②的相关系数,,然后比较得出结论;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)解:设模型①和②的相关系数分别为,.
由题意可得:,
.
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为0.3.
题型九:分类变量与列联表
1.根据分类变量x与y的观察数据,计算得到,依据下表给出的独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是( )
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
A.有95%的把握认为变量x与y独立
B.有95%的把握认为变量x与y不独立
C.变量x与y独立,这个结论犯错误的概率不超过10%
D.变量x与y不独立,这个结论犯错误的概率不超过10%
【答案】D
【分析】根据已知条件,结合独立性检验的定义即可求解.
【详解】因为,
所以变量x与y不独立,这个结论犯错误的概率不超过10%.
故选:D.
2.下面是一个列联表,其中a、b处填的值分别为( )
总计
a
21
73
2
25
27
总计
b
46
100
A.52、54
B.54、52
C.94、146
D.146、94
【答案】A
【分析】根据列联表运算求解即可.
【详解】由题意可得,解得,
所以a、b值分别为52、54.
故选:A.
3.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
药物
疾病
合计
未患病
患病
服用
a
50
未服用
50
合计
80
20
100
若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为 .(其中且)(参考数据:,)
附:,
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
【答案】46
【分析】根据公式列不等式求解.
【详解】由题意可得,
整理得,
所以或,
解得或,
又因为且,
所以,
所以a的最小值为46.
故答案为:46.
4.《开学第一课》是一年一度面向全国中小学生的大型公益节目,从2008年起于每年9月1日播出.2023年《开学第一课》以“强国复兴有我”为主题.为了了解观众对节目的喜爱程度,随机调查了,两个地区的100名观众,得到如下的2×2列联表.
非常喜欢
喜欢
合计
35
10
合计
已知在被调查的100名观众中随机抽取1名,该观众来自地区且喜爱程度为“非常喜欢”的概率为0.45.
(1)完成上述表格.现从100名观众中根据喜爱程度及地区的不同用分层抽样的方法抽取20名进行问卷调查,则应抽取喜爱程度为“非常喜欢”的,地区的人数各是多少?
(2)若以抽样调查的频率为概率,从地区随机抽取2人,设抽到喜爱程度为“非常喜欢”的观众的人数为,求的分布列和期望.
【答案】(1)表格见详解,7名,9名
(2)分布列见详解,
【分析】(1)先补全2×2列联表,再根据分层抽样的知识即可求解;
(2)由题意得随机变量服从二项分布,进而根据二项分布求解即可.
【详解】(1)由题意,得,解得,
补充完整的列联表,如下:
非常喜欢
喜欢
合计
35
10
45
45
10
55
合计
80
20
100
因为(名),(名),(名),
所以抽取的喜爱程度为“非常喜欢”的地区观众有7名,B地区观众有9名.
(2)从地区随机抽取1人,抽到的观众的喜爱程度为“非常喜欢”的概率.
随机变量服从二项分布,
随机变量的所有可能取值为0,1,2,
则,
,
,
所以的分布列为
0
1
2
所以(或).
题型十:独立性概念与计算
1.下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】C
【分析】根据线性相关系数,独立性检验,残差图及决定系数的概念分别判断即可.
【详解】线性相关系数越接近1,两个变量的线性相关程度越强,故①正确;
独立性检验并不能100%确定两个变量之间是否具有某种关系,故②错误;
回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故③正确;
回归分析中,可用判断模型的拟合效果,越大,模型的拟合效果越好,故④正确;
故选:C.
2.(多选)某县教育部门在辖区三所高中用简单随机抽样的方法调查了100名教师,征求其对延迟退休的态度(支持,不支持),就分类变量“教师对延迟退休的态度”与“性别”的成对样本数据计算得,依据的独立性检验,结论为( )
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.教师对延迟退休的态度与性别独立
B.教师对延迟退休的态度与性别独立,这个结论犯错误的概率不超过
C.教师对延迟退休的态度与性别不独立,这个结论犯错误的概率不超过
D.调查时按性别分层,采用分层随机抽样方法比简单随机抽样方法更好
【答案】CD
【分析】根据独立性检验的基本思想可判断.
【详解】因为时,,所以,
所以教师对延迟退休的态度与性别不独立,而且这个结论犯错误的概率不超过0.05,
故C,D正确;A,B错误.
故选:CD.
3.在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
【答案】③
【分析】根据题意,结合独立性检验的含义,逐项判定,即可求解.
【详解】①若的临界值,我们有的把握认为饮酒与患肝脏病有关系,
但在1000个饮酒的人中未必有900人患有肝脏病,所以①错误;
②从独立性检验可以知道99%的把握认为饮酒与患肝脏病有关系时,
是指饮酒与患肝脏病有关系的概率,而不是饮酒的人有99%的可能性有肝脏病,所以②错误:
③若从统计量中求出有99.5%的把握认为饮酒与患肝脏病有关系,
则有0.5%的可能性使得推断错误,所以③正确.
故答案为:③.
4.某社区对安全卫生进行问卷调查,请居民对社区安全卫生服务给出评价(问卷中设置仅有满意、不满意).现随机抽取了90名居民,调查情况如下表:
男居民
女居民
合计
满意
25
60
不满意
a
2a
合计
90
(1)利用分层抽样的方法从对安全卫生服务评价为不满意的居民中随机抽取6人,再从这6人中随机抽取2人,求这2人中男、女居民各有1人的概率;
(2)试通过计算判断能否在犯错误的概率不超过0.05的情况下认为男居民与女居民对社区安全卫生服务的评价有差异?
附:.
【答案】(1)
(2)答案见详解
【分析】(1)根据总人数解得,完善列联表,根据分层抽样比例关系计算得到人数,再计算概率得到答案.
(2)计算,对比临界值表得到答案.
【详解】(1)由已知,解得,
所以列联表如下:
男
女
合计
满意
35
25
60
不满意
10
20
30
合计
45
45
90
用分层抽样抽取6人,则男居民应抽取2人,女居民应抽取4人,
所以所抽取的2人中男、女居民各有1人的概率为;
(2)由,
所以在犯错的概率不超过0.05的前提下,
可以认为男居民与女居民对社区安全卫生服务的评价有差异.
题型十一:独立性检验的实际应用
1.(多选)根据分类变量与的成对样本数据,计算得到.已知,依据0.01的独立性检验,下列结论正确的是( )
A.若,则变量与不独立
B.若,则变量与独立
C.若,则变量与独立
D.若,则变量与不独立
【答案】CD
【分析】根据独立性检验的基本思想判断即可.
【详解】若,则变量与不独立,这个结论犯错误的概率不超过0.01.
若,则变量与独立.
故选:CD.
2.为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
【答案】AD
【分析】分别求出男生和女生经常锻炼的频率即可依据频率稳定于概率的原理判断,求出卡方值,和3.841比较即可根据小概率值的独立性检验判断.
【详解】由表可知,女生有21人,其中经常锻炼的有7人,频率为,
男生有19人,其中经常锻炼的有11人,频率为,
因为,依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响,故A正确,B错误;
,所以根据小概率值的独立性检验,
没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响,故D正确,C错误.
故选:AD
3. 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【答案】列联表见解析,有关
【分析】由题意确定列联表,求得,对比数据即可求解.
【详解】由题意分析可得,签约企业共45家,线上销售时间不少于8小时的企业有20家,
那么线上销售时间少于8小时的企业有25家,每天的销售额不足30万元的企业占,
共有.
完成列联表如下:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
3
20
线上销售时间不足8小时
10
15
25
合计
27
18
45
所以.
对应的参数为6.635.而,
所以可判断赞助企业每天的销售额与每天线上销售时间有关.
4.电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,能
(2)
(3)分布列见解析,
【分析】(1)由题意直接确定列联表,计算,对比数据即可判断;
(2)由条件概率计算公式即可求解;
(3)记“3名被抽取的男性市民中,恰好抽到k人参加座谈”记为事件,
求得,再由条件概率乘法公式和互斥事件加法公式计算随机变量取每一个值对应的概率,即可求解;
【详解】(1)被调查的女性市民人数为,
其中偏好铅酸电池电动车的女性市民人数为.
偏好石墨烯电池电动车的女性市民人数为,
所以2×2列联表为:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
300
女性市民
80
120
200
合计
280
220
500
零假设:市民对这两种电池的电动车的偏好与市民的性别无关,
根据列联表中的数据可以求得
,
由于,
根据小概率值的独立性检验,我们推断不成立,
即认为市民对这两种电池的电动车的偏好与市民的性别有关.
(2)因为偏好石墨烯电池电动车的市民中,男性市民与女性市民的比为,
所以采用分层抽样的方法抽取7的人中,男性市民有5人,女性市民有2人,
设“有女性市民参加座谈”为事件A,“恰有一名女性市民参加座谈”为事件B,
则,,
所以.
(3)因为所有参加调查的市民中,男性市民和女性市民的比为,
所以由分层抽样知,随机抽取的5名市民中,男性市民有3人,女性市民有2人.
根据频率估计概率知,男性市民偏好石墨烯电池电动车的概率为,偏好铅酸电池电动车的概率为,
从选出的5名市民中随机抽取2人进行座谈,则X可能的取值为0,1,2.
“3名被抽取的男性市民中,恰好抽到k人参加座谈”记为事件,
则.
“参加座谈的2名市民中是偏好石墨烯电池电动车的男性市民的人数恰好为m人”记为事件,
则,,
,,
,,
所以
,
,
,
故X的分布列如下:
X
0
1
2
P
.
(
2
)原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$