内容正文:
第九章 概率与统计 3
课时作业68 成对数据的统计分析
一、单项选择题
1.下面各图中,散点图与样本相关系数r不符合
的有 ( )
A
B
C
D
2.(2023·重庆一中高三阶段练习)根据分类变量
X 与Y 的观察数据,计算得到χ2=3.174,依据
下表给出的χ2 独立性检验中的小概率值和相
应的临界值,下列说法正确的是 ( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.有95% 的把握认为变量X 与Y 独立
B.有95% 的把握认为变量X 与Y 不独立
C.变量X 与Y独立,这个结论犯错误的概率不
超过10%
D.变量X 与Y不独立,这个结论犯错误的概率
不超过10%
3.观察下图的等高堆积条形图,其中最有把握认
为两个分类变量X,Y 之间没有关系的是
( )
A
B
C
D
4.某种产品的广告支出费用x(单位:万元)与销
售额y(单位:万元)的数据如下表:
x 2 4 5 6 8
y 30 40 60 50 70
已知y关于x的经验回归方程为ŷ=6x+â,则
当广告支出费用为5万元时,残差为 ( )
A.10万元 B.14万元
C.23万元 D.24万元
5.针对时下的“短视频热”,某高校团委对学生性
别和喜欢短视频是否有关联进行了一次调查,
其中被调查的男生、女生人数均为5m(m ∈
N*)人,男生中喜欢短视频的人数占男生人数
的4
5
,女生中喜欢短视频的人数占女生人数的
3
5.
零假设为H0:喜欢短视频和性别相互独立.
若我们推断H0 不成立,此推断犯错误的概率
不超过5%,则m 的最小值为 ( )
附:χ2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,
附表:
α 0.05 0.01
xα 3.841 6.635
A.7 B.8
C.9 D.10
-431-
hhh
二、多项选择题
6.下列有关样本相关系数r的说法正确的是
( )
A.样本相关系数r可用来衡量x与y之间的线
性相关程度
B.|r|≤1,且|r|越接近0,线性相关程度
越弱
C.|r|≤1,且|r|越接近1,线性相关程度
越强
D.|r|≤1,且|r|越接近1,线性相关程度
越弱
7.近年来,人工智能技术不断发展,各种AI应用
也不断普及.随着人工智能的加入,各类传媒、
影视、游戏行业迎来了高速的发展,AI技术降
低了这些行业的人力成本,提高了效率,如图
是某公司近年来在人力成本上的投入资金变
化情况的散点图,其中x 为年份代号(第1年至
第7年),y(单位:万元)为人力成本的投入资
金,小明选用2个模型来拟合,模型一:ŷ =
-5x+â,已知∑
7
i=1
yi =490,其中决定系数
R21=0.732
5,模型二:ŷ=ĉ1+ĉ2ln
x(ĉ2<0),
其中决定系数R22=0.918
3,则下列说法正确
的有 ( )
A.â=90
B.模型一中解释变量增加1个单位,响应变量
则大致减少5个单位
C.模型一中第7年的残差为5
D.模型一的拟合效果更好
8.通过随机询问相同数量的不同性别的大学生
在购买食物时是否看营养说明,得知有1
6
的男
大学生“不看”,有1
3
的女大学生“不看”,若有
99% 的把握认为性别与是否看营养说明之间
有关,则调查的总人数可能为 ( )
附:χ2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中
n=a+b+c+d.
α 0.10 0.010 0.001
xα 2.706 6.635 10.828
A.150 B.170 C.192 D.216
三、填空题
9.第19届亚运会于2023年9月23日至10月8日
在杭州举行,某网络直播平台调研“大学生是
否喜欢观看体育比赛直播与性别有关”,从某
高校男、女生中各随机抽取100人进行问卷调
查,得到如下数据(5≤m ≤15,m ∈N).
喜欢观看 不喜欢观看
男生 80-m 20+m
女生 50+m 50-m
通过计算,有95%以上的把握认为大学生喜欢
观看体育比赛直播与性别有关,则在被调查的
100名女生中喜欢观看体育比赛直播的人数的
最大值为 .
附:χ2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中
n=a+b+c+d.
α 0.15 0.10 0.05 0.010 0.001
xα 2.072 2.706 3.841 6.635 10.828
10.根据下面的数据:
x 1 2 3 4
y 31.6 52.5 72 91.9
-432-
第九章 概率与统计 3
求得y 关于x 的经验回归方程为ŷ=20x+
12,则这组数据相对于所求的经验回归方程
的4个残差的方差为 .
11.某池塘中水生植物的覆盖水塘面积x(单位:
dm2)与水生植物的株数y(单位:株)之间的
相关关系,收集了4组数 据,用 模 型y =
cekx(c>0)去拟合x与y的关系,设z=ln
y,
x 与z的数据如表格所示:
x 3 4 6 7
z 2.5 3 4 5.9
得到x 与z的经验回归方程ẑ=0.7x+â,则
c= .
四、解答题
12.(2024·江西吉安教学质量检测)某乡镇为了
提高乡镇居民收入,对山区进行大面积指导
农民种植黄芪、党参、当归等药材,同时在种
植药材附近种植草,让牛羊吃,发展畜牧业,
第二年将种植药材的地改种草让牛羊吃,将
牛羊吃过的草地改种药材,这样药材的生长
主要依靠牛羊等有机肥来供给,提高药效,同
时增加农民的经济收入.现将该乡镇某农户
近7年(2016年至2022年对应年份代码1~
7)的种植药材的收入金额绘成折线图(如
图),同时统计出相关数据:
7≈2.65,∑
7
i=1
yi =266,∑
7
i=1
xiyi =1
197,
∑
7
i=1
(yi-y)2 =25.8,∑
7
i=1
(xi -x)(yi -
y)=133.
(1)根据图中所给出的折线图,判断ŷ=b̂x+
â和ŷ=m̂ex+n̂哪一个更适合作为回归模型;
(给出判断即可,不必说明理由)
(2)求样本相关系数r(保留两位小数)并求种
植药材收入y关于年份代码x的经验回归方程;
(3)若在生物学上将在药材附近同时种植草
称作间作,将药材和草每年轮流种植称作轮
作,根据题目所给信息,分析这两种种植方式
对当地居民收入的影响.
附:样本相关系数r=
∑
n
i=1
(xi-x)(yi-y)
∑
n
i=1
(xi-x)2∑
n
i=1
(yi-y)2
,经验回归直线
ŷ=b̂x+â中斜率和截距的最小二乘估计公
式分别为b̂=
∑
n
i=1
(xi-x)(yi-y)
∑
n
i=1
(xi-x)2
,â=y-b̂x.
-433-
hhh
13.(2024·云南开远第一中学高三开学考)新能
源汽车是指除汽油、柴油发动机之外的所有
其他能源汽车,被认为能减少空气污染和缓
解能源短缺的压力.在当今提倡全球环保的
前提下,新能源汽车越来越受到消费者的青
睐,新能源汽车产业也必将成为未来汽车产
业发展的导向与目标.某机构从某地区抽取
了500名近期购买新能源汽车的车主,调查他
们的年龄情况(如图),其中购买甲车型的有
200人.
(1)估计购买新能源汽车的车主年龄的平均
数和中位数;
(2)将年龄不低于45岁的人称为中年,低于
45岁的人称为青年,购买其他车型的车主青
年人数与中年人数之比为3∶1,完成下列2×
2列联表,依据α=0.005的独立性检验,能
否认 为 购 买 甲 车 型 新 能 源 汽 车 与 年 龄
有关?
青年 中年 合计
甲车型
其他车型
合计
(3)用比例分配的分层随机抽样的方法从购买
甲车型的样本中抽取8人,再从中随机抽取4
人,记青年有X 人,求X 的分布列和数学期望.
附:χ2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,n=a+
b+c+d.
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
-434-
hhh
课时作业68 成对数据的
统计分析
1.B 对于A,散点图上所有点都在一条
斜率小于0的直线上,所以样本相关系
数r= -1,A正确;对于B,散点图上
所有点都在一条斜率大于0的直线上,
所以样本相关系数r=1,B错误;对于
C,散点图上所有点从左到右是向下的
带状分布,所以样 本 相 关 系 数 -1<
r<0,C正确;对于D,散点图中,x,y
之间的线性相关关系 非 常 不 明 显,所
以样本相关系数r=0,D正确.故选B.
2.D 由题意,χ2=3.174>2.706,所以
有90% 的把握认为变量 X 与Y 不独
立,即变量X 与Y 不独立,这个结论犯
错误的概率不超过10%.故选D.
3.B 根据题意,在等高堆积条形图中,
当X1,X2 所占比例相差越大时,越有
把握认为两个分类变量X,Y 之间有关
系,对于B,X1,X2所占比例相差无几,
所以最有把握认为两个分类变量 X,Y
之间没有关系.故选B.
4.A x =5,y =50,代 入 经 验 回 归 方
程,得â=20,将x =5代入经验回归
方程,得ŷ =6×5+20=50,残差为
60-50=10(万元).故选A.
5.C 依题意得男生中喜欢短视频的人
数为4m 人,男生中不喜欢短视频的人
数为m 人,女生中喜欢短视频的人数
为3m 人,女生中不喜欢短视频的人数
为2m 人,所以2×2列联表为:
喜欢短视
频人数
不喜欢短
视频人数
合计
男生人数 4m m 5m
女生人数 3m 2m 5m
合计 7m 3m 10m
零假设为 H0:喜欢短视频和性别相互
独 立,χ2 =
10m(8m2-3m2)2
5m·5m·7m·3m =
10m
21
,因为推断 H0 不成立犯错误的概
率不超过5%,所以10m21 ≥3.841
,解得
m ≥8.066
1,因为m∈N*,所以m 的
最小值为9.
6.ABC 样本相关系数是来衡量两个变
量之间的线性相关程度 的,样 本 相 关
系数是一个绝对值小于或等于1的量,
并且它的绝对值越大就说明线性相关
程度 越 强,所 以 不 正 确 的 只 有 D.故
选ABC.
7.AB 对于A,因为∑
7
i=1
yi =490,所以
y=70,又x =4,代入ŷ= -5x+â,
得到70= -5×4+â,解得â=90,故
A正确;对 于 B,因 为 模 型 一 为 ŷ =
-5x+90,故解释变量x 增加1个单
位,响应变量y 则大致减少5个单位,
故B正确;对于C,令x =7,则 ŷ =
-5×7+90=55,则 残 差 为50-
55= -5,故C错误;对于D,因为R21=
0.732
5<R22 =0.918
3,故模型二拟
合效果更好,故D错误.故选AB.
8.CD 设 男 女 大 学 生 各 有 m(m >0)
人,根据题意列出2×2列联表,如下:
看 不看 合计
男
5
6m
1
6m m
女
2
3m
1
3m m
合计
3
2m
1
2m 2m
所以χ2 =
2m 56m×
1
3m-
1
6m×
2
3m
2
3
2m×
1
2m×m×m
=
2m
27
,因为有99% 的把握认为性别与是
否看 营 养 说 明 之 间 有 关,所 以2m
27 ≥
6.635,解 得2m ≥179.145,又 m =
6n,n∈N*,结合选项,可知C,D符合
题意,故选CD.
9.58
解析:因为χ2 =
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)=
200[(80-m)(50-m)-(20+m)(50+m)]2
100×100×130×70 =
8(15-m)2
91 ≥3.841
,所以(15-m)2 ≥
43.7,又5≤m≤15,所以15-m≥7,
解得m ≤8,故在被调查的100名女生
中喜欢观看体育比赛直播的人数的最
大值为58.
10.0.105
解析:根据ŷ=20x+12,分别将x=
1,2,3,4代入 求 得 ŷ 分 别 为:32,52,
72,92,则4个 残 差 为 -0.4,0.5,0,
-0.1,残差的平均数为0,故残差的
方差为s2 =
1
4 ×
[(-0.4-0)2 +
(0.5-0)2 + (0-0)2 + (-0.1-
0)2]=0.105.
11.e0.35
解析:由已知可得,x =
3+4+6+7
4 =5
,z=
2.5+3+4+5.9
4 =3.85
,所以3.85=
0.7×5+â,解得â =0.35,所以ẑ =
0.7x+0.35,由z =ln
y,得ln
ŷ =
0.7x+0.35,所 以 ŷ =e0.7x+0.35 =
e0.35·e0.7x,所以c=e0.35.
12.解:(1)因为折线图更接近直线,所以
ŷ =b̂x+â更适合作为回归模型.
(2)因为x=
1
7×
(1+2+3+4+5+
6+7)=4,
∑
7
i=1
(xi-x)2=(1-4)2+(2-4)2+
(3-4)2+(4-4)2+(5-4)2+(6-
4)2+(7-4)2 =28,
样本相关系数r=
∑
7
i=1
(xi -x)(yi -y)
∑
7
i=1
(xi -x)2∑
7
i=1
(yi -y)2
=
133
27×25.8
≈
133
2×2.65×25.8≈
0.97.
根据题意,可得b̂=
∑
7
i=1
(xi -x)(yi -y)
∑
7
i=1
(xi -x)2
=
133
28 =
4.75.
y =
1
7∑
7
i=1
yi =38,â =y-b̂x =
38-4.75×4=19.
所以种植药材收入金额y关于年份代
码x的经验回归方程为ŷ=4.75x+19.
(3)(答案不唯一,合理即可)① 间作:
药材和草的间作一方面可以同时发
展畜牧业来增加居民收入,另一方面
可以实现土地的利用率,实现单位面
积内经济效益的最大化;② 轮作:一
方面牛羊粪等有机肥可以用来供给
药材的生长从而提高乡镇居民收入,
另一方面可以调节土壤的肥沃能力,
形成良性循环,进一步提高土地的生
态效益和经济效益.
13.解:(1)购买新能源汽车的车主年龄
的平均数为
20×0.005×10+30×0.025×10+
40×0.032
5×10+50×0.032
5×
10+60×0.005×10=40.75(岁).
设购买新能源汽车的车主年龄的中
位数为t岁,
∵0.05+0.25<0.5,0.05+0.25+
0.325>0.5,
∴0.05+0.25+(t-35)×0.032
5=
0.5,∴t≈41.15.
(2)由直方图可知,购买甲车型的青年人
数为200×(0.005+0.025+0.032
5)×
10=125,中年人数为200-125=
75,购 买 其 他 车 型 的 青 年 人 数 为
(500-200)×
3
3+1=
225,中年人数
为300-225=75,
于是得2×2列联表:
青年 中年 合计
甲车型 125 75 200
其他车型 225 75 300
合计 350 150 500
-644-
参
考
答
案
因为χ2 =
500×(125×75-75×225)2
200×300×350×150 =
125
14 ≈8.929>7.879
,
所以,有99.5% 的把握认为购买甲车
型新能源汽车与年龄有关.
(3)用比例分配的分层随机抽样的方
法从购买甲车型的样本中抽取8人,
则青年有8×
125
200=5
(人),中年有8×
75
200=3
(人),所以 X 的可能取值为
1,2,3,4,
P(X = 1)=
C15C33
C48
=
5
70 =
1
14
,
P(X = 2)=
C25C23
C48
=
30
70 =
3
7
,
P(X = 3)=
C35C13
C48
=
30
70 =
3
7
,
P(X =4)=
C45C03
C48
=
5
70=
1
14
,
所以X 的分布列为
X 1 2 3 4
P 114
3
7
3
7
1
14
所以E(X)=1×
1
14+2×
3
7+3×
3
7 +4×
1
14=
5
2.
课时作业69 概率与统计的
综合问题
1.解:(1)“销售员”的日薪y1(单位:元)
与销售件数x1 的函数关系式为
y1 =
20x1+50,x1 ≤5,x1 ∈N,
30x1,x1 >5,x1 ∈N,
“送外卖员”的日薪y2(单位:元)与所
送单数x2 的函数关系式为y2 =
3x2,x2 ≤20,x2 ∈N,
4x2-20,20<x2 ≤40,x2 ∈N,
4.5x2-40,x2 >40,x2 ∈N.
(2)由条形图知,日平均销售量满足如
下表格:
销售量/件 3 4 5 6 7
频率 0.050.20.250.4 0.1
所以X1 的分布列为
X1 110 130 150 180 210
P 0.050.20.250.4 0.1
所以 E(X1)=110×0.05+130×
0.2+150×0.25+180×0.4+210×
0.1=162(元).
由频率分布直方图可知,日送单数满
足如下表格:
日送单数 10 30 50 70 90
频率 0.050.250.450.2 0.05
所以X2 的分布列为
X2 30 100 185 275 365
P 0.050.250.45 0.2 0.05
所以 E(X2)= 30×0.05+100×
0.25+185×0.45+275×0.2+365×
0.05=183(元).
由以上计 算 得 E(X2)>E(X1),做
“送外卖员”挣的更多,故小明选择做
“送外卖员”的工作比较合适.
2.解:(1)令μ = x,则y=bμ+a,根
据已知数据表得到下表:
x 1 4 9 16253649
μ = x 1 2 3 4 5 6 7
y 0 4 7 9 111213
μ =
1+2+3+4+5+6+7
7 =4
,
y =
0+4+7+9+11+12+13
7
=8,
通过上表计算可得b̂=
∑
7
i=1
μiyi -7μy
∑
7
i=1
μ2i -7μ2
=
283-7×4×8
140-7×16
=
59
28
,
所以â =y-̂bμ = -
3
7
,
故y 关于x 的经验回归方程为
ŷ =
59
28 x -
3
7.
(2)7天中幼苗高度大于y =8的有4
天,小于或等于8的有3天,从散点图
中任取3个点,即从这7天中任取3天,
所以这3个点中幼苗的高度大于y 的
点的个数ξ 的所有可能取值为0,1,
2,3,
P(ξ=0)=
C33C04
C37
=
1
35
;
P(ξ=1)=
C23C14
C37
=
12
35
;
P(ξ=2)=
C13C24
C37
=
18
35
;
P(ξ=3)=
C03C34
C37
=
4
35.
所以随机变量ξ的分布列为
ξ 0 1 2 3
P 135
12
35
18
35
4
35
随机变量ξ的均值
E(ξ)=0×
1
35+1×
12
35+2×
18
35+3×
4
35=
12
7.
3.解:(1)因为甲流水线生产的产品,每
箱中含有0件二级品的概率为0.8,
所以甲流水线生产的100箱产品中有
80件“星级产品”,
因为乙流水线生产的产品,每箱中含有
0件二级品的概率为0.7,
所以乙流水线生产的100箱产品中有
70件“星级产品”,
由题意,得到2×2列联表如下:
流水线
产品级别
星级产品 非星级产品
合计
甲流水线 80 20 100
乙流水线 70 30 100
合计 150 50 200
零假设为 H0:产品为“星级产品”与流
水线无关.
∵χ2=
200×(80×30-20×70)2
100×100×150×50 ≈
2.667<3.841,
根据小概率值α =0.05的独立性检
验,没有充分的证据推断 H0 不成立,
因此可以认为 H0 成立,即产品为“星
级产品”与流水线无关.
(2)依题意,X 的所有可能取值为0,1,
2,3,4,
则P(X =0)=0.8×0.8=0.64,
P(X =1)= C120.8×0.1=0.16,
P(X =2)= C120.8×0.1+0.1×
0.1= 0.17,P(X = 3)= C120.1×
0.1=0.02,P(X =4)=0.1×0.1=
0.01,
所以X 的分布列为
X 0 1 2 3 4
P 0.640.160.170.020.01
E(X)=0×0.64+1×0.16+2×
0.17+3×0.02+4×0.01=0.6.
(3)设“4件产品都为一级品”为事件
A,“箱中有i件二级品”为事件Bi(i=
0,1,2),
则P(A|B0)=1,P(A|B1)=
C411
C412
=
2
3
,P(A|B2)=
C410
C412
=
14
33
,
所以该层4件 产 品 都 为 一 级 品 的 概
率为:
P(A)= P(AB0 +AB1 +AB2)=
P(B0)P(A |B0)+ P(B1)P(A |
B1)+P(B2)P(A|B2)=0.7×1+
0.2×
2
3 +0.1×
14
33=
289
330.
4.解:(1)要使400<S≤800,可知空气
质量指数(AQI)200<x ≤300,
根据题意,空气质量指数(AQI)200<
x ≤300的为20天,
所调取的数据为100天,
所以概率为P =
20
100=
1
5.
(2)补充的2×2列联表为
重度污染 非重度污染 合计
供暖季的天数 8 22 30
非供暖季的天数 7 63 70
合计 15 85 100
-645-