内容正文:
三0022
高二数)
假期必刷33统计与统计案例
壁立千仞,无欲则刚。
完成日期:
月
思维整合室
3.成对数据的统计分析
L.随机抽样
样本相关系数
(1)相关系数r的计算
(1)简单随机抽样
简单随机抽样分为
简单随机抽样
2(x,-x)y-)
和
简单随机抽样:
常用方法:
和
(2)样本相关系数r的取值范围为
(2)分层随机抽样
当|越接近1时,成对样本数据的线性相
当总体是由
的几个部分组成时,
关程度越
往往选用分层随机抽样。
当|越接近0时,成对样本数据的线性相
2.用样本的数字特征估计总体
关程度越
(1)总体百分位数的估计
4.一元线性回归模型
(1)经验回归方程与最小二乘法
定义
意义
经验回归方程:y=bx十a,其中
组数据的第p百分
反映该组
2(x,-x)(y:-y)
-
位数是这样一个值,
数中小于
(x,-x)
它使得这组数据中至
i=1
百分
或等于该
少有p%的数据小于
a=y-bx.
位数
百分位数
或等于这个值,且至
(2)利用决定系数R刻画回归效果
的分布
少有(100一p)%的数
特点
(y-少)
R2=1-
-1
据大于或等于这个值
,R2越
,即拟合
(y-y)2
1=1
(2)常用样本的数字特征
效果越好,R越
,模型拟合效果越差.
来估计总体总体的集中趋势
5.列联表与独立性检验
(3)总体离散程度的估计
(1)2×2列联表
假设一组数据是无1,x2,…,x。,用x表示
假设有两个分类变量X和Y,它们的取值
分别为{x,x2}和{y1,y2,其2×2列联
这组数据的平均数,那么这n个数的:
表为
①标准差
y
[红,}+,++红,-]:
S-Nn
合计
y=y
y=y2
②方差
x=T
b
a+b
g=(x-)+(-2++(x.
d
c+d
x)2].
合计
a+c
b+d
n=a+b+c+d
67
飞曼快乐假阴
SE
(2)临界值
4.(多选)在党中央、国务院决策部署下,近一
n(ad-bc)2
X-(a+b(eFd(a+e)(b+d)
对于任
年来我国经济运行呈现企稳回升态势.如图
何小概率值a,可以找到相应的正实数x。,
为2023年2月至2024年1月社会消费品
使得P(x≥x。)=a成立.我们称x。为a
零售总额增速月度同比折线图,月度同比指
的临界值.
的是与去年同期相比,图中纵坐标为增速百
(3)独立性检验
分比.就图中12个月的社会消费品零售总
当x>≥x。时,我们就推断H。不成立,即认
额增速而言,以下说法正确的是
为X和Y不独立,该推断犯错误的概率不
超过a;
当X<x。时,我们没有充分证据推断H。
5.4
3.5
2.5
不成立,可以认为X和Y独立。
2.7
-0.5
-1.8
独立性检验中几个常用的小概率值和相应
5.9
的临界值
-1
2月.3月4月5月6月7月8月9月10月11月12月1月
2023件
2024年
0.1
0.05
0.01
0.005
0.001
A.12个月的月度同比增速百分比的中位数
2.706
3.841
6.635
7.879
10.828
为1%
《技能提升台
B.12个月的月度同比增速百分比的平均值
1.下列一组数据的第25百分位数是
(
大于0
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,
C.图中前6个月的月度同比增速百分比波
5.3,5.6
动比后6个月的大
A.3.2
B.3.0
C.4.4D.2.5
D.共有8个月的月度同比增速百分比大于
2.从一批零件中抽取80个,测量其直径(单
位:mm),将所得数据分为9组:[5.31,
12个月的月度同比增速百分比的平均值
5.33),[5.33,5.35),…,[5.45,5.47),
5.(2023·高考上海卷)如图为2018一2021年
[5.47,5.49],并整理得到如下频率分布直
上海市货物进出口总额的条形统计图,则下
方图,则在被抽取的零件中,直径落在区间
列对于进出口贸易额描述错误的是()
[5.43,5.47)内的个数为
万亿
2018-2021巾国进出门总额总计图
组
40
10.00
8.75
7.50
30
6.25
14.09
1433
14.29
口进口
500
20
3.75
口出口
2.50
10
16.41
1721
21.73
1793
125
0
5315.335,355.375,395415.435.455.475,49
直径mm
2018
2019
2020
2021
年份
A.10
B.18
C.20
D.36
A.从2018年开始,2021年的进出口总额增
3.某校为了研究“学生的性别”和“对待某一活
长率最大
动的态度”是否有关,运用2×2列联表进行
独立性检验,经计算x=7.069,则认为“学
B.从2018年开始,进出口总额逐年增大
生性别与支持某项活动有关系”的犯错误的
C.从2018年开始,进口总额逐年增大
概率不超过
D.从2018年开始,2020年的进出口总额增
A.0.1%B.1%C.99%D.99.9%
长率最小
68
三0002
6.(多选)(2023·新高考I卷)有一组样本数
9.某学校为了调查学
频率组射
0.045
据x1,x2,…,x6,其中x1是最小值,x6是最
生生活方面的日支
大值,则
出情况,抽出了一个
8院
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6
容量为n的样本,将
的平均数
0203040506070元
数据按[20,30),[30,40),[40,50),[50,
B.x2x,x4,x的中位数等于x1,x2,…,x6
60),[60,70]分成5组,制定成如图所示的
的中位数
频率分布直方图,则a=
,要从日
C.x2xx4的标准差不小于1x2…,
x:的标准差
支出在[50,70]的样本中用分层抽样的方法
D.x2x,x4,x的极差不大于x1,x2,…,x6
抽取10人,则日支出在[60,70]中被抽取的
的极差
人数为
7.(多选)在统计中,由一组样本数据(x,y),
10.若某商品的广告费支出x(单位:万元)与
(x2y),…,(xy.)利用最小二乘法得到
销售额y(单位:万元)之间有如下表所示
两个变量的经验回归方程为y=bx+a,那
的对应数据:
么下列说法正确的是
2
4
5
6
8
A.相关系数r不可能等于1
B.直线y=ix十a必经过点(x,y)
20
40
60
70
80
C.直线y=ix十a表示最接近y与x之间
根据表中数据,利用最小二乘法求得y关
真实关系的一条直线
于x的经验回归方程为y=x十1.5,根据
D.相关系数为r,且r越接近于1,相关程
预测,当投入10万元时,销售额的估计值
度越大:x越接近于0,相关程度越小
为
万元
8.随着国家三孩政策的全面放开,为了调查一
11.(2023·全国甲卷(文))一项试验旨在研究
线城市和非一线城市的三孩生育意愿,某机
构用简单随机抽样的方法从不同地区调查
臭氧效应,试验方案如下:选40只小白鼠,
了100位育龄妇女,结果如下表.
随机地将其中20只分配到试验组,另外
20只分配到对照组,试验组的小白鼠饲养
城市级别
三孩生育意愿
合计
在高浓度臭氧环境,对照组的小白鼠饲养
非一线
线
在正常环境,一段时间后统计每只小白鼠
愿生
45
20
65
体重的增加量(单位:g).试验结果如下:
不愿生
13
对照组的小白鼠体重的增加量从小到大排
22
35
序为
合计
58
42
100
15.218.820.221.322.523.2
n(ad-bc)2
(ab(eFd)(a+e)(b+d)'
25.826.527.530.1
32.634.334.835.635.635.8
得x=
100×(45×22-20×13)2
58×42×35×65
≈9.616.
36.237.340.543.2
参照下表:
试验组的小白鼠体重的增加量从小到大排
序为
a
0.1
0.05
0.01
0.001
7.89.211.412.413.215.5
2.706
3.841
6.635
10.828
16.518.018.819.2
根据小概率值α=0.01的独立性检验,可以
19.820.221.622.823.623.9
得到的结论是
25.128.232.336.5
69
火受快乐假糊
SE
(1)计算试验组的样本平均数:
(1)从上表中任选2个成对数据,求该样本
(2)(1)求40只小白鼠体重的增加量的中
量为2的样本相关系数r.结合r值分析,
位数,再分别统计两样本中小于m与不
由简单随机抽样得到的成对样本数据的样
小于的数据的个数,完成如下列联表:
本相关系数是否一定能确切地反映变量之
间的线性相关关系?
m
≥1n
(2)根据散点图,我们选择两种不同的函数
对照组
模型作为回归曲线,根据一元线性回归模
试验组
型及最小二乘法,得到经验回归方程分别
(ⅱ)根据(1)中的列联表,能否有95%的
为:①y=bx+a,②y=17.8789lnx
把握认为小白鼠在高浓度臭氧环境中与在
75.2844.经验回归方程①和②的残差计
正常环境中体重的增加量有差异?
算公式分别为e,=y:-(b.x十a),u:=y,
n(ad-bc)2
(17.87891nx:-75.2844),i=1,2,…,9
附:K2=
(a+b)(c+d)(a+c)(b+d)'
(1)求2
P(K2≥k)
0.100
0.050
0.010
(ⅱ)经计算得经验回归方程①和②的残差
k
2.706
3.841
6.635
平方和分别为Q,=2(e:)2=5.0177,Q
=2(,)=2.5007,经验回归方程①的决
定系数R=0.9693,求经验回归方程②的
决定系数R.
2(x,-x)(y-)
附:相关系数r=
(x,-)2(y-
=1
12.混凝土的抗压强度x较容易测定,而抗剪
2(y,一,)
决定系数R2=1一
=
强度y不易测定,工程中希望建立一种能
y,-)
由x推算y的经验公式,下表列出了现有
】
的9对数据,分别为(x1,y1),(x2y2),…
2.5007×0.0307≈0.01530.
5.0177
(xgyg).
x
141152168182195
204
223
254277
y23.124.227.227.828.731.432.534.836.2
以成对数据的抗压强度x为横坐标,抗剪
强度y为纵坐标作出散点图,如图所示.
3
34
2302
2
22
20140160180200220240260280300
抗出强度x
70高二数学
12.解:(1)由已知可知,张某创业成功的概率为2,李某创业
4.AC [由折线图可得增速百分比(%)由小到大依次为:
-11.1,-6.7,-5.9,-3.5,-1.8,-0.5,2.5,2.7,3.1,3.
成功的概率为p。,且两人是否创业成功互不影响,
5.5.4,6.7,所以12个月的月度间比增速百分比的中位数为
记“这2人累计获得的奖金X<30”的事件为A.
-0.5+2.5-1(%),故A正确;
则事件A的对立事件为“X一50”,
2
因为[(-1.1)十(-6.7)十(-5.9)十(-3.5)十(-1.8)十
.P(A)#1-P(x-50)-1-。-7,解得Po-1.
(-0.5)+2.5+2.7+3.1+3.5+5.4+6.7]--
(2)设两位大学毕业生都选择创业项目甲且创业成功的次
个月的月度同比增速百分比的平均值小于0,故B错误;
数为X.,都选择创业项目乙且创业成功的次数为X。.
由折线图可得前6个月的月度同比增速百分比先大幅度波动
则这两人选择项目甲累计获得的奖金的均值为E(20X。),
后渐渐趋于稳定,后6个月的大波动整体较小,所以前6个月的
选择项目乙累计获得的奖金的均值为E(30X。),
月度同比增速百分比波动比后6个月的大,故C正确
由己知可得,x:~B(2,).x。~B(2.p。),
因为一
.E()-,E(X:)-2。
5.5.4,6.7,共有6个,所以共有6个月的月度同比增速百分
比大于12个月的月度同比增速百分比的平均值,故D
错误]
5.C [显然2021年相对于2020年进出口额增量增加特别明
显,故最后一年的增长率最大,A正确;统计图中的每一年条
形图的高度逐年增加,B正确;2020年相对于2019年的进口
总额是减少的,C错误;显然进出口总额2021年的增长率最
大,而2020年相对于2019年的增量比2019年相对于2018
综上所述,当0<p。<4时,他们都选择项目甲进行创业,
年的增量小,且计算增长率时前者的分母还大,故2020年的
增长率一定最小,D正确。]
累计得到的奖金的均值更大;
6.BD[因为++文,十1&十+1十七++。
当4<p。<1时,他们都选择项目乙进行创业,累计得到的
4
6
十。++-2(r十x。)
奖金的均值更大;
去0,所以A错误;因为r。
12
当p。二
-时,他们选择两项目进行创业,累计得到的奖全
是最小值,七是最大值,所以x。,r,工,r的中位数的位置
的均值相等.
与文。,X。,.,X。的中位数的位置相同,所以B正确;因为x
是最小值,x是最大值,距离数据x..工,...,x。的平均值较
假期必刷33
远,即波动性大,所以标准差大,所以C错误;假设工。,于,不.
思维整合室
七.的最小值为x,最大值为x,则xx,rx.,所以x-x
1.(1)放回 不放回 抽签法 随机数法
x一。,所以D正确.]
(2)差异明显
7.BCD [相关系数的取值范围是 r<1,故A错误;真线
2.(2)中位数 众数 平均数
十ā必过样本点中心即点(,),故B正确;直线y一十
3.(2)[-1,1]强 弱
ā是采用最小二乘法求解出的直线方程,接近真实关系,故
xy-nzy
C正确;相关系数”的绝对值越接近于1,表示相关程度超
4.(1)三
(2)大小
强,越接近于0,表示相关程度越弱,故D正确。]
8.生育意愿与城市级别有关
技能提升台
9.解析:(2×a+0.02+0.025+0.045)×10=1.
1. A 把该组数据按照由小到大排列,可得:2.1,3.0,3.2
解得a-0.005.
3.4.3.8.4.0.4.2.4.4,5.3,5.6.由i-10×25%-2.5,不是
因为[50,60)内和[60,70]内的样本个数比例为0.020;0.00
整数,则第3个数据3.2是第25百分位数,
-4:1,
2.B [因为直径落在区间[5.43,5.47]内的频率为0.02×
根据分层抽样可知,日支出在[60,70中被抽取的人数
(6.25+5.00)-0.225,所以所求个数为0.225×80-18.
为10×十2.
3.B [·x-7.0696.635=.认为“学生性别与支持
某项活动有关系”的犯错误的概率不超过1%。
答案:0.005 2
125
###
乐期
-1×(20+40+60
10.解析;-×(2+4+5+6+8)-5.y=
下),显然据此推断两个变量完全线性相关是不合理的,
样本相关系数可以反映变量之间相关的正负性及线性相关
+70+80)-54.
的程度,但由于样本数据的随机性,样本相关系数往往不能
.样本中心为(5,54).
确切地反映变量之间的相关关系,一般来说,样本量越大,
将其代入经验回归方程v-6r+1.5中,有54-5+1.5
根据样本相关系数推新变量之间相关的正负性及线性相关
解得-10.5.
的程度越可靠,而样本量越小,则越不可靠。
所以经验回归方程为;-10.5x+1.5.
()(1)--hr+ì)]--(b)-9-
当-10时,j-10.5×10+1.5-106.5.
答案:106.5
9(y-br-a)-0(直线y-br十ā经过数据的中心(r,y)).
2(y-){
11.解:(1)试验组样本平均数为20(7.8+9.2+11.4+12.4+
2():
(l)R-1-=
(-一)
--1-1二
13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2
300
#)#
()
21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)-
-19.8.
2(i)
()
(2)(I)依题意,可知这40只小鼠体重的中位数是将两组
则R-1-2({
#1-二)(“(1-R)
#(一)
#7)}
数据合在一起,从小到大排列后,第20位与第21位数据的
平均数,
由原数据可得第11位数据为18.8,后续依次为19.2,19
8.20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6....
R*越大,越接近于1,则模型的拟合效果越好,因此经验回
故第20位为23.2,第21位数据为23.6.
归方程②的拟合效果更好,为最优模型
所以m23.2+23.6-23.4.
假期必刷34
2
思维整合室
故列联表为:
1.(1)实部 虚部 (2)b-0 b0 a-0且b0
(③)a-c且
<nn合计
b-d (4)a=c.b=-d(5)la+bil lsl a+b
对照纽
6
14
20
2
2.Z(a,b)
实验组
/14
6
技能提升台
合计
20 20 40
1.C [(a+i(1-ai)-a-ai+i+a-2a+(1-a*)i-2,
(i)由(1)可得,r-40X(6×6-14×14)
r2a-2.
20×20X20×20
所以!
解得a-1.]
1--0.
-6.400>3.841.
2.D[:在复平面对应的点是(一1,③),根据复数的几何意
所以能有95%的把握认为小白鼠在高浓度突氧环境中与
在正常环境中体重的增加量有差异
义,一-1十③i,由共辄复数的定义可知,=-1-3i.]
12.解:(1)不妨设选择的成对数据分别为(x.,y).(x。,y),则
i(1+2i)
&(x-)(y-)
故。在复平面内对应的点位于第二象限,]
2()()一)
4.A [由题知(1+3i)(3-i)-3-i+9i-3i-6+8i,所以该
()(-)()()
复数在复平面内对应的点为(6,8),位于第一象限.]
()(n)(n)(w)
i(一D)
一2,故b的值为-2.
一.又由表格数据得,当xX<工。
6.A [因为 ---1,所以-1,所以:--1.]
时,yy.则,-1.
7.D[因为满足:一i一;十i的点乙为复乎面内到点(0,-1和
因为任意两个样本点都在一条直线上,则样本量为2的样
(0.1)的距离相等的点的集合,所以Z(x,y)的轨迹为-轴,
本相关系数绝对值都是1(在样本相关系数存在的情况
其方程为y-0.]
126