内容正文:
快乐假期
假期必刷33
统计与统计案例
壁立千仞,无欲则刚。
完成日期:
月
思维整合室
3.成对数据的统计分析
1.随机抽样
样本相关系数
(1)相关系数r的计算
(1)简单随机抽样
简单随机抽样分为
简单随机抽样
(x,-x)(y,-)
i=1
和
简单随机抽样;
常用方法:
和
(2)样本相关系数r的取值范围为
(2)分层随机抽样
当|r越接近1时,成对样本数据的线性相
当总体是由
的几个部分组成时,
关程度越
往往选用分层随机抽样,
当r越接近0时,成对样本数据的线性相
2.用样本的数字特征估计总体
关程度越
(1)总体百分位数的估计
4.一元线性回归模型
(1)经验回归方程与最小二乘法
定义
意义
经验回归方程:y=x十a,其中
组数据的第p百分
反映该组
2(x,-x)(y:-)
位数是这样一个值,
=1
b
数中小于
(x,-x)
它使得这组数据中至
i=1
百分
或等于该
少有%的数据小于
la=y-bz.
位数
百分位数
或等于这个值,且至
(2)利用决定系数R刻画回归效果
的分布
少有(100一p)%的数
特点
(y-)
R2=1-
i=1
据大于或等于这个值
,R2越
,即拟合
(y-y)2
=1
(2)常用样本的数字特征
效果越好,R越
,模型拟合效果越差。
来估计总体总体的集中趋势
5.列联表与独立性检验
(3)总体离散程度的估计
(1)2×2列联表
假设有两个分类变量X和Y,它们的取值
假设一组数据是x1,x2,…,xn,用x表示
分别为{x1,x2}和{y1,y2},其2×2列联
这组数据的平均数,那么这n个数的:
表为
①标准差
y
s=a+,++门:
合计
y=y
y=y2
②方差
x-x
a
a+b
=(x,-)+(-)+…+(x,
x-x2
d
c+d
x)2].
合计
a+c
b+d
n=a+b+c+d
68
三0022
盒二数半
(2)临界值
4.(2024·新课标Ⅱ卷)某农业研究部门在面
X-
n(ad-bc)2
(a+b)(c+d)(a十c)(b+d):对于任
积相等的100块稻田上种植一种新型水稻,
得到各块稻田的亩产量
何小概率值a,可以找到相应的正实数x。,
(单位:kg),并部分整理得下表:
使得P(x2≥x。)=a成立.我们称x。为a
亩产量[900,950)[950,1000)[1000,1050)[1100,1150)[1150,1200)
的临界值
频数
6
12
18
24
10
(3)独立性检验
据表中数据,下列结论正确的是
(
当x≥x。时,我们就推断H。不成立,即认
为X和Y不独立,该推断犯错误的概率不
A.100块稻田亩产量的中位数小于1050kg
超过a;
B.100块稻田中亩产量低于1100kg的稻
当X<x。时,我们没有充分证据推断H。
田所占比例超过80%
不成立,可以认为X和Y独立
C.100块稻田亩产量的极差介于200kg到
独立性检验中几个常用的小概率值和相应
300kg之间
的临界值
D.100块稻田亩产量的平均值介于900kg
0.1
0.05
0.01
0.005
0.001
到1000kg之间
5.如图为2021一2024年上海市货物进出口总
2.706
3.841
6.635
7.879
10.828
额的条形统计图,则下列对于进出口贸易额
《《技能提升台
描述错误的是
(
1.下列一组数据的第25百分位数是
(
2021-2024中国进出口总额总计图
万亿
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,
40
5.3,5.6
30
7.37
A.3.2
B.3.0
C.4.4
D.2.5
口进口
14.09
14.31
4.29
2.(2024·天津卷)下列图中,线性相关系数最
20
口出口
大的是
(
10
16.41
17.2
21.7
17.93
2021
2022
2023
2024
年份
A.从2021年开始,2024年的进出口总额增
长率最大
B.从2021年开始,进出口总额逐年增大
C.从2021年开始,进口总额逐年增大
D.从2021年开始,2023年的进出口总额增
长率最小
6.(多选)给出下列命题,其中正确命题为(
3.某校为了研究“学生的性别”和“对待某一活
A.已知数据x1、x2、x3、…、10,满足:x;
动的态度”是否有关,运用2×2列联表进行
x,-1=2(2≤i≤10),若去掉x1、x1。后组
独立性检验,经计算x=7.069,则认为“学
成一组新数据,则新数据的方差为21
生性别与支持某项活动有关系”的犯错误的
B.随机变量X服从正态分布N(1,o2),P(
概率不超过
(
)
>1.5)=0.34,若P(x<a)=0.34,则a
A.0.1%B.1%
C.99%
D.99.9%
=0.5
69
飞受快乐假职
C.一组数据(x,y)(i=1,2,3,4,5,6)的经
9.某学校为了调查学
频率/组距
0.045
验回归方程为y=2x十3,若之,=30,则
生生活方面的日支
8
2=63
出情况,抽出了一个
容量为n的样本,将
0203040506070元
D.对于独立性检验,随机变量x2的值越大,
数据按[20,30),[30,40),[40,50),[50
则推断“两变量有关系”犯错误的概率
越小
60),[60,70]分成5组,制定成如图所示的
7.(多选)(2025·大连模拟)变量x与变量y
频率分布直方图,则a=
.要从日
的20对数据记为(xy:),其中i∈N,i≤
支出在[50,70]的样本中用分层抽样的方法
20品三y六三限粥绿小二乘
抽取10人,则日支出在[60,70]中被抽取的
人数为
法求得线性回归方程是y=i.x+a,变量间
的相关系数为,则下列说法中正确的是
10.若某商品的广告费支出x(单位:万元)与
销售额y(单位:万元)之间有如下表所示
A.利用线性经验回归方程计算所得的y:与
的对应数据:
实际值y:必有误差
2
4
5
6
8
B.线性经验回归直线y=bx十a必过点(x,y)
C.若所有的点(x,y:)都在线性经验回归直
20
40
60
70
80
线y=x十a上,则r=1
根据表中数据,利用最小二乘法求得y关
D.若变量x与y正相关,则r>0
于x的经验回归方程为y=x十1.5,根据
8.随着国家三孩政策的全面放开,为了调查一
预测,当投入10万元时,销售额的估计值
线城市和非一线城市的三孩生育意愿,某机
构用简单随机抽样的方法从不同地区调查
为
万元
了100位育龄妇女,结果如下表.
11.(2024·全国甲卷(理))某工厂进行生产线
智能化升级改造,升级改造后,从该工厂
城市级别
三孩生育意愿
合计
甲、乙两个车间的产品中随机抽取150件
非一线
一线
进行检验,数据如下:
愿生
45
20
65
优级品合极品不合格品总计
不愿生
13
22
35
甲车间
26
24
0
50
合计
58
42
100
乙车间
70
28
2
100
总计
96
52
2
150
由父=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)'
(1)填写如下列联表:
得x2
100×(45×22-20×13)≈9.616.
优级品
非优级品
58×42×35×65
甲车间
参照下表:
乙车间
0.1
0.05
0.01
0.001
能否有95%的把握认为甲、乙两车间产品
2.706
3.841
6.635
10.828
的优级品率存在差异?能否有99%的把
根据小概率值α=0.01的独立性检验,可以
握认为甲、乙两车间产品的优级品率存在
得到的结论是
差异?
70
三0022
高三数类逊)
(2)已知升级改造前该工厂产品的优级品率
(1)从上表中任选2个成对数据,求该样本
p=0.5.设p为升级改造后抽取的n件产品
量为2的样本相关系数r.结合r值分析,
由简单随机抽样得到的成对样本数据的样
的优级品率,如果p>p+1.65
1一卫),则
本相关系数是否一定能确切地反映变量之
认为该工厂产品的优级品率提高了,根据抽
间的线性相关关系?
取的150件产品的数据,能否认为生产线智
(2)根据散点图,我们选择两种不同的函数
能化升级改造后,该工厂产品的优级品率提
模型作为回归曲线,根据一元线性回归模
高了?(/150≈12.247)
型及最小二乘法,得到经验回归方程分别
n(ad-bc)2
为:①y=bx+a,②y=17.8789lnx
附:K2=(a+b)(c+d)(a+c)b+d)'
75.2844.经验回归方程①和②的残差计
P(K≥k)
0.050
0.010
0.001
算公式分别为e:=y-(ix,十a),u:=y,
(17.8789lnx,-75.2844),i=1,2,,9
3.841
6.635
10.828
(i)求2e:
(ⅱ)经计算得经验回归方程①和②的残差
平方和分别为Q,=∑(e,)2=5.0177,Q。
i-
=2(,)2=2.5007,经验回归方程①的决
定系数R=0.9693,求经验回归方程②的
决定系数R.
2(x,-x)(y,一)
附:相关系数r
2(x-x)2(y-y)2
=1
(y-y)
决定系数R=1
i=1
12.混凝土的抗压强度x较容易测定,而抗剪
(y-y)
i=1
强度y不易测定,工程中希望建立一种能
2.5007×0.0307≈0.01530.
5.0177
由x推算y的经验公式,下表列出了现有
的9对数据,分别为(x1,y1),(x2,y2),…,
(zg,y9).
x141152168182
195
204223
254
277
y23.124.227.227.828.731.432.534.836.2
以成对数据的抗压强度x为横坐标,抗剪
强度y为纵坐标作出散点图,如图所示
381
534
30
26
24
22
120140160180200220240260280300
抗压强度x
71三0022-.
假期必刷33
思维整合室
1.(1)放回不放回抽签法随机数法
(2)差异明显
2.(2)中位数众数平均数
3.(2)[-1,1]强弱
0w,-
(2)大小
2号-r2
技能提升台
1.A[把该组数据按照由小到大排列,可得:2.1,3.0,3.2,
3.4,3.8,4.0,4.2,4.4,5.3,5.6,由i=10×25%=2.5,不
是整数,则第3个数据3.2是第25百分位数.门
2.A[观察4幅图可知,A图散,点分布比较集中,且大体接
近某一条直线,线性回归模型拟合效果比较好,呈现明显
的正相关,r值相比于其他3图更接近1.]
3.B[·X2=7.069>6.635=x0.01.认为“学生性别与支
持某项活动有关系”的犯错误的概率不超过1%.」
4.C[对于A,根据频数分布表可知,6+12+18=36<50,
所以亩产量的中位数不小于1050kg,故A错误;
对于B,亩产量低于1100kg的稻田所占比例为
6+12+18+30×100%=66%,故B不正确:
100
对于C,稻田亩产量的极差最大为1200一900=300,最小
为1150-950=200,故C正确:
对于D,由频数分布表可得,亩产量在[1050,1100]的频
数为100一(6+12+18+24+10)=30,
平均值为00×(6×925+12×975+18×1025+30×1
075+24×1125+10×1175)=1067,故D错误.]
5.C[显然2024年相对于2023年进出口额增量增加特别
明显,故最后一年的增长率最大,A正确;统计图中的每
一年条形图的高度逐年增加,B正确:2023年相对于2022
年的进口总额是减少的,C错误;显然进出口总额2024年
的增长率最大,而2023年相对于2022年的增量比2022
年相对于2021年的增量小,且计算增长率时前者的分母
还大,故2023年的增长率一定最小,D正确.]
6.ABD[对于A选项,去掉工1,x10后的平均数为
x2十x3+…+xg_8x1十72
-=x1十9,
8
8
方差为2四-9)2+(-x1-92+…+(0-4-92
8
21,故A选项正确;
对于B选项,由于随机变量X服从正态分布N(1,σ),
P(X>1.5)=0.34,
则P(X<a)=P(X>1.5)=0.34,a,1.5关于1对称,则
a=0.5,故B选项正确;对于C选项,因为2,=30,所以
x=5,又因为经验回归方程为y=2x十3,所以y=2X5十
3=13,所以含,=13×6=78,故C选项错误:对于D选
意三教尖垫
项,对于独立性检验,随机变量X的值越大,则两变量有
关系的程度的错误率更低,故X越大,判定“两变量有关
系”的错误率更低,D选项正确.]
7.BCD[对于A,若所有样本点都在线性回归直线上,则
y;与y;相等,故A错误;对于B,线性回归直线y=ix十a
必过样本数据的中心点(x,y),故B正确;对于C,若所有
样本点都在线性回归直线上,则变量间的相关系数为士
1,即r=1,故C正确;对于D,变量x与y正相关,则r
>0,故D正确.]
8.生育意愿与城市级别有关
9.解析:(2×a十0.02十0.025十0.045)×10=1,
解得a=0.005,
因为[50,60)内和[60,70]内的样本个数比例为0.020:0.005
=4:1,
根据分层抽样可知,日支出在[60,70]中被抽取的人数
1
为10×1十4-2.
答案:0.0052
10,解折:=号×(2+4+5+6+8)=5,y=号×(20十40+
60+70+80)=54,
.样本中心为(5,54),
将其代入经验回归方程y=ix+1.5中,有54=5b+
1.5,解得b=10.5,
所以经验回归方程为y=10.5x十1.5,
当x=10时,y=10.5×10+1.5=106.5.
答案:106.5
11.解:(1)列联表如下:
优级品
非优级品
甲车间
26
24
乙车间
70
30
K2=150(26×30-24×70)2
=4.6875
96×54×100×50
3.841<4.6875<6.635
∴.有95%的把握认为甲、乙两车间产品的优级品存在差
异,没有99%的把握认为甲乙两车间产品的优级品存在
差异
(2)由(1)知,p=150
96
=0.64,p=0.5,
.p+1.65
(1-p)
n
=0.5+1.65
/0.5×0.5
150
0.5+1.65×0.5≈0.567.
12.247
“p>p+1.65,/DI-
能认为生产智能化升级改造后,该工厂产品的优级品
率提高了
12.解:(1)不妨设选择的成对数据分别为(x1,y1),
2(x:-x)(y:一y)
(x2y2),则r=
(x-x)2(y-y)2
25
飞烫快乐慑期
√(-)+(2)√(2)'+(”严
金B[由1+i:=a-i得,=
(a-i)(1-iD)_a-1
(1+i)(1+i)
2
2
a马,=1
(x1-z2)y1-2
2
又由表格数据得,当x1<x2
21✉-4001-g
(号)+(岁)=1,解得a=1或0=-1
时,y1<y2,则r=1.
故“|x=1”是“a=1”的必要不充分条件.]
因为任意两个样本点都在一条直线上,则样本量为2的
7.C[由x(2-i)=(1十i)2,可得x(2-i)=1+2i十2=2i,所以
样本相关系数绝对值都是1(在样本相关系数存在的情
2i
2一二一号+音所以=-
212-i0(2+D
5
5
况下),显然据此推断两个变量完全线性相关是不合
理的,
专所以复数:的共轭复数:在复平面内对应的点的坐标
样本相关系数可以反映变量之间相关的正负性及线性
相关的程度,但由于样本数据的随机性,样本相关系数
为(一号。一)位于第三象限]
往往不能确切地反映变量之间的相关关系.一般来说,
样本量越大,根据样本相关系数推新变量之间相关的正
8B[因为=行组=-所以乙0,一0,又国为南线
负性及线性相关的程度越可靠,而样本量越小,则越不
|一3引=1表示以A(3,0)为圆心,1为半径的圆,所以
可靠.
AZ1|=5,故Z1与Z之间的最小距离为5-1=4.]
(2)De,=Ly-6x:+a)]=y-2,)-9a=
221-)=221=1-i,对于A2
9.ABC[&=年(+iD(1-iD
2
9(y-证一a)=0(直线y=ix十a经过数据的中心(x,y).
的虚部为一1,正确;对于B,模长|x=√2,正确;对于C,
(0y-)2
(e:)
因为2=(1一i)2=一2i,故2为纯虚数,正确;对于D,x
(i)R2=1-
2=1
-2
20-)P
的共轭复数为1十i,错误.]
10.ABC[对于A,若|z1-2=0,则1一2=0,1=2,
2(e;)2
2(y,-)2=
所以之1=2为真;
1-R2
对于B,若1=2,则1和2互为共轭复数,
(u:)2
(u:)2
所以之1=2为真:
则R号=1一
-1
(1-R)
2-2
(e;)2
对于C,设刘=a1十bi,z2=a2十b2i,a1,b,a2,b2∈R,
=1
2.5007
若|x1=|x2,则a+b所=a+b%,
=1-5.0177×1-0.9693)≈0.984,
即a+b娟=a+b呢,
R2越大,越接近于1,则模型的拟合效果越好,因此经验
所以x1·1=a好十b=a号十b呢=2·2,
回归方程②的拟合效果更好,为最优模型.
所以1·之1=2·2为真:
假期必刷34
对于D,若1=1,2=i,
思维整合室
则|x1|=|x21,而好=1,场=-1,
1.(1)实部虚部(2)b=0b≠0a=0且b≠0
所以号=号为假.门
(3)a=cb=d (4)a=c,b=-d
1山.CD[含=号+号时满足O2=1,故A锋花
(5)a+bil a2+62
2.Z(a,b)
Z1Z2-0Z-0Z=(3,4)-(4,3)=(-1,1),B错误;
技能提升台
设x1=a+bi,2=c十di,a,b,c,d∈R,
若|名1十x2=|1一2,
1.C[由题知之=(1+i)(x-1),=1十
=1一i.故选
则(a+c)2+(b+d)2=(a-c)2+(b-d)2,
择:C.]
化简得:ac十bd=0,故OZ1·OZ2=ac十bd=0,
2.C[|x=√(-1)2+(-1)2=√2.]
所以OZ1⊥OZ2,C正确;
3.C[由题意:2-4i=√22+(-4)2=2√5.]
设1=a+bi,2=c+di,a,b,c,d∈R,
OZ+OZz-(a+c.b+d).OZ-OZz-(a-c.b-d).
若(0Z1+0Z2)⊥(OZ1-0Z2),
-(+〔+)+(+)=司
则(a十c)(a-c)+(b+d)(b-d)=a2+b-c2-d2=0,
5.A2+i-(2士bm)(-D=b-2i,所以实部为b,虚部为
所以a2+b2=c2+d2,则x11=2,D正确.]
i(-i)
12.AB[由根与系数的关系,知x1十x2=一a,A正确;若
-2,故b的值为-2.]
x1,x2∈R,则x1+x2=-a,x1x2=b,即Q,b∈R,B正
126