内容正文:
第八章成对数据的统计分析
五维课堂坐
章未归纳提升
[知识整合·思维导图]
散点图
(x-(-
:1
xy-y
样本相关系数
正相关负相关
(y:-y)2
-m
-1
数值
变量
相关性
(x:
-x)(y-y)
xiyi-nry
y=bx+a
,a=y-
一元线性
(x-x)2
回归模型
残差分析
误差分析
非线性回
2(%-)
归模型
决定系数R2=1
成对
t-1
数据
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
分类
变量
2X2列联表
独立性检验
判定依据:零假设
等高堆积条形图
[题型梳理·素养聚焦]
[考点一]
回归分析
(1)在图中画出表中的数据散点图;
高考对回归分析的命题常以实际生活为背
(2)根据(1)中的散点图看出,可以用线性回
景,考查经验回归方程的求法和应用经验回
归方程进行预测,
归模型拟合y与x的关系,请用相关系数加
[例1]某公司为了准确把握市场,做好产品生
以说明;
产计划,对过去四年的数据进行整理得到了
(3)建立y关于x的经验回归方程,并预测
第x年与年销量y(单位:万件)之间的关系
如下表所示.
第5年的销售量,
2
参考数据:
2y-≈32.6,
y
12
28
42
56
万件
60
5≈2.24,2xy:=418.
i=1
501
参考公式:相关系数
30
20
10
2(x:-x)(y,-y)
i=1
01234x/年
2x-2g-
·105·
世五维课堂
数学·选择性必修第三册
经验回归方程y=a+x中斜率和截距的最
⊙[变式训练]
小二乘估计公式分别为:
1.为分析肥胖程度对总胆固醇与空腹血糖的
影响,在肥胖人群中随机抽出8人,他们的
2(x,-x)(y:-y)
2xy:-nay
肥胖指数BMI值、总胆固醇TC指标值(单
z-
2x-
位:mmol/L),空腹血糖CLU指标值(单位:
mmol/L)如表所示:
a=y-bx.
人员
2
3
4
5
6
编号
BMI
25
27
30
32
33
35
40
值x
42
TC指标
5.35.45.55.65.76.56.97.1
值y
CLU指
6.77.27.38.08.18.69.09.1
标值之
用变量y与x,之与x的相关系数,分别说明
TC指标值与BMI值、CLU指标值与BMI
值的相关程度,
参考公式:
规律方法
1.相关系数的关注点
相关系数r
(1)相关系数可以反映两个变量之间的线性
(x-02-
相关程度,即散点集中于一条直线的程
参考数据:x=33,y=6,2=8,含(x,-0)9
度,其符号反映了相关关系的正负性.
=244,
(2)变量间是否具有线性相关关系,可通过
含y-≈36,--54,
散点图或相关系数做出判断,散点图只
(x,-x)(y:-)=28.3,
:=1
有粗略做出判断,用相关系数能够较准
含x-)(%-)=35.424≈15.6
确的判断相关的程度.
√3.6≈1.9,√5.4≈2.3.
2.求经验回归方程的步骤
(1)画散点图:由样本点是否呈条状分布来
判断两个量是否具有线性相关关系.
(2)求回归系数:若存在线性相关关系,则求
回归系数
(3)写方程:写出经验回归方程,并利用经验
回归方程进行预测说明.
·106·
第八章成对数据的统计分析
五维课堂兰
[考点二]独立性检验
附:
独立性检验问题具有较强的现实背景和较
a
0.05
0.01
0.001
强的实践性,与它有关的试题一般贴近生
3.841
6.635
10.828
活,能激发学生对生活、对数学的热爱,因此
成为近几年高考的一大热点.试题往往涉及
n(ad-bc)2
其中xX=(a+bd十0ac)(b+d,n=
收集数据填2X2列联表,并按照公式处理
a+b+c+d.
数值得到x的值并进行比较,以考查学生
的统计思想和基本的数据处理能力为主,难
度不大
[例2]2024年世界乒乓球团体锦标赛
(2024World Team Table Tennis Champi-
onships)于2024年2月16日至25日在韩
国釜山举行,吸引了广大乒乓球爱好者的目
光.某市媒体为了了解本市市民对乒乓球的
爱好情况,进行了一次调查问卷,随机抽取
男性、女性市民各100人调查.在这抽取的
200人中,根据年龄分为“少年”“青年”“中
年”“老年”四组,其中爱好乒乓球运动的人
群统计结果如下表:
人群
少年
青年
中年
老年
频数
42
38
25
15
(1)根据所提供的数据,完成下面的2×2列
联表,依据a=0.01的独立性检验,能否认
为市民对乒乓球的喜爱情况与性别有关:
喜爱
不喜爱
合计
男性
70
女性
50
合计
(2)从喜爱乒乓球和不喜爱乒乓球的人中按
分层抽样抽取10人,从这10人中选出3人
进行专访,记这3人中喜爱乒乓球的人数为
X,求X的分布列和期望。
·107·
世五维课堂
数学·选择性必修第三册
规律方法
是否获奖
性别
合计
独立性检验的关注点
获奖
不获奖
1.步骤:列表,计算,判断;
男生
2.注意;
女生
合计
100
(1)x的计算公式较复杂,一是公式要清
楚;二是代入数值时不能张冠李戴;三
(2)估计这100名学生的参赛成绩的平均数(同
是计算时要细心;
组中的数据用该组区间的中点值作代表).
(2)判断时把计算结果与临界值比较,其值
n(ad-bc)2
附:X=(a+b)(c+dD(a+c)(b+d0'
越大,有关的可信度越高,
0.1
0.05
0.01
0.005
0.001
◇[变式训练]
2.706
3.841
6.635
7.879
10.828
2.为了推动青少年科技活动的蓬勃开展,培养
青少年的创新精神和实践能力,某市开展
“青少年科技创新大赛”活动.已知参加该活
动的学生有1000人,其中男生600人,女
生400人,为了解学生在该活动中的获奖情
况是否与性别有关,现采用分层抽样的方
法,从中随机抽取了100名学生的参赛成绩
(百分制),其频率分布直方图如图(1)(2)
所示.
颜率
频
组距
组距
0.0150
0.0150
0.0125
0.0125
0.0100
0.0075
0.0075
0.0050
0.0025
020406080100男生参赛成绩/分020406080100女生参赛成绩/分
(1)
(2)
(1)该活动规定:成绩不低于60分的参赛学
生可获奖,低于60分的参赛学生不能获奖,
请将参赛学生获奖和不获奖的人数填入下
面的列联表,并依据小概率值α=0.1的独
立性检验判断是否可以认为“参赛学生是否
获奖与性别有关”.
·108·
第八章成对数据的统计分析
五维课堂到
[考点三]数学直观、逻辑推理一统计模型
参考公式及数据:样本相关系数
[例3]某地区在“精准扶贫”工作中切实贯彻
2(x,-x)(y:-y
习近平总书记提出的“因地制宜”的指导思
想,扶贫工作小组经过多方调研,综合该地
--
区的气候、地质、地理位置等特点,决定向当
=250,2(0y-02=320.
地农户推行某类景观树苗种植.工作小组根
n(ad-bc)2
据市场前景重点考察了A,B两种景观树
X=(a+b)(c+d)(a+c)(b+d)'
苗,为对比两种树苗的成活率,工作小组进
其中n=a+b+c+d.
行了引种试验,分别引种树苗A,B各50
附表:
株,试验发现有80%的树苗成活,未成活的
0.1
0.05
0.01
0.005
0.001
树苗A,B株数之比为1:3.
2.706
3.841
6.635
7.879
10.828
(1)完成下面的2×2列联表,依据α=0.01
的独立性检验,分析树苗A,B的成活率是
否有差异;
树苗类别
成活率
合计
树苗A
树苗B
成活株数
未成活株数
合计
50
50
100
(2)已知树苗A引种成活后再经过1年的
生长即可作为景观树A在市场上出售,但
每株售价y(单位:百元)受其树干的直径x
(单位:cm)影响,扶贫工作小组对一批已出
售的景观树A的相关数据进行统计,得到
结果如下表:
直径x
10
15
20
25
30
单株售价y
8
10
16
27
根据上述数据,判断是否可以用线性回归模
型拟合y与x的关系,并用样本相关系数r
加以说明.(一般认为r>0.75为高度线
性相关)
·109·
世五维课堂
数学·选择性必修第三册
规律方法
主学习与成绩进步”是否有关
1.利用相关系数r较准确的刻画了两个变
没有进步
有进步
合计
量间的相关程度,为建立线性回归模型,
参与周末在校
35
130
165
对实际问题做出预测奠定了基础、
自主学习
未参与周末在
2.根据随机变量X的含义,借助P(x>
25
30
55
校自主学习
x。)=a这个可信度,较客观地分析两个
合计
60
160
220
变量的相关性.
附:方差-2
◇[变式训练]
相关系数:
3.为了了解高中学生课后自主学习数学时间
(c,-x)(y.-y)
(x分钟/每天)和他们的数学成绩(y分)的
关系,某实验小组做了调查,得到一些数据
含--
回归方程y=bx十a中斜率和截距的最小二
(表一).
(x,-t)(y:-)
=1
编号
1
2
3
4
5
乘估计公式分别为=
学习时间x
30
40
50
60
70
x,-2
a=y-bx,
数学成绩y
65
78
85
99
108
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
(1)求数学成绩y与学习时间x的相关系数
0.10
0.05
0.0100.0050.001
(精确到0.001);
2.7063.841
6.6357.87910.828
(2)请用相关系数说明该组数据中y与x之
间的关系可用线性回归模型进行拟合,并求
出y关于x的回归直线方程,并由此预测每
天课后自主学习数学时间为100分钟时的
数学成绩(参考数据:盒,=2820,y
=435,23=38999,107.4≈1540,2的
方差为200);
(3)基于上述调查,某校提倡学生周末在校
自主学习.经过一学期的实施后,抽样调查
了220位学生.按照是否参与周末在校自主
学习以及成绩是否有进步统计,得到2×2
列联表(表二).依据表中数据及小概率值α
=0.001的独立性检验,分析“周末在校自
·110·世五维课堂
[例3]解:(1)列联表如下:
打篮球
性别
合计
喜爱
不喜爱
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)零假设H。,假设是否喜爱打篮球与性别无关
t-×8226064.286
因为4.286>3.841,所以能在犯错误的概率不超过0.05
的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.其概
率分别为P(X=0)=
-最Prx=n-g-品
C319'
P(X=2)=
C0=9
C3381
故X的分布列为
0
9
10
38
19
38
X的均值为E(X0=0+8+0-1
变式训练
3.解:(1)设甲机床、乙机床生产的产品中一级品的频率分
别为PP,则A=8-0,75,P,-器-06i
(2)零假设H0,假设甲机床的产品质量与乙机床的产品
质量无差异.根据列联表中数据,可得X的值为
X-400X050X8027120X50)2_-40≈10.256.
200×200×270×130
39
10.256>6.635,.有99%的把握认为甲机床的产品质
量与乙机床的产品质量有差异」
当堂达标
1.A[用独立性检验来考查两个分类变量是否有关系时,
算出的随机变量X2的值越大,说明“A与B有关系”成立
的可能性越大,由此可知A正确.故选A.门]
·15
数学·选择性必修第三册
2.D[独立性检验的结论是一个数学统计量,它与实际问
题中的确定性是存在差异的.]
3解析:设男生有x人,由题意可得2X2列联表如下,
喜欢
不喜欢合计
4
男生
女生
-0
x
合计
5
若认为喜欢网络游戏和性别有关,且该推断犯错误的概
率超过0.01但不超过0.05,则3.841<x2<6.635.
/4
2.x
.21312
2
7
212,
3.841<号<6.635,解得40.3<<69.7,
又x为5的整数倍,.被调查的学生中男生可能人数为
45,50,55,60,65.
答案:45,50,55,60,65.
4.解析:因为x2=8.013>7.879=x0.005,查阅X2表知有
99.5%的把握认为两个随机事件之间有关系.
答案:是
5.解:(1)列表如下:
休闲方式
性别
合计
看电视
运动
女
43
27
70
男
21
33
54
合计
64
60
124
(2)x2=124X(43×33-27×21)2
≈6.201,
70×54×64×60
x2>3.841且X2<6.635,
.有95%的把握认为性别与休闲方式有关.
章来归抽提升
[例1解:(1)画出散点图如图所示.
(2)由(1)中的散点图可知,各点大
↑y万件
60
致分布在一条直线附近,且由题中
50
所给表格及参考数据得:
40
30
y=9,多4=418,
25
20
10
01234x/年
参考答案
√②(y:-)≈32.66,2x=30,
含,--)=名w:-4=18-4×号×盟
=73,
√②,-√-30-4×()-52.24,
2(x-0-
73
r
2(x,-)22(y-y2
2.24X32.66≈0.998.
N
=1
因为y与x的相关系数近似为0.998,说明y与x的线
性相关程度相当高,
所以可以用线性回归模型拟合y与x的关系.
(3)由(2)知,b=
-,-智号
x-42
=1
区5=-2,所以y关于x的经验回归方程为二3)
-2.
当2=5时-得X5一2=71,故预测第5年的镜售量
为71万件.
变式训练
28.3
1.解:变量y与工的相关系数r≈15.6x1.9≈0.95,
35.4
变量之与x的相关系数是r≈15.6x2.3≈0.99,可以看
出TC指标值与BMI值,CLU指标值与BMI值都是高度
正相关.
[例2]解:(1)2×2列联表如下:
喜爱
不喜爱
合计
男性
70
30
100
女性
50
50
100
合计
120
80
200
零假设为H0:市民对乒乓球的喜爱情况与性别无关
计算得
20(70×50-50×30)2=25=8.333>6.635
120×80×100×100
3
=x0.01·
根据小概率值α=0.01的独立性检验,推断零假设H。
不成立,在犯错误的概率不超过0.01的前提下认为该
市市民对乒乓球的喜爱与性别有关.
·15
五维课堂马
(2)在抽样的200人中,喜爱乒乓球的有120人,不太喜
爱乒乓球的人有80人,比例是3:2,从而分层抽样抽取
10人中,6人喜爱乒乓球,4人不喜爱乒兵球,则X的可
能取值为0,1,2,3,从而P(X=0)=C=0,P(X
D-S-PX=)-e-2P0x=3-器
Cio
6
则X的分布列为
0
1
2
3
3
30
10
2
所以E(X)=0X
1
19
2+130+2X2+3以60
30
变式训练
2解,(1由题老可知,抽取的10名学生中男主有80
100=60(人),女生有100一60=40(人),所以男生中获奖
的人数为2×0.0125×20×60=30,不获奖的人数为
60一30=30;女生中获奖的人数为(0.0125+0.0075)×
20×40=16,不获奖的人数为40一16=24.所以补全2×2
列联表如下.
是否获奖
性别
合计
获奖
不获奖
男生
30
30
60
女生
16
24
40
合计
46
54
100
零假设为H;参赛学生是否获奖与性别无关.
根据列联表中的数据,计算得到
X=10X30X430X16》2≈0.966<2.706=a1
46×54×40×60
所以依据小概率值α=0.1的独立性检验,没有充分证据
世五维课堂
推断H。不成立,因此可以认为H。成立,即认为“参赛学
生是否获奖与性别无关”
(2)男生参赛成绩的总分约为(10×0.0025十30×0.0075
+50×0.0150+70×0.0125+90×0.0125)×20×60
=3600(分).
女生参赛成绩的总分约为(10×0.0050十30×0.0100十
50×0.0150+70×0.0125+90×0.0075)×20×40
=2120(分).
所以这100名学生的参赛成绩的平均数的估计值为
3600+2120=57.2.
100
[例3]解:试验发现有80%的树苗成活,故未成活的树苗
有20株,未成活的树苗A,B株数之比为1:3,所以树
苗A未成活5株,成活45株,树苗B未成活15株,成活
35株.
(1)补充列联表如下:
树苗类别
成活率
合计
树苗A
树苗B
成活株数
45
35
80
未成活株数
5
15
20
合计
50
50
100
由表中数据计算可得72=100X45×15一35X52
80×20×50×50
=6.25<6.635=x0.01,
故没有99%的把握认为二者有差异.
(2)可以用线性回归模型拟合y与x的关系.由题表中
数据易得x=20,y=13,
所以r=-10)×(-9)+(-5)X(-5)+0X(-3)+5X3+10X14
√/250X√J320
≈0.95>0.75.故可以用线性回归模型拟合y与x的
关系.
·156
数学·选择性必修第三册
变式训练
3.解析:(1)元=30+40+50+60+70=50,)=
5
65+78+85+99+108_-435=87,又x,(i=1,2,3,…,
5
5
5)的方差为号含(-2=20,含.(,-)2=(65
87)2+(78-87)2+(85-87)2+(99-87)2+(108
87)2=484+81+4+144+441=1154,
2x-)-
2x9-24-2x+
√含(z-22y:-y)2
含x:-5dy
22820-5×50×87
√/1000×∑(y:-y)2
10√/11540
≈1879≈.96,
(2)由(1)知r≈0.996接近1,故与之间具有极强的线性
相关关系,可用线性回归直线方程模型进行拟合,
_x-0x-
(x:-x)2
1
24·522820-5x50×87-1.07
5X200
1000
a=y-7x=87-1.07×50=33.5,故y=1.07x+33.5
当x=100时,y=140.5,故预测每天课后自主学习数学
时间达到100分钟时的数学成绩为140.5分.
(3)零假设H。:周末在校自主学习与成绩进步无关,根
据数据,计算得到:
n(ad-bc)2
X2=(a+b)(c+d)(a+c)6+d
220X(C25X130-35×30)-=10≈12.2,因为12.22
165×55×60×160
>10.828,所以依据α=0.001的独立性检验,可以认为
“周末自主学习与成绩进步”有关,