内容正文:
武汉市好学途教育 高中数学重难点系列专题
第 1 页
58 成对数据的统计分析重难点专题
常考结论及公式
结论一:样本相关系数
样本相关系数
( )( )
( ) ( )
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =
− −
=
− −
, 0r 时,称为成对样本数据正相
关, 0r 时,称为成对样本数据负相关;当 | |r 越接近于1时,成对样本数据的线性相
关程度越强,当 | |r 越接近于0 时,成对样本数据的线性相关程度越弱.
结论二:经验回归直线及其方程的性质
(1)经验回归直线方程 ˆˆ ˆy bx a= + ,其中
( )( )
( )
1 1
2 2 2
1 1
ˆ
ˆˆ .
n n
i i i i
i i
n n
i i
i i
x x y y x y nx y
b
x x x nx
a y bx
= =
= =
− − −
= =
− −
= −
;
(2)经验回归直线不一定过样本点,但是一定过样本中心点 ( ),x y .
(3)在经验回归直线方程 ˆˆ ˆy bx a= + 中, ˆ 0b 时,两个变量呈正相关关系; ˆ 0b 时,
两个变量呈负相关关系.
结论三:等高堆积条形图对分类变量的判断
两个分类变量在随机取值中,其取值的频率可以用等高条形图呈现出来.在等高条
形图中,
b
a b+
与
c
c d+
相差很大时,我们认为两个分类变量有关系,而且相差越大,
两个分类变量 ,x y关系越强.
结论四:卡方独立性检验的步骤
(1)提出零假设 0H : X 和Y 相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2 2 列联表,计算
2 的值,并与临界值 x 比较.
(3)根据检验规则得出推断结论.
(4)在 X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析 X 和Y 间的
影响规律.
武汉市好学途教育 高中数学重难点系列专题
第 2 页
题型一 样本相关系数的考查
【例 1】在一组样本数据 1 1( , )x y , 2 2( , )x y ,…, ( ),n nx y ( 2n , 1 2, , , nx x x 不全
相等)的散点图中,若所有样本点 ( ), ( 1,2, , )i ix y i n= 都在直线 3 1y x= − + 上,则这组
样本数据的样本相关系数为( )
A.-3 B.0 C.-1 D.1
【跟踪训练 1】已知 x与 y之间的几组数据如右表:
参考公式:线性回归方程 y bx a= + ,其中
( )( )
( )
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
=
=
− −
=
−
,a y bx= − ;
相关系数
( )( )
( ) ( )
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =
− −
=
− −
.上表数据中 y的平均值为 2.5,若某同学对 m 赋了
三个值分别为 1.5,2,2.5 得到三条线性回归直线方程分别为
1 1y b x a= + , 2 2y b x a= + ,
3 3y b x a= + ,对应的相关系数分别为 1r , 2r , 3r ,下列结论中错误..的是( )
A.三条回归直线有共同交点 B.相关系数中, 2r 最大
C. 1 2b b D. 1 2a a
题型二 误差分析
【例 2】某市物价部门对 5 家商场的某商品一天的销售量及其价格进行调查,5 家商场
的售价 x (元)和销售量 y (件)之间的一组数据如表所示:
价格 x 9 9.5 10 10.5 11
销售量 y 11 10 8 6 5
按公式计算, y 与 x 的回归直线方程是: 3.2y x a= − + ,相关系数 0.986r = ,则下列说
法错误的是( )
x 1 2 3 4
y 1 m n 4
重难点题型归纳与精讲
武汉市好学途教育 高中数学重难点系列专题
第 3 页
A.变量 x , y 线性负相关且相关性较强; B. 40a = ;
C.当 8.5x = 时, y 的估计值为 12.8; D.相应于点 ( )10.5,6 的残差为 0.4.
【跟踪训练 2】(多选)对两个变量 y 和 x 进行回归分析,得到一组样本数据: 1 1( )x y, 、
2 2( )x y, 、 3 3( )x y, 、…、 ( )n nx y, ,则下列说法中正确的是( ).
A.由样本数据得到的回归方程 ˆˆ ˆy bx a= + 必过样本中心 ( )x y,
B.由样本数据得到的回归方程 ˆˆ ˆy bx a= + 和各点 1 1( )x y, 、 2 2( )x y, 、 3 3( )x y, 、…、( )n nx y,
的偏差
2
1
( )
n
i i
i
y bx a
=
− − 是该坐标平面上所有直线与这些点的偏差中最小的
C.若变量 y 和 x 之间的相关系数为 0.9362r = − ,则变量 y 和 x 之间具有线性相关关系
D.以上说法都不正确
题型三 线性回归直线方程求法及应用
【例 3】对具有线性相关关系的变量 x , y 有一组观测数据 ( ),i ix y ( 1,2, ,8i = ),其回
归直线方程是
1
ˆ
8
ˆy bx= + ,且 1 2 3 8x x x x+ + + + = ( )1 2 3 82 6y y y y+ + + + = ,则实数 b̂ 的
值是( )
A.
1
16
B.
1
4
C.
1
3
D.
1
2
【跟踪训练 3】(多选)小明在家独自用下表分析高三前 5 次
月考中数学的班级排名 y与考试次数 x的相关性时,忘记了第
二次和第四次月考排名,但小明记得平均排名 6y = ,于是分
别用 m=6 和 m=8 得到了两条回归直线方程: 1 1y b x a= + , 2 2y b x a= + ,对应的相关系
数分别为 1r 、 2r ,排名 y对应的方差分别为
2
1s 、
2
2s ,则下列结论正确的是( )
(附:
( )
1
2
2
1
n
i i
i
n
i
i
x y nx y
b
x n x
=
=
−
=
−
,a y bx= − )
A. 1 2r r B.
2 2
1 2s s C. 1 2b b D. 1 2a a
x 1 2 3 4 5
y 10 m 6 n 2
武汉市好学途教育 高中数学重难点系列专题
第 4 页
题型四 等高条形图与列联表
【例 4】为了发展学生的兴趣和个性特长,培养全面发展的人才.某学校在不加重学生
负担的前提下.提供个性、全面的选修课程.为了解学生对于选修课《学生领导力的开
发》的选择意愿情况,对部分高二学生进行了抽样调查,制作出如图所示的两个等高条
形图,根据条形图,下列结论正确的是( )
A.样本中不愿意选该门课的人数较多
B.样本中男生人数多于女生人数
C.样本中女生人数多于男生人数
D.该等高条形图无法确定样本中男生人数是否多于女生人数
【跟踪训练 4】(多选)为了有针对性地提高学生体育锻
炼的积极性,某中学需要了解性别因素是否对本校学生体
育锻的经常性有影响,随机抽取了 300 名学生,对他们是
否经常锻炼的情况进行了调查,调查发现经常锻炼人数是
不经常锻炼人数的 2 倍,绘制其等高堆积条形图,如图所
示,则( )
A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多
B.从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为
5
7
C.依据 0.1 = 的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错
误的概率不超过 0.1
D.假设调查人数为 600 人,经常锻炼人数与不经常锻炼人数的比例不变,统计得到的
等高堆积条形图也不变,依据 0.05 = 的独立性检验,认为性别因素影响学生体育锻炼
的经常性,该推断犯错误的概率不超过 0.05
附:
( )
( )( )( )( )
2
2
n ad bc
a b c d a c b d
−
=
+ + + +
,
( )
2
300 100 60 40 100
2.679
140 160 200 100
−
0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
武汉市好学途教育 高中数学重难点系列专题
第 5 页
题型五 卡方计算及实际应用
【例 5】十三届全国人大四次会议 3 月 11 日表决通过了关于国民经济和社会发展第十
四个五年规划和 2035 年远景目标纲要的决议,决定批准这个规划纲要.纲要指出:“加
强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现
离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等
离子注入机,工艺段覆盖至 28 nm,为我国芯片制造产业链补上重要一环,为全球芯片
制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做
出了重大贡献.该企业使用新技术对某款芯片进行试生产.
(1)在试产初期,该款芯片的 I 批次生产有四道工序,前三道工序的生产互不影响,
第四道是检测评估工序,包括智能自动检测与人工抽检.已知该款芯片在生产中,前三
道工序的次品率分别为 1
1
35
P = , 2
1
34
P = , 3
1
33
P = .
①求批次 I 芯片的次品率 IP ;
②第四道工序中智能自动检测为次品的芯片会被自动淘汰,合格的芯片进入流水线并
由工人进行抽查检验.已知批次 I 的芯片智能自动检测显示合格率为92%,求工人在流水
线进行人工抽检时,抽检一个芯片恰为合格品的概率(百分号前保留两位小数).
(2)已知某批次芯片的次品率为 ( )0 1P P ,设100个芯片中恰有1个不合格品的概率
为 ( )p ,记 ( )p 的最大值点为 0P ,改进生产工艺后批次 J 的芯片的次品率 0JP P= .某
手机生产厂商获得 I 批次与 J 批次的芯片,并在某款新型手机上使用.现对使用这款手机
的用户回访,对开机速度进行满意度调查.据统计,回访的100名用户中,安装 I 批次有
40部,其中对开机速度满意的有28人;安装 J 批次有60 部,其中对开机速度满意的有
57 人.求 0P ,并判断是否有99.9%的把握认为芯片质量与用户对开机速度满意度有关?
附:
( )
( )( )( )( )
2
2
n ad bc
K
a b c d a c b d
−
=
+ + + +
.
( )2P K k 0.050 0.010 0.005 0.001
k 3.841 6.635 7.879 10.828
武汉市好学途教育 高中数学重难点系列专题
第 6 页
【跟踪训练 5】在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况,如下
表所示:
则下列说法正确的是________.
①
11
1 23
6n
n n+
= ;
② 2 2.706 ;
③可以认为,“在恶劣气候飞行中,晕机与否跟男女性
别有关”;
④没有理由认为,“在恶劣气候飞行中,晕机与否跟男女性别有关”.
题型六 非线性的回归直线方程
【例 6】某县依托种植特色农产品,推进产业园区建设,致富一方百姓.已知该县近5年
人均可支配收入如下表所示,记2017年为 1x = ,2018年为 2x = ,…以此类推.
年份 2017 2018 2019 2020 2021
年份代号 x 1 2 3 4 5
人均可支配收入 y (万元) 0.8 1.1 1.5 2.4 3.7
(1)使用两种模型:① ˆˆ ˆy bx a= + ;② 2ˆ ˆ ˆy mx n= + 的相关指数 2R 分别约为0.92,0.99,
请选择一个拟合效果更好的模型,并说明理由;
(2)根据(1)中选择的模型,试建立 y 关于 x 的回归方程.(保留2位小数)
附:回归方程 ˆˆ ˆy bx a= + 中斜率和截距的最小二乘估计公式分别为
( )( )
( )
1
2
1
ˆ
n
i i
i
n
i
i
x x y y
b
x x
=
=
− −
=
−
,
ˆâ y bx= − .
参考数据: ( )( )
5
1
7.1i i
i
x x y y
=
− − = ,令 2i iu x= , ( )( )
5
1
45.1i i
i
u u y y
=
− − = .
晕机 不晕机 合计
男 11n 15 1n +
女 6 22n 23n
合计 1n+ 28 46
武汉市好学途教育 高中数学重难点系列专题
第 7 页
【跟踪训练 6】某果园种植“糖心苹果”已有十余年,根据其种植规模与以往的种植经验,
产自该果园的单个“糖心苹果”的果径(最大横切面直径,单位:mm)在正常环境下服
从正态分布 ( )68 36N , .
(1)一顾客购买了 20 个该果园的“糖心苹果”,求会买到果径小于 56 mm的概率;
(2)为了提高利润,该果园每年投入一定的资金,对种植、
采摘、包装、宣传等环节进行改进.如图是 2009 年至 2018
年,该果园每年的投资金额 x (单位:万元)与年利润增
量 y (单位:万元)的散点图:
该果园为了预测 2019 年投资金额为 20 万元时的年利润增
量,建立了 y 关于 x 的两个回归模型;
模型①:由最小二乘公式可求得 y 与 x 的线性回归方程: 2.50 2 0ˆ .5y x= − ;
模型②:由图中样本点的分布,可以认为样本点集中在曲线: lny b x a= + 的附近,对
投资金额 x 做交换,令 lnt x= ,则 y b t a= + ,且有
10
1
22.00i
i
t
=
= ,
10
1
230i
i
y
=
= ,
10
1
569.00i i
i
t y
=
= ,
10
2
1
50.92i
i
t
=
= .
(I)根据所给的统计量,求模型②中 y 关于 x 的回归方程;
(II)根据下列表格中的数据,比较两种模型的相关指数 2R ,并选择拟合精度更高、更
可靠的模型,预测投资金额为 20 万元时的年利润增量(结果保留两位小数).
回归模型 模型① 模型②
回归方程 2.50 2 0ˆ .5y x= − lˆ ny b x a= +
( )
10
2
1
ˆ
i i
i
y y
=
− 102.28 36.19
附:若随机变量 ( )2X N , ,则 ( )2 2 0.9544P X − + = ,
( )3 3 0.9974P X − + = ;样本 ( )( ), 1 2i it y i n= ,, , 的最小乘估计公式为
( )( )
( )
1
2
1
ˆ
n
i i
i
n
i
i
t t y y
b
t t
=
=
− −
=
−
, ˆâ y bt= − ;
相关指数
( )
( )
2
2 1
2
1
ˆ
1
n
i
i
n
i
i
y y
R
y y
=
=
−
= −
−
.
参考数据: 200.9772 0.6305 , 200.9987 0.9743 , ln 2 0.6931 , ln5 1.6094 .
武汉市好学途教育 高中数学重难点系列专题
第 8 页
课后突破训练
1.不可以判断两个变量是否有关系的是( )
A.散点图 B.列联表
C.等高条形图 D.频率分布直方图
2.已知一组样本点 ( ),i ix y ,其中 1,2,3,...,30i = ,根据最小二乘法求得的回归直线方程
是 y b x a
= + ,则下列说法正确的是( )
A.若所有样本点都在回归直线方程 y b x a
= + 上,则变量间的相关系数为 1
B.至少有一个样本点落在回归直线方程 y b x a
= + 上
C.对所有的 ix ( 1,2,3,...,30i = ),预测值
ib x a
+ 一定与实际值 iy 有误差
D.若 y b x a
= + 的斜率 0b
,则变量 x 与 y 正相关
3.2020 年以来,5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,
某手机商城统计了近 5 个月 5G手机的实际销量,如下表所示:
月份 2021 年 1 月 2021 年 2 月 2021 年 3 月 2021 年 4 月 2021 年 5 月
月份编号 x 1 2 3 4 5
销量 y /部 50 96 a 185 227
若 y 与 x 线性相关,且求得线性回归方程为 ˆ 45 5y x= + ,则下列结论错误的是( )
A. 142a =
B. y 与 x 正相关
C. y 与 x 的相关系数为负数
D.预计 2021 年 7 月份该手机商城的 5G手机销量约为 320 部
4.如图是九江市 2019 年 4 月至 2020 年 3 月每
月最低气温与最高气温(℃)的折线统计图:已
知每月最低气温与最高气温的线性相关系数 r=
0.83,则下列结论错误的是( )
A.每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关
武汉市好学途教育 高中数学重难点系列专题
第 9 页
B.月温差(月最高气温﹣月最低气温)的最大值出现在 10 月
C.9﹣12 月的月温差相对于 5﹣8 月,波动性更大
D.每月最高气温与最低气温的平均值在前 6 个月逐月增加
5.以模型 e ( 0)kxy c c= 去拟合一组数据时,为了求出回归方程,设 lnz y= ,将其变换
后得到经验回归方程 2 1z x= − ,则 ,k c的值分别是( )
A. 2,e− B.
1
2,
e
C.
e
1
2,− D.2,e
6.(多选)关于变量 x,y的 n个样本点 1 1 2 2( , ), ( , ), , ( , )n nx y x y x y 及其线性回归方
程. ˆˆ ˆ,y bx a= + 下列说法正确的有( )
A.相关系数 r的绝对值|r|越接近 0,表示 x,y的线性相关程度越强
B.相关指数 2R 的值越接近 1,表示线性回归方程拟合效果越好
C.残差平方和越大,表示线性回归方程拟合效果越好
D.若
1 1
1 1
,
n n
i i
i i
x x y y
n n= =
= = ,则点 ( , ).x y 一定在线性回归方程 ˆˆ ˆy bx a= + 上
7.(多选)给出下列命题,其中正确命题为( )
A.投掷一枚均匀的硬币和均匀的骰子(形状为正方体,六个面分别标有数字 1,2,3,
4,5,6)各一次,记硬币正面向上为事件 A,骰子向上的点数是 2 为事件 B,则事件 A
和事件 B同时发生的概率为
1
12
B.以模型 kxy ce= 去拟合一组数据时,为了求出回归方程,设 lnz y= ,将其变换后得
到线性方程 0.3 4z x= + ,则 c , k 的值分别是 4e 和0.3
C.随机变量 X 服从正态分布 ( )21,N , ( )1.5 0.34P X = ,则 ( )0.5 0.16P X =
D.某选手射击三次,每次击中目标的概率均为
1
2
,且每次射击都是相互独立的,则该
选手至少击中 2 次的概率为
1
2
8.(多选)计算机显示的数字图像是由一个个小像素点组合而成的.处理图像时,常会
通过批量调整各像素点的亮度,间接调整图像的对比度、饱和度等物理量,让图像更加
美观.特别地,当图像像素点规模为 1 行 1n+ 列时,设第 i列像素点的亮度为 ix ,则该
武汉市好学途教育 高中数学重难点系列专题
第 10 页
图像对比度计算公式为
2
{ } 1
1
1
( )
i
n
x i i
i
C x x
n
+
=
= − .已知某像素点规模为 1 行 1n+ 列的图像第 i
列像素点的亮度 [0,9]( 1,2, , 1)ix i n = + ,现对该图像进行调整,有 2 种调整方案:①
( 0, 0, 1,2, , 1)i iy ax b a b i n= + = + ;② lg( 1)( 0, 1,2, , 1)i iz c x c i n= + = + ,则( )
A.使用方案①调整,当 9b = 时, ( 1,2, , 1)i iy x i n = +
B.使用方案②调整,当 9c = 时, ( 1,2, , 1)i iz x i n = +
C.使用方案①调整,当 { } { }i ix yC C 时, 1a
D.使用方案②调整,当
9( 1)
( 1,2, , 1)i
i
x i n
n
−
= = + , ln10c≤ 时, { } { }i ix zC C
9.为了考察某种疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表.根
据该表,在犯错的概率不超过 5%的前提之下,________(填“可以”或“不可以”)确定“小
动物是否感染与服用疫苗有关”.
感染 未感染 合计
服用 10 40 50
未服用 20 30 50
合计 30 70 100
附:
2
2 ( )= ,
( )( )( )( )
n ad bc
K n a b c d
a c b d a b c d
−
= + + +
+ + + +
2
0( k )p K 0.10 0.05 0.025 0.010 0.005 0.001
0k 2.706 3.841 5.024 6.635 7.879 10.828
10.某手机运营商为了拓展业务,现对该手机使用潜在客户
进行调查,随机抽取国内国外潜在用户代表各100名,调查
用户对是否使用该手机的态度,得到如图所示的等高条形图.
根据等高图,______(填“有”或“没有”)99.5%以上的把握
认为持乐观态度和国内外差异有关.
(参考公式与数据:
( )
( )( )( )( )
2
2
n ad bc
K
a b c d a c b d
−
=
+ + + +
,其中n a b c d= + + + )
( )2 0P K k 0.05 0.01 0.005 0.001
0k 3.841 6.635 7.879 10.828
武汉市好学途教育 高中数学重难点系列专题
第 11 页
11.2020 年,是人类首次成功从北坡登顶珠峰 60 周年,也是中国首次精确测定并公布
珠峰高程的 45 周年.华为帮助中国移动开通珠峰峰顶 5G,有助于测量信号的实时开通,
为珠峰高程测量提供通信保障,也验证了超高海拔地区 5G 信号覆盖的可能性,在持续
高风速下 5G 信号的稳定性,在条件恶劣地区通过简易设备传输视频信号的可能性.正如
任总在一次采访中所说:“华为公司价值体系的理想是为人类服务.”有人曾问,在珠峰开
通 5G 的意义在哪里?“我认为它是科学技术的一次珠峰登顶,告诉全世界,华为 5G、
中国 5G 的底气来自哪里.现在,5G 的到来给人们的生活带来
更加颠覆性的变革,某 IT 公司基于领先技术的支持,5G 经济
收入在短期内逐月攀升,该 IT 公司在 1 月份至 6 月份的 5G
经济收入 y(单位:百万元)关于月份 x的数据如下表所示,
并根据数据绘制了如图所示的散点图.
月份 x 1 2 3 4 5 6
收入 y(百万元) 6.6 8.6 16.1 21.6 33.0 41.0
(1)根据散点图判断, y ax b= + 与 edxy c= (a,b,c,d均为常数)哪一个更适宜作为
5G 经济收入 y关于月份 x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出 y关于 x的回归方程,并预测该公司 7 月份的
5G 经济收入.(结果保留小数点后两位)
(3)从前 6 个月的收入中抽取 2 个,记收入超过 20 百万元的个数为 X,求 X的分布列和
数学期望.参考数据:
x y u
6
2
1
( )i
i
x x
=
−
6
1
( )( )i i
i
x x y y
=
− −
6
1
( )( )i i
i
x x u u
=
− − 1.52e 2.66e
3.50 21.15 2.85 17.70 125.35 6.73 4.57 14.30
其中,设 ln , ln= =i iu y u y (i=1,2,3,4,5,6).
参考公式:对于一组具有线性相关关系的数据( ix , iv )(i=1,2,3,…,n),其回归
直线 ˆ ˆv̂ x = + 的斜率和截距的最小二乘估计公式分别为
1
2
1
( )( )
ˆ
( )
n
i i
i
n
i
i
x x v v
x x
=
=
− −
=
−
,
ˆˆ v x = − .
武汉市好学途教育 高中数学重难点系列专题
第 12 页
12.2022 年 11 月 20 日,卡塔尔足球世界杯正式开幕,世界杯上的中国元素随处可见.从
体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物都是中国制造,为卡塔尔世
界杯提供了强有力的支持.国内也再次掀起足球热潮.某地足球协会组建球队参加业余
比赛,该足球队教练组为了考查球员甲对球队的贡献,作出如下数据统计(甲参加过的
比赛均分出了输赢):
球队输球 球队赢球 总计
甲参加 2 30 32
甲未参加 8 10 18
总计 10 40 50
(1)根据小概率值 0.005 = 的独立性检验,能否认为该球队赢球与甲球员参赛有关联;
(2)从该球队中任选一人,A表示事件“选中的球员参赛”,B表示事件“球队输
球”.
( )
( )
|
|
P B A
P B A
与
( )
( )
|
|
P B A
P B A
的比值是选中的球员参赛对球队贡献程度的一项度量指标,
记该指标为 R.
①证明:
( )
( )
( )
( )
||
||
P A BP A B
R
P A BP A B
= ;
②利用球员甲数据统计,给出 ( )|P A B , ( )|P A B 的估计值,并求出 R的估计值.
附:
( )
( )( )( )( )
2
2
n ad bc
a b c d a c b d
−
=
+ + + +
.
参考数据:
a 0.05 0.01 0.005 0.001
ax 3.841 6.635 7.879 10.828
武汉市好学途教育 高中数学重难点系列专题
第 1 页
58 成对数据的统计分析重难点专题
常考结论及公式
结论一:样本相关系数
样本相关系数
( )( )
( ) ( )
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =
− −
=
− −
, 0r 时,称为成对样本数据正相
关, 0r 时,称为成对样本数据负相关;当 | |r 越接近于1时,成对样本数据的线性相
关程度越强,当 | |r 越接近于0 时,成对样本数据的线性相关程度越弱.
结论二:经验回归直线及其方程的性质
(1)经验回归直线方程 ˆˆ ˆy bx a= + ,其中
( )( )
( )
1 1
2 2 2
1 1
ˆ
ˆˆ .
n n
i i i i
i i
n n
i i
i i
x x y y x y nx y
b
x x x nx
a y bx
= =
= =
− − −
= =
− −
= −
;
(2)经验回归直线不一定过样本点,但是一定过样本中心点 ( ),x y .
(3)在经验回归直线方程 ˆˆ ˆy bx a= + 中, ˆ 0b 时,两个变量呈正相关关系; ˆ 0b 时,
两个变量呈负相关关系.
结论三:等高堆积条形图对分类变量的判断
两个分类变量在随机取值中,其取值的频率可以用等高条形图呈现出来.在等高条
形图中,
b
a b+
与
c
c d+
相差很大时,我们认为两个分类变量有关系,而且相差越大,
两个分类变量 ,x y关系越强.
结论四:卡方独立性检验的步骤
(1)提出零假设 0H : X 和Y 相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2 2 列联表,计算
2 的值,并与临界值 x 比较.
(3)根据检验规则得出推断结论.
(4)在 X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析 X 和Y 间的
影响规律.
武汉市好学途教育 高中数学重难点系列专题
第 2 页
题型一 样本相关系数的考查
【例 1】在一组样本数据 1 1( , )x y , 2 2( , )x y ,…, ( ),n nx y ( 2n , 1 2, , , nx x x 不全
相等)的散点图中,若所有样本点 ( ), ( 1,2, , )i ix y i n= 都在直线 3 1y x= − + 上,则这组
样本数据的样本相关系数为( )
A.-3 B.0 C.-1 D.1
【答案】C
【详解】因为所有样本点 ( )( ), 1,2, ,i ix y i n= 都在直线 3 1y x= − + 上,所以回归直线方
程是 3 1y x= − + ,可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,
且所有样本点 ( )( ), 1,2,..,i ix y i n= ,都在直线上,则有 1,r = 相关系数 1r = − ,故选 C.
【跟踪训练 1】已知 x与 y之间的几组数据如右表:
参考公式:线性回归方程 y bx a= + ,其中
( )( )
( )
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
=
=
− −
=
−
,a y bx= − ;
相关系数
( )( )
( ) ( )
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =
− −
=
− −
.上表数据中 y的平均值为 2.5,若某同学对 m 赋了
三个值分别为 1.5,2,2.5 得到三条线性回归直线方程分别为
1 1y b x a= + , 2 2y b x a= + ,
3 3y b x a= + ,对应的相关系数分别为 1r , 2r , 3r ,下列结论中错误..的是( )
A.三条回归直线有共同交点 B.相关系数中, 2r 最大
C. 1 2b b D. 1 2a a
【答案】D
【分析】由题意可得 5m n+ = ,分别取m 与 n 的值,由公式计算出 1 1 2 2 1 2 3, , , , , ,b a b a r r r 的
值,逐一分析四个选项,即可得到答案.
【详解】由题意,1 4 10m n+ + + = ,即 5m n+ = .
x 1 2 3 4
y 1 m n 4
重难点题型归纳与精讲
武汉市好学途教育 高中数学重难点系列专题
第 3 页
若 1.5m = ,则 3.5n = ,此时
1 2 3 4
2.5
4
x
+ + +
= = , 2.5y = .
( )( ) ( )( ) ( )( ) ( )( ) ( )( )
4
1
1 2.5 1 2.5 2 2.5 1.5 2.5 3 2.5 3.5 2.5 4 2.5 4 2.5 5.5i i
i
x x y y
=
− − = − − + − − + − − + − − =
, ( ) ( ) ( )
4
2 2 2 2 2
1
1.5 0.5 0.5 1.5 5i
i
x x
=
− = − + − + + = ,
( ) ( ) ( )
4
2 2 2 2 2
1
1.5 1 1 1.5 6.5i
i
y y
=
− = − + − + + = .
则 1
5.5
1.1
5
b = = , 1 2.5 1.1 2.5 0.25a = − = − , 1
5.5
0.93
5 6.5
r =
;
若 2m = ,则 3n = ,此时
1 2 3 4
2.5
4
x
+ + +
= = , 2.5y = .
( )( ) ( )( ) ( )( ) ( )( ) ( )( )
4
1
1 2.5 1 2.5 2 2.5 2 2.5 3 2.5 3 2.5 4 2.5 4 2.5 5i i
i
x x y y
=
− − = − − + − − + − − + − − =
, ( )
4 2
1
5i
i
x x
=
− = , ( ) ( ) ( )
4
2 2 2 2 2
1
1.5 0.5 0.5 1.5 5i
i
y y
=
− = − + − + + = .
2
5
1
5
b = = , 2 2.5 1 2.5 0a = − = ,
2 5 1
5 5
r = =
;
若 2.5m = ,则 2.5n = ,此时
1 2 3 4
2.5
4
x
+ + +
= = , 2.5y = .
( )( ) ( )( ) ( )( ) ( )( ) ( )( )
4
1
1 2.5 1 2.5 2 2.5 2.5 2.5 3 2.5 2.5 2.5 4 2.5 4 2.5 4.5i i
i
x x y y
=
− − = − − + − − + − − + − − =
, ( )
4
2
1
5i
i
x x
=
− = , ( ) ( )
4
2 2 2
1
1.5 1.5 4.5i
i
y y
=
− = − + = , 3
4.5
0.9
5 4.5
r = =
.
由样本点的中心相同,故 A 正确;
由以上计算可得,相关系数中, 2r 最大, 1 2b b , 1 2a a ,故 B,C 正确,D 错误.
故选:D.
【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.
题型二 误差分析
【例 2】某市物价部门对 5 家商场的某商品一天的销售量及其价格进行调查,5 家商场
的售价 x (元)和销售量 y (件)之间的一组数据如表所示:
价格 x 9 9.5 10 10.5 11
销售量 y 11 10 8 6 5
按公式计算, y 与 x 的回归直线方程是: 3.2y x a= − + ,相关系数 0.986r = ,则下列说
法错误的是( )
A.变量 x , y 线性负相关且相关性较强; B. 40a = ;
C.当 8.5x = 时, y 的估计值为 12.8; D.相应于点 ( )10.5,6 的残差为 0.4.
【答案】D
武汉市好学途教育 高中数学重难点系列专题
第 4 页
【分析】根据相关性、相关系数判断 A 选项;利用样本中心点判断 B 选项;将 8.5x = 代
入回归直线方程,由此判断 C 选项;求得 10.5x = 时 y 的估计值,进而求得对应的残差,
从而判断 D 选项.
【详解】对 A,由表可知 y 随 x 增大而减少,可认为变量 x , y 线性负相关,且由相关
系数 0.986r = 可知相关性强,故 A 正确.
对 B,价格平均 ( )
1
9 9.5 10 10.5 11 10
5
x = + + + + = ,销售量 ( )
1
11 10 8 6 5 8
5
y = + + + + = .
故回归直线恒过定点 ( )10,8 ,故8 3.2 10 40a a= − + = ,故 B 正确.
对 C,当 8.5x = 时, 3.2 8.5 40 12.8y = − + = ,故 C 正确.
对 D,相应于点 ( )10.5,6 的残差 ( )6 3.2 10.5 40 0.4e = − − + = − ,故 D 不正确.
故选:D
【跟踪训练 2】(多选)对两个变量 y 和 x 进行回归分析,得到一组样本数据: 1 1( )x y, 、
2 2( )x y, 、 3 3( )x y, 、…、 ( )n nx y, ,则下列说法中正确的是( ).
A.由样本数据得到的回归方程 ˆˆ ˆy bx a= + 必过样本中心 ( )x y,
B.由样本数据得到的回归方程 ˆˆ ˆy bx a= + 和各点 1 1( )x y, 、 2 2( )x y, 、 3 3( )x y, 、…、( )n nx y,
的偏差
2
1
( )
n
i i
i
y bx a
=
− − 是该坐标平面上所有直线与这些点的偏差中最小的
C.若变量 y 和 x 之间的相关系数为 0.9362r = − ,则变量 y 和 x 之间具有线性相关关系
D.以上说法都不正确
【答案】ABC
【分析】由线性回归方程的求法及相关系数的定义即可判定.
【详解】回归直线方程对应的直线是与样本数据距离最小的,回归直线方程不一定过原
始数据点,
但一定过样本中心,∴A、B 是正确的,
相关系数主要是衡量两个变量之间线性关系的强弱,| |r 越接近 1,两个变量之间线性相
关性就越强,越接近 0 ,两个变量之间线性相关性就越弱,
通常,当 | | 0.75r 时认为两个变有很强的性相关关系,∴C 是正确的,
故选:ABC.
题型三 线性回归直线方程求法及应用
【例 3】对具有线性相关关系的变量 x , y 有一组观测数据 ( ),i ix y ( 1,2, ,8i = ),其回
武汉市好学途教育 高中数学重难点系列专题
第 5 页
归直线方程是
1
ˆ
8
ˆy bx= + ,且 1 2 3 8x x x x+ + + + = ( )1 2 3 82 6y y y y+ + + + = ,则实数 b̂ 的
值是( )
A.
1
16
B.
1
4
C.
1
3
D.
1
2
【答案】C
【详解】 因为 1 2 3 8 6x x x x+ + + + = , 1 2 3 8 3y y y y+ + + + =
所以
3 3
,
4 8
x y= = ,所以样本中心点的坐标为
3 3
( , )
4 8
,
代入回归直线方程得
8 4 8
ˆ3 3 1b= + ,解得 ˆ
1
3
b = ,故选 C.
【跟踪训练 3】(多选)小明在家独自用下表分析高三前 5 次月考中数学的班级排名 y
与考试次数 x的相关性时,忘记了第二次和第四次月考排名,
但小明记得平均排名 6y = ,于是分别用 m=6 和 m=8 得到了
两条回归直线方程: 1 1y b x a= + , 2 2y b x a= + ,对应的相关系
数分别为 1r 、 2r ,排名 y对应的方差分别为
2
1s 、
2
2s ,则下列结论正确的是( )
(附:
( )
1
2
2
1
n
i i
i
n
i
i
x y nx y
b
x n x
=
=
−
=
−
,a y bx= − )
A. 1 2r r B.
2 2
1 2s s C. 1 2b b D. 1 2a a
【答案】BD
【分析】根据表格中的数据和最小二乘法、相关系数的计算公式分别计算当 6m = 、 8m =
时的 ˆ ˆ,b a、相关系数(r)和方差( 2s ),进而比较大小即可.
【详解】当 6m = 时, 1
10 6 6 21 2 3 4 5
3, 6
5 5
n
x y
+ + + ++ + + +
= = = = ,解得 1 6n ,
则
5
1
1 10 2 6i i
i
x y
=
= + 3 6 4 6 5 2 74+ + + = ,
5
2 2 2 2 2 2
1
1 2 3 4 5 55i
i
x
=
= + + + + = , 18x y = ,
5
1
( )( )i i
i
x x y y
=
− −
(1 3)(10 6) (2 3)(6 6) (3 3)(6 6) (4 3)(6 6) (5 3)(2 6) 16= − − + − − + − − + − − + − − = − ,
2 2
1
( ) ( )
n
i i
i
x x y y
=
− −
2 2 2 2 2 2 2 2 2 2(1 3) (10 6) (2 3) (6 6) (3 3) (6 6) (4 3) (6 6) (5 3) (2 6) 128= − − + − − + − − + − − + − − = ,
x 1 2 3 4 5
y 10 m 6 n 2
武汉市好学途教育 高中数学重难点系列专题
第 6 页
所以 11 2
2 2
1
74 5 18 8
55 5 3 5
n
i i
i
n
i
i
x y nx y
b
x nx
=
=
−
−
= = = −
−
−
,
得 1 1
54
5
a y b x= − = ,
1
1
2 2
1
( )( )
16
2
128
( ) ( )
n
i i
i
n
i i
i
x x y y
r
x x y y
=
=
− −
−
= = = −
− −
,
2 2 2 2 2
2 2
1
1
1 (10 6) (6 6) (6 6) (6 6) (2 6) 32
( )
5 5
n
i
i
s y y
n =
− + − + − + − + −
= − = = ;
同理,当 8m = 时,
2 2 2
5 34
2, 12,
17
b a r= − = = − ,
2
2 8s = ,
所以
2 2
1 2 1 2 1 2 1 2, , ,r r s s b b a a ,
故选:BD.
题型四 等高条形图与列联表
【例 4】为了发展学生的兴趣和个性特长,培养全面发展的人才.某学校在不加重学生
负担的前提下.提供个性、全面的选修课程.为了解学生对于选修课《学生领导力的开
发》的选择意愿情况,对部分高二学生进行了抽样调查,制作出如图所示的两个等高条
形图,根据条形图,下列结论正确的是( )
A.样本中不愿意选该门课的人数较多
B.样本中男生人数多于女生人数
C.样本中女生人数多于男生人数
D.该等高条形图无法确定样本中男生人数是否多于女生人数
【答案】B
【分析】根据等高条形图直接判断各个选项即可.
【详解】对于 A,由图乙可知,样本中男生,女生都大部分愿意选择该门课,
则样本中愿意选该门课的人数较多,A 错误;
对于 BCD,由图甲可知,在愿意和不愿意的人中,都是男生占比较大,
所以可以确定,样本中男生人数多于女生人数,B 正确,CD 错误.
故选:B.
武汉市好学途教育 高中数学重难点系列专题
第 7 页
【跟踪训练 4】(多选)为了有针对性地提高学生体育锻
炼的积极性,某中学需要了解性别因素是否对本校学生体
育锻的经常性有影响,随机抽取了 300 名学生,对他们是
否经常锻炼的情况进行了调查,调查发现经常锻炼人数是
不经常锻炼人数的 2 倍,绘制其等高堆积条形图,如图所
示,则( )
A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多
B.从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为
5
7
C.依据 0.1 = 的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错
误的概率不超过 0.1
D.假设调查人数为 600 人,经常锻炼人数与不经常锻炼人数的比例不变,统计得到的
等高堆积条形图也不变,依据 0.05 = 的独立性检验,认为性别因素影响学生体育锻炼
的经常性,该推断犯错误的概率不超过 0.05 附:
( )
( )( )( )( )
2
2
n ad bc
a b c d a c b d
−
=
+ + + +
,
( )
2
300 100 60 40 100
2.679
140 160 200 100
−
0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
【答案】ABD
【分析】由题意计算出男生中经常锻炼的人数以及不经常锻炼的人数,即可判断 A;根
据古典概型的概率公式可判断 B;列出列联表,根据独立性检验的方法可判断 C,D.
【详解】对于 A,由题意知经常锻炼人数是不经常锻炼人数的 2 倍,
故经常锻炼人数为 200 人,不经常锻炼人数为 100 人,
故男生中经常锻炼的人数为200 0.5 100 = 人,不经常锻炼的人数为100 0.6 60 = 人,
故男生中经常锻炼的人数比不经常锻炼的人数多,A 正确;
对于 B,经常锻炼的女生人数为200 0.5 100 = 人,不经常锻炼的人数为100 0.4 40 = 人,
故从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为
100 5
100 40 7
=
+
,B 正确;
对于 C,由题意结合男女生中经常锻炼和不经常锻炼的人数,可得列联表:
武汉市好学途教育 高中数学重难点系列专题
第 8 页
经常锻炼 不经常锻炼 合计
男 100 60 160
女 100 40 140
合计 200 100 300
则
( )
( )( )( )( )
( )
2 2
2
300 100 60 40 100
2.679 2.706
140 160 200 100
n ad bc
a b c d a c b d
− −
= =
+ + + +
,
故依据 0.1 = 的独立性检验,不能认为性别因素影响学生体育锻炼的经常性,该推断
犯错误的概率不超过 0.1,C 错误;
对于 D,由题意可得:
经常锻炼 不经常锻炼 合计
男 200 120 320
女 200 80 280
合计 400 200 600
则此时
( )
2
2
600 200 80 200 120
5.357 3.841
400 200 320 280
−
=
,
故依据 0.05 = 的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错
误的概率不超过 0.05,D 正确,
故选:ABD
题型五 卡方计算及实际应用
【例 5】十三届全国人大四次会议 3 月 11 日表决通过了关于国民经济和社会发展第十
四个五年规划和 2035 年远景目标纲要的决议,决定批准这个规划纲要.纲要指出:“加
强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现
离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等
离子注入机,工艺段覆盖至 28 nm,为我国芯片制造产业链补上重要一环,为全球芯片
制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做
出了重大贡献.该企业使用新技术对某款芯片进行试生产.
(1)在试产初期,该款芯片的 I 批次生产有四道工序,前三道工序的生产互不影响,
第四道是检测评估工序,包括智能自动检测与人工抽检.已知该款芯片在生产中,前三
武汉市好学途教育 高中数学重难点系列专题
第 9 页
道工序的次品率分别为 1
1
35
P = , 2
1
34
P = , 3
1
33
P = .
①求批次 I 芯片的次品率 IP ;
②第四道工序中智能自动检测为次品的芯片会被自动淘汰,合格的芯片进入流水线并
由工人进行抽查检验.已知批次 I 的芯片智能自动检测显示合格率为92%,求工人在流水
线进行人工抽检时,抽检一个芯片恰为合格品的概率(百分号前保留两位小数).
(2)已知某批次芯片的次品率为 ( )0 1P P ,设100个芯片中恰有1个不合格品的概率
为 ( )p ,记 ( )p 的最大值点为 0P ,改进生产工艺后批次 J 的芯片的次品率 0JP P= .某
手机生产厂商获得 I 批次与 J 批次的芯片,并在某款新型手机上使用.现对使用这款手机
的用户回访,对开机速度进行满意度调查.据统计,回访的100名用户中,安装 I 批次有
40部,其中对开机速度满意的有28人;安装 J 批次有60 部,其中对开机速度满意的有
57 人.求 0P ,并判断是否有99.9%的把握认为芯片质量与用户对开机速度满意度有关?
附:
( )
( )( )( )( )
2
2
n ad bc
K
a b c d a c b d
−
=
+ + + +
.
( )2P K k 0.050 0.010 0.005 0.001
k 3.841 6.635 7.879 10.828
【答案】(1)①
3
35
;②99.38%;(2) 0 0.01P = ,有99.9%的把握认为芯片质量与用户
对开机速度满意度有关.
【分析】(1)①利用对立事件、相互独立事件概率乘法公式求得所求的次品率.
②根据条件概率计算公式,计算出所求概率.
(2)先求得 ( )p 的表达式,利用导数求得 0P ,填写 2 2 列联表,计算 2K ,由此作出
判断.
【详解】(1)①Ⅰ批次芯片的次品率为
( )( )( )1 2 3
34 33 32 3
1 1 1 1 1
35 34 33 35
IP P P P= − − − − = − = .
②设批次Ⅰ的芯片智能自动检测合格为事件A ,人工抽检合格为事件 B ,
由已知得 ( )
92
100
P A = , ( )
3 32
11
35 35
IP AB P= = − =− ,
则工人在流水线进行人工抽检时,抽检一个芯片恰为合格品为事件 |B A,
( )
( ) 32 100 8 20 160
| 99.38%
( ) 35 92 7 23 161
P AB
B A
P
P
A
= = = =
.
武汉市好学途教育 高中数学重难点系列专题
第 10 页
(2)100个芯片中恰有1个不合格的概率 ( ) 1 99100 (1 )p C p p = − .
因此 ( )' 99 98 98100[(1 ) 99 (1 ) ] 100(1 ) (1 100 )p p p p p p = − − − = − − ,
令 ( )' 0p = ,得 0.01p = .
当 ( )0,0.01p 时, ( )' 0p ;当 ( )0.01,1p 时, ( )' 0p .
所以 ( )p 的最大值点为 0 0.01P = .
由(1)可知, 1
1
0.09
35
P = , 0 0.01JP P= = ,故
批次 J 芯片的次品率低于批次 I ,故批次 J 的芯
片质量优于批次 I .
由数据可建立 2×2 列联表如下:(单位:人)
根据列联表得
2 2
2 ( ) 100 (12 57 28 3)
( )( )( )( ) 40 60 15 85
n ad bc
K
a b c d a c b d
− −
= =
+ + + +
100 600 600 200
11.765 10.828
40 60 15 85 17
= =
.
因此,有99.9%的把握认为芯片质量与用户对开机速度满意度有关.
【点睛】求解最值点有关的题目,是利用导数研究函数的单调性,由此来求得最值点.
【跟踪训练 5】在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况,如下
表所示:
则下列说法正确的是________.
①
11
1 23
6n
n n+
= ;
② 2 2.706 ;
③可以认为,“在恶劣气候飞行中,晕机与否跟男女性别
有关”;
④没有理由认为,“在恶劣气候飞行中,晕机与否跟男女性别有关”.
【答案】②④/④②
【分析】根据题中表格数据,结合卡方计算公式逐一判断即可.
【详解】由表格数据可知: 1 46 28 18n+ = − = ,于是可得: 11 1 6 18 6 12n n+= − = − = ,
22 28 15 13n = − = , 1 11 15 12 15 27n n+ = + = + = , 123 46 46 27 19n n += − = − = ,
开机速度满意度
芯片批次
合计
I J
不满意 12 3 15
满意 28 57 85
合计 40 60 100
晕机 不晕机 合计
男 11n 15 1n +
女 6 22n 23n
合计 1n+ 28 46
武汉市好学途教育 高中数学重难点系列专题
第 11 页
于是有
11
1 23
12 4 6 6
,
27 9 19
n
n n+
= = = ,显然①不正确;
2
2 46 (12 13 15 6) 0.775 2.706
27 19 18 28
−
=
,没有90%的把握认为,在恶劣的气候飞行中,
晕机与否跟男女的性别有关,因此②④正确,③不正确,
故答案为:②④
题型六 非线性的回归直线方程
【例 6】某县依托种植特色农产品,推进产业园区建设,致富一方百姓.已知该县近5年
人均可支配收入如下表所示,记2017年为 1x = ,2018年为 2x = ,…以此类推.
年份 2017 2018 2019 2020 2021
年份代号 x 1 2 3 4 5
人均可支配收入 y (万元) 0.8 1.1 1.5 2.4 3.7
(1)使用两种模型:① ˆˆ ˆy bx a= + ;② 2ˆ ˆ ˆy mx n= + 的相关指数 2R 分别约为0.92,0.99,
请选择一个拟合效果更好的模型,并说明理由;
(2)根据(1)中选择的模型,试建立 y 关于 x 的回归方程.(保留2位小数)
附:回归方程 ˆˆ ˆy bx a= + 中斜率和截距的最小二乘估计公式分别为
( )( )
( )
1
2
1
ˆ
n
i i
i
n
i
i
x x y y
b
x x
=
=
− −
=
−
,
ˆâ y bx= − .
参考数据: ( )( )
5
1
7.1i i
i
x x y y
=
− − = ,令 2i iu x= , ( )( )
5
1
45.1i i
i
u u y y
=
− − = .
【答案】(1)应选择 2ˆ ˆ ˆy mx n= +
(2)
2ˆ 0.12 0.57y x= +
【分析】(1)根据 2R 越大,模型拟合效果越好,可确定所选模型;
(2)令
2
i iu x= ,利用最小二乘法可求得 ˆ ˆ,m n,进而得到回归方程.
【详解】(1) 0.92 0.99 ,根据统计学知识可知: 2R 越大,模型拟合效果越好,
应选择模型 2ˆ ˆ ˆy mx n= + .
(2)令
2
i iu x= ,
武汉市好学途教育 高中数学重难点系列专题
第 12 页
1 4 9 16 25
11
5
u
+ + + +
= = ,
0.8 1.1 1.5 2.4 3.7
1.9
5
y
+ + + +
= = ,
( ) ( ) ( ) ( ) ( ) ( )
5
2 2 2 2 2 2
1
1 11 4 11 9 11 16 11 25 11 374i
i
u u
=
− = − + − + − + − + − = ,
又 ( )( )
5
1
45.1i i i
i
u u y y
=
− − = ,
( )( )
( )
5
1
5
2
1
45.1
ˆ 0.121 0.12
374
i i
i
i
i
u u y y
m
u u
=
=
− −
= =
−
, ˆ ˆ 1.9 0.121 11 0.569 0.57n y mu= − = − = ,
y 关于 x 的回归方程为 2ˆ 0.12 0.57y x= + .
【跟踪训练 6】某果园种植“糖心苹果”已有十余年,根据其种植规模与以往的种植经验,
产自该果园的单个“糖心苹果”的果径(最大横切面直径,单位:mm)在正常环境下服
从正态分布 ( )68 36N , .
(1)一顾客购买了 20 个该果园的“糖心苹果”,求会买到果径小于 56 mm的概率;
(2)为了提高利润,该果园每年投入一定的资金,对种植、
采摘、包装、宣传等环节进行改进.如图是 2009 年至 2018
年,该果园每年的投资金额 x (单位:万元)与年利润增
量 y (单位:万元)的散点图:
该果园为了预测 2019 年投资金额为 20 万元时的年利润增
量,建立了 y 关于 x 的两个回归模型;
模型①:由最小二乘公式可求得 y 与 x 的线性回归方程: 2.50 2 0ˆ .5y x= − ;
模型②:由图中样本点的分布,可以认为样本点集中在曲线: lny b x a= + 的附近,对
投资金额 x 做交换,令 lnt x= ,则 y b t a= + ,且有
10
1
22.00i
i
t
=
= ,
10
1
230i
i
y
=
= ,
10
1
569.00i i
i
t y
=
= ,
10
2
1
50.92i
i
t
=
= .
(I)根据所给的统计量,求模型②中 y 关于 x 的回归方程;
(II)根据下列表格中的数据,比较两种模型的相关指数 2R ,并选择拟合精度更高、更
可靠的模型,预测投资金额为 20 万元时的年利润增量(结果保留两位小数).
回归模型 模型① 模型②
回归方程 2.50 2 0ˆ .5y x= − lˆ ny b x a= +
( )
10
2
1
ˆ
i i
i
y y
=
− 102.28 36.19
武汉市好学途教育 高中数学重难点系列专题
第 13 页
附:若随机变量 ( )2X N , ,则 ( )2 2 0.9544P X − + = ,
( )3 3 0.9974P X − + = ;样本 ( )( ), 1 2i it y i n= ,, , 的最小乘估计公式为
( )( )
( )
1
2
1
ˆ
n
i i
i
n
i
i
t t y y
b
t t
=
=
− −
=
−
, ˆâ y bt= − ;
相关指数
( )
( )
2
2 1
2
1
ˆ
1
n
i
i
n
i
i
y y
R
y y
=
=
−
= −
−
.
参考数据: 200.9772 0.6305 , 200.9987 0.9743 , ln 2 0.6931 , ln5 1.6094 .
【答案】(1)0.3695;(2)(I) 25l 32ˆ ny x= − ,(II)模型①的 2R 小于模型②,说明回
归模型②刻画的拟合效果更好,当 20x 时,模型②的年利润增量的预测值为 ˆ=42.89y
(万元),
【分析】(1)由已知满足正态分布,则可知, 的值,由正态分布的对称性可知,可
求得买一个苹果,其果径小于 56 mm的概率 ( ) ( )
1
56 1 2 2
2
P X P = − − + ,
由独立重复试验概率的运算方式,求得购买 20 个“糖心苹果”中有果径小于 56 mm的苹
果概率;
(2)(I)由最小二乘法求得模型②中 y 关于 x 的回归方程;
(II)分别计算两种模型的相关系数的平方,得模型②的相关系数的平方更大其拟合程
度越好,再代 20x 进行计算,求得预测值.
【详解】(1)由已知,当个“糖心苹果”的果径 ( )2X N , ,
则 68 = , 6 = .
由正态分布的对称性可知,
( ) ( ) ( ) ( )
1 1 1
56 1 68 12 68 12 1 2 2 1 0.9544 0.0228
2 2 2
P X P X P = − − + = − − + = − =
设一顾客购买了 20 个该果园的“糖心苹果”,其中果径小于 56 mm的有个,则
( )20,0.0228B ,
故 ( ) ( ) ( )
20 201 1 0 1 1 0.0228 1 0.9772 0.3695P P = − = = − − = − = ,
所以这名顾客所购买 20 个“糖心苹果”中有果径小于 56 mm的苹果概率为 0.3695.
(2)(I)由
10
1
22.00i
i
t
=
= ,
10
1
230i
i
y
=
= ,可得 2.20t = , 23y = ,
又由题,得
( )( )
( )
1 1
2 2 2
1 1
10 569.00 10 2.20 23
25
50.92 10
ˆ
2.20 2.2010
n n
i i i ii i
n n
i ii i
t t y y t y t y
b
t t t t
= =
= =
− − − −
= = = =
− − −
,
武汉市好学途教育 高中数学重难点系列专题
第 14 页
则 23 25 2ˆ .20 32â y bt= − = − = −
所以,模型②中 y 关于 x 的回归方程 25l 32ˆ ny x= − .
(II)由表格中的数据,有102.28 36.19 ,即
( ) ( )
10 102 2
1 1
102.28 36.19
i ii i
y y y y
= =
− −
,
所以模型①的 2R 小于模型②,说明回归模型②刻画的拟合效果更好,
当 20x = 时,模型②的年利润增量的预测值为
( ) ( )25 ln20 32 25 2ln2 ln5 32 25 2 0.6931 1.6094 32 42.8ˆ 9y = − = + − + − = (万元),
这个结果比模型①的预测精度更高、更可靠.
【点睛】本题考查统计案例的综合问题,涉及正态分布求概率、独立重复试验的概率运
算以及利用最小二乘法求回归直线方程,还考查了由相关系数的平方比较模型的拟合程
度,属于难题.
课后突破训练
1.不可以判断两个变量是否有关系的是( )
A.散点图 B.列联表
C.等高条形图 D.频率分布直方图
【答案】D
【分析】根据题意,依次分析选项的图、表,结合其统计意义,即可得答案.
【详解】解:对于A ,根据散点图可以判断两个变量间相关性的强弱,故 A 正确;
对于B,对于列联表,计算 2K 的值,可以判断两个变量是否有关系,故 B 正确;
对于C,用等高条形图可以粗略地判断两个变量是否有关,故 C 正确;
对于D ,频率分布直方图是反映样本的频率分布规律,不能反映是否相关,故 D 错误.
故选:D.
2.已知一组样本点 ( ),i ix y ,其中 1,2,3,...,30i = ,根据最小二乘法求得的回归直线方程
是 y b x a
= + ,则下列说法正确的是( )
A.若所有样本点都在回归直线方程 y b x a
= + 上,则变量间的相关系数为 1
B.至少有一个样本点落在回归直线方程 y b x a
= + 上
C.对所有的 ix ( 1,2,3,...,30i = ),预测值
ib x a
+ 一定与实际值 iy 有误差
D.若 y b x a
= + 的斜率 0b
,则变量 x 与 y 正相关
武汉市好学途教育 高中数学重难点系列专题
第 15 页
【答案】D
【分析】选项 A,相关系数 1r = ,故 A 错误;
选项 B,样本点可能都不在经验回归直线上,故 B 错误;
选项 C,可以存在 ix ;对应的预测值
ib x a
+ 与实际值 iy 没有误差,故 C 错误;
选项 D, 0r ,样本点的分布从左至右上升,变量 x 与 y 正相关,故 D 正确.
【详解】选项 A,若所有样本点都在直线 y b x a
= + 上,则变量间的相关系数 r 的绝对
值为 1 ,相关系数 1r = ,故 A 错误;
选项 B,经验回归直线必过样本点的中心,但样本点可能都不在经验回归直线上,故 B
错误;
选项 C,样本点可能在直线 y b x a
= + 上,即可以存在 ix ;对应的预测值 ib x a
+ 与实际
值 iy 没有误差,故 C 错误;
选项 D,相关系数 r 与b 符号相同,若 y b x a
= + 的斜率 0b
,则 0r ,样本点的分布
从左至右上升,变量 x 与 y 正相关,故 D 正确.
故选:D
3.2020 年以来,5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,
某手机商城统计了近 5 个月 5G手机的实际销量,如下表所示:
月份 2021 年 1 月 2021 年 2 月 2021 年 3 月 2021 年 4 月 2021 年 5 月
月份编号 x 1 2 3 4 5
销量 y /部 50 96 a 185 227
若 y 与 x 线性相关,且求得线性回归方程为 ˆ 45 5y x= + ,则下列结论错误的是( )
A. 142a =
B. y 与 x 正相关
C. y 与 x 的相关系数为负数
D.预计 2021 年 7 月份该手机商城的 5G手机销量约为 320 部
【答案】C
【分析】由已知求得 x ,得到 y ,即可求得a 值判断选项 A;再由 x 的系数判断选项 B
与 C;取 7x = 求得 y 值判断选项 D.
【详解】根据表中数据,可得
1 2 3 4 5
3
5
x
+ + + +
= = ,
45 3 5 140y = + = ,
武汉市好学途教育 高中数学重难点系列专题
第 16 页
于是,50 96 185 227 140 5 700a+ + + + = = ,即 142a = ,故选项 A 正确;
由回归方程中 x 的系数大于 0,可知 y 与 x 正相关,且相关系数 0r ,故选项 B 正确,
选项 C 错误;
12 月份时, 7x = , ˆ 45 7 5 320y = + = 部,故选项 D 正确.
故选:C
4.如图是九江市 2019 年 4 月至 2020 年 3 月每月最低气温与最高气温(℃)的折线统
计图:已知每月最低气温与最高气温的线性相关系数 r=0.83,则下列结论错误的是( )
A.每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关
B.月温差(月最高气温﹣月最低气温)的最大值出现在 10 月
C.9﹣12 月的月温差相对于 5﹣8 月,波动性更大
D.每月最高气温与最低气温的平均值在前 6 个月逐月增加
【答案】D
【分析】根据相关系数的性质判断 A;根据所给折线图,对 B,C,D 逐项进行判断.
【详解】每月最低气温与最高气温的线性相关系数 r=0.83,比较接近于1,则每月最低
气温与最高气温有较强的线性相关性,且二者为线性正相关,则 A 正确;
由所给的折线图可以看出月温差(月最高气温﹣月最低气温)的最大值出现在 10 月,
则 B 正确;
5﹣8 月的月温差分别为 18,17,16,16,9﹣12 月的月温差分别为 20,31,24,21,则 9﹣12 月
的月温差相对于 5﹣8 月,波动性更大,C 正确;
每月的最高气温与最低气温的平均值在前 5 个月逐月增加,第六个月开始减少,所以 A
正确,则 D 错误;
故选:D
【点睛】本题主要考查了根据折线图解决实际问题以及相关系数的性质的应用,对于相
关系数 r , r 越接近于 1,两个变量的线性相关程度越强,属于中档题.
5.以模型 e ( 0)kxy c c= 去拟合一组数据时,为了求出回归方程,设 lnz y= ,将其变换
武汉市好学途教育 高中数学重难点系列专题
第 17 页
后得到经验回归方程 2 1z x= − ,则 ,k c的值分别是( )
A. 2,e− B.
1
2,
e
C.
e
1
2,− D.2,e
【答案】B
【分析】模型 e ( 0)kxy c c= 两边取对数,又 lnz y= ,可得 lnz c kx= + ,又已知回归方程
2 1z x= − ,可求 ,k c的值.
【详解】由题意得 ( )ln ln e lnkxy c c kx= = + ,设 lnz y= ,可得 lnz c kx= + .
又经验回归方程为 2 1z x= − ,
所以 ln 1, 2c k= − = ,故
1
, 2
e
c k= = .
故选:B
6.(多选)关于变量 x,y的 n个样本点 1 1 2 2( , ), ( , ), , ( , )n nx y x y x y 及其线性回归方
程. ˆˆ ˆ,y bx a= + 下列说法正确的有( )
A.相关系数 r的绝对值|r|越接近 0,表示 x,y的线性相关程度越强
B.相关指数 2R 的值越接近 1,表示线性回归方程拟合效果越好
C.残差平方和越大,表示线性回归方程拟合效果越好
D.若
1 1
1 1
,
n n
i i
i i
x x y y
n n= =
= = ,则点 ( , ).x y 一定在线性回归方程 ˆˆ ˆy bx a= + 上
【答案】BD
【解析】根据回归分析的相关知识,逐一分析四个选项的正误即可.相关系数的绝对值
越接近 0,线性相关度越弱.相关指数表示拟合效果的好坏,指数越大,拟合程度越好.
残差平方和越小,拟合程度越好.线性回归方程一定过样本中心点.
【详解】根据线性相关系数的意义可知,当 r 的绝对值越接近于 0 时,
两个随机变量线性相关性越弱,则 A 错误;
用相关指数 2R 来刻画回归效果,
2R 越大,说明模型的拟合效果越好,则 B 正确;
拟合效果的好坏是由残差平方和来体现的,
残差平方和越大,拟合效果越差,则 C 错误;
样本中心点一定在回归直线上,则 D 正确.
故选:BD.
7.(多选)给出下列命题,其中正确命题为( )
A.投掷一枚均匀的硬币和均匀的骰子(形状为正方体,六个面分别标有数字 1,2,3,
4,5,6)各一次,记硬币正面向上为事件 A,骰子向上的点数是 2 为事件 B,则事件 A
武汉市好学途教育 高中数学重难点系列专题
第 18 页
和事件 B同时发生的概率为
1
12
B.以模型 kxy ce= 去拟合一组数据时,为了求出回归方程,设 lnz y= ,将其变换后得
到线性方程 0.3 4z x= + ,则 c , k 的值分别是 4e 和0.3
C.随机变量 X 服从正态分布 ( )21,N , ( )1.5 0.34P X = ,则 ( )0.5 0.16P X =
D.某选手射击三次,每次击中目标的概率均为
1
2
,且每次射击都是相互独立的,则该
选手至少击中 2 次的概率为
1
2
【答案】ABD
【解析】分别计算事件 A和事件 B的概率可判断 A;根据对数的运算性质可判断 B;根
据正态分布的性质可判断 C; 计算该选手击中 2 次的概率和 3 次都击中的概率可判断
D.
【详解】对于 A,事件 A的概率为
1
2
,事件 B的概率为
1
6
,则事件 A和事件 B同时发
生的概率为
1 1 1
2 6 12
= ,故 A 正确;
对于 B,因为 ekxy c= ,所以两边取对数得 ( )ln ln e lnkxy c c kx= = + ,令 lnz y= ,可得
lnz c kx= + ,因为 0.3 4z x= + ,所以 ln 4, 0.3c k= = ,所以 4c e= ,故 B 正确;
对于 C, 随机变量 X 服从正态分布 ( )21,N ,所以正态曲线关于 1x = 对称,则
( ) ( )0.5 1.5 0.34P X P X = = ,故 C 错误;
对于 D,由题意得,该选手 1 次未击中, 2 次击中的概率为
1 1 1 3
3
2 2 2 8
= ,3 次都击
中的概率
1 1 1 1
2 2 2 8
= ,则至少击中 2 次的概率为
3 1 1
8 8 2
+ = ,故 D 正确.
故选:ABD.
【点睛】考查了相互独立事件的概率、线性回归方程、正态分布问题,其中熟练掌握相
关知识、性质、运算是解题的关键.
8.(多选)计算机显示的数字图像是由一个个小像素点组合而成的.处理图像时,常会
通过批量调整各像素点的亮度,间接调整图像的对比度、饱和度等物理量,让图像更加
美观.特别地,当图像像素点规模为 1 行 1n+ 列时,设第 i列像素点的亮度为 ix ,则该
图像对比度计算公式为
2
{ } 1
1
1
( )
i
n
x i i
i
C x x
n
+
=
= − .已知某像素点规模为 1 行 1n+ 列的图像第 i
列像素点的亮度 [0,9]( 1,2, , 1)ix i n = + ,现对该图像进行调整,有 2 种调整方案:①
( 0, 0, 1,2, , 1)i iy ax b a b i n= + = + ;② lg( 1)( 0, 1,2, , 1)i iz c x c i n= + = + ,则( )
武汉市好学途教育 高中数学重难点系列专题
第 19 页
A.使用方案①调整,当 9b = 时, ( 1,2, , 1)i iy x i n = +
B.使用方案②调整,当 9c = 时, ( 1,2, , 1)i iz x i n = +
C.使用方案①调整,当 { } { }i ix yC C 时, 1a
D.使用方案②调整,当
9( 1)
( 1,2, , 1)i
i
x i n
n
−
= = + , ln10c≤ 时, { } { }i ix zC C
【答案】AC
【分析】方案①:根据 i iy ax b= + 的性质,将 9b = 、 0a 及 [0,9]ix 代入判断 A;利用
对比度公式可得
2
{ } { }i iy x
C a C= ,即可判断 C;方案②:在 9lg( 1)i iz x= + 时代入特殊值 9ix =
判断 B;根据条件判断
2 2 2 2
{ }
10
( ln , ln )
10 9 9i
z
n n
C t t
n n
+ +
且
2
{ }
9
( )
ix
C
n
= ,特殊值 1n = 代入判断
D.
【详解】使用方案①调整:当 9b = 时 9i iy ax= + 且 0a ,又 [0,9]ix 则 i iy x ,A 正确;
2
{ } 1
1
1
( )
i
n
x i i
i
C x x
n
+
=
= − ,
2
2
{ } 1
1
( )
i
n
y i i
i
a
C x x
n
+
=
= − ,
当 { } { }i ix yC C ,即
2 1a
n n
且 *Nn ,又 0a ,可得 1a ,C 正确;
使用方案②调整:当 9c = 时 9lg( 1)i iz x= + ,显然若 9ix = 时 9iz = ,B 错误;
ln( 1)
ln10
i
i
x
z c
+
= ,而0 ln10c ,则 (0,1]
ln10
c
t = ,故 ln( 1)i iz t x= + ,
又
9( 1)
( 1,2, , 1)i
i
x i n
n
−
= = + ,则
9 9
ln( )i
i n
z t
n
− +
= , 1
9
ln( )i
i n
z t
n
+
+
= ,
所以 1
9 9 9 9
[ln( ) ln( )] ln(1 )
9
i i
i n i n
z z t t
n n i n
+
− + +
− = − = −
+
,而
9 10
1 [ , ]
9 9 10 9
n n
i n n n
−
+ + +
,
1n = 时
9 1 10
1 [ , ]
9 10 19i n
−
+
,则
2 2 2 2 2
1
19
( ) [ ln , ln 10]
10
i iz z t t+− ,则
2 2 2 2
{ }
19
( ln , ln 10)
10i
zC t t ,
此时
2
{ }
9
( ) 81
ix
C
n
= = ,显然存在 { } { }i ix zC C ,D 错误.
故选:AC
【点睛】关键点点睛:判断 D 时注意 21( )i iz z +− 的取值范围,根据 n值判断 { } { },i ix zC C 的大
小关系.
9.为了考察某种疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表.根
据该表,在犯错的概率不超过 5%的前提之下,________(填“可以”或“不可以”)确定“小
动物是否感染与服用疫苗有关”.
感染 未感染 合计
服用 10 40 50
武汉市好学途教育 高中数学重难点系列专题
第 20 页
未服用 20 30 50
合计 30 70 100
附:
2
2 ( )= ,
( )( )( )( )
n ad bc
K n a b c d
a c b d a b c d
−
= + + +
+ + + +
2
0( k )p K 0.10 0.05 0.025 0.010 0.005 0.001
0k 2.706 3.841 5.024 6.635 7.879 10.828
【答案】可以
【分析】根据表中数据,算出 2K 的值,再与参考值比较即可.
【详解】由表可知:
2
2 100(300 800)= 4.762 3.841
30 70 50 50
K
−
,
故在犯错的概率不超过 5%的前提之下,可以确定“小动物是否感染与服用疫苗有关”.
故答案为:可以
10.某手机运营商为了拓展业务,现对该手机使用潜在客户
进行调查,随机抽取国内国外潜在用户代表各100名,调查
用户对是否使用该手机的态度,得到如图所示的等高条形图.
根据等高图,______(填“有”或“没有”)99.5%以上的把握
认为持乐观态度和国内外差异有关.
(参考公式与数据:
( )
( )( )( )( )
2
2
n ad bc
K
a b c d a c b d
−
=
+ + + +
,其中n a b c d= + + + )
( )2 0P K k 0.05 0.01 0.005 0.001
0k 3.841 6.635 7.879 10.828
【答案】有
【分析】根据等高条形图可得出 2 2 列联表,结合表格中的数据计算出 2K 的观测值,
利用临界值表可得出结论.
【详解】依题意,可得出如下 2 2 列联表:
国内代表 国外代表 合计
不乐观 40 60 100
武汉市好学途教育 高中数学重难点系列专题
第 21 页
乐观 60 40 100
合计 100 100 200
( )
2
2 2
2
4
200 40 60
8 7.879
100
K
−
= = ,
所以有99.5%以上的把握认为持乐观态度和国内外差异有关.
故答案为:有.
【点睛】本题考查利用独立性检验解决实际问题,考查学生的数据处理能力,属于基础
题.
11.2020 年,是人类首次成功从北坡登顶珠峰 60 周年,也是中国首次精确测定并公布
珠峰高程的 45 周年.华为帮助中国移动开通珠峰峰顶 5G,有助于测量信号的实时开通,
为珠峰高程测量提供通信保障,也验证了超高海拔地区 5G 信号覆盖的可能性,在持续
高风速下 5G 信号的稳定性,在条件恶劣地区通过简易设备传输视频信号的可能性.正如
任总在一次采访中所说:“华为公司价值体系的理想是为人类服务.”有人曾问,在珠峰开
通 5G 的意义在哪里?“我认为它是科学技术的一次珠峰登顶,告诉全世界,华为 5G、
中国 5G 的底气来自哪里.现在,5G 的到来给人们的生活带来
更加颠覆性的变革,某 IT 公司基于领先技术的支持,5G 经济
收入在短期内逐月攀升,该 IT 公司在 1 月份至 6 月份的 5G
经济收入 y(单位:百万元)关于月份 x的数据如下表所示,
并根据数据绘制了如图所示的散点图.
月份 x 1 2 3 4 5 6
收入 y(百万元) 6.6 8.6 16.1 21.6 33.0 41.0
(1)根据散点图判断, y ax b= + 与 edxy c= (a,b,c,d均为常数)哪一个更适宜作为
5G 经济收入 y关于月份 x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出 y关于 x的回归方程,并预测该公司 7 月份的
5G 经济收入.(结果保留小数点后两位)
(3)从前 6 个月的收入中抽取 2 个,记收入超过 20 百万元的个数为 X,求 X的分布列和
数学期望.参考数据:
x y u
6
2
1
( )i
i
x x
=
−
6
1
( )( )i i
i
x x y y
=
− −
6
1
( )( )i i
i
x x u u
=
− − 1.52e 2.66e
3.50 21.15 2.85 17.70 125.35 6.73 4.57 14.30
武汉市好学途教育 高中数学重难点系列专题
第 22 页
其中,设 ln , ln= =i iu y u y (i=1,2,3,4,5,6).
参考公式:对于一组具有线性相关关系的数据( ix , iv )(i=1,2,3,…,n),其回归
直线 ˆ ˆv̂ x = + 的斜率和截距的最小二乘估计公式分别为 1
2
1
( )( )
ˆ
( )
n
i i
i
n
i
i
x x v v
x x
=
=
− −
=
−
,
ˆˆ v x = − .
【答案】(1) edxy c= 更适宜 (2) 1.52 0.38eˆ xy += ,65.35 百万元 (3)分布列见解析,1
【分析】(1)根据散点图确定正确答案.
(2)根据非线性回归的知识求得回归方程并求得预测值.
(3)利用超几何分布的知识求得分布列并求得数学期望.
【详解】(1)根据散点图判断, edxy c= 更适宜作为 5G 经济收入 y关于月份 x的回归方
程类型;
(2)因为 edxy c= ,所以两边同时取常用对数,得 ln lny c dx= + ,设 lnu y= ,所以
lnu c dx= + ,因为 3.50, 2.85= =x u ,所以
6
1
6
2
1
( )( )
6.73ˆ 0.380,
17.70
( )
i i
i
i
i
x x u u
d
x x
=
=
− −
= =
−
所以 ˆln 2.85 0.380 3.50 1.52= − − =c u dx .
所以 ˆ 1.52 0.38u x= + ,即 ˆln 1.52 0.38y x= + ,所以 1.52 0.38eˆ xy += .
令 7x = ,得 1.52 0.38 7 1.52 2.66ˆ e e e 4.57 14.30 65.35y + = = ,
故预测该公司 7 月份的 5G 经济收入大约为 65.35 百万元.
(3)前 6 个月的收入中,收入超过 20 百万元的有 3 个,所以 X的取值为 0,1,2,
2 1 1 2
3 3 3 3
2 2 2
6 6 6
C C C C1 3 1
( 0) , ( 1) , ( 2) ,
C 5 C 5 C 5
P X P X P X= = = = = = = = =
所以 X的分布列为:
X 0 1 2
P
1
5
3
5
1
5
所以 ( )
1 3 1
0 1 2 1
5 5 5
E X = + + = .
12.2022 年 11 月 20 日,卡塔尔足球世界杯正式开幕,世界杯上的中国元素随处可见.从
武汉市好学途教育 高中数学重难点系列专题
第 23 页
体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物都是中国制造,为卡塔尔世
界杯提供了强有力的支持.国内也再次掀起足球热潮.某地足球协会组建球队参加业余
比赛,该足球队教练组为了考查球员甲对球队的贡献,作出如下数据统计(甲参加过的
比赛均分出了输赢):
球队输球 球队赢球 总计
甲参加 2 30 32
甲未参加 8 10 18
总计 10 40 50
(1)根据小概率值 0.005 = 的独立性检验,能否认为该球队赢球与甲球员参赛有关联;
(2)从该球队中任选一人,A表示事件“选中的球员参赛”,B表示事件“球队输
球”.
( )
( )
|
|
P B A
P B A
与
( )
( )
|
|
P B A
P B A
的比值是选中的球员参赛对球队贡献程度的一项度量指标,
记该指标为 R.
①证明:
( )
( )
( )
( )
||
||
P A BP A B
R
P A BP A B
= ;
②利用球员甲数据统计,给出 ( )|P A B , ( )|P A B 的估计值,并求出 R的估计值.
附:
( )
( )( )( )( )
2
2
n ad bc
a b c d a c b d
−
=
+ + + +
.
参考数据:
a 0.05 0.01 0.005 0.001
ax 3.841 6.635 7.879 10.828
【答案】(1)认为该球队胜利与甲球员参赛有关
(2)①证明见解析 ;② ( )
1
|
5
P A B = , ( )
3
|
4
P A B = ;
1
12
R =
【分析】(1)由所给数据结合公式求出 2 的值,将其与临界值比较大小,由此确定能
否认为该球队赢球与甲球员参赛有关联;
(2)①根据定义结合条件概率公式即可完成证明;②根据①结合已知数据求 R .
【详解】(1)零假设为 0H :该球队胜利与甲球员参赛无关.
武汉市好学途教育 高中数学重难点系列专题
第 24 页
( )
2
2
50 2 10 30 8 3025
10.503
10 40 32 18 288
−
= =
,
因为 2 7.879 ,
所以依据 0.005 = 的独立性检验,我们推断 0H 不成立,所以认为该球队胜利与甲球员
参赛有关,此推断犯错误的概率不大于 0.005.
(2)①证明:
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
||
| |
P ABP AB
P B A P A P ABP B A P A P AB
R
P B A P AB P ABP B A P AB P AB
P A P A
= = =
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
||
||
P AB P ABP AB P AB
P A BP B P BP B P B P A B
P AB P AB P A BP AB P AB P A B
P B P BP BP B
= = =
② ( )
1
|
5
P A B = , ( )
3
|
4
P A B = ,
( )
( )
( )
( )
( )
( )
( )
( )
1 1
| 1 || | 15 4
4 31 | 12| ||
5 4
P A B P A BP A B P A B
R
P A BP A B P A BP A B
−
= = = =
−
.