内容正文:
第02讲 统计与成对数据的统计分析
目录
01 考情解码・命题预警 2
02体系构建·思维可视 2
03核心突破·靶向攻坚 3
知能解码 3
知识点1 随机抽样 3
知识点2 频率分布直方图 4
知识点3 总体百分位数的估计 5
知识点4 总体集中趋势的估计 5
知识点5 总体离散程度的估计 6
知识点6 成对数据的统计相关性及线性回归直线方程 6
知识点7 列联表与独立性检验 8
题型破译 9
题型1 简单随机抽样 9
题型2 分层随机抽样 10
题型3 频率分布直方图 10
题型4 总体百分位数的估计 13
题型5 总体集中趋势的估计 14
题型6 总体离散程度的估计 15
题型7 成对数据的统计相关性 18
题型8 一元线性回归模型及其应用 19
题型9 列联表与独立性检验 21
04课本典例·高考素材 23
考情分析:
核心考查抽样方法、用样本估计总体(频率分布直方图、百分位数、均值与方差),以及成对数据的统计分析
(相关系数、一元线性回归模型)。试题紧密联系社会生活情境,强调对统计思想的理解与数据的直观分析,而非
复杂计算。易错点在于统计概念的实际含义辨析、回归方程中系数的实际意义解释,以及根据回归方程进行预测的
规范性表述。
复习目标:
1.理解简单随机抽样、分层随机抽样的特点与适用场景,能根据实际情境选择合适的抽样方法。
2.掌握用样本估计总体的方法,会频率分布直方图中提取信息(众数、中位数、平均数、方差),理解百分位数的统计含义并会计算。
3.理解成对数据的概念,会绘制散点图,并能根据散点图判断变量间的相关关系。理解样本相关系数的统计含义,掌握其计算公式,了解其性质。
4.建立一元线性回归模型,理解最小二乘法的思想,会求经验回归方程,并能用其进行预测。
5.理解2×2列联表的意义,了解独立性检验的基本思想与方法,并能解决简单的实际问题。能对统计结果进行合理解释,并能用准确的数学语言进行表述。
知识点1 随机抽样
1.总体、个体、样本与样本容量
考察问题涉及的 是总体,总体中每个对象是个体,抽取的 组成总体的一个样本,一个样本中包含的 是样本容量.
2.简单随机抽样
和 是比较常用的两种方法.
3.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为 ,每一个子总体称为 .
自主检测某校高一、高二、高三学生共1260人,为了解学生新学期适应情况,现用分层抽样的方法进行调查,若分别从三个年级中抽取的人数之比为,则该校高三的学生人数为 .
知识点2 频率分布直方图
画频率分布直方图的步骤
(1)求极差:极差为一组数据中 与 的差.
(2)决定组距与组数:当样本容量不超过100时,常分成 组,为了方便起见,一般取等长组距,并且组距应力求“取整”.
(3)将数据分组.
(4)列频率分布表:一般分四列:分组、 、频数、 .其中频数合计应是样本容量,频率合计是1.
(5)画频率分布直方图:横轴表示分组,纵轴表示 .小长方形的面积=组距× = .各小长方形的面积和等于1.
自主检测1某校从参加语言测试的学生中随机抽取了100名,记录了他们的分数,将数据分成6组:,,,,,,并整理得到如下频率分布直方图.若样本中分数低于60分的有15人,则图中数据 .
自主检测2对学校高三年级某班50名学生的高校招生体检表中视力情况进行统计,其结果的频率分布直方图如图.若高校专业对视力要求不低于0.9,则该班学生中有 人能报考该专业.
知识点3 总体百分位数的估计
中位数与百分位数:按照 排列后的数据:的中位数是 ;的中位数是 ;一组数的分位数指的是,将这组数按照 的顺序排列后,处于位置的数.
自主检测若一组数据1,2,4,2,5,3,7,,3的唯一众数是2,则这组数据的第60百分位数为 .
知识点4 总体集中趋势的估计
1.平均数
①定义:如果给定的一组数是,则这组数的平均数为 .
这一公式在数学中常简记为.
②性质:一般地,利用平均数的计算公式可知,如果的平均数为,且为常数,则的平均数为 .
2.总体均值和样本均值
(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为,,…,,则称 = 为总体均值,又称总体平均数.
(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k个个,不妨记为,,…,,其中;出现的频数,则总体均值还可以写成加权平均数的形式了 .
(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为,则称 = .
自主检测1若一组样本数据的平均数为8,则数据,的平均数为 .
自主检测2将一个总体分为,,三层,其个体数之比为.若,,三层的样本的平均数分别为20,30,40,则总体的平均数为 .
知识点5 总体离散程度的估计
1.极差、方差与标准差
①极差:一组数的极差指的是这组数的 减去 所得的差,描述了这组数的离散程度
②方差
定义:如果的平均数为,则方差可用求和符号表示为
性质:如果为常数,则,的方差为
③标准差
定义:方差的 称为标准差.一般用表示,即样本数据的标准差为.
性质:如果为常数,则,的标准差为.
2.样本方差与样本标准差
若数据、、…、的平均数为,则样本方差 ;(两种表示)
样本标准差 .(两种表示)
3.分层随机抽样的方差
设样本容量为n,平均数为,其中两层的个体数量分别为,两层的平均数分别为,方差分别为,,则这个样本的方差为 .
自主检测1.一组数据5,5,7,,10的平均数为7,则其方差为 .
自主检测2已知数据的方差为3,则数据的方差为
自主检测3已知某7个数的平均数为3,方差为,现又加入一个新数据3,此时这8个数的平均数为,方差为.则 .
知识点6 成对数据的统计相关性及线性回归直线方程
1.如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量 ;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量 ;
2.相关关系的分类
(1)正相关:从散点图上看,点分布在从 到 的区域内.
(2)负相关:从散点图上看,点分布在从 到 的区域内.
3.,
用它来衡量两个变量间的线性相关关系的强弱.
(1)当时,表明两个变量 .
(2)当时,表明两个变量 .
(3)的绝对值越接近于1,表明两个变量的线性相关性 ;
(4)的绝对值越接近于0,表明两个变量的线性相关性 .通常当时,认为两个变量有很强的线性相关关系.
4.一元线性回归模型参数的最小二乘估计
(1)经验回归方程:
对于一组具有线性相关关系的成对样本数据,由最小二乘法得
,.
将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做 ,求得的,叫做b,a的 .
(2)观测值:对于响应变量Y,通过观测得到的数据称为观测值.
(3)预测值:通过经验回归方程得到的 称为预测值.
(4)残差: 减去 称为残差.
(5)的计算公式为.在表达式中,与经验回归方程无关,残差平方和与经验回归方程有关.因此越大,表示残差平方和 ,即模型的拟合效果 ;越小,表示残差平方和 ,即模型的拟合效果 ,越接近1,拟合效果越好.
自主检测随着季节的变化,某种生物的繁殖量也发生变化,某研究员对所在地区该生物2025年1月至5月每月的繁殖量进行统计分析(取近似值),结果如下表:
月份
1
2
3
4
5
繁殖量/千个
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强,否则认为与线性相关性较弱)
(2)利用最小二乘法建立关于的线性回归方程,并计算5月份该生物繁殖量的残差.
参考数据:,,.
参考公式:对于一组数据,其相关系数,其经验回归直线中,,.
知识点7 列联表与独立性检验
1.2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
这个表格中,核心数据是中间4个格子,所以这样的表格通常称为 .
(2) 计算公式: ,其中 .
2.独立性检验
(1)计算公式:,其中.
(2)临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
(3)独立性检验:,通常称为 或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和 ,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“ ”,简称独立性检验.
(4)独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
自主检测为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
题型1 简单随机抽样
例1-1在简单随机抽样中,下列关于其中一个个体被抽中的可能性说法正确的是( )
A.与第几次抽样有关,第一次抽到的可能性更大一些
B.与第几次抽样有关,最后一次抽到的可能性更大一些
C.与第几次抽样无关,每次抽到的可能性都相等
D.与第几次抽样有关,第一次抽到的可能性更小一些
【变式训练1-1】下列抽取样本的方式是简单随机抽样的是( )
A.从无限多个个体中抽取100个个体作为样本
B.盒子里共有80个零件,从中逐个不放回地选出5个零件进行质量检验
C.从100部手机中一次性抽取5部进行质量检验
D.某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛
【变式训练1-2】某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A.623 B.328 C.072 D.457
题型2 分层随机抽样
例2-1某地区的鸿蒙用户中心的客服人员现要从购买智界汽车的50名车主,享界汽车的60名车主,问界汽车的40名车主中用分层随机抽样的方法抽取容量为30的样本进行用户反馈调研,则在智界汽车车主中抽取的人数为( )
A.8 B.10 C.11 D.12
【变式训练2-1】某中学高一年级有400人,高二年级有320人,高三年级有280人,若用随机数法在该中学抽取容量为n的样本,每人被抽到的可能性都为0.3,则n等于( )
A.160 B.200 C.280 D.300
【变式训练2-2】已知两个数据库中共有个数据,其中数据库有个数据.若利用分层抽样的方式从数据库中抽取了个数据,则从数据库抽取的数据个数为( )
A.22 B.23 C.24 D.25
题型3 频率分布直方图
例3-1从某小学随机抽取部分同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).已知身高在内的人数为10人,则身高在内的学生人数为( )
A.40 B.60 C.80 D.2000
例3-2某中学组织高中学生参加数学知识竞赛,现从中随机抽取100名学生成绩的频率分布直方图如图所示,则这组样本数据的分位数为( )
A.85 B.86 C.87 D.88
例3-3近日,数字化构建社区服务新模式成为一种时尚.某社区为优化数字化社区服务,问卷调查调研数字化社区服务的满意度,满意度采用计分制(满分100分),统计满意度绘制成如下频率分布直方图,图中,则下列结论不正确的是( )
A.
B.满意度计分的众数为75分
C.满意度计分的75%分位数是85分
D.满意度计分的平均分是76
【变式训练3-1】从某小区抽取100户居民用户进行月用电量(单位:)调查,将得到的数据按分为6组,画出的频率分布直方图如图所示,则在被调查的用户中,月用电量落在内的户数为( )
A.35 B.40 C.42 D.45
【变式训练3-2】国际学生评估项目测试是世界经济合作与发展组织对各国中学生阅读、数学、科学能力评价测试.从年开始,每年进行一次测试评估.在评估研究时将测试成绩按一定规则转换成等级赋分,赋分范围是至分,如图是年的某地中学生参加阅读测试后用赋分数据绘制成的不完整频率分布直方图.根据图中数据,下面说法正确的是( )
A.该地学生成绩的中位数一定大于
B.该地学生成绩的平均数一定小于
C.该地学生成绩的极差介于至之间
D.该地学生成绩没有超过分的学生所占比例为
【变式训练3-3】某人工智能公司为优化新开发的语言模型,在其模型试用人群中开展满意度问卷调查,满意度采用计分制(满分100分),统计满意度并绘制成如下频率分布直方图,图中,则下列结论不正确的是( )
A.
B.满意度计分的众数约为75分
C.满意度计分的平均分约为79分
D.满意度计分的第25百分位数约为70分
【变式训练3-4】在某校高一年级参加的一次质量检测中,共有1500名学生参加数学考试.为了解本次考试考生的数学成绩情况,本中抽取了100名学生的成绩(成绩均为正整数,满分为100分)作为样本进行统计,成绩均在内,按照的分组作出频率分布直方图(如图所示),据图中数据,则( )
A.该样本中学生成绩的中位数一定大于75
B.该样本中学生成绩的极差介于40至50之间
C.该样本中学生成绩的平均值介于70至80之间
D.若成绩不低于60分为及格,估计该校高一年级学生数学及格人数不超过1300
题型4 总体百分位数的估计
例4-1样本数据1,1,2,3,5,6的分位数为( )
A.1 B.2.5 C.2 D.3
【变式训练4-1】数据3,1,1,4,5,2的第三四分位数为( )
A. B. C. D.
【变式训练4-2】某射击运动员在男子10米气步枪决赛中,最后10枪成绩分别为10.9,10.7,10.4,10.0,10.5,9.8,10.7,9.9,10.5,10.6,则这10枪成绩的上四分位数是( )
A.10.5 B.10.6 C.10.65 D.10.7
【变式训练4-3】某中学数学教师共有20人,他们的年龄分布如表所示:
年龄
62
50
43
32
30
28
25
人数
2
3
3
5
2
4
1
下列说法正确的是( )
A.29是这20人年龄的一个上四分位数 B.29是这20人年龄的一个下四分位数
C.31是这20人年龄的一个中位数 D.这20人年龄的众数是5
题型5 总体集中趋势的估计
例5-1已知一组数据的平均数为3,则( )
A. B. C. D.
例5-2若样本平均数为,总体平均数为,则( )
A.
B.
C.是的估计值
D.是的估计值
【变式训练5-1】一组数据1,7,5,2,,2,且,,若该组数据的众数是中位数的,则该组数据的平均数为( )
A.3 B.3.5 C.4 D.4.5
【变式训练5-2】已知数据,,…,的平均数为4,那么数据,,…,的平均数为( )
A. B. C.1 D.17
【变式训练5-3】(25-26高三上·北京丰台·开学考试)某公司为了解,两个地区用户对其产品的满意程度,从地区随机抽取400名用户,从地区随机抽取100名用户,请用户对公司产品评分.该公司将收集的评分数据按照,,,分组,统计如下:
地区
地区
40
30
120
20
160
40
80
10
合计
400
100
用频率估计概率.
(1)对地区所抽取的400名用户按评分区间,,,进行分层随机抽样,从中抽取10名用户参加座谈活动.求参加座谈的用户中,对公司产品的评分不低于60分的人数;
(2)从,两个地区各随机抽取1名用户,设X为这两人中评分不低于80分的人数,求至少有1名用户评分不低于80分的概率以及X的数学期望;
(3)若地区用户对该公司产品的评分的平均值为,地区用户对该公司产品的评分的平均值为,两个地区的所有用户对该公司产品的评分的平均值为,试比较和的大小.(结论不要求证明)
题型6 总体离散程度的估计
例6-1已知一组样本数据16,,14,15,13的平均数为15,则该组样本数据的方差为( )
A.2.0 B.2.1 C.2.2 D.2.4
例6-2为了解某学校学生每周阅读课外书籍的数量,采用样本量比例分配的分层随机抽样方法.现抽取高一学生20人,其每周阅读课外书籍数量的均值为4本,方差为4;抽取高二学生30人,其每周阅读课外书籍数量的均值为3本,方差为2.则该学校高一、高二学生每周阅读课外书籍数量的总体均值和方差分别是( )
A.总体平均数为3.4本,总体方差为3.24 B.总体平均数为3.5本,总体方差为3.04
C.总体平均数为3.4本,总体方差为3.04 D.总体平均数为3.5本,总体方差为3.24
例6-3李明在10场篮球比赛中的投篮情况统计如下(假设各场比赛相互独立):
场次
投篮次数
命中率
场次
投篮次数
命中率
主场1
22
客场1
18
主场2
15
客场2
13
主场3
12
客场3
21
主场4
23
客场4
18
主场5
24
客场5
25
(1)估计李明在主场比赛中的命中率;
(2)从上述比赛中随机选择一个主场和一个客场,求李明的投篮命中率恰有一场超过0.6的概率;
(3)记为表中主场命中次数的方差,为表中客场命中次数的方差.试比较与的大小.(只需写出结论)
例6-4(25-26高三上·北京平谷·开学考试)近期,某中学全体学生参加了“垃圾分类大赛”活动:现从参加该活动的学生中随机抽取了男、女各20名学生,将他们的成绩(单位:分)记录如表:
成绩
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
男生(人数)
3
4
8
4
1
女生 (人数)
a
b
8
4
3
(1)在抽取的40名学生中,从大赛成绩在80分及以上的人中随机取出2人,求恰好男、女生各1名,且所在分数段不同的概率:
(2)从该校参加活动的男女学生中各随机抽取2人,求这4人中恰各有一名男女学生大赛成绩在80分及以上的概率;
(3)试确定a、b为何值时,使得抽取的女生大赛成绩方差最小,只写出结论
【变式训练6-1】已知这10个数据的平均数为,方差为1.98,则这11个数据的方差为( )
A.1.8 B.0.8 C.1.98 D.0.98
【变式训练6-2】高一某班有24名男生和40名女生,某次数学测试中,男生的平均分与女生的平均分之差为4,若男生分数的方差为94,全班分数的方差为84,则女生分数的方差为( )
A.90 B.86 C.78 D.72
【变式训练6-3】已知一个样本容量为10的样本的平均数为6,方差为2.现将样本中的5个数据去掉,这5个数据的平均数为5,方差为1,则余下的5个数的方差为( )
A.1.2 B.0.8 C.1 D.2
【变式训练6-4】近年来“天宫课堂”受到广大中小学生欢迎,激发了同学们对科学知识的探索欲望和对我国航天事业成就的自豪.为领悟航天精神,感受中国梦想,某校组织了一次“寻梦天宫”航天知识竞赛(满分100分),各年级学生踊跃参加.为了比较高一、高二学生这次竞赛的成绩,从两个年级的答卷中各随机选取了50份,将成绩进行统计得到以下频数分布表:
成绩
高一学生人数
12
7
15
16
高二学生人数
9
10
18
13
试利用样本估计总体的思想,解决下列问题(同一组中的数据用该组区间的中点值为代表):
(1)分别求样本中高一和高二年级学生竞赛的平均成绩;
(2)从平均数与方差的角度分析哪个年级学生这次竞赛成绩更好?
【变式训练6-5】(2025·北京·三模)某老师为了解班里甲、乙两位同学的数学学习情况,从他们的数学小练习成绩中各随机抽取10份,.获得数据如下表:
甲同学
8
6.5
6
6
7.5
8
8
5.5
9
7.5
乙同学
6
7
7
7.5
7.5
8.5
9
7
9.5
9
已知数学小练习满分为10分,最低分为0分.若小练习得分不低于7.5分视为“得分达到良好”,若小练习得分不低于8.5分视为“得分达到优秀”. 假设用频率估计概率,且甲和乙小练习成绩相互独立.
(1)从甲同学的样本中随机抽取1个,求“得分达到良好”的概率;
(2)从乙同学的所有数学小练习成绩中随机抽取 3 份,记随机变量X为“得分达到优秀”的次数.估计X的分布列和期望:
(3)样本中,甲、乙两位同学小练习成绩的方差分别为记为和,试比较和的大小(结论不要求证明).
【变式训练6-6】某农业兴趣小组为比较长效肥和缓释肥这两种肥料的作用,进行了一个季度的对比试验,长效肥、缓释肥、未施肥三种处理下的同一种植物分别对应第组.分别从第组各随机抽取20株并测出株高,得到的60个样本数据分组整理如下表所示:
株高(单位:厘米)
第1组(长效肥)
2
10
6
2
第2组(缓释肥)
3
8
8
1
第3组(未施肥)
8
5
6
1
(1)从第一组20株植物中随机抽取2株,求至少有一株株高在内的概率;
(2)为了进一步研究,从这三组植物中各随机抽取1株,记这3株植物中恰有X株的株高在内,求X的分布列和数学期望(假设植物的生长情况相互独立,用频率估计概率);
(3)已知这三组植物的平均株高分别为,株高的方差分别为,求样本的平均数和方差.
题型7 成对数据的统计相关性
例7-1对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
例7-2某公司2018-2023年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示.
年份
2018
2019
2020
2021
2022
2023
x/百万元
12.2
14.6
16.0
18.0
20.4
22.3
y/百万元
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,年利润中位数( )
A.是16,x与y有正线性相关关系
B.是17,x与y有正线性相关关系
C.是17,x与y有负线性相关关系
D.是18,x与y有负线性相关关系
【变式训练7-1】为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
【变式训练7-2】随机抽取某集团公司旗下五家超市,得到广告支出x(万元)与销售额y(万元)的数据如下:
广告支出x(万元)
2
4
5
6
8
销售额y(万元)
20
30
50
60
70
(1)计算x,y的相关系数r,并判断是否可以认为广告支出与销售额具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高,)
(2)求出y关于x的线性回归方程,并预测若广告支出15(万元),则销售额约为多少万元?参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
题型8 一元线性回归模型及其应用
例8-1为了解女儿身高与其母亲身高的关系,随机抽取5对母女的身高数据如下:
母亲身高
164
166
166
166
168
女儿身高
165
165
166
167
167
根据最小二乘法(即取最小),关于的回归直线方程为( )
A. B. C. D.
例8-2下表是某公司从2020年至2024年某种产品盈利额的近似值(单位:万元)
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
盈利额
50
56
64
72
83
(1)求关于的相关系数的值(精确到0.001),并判断它们是否具有较强的线性相关关系(如果,则认为与的线性相关关系较强,否则认为线性相关关系较弱);
(2)求关于的线性回归方程,并预测2025年该种产品的盈利额.
附:
①相关系数;
②经验回归方程中的和的最小二乘估计公式为
③.
【变式训练8-1】药物临床试验是确认新药有效性和安全性必不可少的步骤,为探究某药物在人体中的代谢情况,研究人员统计了血液中药物浓度与代谢时间的相关数据,如下表所示:
2
3
4
5
6
55
20
6
3
1
若采用一元线性回归模型,已知一个经验回归方程为①;若采用一元非线性回归模型,可求得经验回归方程②.
(1)求;
(2)①与②哪个更适合作为关于的经验回归方程?请比较其决定系数的大小,并说明理由.
附:(i)参考数据:;在经验回归方程②中,;
(ii)对于一组数据,决定系数.
【变式训练8-2】7月1日,电影《哪吒之魔童闹海》(以下简称《哪吒2》在中国内地电影院线正式下映,结束了自今年1月29日以来153天的线下放映.据统计,《哪吒2》在中国内地最终斩获154.4亿元票房,总观影人次3.24亿,两项数据均创下中国影史纪录,并遥遥领先第二名,成为了又一部现象级电影.下表统计了《哪吒2》上映前15天累计票房到达(单位:亿元)与所用时间(单位:天)的数据:
累计票房
20
40
60
80
100
用时
4
7
9
10
15
(1)利用表中的数据,计算相关系数(结果精确到0.01),并推断两个变量的线性相关程度;
(2)求关于的经验回归方程(系数精确到0.01),并预测153天时的累计票房,判断这种预测方法是否合理.
参考公式:经验回归方程,其中.
相关系数.
参考数据:.
题型9 列联表与独立性检验
例9-1为考察药物A对预防疾病B的效果,在两个不同规模的动物种群中分别进行了试验,根据种群一的试验结果得到如下列联表:
药物A
疾病B
合计
未患病
患病
未服用
28
22
50
服用
34
16
50
合计
62
38
100
计算得到.假设种群二试验结果对应的列联表中,每个单元格的数据都为上表对应单元格数据的5倍,则根据小概率值的独立性检验,( )
附:,
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
A.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过5%
B.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过10%
C.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过1%
D.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过0.5%
例9-2(25-26高三上·四川南充·阶段练习)近几年,新能源汽车的更新换代越来越引起人们的关注.某新能源车企想了解年轻司机与中老年司机对新能源车和燃油车的喜好程度,随机抽取了1000名司机,得到的列联表如下:
偏好新能源车
偏好燃油车
总计
年轻司机
300
200
500
中老年司机
200
300
500
总计
500
500
1000
(1)若从抽取的年轻司机中任选1人,求此人偏好新能源车的概率;
(2)依据的独立性检验,能否认为司机对两种汽车的偏好与年龄有关联?
附:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
【变式训练9-1】(24-25高三上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
附:
0.10
0.05
0.01
0.005
k
2.706
3.841
6.635
7.789
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【变式训练9-2】某机构为了调查吃核桃是否能增强注意力,邀请了80名青少年作为研究对象,随机分成两组,实验组每天吃3~4个核桃,对照组没有接受任何形式的干预,持续6个月后,观察这80名青少年的注意力变化情况,得到如下数据.
受试者
注意力
合计
增强
无明显改善
对照组
10
30
40
实验组
30
10
40
合计
40
40
80
(1)记每天吃3~4个核桃,持续6个月后注意力增强的概率为,求的估计值;
(2)根据小概率值的独立性检验,分析吃核桃是否与注意力增强有关.
附:,.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
一、单选题
1.根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为( ).
A.变量与不独立
B.变量与不独立,这个结论犯错误的概率不超过
C.变量与独立
D.变量与独立,这个结论犯错误的概率不超过
二、解答题
2.判断两个分类变量是否有关系,还可以借助下面的方法来进行粗略判断.其方法为:在列联表中,若与相差越大,则两个分类变量有关系的可能性就越大.已知某校对高三学生进行了调查,发现:在平时的模拟考试中,性格内向的426个学生中有332人在考前心情紧张,性格外向的594个学生中有213人在考前心情紧张.试用本题所述方法以及独立性检验方法来分析考前心情紧张与性格类别的关系.
是否紧张是否内向
紧张
不紧张
合计
内向
332
94
426
外向
213
381
594
合计
545
475
1020
3.某县有甲、乙两所规范化学校,教育主管部门为了检验两校九年级学生的数学水平,从甲、乙两校的九年级学生中,分别随机抽取55人和45人(各占全校九年级学生总数的15%)进行统一试题的数学测验.测验结果如下表(单位:人):
及格情况学校
及格
不及格
甲校
47
8
乙校
30
15
试问:甲、乙两校九年级学生的数学成绩的差异是否显著?
4.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
5.有人收集了某城市居民年收入(即所有居民在一年内收入的总和)与商品销售额的年数据,如表.
表
第年
居民年收入/亿元
商品销售额/万元
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数判断居民年收入与商品销售额的相关程度和变化趋势的异同.
6.为了解休闲方式是否和性别有关,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)根据列联表进行独立性检验,你能得出什么结论?
看电视
运动
总计
女
43
27
70
男
21
33
54
总计
64
60
124
7.某医院用光电比色计检验尿汞时,得到尿汞含量(单位:)与消光系数的资料如下表:
尿汞含量x
2
4
6
8
10
消先系数y
64
138
205
285
360
(1)求尿汞量x和消光系数y之间的相关系数r;
(2)求消光系数y关于尿汞含量x的线性回归方程;
(3)估计当尿汞含量为时的消光系数.
8.充气不足或过于膨胀会增加轮胎磨损,并减少行驶里程.对一种新型轮胎在不同压力下的行驶里程进行测试,数据如下表:
压力
里程
压力
里程
30
29.5
33
37.6
30
30.2
34
37.7
31
32.1
34
36.1
31
34.5
35
33.6
32
36.3
35
34.2
32
35.0
36
26.8
33
38.2
36
27.4
(1)画出散点图;
(2)求出相关系数;
(3)将散点图与相关系数进行比照分析,并作出适当解释.
9.某研究所研究耕种深度x(单位:cm)与水稻每公顷产量y(单位:t)的关系,所得数据资料如下表,试求每公顷水稻产量与耕种深度的相关系数和线性回归方程.
耕种深度x/cm
8
10
12
14
16
18
每公顷产量:y/t
6.0
7.5
7.8
9.2
10.8
12.0
10.为了解发动机的动力(单位:)与排气温度(单位:℃)之间的关系,某部门进行相关试验,得到如下数据:
/℃
/℃
4300
960
4010
907
4650
900
3810
843
3200
807
4500
927
3150
755
3008
688
4950
993
(1)求相关系数;
(2)求出线性回归方程;
(3)估计当时对应的值.
4 / 14
学科网(北京)股份有限公司
$
第02讲 统计与成对数据的统计分析
目录
01 考情解码・命题预警 2
02体系构建·思维可视 2
03核心突破·靶向攻坚 3
知能解码 3
知识点1 随机抽样 3
知识点2 频率分布直方图 4
知识点3 总体百分位数的估计 5
知识点4 总体集中趋势的估计 5
知识点5 总体离散程度的估计 6
知识点6 成对数据的统计相关性及线性回归直线方程 8
知识点7 列联表与独立性检验 10
题型破译 11
题型1 简单随机抽样 11
题型2 分层随机抽样 13
题型3 频率分布直方图 13
题型4 总体百分位数的估计 18
题型5 总体集中趋势的估计 19
题型6 总体离散程度的估计 21
题型7 成对数据的统计相关性 29
题型8 一元线性回归模型及其应用 31
题型9 列联表与独立性检验 35
04课本典例·高考素材 38
考情分析:
核心考查抽样方法、用样本估计总体(频率分布直方图、百分位数、均值与方差),以及成对数据的统计分析
(相关系数、一元线性回归模型)。试题紧密联系社会生活情境,强调对统计思想的理解与数据的直观分析,而非
复杂计算。易错点在于统计概念的实际含义辨析、回归方程中系数的实际意义解释,以及根据回归方程进行预测的
规范性表述。
复习目标:
1.理解简单随机抽样、分层随机抽样的特点与适用场景,能根据实际情境选择合适的抽样方法。
2.掌握用样本估计总体的方法,会频率分布直方图中提取信息(众数、中位数、平均数、方差),理解百分位数的统计含义并会计算。
3.理解成对数据的概念,会绘制散点图,并能根据散点图判断变量间的相关关系。理解样本相关系数的统计含义,掌握其计算公式,了解其性质。
4.建立一元线性回归模型,理解最小二乘法的思想,会求经验回归方程,并能用其进行预测。
5.理解2×2列联表的意义,了解独立性检验的基本思想与方法,并能解决简单的实际问题。能对统计结果进行合理解释,并能用准确的数学语言进行表述。
知识点1 随机抽样
1.总体、个体、样本与样本容量
考察问题涉及的 对象全体 是总体,总体中每个对象是个体,抽取的 部分对象 组成总体的一个样本,一个样本中包含的 个体数目 是样本容量.
2.简单随机抽样
抽签法 和 随机数法 是比较常用的两种方法.
3.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为 分层随机抽样 ,每一个子总体称为 层 .
自主检测某校高一、高二、高三学生共1260人,为了解学生新学期适应情况,现用分层抽样的方法进行调查,若分别从三个年级中抽取的人数之比为,则该校高三的学生人数为 .
【答案】
【详解】三个年级中抽取的人数比和三个年级学生的人数比一样,
所以高三的学生人数为.
故答案为:
知识点2 频率分布直方图
画频率分布直方图的步骤
(1)求极差:极差为一组数据中 最大值 与 最小值 的差.
(2)决定组距与组数:当样本容量不超过100时,常分成 5~12 组,为了方便起见,一般取等长组距,并且组距应力求“取整”.
(3)将数据分组.
(4)列频率分布表:一般分四列:分组、 频数累计 、频数、 频率 .其中频数合计应是样本容量,频率合计是1.
(5)画频率分布直方图:横轴表示分组,纵轴表示 .小长方形的面积=组距× = 频率 .各小长方形的面积和等于1.
自主检测1某校从参加语言测试的学生中随机抽取了100名,记录了他们的分数,将数据分成6组:,,,,,,并整理得到如下频率分布直方图.若样本中分数低于60分的有15人,则图中数据 .
【答案】
【详解】样本中分数低于60分的有15人,属于区间,,由于学生中随机抽取了100名,
因此分数在,的频数为,因此这两个区间内的频率和为,
设区间的频率为,则,解得.
故答案为:.
自主检测2对学校高三年级某班50名学生的高校招生体检表中视力情况进行统计,其结果的频率分布直方图如图.若高校专业对视力要求不低于0.9,则该班学生中有 人能报考该专业.
【答案】
【详解】由频率分布直方图知:视力在0.9以上的频率为,
所以该班学生中能报专业的最多人数为.
故答案为:20.
知识点3 总体百分位数的估计
中位数与百分位数:按照 从小到大 排列后的数据:的中位数是 ;的中位数是 ;一组数的分位数指的是,将这组数按照 从小到大 的顺序排列后,处于位置的数.
自主检测若一组数据1,2,4,2,5,3,7,,3的唯一众数是2,则这组数据的第60百分位数为 .
【答案】3
【详解】因为唯一众数为2,故,
9个数由小到大排列为:,
而,故这组数据的第60百分位数为第6个数即,
故答案为:.
知识点4 总体集中趋势的估计
1.平均数
①定义:如果给定的一组数是,则这组数的平均数为 .
这一公式在数学中常简记为.
②性质:一般地,利用平均数的计算公式可知,如果的平均数为,且为常数,则的平均数为 .
2.总体均值和样本均值
(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为,,…,,则称 = 为总体均值,又称总体平均数.
(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k个个,不妨记为,,…,,其中;出现的频数,则总体均值还可以写成加权平均数的形式了 .
(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为,则称 = .
自主检测1若一组样本数据的平均数为8,则数据,的平均数为 .
【答案】14
【详解】由于样本数据的平均数为8,故,
的平均数为,
则,
故数据,的平均数为,
故答案为:14
自主检测2将一个总体分为,,三层,其个体数之比为.若,,三层的样本的平均数分别为20,30,40,则总体的平均数为 .
【答案】
【详解】由题意可知样本的平均数为.
所以总体的平均数为.
故答案为:.
知识点5 总体离散程度的估计
1.极差、方差与标准差
①极差:一组数的极差指的是这组数的 最大值 减去 最小值 所得的差,描述了这组数的离散程度
②方差
定义:如果的平均数为,则方差可用求和符号表示为
性质:如果为常数,则,的方差为
③标准差
定义:方差的 算术平方根 称为标准差.一般用表示,即样本数据的标准差为.
性质:如果为常数,则,的标准差为.
2.样本方差与样本标准差
若数据、、…、的平均数为,则样本方差 ;(两种表示)
样本标准差 .(两种表示)
3.分层随机抽样的方差
设样本容量为n,平均数为,其中两层的个体数量分别为,两层的平均数分别为,方差分别为,,则这个样本的方差为 .
自主检测1.一组数据5,5,7,,10的平均数为7,则其方差为 .
【答案】
【详解】由题意可得,则,
所以方差为,
故答案为:
自主检测2已知数据的方差为3,则数据的方差为
【答案】
【详解】因为数据的方差为3,
所以数据的方差为.
故答案为:
自主检测3已知某7个数的平均数为3,方差为,现又加入一个新数据3,此时这8个数的平均数为,方差为.则 .
【答案】4
【详解】解:设七个数分别为,所以,,
当加入一个新数据3时,此时这8个数的平均数为,
所以,这8个数的方差,解得,
所以,某七个数据的方差.
故答案为:
知识点6 成对数据的统计相关性及线性回归直线方程
1.如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量 正相关 ;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量 负相关 ;
2.相关关系的分类
(1)正相关:从散点图上看,点分布在从 左下角 到 右上角 的区域内.
(2)负相关:从散点图上看,点分布在从 左上角 到 右下角 的区域内.
3.,
用它来衡量两个变量间的线性相关关系的强弱.
(1)当时,表明两个变量 正相关 .
(2)当时,表明两个变量 负相关 .
(3)的绝对值越接近于1,表明两个变量的线性相关性 越强 ;
(4)的绝对值越接近于0,表明两个变量的线性相关性 越弱 .通常当时,认为两个变量有很强的线性相关关系.
4.一元线性回归模型参数的最小二乘估计
(1)经验回归方程:
对于一组具有线性相关关系的成对样本数据,由最小二乘法得
,.
将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做 最小二乘法 ,求得的,叫做b,a的 最小二乘估计 .
(2)观测值:对于响应变量Y,通过观测得到的数据称为观测值.
(3)预测值:通过经验回归方程得到的 称为预测值.
(4)残差: 观测值 减去 预测值 称为残差.
(5)的计算公式为.在表达式中,与经验回归方程无关,残差平方和与经验回归方程有关.因此越大,表示残差平方和 越小 ,即模型的拟合效果 越好 ;越小,表示残差平方和 越大 ,即模型的拟合效果 越差 ,越接近1,拟合效果越好.
自主检测随着季节的变化,某种生物的繁殖量也发生变化,某研究员对所在地区该生物2025年1月至5月每月的繁殖量进行统计分析(取近似值),结果如下表:
月份
1
2
3
4
5
繁殖量/千个
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强,否则认为与线性相关性较弱)
(2)利用最小二乘法建立关于的线性回归方程,并计算5月份该生物繁殖量的残差.
参考数据:,,.
参考公式:对于一组数据,其相关系数,其经验回归直线中,,.
【答案】(1),线性相关性很强
(2),
【详解】(1)由已知得,,,
,,
,
故,
所以与的线性相关性很强.
(2)因为,,,,
,
所以,
所以关于的线性回归方程为,
当时,,
所以5月份该生物繁殖量的残差为.
知识点7 列联表与独立性检验
1.2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
这个表格中,核心数据是中间4个格子,所以这样的表格通常称为 2×2列联表 .
(2) 计算公式: ,其中 .
2.独立性检验
(1)计算公式:,其中.
(2)临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
(3)独立性检验:,通常称为 零假设 或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和 不独立 ,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“ 卡方独立性检验 ”,简称独立性检验.
(4)独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
自主检测为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】有关
【详解】由题意,零假设为:超声波检查结果与患病无关,
根据表中数据可得,,
根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.
题型1 简单随机抽样
例1-1在简单随机抽样中,下列关于其中一个个体被抽中的可能性说法正确的是( )
A.与第几次抽样有关,第一次抽到的可能性更大一些
B.与第几次抽样有关,最后一次抽到的可能性更大一些
C.与第几次抽样无关,每次抽到的可能性都相等
D.与第几次抽样有关,第一次抽到的可能性更小一些
【答案】C
【详解】在简单随机抽样中,每个个体每次被抽中的可能性都相等,与第几次抽样无关,A,B,D错误,C正确.
故选:C
【变式训练1-1】下列抽取样本的方式是简单随机抽样的是( )
A.从无限多个个体中抽取100个个体作为样本
B.盒子里共有80个零件,从中逐个不放回地选出5个零件进行质量检验
C.从100部手机中一次性抽取5部进行质量检验
D.某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛
【答案】B
【详解】简单随机抽样的定义:设一个总体中含有N个个体,从中逐个抽取个个体作为样本,每个个体被抽取的概率是均等的.
对于A中,根据简单的随机抽样的定义,从无限多个个体中抽取100个个体作为样本不满足简单的随机抽样的定义,所以A不符合题意;
对于B中,根据简单的随机抽样的定义,80个零件,从中逐个不放回地选出5个零件进行质量检验,满足简单的随机抽样的条件,所以B符合题意;
对于C中,根据简单的随机抽样的定义,从100部手机中一次性抽取5部进行质量检验,不满足简单的随机抽样的定义,所以C不符合题意;
对于D中,根据简单的随机抽样的定义,从56名同学,指定个子最高的5名同学参加学校组织的篮球赛,不满足简单的随机抽样的定义,所以D不符合题意.
故选:B.
【变式训练1-2】某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A.623 B.328 C.072 D.457
【答案】A
【详解】从第5行第6列开始向右读取数据,
第一个数为253,第二个数是313,
第三个数是457,下一个数是860,不符合要求,
下一个数是736,不符合要求,下一个是253,重复,
第四个是007,第五个是328,第六个数是623,,故A正确.
故选:A.
题型2 分层随机抽样
例2-1某地区的鸿蒙用户中心的客服人员现要从购买智界汽车的50名车主,享界汽车的60名车主,问界汽车的40名车主中用分层随机抽样的方法抽取容量为30的样本进行用户反馈调研,则在智界汽车车主中抽取的人数为( )
A.8 B.10 C.11 D.12
【答案】B
【详解】按照分层随机抽样,在智界汽车车主中共抽取人.
故选:B
【变式训练2-1】某中学高一年级有400人,高二年级有320人,高三年级有280人,若用随机数法在该中学抽取容量为n的样本,每人被抽到的可能性都为0.3,则n等于( )
A.160 B.200 C.280 D.300
【答案】D
【详解】由题意,所以(人)
故选:D.
【变式训练2-2】已知两个数据库中共有个数据,其中数据库有个数据.若利用分层抽样的方式从数据库中抽取了个数据,则从数据库抽取的数据个数为( )
A.22 B.23 C.24 D.25
【答案】B
【详解】由已知抽样比为,
所以从数据库中抽取的数据个数为.
故选:B.
题型3 频率分布直方图
例3-1从某小学随机抽取部分同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).已知身高在内的人数为10人,则身高在内的学生人数为( )
A.40 B.60 C.80 D.2000
【答案】B
【详解】依题意,身高在内的学生人数为人.
故选:B
例3-2某中学组织高中学生参加数学知识竞赛,现从中随机抽取100名学生成绩的频率分布直方图如图所示,则这组样本数据的分位数为( )
A.85 B.86 C.87 D.88
【答案】C
【详解】由题意可得,解得,
所以前两组的频率和为,前三组的频率和为,
设这组样本数据的分位数为,则,
解得.
故选:C.
例3-3近日,数字化构建社区服务新模式成为一种时尚.某社区为优化数字化社区服务,问卷调查调研数字化社区服务的满意度,满意度采用计分制(满分100分),统计满意度绘制成如下频率分布直方图,图中,则下列结论不正确的是( )
A.
B.满意度计分的众数为75分
C.满意度计分的75%分位数是85分
D.满意度计分的平均分是76
【答案】D
【详解】对于A,由频率分布直方图可得,即,
因为,所以,故A正确;
对于B,由频率分布直方图可得,满意度计分的众数为最高矩形底边中点横坐标75分,故B正确;
对于C,前三组的频率之和为,
前四组的频率之和为,所以满意度计分的75%分位数,
所以,故C正确;
对于D, 满意度计分的平均分为,故D错误.
故选:D.
【变式训练3-1】从某小区抽取100户居民用户进行月用电量(单位:)调查,将得到的数据按分为6组,画出的频率分布直方图如图所示,则在被调查的用户中,月用电量落在内的户数为( )
A.35 B.40 C.42 D.45
【答案】B
【详解】易知,所以,
即,
而月用电量落在内的户数为.
故选:B
【变式训练3-2】国际学生评估项目测试是世界经济合作与发展组织对各国中学生阅读、数学、科学能力评价测试.从年开始,每年进行一次测试评估.在评估研究时将测试成绩按一定规则转换成等级赋分,赋分范围是至分,如图是年的某地中学生参加阅读测试后用赋分数据绘制成的不完整频率分布直方图.根据图中数据,下面说法正确的是( )
A.该地学生成绩的中位数一定大于
B.该地学生成绩的平均数一定小于
C.该地学生成绩的极差介于至之间
D.该地学生成绩没有超过分的学生所占比例为
【答案】C
【详解】对于选项A,分数在的频率为,分数在的频率为,
分数在的频率为,分数在的频率为,分数在的频率为,
由图知,,所以分数在的频率为,
且,,
所以中位数在之间,但不一定大于,所以选项A错误;
对于选项B,由题意可知,分数在的频率为,
所以该地学生成绩的平均数为
,
由图可知,所以,所以选项B错误;
对于选项C,设学生成绩的最低分为,最高分为,则,,
由不等式的基本性质可得,故学生成绩的极差介于至之间,所以选项C正确;
对于选项D,由选项A知,学生成绩没有超过分的学生所占比例为,所以选项D错误.
故选:C.
【变式训练3-3】某人工智能公司为优化新开发的语言模型,在其模型试用人群中开展满意度问卷调查,满意度采用计分制(满分100分),统计满意度并绘制成如下频率分布直方图,图中,则下列结论不正确的是( )
A.
B.满意度计分的众数约为75分
C.满意度计分的平均分约为79分
D.满意度计分的第25百分位数约为70分
【答案】C
【详解】对于A,由频率分布直方图可得,又,
解得,,故A正确;
对于B,满意度计分的众数为最高矩形底边中点横坐标75分,故B正确;
对于C,满意度计分的平均分约为,故C错误;
对于D,前两组的频率之和为,所以满意度计分的第25百分位数约为70分,故D正确.
故选:C.
【变式训练3-4】在某校高一年级参加的一次质量检测中,共有1500名学生参加数学考试.为了解本次考试考生的数学成绩情况,本中抽取了100名学生的成绩(成绩均为正整数,满分为100分)作为样本进行统计,成绩均在内,按照的分组作出频率分布直方图(如图所示),据图中数据,则( )
A.该样本中学生成绩的中位数一定大于75
B.该样本中学生成绩的极差介于40至50之间
C.该样本中学生成绩的平均值介于70至80之间
D.若成绩不低于60分为及格,估计该校高一年级学生数学及格人数不超过1300
【答案】C
【详解】由题意得,,解得.
对于选项A,成绩在内的频率为,成绩在内的频率为,故中位数在间,但样本成绩在间的可能均为74分,故中位数不一定大于75,所以选项A错误;
对于选项B,由极差的定义知,学生成绩的极差介于40至60之间,所以选项B错误;
对于选项C,由平均数的定义知,学生成绩的平均成绩为,介于70至80之间,所以选项C正确;
对于选项D,由于成绩不低于60分的频率为,所以成绩不低于60分的人数是,所以选项D错误.
故选:C.
题型4 总体百分位数的估计
例4-1样本数据1,1,2,3,5,6的分位数为( )
A.1 B.2.5 C.2 D.3
【答案】C
【详解】因为,所以该组数据的分位数为2.
故选:C.
【变式训练4-1】数据3,1,1,4,5,2的第三四分位数为( )
A. B. C. D.
【答案】D
【详解】这组数据共6个数,从小到大排列是,由于,所以第三四分位数是第个数,即.
故选:D
【变式训练4-2】某射击运动员在男子10米气步枪决赛中,最后10枪成绩分别为10.9,10.7,10.4,10.0,10.5,9.8,10.7,9.9,10.5,10.6,则这10枪成绩的上四分位数是( )
A.10.5 B.10.6 C.10.65 D.10.7
【答案】D
【详解】将这10次成绩从小到大的顺序排列如下:9.8,9.9,10.0,10.4,10.5,10.5,10.6,10.7,10.7,10.9,
因为,所以该组成绩的上四分位数为排序后的第8个数字10.7.
故选:D
【变式训练4-3】某中学数学教师共有20人,他们的年龄分布如表所示:
年龄
62
50
43
32
30
28
25
人数
2
3
3
5
2
4
1
下列说法正确的是( )
A.29是这20人年龄的一个上四分位数 B.29是这20人年龄的一个下四分位数
C.31是这20人年龄的一个中位数 D.这20人年龄的众数是5
【答案】B
【详解】对于A,上四分位数,即分位数,因,则上四分位数为从小到大排列第15个数和第16个数的平均数,为,故A错误;
对于B,下四分位数,即分位数,因,则下四分位数为从小到大排列第5个数和第6个数的平均数,为,故B正确;
对于C,这20人年龄的中位数是,故C错误;
对于D,这20人年龄的众数是32,故D错误.
故选:B
题型5 总体集中趋势的估计
例5-1已知一组数据的平均数为3,则( )
A. B. C. D.
【答案】A
【详解】因为数据的平均数为,可得,解得.
故选:A.
例5-2若样本平均数为,总体平均数为,则( )
A.
B.
C.是的估计值
D.是的估计值
【答案】D
【详解】样本平均数为,总体平均数为,
统计学中,可利用样本数据估计总体数据,
∴样本平均数是总体平均数的估计值.
故选:D.
【变式训练5-1】一组数据1,7,5,2,,2,且,,若该组数据的众数是中位数的,则该组数据的平均数为( )
A.3 B.3.5 C.4 D.4.5
【答案】B
【详解】易得众数为2,则中位数为,
所以将数据按照从小到大排列得1,2,2,,5,7,则,解得,
则平均数为.
故选:B.
【变式训练5-2】已知数据,,…,的平均数为4,那么数据,,…,的平均数为( )
A. B. C.1 D.17
【答案】B
【详解】由题意可得,即
所以.
故选:B.
【变式训练5-3】(25-26高三上·北京丰台·开学考试)某公司为了解,两个地区用户对其产品的满意程度,从地区随机抽取400名用户,从地区随机抽取100名用户,请用户对公司产品评分.该公司将收集的评分数据按照,,,分组,统计如下:
地区
地区
40
30
120
20
160
40
80
10
合计
400
100
用频率估计概率.
(1)对地区所抽取的400名用户按评分区间,,,进行分层随机抽样,从中抽取10名用户参加座谈活动.求参加座谈的用户中,对公司产品的评分不低于60分的人数;
(2)从,两个地区各随机抽取1名用户,设X为这两人中评分不低于80分的人数,求至少有1名用户评分不低于80分的概率以及X的数学期望;
(3)若地区用户对该公司产品的评分的平均值为,地区用户对该公司产品的评分的平均值为,两个地区的所有用户对该公司产品的评分的平均值为,试比较和的大小.(结论不要求证明)
【答案】(1)
(2),
(3)
【详解】(1)设从A地区抽取的用户中抽取的10名参加座谈的用户中,
对公司产品的评分不低于60分的用户有m名,则,所以.
(2)从A、B两地区各随机抽取1名用户,评分不低于80分的概率分别为和,
评分低于80分的概率分别为和.
故至少有1名用户评分不低于80分的概率为.
随机变量X的取值为0,1,2
故,,
,
所以;
(3),理由如下:
,
,
,
其中,所以.
题型6 总体离散程度的估计
例6-1已知一组样本数据16,,14,15,13的平均数为15,则该组样本数据的方差为( )
A.2.0 B.2.1 C.2.2 D.2.4
【答案】A
【详解】因为该组样本数据的平均数为15,所以,解得,
则该组样本数据的方差为,
故选:A. .
例6-2为了解某学校学生每周阅读课外书籍的数量,采用样本量比例分配的分层随机抽样方法.现抽取高一学生20人,其每周阅读课外书籍数量的均值为4本,方差为4;抽取高二学生30人,其每周阅读课外书籍数量的均值为3本,方差为2.则该学校高一、高二学生每周阅读课外书籍数量的总体均值和方差分别是( )
A.总体平均数为3.4本,总体方差为3.24 B.总体平均数为3.5本,总体方差为3.04
C.总体平均数为3.4本,总体方差为3.04 D.总体平均数为3.5本,总体方差为3.24
【答案】C
【详解】高一学生人数,均值,方差.
高二学生人数,均值,方差.
所以总体均值.
总体方差 .
故选:C.
例6-3李明在10场篮球比赛中的投篮情况统计如下(假设各场比赛相互独立):
场次
投篮次数
命中率
场次
投篮次数
命中率
主场1
22
客场1
18
主场2
15
客场2
13
主场3
12
客场3
21
主场4
23
客场4
18
主场5
24
客场5
25
(1)估计李明在主场比赛中的命中率;
(2)从上述比赛中随机选择一个主场和一个客场,求李明的投篮命中率恰有一场超过0.6的概率;
(3)记为表中主场命中次数的方差,为表中客场命中次数的方差.试比较与的大小.(只需写出结论)
【答案】(1);
(2);
(3).
【详解】(1)由表格知,李明在主场命中次数为,
所以李明在主场比赛中的命中率为;
(2)由表格,李明在5个主场中有3个命中率超过,在5个客场中有2个命中率超过,
所以李明的投篮命中率恰有一场超过0.6的概率为;
(3)由(1)主场命中次数依次为,平均数为,
所以,
客场命中次数依次为,平均数为,
,
所以.
例6-4(25-26高三上·北京平谷·开学考试)近期,某中学全体学生参加了“垃圾分类大赛”活动:现从参加该活动的学生中随机抽取了男、女各20名学生,将他们的成绩(单位:分)记录如表:
成绩
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
男生(人数)
3
4
8
4
1
女生 (人数)
a
b
8
4
3
(1)在抽取的40名学生中,从大赛成绩在80分及以上的人中随机取出2人,求恰好男、女生各1名,且所在分数段不同的概率:
(2)从该校参加活动的男女学生中各随机抽取2人,求这4人中恰各有一名男女学生大赛成绩在80分及以上的概率;
(3)试确定a、b为何值时,使得抽取的女生大赛成绩方差最小,只写出结论
【答案】(1);
(2);
(3).
【详解】(1)由题设,成绩在80分以上的人有5名男生,7名女生,共12人,
其中在区间[80,90)中男、女各4名,在区间[90,100]中男生1名、女生3名,
所以随机取2人,恰好男、女生各1名,且所在分数段不同有种,
而在12人中任选2人有种,故所求概率为;
(2)由表格数据知,抽取一名男生,成绩在80分及以上的概率为,成绩在80分以下的概率为,
抽取一名女生,成绩在80分及以上的概率为,成绩在80分以下的概率为,
所以从活动男女学生中各抽取2人,恰各有一名男女学生大赛成绩在80分及以上的概率为;
(3)由题设,,女生平均成绩为,
所以方差
,而,
所以时,抽取的女生大赛成绩方差最小.
【变式训练6-1】已知这10个数据的平均数为,方差为1.98,则这11个数据的方差为( )
A.1.8 B.0.8 C.1.98 D.0.98
【答案】A
【详解】这10个数据的方差为,则,
这11个数据的平均数为,
方差为.
故选:A
【变式训练6-2】高一某班有24名男生和40名女生,某次数学测试中,男生的平均分与女生的平均分之差为4,若男生分数的方差为94,全班分数的方差为84,则女生分数的方差为( )
A.90 B.86 C.78 D.72
【答案】D
【详解】设男生分数为,男生分数均值为;
女生分数为,女生分数均值为;
则,总体均值为,
男生分数方差为,则,
全班分数方差为,
由方差得公式可知,
代入得,解得;
因为,所以,
化简得,
解得,
则女生方差为;
故选:D.
【变式训练6-3】已知一个样本容量为10的样本的平均数为6,方差为2.现将样本中的5个数据去掉,这5个数据的平均数为5,方差为1,则余下的5个数的方差为( )
A.1.2 B.0.8 C.1 D.2
【答案】C
【详解】因为样本容量为10的样本的平均数为6,所以样本数据的总和为,
又去掉的5个数据的平均数为5,所以剩余的5个数据的总和为,
所以剩余的5个数据的平均数为,
因为原来样本容量为10的样本的方差为2,所以,
所以,
又又去掉的5个数据的方差为1,所以,
解得,
所以余下的5个数的平方和为,
所以余下的5个数的方差为
故选:C.
【变式训练6-4】近年来“天宫课堂”受到广大中小学生欢迎,激发了同学们对科学知识的探索欲望和对我国航天事业成就的自豪.为领悟航天精神,感受中国梦想,某校组织了一次“寻梦天宫”航天知识竞赛(满分100分),各年级学生踊跃参加.为了比较高一、高二学生这次竞赛的成绩,从两个年级的答卷中各随机选取了50份,将成绩进行统计得到以下频数分布表:
成绩
高一学生人数
12
7
15
16
高二学生人数
9
10
18
13
试利用样本估计总体的思想,解决下列问题(同一组中的数据用该组区间的中点值为代表):
(1)分别求样本中高一和高二年级学生竞赛的平均成绩;
(2)从平均数与方差的角度分析哪个年级学生这次竞赛成绩更好?
【答案】(1)样本中高一和高二年级学生竞赛的平均成绩均为
(2)样本估计总体的思想可以认为,高二学生这次竞赛成绩更好
【详解】(1)样本中,高一学生竞赛平均成绩为:,
样本中,高二学生竞赛平均成绩为:;
(2)高一学生竞赛成绩的方差为
高二学生竞赛成绩的方差为
所以样本中平均成绩一样,但高二学生的成绩更稳定.
利用样本估计总体的思想可以认为,高二学生这次竞赛成绩更好.
【变式训练6-5】(2025·北京·三模)某老师为了解班里甲、乙两位同学的数学学习情况,从他们的数学小练习成绩中各随机抽取10份,.获得数据如下表:
甲同学
8
6.5
6
6
7.5
8
8
5.5
9
7.5
乙同学
6
7
7
7.5
7.5
8.5
9
7
9.5
9
已知数学小练习满分为10分,最低分为0分.若小练习得分不低于7.5分视为“得分达到良好”,若小练习得分不低于8.5分视为“得分达到优秀”. 假设用频率估计概率,且甲和乙小练习成绩相互独立.
(1)从甲同学的样本中随机抽取1个,求“得分达到良好”的概率;
(2)从乙同学的所有数学小练习成绩中随机抽取 3 份,记随机变量X为“得分达到优秀”的次数.估计X的分布列和期望:
(3)样本中,甲、乙两位同学小练习成绩的方差分别为记为和,试比较和的大小(结论不要求证明).
【答案】(1)
(2)分别列见详解,期望
(3)相等
【详解】(1)根据题意甲同学“得分达到良好”的有:8,7.5,8,8,9,7.5共6个,
所以从甲同学的样本中随机抽取1个,求“得分达到良好”的概率为.
(2)乙同学“得分达到优秀”的有:8.5,9,9.5,9共4个,
所以乙同学所以数学小练习中“得分达到优秀”的概率为,
从中随机抽取3份,随机变量X服从二项分布,
,,
,,
所以分布列为
X
0
1
2
3
P
期望.
(3)根据题意样本中甲同学成绩的均值
,
乙同学成绩的均值,
所以甲同学成绩的方差,
乙同学成绩的方差,
所以甲、乙两位同学小练习成绩的方差相等.
【变式训练6-6】某农业兴趣小组为比较长效肥和缓释肥这两种肥料的作用,进行了一个季度的对比试验,长效肥、缓释肥、未施肥三种处理下的同一种植物分别对应第组.分别从第组各随机抽取20株并测出株高,得到的60个样本数据分组整理如下表所示:
株高(单位:厘米)
第1组(长效肥)
2
10
6
2
第2组(缓释肥)
3
8
8
1
第3组(未施肥)
8
5
6
1
(1)从第一组20株植物中随机抽取2株,求至少有一株株高在内的概率;
(2)为了进一步研究,从这三组植物中各随机抽取1株,记这3株植物中恰有X株的株高在内,求X的分布列和数学期望(假设植物的生长情况相互独立,用频率估计概率);
(3)已知这三组植物的平均株高分别为,株高的方差分别为,求样本的平均数和方差.
【答案】(1)
(2)分布列见解析,
(3)9.3;6.83
【详解】(1)设事件“从第一组20株植物中随机抽取2株,至少有一株株高在”,
则.
(2)X的可能取值为,
则,
,
,
,
的分布列为
0
1
2
3
.
(3)样本的平均数为,
所以样本的方差为
,
又 ,
类似的,,成立,
所以 .
所以样本的平均数为9.3,方差为6.83.
题型7 成对数据的统计相关性
例7-1对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】D
【详解】由散点图的趋势可知,,,,
又图一的散点图比图三的散点图更为集中,则,所以,
又图二的散点图比图四的散点图更为集中,则,所以,
所以.
故选:D.
例7-2某公司2018-2023年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示.
年份
2018
2019
2020
2021
2022
2023
x/百万元
12.2
14.6
16.0
18.0
20.4
22.3
y/百万元
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,年利润中位数( )
A.是16,x与y有正线性相关关系
B.是17,x与y有正线性相关关系
C.是17,x与y有负线性相关关系
D.是18,x与y有负线性相关关系
【答案】B
【详解】由题意,利润中位数是,
而且随着利润x的增加,广告支出y也在增加,故x与y有正线性相关关系.
故选:B.
【变式训练7-1】为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
【答案】A
【详解】,则样本中心点为,
对于A,由,得,A正确;
对于B,由,得与的样本是正相关,B错误;
对于C,当时,的预估值为,C错误;
对于D,由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,D错误.
故选:A
【变式训练7-2】随机抽取某集团公司旗下五家超市,得到广告支出x(万元)与销售额y(万元)的数据如下:
广告支出x(万元)
2
4
5
6
8
销售额y(万元)
20
30
50
60
70
(1)计算x,y的相关系数r,并判断是否可以认为广告支出与销售额具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高,)
(2)求出y关于x的线性回归方程,并预测若广告支出15(万元),则销售额约为多少万元?参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
【答案】(1),可以认为广告支出与销售额具有较高的线性相关程度
(2),销售额为136万元.
【详解】(1)根据表格里的数据可得:
,.
所以
.
.
.
所以可以认为广告支出与销售额具有较高的线性相关程度.
(2)根据公式可得:
,.
所以关于的线性回归方程为.
当广告支出15万元时,销售额约为万元.
题型8 一元线性回归模型及其应用
例8-1为了解女儿身高与其母亲身高的关系,随机抽取5对母女的身高数据如下:
母亲身高
164
166
166
166
168
女儿身高
165
165
166
167
167
根据最小二乘法(即取最小),关于的回归直线方程为( )
A. B. C. D.
【答案】C
【详解】观察数据,可得与有关,故排除D.
又,.
所以回归直线方程必过点,所以排除AB.
故选:C
例8-2下表是某公司从2020年至2024年某种产品盈利额的近似值(单位:万元)
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
盈利额
50
56
64
72
83
(1)求关于的相关系数的值(精确到0.001),并判断它们是否具有较强的线性相关关系(如果,则认为与的线性相关关系较强,否则认为线性相关关系较弱);
(2)求关于的线性回归方程,并预测2025年该种产品的盈利额.
附:
①相关系数;
②经验回归方程中的和的最小二乘估计公式为
③.
【答案】(1),因为,所以与具有较强的线性相关关系;
(2),万元.
【详解】(1)已知,,则,
,则,
,
,所以,
已知,,
将以上值代入相关系数公式,
可得:,
因为,所以与具有较强的线性相关关系.
(2)根据,
而,,
所以.
由,已知,,,则.
所以关于的线性回归方程为.
2025年年份代号,将代入线性回归方程(万元).
【变式训练8-1】药物临床试验是确认新药有效性和安全性必不可少的步骤,为探究某药物在人体中的代谢情况,研究人员统计了血液中药物浓度与代谢时间的相关数据,如下表所示:
2
3
4
5
6
55
20
6
3
1
若采用一元线性回归模型,已知一个经验回归方程为①;若采用一元非线性回归模型,可求得经验回归方程②.
(1)求;
(2)①与②哪个更适合作为关于的经验回归方程?请比较其决定系数的大小,并说明理由.
附:(i)参考数据:;在经验回归方程②中,;
(ii)对于一组数据,决定系数.
【答案】(1)65
(2)②更适合作为关于的经验回归方程,理由见解析
【详解】(1)由题意,,,
则.
(2)在方程①中,经验回归方程为,
则,
所以,
在方程②中,,
决定系数,
①的决定系数小于②的决定系数,
②更适合作为关于的经验回归方程.
【变式训练8-2】7月1日,电影《哪吒之魔童闹海》(以下简称《哪吒2》在中国内地电影院线正式下映,结束了自今年1月29日以来153天的线下放映.据统计,《哪吒2》在中国内地最终斩获154.4亿元票房,总观影人次3.24亿,两项数据均创下中国影史纪录,并遥遥领先第二名,成为了又一部现象级电影.下表统计了《哪吒2》上映前15天累计票房到达(单位:亿元)与所用时间(单位:天)的数据:
累计票房
20
40
60
80
100
用时
4
7
9
10
15
(1)利用表中的数据,计算相关系数(结果精确到0.01),并推断两个变量的线性相关程度;
(2)求关于的经验回归方程(系数精确到0.01),并预测153天时的累计票房,判断这种预测方法是否合理.
参考公式:经验回归方程,其中.
相关系数.
参考数据:.
【答案】(1)两个变量具有很强的相关程度
(2),预测153天时的累计票房为1151.56亿元,该预测方法不合理
【详解】(1)由题意有,
则
所以两个变量具有很强的相关程度.
(2)由题意有,
所求经验回归方程为,
令,得,
预测153天时的累计票房为1151.56亿元,远超过实际票房,故该预测方法不合理.
题型9 列联表与独立性检验
例9-1为考察药物A对预防疾病B的效果,在两个不同规模的动物种群中分别进行了试验,根据种群一的试验结果得到如下列联表:
药物A
疾病B
合计
未患病
患病
未服用
28
22
50
服用
34
16
50
合计
62
38
100
计算得到.假设种群二试验结果对应的列联表中,每个单元格的数据都为上表对应单元格数据的5倍,则根据小概率值的独立性检验,( )
附:,
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
A.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过5%
B.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过10%
C.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过1%
D.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过0.5%
【答案】C
【详解】对于A,B,因为,
所以当时,无法推断种群一中药物A对预防疾病B有效,故A,B错误;
对于C,由,将各项数据变为原来的5倍,
则 ,
所以当时,则种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过.故C正确;
对于D,因为,
所以当时,无法推断种群二中药物A对预防疾病B有效,故D错误.
故选:C.
例9-2(25-26高三上·四川南充·阶段练习)近几年,新能源汽车的更新换代越来越引起人们的关注.某新能源车企想了解年轻司机与中老年司机对新能源车和燃油车的喜好程度,随机抽取了1000名司机,得到的列联表如下:
偏好新能源车
偏好燃油车
总计
年轻司机
300
200
500
中老年司机
200
300
500
总计
500
500
1000
(1)若从抽取的年轻司机中任选1人,求此人偏好新能源车的概率;
(2)依据的独立性检验,能否认为司机对两种汽车的偏好与年龄有关联?
附:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1)
(2)能够认为司机对两种汽车的偏好与年龄有关联.
【详解】(1)由题意知年轻司机中,偏好新能源车的有300人,偏好燃油车的有200人,
所以从抽取的年轻司机中任选1人,此人偏好新能源车的概率为.
(2)零假设为:司机对两种汽车的偏好与年龄无关,
由表中的数据,得
依据小概率值的独立性检验,我们推断不成立,
所以能够认为司机对两种汽车的偏好与年龄有关联.
【变式训练9-1】(24-25高三上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
附:
0.10
0.05
0.01
0.005
k
2.706
3.841
6.635
7.789
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【答案】D
【详解】列出列联表:
男生
女生
篮球迷
90
20
110
非篮球迷
60
30
90
150
50
200
,
故在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关.
故选:D
【变式训练9-2】某机构为了调查吃核桃是否能增强注意力,邀请了80名青少年作为研究对象,随机分成两组,实验组每天吃3~4个核桃,对照组没有接受任何形式的干预,持续6个月后,观察这80名青少年的注意力变化情况,得到如下数据.
受试者
注意力
合计
增强
无明显改善
对照组
10
30
40
实验组
30
10
40
合计
40
40
80
(1)记每天吃3~4个核桃,持续6个月后注意力增强的概率为,求的估计值;
(2)根据小概率值的独立性检验,分析吃核桃是否与注意力增强有关.
附:,.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)
(2)认为吃核桃与注意力增强有关
【详解】(1)由表格数据可知,实验组共有40人,注意力增强的有30人,
故的估计值为.
(2)零假设为:吃核桃与注意力增强无关.
根据列联表中的数据,经计算得.
根据小概率值的独立性检验,推断不成立,
即认为吃核桃与注意力增强有关.
一、单选题
1.根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为( ).
A.变量与不独立
B.变量与不独立,这个结论犯错误的概率不超过
C.变量与独立
D.变量与独立,这个结论犯错误的概率不超过
【答案】C
【详解】由表可知当时,,
因为,所以分类变量与相互独立,
因为,
所以分类变量与相互独立,这个结论犯错误的概率不超过,
故选:C
二、解答题
2.判断两个分类变量是否有关系,还可以借助下面的方法来进行粗略判断.其方法为:在列联表中,若与相差越大,则两个分类变量有关系的可能性就越大.已知某校对高三学生进行了调查,发现:在平时的模拟考试中,性格内向的426个学生中有332人在考前心情紧张,性格外向的594个学生中有213人在考前心情紧张.试用本题所述方法以及独立性检验方法来分析考前心情紧张与性格类别的关系.
【答案】答案详见解析
【详解】列联表如下:
是否紧张是否内向
紧张
不紧张
合计
内向
332
94
426
外向
213
381
594
合计
545
475
1020
,
所以与相差较大,所以考前心情紧张与性格类别有关.
,
所以由的把握认为考前心情紧张与性格类别有关.
3.某县有甲、乙两所规范化学校,教育主管部门为了检验两校九年级学生的数学水平,从甲、乙两校的九年级学生中,分别随机抽取55人和45人(各占全校九年级学生总数的15%)进行统一试题的数学测验.测验结果如下表(单位:人):
及格情况学校
及格
不及格
甲校
47
8
乙校
30
15
试问:甲、乙两校九年级学生的数学成绩的差异是否显著?
【答案】有以上的把握认为甲、乙两校九年级学生的数学成绩的差异显著
【详解】由题可得,其列联表如下所示:
及格情况学校
及格
不及格
合计
甲校
47
8
55
乙校
30
15
45
合计
77
23
100
故可得,且,
故有以上的把握认为甲、乙两校九年级学生的数学成绩的差异显著.
4.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
【答案】两种疗法效果没有差异.
【详解】假设:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,如下表:
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
根据列联表中的数据,经计算得到.
根据小概率值的独立性检验,没有充分证据推断不成立,
∴可以认为假设成立,即两种疗法效果没有差异.
5.有人收集了某城市居民年收入(即所有居民在一年内收入的总和)与商品销售额的年数据,如表.
表
第年
居民年收入/亿元
商品销售额/万元
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数判断居民年收入与商品销售额的相关程度和变化趋势的异同.
【答案】答案见解析
【详解】解:画出成对样本数据的散点图,从散点图看,商品销售额与居民年收入的样本数据呈现出线性相关关系.
设第年居民的年收入为亿元,商品销售额为万元,
则,,
所以,样本相关系数.
由此可以推断,商品销售额与居民年收入正线性相关,即商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
6.为了解休闲方式是否和性别有关,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)根据列联表进行独立性检验,你能得出什么结论?
【答案】(1)见解析
(2)有的把握认为“休闲方式与性别有关”
【详解】(1)2×2列联表为:
看电视
运动
总计
女
43
27
70
男
21
33
54
总计
64
60
124
(2)假设“休闲方式与性别无关”
所以有理由认为假设“休闲方式与性别无关”是不合理的,即有的把握认为“休闲方式与性别有关”.
7.某医院用光电比色计检验尿汞时,得到尿汞含量(单位:)与消光系数的资料如下表:
尿汞含量x
2
4
6
8
10
消先系数y
64
138
205
285
360
(1)求尿汞量x和消光系数y之间的相关系数r;
(2)求消光系数y关于尿汞含量x的线性回归方程;
(3)估计当尿汞含量为时的消光系数.
【答案】(1);
(2);
(3).
【详解】(1)由表中数据得:,
∴.
(2)由数据知:,
∴,,故.
(3)当时,,
∴尿汞含量为时的消光系数约为.
8.充气不足或过于膨胀会增加轮胎磨损,并减少行驶里程.对一种新型轮胎在不同压力下的行驶里程进行测试,数据如下表:
压力
里程
压力
里程
30
29.5
33
37.6
30
30.2
34
37.7
31
32.1
34
36.1
31
34.5
35
33.6
32
36.3
35
34.2
32
35.0
36
26.8
33
38.2
36
27.4
(1)画出散点图;
(2)求出相关系数;
(3)将散点图与相关系数进行比照分析,并作出适当解释.
【答案】(1)答案见解析.
(2)
(3)答案见解析.
【详解】(1)散点图如图,
(2)由已知得,,
(3)相关系数是负数,说明两者负相关,从散点图可知,当压力不超过额定值时,两者正相关,但当压力超过额定值时,行驶里程相对压力呈负相关的趋势,而且变化趋势是急剧变化,以致于变量整体上呈负相关态势.
9.某研究所研究耕种深度x(单位:cm)与水稻每公顷产量y(单位:t)的关系,所得数据资料如下表,试求每公顷水稻产量与耕种深度的相关系数和线性回归方程.
耕种深度x/cm
8
10
12
14
16
18
每公顷产量:y/t
6.0
7.5
7.8
9.2
10.8
12.0
【答案】相关系数约为0.9895,回归方程为.
【详解】,,
,
,
,
所以回归方程为.
10.为了解发动机的动力(单位:)与排气温度(单位:℃)之间的关系,某部门进行相关试验,得到如下数据:
/℃
/℃
4300
960
4010
907
4650
900
3810
843
3200
807
4500
927
3150
755
3008
688
4950
993
(1)求相关系数;
(2)求出线性回归方程;
(3)估计当时对应的值.
【答案】(1)0.93;
(2);
(3)753.4786.
【详解】(1)解:由已知数据可求得:
,
,
,,
,
.
(2)解:设线性回归方程为,由已知数据可求得:
,,
,
,
所以线性回归方程为.
(3)解:由(2)得,
当时,对应的的估计值约为:
.
4 / 14
学科网(北京)股份有限公司
$