内容正文:
第13章 统计(知识归纳+题型突破)
一、用样本估计总体
1.总体百分位数的估计
(1)第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是s=
,
s2=[(x1-)2+(x2-)2+…+(xn-)2].
1.频率分布直方图与众数、中位数、平均数的关系
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)若数据x1,x2,…,xn的方差为s2,那么
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
二、数据的获取
1、数据分类
通常,按照数据的收集方法,可以将数据分为观测数据和实验数据.
①观测数据
指通过调查或观测而收集到的数据,是在没有对事物人为控制的条件下得到的.
例如全国人口普查,人口普查员通过请社区住户填写人口普查表来调查人口信息,但并不进行干预.
②实验数据
指在实验中控制实验对象而收集到的数据.
例如,我们想知道每天服用一定剂量的维生素能否预防感冒.为了完成实验,研究人员必须让一部分人每天服用一定剂量的维生素,另一部分人不服用维生素,然后收集两组对象的感冒发病率.
注意:
①观测数据是观测现实世界时收集得到的数据
②观测数据是为了从收集得到的样本中得出有关总体的一些结论
③观察数据用来对提出的问题研究各种导致它的可能性
④实验数据是在实验中通过控制一个或多个变量而得到的测量结果
⑤实验数据用来发现造成结果的原因,即鉴别因果关系
2、数据获取
高中阶段的统计涉及到的主要是观测数据,它主要是通过普查或抽样调查获得.
①普查
普查对于我们而言可能并不陌生,最为熟悉的就是全国人口普查.一个国家或者一个地区为详细调查某项重要
的国情、国力,专门组织大规模的全面调查,对总体的每个个体进行调查,我们称之为普查.
②抽样调查
由于普查耗费财力和时间,并且在一般统计问题中,对总体的每一个个体进行考察并非必要.有些调查过程甚至具有一定的破坏性,比如测试一批灯管的寿命或汽车的抗撞性等.这时可以从总体中按照一定的方法抽取一个样本进行研究,然后通过分析样本数据对总体作出估计.
从总体中抽取一个样本的过程称为抽样,通过抽样进行调查研究的方法叫做抽样调查
注意:以我国每年进行一次的人口普查为例,在进行人口普查时,主要调查人口和住户的基本情况,包括姓名、性别、年龄、民族、受教育程度、行业、职业、婚姻等.这样虽然要耗费大量的人力、物力与财力,但可以全面掌握全国人口的基本情况,为制定人口政策和经济社会发展规划提供依据,为社会公众提供人口统计信息服务,对国家管理、制定各项方针政策具有重要的意义.
由于普查耗费财力和时间,并且在一般统计问题中,对总体的每一个个体进行考察并非必要.有些调查过程甚至具有一定的破坏性,比如测试一批灯管的寿命或汽车的抗撞性等,这时可以从总体中按照一定的方法抽取一个样本进行研究,然后通过分析样本数据对总体作出估计.
三、随机抽样、统计图表
1.简单随机抽样
(1)简单随机抽样
分为放回简单随机抽样和不放回简单随机抽样.除非特殊声明,本章简单随机抽样指不放回简单随机抽样.
(2)简单随机样本
通过简单随机抽样获得的样本称为简单随机样本.
(3)简单随机抽样的常用方法
实现简单随机抽样的方法很多,抽签法和随机数法是比较常用的两种方法.
2.总体平均数与样本平均数
名称
定义
总体均值
(总体平均数)
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称==Yi为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有