内容正文:
第13练 统计
知识点一:随机抽样
1 全面调查和抽样调查
(1)全面调查
定义:对每一个调查对象都进行调查的方法,称为全面调查,又称普查.
相关概念:在一个调查中,把调查对象的全体称为总体,组成总体的每一个调查对象称为个体.
(2)抽样调查
定义:根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.
相关概念:把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本量.
2 简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本.
如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,把这样的抽样方法叫做放回简单随机抽样.
如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,把这样的抽样方法叫做不放回简单随机抽样.
放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
3 抽签法、随机数法
(1)抽签法:先给总体中的N个个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将号签放在一个不透明容器中,充分搅拌后,每次从中不放回地抽取一个号签,连续抽取n次,使与号签上的编号对应的个体进入样本,就得到一个容量为n的样本.
(2)随机数法
①用随机试验生成随机数.
②用信息技术生成随机数:a.用计算器生成随机数;b.用电子表格软件生成随机数;c.用统计软件生成随机数.
4 总体均值和样本均值
(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称==Yi为总体均值,又称总体平均数.
(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式=fiYi.
(3)样本均值:如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称=_=yi为样本均值,又称样本平均数.
(4)在简单随机抽样中,我们常用样本平均数去估计总体平均数.
知识点二:分层随机抽样
1 分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样.
(1)每一个子总体称为层,在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
(2)如果总体分为2层,两层包含的个体数分别为M,N,两层抽取的样本量分别为m,n,两层的样本平均数分别为,,两层的总体平均数分别为,,总体平均数为,样本平均数为.
则=+,=+.
由于可用每层的样本平均数估计每层的总体平均数,故可用+估计总体平均数.
(3)在比例分配的分层随机抽样中,可以直接用样本平均数估计总体平均数.
2 分层随机抽样的适用条件
分层随机抽样尽量利用事先所掌握的各种信息,并充分考虑保持样本结构与总体结构的一致性,这对提高样本的代表性非常重要.当总体是由差异明显的几个部分组成时,往往选用分层随机抽样的方法.
3 获取数据的途径
获取数据的基本途径有通过调查获取数据、通过试验获取数据、通过观察获取数据、通过查询获得数据等.
知识点三:用样本估计总体
1 频率分布直方图
作频率分布直方图的步骤
(1)求极差
极差为一组数据中最大值与最小值的差.
(2)决定组距与组数
将数据分组时,一般取等长组距,并且组距应力求“取整”,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.
(3)将数据分组
(4)列频率分布表
各小组的频率=.
(5)画频率分布直方图
纵轴表示,实际上就是频率分布直方图中各小长方形的高度,小长方形的面积=组距×=频率.
2 三种统计图的用途、优点、缺点
(1)条形图
用途:直观描述不同类别或分组数据的频数和频率.
优点:当数据量很大时,它能更直观地反映数据分布的大致情况,并能清晰地表示出各个区间的具体数目.
缺点:会损失数据的部分信息.
(2)折线图
用途:描述数据随时间的变化趋势.
优点:可以表示数量的多少,直观反映数量的增减情况,即变化趋势.
缺点:不能直观反映数据的分布情况.
(3)扇形图
用途:直观描述各类数据占总数的比例.
优点:可以直观地反映出各种情况所占的比例.
缺点:看不出具体数据的多少.
知识点四:百分位数
1 第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2 计算一组n个数据的