您在這裡

概率抽样

24 十一月, 2015 - 16:35

概率抽样技术是指总体中的每个单元在抽样时都有被抽到的机会(非零的概率),并且这个机会是可以准确确定的。样本统计量就这样产生了,比如样本均值或标准差,只要根据样本单元的选取概率对它们赋予权重,样本统计量就是总体参数的无偏估计。所有概率抽样有两种共同的属性:(1)总体的每个单元的中选概率是已知的、非零的;(2)抽样程序包含随机选择采样点。概率抽样的不同类型包含:

简单随机抽样。在该技术中,总体(更准确地说应是抽样范围)的所有可能的子集被选中的概率都是均等的。从总数为N的抽样范围中选择任何n个样本的组合的概率是CNn。因此,不采用任何加权,样本统计量是总体参数的无偏估计。简单随机抽样包括从样本范围内随机选择受访者,但对于大型的抽样范围通常会用到随机数表或计算机随机号码发生器。例如,如果想从有1000家企业的清单中选择200企业来调查,若这份清单在一个电子表格软件如Excel中,就可以Excel的RAND函数来为清单上1000个客户生成随机编号。接着,将它们按相应的随机数以升序的方式排序,然后在排过序的清单中选择前200名客户。这是所有概率抽样技术中最简单一种;然而,简单也正是这个技术的优点。因为抽样范围并没有进行细分或分割,样本是无偏的,并且该推论在所有概率抽样技术中最具普遍性。

系统抽样。在该技术中,抽样范围是根据某个标准有序排列的,并且样本是按固定的间隔从有序的列表中选取的。系统抽样涉及随机的起点,然后从起点向后每隔K个样本进行选取,这里K=N/n,称作采样率,是抽样范围规模N以及理想样本规模n的比值。清单上的第一个样本不能自动成为起点,而要从清单上前K个样本中随机选择一个作为样本起点。前面从1000家企业中选择200家企业的例子中,可以按照规模(员工数或年营业收入)将企业按升序(或降序)排列,在有序列表的前五家企业中随机选择一家企业作为起点,然后选择列表上的每个第五家企业。这个过程将确保样本中没有过多选取大型或小型企业的样本,所有规模的企业都被均等选取,正如抽样范围一样。换句话说,样本代表了总体,至少在分类的基础上是这样的。

分层抽样。在分层抽样中,抽样范围被分成同类的和不交叉的子集(称为“层”),再按照简单随机抽样方法在每个子集中抽取样本。前面从1000家企业中选择200家企业的例子中,可以先按照规模将企业分成大型(超过500名员工)、中型(50~500名员工)和小型(少于50名员工)三个子集。然后在每个子集中随机选取67家企业来组成200家企业的样本。然而,由于在样本范围内,与大型企业相比存在更多的小型企业,选取相同数目的小型、中型和大型企业将会使样本具有较低的代表性(即,考虑到目标总体中大型企业更少,这将是有偏的)。这就是所谓的不成比例的分层抽样,因为每个子集的样本比例没有反映其在抽样范围(或总体)中的比例,较小的子集(大型企业)被过多取样了。一个替代技术是根据它们在总体中的比例在子集中选取样本。例如,如果有100家大型企业、300家中型企业、600家小型企业,可以从大型组中选取20个企业,从中型组中选取60个企业,从小型组中选取120个企业。在这种情况下,总体中企业的比例分布在样本中得到保持,因此,该技术称作比例分层抽样。注意,非比例分层抽样方法在代表小的子集如大型企业时非常有效,只要根据子集在总体中的比例对非比例方式的结果赋予权重,与比例分层抽样相比,非比例分层抽样方法未必不能代表总体。

整群抽样。如果总体分散在一个大的地理区域,对整体实施简单随机抽样是不可行的。在这种情况下,将整体分“群”(通常按地理界线)是合理的,随机抽取几个群,然后测量群中的每个样本。例如,如果你想以纽约州的城市政府为样本,而不是周游整个州去采访那些关键城市的官员(如在简单随机抽样中必须要做的),可以基于郡县将这些政府分群,随机选取三个郡县,然后采访这些郡县的每一个政府官员。然而,由于群体间的差异,群体样本中样本估计的变异性通常会比简单随机样本的变异性高,因此与从简单随机样本的到的结论相比,该技术的结果不具有普遍性。

配对抽样。有时,研究者基于特定的标准想要比较总体内两个子集。例如,为什么一些企业始终比其他企业更有利可图?实施这样的研究需要根据毛利率、每股收益或其他盈利衡量指标将抽样范围内的企业分成两类:“高盈利”企业和“低盈利”企业。接着,在一个子集中随机选择样本,再根据规模、行业分部、和/或其他匹配标准将这个组中的每个企业与第二子集中的某个企业配对。这样,就有两个配对的高利润和低利润企业样本供更详细的研究。这种配对抽样技术通常是了解特定总体中不同子集间差异的理想方式。

多级抽样。先前讨论的概率抽样技术都是单级抽样技术的例子。根据样本需求,可以将这些单级抽样技术结合起来实施多级抽样。例如,可以基于企业规模将清单上的企业分层,然后在每层实施系统抽样。这是将分层抽样与系统抽样结合起来的两级抽样。同样地,可以先将纽约州的学区分群,在每个群中,用简单随机抽样选取学校;在每个学校中,用简单随机抽样选取年级;对每个年级,用简单随机抽样选取学生来进行抽样。在这种情况下,就有一个包括整群抽样和简单随机抽样的四级抽样过程。