跳到主要内容

抽样分布_Sampling Distribution

什么是抽样分布?

抽样分布是统计学中的一个概念。它是从特定人群中抽取较大数量样本所获得的统计量的概率分布。给定人群的抽样分布是指可能发生的各种不同结果的频率分布,这些结果可能与人群中的某个统计量相关。这使得政府和企业等实体能够根据所收集的信息做出更具知情的决策。研究人员使用的几种抽样分布方法,包括均值的抽样分布。

关键要点

  • 抽样分布是通过对特定人群进行重复抽样获得的统计量的概率分布。
  • 它描述了某个统计量(如某个变量的均值或众数)在总体中的一系列可能结果。
  • 研究人员分析的大多数数据实际上是样本,而非整个总体。

抽样分布的工作原理

数据使统计学家、研究人员、市场营销人员、分析师和学术界能够就特定主题和信息得出重要结论。数据可以帮助企业制定未来决策并提升业绩,也可以帮助政府规划满足一特定群体需求的服务。

许多使用的数据实际上是样本而不是总体。样本是总体的一个子集。简单来说,样本是较大群体的一个较小部分。因此,这个较小的部分旨在代表整个总体。

抽样分布(或数据分布)是决定某个事件或特定结果是否发生的统计度量。该分布依赖于多个因素,包括样本大小、抽样过程中涉及的步骤,以及总体的整体特征。抽样分布涉及几个步骤,包括:

  • 从总体中选择随机样本
  • 从该组中确定某个统计量,如标准差、中位数或均值
  • 建立每个样本的频率分布
  • 在图表上绘制分布

一旦信息被收集、绘制并分析,研究人员可以做出推论和结论。这可以帮助他们预测未来。例如,政府可能能够根据某个社区的需求投资基础设施项目,或一家公司可能会决定在抽样分布显示出积极结果的情况下推进新的商业计划。

重要提示: 每个样本都有其各自的样本均值,而样本均值的分布被称为样本分布。

特殊考虑

人口中的观察数、样本中的观察数以及抽样过程确定了抽样分布的变异性。抽样分布的标准差被称为标准误。

尽管抽样分布的均值等于总体的均值,但标准误取决于总体的标准差、总体的大小以及样本的大小。[1]

了解每个样本集的均值相互之间以及与总体均值的距离,将为样本均值与总体均值的接近程度提供指示。随着样本大小的增加,抽样分布的标准误将减少。

确定抽样分布

假设一位医学研究人员希望比较1995年至2005年北美出生所有婴儿的平均体重与南美同期的婴儿体重。由于他们无法在合理的时间内抽取整个总体的数据,因此他们仅会使用每个大洲的100名婴儿得出结论。使用的数据是样本,计算的平均体重是样本均值。

现在假设他们从一般人群中进行重复抽样,并计算每个样本组的样本均值。以北美为例,他们从美国、加拿大和墨西哥抽取了100名新生儿的体重数据,如下:

  • 从美国选择的四个医院抽取100个样本
  • 从加拿大抽取的70个样本
  • 从墨西哥的150个记录

研究人员最终获得了1200名婴儿体重,分为12组。他们还收集了来自南美12个国家的100个出生体重样本数据。

每个样本组计算的平均体重就是均值的抽样分布。不仅可以从样本中计算均值,还可以从样本数据中计算其他统计量,如标准差、方差、比例和范围。标准差和方差测量抽样分布的变异性。[2]

抽样分布的类型

以下是抽样分布类型的简要描述:

  • 均值的抽样分布:此方法显示出一个正态分布,其中中间为抽样分布的均值。因此,它代表整体人群的均值。为了达到这一点,研究人员必须找出每个样本组的均值并绘制个体数据。
  • 比例的抽样分布:此方法涉及从总体中选择样本集以获取样本的比例。比例的均值最终成为较大群体的比例。
  • T分布:这种类型的抽样分布常见于小样本的情况。当对整个总体的信息非常有限时,也可以使用T分布。T分布用于对均值和其他统计点进行估计。

注: 在统计学中,人口是从中抽取统计样本的整体池。人口可以指一个完整的人群、物体、事件、医院就诊或测量。因而,可以说人口是按共同特征分组的主题的聚合观察。[3]

绘制抽样分布

总体或一个样本集的数字将具有正态分布。然而,由于抽样分布包含多个观察值集,它不一定会呈现钟形曲线。

以我们的例子为例,北美和南美的婴儿人口的平均体重具有正态分布,因为一些婴儿会低于均重(低于均值)或超过均重(高于均值),大多数婴儿则处于两者之间(接近均值)。如果北美新生儿的平均体重为七磅,那么在北美录得的12组样本观察的样本均重也会接近七磅。

但是,如果你将1200个样本组中计算出的每个均值绘制在图中,得到的形状可能呈现均匀分布,但很难确定实际形状会如何。研究人员从超过一百万个体重数据中使用的样本越多,图形越会开始形成正态分布。

为什么使用抽样收集人口数据?

抽样是一种收集和分析有关更大群体信息的方法。这是因为研究人员无法研究整个总体,考虑到涉及的主题数量。因此,较大群体中的每个人可能无法被纳入,因为这可能需要太长时间来研究和分析数据。这使得政府和企业等实体可以为未来做出重要决策,无论是投资基础设施项目、社会服务计划还是新产品。

为什么使用抽样分布?

抽样分布在统计学和研究中被广泛应用。它们突出了可能发生事件的机会或概率。这是基于从较大总体中的小组收集的一组数据。

什么是均值?

均值是统计学和研究中使用的一个度量。它是两个或多个数字的平均值。均值可以通过将所有数字相加再除以该组中数字的数量来确定。这被称为算术均值。你也可以通过将数据集的值相乘并取根号来确定几何均值,根号的结果等于数据集中值的数量。

结论

研究人员无法对非常大的人群得出结论,因为涉及的主题数量太多。这就是他们使用抽样的原因。抽样使他们能够从大总体中抽取一个小组并分析数据。一旦数据收集完成,研究人员可以绘制抽样分布,这使他们能够确定某个事件是否可能发生在特定人群中。这可能包括商业增长或人口趋势,这可以帮助企业、政府和其他实体做出更好的未来决策。

参考文献

[1] Penn State, Eberly College of Science. "4.1 - Sampling Distributions."

[2] New Jersey Institute of Technology. "Sampling Distributions."

[3] Organisation for Economic Co-operation and Development. "Population."