跳到主要内容

抽样误差_Sampling Errors

什么是抽样误差?

抽样误差是指在数据分析时,分析者未能选择一个能代表整体数据的样本,从而导致样本结果与整体结果不一致的统计误差。

抽样是一种通过从更大的人群中选择一定数量的观察值来进行的分析。选择方法可能会产生抽样误差和非抽样误差。

主要要点

  • 当研究中使用的样本不代表整个总体时,就会出现抽样误差。
  • 抽样是通过从较大的人群中选择一定数量的观察进行的分析。
  • 即使是随机抽样也会存在一定程度的抽样误差,因为样本仅仅是所选总体的近似值。
  • 通过增加样本量,可以减少抽样误差的发生。
  • 一般来说,抽样误差可以分为四类:特定人群误差、选择误差、样本框误差和非响应误差。

理解抽样误差

抽样误差是样本值与真实总体值之间的偏差。抽样误差之所以出现,是因为样本不能代表总体,或者在某种程度上存在偏差。即使是随机样本也会有一定程度的抽样误差,因为样本仅是从中抽取的总体的近似。

计算抽样误差

抽样误差公式用于统计分析中计算整体抽样误差。抽样误差计算方法是将总体标准差除以样本大小的平方根,然后乘以基于置信区间的Z分数值。

抽样误差=Z×σn其中:Z=Z 分数值,基于 置信区间(约=1.96)σ=总体标准差n=样本大小\begin{aligned}&\text{抽样误差}=Z\times\frac{\sigma}{\sqrt{n}}\\&\textbf{其中:}\\&Z=Z \text{ 分数值,基于}\\&\qquad \ \text{置信区间(约}=1.96)\\&\sigma=\text{总体标准差}\\&n=\text{样本大小}\end{aligned}

抽样误差的类型

抽样误差有不同的类别。

人口特定误差发生在研究者不理解应该调查哪些人群时。

选择误差发生在调查是自我选择的,或者只有对调查感兴趣的参与者才回应问题时。研究者可以通过鼓励参与来尝试克服选择误差。

样本框误差发生在从错误的人群数据中选择样本时。

非响应误差发生在研究者未能联系到潜在被访者(或潜在被访者拒绝回应)时,导致调查未能获得有用的回应。

消除抽样误差

通过增加样本量,可以减少抽样误差的发生。随着样本量的增加,样本会更接近实际总体,从而减少与实际总体之间的偏差。例如,10个样本的平均值波动比100个样本的平均值要大。同时,可以采取措施确保样本能够充分代表整个总体。

研究者可能会通过重复研究来减少抽样误差。这可以通过重复测量相同的观察进行、使用多个受试者或多个组别,或通过进行多个研究来实现。

随机抽样是另一种最小化抽样误差发生的方法。随机抽样建立了一种系统的选择样本的方法。例如,研究者可以选择名单中出现的首位、10位、20位、30位、40位的参与者,而不是随意选择。

**注意:**减少抽样误差的一种方法是使用更大的样本量。由劳工统计局每月编制的《就业形势月报》,是基于对119,000家企业和政府机构的调查而计算得出的。由于样本量巨大,这些调查的抽样误差率极低。[1]

抽样误差的例子

假设XYZ公司提供基于订阅的服务,让消费者能够支付月费通过互联网观看视频和其他类型的节目。

该公司希望对每周至少通过互联网观看10小时节目并支付现有视频流媒体服务的家庭进行调查。XYZ想确定有多少比例的人对降低价格的订阅服务感兴趣。如果XYZ未能认真考虑抽样过程,那么几种类型的抽样误差可能会发生。

如果XYZ公司不理解应包含哪些特定消费者类型在样本中,就会发生人口特定误差。例如,如果XYZ将目标人群定为15至25岁之间的人,许多消费者可能因为没有全职工作而无法做出视频流媒体服务的购买决定。另一方面,如果XYZ组成了一组做出购买决策的在职成人样本,这组消费者可能不会每周观看10小时的视频节目。

选择误差也会导致样本结果出现扭曲。一个常见的例子是仅依赖于一小部分立即响应的人进行调查。如果XYZ努力跟进那些最初没有回应的消费者,调查结果可能会发生变化。此外,如果XYZ排除那些未及时回应的消费者,样本结果可能无法反映整个群体的偏好。

抽样误差与非抽样误差

在收集统计数据时可能会出现不同类型的误差。抽样误差是样本人群特征与总体特征之间的看似随机的差异。抽样误差的产生是因为样本大小不可避免地有限。(在调查或普查中不可能对整个群体进行抽样。)

**重要:**即使没有发生任何错误,抽样误差也可能出现;抽样误差发生是因为没有样本能够完美匹配样本所抽取的宇宙中的数据。

XYZ公司还希望避免非抽样误差。非抽样误差是在数据收集过程中产生的错误,导致数据与真实值不同。非抽样误差通常由人为错误造成,例如调查过程中的失误。

如果一组消费者每周仅观看五小时的视频节目,并且被纳入调查,这一决策就是一种非抽样误差。提出偏见性问题也是另一种错误类型。

抽样误差与抽样偏差的区别

在统计学中,抽样是指选择将在研究中实际收集数据的小组。

抽样偏差是指对样本不会代表真实总体的预期,这种预期是事先已知的。例如,如果样本中女性或年轻人的比例较总体更高,就存在抽样偏差。

抽样误差是指当分析进行后样本未能代表整体人群时所产生的统计误差。

为什么抽样误差重要?

意识到抽样误差的存在非常重要,因为它可以作为对结果可信度水平的指示。抽样误差在关于研究结果可能变动程度的讨论中也很重要。

如何找到抽样误差?

在调查研究中,抽样误差的产生是因为所有样本都是代表性样本:这是一个较小的群体,用来代表整个研究人口。对您希望触及的整个群体进行调查是不可能的。

通常不可能定量研究中的抽样误差程度,因为不可能从所研究的整个总体中收集相关数据。这就是研究者为什么收集代表性样本(而且正是代表性样本导致了抽样误差的发生)。

抽样误差与标准误差的区别

抽样误差是从标准误差(SE)导出的,通过乘以Z分数值来产生置信区间。

标准误差是通过将标准差除以样本大小的平方根来计算的。

结论

抽样误差发生在从一个人群中抽取的样本在某种程度上偏离真实总体时。大幅度的抽样误差可能导致对基于统计分析的总体做出错误估计或推断。

一般来说,抽样误差可以分为四类:特定人群误差、选择误差、样本框误差和非响应误差。特定人群误差发生在研究者不理解他们应该调查谁的情况下。选择误差发生在参与者自我选择参与研究时。(这导致只有那些有兴趣回应的参与者,从而扭曲了结果。)样本框误差发生在使用错误的子人群进行样本选择时。最后,非响应误差发生在潜在被访者未能成功联系或拒绝回应时。

参考文献

[1] Bureau of Labor Statistics. "Current Employment Statistics."