跳到主要内容

四分位数_Quartile

什么是四分位数?

四分位数是一个统计术语,用于将观测值根据数据的值及其与整个观察集的比较划分为四个定义区间。四分位数分为下四分位数、中位数和上四分位数。

当数据点按升序排列时,数据被划分为四个部分,每部分占25%的数据。

关键要点

  • 四分位数将数据组织成三个点:下四分位数、中位数和上四分位数,从而形成四个数据集组。
  • 结合数据集的最小值和最大值,四分位数将观测值分为四个部分,每部分代表25%的观测。
  • 四分位数用于计算四分位间距,这是衡量中位数周围变异性的指标。

理解四分位数

要理解四分位数,首先需要理解中位数作为一种集中趋势的度量。在统计学中,中位数是一个数字集合的中间值。它是恰好有一半数据位于其值之下和之上的点。

中位数是位置的稳健估计器,但并不说明其值两侧的数据分布或离散程度。这时四分位数就派上用场。四分位数通过将分布划分为四组,来衡量高于和低于中位数的值的分布。

四分位数将数据分为四个部分,各占25%。其中第二和第三组代表四分位间距。

就像中位数将数据划分为两个部分,使得50%的测量值低于中位数,50%高于中位数,四分位数将数据划分为四个部分,使得25%的测量值低于下四分位数,50%低于中位数,75%低于上四分位数。

共有三个四分位数值——下四分位数、中位数和上四分位数,它们将数据集分为四个范围,每个范围包含25%的数据点:

  • 第一个四分位数:介于最小值与第一个四分位数之间的数据点集合。
  • 第二个四分位数:介于下四分位数与中位数之间的数据点集合。
  • 第三个四分位数:介于中位数与上四分位数之间的数据集合。
  • 第四个四分位数:介于上四分位数与数据集最大值之间的数据点集合。

在电子表格中计算四分位数

假设你在一个有19名学生的课堂上有一组数学成绩,你需要将它们按升序输入到电子表格的一行中(也可以使用一列):

1学生ABCDEFGHIJKLMNOPQR
2分数596065656869707275757677818284879095

使用MEDIAN函数获取中位数值:

  • =MEDIAN(A2:R2)

然后,使用四分位数函数返回每个四分位数的值,其中函数中的第二个变量是你要计算的四分位数:

  • =QUARTILE(A2:R2, 1)
  • =QUARTILE(A2:R2, 2)
  • =QUARTILE(A2:R2, 3)

在这个例子中,你应该得到每个四分位数的值。因为第四个四分位数是数据集的最后一个值,所以无需计算:

  • 中位数 = 75
  • Q1 = 68.25
  • Q2 = 75
  • Q3 = 81.75

你可以看到,第一四分位数包含59到68.5之间的分数,第二四分位数包含68.5到75之间的分数。第三四分位数包含75到81.75之间的分数。将其可视化有助于理解:

手动计算四分位数

手动计算四分位数需要更多的努力,因为涉及到公式。使用与电子表格示例相同的值:

  • 59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98

使用以下公式来计算每个四分位数:

  • 第一个四分位数 (Q1) = (n + 1) x 1/4
  • 第二个四分位数 (Q2),即中位数 = (n + 1) x 2/4
  • 第三个四分位数 (Q3) = (n + 1) x 3/4

其中 n 是数据集中整数的数量,结果是该数在序列数据集中的位置。因此:

  • 第一个四分位数 (Q1) = 20 x 1/4 = 5
  • 第二个四分位数 (Q2) = 20 x 2/4 = 10
  • 第三个四分位数 (Q3) = 20 x 3/4 = 15

在这里,我们得到了 Q1(第五个)的值68,Q2(第十个,即中位数)的值75,以及 Q3(第十五个)的值84。由于电子表格计算方法不同,结果与电子表格中的结果略有不同。你的图表看起来将是这样的:

四分位数也用于计算四分位间距,这是衡量中位数周围变异性的指标。四分位间距就是第一四分位数与第三四分位数之间的范围。

在这个例子中,四分位间距为68到84(数据集中第五个值到第十个值)。

特殊考虑因素

如果 Q1 的数据点距离中位数的距离大于 Q3 距离中位数的距离,那么可以说数据集中的小值分散程度大于大值的分散程度。如果 Q3 距离 Q2 的距离大于 Q1 距离中位数的距离,这种逻辑同样适用。这被称为四分位偏态。

另一个需要考虑的方面是数据点数量是否为偶数。如果是这种情况,你需要使用中间两个数字的平均值来获取中位数。在上述示例中,如果有20名学生而不是19名,那么他们分数的中位数将是第十个和第十一数字的算术平均值。

如何找到数据集的下四分位数?

最佳方法是使用电子表格和 QUARTILE 函数。例如,函数 "=QUARTILE(A1:A53,1)" 返回数据集的第一个(下)四分位数。

如何找到数据集的上四分位数?

使用电子表格和 QUARTILE 函数是查找上四分位数的最快方法。例如,函数 "=QUARTILE(A1:A53,3)" 返回数据集的第三(上)四分位数。

数据集的四分位间距是什么?

四分位间距是数据集中测量值的中间50%——换句话说,是位于上四分位数和下四分位数之间的数据范围。这比使用数据的全范围更具统计意义,因为它省略了可能的异常值。

结论

四分位数是将数据集列表分为四个部分的值,从而形成下、中、上四分位数。四分位数的目的是为分布形态提供依据,主要指示分布是否偏态,这可以用来确定基金表现的一致性。