跳到主要内容

温莎均值_Winsorized Mean

什么是温莎均值?

温莎均值是一种平均计算方法,它首先将数据集中最小和最大的值替换为最接近的观察值。这是为了限制异常值或极端值对计算结果的影响。

替换值后,使用算术平均公式计算温莎均值。

关键要点

  • 温莎均值是一种平均方法,涉及将数据集中最小和最大的值替换为最接近的观察值。
  • 它通过替换异常值来减轻这些极端值的影响。
  • 温莎均值与修剪均值不同,修剪均值是通过移除数据点而不是替换它们,而两者的结果通常接近。
  • 温莎均值也不同于算术均值,后者并不调整异常值的影响。

温莎均值公式

温莎均值 = xnxn+1 + xn+2xnN其中:n = 要被替换为最接近观察值的最大和最小数据点的数量N = 数据点的总数\begin{aligned} &\text{温莎均值}\ =\ \frac{x_{n}\dots x_{n+1}\ +\ x_{n+2}\dots x_{n}}{N}\\ &\textbf{其中:}\\ &\begin{aligned} n\ =\ &\text{要被替换为最接近观察值的最大和最小数据点的数量}\\ &\end{aligned}\\ &N\ =\ \text{数据点的总数} \end{aligned}

温莎均值有两种表示方式。“kn”温莎均值指的是替换“k”个最小和最大的观察值,其中“k”是一个整数。“X%”温莎均值则涉及从数据的两端替换给定百分比的值。

重要提示: 温莎均值是通过替换最小和最大数据点,然后将所有数据点相加并除以数据点的总数来实现的。

温莎均值告诉我们什么?

温莎均值对异常值的敏感性较低,因为它可以用较少极端的值替换异常值。也就是说,它对异常值的敏感性低于算术平均值。然而,如果一个分布呈现“胖尾”特征,则去除分布中最高和最低值的影响会很小,因为分布数字的变异性很高。

温莎均值的一个主要缺点是,它自然会在数据集中引入一些偏差。通过降低异常值的影响,分析被调整以实现更好的结果,但也可能去除了数据的底层信息。

温莎均值的优势

在多种情况下,使用温莎均值是最佳选择。以下是一些模糊情况的概述,下一部分将提供温莎均值可能最有用的更具体示例。当数据集中存在以下情况时,使用温莎均值通常是比较理想的选择:

  • 数据集中存在异常值。当数据集中含存在异常值或与其他数据点差异较大的极端值时,使用传统的算术均值可能会产生错误结果。温莎均值提供了对中心趋势更准确的表征,并减少了这些异常值的影响。
  • 分布偏斜。温莎均值对显著偏斜的分布数据集很有用。在偏斜分布中,可能存在极端值和较长的一侧尾部。为了减少偏斜性并创建更可靠的中央趋势估计,使用温莎化处理数据。
  • 有测量误差的数据。测量误差可能导致数据中出现异常值。使用温莎均值可以减少这些测量误差。
  • 暂时的价值波动。在数据的短期波动可能导致极端值的情况下,温莎均值很有用,因为它对这些波动具有抗干扰能力。随着时间的推移,通过替换这些异常值,温莎均值变得更可靠和稳定。
  • 样本量有限:当数据点较少且样本量小的情况下,异常值对常规均值的影响可能会更大。在这种情况下,温莎均值可以提供对中央趋势的更准确估计。

温莎均值水平

温莎化水平对有效使用温莎均值至关重要。温莎化水平决定了要替代的极端值的百分比。考虑数据探索、依赖领域知识、进行敏感性分析和咨询可能对极端值有更多了解的专家来确定适当的温莎化水平。

在评估温莎化水平时,理解异常值的性质及其形成原因可以帮助确定适当的水平。异常值可能对统计分析产生影响,因此,如果它们对结果影响过大,较高的温莎化水平可能是有益的。然而,如果目标是保留数据的某些原始特征,则较低的水平可能更为合适。在选择水平时,评估保持原始数据组成的兴趣程度。

在许多情况下,数据领域知识对设定温莎化水平至关重要。考虑任何数据集及其典型值范围。如果没有历史的、隐含的行业知识,识别不良数据将会更加困难。在某些情况下,实验观察在不同水平下温莎均值的变化至关重要。

温莎均值与现实世界情况

更具体地说,有一些情况或行业中,温莎均值比其他测量形式更具意义。这些现实世界的情况可能包括但不限于以下类别。

市场波动对金融数据可能产生实质性影响。股价、资产收益和其他金融指标在金融和投资领域可能表现出极端水平。通过使用温莎均值计算金融数据估算,可以减少严重价格波动和异常值的影响。

企业内部的薪资或工资分布有时可能会非常偏斜。这在收入差距显著的行业或大幅奖励在行业中工作时间长的人员的行业中尤其如此,反之对刚刚入门的人员可能“惩罚”。温莎均值通过减少异常高或低收入的影响,可以帮助提供对典型薪资范围的更准确衡量。

由于罕见的医疗疾病或极端的测量,医疗数据可能包含异常值。血压、胆固醇水平或病人恢复时间等健康指标可以在去除极端值后更好地理解。例如,关于患者集体平均的数据可能更有用,尤其是在这些数据集未被异常高或异常低的医疗读数影响的情况下。

因为各种因素,一些孩子可能有不寻常的高或低考试成绩。在评估特定组别的表现时,纳入这些异常考试分数可能没有多大价值;因此,使用温莎均值计算的评估平均分数可以消除任何负面(或正面)影响,从而准确评估特定教师或课程的表现。

在评估客户满意度评分时,异常值可能会出现,因为少数消费者可能给出了极其积极或消极的评价。在上述涉及班级的例子中,可能一名抱怨的学生会降低课程的评价分数。温莎均值可以帮助减少这些极端分数的影响,并更加真实地反映整体满意度。

随着看似越来越常见的异常事件或极端天气情况,某些情况下没有这些极端值的环境数据可能会很有用。例如,考虑测量平均空气质量或水污染量。在这两种情况下,有异常高或低的污染水平可能误导决策者理解平均每日情况,进而导致环境经济资源的不当分配。

如何使用温莎均值的示例

让我们计算以下数据集的温莎均值:1,5,7,8,9,10,34。在这个例子中,我们假设温莎均值是第一顺序,在该顺序中,我们将最小和最大值替换为其最近的观察值。

数据集现在显示为:5,5,7,8,9,10,10。对新数据集求算术平均得到的温莎均值为7.7,即(5 + 5 + 7 + 8 + 9 + 10 + 10)除以7。请注意,算术均值将更高——10.6。温莎均值有效降低了34值作为异常值的影响。

或者考虑一个20%的温莎均值,该均值取顶部10%和底部10%,并用它们下一个最接近的值替换它们。我们将对以下数据集进行温莎化:2,4,7,8,11,14,18,23,23,27,35,40,49,50,55,60,61,61,62,75。将两组最小和最大数据点(20个数据点的20%)用下一个最接近的值替代。因此,新的数据集如下:7,7,7,8,11,14,18,23,23,27,35,40,49,50,55,60,61,61,61,61。温莎均值为33.9,即数据总和(678)除以数据点总数(20)。

温莎均值与其他测量的对比

还有几种常见的“均值”形式,每种形式与温莎均值稍有不同。此外,还有诸如中位数等其他测量,其所提供的信息相似但又不同。一般来说,温莎均值相比于其他类型的均值更能抵抗异常值的影响。其他类型的测量包括:

  • 传统/算术均值:传统均值,也称算术均值,是通过将数据集中所有数据点相加并除以数据点数量来计算的。它对极端值敏感,容易受异常值的显著影响。
  • 修剪均值:修剪均值是另一种稳健的均值类型,涉及从数据分布的两端移除一定百分比的极端值。这些端点可被称为数据分布的顶部和底部。修剪均值保留数据中心值的特定部分,并丢弃极端值,因此相较于算术均值更能抵抗异常值的影响。
  • 中位数:中位数并不是均值计算;相反,它代表了数据集中按升序或降序排列时的中间值。与传统均值不同,中位数不受极端值影响,因为它仅考虑数据集中的中心值。

温莎均值能处理多个异常值吗?

是的,温莎均值可以处理数据集中的多个异常值。它有效地替换指定百分比的极端值,而不管存在多少个异常值。通过用较少极端的值替换多个异常值,温莎均值保持对这些异常值影响的低敏感性。

温莎均值可以用于非数值数据吗?

不太可行。温莎均值主要针对数值数据设计,因为它涉及用其他数值替换数值异常值。对于非数值数据,如分类变量或文本数据,其他稳健的统计测量或预处理技术可能更为适合。

温莎均值保留数据变异性吗?

温莎均值比修剪均值保留了更多的数据变异性,因为它仅用更接近于数据集中心部分的值替换极端值。因此,在保持变异性至关重要的情况下,它成为了一个可取的选择。

温莎均值如何影响假设检验?

温莎均值可以通过减少极端值对统计检验的影响来影响假设检验的结果。在存在可能导致错误结论的异常值的情况下,温莎均值可以提供更可靠的检验结果,使其在处理非正态或偏斜数据的假设检验中成为有用的工具。

结论

温莎均值是一种统计测量,旨在通过将指定百分比的极端值或异常值替换为较少极端的值来计算数据集的平均值。这种方法减少了异常值的影响,提供了一个对中心趋势的更稳健估计,其对极端值的敏感性低于传统的算术均值。

参考文献

No references found.