跳到主要内容

平方和_Sum of Squares

什么是平方和?

平方和是一个用于回归分析的统计指标,用于确定数据点的离散程度。平方和可以通过最小化与数据的偏差来寻找最适合的函数。

在回归分析中,目标是确定数据序列如何能很好地拟合可能有助于解释数据序列生成方式的函数。平方和在金融领域也可用于确定资产价值的方差。

关键要点

  • 平方和衡量数据点与平均值的偏离程度。
  • 较高的平方和表示较高的变异性,而较低的结果表示与均值的变异性较小。
  • 计算平方和的方法是:从数据点中减去均值,平方差值,然后将其相加。
  • 平方和有三种类型:总平方和、残差平方和和回归平方和。
  • 投资者可以利用平方和帮助做出更好的投资决策。

理解平方和

平方和衡量了一组数据点相对于均值的分散程度。它也被称为变异性。通过将每个数据点的平方差相加来计算平方和。要确定平方和,可将每个数据点与最佳拟合线之间的距离平方后相加。最佳拟合线将使该值最小化。

平方和较低意味着数据集之间的变异性较小,而较高则表示变异性较大。变异性是指每个数据集与均值之间的差异。您可以在图表中可视化这一点。如果直线不经过所有数据点,则存在一些无法解释的变异性。对于这一点,下一节会详细说明。

在统计学中,平方和用于计算数据集的方差和标准差,而这两个指标又用于回归分析。分析师和投资者可以利用这些技术做出更好的投资决策。不过,请记住,使用这些指标是基于对历史表现的假设。例如,此指标可以帮助您确定股票价格的波动性,或比较两家公司的股价。

假设分析师想知道微软(MSFT)的股价是否倾向于与苹果(AAPL)的股价一起变动。分析师可以列出在某一特定时间段(例如一年、两年或十年)内两只股票的每日价格,并创建线性模型或图表。如果两个变量(即AAPL和MSFT的价格)之间的关系不是直线,那么数据集中必须仔细审查存在的变异性。

平方和公式

以下是总平方和的公式。

对于一组 X,包含 n 项:平方和=i=0n(XiX)2其中:Xi=第 ith 项X=该组所有项的均值(XiX)=每项与均值的偏差\begin{aligned} &\text{对于一组 } X \text{,包含 } n \text{ 项:}\\ &\text{平方和}=\sum_{i=0}^{n}\left(X_i-\overline{X}\right)^2\\ &\textbf{其中:}\\ &X_i=\text{第 } i^{th} \text{ 项}\\ &\overline{X}=\text{该组所有项的均值}\\ &\left(X_i-\overline{X}\right) = \text{每项与均值的偏差}\\ \end{aligned}

重要提示: 变异性是一个通过使用平方差计算或测量的统计指标。

如何计算平方和

可以理解为什么这个测量称为平方偏差之和,简称平方和。可以通过以下步骤来计算平方和:

在统计学中,均值是一个数值集的平均值,计算方法是将数据集中的值相加,并除以值的数量。然而,仅知道均值可能不足以理解数据并得出结论。因此,了解测量集中的变异性是很有帮助的。单个值与均值之间的距离可能会提供存在多少变异性的洞察,以及这些值与回归线的拟合程度。

平方和的类型

我们之前提到的公式用于计算总平方和。总平方和将用于推导出其他类型的平方和。以下是其他类型的平方和。

如上所述,如果创建的线性模型中的直线未经过所有的价值测量,则观察到的股票价格的某些变异性无法解释。平方和用于计算两个变量之间是否存在线性关系,任何无法解释的变异性被称为残差平方和。

残差平方和(RSS)允许您确定回归函数与数据集之间的误差量,回归模型运行后产生的。如果RSS值较小,可以解释为回归函数与数据匹配良好,而较大的RSS值则表明模型与数据不匹配。

以下是计算残差平方和的公式:

SSE=i=1n(yiy^i)2其中:yi=观察值y^i=由回归线估计的值\begin{aligned}&\text{SSE} = \sum_{i = 1}^{n} (y_i - \hat{y}_i)^2 \\&\textbf{其中:} \\&y_i = \text{观察值} \\&\hat{y}_i = \text{由回归线估计的值} \\\end{aligned}

回归平方和用于表示模型数据与回归模型之间的关系。回归模型确定了一个或多个变量之间是否存在关系。较低的回归平方和表明与数据的拟合程度较好,而较高的回归平方和则意味着模型与数据不匹配。

SSR=i=1n(y^iyˉ)2其中:y^i=由回归线估计的值yˉ=样本的均值\begin{aligned}&\text{SSR} = \sum_{i = 1}^{n} (\hat{y}_i - \bar{y})^2 \\&\textbf{其中:} \\&\hat{y}_i = \text{由回归线估计的值} \\&\bar{y} = \text{样本的均值} \\\end{aligned}

提示: 单独相加偏差的总和而不平方,得到的数字将等于或接近零,因为负偏差几乎完全抵消正偏差。为了得到一个更现实的数值,必须将偏差平方。由于任何数字的平方,无论是正数还是负数,都是正数,因此平方和将始终是正数。

使用平方和的局限性

作出购买哪只股票的投资决策需要比这里列出的更多观察。分析师可能需要处理多年的数据,以更高的确定性知道资产的变异性有多高。随着数据点的增加,平方和将变得更大,因为值会更加分散。

最常用的变异性测量是标准差和方差。然而,要计算这两个指标,必须首先计算平方和。方差是平方和的平均值(即平方和除以观察值的数量)。标准差是方差的平方根。

有两种回归分析方法使用平方和:

  • 线性最小二乘法
  • 非线性最小二乘法

最小二乘法是指回归函数最小化与实际数据点variance的平方和。通过这种方式,可以绘制出在统计上为数据提供最佳拟合的函数。请注意,回归函数可以是线性的(直线)或非线性的(曲线)。

平方和示例

让我们以微软为例,展示如何计算平方和。

按照上述步骤,我们收集数据。如果我们查看公司在五年内的表现,我们需要那个时间框架内的收盘价格:

  • $74.01
  • $74.77
  • $73.94
  • $73.61
  • $73.40

现在我们来计算平均价格。总价格之和为369.73,均值或平均价格为369.73��,均值或平均价格为369.73 ÷ 5 = $73.95。

然后,进行平方和计算,我们找到每个价格与平均值的差异,平方差值并相加:

  • SS = (74.0174.01 - 73.95)² + (74.7774.77 - 73.95)² + (73.9473.94 - 73.95)² + (73.6173.61 - 73.95)² + (73.4073.40 - 73.95)²
  • SS = (0.06)² + (0.82)² + (-0.01)² + (-0.34)² + (-0.55)²
  • SS = 1.0942

在上述示例中,1.0942显示出在五天内MSFT的股票价格变异性很低,寻求投资于价格稳定和低波动性股票的投资者可能会选择微软。

如何定义平方和?

平方和是一种回归分析形式,用于确定数据点与均值的方差。如果平方和较低,则意味着变异性较低;而较高的平方和则表明变异性较高。这可以用于帮助做出更明智的决策,通过确定投资的波动性,或比较不同投资组之间的关系。

如何计算平方和?

要计算平方和,首先收集所有数据点。然后通过将它们相加并除以数据点的总数来确定均值或平均值。接下来,计算每个数据点与均值之间的差异。然后对这些差异进行平方,并将它们相加,得出平方和。

平方和在金融中的帮助

投资者和分析师可以利用平方和在不同投资之间进行比较或做出投资决策。例如,可以使用平方和来确定股票的波动性。较低的平方和通常表示低波动,而较高的波动性则源于更高的平方和。

结论

作为投资者,您希望对资金的去向做出明智的决策。虽然您可以依靠直觉做出选择,但有一些工具可以帮助您。平方和利用历史数据为您提供隐含波动性的指示。借助这个指标,您可以判断某只股票是否适合您,或确定在两种不同资产间犹豫不决时的投资选择。不过,请注意,平方和利用历史表现作为指标,并不能保证未来的表现。

修正——2023年5月18日:本文的早期版本错误地表述了平方和的计算方式,现已更正为应从数据点中减去均值。

参考文献

No references found.