跳到主要内容

残差平方和_Residual Sum of Squares

什么是残差平方和(RSS)?

残差平方和(RSS)是一种统计技术,用于测量回归模型未能解释的数据集中的方差量。它估计的是残差或误差项的方差。

线性回归是一种测量方法,帮助确定因变量与一个或多个其他因素之间的关系强度,这些其他因素被称为自变量或解释变量。

关键要点

  • 残差平方和(RSS)衡量回归模型中误差项或残差的方差水平。
  • 残差平方和越小,模型对数据的拟合效果越好;反之,越大则效果越差。
  • 当RSS值为零时,意味着模型完美拟合数据。
  • 投资者和投资组合经理使用统计模型来追踪投资价格,并利用这些数据预测未来走势。
  • 财务分析师使用RSS来估计经济计量模型的有效性。

理解残差平方和(RSS)

一般来说,平方和是一种用于回归分析的统计技术,用来确定数据点的离散程度。在回归分析中,目标是确定数据序列在多大程度上可以拟合一个函数,以解释该数据序列的生成方式。平方和为寻找最适合(变化最小)的函数提供了一种数学方法。

RSS度量的是在模型运行后,回归函数与数据集之间剩余的误差量。较小的RSS数值表示回归函数与数据的拟合度较好。

RSS,也被称为平方残差和,基本上决定了回归模型在多大程度上解释或代表了模型中的数据。

如何计算残差平方和

残差平方和(RSS)与残差标准误(RSE)

残差标准误(RSE)是另一种统计术语,用于描述观察值与预测值之间的标准差差异,表现为回归分析中的点位。它是一种拟合优度的度量,可以用来分析一组数据点与实际模型的拟合程度。

RSE的计算方法是将RSS除以样本中的观察数量减去2,然后取平方根:RSE = [RSS/(n-2)]1/2

最小化RSS以实现最佳拟合

在回归分析领域,最小化残差平方和对于实现模型与数据的最佳拟合至关重要。为此,各种技术中,最基本且广泛使用的方法就是最小二乘回归。

最小二乘回归旨在找到一条或一条曲线,以最小化平方差的总和。这些差异是观察值与模型预测值之间的差异。本质上,最小二乘回归试图在捕捉数据的基本趋势与最小化观察值和预测值之间的差距之间取得平衡。

通过最小二乘回归来最小化RSS的过程涉及对模型参数进行迭代调整,直到实现最佳拟合。对于简单线性回归模型,这通常意味着寻找最佳拟合数据的线的斜率和截距。在更复杂的情况下,此过程变得更加复杂,但许多原则仍然相同。

RSS的局限性

RSS存在一些局限性。首先,RSS对所有残差赋予了相等的权重。这意味着离群值可能会对RSS产生不成比例的影响,导致估计的系数可能产生负偏倚。另一个缺点是RSS依赖于多个假设。如果任一假设(如线性、误差独立性或同方差性)被违反,RSS可能导致偏倚的估计和错误的推论。

尽管RSS在评估单个模型的拟合度时很有用,但单凭RSS对多个模型的拟合做比较可能会很困难。这是因为RSS依赖于模型中的参数数量。因此,它并不真正适用于比较参数数量不同的模型。

最后,虽然RSS易于计算和解释,但它对数据的潜在结构提供的见解有限。在理解预测变量与响应变量之间的关系很重要的情况下,可能存在更好的度量方法。从某种意义上说,RSS在某种程度上像一个黑箱,关系并不完全清楚,只有最终值最为重要。

特别考虑

金融市场愈发依赖定量分析,因此,为了寻找优势,许多投资者正在使用先进的统计技术来辅助决策。大数据、机器学习和人工智能应用进一步促使统计属性在当代投资策略中的使用。残差平方和——RSS统计量是众多享受复兴的统计属性之一。

投资者和投资组合经理使用统计模型追踪投资价格,并利用这些数据预测未来的走势。这门研究——称为回归分析——可能涉及分析商品价格变动与从事生产商品的公司的股票之间的关系。

注: 手动计算残差平方和可能既困难又耗时。由于涉及大量的减法、平方和求和,这些计算容易出错。因此,你可能决定使用软件(如Excel)来进行计算。

任何模型的预测值与实际结果之间可能会存在差异。尽管这些差异可能通过回归分析进行解释,但RSS表示的是那些未能被解释的方差或误差。

由于足够复杂的回归函数可以与几乎任何数据集密切吻合,因此需要进一步研究以确定回归函数在解释数据集方差方面是否实际有效。

然而,通常情况下,对于任何模型而言,较小或较低的RSS值是理想的,因为这意味着数据集中的变异性较小。换句话说,残差平方和越低,回归模型越能解释数据。

RSS示例

为了简单(但较长)地演示RSS计算,考虑一个国家消费者支出与其GDP之间的著名相关性。以下图表反映了欧盟27个成员国的消费者支出和国内生产总值的发布值。请注意,这些信息可能自发布以来略有变化,但残差平方和的示例依然有效。

| 消费者支出与GDP(EU成员国) | |---|---| | 国家 | 消费者支出(百万) | GDP(百万) | | 奥地利 | 309,018.88 | 433,258.47 | | 比利时 | 388,436.00 | 521,861.29 | | 保加利亚 | 54,647.31 | 69,889.35 | | 克罗地亚 | 47,392.86 | 57,203.78 | | 塞浦路斯 | 20,592.74 | 24,612.65 | | 捷克共和国 | 164,933.47 | 245,349.49 | | 丹麦 | 251,478.47 | 356,084.87 | | 爱沙尼亚 | 21,776.00 | 30,650.29 | | 芬兰 | 203,731.24 | 269,751.31 | | 法国 | 2,057,126.03 | 2,630,317.73 | | 德国 | 2,812,718.45 | 3,846,413.93 | | 希腊 | 174,893.21 | 188,835.20 | | 匈牙利 | 110,323.35 | 155,808.44 | | 爱尔兰 | 160,561.07 | 425,888.95 | | 意大利 | 1,486,910.44 | 1,888,709.44 | | 拉脱维亚 | 25,776.74 | 33,707.32 | | 立陶宛 | 43,679.20 | 56,546.96 | | 卢森堡 | 35,953.29 | 73,353.13 | | 马耳他 | 9,808.76 | 14,647.38 | | 荷兰 | 620,050.30 | 913,865.40 | | 波兰 | 453,186.14 | 596,624.36 | | 葡萄牙 | 190,509.98 | 228,539.25 | | 罗马尼亚 | 198,867.77 | 248,715.55 | | 斯洛伐克 | 83,845.27 | 105,172.56 | | 斯洛文尼亚 | 37,929.24 | 53,589.61 | | 西班牙 | 997,452.45 | 1,281,484.64 | | 瑞典 | 382,240.92 | 541,220.06 |

消费者支出与GDP之间存在强正相关,因此可以根据消费者支出预测一个国家的GDP。使用最佳拟合线的公式,这一关系可以近似表示为:

GDP和消费者支出的单位都是以百万美元计。

这个公式在大多数情况下高度准确,但由于每个国家经济的个体变异性,它并不完美。以下图表比较了基于上述公式的各国Projected GDP与世界银行记录的Actual GDP。

| 欧盟成员国的Projected和Actual GDP及残差平方 | |---|---|---|---| | 国家 | 消费者支出最新值(百万) | GDP最新值(百万) | Projected GDP(基于趋势线) | 残差平方(Projected - Real)^2 | | 奥地利 | 309,018.88 | 433,258.47 | 419,340.782016 | 193,702,038.819978 | | 比利时 | 388,436.00 | 521,861.29 | 524,425.52 | 6,575,250.87631504 | | 保加利亚 | 54,647.31 | 69,889.35 | 82,756.320592 | 165,558,932.215393 | | 克罗地亚 | 47,392.86 | 57,203.78 | 73,157.232352 | 254,512,641.947534 | | 塞浦路斯 | 20,592.74 | 24,612.65 | 37,695.313568 | 171,156,086.033474 | | 捷克共和国 | 164,933.47 | 245,349.49 | 228,686.967504 | 277,639,655.929706 | | 丹麦 | 251,478.47 | 356,084.87 | 343,203.311504 | 165,934,549.28587 | | 爱沙尼亚 | 21,776.00 | 30,650.29 | 39,261.00 | 74,144,381.8126542 | | 芬兰 | 203,731.24 | 269,751.31 | 280,024.176768 | 105,531,791.633079 | | 法国 | 2,057,126.03 | 2,630,317.73 | 2,732,436.162896 | 10,428,174,337.1349 | | 德国 | 2,812,718.45 | 3,846,413.93 | 3,732,236.05304 | 13,036,587,587.0929 | | 希腊 | 174,893.21 | 188,835.20 | 241,865.695472 | 2,812,233,450.00581 | | 匈牙利 | 110,323.35 | 155,808.44 | 156,426.85672 | 382,439.239575558 | | 爱尔兰 | 160,561.07 | 425,888.95 | 222,901.407824 | 41,203,942,278.6534 | | 意大利 | 1,486,910.44 | 1,888,709.44 | 1,977,926.894208 | 7,959,754,135.35658 | | 拉脱维亚 | 25,776.74 | 33,707.32 | 44,554.782368 | 117,667,439.825176 | | 立陶宛 | 43,679.20 | 56,546.96 | 68,243.32 | 136,804,777.364243 | | 卢森堡 | 35,953.29 | 73,353.13 | 58,020.393328 | 235,092,813.852894 | | 马耳他 | 9,808.76 | 14,647.38 | 23,425.951232 | 77,063,312.875298 | | 荷兰 | 620,050.30 | 913,865.40 | 830,897.56 | 6,883,662,978.71 | | 波兰 | 453,186.14 | 596,624.36 | 610,102.900448 | 181,671,052.608372 | | 葡萄牙 | 190,509.98 | 228,539.25 | 262,529.805536 | 1,155,357,865.6459 | | 罗马尼亚 | 198,867.77 | 248,715.55 | 273,588.833264 | 618,680,220.331183 | | 斯洛伐克 | 83,845.27 | 105,172.56 | 121,391.061264 | 263,039,783.25037 | | 斯洛文尼亚 | 37,929.24 | 53,589.61 | 60,634.970368 | 49,637,102.7149851 | | 西班牙 | 997,452.45 | 1,281,484.64 | 1,330,276.08184 | 2,380,604,796.8261 | | 瑞典 | 382,240.92 | 541,220.06 | 516,228.185344 | 624,593,798.821215 |

右侧一列表示残差平方——每个预测值与其实际值之间的平方差。虽然这些数字看起来很大,但它们的总和实际上低于任何其他可能的趋势线的RSS。如果不同的趋势线具有更低的RSS,那么该趋势线将是最佳拟合线。

残差平方和是否等同于R平方?

残差平方和(RSS)是绝对解释变异量,而R平方是总变异的绝对量与总变异量的比例。

RSS是否等同于平方误差的平方和(SSE)?

残差平方和(RSS)也被称为平方误差的平方和(SSE)。

残差平方和与总平方和的区别是什么?

总平方和(TSS)测量观察数据中存在的变异量,而残差平方和测量观察数据与建模值之间的误差变异。在统计学中,残差平方和与总平方和(TSS)的值常常进行比较。

残差平方和可以为零吗?

残差平方和可以为零。残差平方和越小,模型对数据的拟合效果越好;反之,越大则效果越差。零的值意味着模型完美拟合。

总结

残差平方和量化了观察数据点与回归模型所做预测之间的差异,计算方法是所有残差平方和的总和。最小化RSS是回归分析的基本目标,因为它表示模型准确捕捉数据变异性的程度。

参考文献

[1] World Bank. "GDP (Current US$) – European Union."

[2] World Bank. "Final Consumption Expenditure (Current $) – European Union."