跳到主要内容

峰度_Kurtosis

什么是峰度?

峰度是一种统计度量,用于描述数据集的特征。当正态分布的数据被绘制在图表上时,通常呈现出钟形曲线,这被称为“钟形曲线”。在曲线两侧的尾部通常是与数据均值距离较远的已绘制数据。峰度指示数据在尾部的分布程度。

关键要点

  • 峰度描述概率分布中尾部的“肥厚”程度。
  • 峰度主要分为三类:中峰态(mesokurtic,正常)、平峰态(platykurtic,低于正常)和尖峰态(leptokurtic,高于正常)。
  • 峰度风险是衡量投资价格剧烈波动频率的指标。
  • 曲线的峰度特征告诉我们所评估投资的峰度风险有多大。

理解峰度

峰度是相对于分布曲线中心(均值)的尾部重的综合度量。例如,当一组近似正态的数据通过直方图绘制时,它显示出一个钟形峰,大部分数据位于均值的三倍标准差范围之内。然而,当高峰度存在时,尾部会延伸得超过正态钟形分布的三倍标准差。

峰度有时与分布的尖锐程度混淆。然而,峰度是一个描述分布尾部形状相对于整体形状的度量。一个分布可以是尖锐的同时具有低峰度,而另一个分布可以有较低的峰值但高峰度。因此,峰度测量的是“尾部性”,而不是“尖锐性”。

具有高峰度的分布尾部数据较多,看起来阳光般地向均值靠拢。具有低峰度的分布尾部数据较少,使得钟形曲线的尾部向均值推开。

对于投资者来说,回报分布曲线的高峰度意味着在过去,投资的平均回报频繁出现剧烈的价格波动(无论是正向还是负向)。因此,投资者可能会在高峰度投资中经历极端的价格波动。这种现象被称为峰度风险。

峰度的公式与计算

计算峰度的方法有多种,最简单的方法是使用Excel或Google Sheets公式。例如,假设您在电子表格的A1到A10单元格中有以下样本数据:4、5、6、3、4、5、6、7、5和8。电子表格使用以下公式计算峰度:1

n(n+1)(n1)(n2)(n3)×(xixˉs)43(n1)2(n2)(n3)\begin{aligned}& \frac { n ( n + 1 ) }{ (n - 1)(n - 2)(n - 3) } \times \Big ( \sum \frac { x_i - \bar{x} }{ s } \Big ) ^ 4 - \frac { 3 (n - 1) ^ 2 }{ (n - 2)(n - 3)} \\\end{aligned}

不过,我们将使用Google Sheets中的以下公式,它会为我们计算,假设数据位于A1到A10单元格:2

=KURT(A1:A10)\begin{aligned}&= \text{KURT(A1:A10)} \\\end{aligned}

结果为-0.1518,表明该曲线具有较轻的尾部,属于平峰态分布。

手动计算峰度是一项繁琐的任务,需要几个步骤才能得出结果。为了简化计算,我们将使用新的数据点并限制其数量。新的数据点为27、13、17、57、113和25。

重要提示: 请注意,样本量应大于此;我们使用六个数字来减少计算步骤。一个好的经验法则是,对于不足1000的人口,使用30%的数据;对于较大的人口,则可使用10%。[3]

首先,需要计算均值。将数字相加并除以六,得到42。接下来,使用以下公式计算两个和:s2(与均值的偏差的平方)和s4(与均值的偏差的四次方)。请注意,这些数字不代表标准差;而是代表每个数据点的方差。[4][5]

s2=(yiyˉ)2s4=(yiyˉ)4其中:yi=样本的第i个变量yˉ=样本的均值\begin{aligned}&\text{s2} = \sum ( y_i - \bar{y} ) ^ 2 \\&\text{s4} = \sum ( y_i - \bar{y} ) ^ 4 \\&\textbf{其中:} \\&y_i = \text{样本的第i个变量} \\&\bar{y} = \text{样本的均值} \\\end{aligned}

要得到s2,使用每个变量,减去均值,然后平方结果。将所有结果相加:

(2742)2=(15)2=225(1342)2=(29)2=841(1742)2=(25)2=625(5742)2=(15)2=225(11342)2=(71)2=5,041(2542)2=(17)2=289225+841+625+225+5,041+289=7,246\begin{aligned}&(27 - 42) ^ 2 = (-15) ^ 2 = 225 \\&(13 - 42) ^ 2 = (-29) ^ 2 = 841 \\&(17 - 42) ^ 2 = (-25) ^ 2 = 625 \\&(57 - 42) ^ 2 = (15) ^ 2 = 225 \\&(113 - 42) ^ 2 = (71) ^ 2 = 5,041 \\&(25 - 42) ^ 2 = (-17) ^ 2 = 289 \\&225 + 841 + 625 + 225 + 5,041 + 289 = 7,246 \\\end{aligned}

要得到s4,使用每个变量,减去均值,然后将结果提升到四次方。将所有结果相加:

(2742)4=(15)4=50,625(1342)4=(29)4=707,281(1742)4=(25)4=390,625(5742)4=(15)4=50,625(11342)4=(71)4=25,411,681(2542)4=(17)4=83,52150,625+707,281+390,625+50,625+25,411,681+83,521=26,694,358\begin{aligned}&(27 - 42) ^ 4 = (-15) ^ 4 = 50,625 \\&(13 - 42) ^ 4 = (-29) ^ 4 = 707,281 \\&(17 - 42) ^ 4 = (-25) ^ 4 = 390,625 \\&(57 - 42) ^ 4 = (15) ^ 4 = 50,625 \\&(113 - 42) ^ 4 = (71) ^ 4 = 25,411,681 \\&(25 - 42) ^ 4 = (-17) ^ 4 = 83,521 \\&50,625 + 707,281 + 390,625 + 50,625 + 25,411,681 \\&+ 83,521 = 26,694,358 \\\end{aligned}

因此,我们的和为:

s2=7,246s4=26,694,358\begin{aligned}&\text{s2} = 7,246 \\&\text{s4} = 26,694,358 \\\end{aligned}

现在,计算m2和m4,峰度公式的第二和第四动量:

m2=s2n=7,2466=1,207.67\begin{aligned}\text{m2} &= \frac { \text{s2} }{ n } \\&= \frac { 7,246 }{ 6} \\& = 1,207.67 \\\end{aligned}

m4=s4n=26,694,3586=4,449,059.67\begin{aligned}\text{m4} &= \frac { \text{s4} }{ n } \\&= \frac { 26,694,358 }{ 6} \\& = 4,449,059.67 \\\end{aligned}

我们现在可以使用许多统计教材中找到的公式计算峰度,该公式假设标准正态分布的峰度为零:

k=m4m223其中:k=峰度m4=四阶动量m2=二阶动量\begin{aligned}&k = \frac { \text{m4} }{ \text{m2} ^ 2 } - 3 \\&\textbf{其中:} \\&k = \text{峰度} \\&\text{m4} = \text{四阶动量} \\&\text{m2} = \text{二阶动量} \\\end{aligned}

因此,该样本变量的峰度为:

4,449,059.671,458,466.833=.05\begin{aligned}&\frac { 4,449,059.67 }{ 1,458,466.83 } - 3 = .05 \\\end{aligned}

峰度的类型

数据可以显示三类峰度:中峰态、尖峰态和平峰态。所有峰度度量均以正态分布曲线为基础进行比较。

第一类峰度是中峰态分布。此分布的峰度与正态分布相似,这意味着该分布的极值特征与正态分布相似。因此,具有中峰态分布的股票通常表示适中的风险水平。

第二类是尖峰态分布。任何尖峰态分布的峰度均大于中峰态分布。该分布呈现出具有长尾巴(离群值)的曲线。尖峰态分布的“瘦”是离群值的结果,拉伸了直方图图形的水平轴,使数据的大部分集中在一个狭窄(“瘦”)的垂直范围内。

具有尖峰态分布的股票通常表现出较高的风险,但也有更高回报的可能性,因为这类股票通常显示出较大价格波动。

注意: 尽管尖峰态分布的中心可能是“瘦”的,但它也特征明显的“肥尾”。

最后一类是平峰态分布。这种类型的分布具有短尾(更少的离群值)。平峰态分布比其他曲线表现出更大的稳定性,因为过去很少出现极端价格波动。这转而意味其风险水平低于中等。

峰度与偏度的对比

峰度和偏度都是用于描述概率分布形状的统计度量,但它们关注的方面不同。峰度衡量的是分布的尾部特征,而偏度衡量的是分布的非对称性。

偏度指示数据偏离对称钟形曲线的方向和程度。零偏度的分布是完全对称的,这意味着分布的左侧和右侧是镜像的。正偏度表示右尾较长或较大,暗示数据有上升值的趋势。负偏度表明左尾较长或较大,暗示数据有下降值的趋势。

偏度侧重于数据围绕均值的平衡,而峰度侧重于分布的峰值和尾部的重。一个数据集可以有高峰度和许多离群值,但仍然是对称的,因此零偏度。另一方面,数据集可以呈现正或负偏度,但具有低峰度,这表明极端值较少。

使用峰度

在金融分析中,峰度用于衡量投资的价格波动风险。峰度衡量投资价格经历的波动程度。回报分布中的高峰度意味着投资偶尔会产生极端回报。需要注意的是,这可以是双向的——意味着高峰度指示了大额正回报或极端负回报。

例如,假设一只股票的平均价格为每股$25.85。如果股票的价格波动大且频繁,钟形曲线就会有较重的尾部(高峰度)。这意味着股票价格存在大量变化——投资者应预计会有广泛的价格波动。

另一方面,低峰度值的投资组合表示更稳定和可预测的回报特征,这可能意味着较低的风险。从这个意义上说,投资者在构建更安全、波动性较低的投资组合时,可能会有意寻找较低峰度值的投资。

峰度还可以用于策略性地实施投资配置方法。例如,专注于价值投资的投资组合经理可能更喜欢投资于负峰度值的资产,因为负峰度值表示一个扁平的分布,更多的是小额回报。相反,专注于动量投资的投资组合经理可能更愿意投资于具有正峰度值的资产,因为这表明回报波动较大但金额较高的分布。

峰度与其他常用测量指标的对比

峰度风险与更常用的测量指标不同。阿尔法(Alpha)衡量相对于基准指数的超额回报。而峰度测量的是分布的峰度或扁平性特征,阿尔法则衡量分布的偏度或非对称性。

贝塔(Beta)衡量相对于广泛市场的股票波动性。每个证券或投资都有单一的贝塔值,指示该证券相较于市场基准的波动性。再次强调,贝塔衡量的是分布的非对称程度,而峰度则测量分布的峰值或扁平性。

R平方(R-squared)衡量投资组合或基金的波动中有多少可以用基准来解释。尽管R平方在回归分析中用于评估回归模型的拟合优度,但峰度则用于描述统计数据以描绘分布形状。

最后,夏普比率(Sharpe Ratio)比较回报与风险。夏普比率用于帮助投资者更好地理解他们所获得的回报水平是否与所承担的风险水平相匹配。虽然峰度分析数据集的分布,但夏普比率更常用于评估投资表现。

为什么峰度很重要?

峰度解释了在某些数据集中观察值在概率分布的尾部与中心落入的频率。在金融和投资中,超额峰度被解释为一种被称为尾部风险的风险类型,或因罕见事件造成损失发生的机会,正如由概率分布所预测的。如果此类事件比分布所预测的更常见,那么这些尾部则被称为“肥尾”。

峰度在金融中的应用

在金融中,峰度用于通过分析回报分布的尾部特征来评估投资组合中极端回报的风险。较高的峰度意味着显著偏离均值的概率更高。这意味着具有较高峰度的投资更有可能偏离其平均回报。

高峰度是好是坏?

较高的峰度本身并不一定是好或坏的;这取决于上下文以及投资者的风险承受能力。例如,较高的峰度表示更频繁的极端值或离群点,这可能意味着更高的风险和潜在的大额收益或损失。对一些投资者来说,这是好事;而对其他投资者来说则可能是坏事。

什么是超额峰度?

超额峰度将峰度系数与正态分布的峰度进行比较。大多数正态分布被假设具有三的峰度,因此超额峰度将高于或低于三。然而,一些模型假设正态分布的峰度为零,因此超额峰度将高于或低于零。[5]

峰度与偏度相同吗?

不相同。峰度度量的是概率分布中数据在中间(均值)与尾部之间的分布情况。而偏度则测量分布围绕均值的相对对称性。

结论

峰度描述了概率分布有多少落在尾部而不是中心。在正态分布中,峰度等于三(或在某些模型中为零)。正或负的超额峰度将相应地改变分布的形状。

对于投资者来说,峰度在理解尾部风险(或“不频繁”事件发生的频率)方面非常重要,尤其是在对价格回报的分布有假设时。

参考文献

[1] Microsoft Support. “KURT Function.”

[2] Google Docs Editors Help. “KURT.”

[3] St. Olaf College. “Sample Size.”

[4] Statistics Canada. “4.5.3 Calculating the Variance and Standard Deviation.”

[5] University of California Los Angeles, Statistical Consulting Web Resources. “FAQ: What’s with the Different Formulas for Kurtosis?