跳到主要内容

中心极限定理_Central Limit Theorem

什么是中心极限定理(CLT)?

在概率论中,中心极限定理(CLT)指出,随着样本量的增大,样本变量的分布趋近于正态分布(即“钟形曲线”),无论总体的实际分布形状如何。

换句话说,CLT是一个统计前提,即从具有有限方差的人群中获取足够大的样本量时,所选样本变量的均值将近似等于整个总体的均值。此外,随着样本量的增加,这些样本还近似正态分布,其方差也将趋近于总体的方差,这一切都符合大数法则。

尽管这一概念最早是由亚伯拉罕·德·莫夫尔于1733年提出的,但直到1920年,匈牙利数学家乔治·波利亚才正式将其称为中心极限定理。[1]

关键要点

  • 中心极限定理(CLT)指出,样本均值的分布随着样本量的增加而近似正态分布,无论总体分布如何。
  • 通常,样本量在30或更大时被视为使CLT成立的充分条件。
  • CLT的一个关键方面是样本均值和标准差的平均值将等于总体均值和标准差。
  • 足够大的样本量可以更准确地预测总体特征。
  • 在金融领域,中心极限定理在分析大量证券以估计投资组合分布和收益、风险、相关性特征时非常有用。

理解中心极限定理(CLT)

根据中心极限定理,随着样本量的增加,数据样本的均值将更接近于所讨论总体的均值,而不论数据的实际分布是什么。换句话说,无论数据分布是正常的还是异常的,数据都是准确的。

通常,样本量在30左右通常被认为是使CLT成立的足够条件,这意味着样本均值的分布相对接近正态分布。因此,样本越多,绘制的结果越呈现出正态分配的形状。[3]

中心极限定理通常与大数法则一起使用,大数法则指出,随着样本量的增加,样本均值的平均值将越来越接近总体均值,这对于准确预测总体特征极为有用。

中心极限定理的关键组成部分

中心极限定理由多个关键特征组成。这些特征主要围绕样本、样本量和数据总体展开。

中心极限定理在金融中的应用

CLT在考察个股或更广泛指数的收益时非常有用,因为分析相对简单,生成所需的财务数据也相对容易。因此,各类投资者依赖于CLT来分析股票回报、构建投资组合和管理风险。

举例来说,如果投资者希望分析由1000只股票组成的股票指数的整体回报,该投资者可以随机抽取一部分股票来估算整个指数的预期回报。为了确保可靠性,应该至少抽取30至50只来自不同板块的随机股票,以使中心极限定理成立。此外,之前选定的股票应被不同的名字替换,以帮助消除偏差。

为什么中心极限定理如此有用?

中心极限定理在分析大型数据集时非常有用,因为它允许人们假设样本均值的抽样分布在大多数情况下将呈正态分布。这使得统计分析和推断变得更为简单。例如,投资者可以利用中心极限定理将单个证券的表现数据进行汇总,并生成代表整体证券回报分布的样本均值分布。

为什么中心极限定理的最小样本量为30?

在统计学中,样本量30被视为应用中心极限定理的常见最小值。[6]样本量越高,样本越可能代表总体数据集。

中心极限定理的公式是什么?

中心极限定理在实际应用中并没有特定的公式。其原则简单适用。只要样本量足够大,样本分布就会近似于正态分布,样本均值也将接近总体均值。因此,如果我们的样本量至少为30,就可以开始将数据分析视为符合正态分布。

参考文献

[1] Hans Fischer. "A History of the Central Limit Theorem." Page 1. Springer, 2011.

[2] Stark, Benjamin A. "Studying Moments of the Central Limit Theorem." The Mathematics Enthusiast, Vol 14, No. 1, 2017, pp. 53-76.

[3] Boston University School of Public Health. "Central Limit Theorem."

[4] University of Massachusetts Amherst. "What Is Central Limit Theorem? Properties, Best Practices, Examples & Everything To Know."

[5] Emory University. "Final Summary The Central Limit Theorem."

[6] Chang, H. J., K. Huang, and C. Wu. "Determination of Sample Size in Using Central Limit Theorem for Weibull Distribution." International Journal of Information and Management Sciences, Vol. 17, No. 3. 2006, pp. 153-174.