跳到主要内容

自由度_Degrees of Freedom

自由度是什么?

自由度是数据样本中可变化的最大逻辑独立值的数量。计算自由度的方法是从数据样本中项目的数量中减去一。

关键要点

  • 自由度指的是数据样本中可变化的最大逻辑独立值的数量。
  • 自由度的计算方法是从数据样本中的项目数量减去一。
  • 自由度的最早概念可以追溯到19世纪初,数学家和天文学家卡尔·弗里德里希·高斯的作品中有所记载。
  • 自由度通常在统计学的各种假设检验中讨论,例如卡方检验。
  • 自由度也可以描述商业情况下管理层必须做出决策的情形,这些决策决定了其他变量的结果。

理解自由度

自由度是统计分析中可以估计的独立变量的数量,它告知我们在施加约束之前可以随机选择多少项目。

在一个数据集内,一些初始数字可以随机选择。然而,如果数据集必须总和达到特定值或均值,例如,数据集中的数字会受到约束,以评估数据集中其他所有值的值,从而符合设定的要求。

自由度示例

示例1:考虑一个由五个正整数构成的数据样本。这五个整数的平均值必须为六。如果数据集中的四个项目为4,那么第五个数字必须是10。因为前四个数字可以随机选择,因此自由度为四。

示例2:考虑一个由五个正整数构成的数据样本。这些值可以是任何数字,彼此之间没有已知的关系。因为所有五个数字可以随机选择,没有限制,因此自由度为四。

示例3:考虑一个由一个整数构成的数据样本。该整数必须是奇数。由于数据集中单个项目存在约束,自由度为零。

自由度公式

确定自由度的公式为:

Df=N1其中:Df=自由度N=样本大小\begin{aligned} &\text{D}_\text{f} = N - 1 \\ &\textbf{其中:} \\ &\text{D}_\text{f} = \text{自由度} \\ &N = \text{样本大小} \\ \end{aligned}

例如,设想一次选择十名统计打击率必须平均为0.250的棒球运动员的任务。构成我们数据集的总运动员数量为样本大小,所以N = 10。在这个例子中,9名(10 - 1)棒球运动员可以随机挑选,第10名棒球运动员必须具有特定的打击率,以满足0.250的打击率约束。

**重要提示:**某些涉及多个参数或关系的自由度计算使用公式Df = N - P,其中P是不同参数或关系的数量。例如,在一个两样本t检验中,使用N - 2,因为有两个参数需要估计。

应用自由度

在统计学中,自由度定义了在t检验中用于计算p值的t分布的形状。根据样本大小,不同的自由度将显示不同的t分布。当理解卡方统计量的重要性及原假设的有效性时,计算自由度至关重要。

自由度在统计学之外也有概念应用。考虑一家公司决定购买用于生产过程的原材料。公司在这个数据集中有两个项目:需要购买的原材料数量和原材料的总成本。

公司可以自由决定两个项目中的一个,但其选择将决定另一个的结果。因为它只能自由选择两个中的一个,所以在这种情况下它具有一个自由度。如果公司决定原材料的数量,它无法决定总消费金额。通过设定总消费金额,公司可能限制了可购买的原材料数量。

卡方检验

卡方检验有两种不同的类型:独立性检验,询问关系性的问题,例如:“性别和SAT成绩之间是否存在关系?”;以及拟合优度检验,询问类似“如果抛掷一枚硬币100次,正面会出现50次,反面也会出现50次吗?”的问题。

对于这些检验,自由度用于确定是否可以根据实验中的变量和样本总数拒绝原假设。例如,当考虑学生与课程选择时,样本大小为30或40名学生可能不足以生成显著数据。使用样本量为400或500名学生的研究获得相同或相似结果则更具有效性。

t检验

进行t检验时,必须计算样本的t值并与临界值进行比较。临界值会有所不同,可以通过使用数据集的t分布与自由度来确定正确的临界值。

自由度较低的集合极端值的概率较高,而自由度较高的集合,例如至少30的样本大小,则将更接近正态分布曲线。较小的样本大小将对应较小的自由度,导致更胖的t分布尾部。

在上述示例中,许多情况可以视为1样本t检验。例如,“示例1”中五个值被选定,但必须加和达到特定平均值,这可以定义为1样本t检验,因为对变量施加的约束只有一个。

自由度的历史

自由度最早且最基本的概念可以追溯到1800年代初,交织在数学家和天文学家卡尔·弗里德里希·高斯的作品中。现代对这一术语的使用和理解首次由英国统计学家威廉·西利·高塞特在其1908年发表于《生物统计学》中的文章《平均值的可能误差》中详细阐述,发表时使用了笔名以保留其匿名性。[1]

在他的著作中,高塞特并未明确使用“自由度”这一术语。但他在发展后来的“学生t分布”时解释了这一概念。该术语直到1922年才开始流行。英国生物学家和统计学家罗纳德·费舍尔在发布关于他卡方检验工作的数据和报告时,开始使用“自由度”一词。[1]

如何确定自由度?

在确定一组数据的均值时,自由度的计算为该组内项目数量减去一。这是因为在该组内,所有项目可以随机选择,直到剩下一个;那个剩下的项目必须符合给定的平均值。

自由度告诉你什么?

自由度告诉你在遵循给定规则的情况下,数据集内可以选择多少个单位而不受约束。例如,考虑一个求和均值为20的五个项目的数据集。自由度指示在施加约束之前可以随机选择多少个项目(4个)。在这个例子中,一旦前四个项目被选定,你就不再能够随机选择数据点,因为你必须“强制平衡”到给定的均值。

自由度总是1吗?

自由度总是给定数据集内单位数量减去1。之所以总是减去一,是因为如果对数据集施加了参数限制,最后一个数据项目必须为特定值,以便其他所有点符合该结果。

总结

一些统计分析过程中可能需要指示在满足约束要求的情况下,在分析中可以变化的独立值的数量。这个指示就是自由度,即样本大小中可以随机选择的单位数量,直到必须选择特定值为止。

参考文献

[1] Biometrika. "The Probable Error of a Mean."