跳到主要内容

P 值_P-Value

什么是 P 值?

在统计学中,P 值被定义为在原假设为真的条件下,获得一个等于或大于观察结果的值的可能性。

P 值作为拒绝点的替代,提供了拒绝原假设的最小显著性水平。较小的 P 值意味着更强的证据支持替代假设。

P 值经常被用于提高政府机构研究或报告的可信度。例如,美国人口普查局规定,任何 P 值大于 0.10 的分析必须附带说明,表明该差异在统计学上与零没有显著不同。人口普查局还有关于不同出版物可接受的 P 值的标准。

主要观点

  • P 值是一种用于验证假设与观察数据之间关系的统计测量。
  • P 值衡量在假设原假设为真时,获得观察结果的概率。
  • P 值越小,观察到的差异在统计上越显著。
  • P 值为 0.05 或更低通常被视为在统计上显著。
  • P 值可以作为假设检验的替代,或与预先选定的置信水平共同使用。

理解 P 值

P 值通常是通过统计软件或基于假设或已知概率分布的 P 值表计算得出的。虽然样本大小影响观察数据的可靠性,但 P 值的假设检验方法特别涉及根据观察值与选择的参考值之间的偏差来计算 P 值,同时考虑统计的概率分布。两个值之间的差异越大,P 值就越低。

在数学上,P 值是通过对概率分布曲线下的面积进行积分计算得出的,面积包括所有统计值,至少有与观察值一样远离参考值的值,这与概率分布曲线下的总面积相比。标准差在这一计算中非常重要,因为它量化了数据点与均值之间的离散程度。

P 值的计算依据于所执行测试的类型。三种测试类型描述了在概率分布曲线上的位置:左尾检验、右尾检验或双尾检验。在每种情况下,自由度在决定分布形状和计算 P 值中起着关键作用。

简而言之,两个观察值之间的差异越大,该差异因随机机会造成的可能性就越小,而这将反映为一个较低的 P 值。

P 值在假设检验中的应用

P 值在假设检验中的应用利用计算出的概率来判断是否存在证据以拒绝原假设。此判断在很大程度上依赖于测试统计量,这个统计量汇总了样本中与被检验假设相关的信息。原假设,也称为假设,是对一个总体(或数据生成过程)的初始声明。替代假设则声明总体参数是否与在假设中所述的总体参数值不同。

在实践中,显著性水平通常提前声明,以决定拒绝原假设所需的 P 值到底要多小。由于不同研究人员在审视某个问题时使用的显著性水平不同,读者在比较两个不同测试的结果时可能会感到困难。而 P 值为此问题提供了一个解决方案。

重要提示: 即使 P 值很小,也不一定证明具有统计显著性,因为仍存在观察数据可能是偶然结果的可能性。只有通过重复实验或研究才能确认某个关系在统计上是显著的。

例如,假设比较两种特定资产回报的研究是由不同研究者进行的,他们使用了相同的数据但采用了不同的显著性水平。那么,研究者可能会得出关于这两种资产是否不同的相反结论。

如果一位研究者使用了 90% 的置信水平,而另一位研究者要求 95% 的置信水平来拒绝原假设,且观察到的两个回报之间的 P 值为 0.08(相当于 92% 的置信水平),那么第一位研究者会发现这两种资产之间的差异在统计上显著,而第二位则会认为没有统计上显著的差异。

为了避免这个问题,研究者可以报告假设检验的 P 值,让读者自行解释统计显著性。这被称为 P 值假设检验方法。独立观察者可以记录下 P 值,并自行决定这是否代表统计上显著的差异。

P 值示例

一位投资者声称其投资组合的表现与标准普尔 500 指数等同。为了确定这一点,投资者进行了一次双尾检验。

原假设认为该投资组合的回报与标准普尔 500 指数在特定期间的回报是等同的,而替代假设则认为投资组合的回报和标准普尔 500 的回报并不等同—如果投资者进行的是单尾检验,替代假设将表述为投资组合的回报要么小于,要么大于标准普尔 500 的回报。

P 值假设检验不一定使用预先选定的置信水平来决定投资者何时应重新设定原假设为回报是等同的。相反,它提供了一种衡量证据多少以拒绝原假设的方法。P 值越小,反对原假设的证据就越强。

因此,如果投资者发现 P 值为 0.001,则反对原假设有很强的证据,投资者可以自信地得出结论:投资组合的回报与标准普尔 500 指数的回报并不相同。

尽管这并没有提供一个关于何时接受或拒绝原假设的确切阈值,但它确实有另一个非常实际的优势。P 值假设检验提供了一种直接的方式,让投资者在选择多个不同类型的投资或投资组合时,与如标准普尔 500 指数这样的基准进行比较。

例如,对于两个投资组合 A 和 B,其表现各自与标准普尔 500 的 P 值为 0.10 和 0.01,投资者可以更有信心认为 P 值更低的投资组合 B 实际上会展示出更为一致的结果。

P 值 0.05 是否显著?

P 值小于 0.05 通常被认为在统计上显著,此时应该拒绝原假设。P 值大于 0.05 则意味着偏离原假设在统计上并不显著,因此不拒绝原假设。

P 值为 0.001 的含义是什么?

P 值为 0.001 表明,如果所检验的原假设确实为真,那么观察到至少同样极端结果的机会为千分之一。这使观察者拒绝原假设,因为要么观察到了极为罕见的数据结果,要么原假设不正确。

如何使用 P 值比较两个不同的假设检验结果?

如果你有两个不同的结果,一个 P 值为 0.04,另一个 P 值为 0.06,那么 P 值为 0.04 的结果会被视为在统计上比 P 值为 0.06 的结果更显著。超出这个简单的例子,你可以将 P 值为 0.04 的结果与 P 值为 0.001 的结果进行比较。两者都是统计上显著的,但 0.001 的例子提供了更强的反对原假设的依据。

总结

P 值用于衡量观察数据的显著性。当研究人员识别出两个变量之间的明显关系时,总是存在这种相关性可能是偶然的可能性。P 值计算帮助确定观察到的关系是否可能是由于随机机会造成的。

参考文献

[1] U.S. Census Bureau. “Statistical Quality Standard E1: Analyzing Data.”