跳到主要内容

卡方统计量_Chi Square Statistic

卡方(χ2)统计量是什么?

卡方(χ2)统计量是一种测试,衡量模型与实际观察数据之间的比较。在计算卡方统计量时使用的数据必须是随机的、原始的、相互排斥的,并且需要来自独立变量,样本容量必须足够大。例如,抛掷一个公正硬币的结果符合这些标准。

卡方检验通常用于检验假设。卡方统计量比较预期结果与实际结果之间的任何差异的大小,同时考虑样本大小和变量数量。

在这些测试中,自由度用于确定是否可以根据实验中的变量和样本总数拒绝某个零假设。与任何统计量一样,样本大小越大,结果越可靠。

主要要点

  • 卡方(χ2)统计量是用于衡量一组事件或变量的观察频率与预期频率之间差异的指标。
  • 卡方在分析分类变量的差异时尤其有用,特别是那些名义性质的变量。
  • χ2 依赖于实际值和观察值之间差异的大小、自由度和样本大小。
  • χ2 可用于检验两个变量之间是否相关或彼此独立。
  • 也可用于检验观察分布与理论频率分布之间的拟合优度。

卡方(χ2)统计量的公式

χc2=(OiEi)2Ei其中:c=自由度O=观察值E=预期值\begin{aligned}&\chi^2_c = \sum \frac{(O_i - E_i)^2}{E_i} \\&\textbf{其中:}\\&c=\text{自由度}\\&O=\text{观察值}\\&E=\text{预期值}\end{aligned}

卡方(χ2)统计量可以告诉你什么

主要有两种卡方检验,它们提供不同的信息:

  • 独立性检验,提出关系性问题,例如:“学生性别与课程选择之间是否存在关系?”
  • 拟合优度检验,提出理论性问题,例如:“我手中的硬币与理论上的公正硬币匹配得如何?”

注意: 卡方分析应用于分类变量,特别是在这些变量为名义变量(即顺序无关,如婚姻状况或性别)时特别有用。

在考虑学生性别与课程选择时,可以使用 χ2 独立性检验。进行此测试时,研究者将收集关于两个变量(性别和选择课程)的数据,然后使用上述公式和 χ2 统计表比较男生和女生选择所提供课程的频率。

如果性别与课程选择之间没有关系(即它们是独立的),那么男生和女生选择每个课程的实际频率应大致相等,或者说在每个选定课程中的男生和女生比例应大约等于样本中男生和女生的比例。

χ2 独立性检验可以告诉我们随机机会解释数据实际频率与这些理论期望之间任何观察差异的可能性。

在独立性检验中,一家公司可能希望评估其新产品——一种声称能提升能量的草本补充剂——是否能接触到最可能感兴趣的人群。

它在与运动和健身相关的网站上做广告,假设积极的健康意识人群最有可能购买。它进行了一项广泛的调查,以评估各人口群体对该产品的兴趣。调查结果表明该产品的兴趣与最注重健康的人群之间没有相关性。

χ2 提供了一种测试样本数据如何匹配(已知或假定的)较大人群特征的方法,这被称为拟合优度。

如果样本数据与所关注的人群的预期特性不符,那么就不应使用该样本来对较大人群得出结论。

作为拟合优度检验的一个示例,营销专业人士正在考虑推出一款新产品,该公司认为将对45岁以上女性具有吸引力。公司已经对500名潜在买家进行产品测试。

营销专业人士掌握了测试小组的年龄和性别信息。这使得可以构建一个卡方检验,展示表示他们愿意购买该产品的人的年龄和性别分布。

结果将显示最有可能的买家是否为45岁以上的女性。如果测试显示45岁以上的男性或18至44岁的女性同样可能购买该产品,那么营销专业人士将会调整产品的广告、推广和摆放策略,以吸引这一更广泛的客户群体。

如何使用卡方(χ2)统计量的示例

例如,考虑一个虚构的硬币,其正反面出现的机会各占50/50,而你用一枚真实硬币投掷100次。如果这枚硬币是公平的,那么它也将同样有可能落在任一面上,抛掷100次硬币的期望结果是正面出现50次,反面出现50次。

在这种情况下,χ2 可以告诉我们100次抛硬币的实际结果与公正硬币理论模型所预期的50/50结果之间的比较。实际结果可能为50/50,也可能为60/40,甚至90/10。

实际结果与50/50的偏差越大,这组抛硬币的拟合优度就越差,从而越可能得出该硬币实际上不是公正硬币的结论。

何时使用卡方(χ2)检验

卡方检验用于帮助确定观察结果是否与预期结果一致,并排除观察结果是偶然造成的可能性。

当分析的数据来自随机样本,且问题变量是分类变量时,卡方检验是合适的。分类变量包括诸如汽车类型、种族、教育程度、性别或某人对政治候选人的喜欢程度(从非常喜欢到非常不喜欢)等选择。

这类数据通常通过调查响应或问卷收集,因此卡方分析在分析这类数据时尤其有用。

如何进行卡方(χ2)检验

以下是进行拟合优度检验或独立性检验的基本步骤:

  • 创建观察频率与预期频率的表。
  • 使用公式计算卡方值。
  • 使用卡方值表或统计软件找到临界卡方值。
  • 确定卡方值与临界值哪个更大。
  • 拒绝或接受零假设。

卡方(χ2)统计量的局限性

卡方检验对样本大小非常敏感。当使用非常大的样本时,关系可能看似显著,实际上却并非如此。

此外,卡方检验无法确定一个变量是否对另一个变量有因果关系。它只能确定两个变量是否相关。

卡方检验的用途是什么?

卡方是一种统计检验,用于检查来自随机样本的分类变量之间的差异,以判断预期结果与观察结果的拟合优度。

谁在使用卡方分析?

由于卡方适用于分类变量,因此最常被研究调查响应数据的研究人员使用。这类研究可以涉及人口统计学、消费者和市场研究、政治学和经济学等领域。

当自变量是名义或有序时,是否会使用卡方分析?

名义变量是一种按质量分类的变量,其数字顺序可能是无关紧要的。例如,询问某人最喜欢的颜色会产生一个名义变量。另一方面,询问某人的年龄则会产生一个有序数据集。卡方可最佳应用于名义数据。

总结

卡方统计量用于衡量一组变量的观察与期望频率之间的差异。它在分析分类变量的差异时尤其有用,尤其是那些名义性质的变量。两种不同类型的卡方检验——独立性检验和拟合优度检验——将回答不同的关系性问题。