跳到主要内容

描述性统计_Descriptive Statistics

什么是描述性统计?

描述性统计是对给定数据集的简要信息系数,它可以是对整个群体的代表或是群体的样本。描述性统计可分为集中趋势测度和变异性测度(分散度)。集中趋势测度包括均值、中位数和众数,而变异性测度则包括标准差、方差、最小值和最大值、峰度和偏度。

关键要点

  • 描述性统计总结或描述数据集的特征。
  • 描述性统计包括三大基本类别的测度:集中趋势测度、变异性测度和频数分布。
  • 集中趋势测度描述数据集的中心(均值、中位数、众数)。
  • 变异性测度描述数据集的分散程度(方差、标准差)。
  • 频数分布测度描述数据集内数据出现的频率(计数)。

Jessica Olah

理解描述性统计

描述性统计通过对样本和数据测度的简短总结来帮助描述和解释特定数据集的特征。最常见的描述性统计类型是集中趋势测度。例如,均值、中位数和众数几乎在所有数学和统计学层面上都被使用,以定义和描述数据集。均值或平均值是通过将数据集内所有数字相加,然后除以组内数字的总数计算得出的。

例如,以下数据集的总和为20:(2,3,4,5,6)。均值是4(20/5)。数据集的众数是出现频率最高的值,而中位数是位于数据集中心的数值,即将较高和较低数值分开的数值。然而,还有一些不那么常见但依然非常重要的描述性统计类型。

人们使用描述性统计将难以理解的大数据集中的定量洞察转化为简明的描述。例如,学生的平均绩点(GPA)就是一个很好的描述性统计例子。GPA的思想是将多门课程的成绩汇总并平均,从而提供一个学生整体学业表现的概览。学生的个人GPA反映了他们的平均学业表现。

重要提示: 描述性统计,尤其是在医学等领域,常通过散点图、直方图、折线图或茎叶图等视觉方式呈现数据。[2] 在本文后面我们将进一步讨论视觉化。

描述性统计的类型

所有的描述性统计要么是集中趋势测度,要么是变异性测度,也称为离散度测度。

集中趋势测度关注数据集的平均值或中间值,而变异性测度则关注数据的分散程度。这两类测度使用图形、表格和一般讨论来帮助人们理解被分析数据的意义。

集中趋势测度描述数据集分布的中心位置。分析者分析每个数据点在分布中的频率,并使用均值、中位数或众数进行描述,从而测量被分析数据集中最常见的模式。

变异性测度(或分散度测度)帮助分析数据集的分布程度。例如,虽然集中趋势测度可以给出数据集的平均值,但它无法描述数据在集中内的分布情况。

因此,虽然数据的平均值可能是65(满分为100),但在数据集内仍然可能有1和100等数据点。变异性测度通过描述数据集的形状和分布来传达这一点。范围、四分位数、绝对偏差和方差都是变异性测度的例子。

考虑以下数据集:5, 19, 24, 62, 91, 100。该数据集的范围为95,这通过从最高值(100)减去最低值(5)计算得出。

分布(或频数分布)指的是数据点出现的次数。或者说,某个数据点未出现的次数。考虑这个数据集:男性、男性、女性、女性、女性、其他。该数据的分布可以归类为:

  • 数据集中男性的数量为2。
  • 数据集中女性的数量为3。
  • 认同为其他的人数为1。
  • 非男性人数为4。

单变量与双变量

在描述性统计中,单变量数据只分析一个变量。它用于识别单一特征的特征,并不用于分析任何关系或因果关系。

例如,想象一个充满高中生的房间。如果你想要收集房间内个人的平均年龄,这个单变量数据只依赖一个因素:每个人的年龄。通过从每个人那里收集这一信息并除以总人数,你就可以确定平均年龄。

另一方面,双变量数据试图通过寻找关联来关联两个变量。收集两种数据,并共同分析这两条信息之间的关系。由于分析多个变量,这种方法也可以称为多变量。

假设上述每位高中生参加了一次大学评估测试,我们希望了解年龄较大的学生是否测试得更好。除了收集学生的年龄外,我们还需要找出每位学生的考试成绩。然后,利用数据分析,我们可以以数学或图形的方式描述学生年龄与考试成绩之间是否存在关系。

注意: 财务报表的准备和报告就是一个描述性统计的例子。分析这些财务信息以做出未来决策则是推断统计。

描述性统计与视觉化

描述性统计的一个重要方面是图形表示。有效地可视化数据分布可以非常强大,这可以通过多种方式实现。

直方图是显示数值数据分布的工具。它们将数据划分为区间或小组,并通过不同高度的条形表示每个区间内数据点的频率或计数。直方图帮助识别分布的形状、中心趋势和数据的变异性。

另一个可视化工具是箱线图。箱线图,也称为箱须图,通过突出中位数(箱内的中线)、四分位数(箱的边缘)和潜在的离群值(箱外的点或“须”)来提供数据分布的简洁总结。箱线图直观地显示数据的分散和偏斜,特别适用于比较不同组或变量的分布。

描述性统计与离群值

讨论描述性统计时,了解离群值是重要的。离群值是与数据集中其他观测值显著不同的数据点。这些可能是数据中的错误、异常或罕见事件。

检测和管理离群值是描述性统计中的一个步骤,以确保准确和可靠的数据分析。要识别离群值,可以使用图形技术(如箱线图或散点图)或统计方法(如Z值或四分位距法)。这些方法有助于精确识别显著偏离总体数据模式的观测值。

离群值的存在可能对描述性统计产生显著影响,扭曲结果并影响对数据的解读。离群值可能会对集中趋势测度(如均值)产生不成比例的影响,使其趋向于极端值。例如,数据集(1,1,1,997)的均值为250,尽管这几乎不代表该数据集。这种扭曲可能导致关于数据集典型行为的误导性结论。

根据具体情况,离群值通常可以通过剔除它们(如果它们确实是错误或无关的)来处理。或者,离群值可能蕴含重要信息,因此应保留以展示其可能提供的价值。在分析数据时,考虑离群值的相关性以及将这些数据点从描述性统计计算中剔除是否更有意义。

描述性统计与推断统计

描述性统计与推断统计的功能不同,后者使用数据集做决策或将一个数据集的特征应用于另一个数据集。

想象一个例子,一个公司出售辣酱。这家公司收集的数据包括销售数量、每次交易购买的平均数量,以及一周内每天的平均销售量。所有这些信息都是描述性的,因为它讲述了过去实际发生的故事。在这种情况下,它并未超出信息的范畴。

现在假设公司想推出一款新辣酱。它收集上述相同的销售数据,但利用这些信息预测新辣酱的销售量。使用描述性统计并将特征应用于不同数据集的这一行为使数据集成为推断统计。我们不再仅仅是总结数据,而是利用数据预测与另一个完全不同的数据集(这里是新辣酱产品)有关的情况。

描述性统计是什么?

描述性统计是一种通过生成数据样本的摘要来描述数据集特征的方法。例如,人口普查可能包含关于特定城市男性与女性比例的描述性统计。

描述性统计的示例是什么?

在回顾美国职业棒球大联盟(MLB)赛季时,描述性统计可能包括球队的击球率、每队允许的分数以及每个分区的平均胜场数。

描述性统计的主要目的是什么?

描述性统计的主要目的是提供有关数据集的信息。在上述例子中,有数十支棒球队、数百名球员和数千场比赛。描述性统计将大量数据总结为有用的信息片段。

描述性统计的类型是什么?

描述性统计的三种主要类型是频数分布、集中趋势和数据集的变异性。频数分布记录数据发生的频率,集中趋势记录数据分布的中心点,数据集的变异性记录其分散程度。

描述性统计可以用来推断或预测吗?

从技术上讲,描述性统计仅用于帮助理解历史数据属性。推断统计——一个独立的统计分支——用于理解变量在数据集中的相互作用,并可能预测未来会发生什么。

结论

描述性统计指的是对数据集的分析、总结和发现的沟通。尽管通常不用于决策,但描述性统计在解释大量信息的高级摘要方面依然具有重要价值,如均值、中位数、众数、方差、范围和信息的计数。

参考文献

[1] Purdue Online Writing Lab. "Writing with Statistics: Descriptive Statistics."

[2] National Library of Medicine. "Descriptive Statistics for Summarizing Data."

[3] CSUN.edu. "Measures of Variability, Descriptive Statistics Part 2."

[4] Math.Kent.edu. "Summary: Differences Between Univariate and Bivariate Data."

[5] Purdue Online Writing Lab. "Writing with Statistics: Basic Inferential Statistics: Theory and Application."