跳到主要内容

统计学_Statistics

什么是统计学?

统计学是应用数学的一个分支,涉及对定量数据的收集、描述、分析和推断。统计学背后的数学理论主要依赖于微积分、线性代数和概率论。

从事统计学研究的人被称为统计学家。他们特别关注如何从小样本的行为及其他可观察特征中,得出关于大群体和一般事件的可靠结论。这些小样本代表了大群体的一部分或一般现象的有限实例。

重点摘录

  • 统计学是数据的研究与处理,包括收集、审查、分析和得出结论的方法。
  • 统计学的两个主要领域是描述性统计和推断统计。
  • 统计可以在不同的层面上进行表达,从非数值描述(名义水平)到具有零点的数值(比率水平)。
  • 可以使用多种抽样技术来编制统计数据,包括简单随机抽样、系统抽样、分层抽样或聚类抽样。
  • 统计学几乎贯穿于每个公司的各个部门,并且是投资过程中的一个重要组成部分。

理解统计学

统计学广泛应用于几乎所有科学领域,如自然科学、社会科学,以及商业、医学、人文学科、政府和制造业。统计学基本上是应用数学的一个分支,源于将数学工具(包括微积分和线性代数)应用于概率论。

实际上,统计学的核心理念在于,我们可以通过研究较小数量的类似对象或事件(样本),来了解大规模对象或事件(总体)的特性。在许多情况下,收集整个总体的全面数据成本高昂、困难或不可能,因此统计学从一个可以方便或经济观察的样本开始。

统计学家对样本中个体或元素进行测量和数据收集,分析这些数据以生成描述性统计。他们可以利用这些被称为“统计”的样本数据的观察特征,推断或猜测更大人群中未测量特征的情况,称为参数。

备注: 统计学非正式地可以追溯到几个世纪之前。1654年,法国数学家皮埃尔·德·费尔马与布莱斯·帕斯卡尔之间的早期信件记录,通常被引用为统计概率分析的早期例子。[1]

描述性统计与推断统计

统计学的两个主要领域被称为描述性统计(描述样本和总体数据的特性)和推断统计(利用这些特性来检验假设和得出结论)。描述性统计包括均值(平均数)、方差、偏度和峰度。推断统计包括线性回归分析、方差分析(ANOVA)、Logit/Probit模型和虚无假设检验。

描述性统计主要关注样本数据的集中趋势、变异性和分布。集中趋势是指特征的估计值,样本或总体的典型元素,包括均值、中位数和众数等描述性统计。

变异性是反映样本或总体中特征测量之间差异程度的一组统计指标,包括范围、方差和标准差等。

分布是指数据的整体“形状”,可以通过直方图或点图描绘,并包括概率分布函数、偏度和峰度等属性。描述性统计还可以描述数据集中元素之间观察特征的差异,有助于我们理解数据样本元素的集体特性,并形成利用推断统计进行假设检验和预测的基础。

推断统计是统计学家用来得出总体特征结论的工具,这些结论是从样本特征中提取的。同时,推断统计还用于确定他们对这些结论可靠性的确定性。根据样本的大小和分布,统计学家可以计算出这些统计数据——测量集中趋势、变异性、分布和特征之间关系——提供的是否准确反映了所抽样总体的相应参数的概率。

推断统计用于对大群体进行概括,例如通过调查消费者的购买习惯,估算某种产品的平均需求或尝试预测未来事件。这可能意味着根据某个样本期的收益,预测某个证券或资产类别的未来回报。

回归分析是推断统计中广泛使用的一种技术。它用于确定因变量与一个或多个自变量之间的关系强度和性质(相关性)。回归模型的输出通常会分析统计显著性,即通过测试或实验所生成的结果不太可能是随机或偶然发生的。换句话说,统计显著性表明结果与数据所阐明的特定原因有关。

备注: 统计显著性对于依赖数据和研究分析的学术学科或从业者而言极为重要。

均值、中位数与众数

“均值”、“中位数”和“众数”这三个术语属于集中趋势的范畴。它们描述了给定样本组中典型的元素。均值可以通过将组内数字相加并除以观察数据集的数量来找到。

在一组数据中,中间的数字就是中位数。所有包含的数字中有一半高于中位数,而另一半低于它。举例来说,如果某个社区内有五套房屋,分别价值50万、40万、35万、32.5万和30万美元,则中位数房屋价值为35万美元。两套价值高于中位数,两套低于中位数。

众数则指落在最高与最低值之间的数字,它在数据集中出现得最多。

理解统计数据

统计的根源在于变量。变量是一个可以计数的数据集,标志着一个项目的特性或属性。例如,汽车可以有一些变量,如品牌、型号、年份、里程、颜色或状态。通过在一组数据中结合这些变量,例如一定停车场内所有汽车的颜色,统计学帮助我们更好地理解趋势和结果。

变量主要有两种类型:

第一,定性变量是特定的属性,通常是非数值的。汽车示例中的许多例子都是定性的。统计中的其他定性变量示例包括性别、眼睛颜色或出生城市。定性数据最常用于确定给定定性变量所发生结果的百分比。定性分析通常不依赖数字。例如,试图确定有多少百分比的女性拥有企业时,分析的是定性数据。

第二种变量是定量变量。定量变量通过数值进行研究,只有在它们涉及非数值描述时才有意义。与定量分析类似,这些信息根植于数字。在上述汽车示例中,行驶里程是一个定量变量,但数字60,000的意义只有在它明白是总行驶里程时才存在。

定量变量可以进一步细分为两个类别。首先,离散变量在统计中有局限性,它们暗示潜在离散变量值之间存在间隙。在一场足球比赛中得分的点数是一个离散变量,因为:

统计学也使用连续定量变量。这些值沿着一个尺度分布。离散值存在局限性,但连续变量通常可测量到小数。在测量足球运动员的身高时,任何在可能限制范围内的值都可以获得,身高更是可以细致到1/16英寸,甚至更小。

重要提示: 统计学家在公司内可能担任不同的职称和职位。截至2023年12月,拥有1至3年工作经验的统计学家的平均总薪酬为81,885美元,具有15年经验时则提高到109,288美元。[2]

统计测量水平

分析变量和结果后,会产生若干测量水平。统计可以通过四种方式对结果进行量化。

变量没有数值或定量值,特性也没有排名。名义水平测量只是简单地为其他变量分配标签或分类。将名义水平测量视为关于变量的非数值事实最为简单。

示例:2020年当选的美国总统是约瑟夫·罗宾内特·拜登(Joseph Robinette Biden Jr.)。

结果可以按顺序排列,但所有数据值的价值或权重相同。虽然是数值的,序数水平测量在统计中不能相互减法,因为只有数据点的位置重要。序数水平通常用于非参数统计,并与总变量组进行比较。

示例:美国选手弗雷德·凯尔(Fred Kerley)在2020年东京奥运会100米短跑中是第二快的选手。[3]

结果可以按顺序排列,但数据值之间的差异现在可能具有意义。两个数据点通常用于比较数据集中时间的流逝或条件的变化。数据值的范围通常没有“起始点”,日历日期或温度可能没有有意义的内在零值。

示例:2022年5月通货膨胀率达到8.6%。上一次通货膨胀率如此之高是在1981年12月。[4]

结果可以按顺序排列,且数据值之间的差异现在具有意义。但有一个起始点或“零值”可用于进一步提高统计值的价值。数据值之间的比率具有意义,包括其离零的距离。

示例:1983年在南极记录的最低气温为-128.6华氏度。[5]

统计抽样技术

通常情况下,无法从总体中收集每一个数据点以获取统计信息。因此,统计学依赖不同的抽样技术来创建一个代表性的子集,以便于分析。在统计学中,有几种主要的抽样方式。

简单随机抽样要求总体中的每一个成员都有同等机会被选中进行分析。整个总体作为抽样的基础,任何基于随机性的生成器都可以选择样本项。例如,将100人排成一排,从中随机选择10人。

系统抽样同样要求随机样本,但其技术略有修改,以便于操作。生成一个随机数以确定起始点,然后按规定的间隔选择个体,直到样本大小达到。例如,若100个人排成一排并编号,随机起始点为第七个人,则每隔第九个(即第七、第十六、第二十五个,等等)选择一个,直到选择出10个样本项为止。

分层抽样要求对样本进行更多控制。总体被根据相似特征划分成子组。然后计算每个子组中多少人能够代表整体。例如,将100人按性别和种族分类,然后分别按每个子组相应于总体的比例抽取样本。

聚类抽样同样要求设定子组,但每个子组应能代表总体。随机选择整个子组,而不是在子组内随机选择个体。

备注: 不确定去年哪位大联盟棒球运动员应该获得最有价值球员奖?统计学常被用于确定其价值,且在最佳球员奖的发布中经常被引用。[6] 统计数据可能包括击球率、击出全垒打的数量和盗垒次数。

统计的应用

统计学在金融、投资、商业和多个领域中占有重要地位。您看到的大部分信息和数据都是源于统计,统计被应用于商业的各个方面。

  • 投资中的统计数据包括平均交易量、52周低点、52周高点、贝塔系数以及资产类别或证券之间的相关性。
  • 经济学中的统计数据包括国内生产总值(GDP)、失业率、消费者价格、通货膨胀及其他经济增长指标。
  • 市场营销中的统计数据包括转化率、点击率、搜索量以及社交媒体指标。
  • 会计中的统计数据包括流动性、偿债能力以及跨时间的盈利能力指标。
  • 信息技术中的统计数据包括带宽、网络能力和硬件物流。
  • 人力资源中的统计数据包括员工流失率、员工满意度与市场上平均薪酬的对比。

为什么统计学重要?

统计学被用来进行研究、评估结果、培养批判性思维以及做出与数据集相关的知情决策。统计学可以应用于几乎任何研究领域,以探讨事件发生的原因、发生的时间以及是否可预测的再次发生。

描述性统计与推断统计的区别是什么?

描述性统计用于描述或总结样本或数据集的特征,例如变量的均值、标准差或频率。推断统计则采用多种技术将数据集中的变量彼此关联。例如,使用相关分析或回归分析。这些方法可用于估算预测或推断因果关系。

谁在使用统计学?

每当收集和分析数据时,统计学便会被应用,并广泛用于多个应用和职业中。这些包括政府机构、学术研究、投资分析等许多领域。

统计学在经济学和金融中的应用?

经济学家从多个角度收集数据,从消费者支出和住宅开工到通货膨胀及GDP增长。在金融领域,分析师和投资者收集有关公司、行业、市场情绪以及价格和交易量的数据。这些领域中的推断统计被称为计量经济学。众多重要的金融模型,例如资本资产定价模型(CAPM)、现代投资组合理论(MPT)和布莱克-斯科尔斯期权定价模型,依赖于统计推断。

结论

统计学是分析数据并从样本结果中得出推论的实践。在政府机构到金融的不同领域中,统计学被用来针对特定数据集得出结论。

学习统计学可以开启成为统计学家的职业道路,但它在日常生活中也同样实用。当您在分析您最喜欢的球队获胜超级碗的几率时,或评估投资的可行性,抑或确定您是否因产品或服务被过高收费,统计学都可以为您提供关于事件或对象可能结果的洞察。

参考文献

[1] Encyclopœdia Britannica. “Probability and Statistics.”

[2] Coursera. “How Much Do Statisticians Make? Your 2024 Salary Guide.”

[3] Olympics. “Tokyo 2020: Athletics Men’s 100m Results.”

[4] U.S. Bureau of Labor Statistics. “Consumer Price Index.”

[5] Arizona State University, World Meteorological Organization’s World Weather & Climate Extremes Archive. “World: Lowest Temperature.”

[6] Baseball Reference. “MLB Most Valuable Player MVP Award Winners.”