在统计学中,样本方差是一个重要的描述性统计量,用于衡量一组数据与其均值之间的离散程度。在实际应用中,我们通常使用样本方差来估计总体方差。然而,样本方差的计算方式并不是简单的平方差之和除以样本容量,而是除以(n-1),这背后有着深刻的数学依据,尤其是关于其期望值的推导。
本文将详细探讨样本方差的期望推导过程,帮助读者理解为何在计算样本方差时要使用“n-1”而不是“n”。
一、总体方差与样本方差的定义
设总体为一个随机变量 $ X $,其期望为 $ \mu = E(X) $,方差为 $ \sigma^2 = \text{Var}(X) = E[(X - \mu)^2] $。
当我们从该总体中抽取一个样本 $ x_1, x_2, \ldots, x_n $,则样本均值为:
$$
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$
样本方差通常定义为:
$$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$
这个公式中的分母是 $ n-1 $,而非 $ n $,这是为了使得样本方差成为总体方差的一个无偏估计。
二、样本方差的期望推导
我们的目标是求出样本方差的期望 $ E(s^2) $,并验证它是否等于总体方差 $ \sigma^2 $。
首先,我们考虑以下表达式:
$$
E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right]
$$
展开平方项:
$$
(x_i - \bar{x})^2 = x_i^2 - 2x_i\bar{x} + \bar{x}^2
$$
因此,
$$
\sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} x_i^2 - 2\bar{x} \sum_{i=1}^{n} x_i + n\bar{x}^2
$$
注意到 $ \sum_{i=1}^{n} x_i = n\bar{x} $,代入上式得:
$$
\sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} x_i^2 - 2n\bar{x}^2 + n\bar{x}^2 = \sum_{i=1}^{n} x_i^2 - n\bar{x}^2
$$
接下来,我们对两边取期望:
$$
E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^{n} x_i^2 \right] - nE[\bar{x}^2]
$$
由于 $ x_i $ 是独立同分布的,有:
$$
E\left[ \sum_{i=1}^{n} x_i^2 \right] = nE[x_1^2]
$$
而 $ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $,因此:
$$
E[\bar{x}^2] = \text{Var}(\bar{x}) + [E(\bar{x})]^2 = \frac{\sigma^2}{n} + \mu^2
$$
代入上式:
$$
E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = nE[x_1^2] - n\left( \frac{\sigma^2}{n} + \mu^2 \right)
$$
又因为 $ E[x_1^2] = \text{Var}(x_1) + [E(x_1)]^2 = \sigma^2 + \mu^2 $,所以:
$$
E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = n\sigma^2 - \sigma^2 = (n - 1)\sigma^2
$$
因此,
$$
E[s^2] = E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{1}{n-1} (n - 1)\sigma^2 = \sigma^2
$$
三、结论
通过上述推导可以看出,样本方差 $ s^2 $ 的期望等于总体方差 $ \sigma^2 $,也就是说,当使用 $ n-1 $ 作为分母时,样本方差是一个总体方差的无偏估计。
这一结论在统计推断中具有重要意义,尤其是在进行参数估计和假设检验时,使用无偏估计可以提高结果的可靠性。
四、总结
样本方差之所以采用 $ n-1 $ 而不是 $ n $ 作为分母,是因为这样可以确保其期望值等于总体方差,从而得到一个无偏估计。这一结论不仅体现了统计学中“无偏性”的重要性,也展示了数学推导在理论分析中的关键作用。理解这一推导过程,有助于我们在实际数据分析中更准确地运用样本方差这一工具。