출처: 데이터 분석을 위한 통계 (Bruce P. & Bruce A., 2021)

여태 데이터 분석 업무 수행 시, 궁금한 점이 있어도 그냥 그런가 보다하고 넘어가며 공부해 왔던 것 같아서, 특정 궁금증 해결 과정을 정리해보았다. 위 책 내용을 일부 참조하였다.

왜 표본 분산을 추정할 때 자유도 n-1을 사용할까?

분산 (variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

즉, \(\sigma = \frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2\)

다만 위 식은 모집단을 가정할 경우에 구하는 분산의 식이다. 일반적으로 임상적 데이터 분석 시 모집단을 모두 샘플링 하는 것은 거의 불가능하다고 보면 된다 (우리나라 국민 전체의 백혈구 수치를 분석해본다고 생각해보자).

모집단의 일부, 즉 표본을 샘플링해서 그에 대한 통계량을 추정하는 것이 생물학에서는 가장 일반적인 방식이고, 따라서 많은 통계적인 모델에서 표본 평균과 표본 분산을 구하는 일이 비일비재하다.

표본분산의 경우, 모집단의 분산에서와 달리 샘플의 개수로 나누지 않고, 자유도 개념을 도입해서 (샘플의 개수 - 1)로 나누어준다. 자유도의 개념은 많은 사이트에서 다루지만, 개념 자체의 표현이 모호하고 설명과 설명사이의 연결고리가 불충분하다고 생각하여 본인에게는 그렇게 와닿도록 이해가 되지는 않았다. 따라서 방정식 풀이를 통해서 왜 하필 N이 아니라 N-1로 나누어야 하는지에 대한 기록을 하려고 한다.


우선, 표본분산을 구하는 식은 다음과 같다. 여기서 $\bar x$ 는 표본집단의 평균이고, $n$ 은 샘플의 수이다.

\[\sigma = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \bar x)^2\]

먼저 여기서부터, 정말로 n-1로 나누는 것이 맞지 않다고 가정을 해보자. 그렇다면 표본분산을 구하는 식은 위 방정식이 아니라 아래의 방정식이 되어야 한다.

\[\sigma = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar x)^2\]

일단 위 식에서 1/n은 나중에 생각하기로하고 배제한다.
우선 식 내부의 $x_i - \bar x$ 를 $(x_i - \mu) - (\bar x - \mu)$ 와 같다고 해보자. 즉 $(x_i - \bar x)^2 = [(x_i - \mu) - (\bar x - \mu)]^2$,
위 식을 전개하면, $(x_i - \bar x)^2 = (x_i - \mu)^2 - 2(x_i - \mu)(\bar x - \mu) + (\bar x - \mu)^2$,

이후 모든 i에 대해 합을 취하면,

\[\sum_{i=1}^{n}(x_i - \bar x)^2 = \sum_{i=1}^{n}(x_i - \mu)^2 - \sum_{i=1}^{n}2(x_i - \mu)(\bar x - \mu) + \sum_{i=1}^{n}(\bar x - \mu)^2\]

위 식의 구성 요소 중, $\sum_{i=1}^{n}2(x_i-\mu)(\bar x - \mu)$ 만 놓고 봤을 때, 결과적으로 $(\bar x - \mu)$ 는 상수여서 $2(\bar x - \mu)\sum_{i=1}^{n}(x_i - \mu)$ 라는 방정식으로도 나타낼 수 있다. 이때 $\sum_{i=1}^{n}(x_i - \mu)$ 는 “모집단 평균을 기준으로 한 편차의 합” 을 뜻하므로, 이것은 곧 0이다 (맨 위에서 언급한 분산의 개념을 다시 살펴보자.).

\[thus,-2\sum_{i=1}^{n}(x_i - \mu)(\bar x - \mu) = 0\]

또한, 위 식의 구성요소에서 $\sum_{i=1}^{n} (\bar x - \mu)^2$ 는 n번 반복되는 상수항과 다름없으므로,

\[\sum_{i=1}^{n} (\bar x - \mu)^2 = n(\bar x - \mu)^2\]

결과적으로 최종 식을 도출하면,

\[\sum_{i=1}^{n} (x_i - \bar x)^2 = \sum_{i=1}^{n} (x_i - \mu)^2 - n(\bar x - \mu)^2\]

도출한 식에서 기존의 가정대로 n을 나누어주면, 결과적으로 표본분산 $s^2$의 값을 구할 수 있다.

\[s^2 = \frac{1}{n}\left[ \sum_{i=1}^{n}(x_i - \mu)^2 -n(\bar x - \mu)^2 \right]\]

이제 위 식에 기댓값 개념을 적용해본다.

간단히 설명하자면, 기댓값은 확률적으로 관측될 것으로 기대되는 값이다. 기댓값은 어떤 확률적인 사건에 대한 평균의 의미를 가지는데, 데이터나 확률 분포의 중심적 경향을 이해하는데 사용된다.

예를 들어, $E[(x_i - \mu)^2] 는 임의의 샘플값과 모집단 평균 차 (편차) 제곱에 대한, 확률적 사건의 평균값이므로, 이는 곧 분산과 같다.

\[formula1, E[(x_i - \mu)^2] = \sigma^2\]

한편, 최초 도출한 식에서 기댓값을 적용한다면, $s^2$ 이 표본 분산이라 할 때,

\[formula2, E[s^2] = \frac{1}{n} \left[ \sum_{i=1}^{n} E[(x_i - \mu)^2] - nE[(\bar x - \mu)^2] \right]\]

이때 $E[(x_i - \mu)^2] = \sigma^2$ 이므로, 식 구성요소 중 $\sum_{i=1}^{n}E\left[ (x_i - \mu)^2 \right] = n\sigma^2$ 이다.

또한 formula1의 논리를 적용한다면, formula1에서 $x_i$ 대신 $\bar x$ 가 들어갈 경우에 이는 곧 표본의 분산을 의미하는 것이므로,

\[E\left[ (\bar x - \mu)^2 \right] = Var(\bar x) = \frac{\sigma^2}{n}\]

그리하여, formula2에서의 또 다른 식 구성요소 중,

\[nE[(\bar x - \mu)^2] = n\cdot \frac{\sigma^2}{n} = \sigma^2\]

따라서 최종적으로 다음과 같은 식이 유도된다.

$E[s^2] = \frac{1}{n} \left[ \sum_{i=1}^{n} E[(x_i - \mu)^2] - nE[(\bar x - \mu)^2] \right]$ 일때,

\[E[s^2] = \frac{1}{n}[n\sigma^2 - \sigma^2]\] \[thus, E[s^2] = \frac{n-1}{n}\sigma^2\]

따라서 n으로 나누는 방식을 사용하여 표본의 분산을 계산한다면, 모집단 분산을 계산할 때보다 $\frac{n-1}{n}$ 만큼 작게 추정되는 것을 확인할 수 있다. 이를 “표본 분산의 편향이 있다”라고 한다. 따라서 편향이 없는, 즉 불편추정량 (unbiased estimator)을 구해야 한다면, 위 도출된 식을 기반으로 n-1로 나눠서 추정량을 “보정” 한다고 한다. 명확하지 않을 수 있으니 다른 문서도 체크해보시면 좋을 것 같다.