Categories
양적 자료 분석
이전 글에서 범주형 자료와 양적 자료의 차이는 실제로 측정한 값인지로 구분한다고 했다. 양적 자료는 존재할 수 있는 수치적 범위가 매우 넓을 수 있기 때문에 단순히 데이터만 가지고 통찰을 얻기 어렵다. 다음 표를 보자.
식물 A를 숙주로 삼는 균의 수를 접종 시간에 따라 비교한 표 (가상 데이터)
식물 A (대조군) | mutant1 (실험군) | mutant2 (실험군) | |
---|---|---|---|
접종 1시간 후 | 1380 | 7710 | 5200 |
접종 2일 후 | 4864587 | 4384531 | 4546512 |
접종 4일 후 | 239785400000 | 173154500000 | 156845200000 |
균의 증식은 환경에 따라 다르겠지만 배양시킨 후 며칠만 지나도 이렇게 기하급수적으로 증가한다. 따라서 이러한 데이터가 늘어날수록 데이터가 가지는 의미를 판단하기가 어려워진다.
따라서 이번 글에서는 양적 자료를 분석하고 요약하는 여러 통계 분석 기법을 소개하려고 한다.
양적 자료 내 집중 경향값 구하기
특정 시간에 측정한 해바라기의 길이를 나타낸 표 (가상 데이터)
다음 표를 보자.
A | B | C | D | E | F | G | H | |
---|---|---|---|---|---|---|---|---|
길이 (cm) | 23 | 28 | 20 | 40 | 24 | 21 | 23 | 25 |
같은 시간에 측정해도 해바라기의 길이는 제각기 다르다. 하지만 “해바라기” 라는 같은 종이기 때문에, 해당 데이터를 분석하면 해바라기라는 종이 어떤 성장 경향성을 보이는지 알 수 있을 것이다.
이렇게 표본으로부터 얻어진 자료가 어떤 특정한 값으로 몰리는 현상을 중심경향(central tendency)이라 하고, 중심경향을 나타내는 특정한 값을 집중경향값(measure of central tendency)이라 한다. 집중경향값을 구하는 방법을 알아보자.
1. 산술 평균 (arithmetic mean)
흔히 알고 있는 바와 같이 값을 모두 더하고, 데이터의 수(여기서는 길이(cm)가 가지는 데이터의 수)만큼 나누면 산술 평균 값이 나온다. 따라서 이 표의 산술 평균 값은 다음과 같이 되겠다.
(23+28+…+25)/8=25.5
2. 중앙값 (median)
중앙값은 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 위의 데이터를 정렬해보자.
20 21 23 23 24 25 28 40
가장 중앙에 위치하는 값이 23과 24로 두 개이다. 이렇게 중앙값이 한 개가 아닌 두 개인 경우는 두 수의 산술평균을 구한다. 따라서 중앙값은 23.5가 되겠다.
이제 이 둘을 이용해서 데이터를 분석하는 방법을 알아보자.
산술 평균과 표준편차
다음과 같이 두 데이터가 있다.
A : -10, 0, 10, 20, 30
B : 8, 9, 10, 11, 12
A와 B의 평균은 둘 다 10으로 같다. 이들을 분포도로 그려보자.
A가 B보다 한 곳에 더 몰려있는 것을 확인할 수 있다. 즉 평균은 같을지라도, 이들의 산포도(selectivity)는 서로 다를 수 있다. 데이터가 많이 흩어져 있을수록 산포도는 값이 무엇인지 간에 증가할 것이고, 이는 즉 각각의 데이터들이 평균보다 더 멀리 떨어져 있음을 의미한다(그림 참조). 따라서 산포도를 알면 데이터의 변화폭이 얼마인지 알 수 있을 것이다.
데이터의 산포도를 나타내는 수치로 표준편차(standard deviation)를 쓴다. 표준편차는 다시 모표준편차와 표본표준편차로 나뉘는데, 간단히 설명하면 모집단에서 측정한 것을 모표준편차라 하고 표본집단에서 측정한 것을 표본표준편차라 한다. 모집단과 표본집단은 그림을 통해 설명하겠다.
또한 모표준편차와 표본표준편차를 구하는 공식은 다음과 같다.
공식이 어려워보일 수 있고, 사실 표준편차는 여러 프로그램을 통해서 쉽게 구할 수 있다. 하지만 이를 단계적으로 풀어서 해석해보면 표준편차가 어떻게 구해지는지에 대한 직관력을 얻을 수 있을 것이고, 실제 실험을 통한 데이터 분석에도 도움이 될 것이다. 표준편차는 다음 단계를 거쳐 구한다.
- 먼저 평균을 구한다.
A : -10, 0, 10, 20, 30 평균 = 10
- 각 자료값이 평균으로부터 떨어진 거리(편차)를 구한다. |x - 평균|^2
400, 100, 0, 100, 400
- 모두 합한다.
1000
- 데이터의 수만큼 나눈다. (분산 값이 나옴)
200
- 분산의 제곱근을 구한다.
14.14
같은 방법으로 B 데이터의 표준 편차를 구하면 1.414가 나온다.
표본 표준편차의 경우 n이 아닌 n-1로 나누는데, 이렇게 하는 이유는 간단히 설명하기 어려우므로 다음에 설명하도록 하겠다.
사실 평균은 커다란 약점이 있다. 다음과 같은 데이터가 있을 경우
C : 0, 1, 2, 3, 4, 1000
이 데이터의 평균을 통해 분석할 수 있겠는가? 평균은 모든 자료의 값을 이용할 수 있다는 장점이 있지만 이러한 이상치(out lier)가 있을 때 평균을 대표값으로 이용하는 것은 바람직하지 않다. 이상치에 영향을 덜 받는 중앙값에 대해 더 알아보도록 하자. ***
중앙값과 IQR (InterQuartile Range)
다음 데이터로부터 중앙값과 IQR을 구해서 박스 그림을 그려보자.
D : 0, 2, 4, 6, 8, 10, 15
여기서 중앙값은 6이다.
D : 0, 2, 4, 6, 8, 10, 15
IQR은 사분범위로 불리며, Q3와 Q1으로 구해진다. 여기서 Q1은 데이터의 중앙값 아래에서의 중앙값을, Q3는 데이터의 중앙값 위에서의 중앙값을 의미한다. 따라서 Q1은 2, Q2는 10이다.
D : 0, 2, 4, 6, 8, 10, 15
따라서 사분범위는 2 ~ 10으로 이를 박스의 범위로 그리면 되겠다. 위 정보를 통해 박스 그림을 그리면 다음과 같다.
그럼 다음과 같은 데이터에서 이상치임을 확실하게 알 수 있는 방법은 없을까?
C: 0, 1, 2, 3, 4, 5, 1000
물론 그냥 보기에도 1000이 엄청나게 더 큰 수임을 알 수 있지만 실제 데이터분석에서 그저 주관적인 의견으로 이를 판단할 순 없다.
이럴땐 다음과 같은 방법을 사용한다. 1.5xIQR 규칙이라고도 한다.
- 사분위수 범위를 구한다.
Q1 = 1, Q3 = 5, 따라서 사분위수 범위 = 5 - 1 = 4
- 이상치의 값은 Q1 - 1.5IQR 보다 작거나
Q3 + 1.5IQR 보다 커야한다.
x < -5 or x > 11
따라서 1000은 1.5xIQR 규칙에 따르면 이상치이다. 1000이라는 이상치를 표기하고 박스 그림을 그릴 수도 있다.
중앙값을 활용한 박스 그림은 이렇게 이상치에 영향을 덜 받는다는 것이 장점이지만, 자료를 전부다 보여주지 못한다. 따라서 평균과 중앙값 등 여러 통계 기법들을 상황에 따라 적절하게 이용하는 것이 바람직하다.