범주형 자료란?

데이터 분석에서 자료는 범주형 자료(categorical data)와 양적 자료quantative data)로 분류할 수 있다. 이들이 어떤 기준으로 분류되는지 다음 표를 보며 알아보자.

Drink Type Calories Sugars (g) caffeine (mg)
Brewed coffee Hot 4 0 260
caffe latte Hot 100 14 75
caffe mocha Hot 170 27 95
Iced brewed coffee Cold 60 15 120

표에서 ‘Type’ 컬럼을 먼저 보자. 여기서 ‘Type’ 컬럼은 ‘Hot’값과 ‘Cold’값만을 가진다. 따라서 Hot drink와 Cold drink로 분류할 수 있을 것이다. 이렇게 하나의 속성을 가지는 자료를 범주형 자료라 한다. 범주형 자료는 글자 뿐만 아니라 숫자나 기호로도 나타낼 수 있다(ex: ‘Hot’ = 1, ‘Cold’ = 2). 반면 나머지 변수들(‘Calories’, ‘Sugars (g)’, ‘Caffeine (mg)’)은 양적 자료를 가지며, 카운트 혹은 측정값을 나타낸다. 범주형 자료는 측정값이 아니라는 점에서 양적자료와 다르다. 또한 범주형 자료와 양적 자료를 가지는 각각의 개체(Brewed coffee, Caffe latte, …)를 식별자(identifial)라 한다.