데이터(Data)는 말 그대로 데이터, 자료, 정보 등을 의미하며, 데이터 마이닝의 출발점이다.
데이터 마이닝을 올바르게 수행하기 위해서는 가장 먼저 분석하고자 하는 데이터에 대한 이해가 필요하다.
먼저 다음의 예를 통해 데이터 이해의 중요성을 살펴보자.
이 데이터는 회사의 각 지점별 매출 데이터로 아래 그림과 같이 4개의 열로 구성된 데이터였다.
대인배인 칼뼈는 친구의 부탁을 받아드려 친절히 분석을 수행해 주었다.
다음은 칼뼈와 친구의 대화이다.
친구: 데이터 분석 다 끝냈냐?
칼뼈: 음..다 하지는 못했는데 필드간의 연관성은 찾은 것 같어.
친구: 오~~역시 내 친구 답군 :) 그래, 어떤 연관성을 찾은 거야?
칼뼈: A열과 B열 사이에 강한 연관성이 있는 것 같던데.
친구: A열과 B열 사이에 강한 연관성이라..음. A열은 그냥 순번인데...
칼뼈: 정말...근데 어떻게 A열과 B열 사이에 강한 연관성이 나올 수 있지?
친구: 아..내가 자료 정리 하면서 B열 기준으로 정렬을 한 후에 A열에 순번을 기입했어..ㅠㅜ;
칼뼈: 아놔~~나 삽질한 거임?
위의 예에서 알 수 있듯이 데이터에 대한 이해 없이 단순히 수치 해석을 수행하는 경우에는 엉뚱한 분석 결과를 얻을 수도 있다.
이에 2장에서는 데이터와 관련된 내용 중 첫 시간으로 데이터의 형태에 대해서 살펴보고자 한다.
1. 용어 정의
데이터 집합(data set): 데이터 개체(data object)들의 집합
※ 참고로 데이터 개체(data object)는 레코드(record), 점(point), 벡터(vecotr), 패턴(pattern), 사례(case), 사건(event), 샘플(sample), 관찰(observation), 개체(entity) 등으로 불리기도 한다.
데이터 개체는 여러 개의 속성(attribute)으로 기술되는데, 속성이란 데이터 개체들 사이의 차이를 규정할 수 있는 특성이나 특징을 의미한다.
예를 들어 사람을 기술할 때 눈동자의 색, 피부색, 키, 몸무게와 같은 속성을 사용할 수 있다.
이러한 속성은 변수(variable), 특성(characteristic), 필드(field), 특징(feature), 차원(dimesion) 등으로 불리기도 한다.
데이터의 형태는 이러한 속성에 의해 구분될 수 있는데, 크게 질적자료(Qualitative or Categorical)와 양적자료(Quantitative or Numeric)로 구분할 수 있으며, 각각은 아래와 같다.
(1) 질적자료(정성적자료, Qualitative, Categorical)
: 범주 또는 순서 형태의 속성을 가지는 자료
a. 범주형(명목, nominal) 자료: 사람의 피부색, 성별
b. 순서(서수, ordinal) 자료: 제품의 품질, 등급, 순위
(2) 양적자료(정량적자료, Quantitative or Numeric)
: 관측된 값이 수치 형태의 속성을 가지는 자료
a. 범위형(interval) 자료: 화씨, 섭씨와 같이 수치 간에 차이가 의미를 가지는 자료.
b. 비율(ratio) 자료: 무게와 같이 수치의 차이 뿐만 아니라 비율 또한 의미를 가지는 자료
※ 참고로 수치 형태의 자료는 이산형(discrete) 자료와 연속형(continuous) 자료로 구분될 수 있으며, 이산형의 특별한 경우로 논리 소자의 참/거짓 개념의 0과 1로만 이루어진 이진데이터도 있다.
a. 이산형(discrete): 양적자료 중 정수 형태의 자료와 질적자료의 학번, 우편번호
b. 이진(binary): 0/1
2. 데이터 집합의 특성
(1) Dimensionality: 데이터 집합의 차원은 각 데이터 개체가 가지는 속성의 개수를 의미한다. 데이터에 따라서는 속성의 수가 너무 많아 분석의 어려움이 발생할 수 있는데 이를 ‘차원의 저주(Curse of Dimensionality')’라 표현하기도 한다.
(2) Sparsity: 어떤 데이터 집합은 대부분의 데이터 개체에서 속성들이 0의 값을 가지며, 1% 미만의 데이터 개체에서만 0이 아닌 값을 가지는 경우가 있다. 일반적으로 이러한 데이터의 경우 저장에 있어 0이 아닌 값만을 사용함으로써 데이터의 저장과 분석을 용이하게 할 수 있다. 예를 들어 4 x 4 행렬에서 (2, 3) 원소의 값만이 0이 아닌 값이라면 이 행렬의 저장은 16개의 모든 원소를 저장하는 것이 아니라 (2, 3, 값) 이라는 정보만으로도 행렬을 표현할 수 있다.
(3) Resolution: Resolution에 따라서 획득되는 데이터의 특성이 달라질 수 있다. Resolution이 너무 높은 경우에는 잡음과 같은 간섭 요인에 영향을 많이 받을 수 있으며, 반대로 너무 낮은 경우에는 정보가 사라질 수도 있다. 예를 들어 해수 온도 측정에 있어 1년 마다 측정을 한다면 계절별 온도 변화 패턴을 찾기는 어려울 것이다. 그러므로 적절한 수준의 Resolution을 사용 하는 것이 필요하며, 이는 실험 계획법과도 연관이 된다.
3. 데이터 형태에 따른 예
(1) Record data: 데이터 마이닝에서 가장 많이 사용되는 데이터 형태로 대개 flat 파일 형태로 저장된 데이터 집합이다.
a. Transaction or Market Basket Data: 구매자와 구매 물품목록 형태로 이루어진 데이터 집합
b. Data matrix(Pattern matrix): 모든 속성이 수치 형태의 값을 가지는 행렬 형태의 데이터 집합, 일반적으로 데이터의 행은 개체, 열은 속성을 나타낸다.
c. Spase Data Matrix: Data matrix의 특별한 경우, 그림의 예에서는 각 문서에서 단어가 출현하는 빈도수를 나타내고 있다.
(그림 출처: Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesely, 2005)
(2) Graph-based data: 데이터 개체 간의 관계나 데이터 자체를 그래프로 표현하는 경우에 사용하는 데이터 집합으로 웹 문서의 연결 관계나 화학 혼합물의 구조를 나타내는 경우에 사용된다.
(그림 출처: Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesely, 2005)
(3) Orderd data: 데이터 개체의 속성이 시간 또는 공간적인 순서와 연관되는 데이터 집합
a. Sequential data: 앞서 Transaction data에서 시간 성분을 추가적으로 고려한 것으로 고객의 시간에 따른 구매 경향 예측과 같은 응용에서 사용될 수 있다. 예를 들어 CD 플레이어를 구매한 고객이라면 추가적으로 CD 음반을 구매할 계획이 있음은 당연한 것이다.
b. Sequence data: 데이터 개체들 사이에 순서가 존재하는 데이터, DNA 서열이 좋은 예이다.
c. Time series data: sequential data의 특수한 경우로 시간에 따른 속성의 변화를 관찰한 데이터 집합, 주가 지수과 좋은 예이며 아래 그림에서는 시간별 기온의 변화를 나타내고 있다.
d. Spatial data: 위성 사진 분석 데이터와 같이 각 데이터 개체가 공간 상의 위치 정보와 연관이 되는 데이터 집합을 의미하며, 그림에서는 지구 상의 지점에 따른 온도를 나타내고 있다.
'RESEARCH > Book' 카테고리의 다른 글
Chapter 2. Data (2) 데이터 품질 (0) | 2010.06.11 |
---|---|
Chapter 1. Introduction (0) | 2010.06.01 |
데이터 마이닝 (Data Mining) ??? (0) | 2010.05.31 |
댓글