데이터 마이닝은 다양한 데이터에 적용될 수 있다. 문제는 이러한 데이터들이 오로지 데이터 마이닝을 위해서 수집된 정보들이 아니라는 것이다. 실험계획을 통해 통제된 상황에서 수행된 실험의 결과를 수집하는 경우에는 데이터의 품질에 대한 문제가 다소 줄어들지만, 데이터 마이닝에서 다루고 있는 대다수의 데이터는 이러한 통제된 상황이 아닌 일반적인 경우의 데이터들이 많기 때문에 분석하려고 하는 데이터에 대해 품질을 고려가 필요하다. 먼저 다음의 예를 보자.
위의 예는 간단하지만 데이터 마이닝에서 데이터 품질과 관련하여 발생할 수 있는 문제를 단적으로 나타낸 것이다. 만일 각 학교별 평균 비교를 통해 B학교의 문제점을 파악하지 못했다면, 추후 분석 결과 ‘B학교 학생들의 비만도가 다른 학교에 비해 높다’ 라는 엉뚱한 분석 결과를 내놓을 수도 있기 때문이다.
이러한 이유로 데이터 마이닝에 있어 분석의 시작은 데이터의 이해로부터 시작되며, 그 처음 단계로서 데이터의 품질에 관한 분석이 선행되어야 한다. 이번 포스팅에서는 데이터 품질에 영향을 미치는 요소 및 용어 에 대해서 살펴보고자 한다.
완벽한 데이터를 얻는다는 것은 실제에서는 불가능한 일인데 이를 야기하는 주요 요인으로는 크게 측정 오류와 수집 과정에서 발생하는 오류로 나눌 수 있다. 측정 오류는 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류이며, 수집 과정에서는 데이터의 손실, 중복 등의 문제가 발생할 수 있다.
잡음(Noise)
잡음은 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것으로 아래 그림과 같이 실제 데이터는 매끈한 곡선 형태의 시계열 데이터였지만 측정 과정에서 잡음이 포함됨으로 인해 실제 값과 다른 데이터를 얻게 되어 실제 데이터의 형태를 읽어버릴 수도 있다.
(그림 출처: Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesely, 2005)
아티펙트(Artifact)
아티펙트는 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러를 의미하며, 일례로 카메라를 이용한 영상 데이터 획득에 있어 카메라 렌즈에 얼룩이 묻어 있다면 이에 해당하는 부분에서는 이 얼룩으로 인한 왜곡이 지속적으로 발생하게 된다.
정밀도(Precision)
정밀도는 동일한 대상을 반복적으로 측정하였을 때의 각 결과의 친밀성을 나타내는 것으로, 측정 결과의 표준편차(standard deviation)로 나타낼 수도 있다. 예를 들어 동일한 1g을 측정하는데 있어 각각의 측정 결과가 {1.015, 0.990, 1.013, 1.001, 0.986}인 경우 이들의 표준편차는 0.013이므로 이 때의 정밀도는 0.013이라 말할 수 있다.
바이어스(Bias)
측정 장비에 포함된 시스템적인 변동으로 앞서 영점 조절 되지 않은 체중계가 좋은 예라 할 수 있다. 앞서 정밀도에서 언급된 예제의 경우 1g에 대한 측정 평균은 1.001이며 이 측정 장비에는 0.001 만큼의 바이어스가 포함되어 있음을 알 수 있다.
정확도(Accuracy)
정확도는 정확도와 바이어스에 기인하는 것이지만 이를 이용하여 명시적으로 나타낼 수 있는 수식은 없다. 다만 정확도는 유효 숫자(Significant digit)의 사용에 있어 중요한 측면을 가지고 있다. 이는 공학이나 과학에서 기본적으로 다루는 개념으로 수의 정확도에 영향을 주는 숫자를 의미한다. 측정에 있어 이는 측정 장비의 한계로 인해 정확하지 않은 자리의 수를 측정함에 따라 발생할 수 있는 문제로 자를 이용한 길이 측정을 생각해 보자. 우리가 가진 자의 최소 눈금이 1㎜라면, 우리는 1㎜ 단위로 길이를 측정하게 될 것이며 이 경우 항상 ±0.5㎜ 만큼의 오차를 가지게 된다. 그래서 이 자를 이용하여 측정한 길이가 10.3㎜ 였다면 1㎜ 미만의 값인 0.3㎜ 라는 수치는 의미가 없음을 알 수 있다.
이상치(Outlier)
이상치는 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터를 의미한다. 이상치의 중요한 점은 잡음과는 다르다는 것이다. 잡음이 임의로 발생하는 예측하기 어려운 요인임에 반해 이상치는 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수도 있다. 예를 들어 네트워크의 침입자 감시와 같은 응용에 있어서는 대다수의 일반 접속 중 예외적으로 발생하는 불법적인 접속 시도와 같은 이상치를 찾는 것이 주된 목표이다.
결측치(Missing values)
데이터의 결측은 일반적인 경우는 아니지만 드물게 발생하는 문제이다. 설문조사의 경우 몇몇 사람들은 자신의 나이나 몸무게와 같은 사적인 정보를 공개하는 것을 꺼리는 경우가 발생하며 이러한 값들은 조사에 있어 결측값으로 남게 된다. 이러한 결측치를 처리하기 위한 방법은 다양하게 연구되었는데 기본적으로 다음과 같은 방법들이 있다.
- 해당 데이터 개체 또는 속성의 제거: 결측치가 발생한 데이터 개체를 분석 과정에서 제거하거나 해당 속성을 제거하는 것으로 데이터가 충분히 많이 있다면 고려할만한 방법이다. 하지만 데이터 내에 결측치를 가진 데이터나 속성이 많은 경우 대부분의 정보를 제거하게 될 수 있어 실제로는 많이 사용하지 않는 방법이다.
- 결측치의 추정: 일반적으로 많이 사용되는 방법으로 결측치가 발생한 데이터와 유사한 데이터를 사용하여 결측치를 추정하는 방법이다. 이는 결측치를 추정하는 방법에 따라 다양한 형태가 존재하는데, 예를 들어 A개체의 3번째 속성에서 결측치가 발생한 경우, 결측치가 발생하지 않은 다른 속성을 이용하여 다수의 유사한 개체를 선택하고 이들이 가진 3번째 속성 값을 평균하여 A 개체의 결측치를 추정할 수 있다.
- 결측치의 무시: 알고리즘이나 응용에 따라서는 결측치가 발생한 속성을 무시하고 분석을 수행할 수도 있다. 예를 들어 개체들 사이의 유사성 계산에 있어 많은 수의 속성이 있는 경우 이 중 하나의 속성이 없다면 이를 제외하고 유사성을 계산할 수 있도록 알고리즘을 조정하는 것이다. 하나의 속성 값이 없더라도 유사성을 계산하는데 미치는 영향이 크지 않다면 이러한 방법도 적용 가능하다. 하지만 속성이 몇 개 없어 하나의 속성이라도 무시하기 힘든 경우라면 이러한 방법의 적용은 좋지 않다.
모순, 불일치 (Inconsistent values)
때에 따라서는 동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우가 발생할 수 있는데 이러한 경우를 모순 또는 불일치값이라 표현한다. 예를 들어 고객의 주소와 우편번호를 저장해 놓은 데이터를 생각해보자. 주소가 동일한 지역임에도 불구하고 어떠한 이유로 우편번호가 상이한 경우가 발생할 수 있다. 이런 경우에는 주소를 확인해서 우편번호를 정정하는 작업이 필요할 것이다.
중복(Duplicate data)
데이터의 중복은 언제든지 발생할 수 있다. 문제는 중복된 데이터 사이에 속성의 차이나 값의 불일치가 발생할 수 있다는 것이다. 기본적은 모든 속성 및 값이 동일하다면 하나의 데이터는 삭제할 수 있지만, 그렇지 않은 경우에는 두 개체를 합쳐서 하나의 개체를 만들거나, 응용에 적합한 속성을 가진 데이터를 선택하는 등의 추가적인 작업을 필요로 하게 된다.
'RESEARCH > Book' 카테고리의 다른 글
Chapter 2. Data (1) 데이터의 종류 (4) | 2010.06.08 |
---|---|
Chapter 1. Introduction (0) | 2010.06.01 |
데이터 마이닝 (Data Mining) ??? (0) | 2010.05.31 |
댓글