바이어스1 Chapter 2. Data (2) 데이터 품질 데이터 마이닝은 다양한 데이터에 적용될 수 있다. 문제는 이러한 데이터들이 오로지 데이터 마이닝을 위해서 수집된 정보들이 아니라는 것이다. 실험계획을 통해 통제된 상황에서 수행된 실험의 결과를 수집하는 경우에는 데이터의 품질에 대한 문제가 다소 줄어들지만, 데이터 마이닝에서 다루고 있는 대다수의 데이터는 이러한 통제된 상황이 아닌 일반적인 경우의 데이터들이 많기 때문에 분석하려고 하는 데이터에 대해 품질을 고려가 필요하다. 먼저 다음의 예를 보자. A연구소는 중학교 학생들의 체중 분포를 조사하기 위해 각 학교로부터 학생들의 체중 자료를 제공받았다. 그리고 분석을 수행하기 전 각 학교별 평균을 살펴보았는데 유독 B학교만 평균보다 5㎏ 가까이 차이가 남을 확인하였다. 이를 이상히 여겨 B학교에 문의를 한 결.. 2010. 6. 11. 이전 1 다음