데이터 마이닝4 Chapter 2. Data (2) 데이터 품질 데이터 마이닝은 다양한 데이터에 적용될 수 있다. 문제는 이러한 데이터들이 오로지 데이터 마이닝을 위해서 수집된 정보들이 아니라는 것이다. 실험계획을 통해 통제된 상황에서 수행된 실험의 결과를 수집하는 경우에는 데이터의 품질에 대한 문제가 다소 줄어들지만, 데이터 마이닝에서 다루고 있는 대다수의 데이터는 이러한 통제된 상황이 아닌 일반적인 경우의 데이터들이 많기 때문에 분석하려고 하는 데이터에 대해 품질을 고려가 필요하다. 먼저 다음의 예를 보자. A연구소는 중학교 학생들의 체중 분포를 조사하기 위해 각 학교로부터 학생들의 체중 자료를 제공받았다. 그리고 분석을 수행하기 전 각 학교별 평균을 살펴보았는데 유독 B학교만 평균보다 5㎏ 가까이 차이가 남을 확인하였다. 이를 이상히 여겨 B학교에 문의를 한 결.. 2010. 6. 11. Chapter 2. Data (1) 데이터의 종류 데이터(Data)는 말 그대로 데이터, 자료, 정보 등을 의미하며, 데이터 마이닝의 출발점이다. 데이터 마이닝을 올바르게 수행하기 위해서는 가장 먼저 분석하고자 하는 데이터에 대한 이해가 필요하다. 먼저 다음의 예를 통해 데이터 이해의 중요성을 살펴보자. 2010년의 어느날, 칼뼈는 친구로부터 데이터 분석에 대한 부탁을 받게 된다. 이 데이터는 회사의 각 지점별 매출 데이터로 아래 그림과 같이 4개의 열로 구성된 데이터였다. 대인배인 칼뼈는 친구의 부탁을 받아드려 친절히 분석을 수행해 주었다. 다음은 칼뼈와 친구의 대화이다. 친구: 데이터 분석 다 끝냈냐? 칼뼈: 음..다 하지는 못했는데 필드간의 연관성은 찾은 것 같어. 친구: 오~~역시 내 친구 답군 :) 그래, 어떤 연관성을 찾은 거야? 칼뼈: A열.. 2010. 6. 8. Chapter 1. Introduction 이 책의 첫 장에서는 데이터 마이닝에 대한 정의와 도전 과제 그리고 간단한 형태의 데이터 마이닝 활용의 예를 보여주고 있다. 1.1 What Is Data Mining? 데이터 마이닝이란 대규모 데이터로부터 유용한 정보를 자동화된 방법으로 탐색하는 과정을 의미하며, 지식 발견(KDD, Knowledge Discovery in Database) 과정의 한 단계로서 중요한 역할을 하고 있다. 데이터 마이닝 정의에 대한 참고: 2010/05/31 - [Data Mining/Book] - 데이터 마이닝 (Data Mining) ??? 그렇다면 지식 발견은 또 무엇이냐는 물음이 생긴다. 지식 발견이란 가공되지 않은 데이터(Raw Data)로부터 유용한 정보를 획득하는 일련의 과정을 일컫는 것으로 아래 그림과 같이.. 2010. 6. 1. 데이터 마이닝 (Data Mining) ??? 데이터 마이닝(Data Mining), 바로 이 블로그에서 주로 다루고자 하는 주제이다. 이에 대한 다양한 정의가 있을 수 있겠지만 나는 아래와 같이 생각한다. 데이터 마이닝 이란 대규모 데이터로부터 유용한 정보를 자동화된 방법으로 탐색하는 과정을 의미하며, 지식 발견(KDD, Knowledge discovey in database) 과정의 한 단계로서 중요한 역할을 하고 있다. 그렇다면 최근에 와서 이에 대한 관심이 증대되는 이유는 무엇일까? 먼저 기술의 발달을 첫째 이유로 볼 수 있다. 단적인 예로 마이크로어레이(Microarray) 기술의 발달은 생물정보학(Bioinformatics)이라는 학문을 만들 정도로 크나큰 영향을 미친 기술로 과거 유전자 관련 분야에서는 한번에 하나의 유전자에 관해 실험을.. 2010. 5. 31. 이전 1 다음