데이터 마이닝 이란 대규모 데이터로부터 유용한 정보를 자동화된 방법으로 탐색하는 과정을 의미하며, 지식 발견(KDD, Knowledge discovey in database) 과정의 한 단계로서 중요한 역할을 하고 있다.
그렇다면 최근에 와서 이에 대한 관심이 증대되는 이유는 무엇일까?
먼저 기술의 발달을 첫째 이유로 볼 수 있다.
단적인 예로 마이크로어레이(Microarray) 기술의 발달은 생물정보학(Bioinformatics)이라는 학문을 만들 정도로 크나큰 영향을 미친 기술로 과거 유전자 관련 분야에서는 한번에 하나의 유전자에 관해 실험을 수행하여 유전자 발현 정보를 획득하였지만, 현재는 마이크로어레이를 이용하여 수천에서 수만 개의 유전자 발현 정보를 한번의 실험을 통하여 획득할 수 있게 되었다. 그 결과 과거에 사용하였던 유전자 발현 정보 분석 방법은 현재에는 그 사용이 어렵게 되었고, 대규모 데이터에 적합한 새로운 분석 방법이 필요하게 되었다.
더불어 통신 기술 및 인터넷의 발달은 현대 사회에 정보의 홍수를 일으켜, 너무 많은 정보로 인해 정작 필요한 정보를 획득하는 것이 어렵게 되었다. 불과 10 여 년 전만 하더라도 우리가 접하는 정보란 대부분이 신문, TV, Radio, 그리고 책과 같은 한정된 매체를 통해서만이 가능하였으며, 개인은 단순한 정보의 소비자였을 뿐이었다. 하지만 현재는 1인 미디어가 대중화 될 만큼 개개인이 단순한 정보의 소비자로 남아 있기 보다는 정보의 생산자로 변화하고 있다. 이로 인해 한해 생산 되는 정보의 양을 기하급수적으로 증가하고 있다. 이러한 정보의 홍수 속에서 내가 필요로 하는 정보를 추출하기 위해서 보다 고도화되고 정교한 방법이 필요하게 되었다.
정리하자면 생산되는 대규모 데이터를 분석하고 이로부터 유용한 정보를 추출하기 위해서는 데이터 분석을 위한 새로운 방안이 필요하였고, 이에 대한 대안으로 지식 발견의 한 단계인 데이터 마이닝이 관심을 받게 된 것이다.
다음으로 기업들의 패러다임의 전환도 큰 영향을 미치고 있다.
과거의 기업은 단순히 재화를 생산하는 것이 전부였다. 수요가 얼마나 되는지, 고객의 요구가 어떠한지에 대해서는 관심이 없었고 오로지 어떻게 빨리, 많이, 값싸게 만들 것인가에 목적을 두고 있었다. 그 결과는 세계 대공황으로 이어졌으며 전 세계가 힘든 시기를 보내게 만들었다. 그 이후 기업들은 단순히 재화의 생산뿐만 아니라 다양한 고객들의 요구를 수용하며 기업간 경쟁에 효과적으로 대처하고자 하고 있다. 특히 정보 분석을 활용한 마켓팅 분야에서의 성공은 데이터 마이닝 기술의 활용이 기업의 생존에 중요한 역량이 되었음을 보여주고 있다. 가장 좋은 예는 백화점의 VIP 마케팅을 들 수 있다. 이는 파레토의 법칙을 아주 잘 활용한 것으로 백화점 내 고객의 소비 형태를 분석하여, 이 중에서 대부분의 백화점 매출을 올려주는 상위 고객들을 대상으로 이들만을 위한 이벤트와 편의를 제공함으로써 이들이 남들과는 다르다는 특권 의식과 대우 받고 있음을 느끼게 해 줌으로써 지속적인 매출을 창출하려고 하고 있다.
쉽게 말해 데이터 마이닝 기법이 기업의 이익 추구에 도움이 된다는 것이며, 기업의 관심은 관련 분야나 학문의 발전에 있어 매우 중요하다.
서론이 길었다. 이 블로그에서는 데이터 마이닝에 관한 도서나 논문 리뷰, 간단한 구현 등을 통해 이해를 높이고자 한다. 이에 대한 시작으로 ‘Introduction to Data Mining(2005)’ 이란 도서를 공부하고 그 내용을 정리하고자 한다. 이 책은 데이터 마이닝에 대해 비교적 쉽게 설명된 책으로 크게 Data, Classcification, Association analysis, clustering, 그리고 anomaly detection의 5가지 주제에 대해 다루고 있다. 이후 데이터 마이닝에 관한 포스팅은 각 장을 공부하고 이에 대해 요약하는 형태로 게재 할 계획이다. 더불어 가능한 경우에는 Matlab을 이용한 간단한 실험도 추가하여 이해를 돕고자 한다.
덧글,
아직은 데이터 마이닝이란 분야에 대해 아는 것보다 모르는 것이 더 많기 때문에 잘못된 지식이나 정보를 올릴 수도 있으므로 이에 대해 지적하거나 언급해주시면 감사히 생각하겠습니다.
댓글