본문 바로가기
BLADEBONE/History

Coursera - Getting and Cleaning Data 강좌수료

by BLADEBONE 2014. 11. 7.

9월에 이어 지난 10월에는 Coursera의 Getting and Cleaning Data 강좌를 수강하였다. 확실히 지난번 강의에 비해 난이도가 증가됨을 느낄 수 있었다. 사실 내용만 봐서는 본격적으로 데이터 분석이 시작된 것도 아닌데 quiz나 course project의 난이도가 어려워졌다. 특히 course project의 경우, 이전과는 달리 최종 결과물에 대한 정보가 자세히 주어지지 않고 최종 결과물을 획득하기 위해 수행해야할 과정만을 언급해 두었는데 여러 의미로 해석될 수 있어 course project 포럼에서도 많은 수강자들이 멘붕에 빠져 뭘 해야하는지 모르겠다며 글들이 올라왔다. 사실 나도 처음에는 별거 아니겠거니 하다 마지막까지 꽤 고생을 했다. 어떻게 진행해야 할 지 갈피를 잡지 못해 한동안 헤매다 포럼에 올라온 글들을 읽고서 겨우 해결했다. 그나마도 codebook을 작성해야 하는데, 시간이 없어 그냥 별도 파일을 만들지 않고 readme.md 파일에 작성했더니 peer reviewer들이 싸그리 감점을 줘서 약간 빈정상하기도 하였다. 아무튼 그래도 탈락 없이 잘 마무리하였다는데 만족하고 있다.


먼저 아래는 Getting and Cleaning Data의 강의 목차이다. 강의 초반에는 R에서 다양한 형태의 데이터를 읽어오는 방법을, 후반부에서는 조건에 따라 데이터를 부분집합으로 나누거나 병합하는 방법등을 알려준다. 일단 강의 개수도 예전에 비해 상당히 많이 늘어놔서 시간 투자가 꽤 필요하다.





쉽지는 않았지만 끝까지 강좌를 이수하고 받은 수료증~~~






이번 강좌에서는 부가점을 가질 수 있는 swirl 프로그래밍 강좌에서도 어려움이 있었다. 수행 중에 계속 에러가 발생하여 강좌 진행 자체가 되지 않았기 때문이다. 결국 이는 시스템 로케일(system locale)에 따른 문제로 밝혀졌는데 영어를 중심으로 swirl이 프로그래밍되어 있어 로케일이 영어권이 아닌 다른 문화권에서는 문제가 되었던 것이다. 포럼에 질문글을 올렸으나 한동안 아무런 답변이 없어 포기하고 있었는데 누군가 친절하게 자신도 똑같은 문제를 겪었고 로케일 변경을 통해 해결하였다고 답변해주어 해결할 수 있었다. 이 문제에 대해서도 별도로 한번 작성을 해야 할 것 같다.


이제 경우 Data Science Specialization 과정의 3번째 과정인데 생각보다 어렵다. 특히 R이란 프로그램이 상당히 자유도가 높아서 똑같은 작업을 하더라도 어떤 패키지/함수를 사용하느냐에 따라 접근 방법이 천차만별이라서 가능하다면 자신만의 데이터 처리 노하우를 익히고 이를 정리해두지 않으면 프로그래밍이 상당히 어려운 것 같다. 앞으로 남은 6개의 과정을 과연 무사히 마무리 할 수 있을지 살짝 걱정된다.



반응형

댓글