데이터 분석에 가장 먼저 수행되어야 할 작업은 현재 다루어야 할 데이터가 무엇인지를 이해하는 것이다. R을 이용한 데이터 분석에 있어 출발점이 될 수 있는 데이터 이해에 활용되는 함수들을 정리함.
각 함수의 자세한 사용법은 명령창에 ?read.table 과 같은 형태로 각 함수에 대해 입력한 후 Help 문서 참조.
■ 데이터 파일 불러오기
일반적인 표 형태의 자료를 불러오는 함수들 - read.table, read.csv, read.csv2, read.delim, read.delim2
(예) example.csv 파일 불러오기 한 후 data 변수에 저장
data <- read.csv("example.csv", sep = ",")
■ 데이터 이해를 도와 주는 함수들
1) 데이터 구조 - class, dim, nrow, ncol
class - 데이터 타입 정보 (vector, list, data.frame 등의 구조)
dim - 데이터의 행 및 열의 개수
nrow - 데이터의 행(row) 개수, 일반적으로 R에서는 Observation의 개수
ncol - 데이터의 열(column) 개수, 일반적으로 R에서는 Variables의 개수
2) 데이터 구성 변수 - names
names - 데이터의 각 variable의 name 출력
3) 데이터 요약 - summary, table, str
summary - 각 variable에 대한 요약된 데이터 정보 보기, variable이 수치 데이터의 경우 min, 1Q, median, mean, 3Q, max, NA의 개수 등의 정보 보여주며, categorical/factor 데이터의 경우, 각각의 개수 출력
table - categorial/factor variable에 대해 각각의 빈도수를 표 형태로 출력
str - 데이터의 구조적 형태를 요약하여 출력
4) 데이터 내용 부분 보기 - head, tail
head - 실제 데이터의 앞쪽 부분 보기 (기본 5개 observations)
tail - 실제 데이터의 뒷쪽 부분 보기 (기본 5개 observations)
5) 데이터 크기 - object.size
object.size - 메모리 상에서의 데이터 크기
■ 각 함수의 실행 예 및 코드
'PROGRAMMING > R' 카테고리의 다른 글
swirl - R 프로그래밍 학습을 위한 라이브러리 (6) | 2014.10.06 |
---|---|
R Studio - R에 날개를 달다! (0) | 2014.09.19 |
댓글