본문 바로가기
PROGRAMMING/R

[R] 데이터 이해에 유용한 함수들

by BLADEBONE 2014. 9. 23.

데이터 분석에 가장 먼저 수행되어야 할 작업은 현재 다루어야 할 데이터가 무엇인지를 이해하는 것이다. R을 이용한 데이터 분석에 있어 출발점이 될 수 있는 데이터 이해에 활용되는 함수들을 정리함.


각 함수의 자세한 사용법은 명령창에 ?read.table 과 같은 형태로 각 함수에 대해 입력한 후 Help 문서 참조.



■ 데이터 파일 불러오기


일반적인 표 형태의 자료를 불러오는 함수들 - read.table, read.csv, read.csv2, read.delim, read.delim2


(예) example.csv 파일 불러오기 한 후 data 변수에 저장


data <- read.csv("example.csv", sep = ",")




데이터 이해를 도와 주는 함수들


1) 데이터 구조 - class, dim, nrow, ncol


class - 데이터 타입 정보 (vector, list, data.frame 등의 구조)

dim - 데이터의 행 및 열의 개수

nrow - 데이터의 행(row) 개수, 일반적으로 R에서는 Observation의 개수

ncol - 데이터의 열(column) 개수, 일반적으로 R에서는 Variables의 개수


2) 데이터 구성 변수 - names


names - 데이터의 각 variable의 name 출력


3) 데이터 요약 - summary, table, str


summary - 각 variable에 대한 요약된 데이터 정보 보기, variable이 수치 데이터의 경우 min, 1Q, median, mean, 3Q, max, NA의 개수 등의 정보 보여주며, categorical/factor 데이터의 경우, 각각의 개수 출력

table - categorial/factor variable에 대해 각각의 빈도수를 표 형태로 출력

str - 데이터의 구조적 형태를 요약하여 출력


4) 데이터 내용 부분 보기 - head, tail


head - 실제 데이터의 앞쪽 부분 보기 (기본 5개 observations)

tail - 실제 데이터의 뒷쪽 부분 보기 (기본 5개 observations)


5) 데이터 크기 - object.size


object.size - 메모리 상에서의 데이터 크기



각 함수의 실행 예 및 코드


DataUnderstanding.R






반응형

'PROGRAMMING > R' 카테고리의 다른 글

swirl - R 프로그래밍 학습을 위한 라이브러리  (6) 2014.10.06
R Studio - R에 날개를 달다!  (0) 2014.09.19

댓글