본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

Rstudio CSV 파일 불러오기/저장하기

by Vitaminymc 2023. 7. 23.
반응형

CSV 파일 불러오기

방법 1

data <- read.csv('파일명.csv')

data <- read.csv('test.csv')

# 변수 이름이 없는 CSV 파일 읽기
data <- read.csv('파일명.csv', header = FALSE)

# UTF-8 인코딩으로 CSV 파일 읽기
data <- read.csv('파일명.csv', encoding = "UTF-8")
  • read.csv() 함수는 기본적으로 첫 번째 행을 변수 이름으로 간주
  • 만약 데이터에 변수 이름이 없는 경우, header = FALSE 옵션을 추가하여 변수 이름을 제거할 수 있음
  • 데이터의 문자열을 올바르게 처리하기 위해 인코딩을 지정해야 할 수 있음
  • 예를 들어, UTF-8로 인코딩된 CSV 파일을 읽는 경우 :  encoding = "UTF-8" 옵션 추가
불러오기 주요 옵션

file: CSV 파일명과 경로 또는 URL을 지정 (필수)

header: 논리값으로, CSV 파일의 첫 번째 행을 변수 이름으로 사용할지 여부를 지정, 기본값은 TRUE

sep: 필드를 구분하는 구분 기호를 지정, 기본값은 쉼표(",")

quote: 인용 부호(예: 따옴표)를 지정, 기본값은 더블 따옴표("")

dec: 실수의 소수점을 나타내는 문자를 지정, 기본값은 점(".")

colClasses: 각 열의 데이터 형식을 지정, 예를 들어, colClasses = c("numeric", "character", "factor")와 같이 사용할 수 있음

nrows: 파일에서 불러올 행의 최대 개수를 지정, 기본값은 NA로, 모든 행을 불러옴

skip: 파일에서 건너뛸 행의 수를 지정, 기본값은 0으로, 건너뛰지 않음

na.strings: 누락된 값을 나타내는 문자열을 지정

encoding: 파일의 인코딩을 지정, 기본값은 시스템의 로캘에 따라 달라짐

stringsAsFactors: 논리값으로, 문자열 변수를 팩터(factor)로 변환할지 여부를 지정, 기본값은 TRUE

불러오기 옵션은 많으나, 실질적으로 사용하는 것은 많지 않음

방법 2

Import Dataset

 

 

왜 CSV 파일을 사용하는 걸 까?

  • 엑셀은 최대 행(row)이 1,048,576개로 제약이 있으나,
  • CSV(Comma-Separated Values) 파일에는 일반적으로 행(row) 제약이 없음
  • CSV는 텍스트 파일 형식으로, 각 행이 쉼표(또는 다른 구분 기호)로 구분된 데이터를 포함하여. CSV 파일의 크기는 운영 체제 또는 사용하는 소프트웨어에 따라 제한될 수 있지만, 행의 수에 대한 명시적인 제약은 없음
  • 100만개가 넘는 csv파일 엑셀로 열수가 없음
  • R, Python또는 다른 스크립트 언어를 사용하면 대용량을 파일을 Upload하여, 분석하거나 다른 파일 형식으로 변환하는 작업을 수행할 수 있음

CSV 파일 저장하기

 write.csv(저장할data, '파일명.csv')


 write.csv(data, 'test2.csv')


# 데이터프레임 df를 "output.csv" 파일로 UTF-8 인코딩으로 저장

write.csv(df, file = "output.csv", fileEncoding = "UTF-8")


# 데이터프레임 df를 "output.csv" 파일로 cp949 인코딩으로 저장

write.csv(df, file = "output.csv", fileEncoding = "cp949")  
  • UTF-8 인코딩으로 저장하면 한글과 다른 언어의 문자가 올바르게 표시되며, 다른 시스템에서도 잘 읽을 수 있음
  • 윈도우에서 UTF-8로 저장하고, 엑셀에서 불러오는 경우, 한글이 깨지는 경우 (한글 깨짐)가 있으므로 cp949로 저장

저장하기 주요 옵션

x: 데이터프레임을 저장할 R 객체를 지정 (필수)

file: 저장할 CSV 파일의 경로와 이름을 지정 (필수)

row.names: 논리값으로, 데이터프레임의 행 이름을 포함할지 여부를 지정, 기본값은 TRUE

quote: 인용 부호(예: 따옴표)를 지정, 기본값은 더블 따옴표("")

sep: 필드를 구분하는 구분 기호를 지정, 기본값은 쉼표(",")

dec: 실수의 소수점을 나타내는 문자를 지정, 기본값은 점(".")

na: 누락된 값을 나타낼 문자열을 지정, 기본값은 NA로, 누락된 값은 빈 칸으로 저장

col.names: 논리값으로, 변수 이름을 CSV 파일에 포함할지 여부를 지정, 기본값은 TRUE

append: 논리값으로, 기존 파일에 추가로 쓸지 여부를 지정, 기본값은 FALSE

저장하기 옵션은 많으나, 실질적으로 사용하는 것은 많지 않음

728x90