반응형
CSV 파일 불러오기
방법 1
data <- read.csv('파일명.csv') data <- read.csv('test.csv') # 변수 이름이 없는 CSV 파일 읽기 data <- read.csv('파일명.csv', header = FALSE) # UTF-8 인코딩으로 CSV 파일 읽기 data <- read.csv('파일명.csv', encoding = "UTF-8") |
- read.csv() 함수는 기본적으로 첫 번째 행을 변수 이름으로 간주
- 만약 데이터에 변수 이름이 없는 경우, header = FALSE 옵션을 추가하여 변수 이름을 제거할 수 있음
- 데이터의 문자열을 올바르게 처리하기 위해 인코딩을 지정해야 할 수 있음
- 예를 들어, UTF-8로 인코딩된 CSV 파일을 읽는 경우 : encoding = "UTF-8" 옵션 추가
불러오기 주요 옵션 file: CSV 파일명과 경로 또는 URL을 지정 (필수) header: 논리값으로, CSV 파일의 첫 번째 행을 변수 이름으로 사용할지 여부를 지정, 기본값은 TRUE sep: 필드를 구분하는 구분 기호를 지정, 기본값은 쉼표(",") quote: 인용 부호(예: 따옴표)를 지정, 기본값은 더블 따옴표("") dec: 실수의 소수점을 나타내는 문자를 지정, 기본값은 점(".") colClasses: 각 열의 데이터 형식을 지정, 예를 들어, colClasses = c("numeric", "character", "factor")와 같이 사용할 수 있음 nrows: 파일에서 불러올 행의 최대 개수를 지정, 기본값은 NA로, 모든 행을 불러옴 skip: 파일에서 건너뛸 행의 수를 지정, 기본값은 0으로, 건너뛰지 않음 na.strings: 누락된 값을 나타내는 문자열을 지정 encoding: 파일의 인코딩을 지정, 기본값은 시스템의 로캘에 따라 달라짐 stringsAsFactors: 논리값으로, 문자열 변수를 팩터(factor)로 변환할지 여부를 지정, 기본값은 TRUE 불러오기 옵션은 많으나, 실질적으로 사용하는 것은 많지 않음 |
방법 2
Import Dataset
왜 CSV 파일을 사용하는 걸 까?
- 엑셀은 최대 행(row)이 1,048,576개로 제약이 있으나,
- CSV(Comma-Separated Values) 파일에는 일반적으로 행(row) 제약이 없음
- CSV는 텍스트 파일 형식으로, 각 행이 쉼표(또는 다른 구분 기호)로 구분된 데이터를 포함하여. CSV 파일의 크기는 운영 체제 또는 사용하는 소프트웨어에 따라 제한될 수 있지만, 행의 수에 대한 명시적인 제약은 없음
- 100만개가 넘는 csv파일 엑셀로 열수가 없음
- R, Python또는 다른 스크립트 언어를 사용하면 대용량을 파일을 Upload하여, 분석하거나 다른 파일 형식으로 변환하는 작업을 수행할 수 있음
CSV 파일 저장하기
write.csv(저장할data, '파일명.csv') write.csv(data, 'test2.csv') # 데이터프레임 df를 "output.csv" 파일로 UTF-8 인코딩으로 저장 write.csv(df, file = "output.csv", fileEncoding = "UTF-8") # 데이터프레임 df를 "output.csv" 파일로 cp949 인코딩으로 저장 write.csv(df, file = "output.csv", fileEncoding = "cp949") |
- UTF-8 인코딩으로 저장하면 한글과 다른 언어의 문자가 올바르게 표시되며, 다른 시스템에서도 잘 읽을 수 있음
- 윈도우에서 UTF-8로 저장하고, 엑셀에서 불러오는 경우, 한글이 깨지는 경우 (한글 깨짐)가 있으므로 cp949로 저장
저장하기 주요 옵션 x: 데이터프레임을 저장할 R 객체를 지정 (필수) file: 저장할 CSV 파일의 경로와 이름을 지정 (필수) row.names: 논리값으로, 데이터프레임의 행 이름을 포함할지 여부를 지정, 기본값은 TRUE quote: 인용 부호(예: 따옴표)를 지정, 기본값은 더블 따옴표("") sep: 필드를 구분하는 구분 기호를 지정, 기본값은 쉼표(",") dec: 실수의 소수점을 나타내는 문자를 지정, 기본값은 점(".") na: 누락된 값을 나타낼 문자열을 지정, 기본값은 NA로, 누락된 값은 빈 칸으로 저장 col.names: 논리값으로, 변수 이름을 CSV 파일에 포함할지 여부를 지정, 기본값은 TRUE append: 논리값으로, 기존 파일에 추가로 쓸지 여부를 지정, 기본값은 FALSE 저장하기 옵션은 많으나, 실질적으로 사용하는 것은 많지 않음 |
728x90
'데이터 분석 (with Rstudio)' 카테고리의 다른 글
Rstudio 엑셀 파일 불러오기/저장하기 (0) | 2023.07.26 |
---|---|
RStudio 환경 소개 및 주요 설정, 주요 패키지 소개 (0) | 2023.07.24 |
데이터 분석 #2 (DIKW 피라미드) (0) | 2023.07.22 |
데이터 분석 #1 (0) | 2023.07.22 |
데이터 분석 프로그래밍 언어 #2 (0) | 2023.07.22 |