본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

[R studio] tidyverse 패키지와 특장점

by Vitaminymc 2023. 10. 7.
반응형

 tidyverse 패키지

tidyverse는 R 프로그래밍 언어를 사용하는 데이터 분석 및 시각화 작업을 단순화하고 향상시키기 위한 패키지 모음이다.

tidyverse에 포함된 패키지는 데이터를 더 효과적으로 다루고 시각화하며, 코드의 가독성을 높이고 데이터 분석 작업을 더 편리하게 만들어 준다. 

 

tidyverse 포함 패키지

tidyverse 패키지를 설치하고 라이브러리로 불러오면, 아래 포함 패키지의 기능을 모두 사용할 수 있다.

tidyverse 패키지 설치를 통해서 가장 많이 하는 데이터 분석의 대부분을 할 수 있다.

(엑셀로 하는 데이터 분석을 엑셀보다 빠르고 쉽게 할 수 있다.)  

install.packages('tidyverse')

library(tidyverse)
> library(tidyverse)
── Attaching core tidyverse packages ───────────────────────────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.2     ✔ readr     2.1.4
✔ forcats   1.0.0     ✔ stringr   1.5.0
✔ ggplot2   3.4.2     ✔ tibble    3.2.1
✔ lubridate 1.9.2     ✔ tidyr     1.3.0
✔ purrr     1.0.1     
── Conflicts ─────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package to force all conflicts to become errors
library(tidyverse)

300x250
패키지명 패키지 기능
dplyr 데이터 프레임을 다루기 위한 패키지로, 데이터 필터링, 정렬, 그룹화, 요약 및 변환 작업을 효율적으로 수행
filter(), select(), mutate(), group_by(), summarize() 등의 함수를 제공
readr 데이터를 읽고 작성하는 패키지로, CSV (comma-separated values, 쉼표로 구분된 값), TSV ( tab-separated values, 탭으로 구분된 값) 데이터 형식을 처리
forcats 범주형 변수를 다루는 패키지로, 범주형 데이터의 수준을 정렬하고 관리
stringr 문자열 처리를 위한 패키지로, 정규 표현식을 사용하여 문자열을 조작하고 추출
ggplot2 데이터 시각화 패키지로, 히스토그램, 산점도, 상자 그림 등의 그래프를 생성하기 위한 강력한 도구를 제공
"Grammar of Graphics"라는 개념을 기반으로 하며, 데이터를 쉽게 매핑하고 다양한 시각적 요소를 추가
magrittr %>% : 파이프 연산자  (  |>로 새롭게 변경됨)
연산자 좌측(우측)의 데이터를 우측(좌측) 함수의 첫번째 전달인자로 사용
tibble 데이터 프레임을 개선한 형식으로 다루는 패키지
데이터를 더 명확하게 표현하고 메모리 사용량을 줄임
lubridate 날짜와 시간을 다루는 패키지로, 날짜 및 시간 형식을 파싱하고 연산하는 데 사용
tidyr 데이터를 깔끔하게 정리하고 긴 형식에서 넓은 형식으로 또는 그 반대로 변환하는 데 사용
Pivot_longer() 및 Pivot_wider() 함수를 포함
purrr 함수형 프로그래밍을 지원하며, 리스트와 벡터에 대한 작업을 단순화하고 반복 작업을 효율적으로 수행할 수 있록 지원

 

 

 

Image source : https://www.tidyverse.org/

 

Tidyverse

The tidyverse is an integrated collection of R packages designed to make data science fast, fluid, and fun.

www.tidyverse.org

 

tidyverse 특장점 → R 특장점

Teaching the tidyverse to R novices

https://medium.com/@jaheppler/teaching-the-tidyverse-to-r-novices-7747e8ce14e

  • the dplyr way is much easier to read and understand. (dplyr 방식은 읽고 이해하기가 훨씬 쉽습니다.)
  • students can be up and running with a good amount of knowledge about R, data manipulation, and visualization in a relatively short amount of time. (학생들은 상대적으로 짧은 시간 내에 R, 데이터 조작 및 시각화에 대한 상당한 양의 지식을 갖고 작업을 시작할 수 있습니다.)
  • After an hour-and-a-half together, even students who haven’t programmed previously are learning to work with the language. (한 시간 반 정도 함께 공부하면 이전에 프로그래밍을 해본 적이 없는 학생들도 언어 작업을 배우고 있습니다.)

Teach the tidyverse to beginners

http://varianceexplained.org/r/teach-tidyverse/

  • ggplot2 is easier to teach beginners, not harder, and makes constructing plots simpler, not more complicated. (ggplot2는 초보자를 가르치기 쉽고 어렵지 않으며 플롯 구성을 더 복잡하지 않고 더 간단하게 만듭니다.)

 

 

 

 

728x90