반응형
tidyverse 패키지
tidyverse는 R 프로그래밍 언어를 사용하는 데이터 분석 및 시각화 작업을 단순화하고 향상시키기 위한 패키지 모음이다.
tidyverse에 포함된 패키지는 데이터를 더 효과적으로 다루고 시각화하며, 코드의 가독성을 높이고 데이터 분석 작업을 더 편리하게 만들어 준다.
tidyverse 포함 패키지
tidyverse 패키지를 설치하고 라이브러리로 불러오면, 아래 포함 패키지의 기능을 모두 사용할 수 있다.
tidyverse 패키지 설치를 통해서 가장 많이 하는 데이터 분석의 대부분을 할 수 있다.
(엑셀로 하는 데이터 분석을 엑셀보다 빠르고 쉽게 할 수 있다.)
install.packages('tidyverse') library(tidyverse) |
> library(tidyverse) ── Attaching core tidyverse packages ───────────────────────────────────────────── tidyverse 2.0.0 ── ✔ dplyr 1.1.2 ✔ readr 2.1.4 ✔ forcats 1.0.0 ✔ stringr 1.5.0 ✔ ggplot2 3.4.2 ✔ tibble 3.2.1 ✔ lubridate 1.9.2 ✔ tidyr 1.3.0 ✔ purrr 1.0.1 ── Conflicts ─────────────────────────────────────────────────────────────── tidyverse_conflicts() ── ✖ dplyr::filter() masks stats::filter() ✖ dplyr::lag() masks stats::lag() ℹ Use the conflicted package to force all conflicts to become errors |
library(tidyverse)
300x250
패키지명 | 패키지 기능 |
dplyr | 데이터 프레임을 다루기 위한 패키지로, 데이터 필터링, 정렬, 그룹화, 요약 및 변환 작업을 효율적으로 수행 filter(), select(), mutate(), group_by(), summarize() 등의 함수를 제공 |
readr | 데이터를 읽고 작성하는 패키지로, CSV (comma-separated values, 쉼표로 구분된 값), TSV ( tab-separated values, 탭으로 구분된 값) 데이터 형식을 처리 |
forcats | 범주형 변수를 다루는 패키지로, 범주형 데이터의 수준을 정렬하고 관리 |
stringr | 문자열 처리를 위한 패키지로, 정규 표현식을 사용하여 문자열을 조작하고 추출 |
ggplot2 | 데이터 시각화 패키지로, 히스토그램, 산점도, 상자 그림 등의 그래프를 생성하기 위한 강력한 도구를 제공 "Grammar of Graphics"라는 개념을 기반으로 하며, 데이터를 쉽게 매핑하고 다양한 시각적 요소를 추가 |
magrittr | %>% : 파이프 연산자 ( |>로 새롭게 변경됨) 연산자 좌측(우측)의 데이터를 우측(좌측) 함수의 첫번째 전달인자로 사용 |
tibble | 데이터 프레임을 개선한 형식으로 다루는 패키지 데이터를 더 명확하게 표현하고 메모리 사용량을 줄임 |
lubridate | 날짜와 시간을 다루는 패키지로, 날짜 및 시간 형식을 파싱하고 연산하는 데 사용 |
tidyr | 데이터를 깔끔하게 정리하고 긴 형식에서 넓은 형식으로 또는 그 반대로 변환하는 데 사용 Pivot_longer() 및 Pivot_wider() 함수를 포함 |
purrr | 함수형 프로그래밍을 지원하며, 리스트와 벡터에 대한 작업을 단순화하고 반복 작업을 효율적으로 수행할 수 있록 지원 |
Image source : https://www.tidyverse.org/
tidyverse 특장점 → R 특장점
Teaching the tidyverse to R novices
https://medium.com/@jaheppler/teaching-the-tidyverse-to-r-novices-7747e8ce14e
- the dplyr way is much easier to read and understand. (dplyr 방식은 읽고 이해하기가 훨씬 쉽습니다.)
- students can be up and running with a good amount of knowledge about R, data manipulation, and visualization in a relatively short amount of time. (학생들은 상대적으로 짧은 시간 내에 R, 데이터 조작 및 시각화에 대한 상당한 양의 지식을 갖고 작업을 시작할 수 있습니다.)
- After an hour-and-a-half together, even students who haven’t programmed previously are learning to work with the language. (한 시간 반 정도 함께 공부하면 이전에 프로그래밍을 해본 적이 없는 학생들도 언어 작업을 배우고 있습니다.)
Teach the tidyverse to beginners
http://varianceexplained.org/r/teach-tidyverse/
- ggplot2 is easier to teach beginners, not harder, and makes constructing plots simpler, not more complicated. (ggplot2는 초보자를 가르치기 쉽고 어렵지 않으며 플롯 구성을 더 복잡하지 않고 더 간단하게 만듭니다.)
728x90
'데이터 분석 (with Rstudio)' 카테고리의 다른 글
[Rstudio tidyverse] dplyr 패키지 (group_by, summarize, arrange) (1) | 2023.10.08 |
---|---|
[Rstudio tidyverse] dplyr 패키지 (filter, select, mutate) (1) | 2023.10.07 |
[R studio] 다른 디렉터리 (디렉토리, 폴더) 파일 불러오기 저장하기 (0) | 2023.10.07 |
[R studio] 작업 디렉터리 (디렉토리, 폴더) 확인, 설정 변경 관리 (0) | 2023.10.07 |
[R Studio] 비모수 검정과 사후 분석 (논문 작성을 위한 여섯 번째 분석) (1) | 2023.10.02 |