본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

RStudio 환경 소개 및 주요 설정, 주요 패키지 소개

by Vitaminymc 2023. 7. 24.
반응형

RStudio

RStudio는 R을 사용하는 데이터 분석가와 데이터 과학자들에게 강력한 통합 개발 환경(IDE)으로서  R 언어를 사용하여 데이터 분석, 시각화, 통계 분석 등을 수행하는 데 최적화된 환경을 제공

Rstudio 화면

  • 좌측 상단의 스크립트 편집기(Editor) 여러 코드를 모아서 프로그래밍하고, 저장할 수 있는 공간
  • 스크립트 편집기(Editor)는 Rstudio를 설치하고, 처음으로 오픈할 때는 나타나지 않으나, 신규로 파일을 작성하거나, 기존에 저장한 파일을 불러오면 활성화됨
  • 코드를 실행할 수 있는 아이콘이 있음 (실행할 코드를 Ctrl + Enter로도 실행 가능)
    • 한 명령문 실행 : 커서가 있는 줄에서 Ctrl + Enter
    • 복수 명령문 실행 : 커서를 드래그하여 블록을 설정하고 Ctrl + Enter
    • 모든 명령문 실행 : Ctrl + Alt + R
  • 좌측 하단의 콘솔(Console)은 일회성 코드를 작성하여 실행하거나, 편집기(Editor)의 실행 과정 및 결과가 표시됨
  • 좌측 하단의 터미널(Terminal)은 윈도우 명령 프롬프트와 유사한 기능
  • 우측 상단의 작업 환경(Environment)은 실행되어 만들어진 각종 변수 등 현재 활성화되어 있는 데이터 정보를 제공
  • 우측 상단의 히스토리(History)는 실행한 명령문, 결과, 패키지 설치, 오류 등의 작업 이력 표시
  • 우측 상단의 커넥션(Connection)은 R과 데이터 서버를 연결하는 창
  • 튜토리얼(Tutorial)은 R을 학습하기 위해서 따라 하며 배울 수 있는 창
  • 우측 하단의 파일(File)은 현재 Work Directory가 표시됨 (데이터 파일을 불러오거나, 저장하는 위치로)
    • Window 파일 탐색기처럼 특정 디렉터리로 이동하여, 특정 파일을 불러오거나 복사, 삭제, 이동 작업 가능
    • 중요한 것은 현재 디렉토리를 확인하고, 데이터 분석을 할 파일이 있는 디렉터리로 이동하여 "Working Directory" 설정임
  • 플롯(Plot)은 그래프를 실행했을 때, 결과가 표시됨 (그림을 확대하거나, 그림 파일이나 HTML 파일로 저장할 수 있음)
  • 패키지(Package)는 현재 설치된 패키지와 실행되고 있는 패키지를 보여줌 
  • 헬프(Help)는 특정 패키지의 도움말을 찾아볼 수 있음
  • 뷰어(Viewer)는 분석/실행 결과가 숫자가 아닌, 이미지 형태일 때, 뷰어창에서 보여줌 

주요 설정

Tools - Global Options

 

배경, 색상, 폰트 사이즈 변경

Tools - Global Options - Appearance

Tools - Global Options - Appearance

 

기본 저장 Directory 설정

Tools - Global Options - General

'Basic' tap에서 Default working directory 설정

Rstudio (R) 프로그램을 통해 저장될 Directory로, 반드시 영문으로만 된 Directory(이름)를 설정해야 함

(한글이 포함되면 오류 발생 가능성 잠재)

getwd() 함수로 확인 및 setwd() 함수로 변경 가능

Default working directory

 

한글 사용 Encoding 설정

Tools - Global Options - Code

'Saving' tap에서 Default text encoding 설정

UTF-8로 설정 (스크립트에 주석을 작성하고 저장할 때, 한글 깨짐 발생할 수 있음)

Encoding (UTF-8)

 

RStudio를 사용하면 R만 사용했을 때와 비교하여 다음과 같은 이점들이 있음

편리한 사용자 인터페이스

  • RStudio는 사용자 친화적인 인터페이스를 제공,  사용자들이 데이터와 코드를 쉽게 관리하고 조작할 수 있음

프로젝트 관리: 

  • RStudio는 프로젝트 단위로 작업을 구성하고 데이터와 코드를 체계적으로 관리할 수 있음
  • 프로젝트를 사용하여 작업 디렉토리, 작업 공간, 패키지 등을 효과적으로 관리할 수 있

스크립트 편집기

  • RStudio는 R 스크립트를 작성하고 편집하는 데 최적화된 편집기를 제공
  • 문법 강조, 자동 완성, 들여쓰기 등의 기능을 포함하여 코드 작성을 지원

명령 프롬프트 (콘솔)

  • RStudio의 하단에 위치한 콘솔 창은 R 언어를 바로 실행하고 결과를 확인하는 공간입니다. 사용자들은 콘솔을 통해 R 코드를 입력하고 실행한 결과를 확인하며, 상호작용적으로 데이터를 조작할 수 있습니다.

패키지 관리

  • R은 수많은 패키지(라이브러리)를 제공합니다. RStudio는 이러한 패키지를 편리하게 설치, 로드, 관리할 수 있는 기능을 제공하여 데이터 분석에 필요한 도구들을 쉽게 사용할 수 있습니다.

파일 및 환경 관리

  • RStudio는 작업 디렉토리와 작업 공간을 관리하고, 프로젝트 단위로 작업을 구성하여 데이터 및 코드를 체계적으로 관리할 수 있도록 도와줍니다.

플롯(Plot) 창

  • 데이터 시각화는 데이터 분석에서 매우 중요한 부분입니다. RStudio는 그래프 및 플롯 결과를 시각화하기 위한 플롯 창을 제공하여 사용자들이 데이터를 시각적으로 탐색하고 이해할 수 있도록 합니다.

도움말 및 팁 제공

  • RStudio는 R 언어에 대한 도움말과 팁을 제공하여 사용자들이 명령어를 쉽게 찾고 이해할 수 있도록 지원합니다.
Integrated Development Environment (IDE, 통합 개발 환경)는 소프트웨어 개발과 프로그래밍을 위한
통합된 환경을 제공하는 소프트웨어 도구


 -  개발자들이 하나의 애플리케이션 내에서 코드 편집, 디버깅, 빌드, 컴파일, 테스트 등의 작업을
    효율적으로 수행할 수 있도록 지원

 -  개발자들이 코드를 작성하고 프로젝트를 관리하며 소프트웨어를 개발하는 데 도움이 되는 다양한 기능들을 제공

     1) 코드 편집기: 통합 개발 환경은 코드 작성을 위한 편집기를 제공
        코드 편집기는 문법 강조, 자동 완성, 들여쓰기 등과 같은 기능으로 개발자들이 코드를 작성하는 데 도움을 줌

     2) 빌드 및 컴파일: 통합 개발 환경은 소스 코드를 컴파일하고 빌드하는 기능을 제공

     3) 디버깅: 개발자들이 코드의 버그를 찾고 수정하는 데 도움을 줌

     4)  프로젝트 관리: 통합 개발 환경은 개발 프로젝트를 구성하고 관리하는 기능을 제공

  -  IDE는 다양한 프로그래밍 언어와 개발 환경에 따라 다양한 종류가 있음
     예) 자바 개발을 위한 Eclipse, 파이썬 개발을 위한 PyCharm, C/C++ 개발을 위한 Visual Studio 등

  -  이러한 통합 개발 환경은 개발 작업을 효율적으로 수행하는 데 매우 유용하며,
     개발자들의 생산성과 코드 품질을 향상시키는 데 기여

 

패키지 설치 및 패키지 사용

R에서 기본적으로 제공되는 기능도 있으나, 다양한 기능을 사용하기 위해서는 해당 패키지 설치가 필요

패키지 설치는 스크립트 편집기에 install.packages('패키지명') 를 실행하여 설치함

우측 하단의 패키지(Package)에 설치 여부를 확인할 수 있음

해당 패키지를 사용하기 위해서는 추가 작업이 필요함

설치된 패키지를  스크립트 편집기에 library(패키지명) 를 실행하여, 사용 가능한 상태로 불어오는 작업이 필요함

R을 종료하면, 해당 패키지를 사용하기 위해서, 위에 library(패키지명) 를 다시 실행해줘야 함

설치한 패키지를 라이브러리를 통해서, 사용할 수 있도록 하는 작업임

한번 설치된 패키지를 다시 설치할 필요는 없음 (한번 설치된 패키지는 컴퓨터에 저장되어 있음)

다만, 패키지가 버전 업되면서, 새로 설치해야 하는 경우가 발생하기도 함

 

현재(2023년 8월 기준), 19,874개의 패키지가 있음

Currently, the CRAN package repository features 19874 available packages.

The Comprehensive R Archive Network (r-project.org)

The Comprehensive R Archive Network (r-project.org)

 

The Comprehensive R Archive Network

 

cran.r-project.org

Available CRAN Packages By Date of Publication

https://cran.r-project.org/web/packages/available_packages_by_date.html

Available CRAN Packages By Name

https://cran.r-project.org/web/packages/available_packages_by_name.html

 

주요 패키지

    주요 기능  
readxl 엑셀 파일 불러오기
tidyverse R 성능을 Upgrade  한 대표 Library
  - ggplot2, dplyr, tibble, stringr, tidyr,, forcats, purrr, lubridate 등
  - 파이프 연산자 %>% (컨트롤 + 시프트 + m)
  - %>% 에서 |>로 변경됨 (둘 다 사용 가능)
ggplot2 각 종 그래프(Plot) 작성 (Visualization 특화 Library)
stringr 문자 편집
scale 그래프 축 옵션 설정
httr
rvest
HTML Data 수집
plotly Interactive 그래프로 변환
lubridate 날짜형 데이터 관리 (년, 월, 일, 요일 계산 등)
xts
dygraphs
시계열 객체로 변환 및 Interactive 그래프
DT HTML 형태의 표로 전체 데이터 표시(10개, 20개 등) 및 특정 단어 검색 가능

tidyverse 내장 패키지

tidyverse 내장 패키지

728x90