본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

데이터 분석 (with Rstudio)62

[Rstudio] 상관분석 (Correlation Analysis) 상관분석 (Correlation Analysis) 상관분석은 두 변수 간에 상관관계가 존재하는지를 파악하고, 상관관계의 정도를 측정하는 것이다. 이 분석은 두 변수가 어떻게 연관되어 있는지 이해하고 예측하는 데 도움이 된다. 상관분석은 주로 두 변수 간의 선형 관계를 파악하기 위해 사용된다. 상관도란 통계학적인 측면에서 선형적 상관도를 의미하며, 두 변수의 변수값이 산점도상의 직선을 중심으로 분포되어 있는 정도를 나타낸다. 상관 계수는 두 변수 간의 상관관계의 강도와 방향을 나타내는 숫자로, 가장 많이 사용하는 것이 '피어슨의 상관계수(Pearson Correlation Coefficient)"이다. 피어슨 상관 계수는 보통 -1부터 1 사이의 값을 가지며, 다음과 같이 해석된다. 1에 가까운 값: 양의.. 2023. 11. 9.
[Rstudio] Line plot 선 그래프 with ggplot 선 그래프 (Line Chart) 선 그래프(Line Chart)는 시계열 데이터나 연속 데이터의 변화를 그래프로 나타낸 것이다. 데이터의 위치 점들을 선으로 연결하여 데이터의 추세나 패턴을 보여준다. 선 그래프는 주로 연속 데이터를 시각화하는 데 사용되며, 시간, 온도, 주가, 판매량 등과 같은 연속적으로 변화하는 데이터를 시각화하여, 데이터의 변화나 경향을 파악하는 데 유용하다. R 기본함수 : plot 함수 사용 사용 데이터 : 서울시 일 기온 (평균기온, 최저기온, 최고기온) Data source : https://data.kma.go.kr/ 기상자료개방포털 data.kma.go.kr 기간 : 2022년 1월 1일 ~ 2023년 10월 14일 관측 지역 : 서울(108) library(readxl.. 2023. 10. 18.
[Rstudio] 산점도 (scatter plot) with ggplot 산점도 (scatter plot) 산점도(Scatter Plot)는 두 개의 변수 간의 관계를 점을 통해서 표시하는 그래프이다. 각 데이터 포인트는 두 변수의 값을 나타내며, 이를 x축과 y축에 대응시켜 산포도를 생성한다. 산점도를 통해 두 변수 간의 상관 관계를 확인할 수 있으며, 양의 상관 관계인 경우 데이터 포인트는 오른쪽 상단으로 향하고, 음의 상관 관계인 경우 왼쪽 상단으로 향한다. 데이터 포인트가 어디에 집중되어 있는지와 분포를 파악할 수 있으며, 데이터가 여러 군집으로 구분될 때 산점도를 사용하여 군집을 식별하고 분류할 수 있다. R 기본함수 : plot 함수 사용 library(palmerpenguins) data("penguins") #Dataset 불러오기 str(penguins) #D.. 2023. 10. 17.
[Rstudio] 막대 그래프 (bar plot, column plot) with ggplot 막대 그래프(Bar plot, Bar chart) 막대 그래프는 데이터의 카테고리별 빈도수 또는 값을 막대로 나타낸 그래프이다. 막대 그래프는 주로 범주형 데이터(카테고리, 클래스, 그룹 등)를 시각화할 때 사용되며, 각 막대는 범주(카테고리)에 따라 높이(값)로 표현되며, 막대의 높이는 해당 범주의 빈도수, 수량, 또는 특정 값을 나타낸다. R 기본함수 : barplot 함수를 사용한 막대 그래프 library(palmerpenguins) data("penguins") #Dataset 불러오기 str(penguins) #Dataset 구성 확인 > str(penguins) #Dataset 구성 확인 tibble [344 × 8] (S3: tbl_df/tbl/data.frame) $ species : F.. 2023. 10. 16.
[Rstudio] 한 화면에 여러 개 복수 그래프 출력 (par, plot_grid) [한 화면에 복수 그래프를 출력하기 (par)] par() 함수는 R에서 그래픽 파라미터를 설정하고 제어하기 위해 사용되는 함수 mfrow : 그래프를 출력할 그리드 레이아웃을 지정하는 데 사용, 두 개의 숫자, c(rows, columns)로 구성 # 그래픽 디바이스 설정 par(mfrow = c(1, 3)) # 1x3 서브플롯 생성 # 첫 번째 서브플롯 boxplot(penguins$bill_length_mm, col = "darkblue", main = "bill_length") # 두 번째 서브플롯 boxplot(penguins$bill_depth_mm, col = "blue", main = "bill_depth") # 세 번째 서브플롯 boxplot(penguins$body_mass_g, col.. 2023. 10. 15.
[Rstudio] Boxplot 박스플롯 (상자 수염 그림) with ggplot Boxplot (박스플롯) 박스 플롯( Box Plot )은 데이터의 분포와 중심 경향을 그래프로 나타 낸 것이다. 박스 플롯은 데이터의 다섯 가지 요약 통계량(최솟값, 1사분위수, 중앙값, 3사분위수, 최댓값)을 시각적으로 나타내며 이상치(outliers)를 식별하는 데도 유용하다. Rstudio 사분위수(Quartile) Outliers(이상치) Rstudio 사분위수(Quartile) Outliers(이상치) IQR (사분범위) (tistory.com) Rstudio 사분위수(Quartile) Outliers(이상치) IQR (사분범위) Rstudio의 summary 함수를 통해서, 1사분위수(Q1), 2사분위수(Q2, 중앙값) 3사분위수(Q3)을 확인 summary (slam_dunk) unifo.. 2023. 10. 15.
[Rstudio] histogram 히스토그램 with ggplot histogram (히스토그램) 히스토그램(histogram)은 표로 되어 있는 도수 분포표를 그래프로 나타낸 것이다. 계급 구간별 빈도수를 시각화하여 전체 데이트 분포를 파악하는데 유용하다. R이 값의 분포를 고려하여 계급 구간을 설정하고 계급 구간별 빈도를 기반하여 히스트그램을 생성한다. 계급 구간을 조정할 수도 있다. R 내장 데이터 : Faithful data 올드페이스풀 간헐천(Old Faithful Geyser in Yellowstone National Park in Wyoming, United States.) every 44 minutes to two hours since 2000 https://en.wikipedia.org/wiki/Old_Faithful eruptions : Eruptio.. 2023. 10. 10.
[Rstudio] ggplot과 grammer of graphics ggplot 특징 data + aesthetics (미학, 美學), → plot (geometry(기하학, 幾何學)) ggplot은 Leland Wilkinson의 저서 "The Grammar of Graphics"를 기반으로 Hadley Wickham이 개발한 R용 플로팅 라이브러리이다. ggplot의 "gg"는 Grammar of Graphics를 의미하며, 컴퓨터에서 그래프를 그리는 과정을 문법 체계로 기술하였다. ggplot은 모눈종이에 손으로 그래프를 그리는 과정과 동일하다고 생각하면 이해하기가 쉽다. (모눈종이는 영어로 graph paper이다.) ggplot의 문법의 ggplot()'은 ggplot 객체를 초기화한다. 그래픽에 대한 입력 데이터 프레임을 선언하고 특별히 재정의되지 않는 한 모.. 2023. 10. 10.
[Rstudio] 데이터 유형별 그래프 선택 기준 및 R 그래프 함수 데이터 유형과 그래프 (chart, plot) 선택 기준 어떤 유형의 데이터를 표현할 때, 어떤 그래프별가 적합할까에 대한 일반적인 기준은 아래와 같다. 산점도(Scatter plot) : 연속형 변수의 상관관계의 시각화 예) x축에는 온도, y축에는 판매량을 나타내어 두 변수 간의 관계 확인 막대 그래프(Bar plot): 범주형 변수의 빈도수, 카테고리 간 비교 등을 시각화 예) 각 지역의 인구수를 막대 그래프로 표현, 지역 간 인구 분포를 비교 선 그래프(Line plot): 연속형 변수의 추세, 변화를 시각화 예) 시간에 따른 주식 가격의 변동을 선 그래프로 표현, 추세를 파악 히스토그램(Histogram): 연속형 변수의 분포를 시각화 예) 제품 크기를 히스토그램으로 표현, 제품 크기의 분포를 .. 2023. 10. 9.
[Rstudio tidyverse] dplyr 패키지 (group_by, summarize, arrange) dplyr 패키지 (group_by, summarize, arrange) group_by 및 summarize : 그룹화된 데이터에서 요약 통계량을 계산 group_by() 및 summarize() 함수는 dplyr 패키지의 중요한 기능 중 하나로, 데이터 프레임을 그룹화하고 각 그룹에 대한 요약 통계량을 계산하는 데 사용된다. summarize() 내 통계량 사용 함수 및 내용 평균 (Mean) mean(x): 열 x의 평균 값을 계산 중앙값 (Median) median(x) : 열 x의 중앙값을 계산 최댓값 (Maximum) max(x) 열 x에서 최댓값을 계산 최솟값 (Minimum) min(x): 열 x에서 최솟값을 계산 범위 (Range) max(x) - min(x): 열 x의 범위를 계산 표준.. 2023. 10. 8.
[Rstudio tidyverse] dplyr 패키지 (filter, select, mutate) dplyr 패키지 (filter, select, mutate) dplyr 패키지는 R에서 데이터 프레임을 다루는 작업을 효율적으로 수행하기 위한 패키지로, 데이터 필터링, 정렬, 그룹화, 요약, 변환 등 다양한 작업을 할 수 있다. 데이터 분석 초기에 많이 사용되며, 데이터를 요약하고 살펴보기 위한 용도와 단계별 분석을 위해서 가공하기 위해서 많이 사용되며, 직관적인 문법을 제공한다. penguins 데이터 세트는 palmerpenguins 패키지에 포함되어 있으며, 펭귄 종류에 대한 정보와 크기, 무게 등의 데이터가 포함되어 있음 install.packages('palmerpenguins') #팔머 펭귄 Dataset이 포함된 패키지 library(palmerpenguins) data("penguins.. 2023. 10. 7.
[R studio] tidyverse 패키지와 특장점 tidyverse 패키지 tidyverse는 R 프로그래밍 언어를 사용하는 데이터 분석 및 시각화 작업을 단순화하고 향상시키기 위한 패키지 모음이다. tidyverse에 포함된 패키지는 데이터를 더 효과적으로 다루고 시각화하며, 코드의 가독성을 높이고 데이터 분석 작업을 더 편리하게 만들어 준다. tidyverse 포함 패키지 tidyverse 패키지를 설치하고 라이브러리로 불러오면, 아래 포함 패키지의 기능을 모두 사용할 수 있다. tidyverse 패키지 설치를 통해서 가장 많이 하는 데이터 분석의 대부분을 할 수 있다. (엑셀로 하는 데이터 분석을 엑셀보다 빠르고 쉽게 할 수 있다.) install.packages('tidyverse') library(tidyverse) > library(tidyv.. 2023. 10. 7.
[R studio] 다른 디렉터리 (디렉토리, 폴더) 파일 불러오기 저장하기 하위 디렉터리는 './'로 이동하고, 상위 디렉터리는 '../'로 이동한다. 디렉터리를 직접 지정할 수도 있다. 하위 디렉터리(폴더) 파일 불러오기 setwd('C:/Rstudio') getwd() > getwd() [1] "C:/Rstudio" slam_dunk str(slam_dunk) 'data.frame': 48 obs. of 8 variables: $ uniform_no: int 4 5 6 7 8 9 10 11 12 13 ... $ name : chr "채치수" "권준호" "이달재" "송태섭" ... $ height : int 197 178 164 168 170 180 189 187 170 171 ... $ weight : int 90 62 NA 59 NA NA 83 75 NA NA ... $ .. 2023. 10. 7.
[R studio] 작업 디렉터리 (디렉토리, 폴더) 확인, 설정 변경 관리 작업 디렉터리 (폴더) 작업 디렉터리 (폴더) : 작업에 사용하고자 (읽거나 쓰고자) 하는 파일이 위치한 디렉터리 (폴더) R에서 어떤 파일을 읽으려면 그 파일이 위치한 디렉터리 (폴더)의 경로와 함께 파일 이름을 지정해야 한다. getwd와 setwd getwd() : 현재 작업 디렉터리 확인 현재 작업 디렉터리의 경로가 출력된다. 작업 디렉터리가 다르게 지정되어 있으면, 필요한 데이터 파일 (엑셀, CSV 파일 등)을 읽어오지 못하거나, 작업한 R 스크립트 파일을 찾기 힘들 수 있다. getwd() > getwd() [1] "C:/Users/vitaminymc/Documents" getwd() setwd() : 작업 디렉터리 설정 / 변경 / 이동 작업 디렉터리를 변경(이동) 하려고 할 때 사용된다... 2023. 10. 7.
[R Studio] 비모수 검정과 사후 분석 (논문 작성을 위한 여섯 번째 분석) 비모수 검정 (Nonparametric Test) 모수적 방법 (Parametric method)은 관측값이 어느 특정한 확률분포 (정규분포, 이항분포 등)를 따른다고 전제를 한 후, 그 분포의 모수 (Parameter)에 대한 검정을 실시하는 방법이다. 반면에, 비모수 검정(Nonparametric Test)은 모집단의 분포에 대한 가정이나 정규 분포 가정을 만족하지 않는 데이터에 대한 통계적 가설 검정 방법이다. 비모수 검정은 데이터의 분포에 대한 가정이 덜 필요하거나 없어도 되며, 주로 순위 또는 순서에 의한 비교를 통해 통계적 추론을 수행한다. [비모수 검정 예시 1 : 의학 분야 - 치료 효과 평가] 어떤 신약이 특정 질병의 치료에 효과적인지 비교하려면 환자 그룹 간의 중위수 차이를 비교하는 M.. 2023. 10. 2.
728x90