본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

전체 글256

[Rstudio] 한 화면에 여러 개 복수 그래프 출력 (par, plot_grid) [한 화면에 복수 그래프를 출력하기 (par)] par() 함수는 R에서 그래픽 파라미터를 설정하고 제어하기 위해 사용되는 함수 mfrow : 그래프를 출력할 그리드 레이아웃을 지정하는 데 사용, 두 개의 숫자, c(rows, columns)로 구성 # 그래픽 디바이스 설정 par(mfrow = c(1, 3)) # 1x3 서브플롯 생성 # 첫 번째 서브플롯 boxplot(penguins$bill_length_mm, col = "darkblue", main = "bill_length") # 두 번째 서브플롯 boxplot(penguins$bill_depth_mm, col = "blue", main = "bill_depth") # 세 번째 서브플롯 boxplot(penguins$body_mass_g, col.. 2023. 10. 15.
[Rstudio] Boxplot 박스플롯 (상자 수염 그림) with ggplot Boxplot (박스플롯) 박스 플롯( Box Plot )은 데이터의 분포와 중심 경향을 그래프로 나타 낸 것이다. 박스 플롯은 데이터의 다섯 가지 요약 통계량(최솟값, 1사분위수, 중앙값, 3사분위수, 최댓값)을 시각적으로 나타내며 이상치(outliers)를 식별하는 데도 유용하다. Rstudio 사분위수(Quartile) Outliers(이상치) Rstudio 사분위수(Quartile) Outliers(이상치) IQR (사분범위) (tistory.com) Rstudio 사분위수(Quartile) Outliers(이상치) IQR (사분범위) Rstudio의 summary 함수를 통해서, 1사분위수(Q1), 2사분위수(Q2, 중앙값) 3사분위수(Q3)을 확인 summary (slam_dunk) unifo.. 2023. 10. 15.
삼성 오승환 KBO 프로야구 역대 최초 개인통산 400세이브 달성 삼성 오승환 경력 (Profile) 1982년 7월 15일생, 우투우타 서울 도신초등학교-우신중학교-경기고등학교-단국대학교 2005년 2차 1라운드 (전체 5번, 삼성) 오승환 소속팀 삼성 라이온즈 (2005~2013) 한신 타이거스 (2014~2015) 세인트루이스 카디널스 (2016~2017) 토론토 블루제이스 (2018) 콜로라도 로키스 (2018~2019) 삼성 라이온즈 (2019~) KBO 2005 신인 드래프트 (오거정 해) 1차 지명은 팀별 연고지 내 고교 출신 선수 중 1명을 지명 2차 지명은 1라운드부터 9라운드까지 진행되며, 각 라운드마다 전년도 순위의 역순으로 지명 팀 1차 2차 1라운드 2차 2라운드 3차 라운드 롯데 이왕기 (부산고 투수) 조정훈 (용마고 투수) 이원석 (동산고 내.. 2023. 10. 15.
[Rstudio] histogram 히스토그램 with ggplot histogram (히스토그램) 히스토그램(histogram)은 표로 되어 있는 도수 분포표를 그래프로 나타낸 것이다. 계급 구간별 빈도수를 시각화하여 전체 데이트 분포를 파악하는데 유용하다. R이 값의 분포를 고려하여 계급 구간을 설정하고 계급 구간별 빈도를 기반하여 히스트그램을 생성한다. 계급 구간을 조정할 수도 있다. R 내장 데이터 : Faithful data 올드페이스풀 간헐천(Old Faithful Geyser in Yellowstone National Park in Wyoming, United States.) every 44 minutes to two hours since 2000 https://en.wikipedia.org/wiki/Old_Faithful eruptions : Eruptio.. 2023. 10. 10.
[Rstudio] ggplot과 grammer of graphics ggplot 특징 data + aesthetics (미학, 美學), → plot (geometry(기하학, 幾何學)) ggplot은 Leland Wilkinson의 저서 "The Grammar of Graphics"를 기반으로 Hadley Wickham이 개발한 R용 플로팅 라이브러리이다. ggplot의 "gg"는 Grammar of Graphics를 의미하며, 컴퓨터에서 그래프를 그리는 과정을 문법 체계로 기술하였다. ggplot은 모눈종이에 손으로 그래프를 그리는 과정과 동일하다고 생각하면 이해하기가 쉽다. (모눈종이는 영어로 graph paper이다.) ggplot의 문법의 ggplot()'은 ggplot 객체를 초기화한다. 그래픽에 대한 입력 데이터 프레임을 선언하고 특별히 재정의되지 않는 한 모.. 2023. 10. 10.
항저우 아시안게임 야구 국가대표 병역 특례 (면제, 혜택) 국가대표 선출 기준 당초 만 24세 이하 및 입단 3년 차에서 항저우 아시안게임 1년 연기 (중국 Covid-19 상황 악화로 2022년에서 2023년 연기)로 만 25세 이하 및 입단 4년 차, 29세 이하 와일드카드 3장으로 변경 아시안게임 기간 동안, KBO 리그가 정상적으로 진행됨에 따라, 팀당 최대 3명 선 기존 대회 선출 기준 아시안게임 야구에는 연령 제한이 없으며, 1998년 방콕 대회부터 2018년 자카르타·팔렘방 대회까지는 나이에 관계없이 대표팀을 구성함 항저우 아시안게임 야구 국가대표 명단 포지션 등번호 이름 소속 비고 투수 19 고우석 LG 우투우타, 십자인대 파열 (고2) 면제 16 정우영 LG 우투우타 60 박영현 kt 우투우타 18 원태인 삼성 우투좌타 43 나균안 롯데 우투우타.. 2023. 10. 9.
[Rstudio] 데이터 유형별 그래프 선택 기준 및 R 그래프 함수 데이터 유형과 그래프 (chart, plot) 선택 기준 어떤 유형의 데이터를 표현할 때, 어떤 그래프별가 적합할까에 대한 일반적인 기준은 아래와 같다. 산점도(Scatter plot) : 연속형 변수의 상관관계의 시각화 예) x축에는 온도, y축에는 판매량을 나타내어 두 변수 간의 관계 확인 막대 그래프(Bar plot): 범주형 변수의 빈도수, 카테고리 간 비교 등을 시각화 예) 각 지역의 인구수를 막대 그래프로 표현, 지역 간 인구 분포를 비교 선 그래프(Line plot): 연속형 변수의 추세, 변화를 시각화 예) 시간에 따른 주식 가격의 변동을 선 그래프로 표현, 추세를 파악 히스토그램(Histogram): 연속형 변수의 분포를 시각화 예) 제품 크기를 히스토그램으로 표현, 제품 크기의 분포를 .. 2023. 10. 9.
대한민국 아시안게임 축구 야구 역대 성적 (축구 3연패, 야구 4연패 달성) 아시안게임 축구 역대 경기 결과 (순위) 대한민국 축구 3연속 금메달 달성 (2014 인천, 2018 자카르타/팔램방, 2022 항저우 대회) 아시안게임 사상 첫 3연패 황선홍호, 아시안게임 남자축구 3연패…일본에 2-1 역전승 https://www.yna.co.kr/view/AKR20231007057600007 [1보] 황선홍호, 아시안게임 남자축구 3연패…일본에 2-1 역전승 | 연합뉴스 (항저우=연합뉴스) 안홍석 최송아 기자 = 황선홍호가 일본에 역전승하고 아시안게임 3연패를 이뤄냈다. www.yna.co.kr 연도 개최국가 개최지 금메달 은메달 동메달 4위 비고 1951 인도 뉴델리 인도 이란 일본 아프가니 스탄 6.25전쟁으로 대한민국 불참 1954 필리핀 마닐라 중화민국 대한민국 버마 인도네시.. 2023. 10. 8.
[Rstudio tidyverse] dplyr 패키지 (group_by, summarize, arrange) dplyr 패키지 (group_by, summarize, arrange) group_by 및 summarize : 그룹화된 데이터에서 요약 통계량을 계산 group_by() 및 summarize() 함수는 dplyr 패키지의 중요한 기능 중 하나로, 데이터 프레임을 그룹화하고 각 그룹에 대한 요약 통계량을 계산하는 데 사용된다. summarize() 내 통계량 사용 함수 및 내용 평균 (Mean) mean(x): 열 x의 평균 값을 계산 중앙값 (Median) median(x) : 열 x의 중앙값을 계산 최댓값 (Maximum) max(x) 열 x에서 최댓값을 계산 최솟값 (Minimum) min(x): 열 x에서 최솟값을 계산 범위 (Range) max(x) - min(x): 열 x의 범위를 계산 표준.. 2023. 10. 8.
[Rstudio tidyverse] dplyr 패키지 (filter, select, mutate) dplyr 패키지 (filter, select, mutate) dplyr 패키지는 R에서 데이터 프레임을 다루는 작업을 효율적으로 수행하기 위한 패키지로, 데이터 필터링, 정렬, 그룹화, 요약, 변환 등 다양한 작업을 할 수 있다. 데이터 분석 초기에 많이 사용되며, 데이터를 요약하고 살펴보기 위한 용도와 단계별 분석을 위해서 가공하기 위해서 많이 사용되며, 직관적인 문법을 제공한다. penguins 데이터 세트는 palmerpenguins 패키지에 포함되어 있으며, 펭귄 종류에 대한 정보와 크기, 무게 등의 데이터가 포함되어 있음 install.packages('palmerpenguins') #팔머 펭귄 Dataset이 포함된 패키지 library(palmerpenguins) data("penguins.. 2023. 10. 7.
[R studio] tidyverse 패키지와 특장점 tidyverse 패키지 tidyverse는 R 프로그래밍 언어를 사용하는 데이터 분석 및 시각화 작업을 단순화하고 향상시키기 위한 패키지 모음이다. tidyverse에 포함된 패키지는 데이터를 더 효과적으로 다루고 시각화하며, 코드의 가독성을 높이고 데이터 분석 작업을 더 편리하게 만들어 준다. tidyverse 포함 패키지 tidyverse 패키지를 설치하고 라이브러리로 불러오면, 아래 포함 패키지의 기능을 모두 사용할 수 있다. tidyverse 패키지 설치를 통해서 가장 많이 하는 데이터 분석의 대부분을 할 수 있다. (엑셀로 하는 데이터 분석을 엑셀보다 빠르고 쉽게 할 수 있다.) install.packages('tidyverse') library(tidyverse) > library(tidyv.. 2023. 10. 7.
[R studio] 다른 디렉터리 (디렉토리, 폴더) 파일 불러오기 저장하기 하위 디렉터리는 './'로 이동하고, 상위 디렉터리는 '../'로 이동한다. 디렉터리를 직접 지정할 수도 있다. 하위 디렉터리(폴더) 파일 불러오기 setwd('C:/Rstudio') getwd() > getwd() [1] "C:/Rstudio" slam_dunk str(slam_dunk) 'data.frame': 48 obs. of 8 variables: $ uniform_no: int 4 5 6 7 8 9 10 11 12 13 ... $ name : chr "채치수" "권준호" "이달재" "송태섭" ... $ height : int 197 178 164 168 170 180 189 187 170 171 ... $ weight : int 90 62 NA 59 NA NA 83 75 NA NA ... $ .. 2023. 10. 7.
[R studio] 작업 디렉터리 (디렉토리, 폴더) 확인, 설정 변경 관리 작업 디렉터리 (폴더) 작업 디렉터리 (폴더) : 작업에 사용하고자 (읽거나 쓰고자) 하는 파일이 위치한 디렉터리 (폴더) R에서 어떤 파일을 읽으려면 그 파일이 위치한 디렉터리 (폴더)의 경로와 함께 파일 이름을 지정해야 한다. getwd와 setwd getwd() : 현재 작업 디렉터리 확인 현재 작업 디렉터리의 경로가 출력된다. 작업 디렉터리가 다르게 지정되어 있으면, 필요한 데이터 파일 (엑셀, CSV 파일 등)을 읽어오지 못하거나, 작업한 R 스크립트 파일을 찾기 힘들 수 있다. getwd() > getwd() [1] "C:/Users/vitaminymc/Documents" getwd() setwd() : 작업 디렉터리 설정 / 변경 / 이동 작업 디렉터리를 변경(이동) 하려고 할 때 사용된다... 2023. 10. 7.
KBO 투수 통산 최다 이닝 (SSG 김광현 두산 장원준 통산 2000이닝 달성) Data Source : http://www.statiz.co.kr/ 통산기록실 (1982년~2023년 10월 14일 기준) 통산 기록 팀은 통산 주 소속팀, 앞의 숫자는 시즌 수, “+”는 현역선수, 통산 주 포지션을 의미 (스탯티즈 데이터와 KBO 공식 기록과 차이가 있을 수 있음) 투수 최다 이닝 (1500이닝 이상, 1982년~2023년) 1위 송진우 (3003 이닝) - 2위 정민철 (2394.2 이닝) - 3위 양현종 (2332.1 이닝) 2023 시즌 현역 1위 양현종 (2332.1) - 2위 김광현 (2015.1) - 3위 장원준 (2000) Rank 이름 팀 WAR 출장 이닝 ERA 승 패 세 홀드 1 송진우 21한 69.07 672 3003 3.51 210 153 103 17 2 정민철.. 2023. 10. 5.
KBO 투수 최다 경기 출장 (한화 이글스 정우람 리그 최초 통산 1000경기 출장) Data Source : http://www.statiz.co.kr/ 통산기록실 (1982년~2023년 10월 2일 기준) 통산 기록 팀은 통산 주 소속팀, 앞의 숫자는 시즌 수, “+”는 현역선수, 통산 주 포지션을 의미 (스탯티즈 데이터와 KBO 공식 기록과 차이가 있을 수 있음) 투수 최다 경기 출장 (500경기 이상) 1위 정우람 (1000경기) - 2위 류택현 (901경기) - 3위 조웅천 (813경기) 정우람 선수는 선발 등판없이 구원 등판으로만 1000경기 출장 Rank 이름 팀 출장 승 패 ERA 선발 등판 선발승 구원 등판 구원승 홀드 세이브 1 정우람 18+S 1000 64 47 3.17 0 0 1000 64 145 197 2 류택현 20L 901 15 29 4.41 13 1 888 1.. 2023. 10. 3.
728x90