본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

rstudio23

[Rstudio] 루프(Loop) 반복문 - for 루프 문과 while 루프 문 [ 루프 (Loop) 반복문 ] 루프(Loop)는 프로그래밍에서 반복 작업을 수행하기 위해 사용되는 제어 구조이다. 주어진 조건이 참(True)인 동안 코드 블록을 반복적으로 실행한다. R에서는 주로 for 루프와 while 루프를 사용한다. [ for 루프 문과 while 루프 문 비교 ] for 루프는 반복 횟수가 명확하고 구조적인 작업에, while 루프는 특정 조건이 충족될 때까지 반복해야 하는 상황에 유용 for 루프 while 루프 구조 for 루프는 주어진 조건 범위 내에서 반복 작업을 수행 일반적으로 반복 범위에 해당하는 변수를 사용하여 루프를 정의 초기화, 조건 검사, 증감 등의 구문을 한 줄에 표현할 수 있어서 코드가 간결 while 루프는 주어진 조건이 참(True)인 동안에만 반복 .. 2024. 3. 26.
[Rstudio] 조건문 if else case_when [ R 조건문 🟢 ]R 프로그래밍 언어에서 조건문을 사용하는 주요 방법은 if, if + else, ifelse, case_when이다.[ 사용 예제 : 예능방송인 브랜드 순위 ]top50 rank_mar name sex job rank_feb rank_jan1 1 유재석 남 코메디언 2 22 2 이효리 여 가수 1 NA3 3 신동엽 남 코메디언 4 34 4 박명수 남 코메디언 8 105 5 탁재훈 남 가수 3 16 6 전현무 남 방송 7 .. 2024. 3. 24.
[Rstudio] 한 화면에 여러 개 복수 그래프 출력 (par, plot_grid) [한 화면에 복수 그래프를 출력하기 (par)] par() 함수는 R에서 그래픽 파라미터를 설정하고 제어하기 위해 사용되는 함수 mfrow : 그래프를 출력할 그리드 레이아웃을 지정하는 데 사용, 두 개의 숫자, c(rows, columns)로 구성 # 그래픽 디바이스 설정 par(mfrow = c(1, 3)) # 1x3 서브플롯 생성 # 첫 번째 서브플롯 boxplot(penguins$bill_length_mm, col = "darkblue", main = "bill_length") # 두 번째 서브플롯 boxplot(penguins$bill_depth_mm, col = "blue", main = "bill_depth") # 세 번째 서브플롯 boxplot(penguins$body_mass_g, col.. 2023. 10. 15.
[R Studio] 이원배치 분산분석 ANOVA 2 (상호작용이 있는 경우) 이원배치 분산분석 (two-way ANOVA (Analysis of Variance)) 이원배치 분산분석 예 (상호작용이 있는 경우) 세 종류의 캔디향 (A, B, C)와 세 가지 가격 (79센트, 89센트, 99센트)의 판매효과를 시험하려고 한다. 캔디 매출 수준이 유사한 9개의 점포를 선정하고, 판매량을 조사하였다. 캔디향 A 캔디향 B 캔디향 C 79센트 8 7 10 8 9 9 14 13 15 89센트 4 6 7 14 12 15 12 13 14 99센트 9 10 11 8 7 10 13 14 15 candy candy [1] "apple" "apple" "apple" "apple" "apple" "apple" "apple" "apple" "apple" "grape" "grape" "grape" [13.. 2023. 10. 1.
[R 기초] 결측값 결측치 처리 (데이터 클린징) 데이터 전처리 (Data Preprocessing) 데이터 전처리는 데이터 사이언스, 머신 러닝 및 데이터 분석 프로젝트 필요한 데이터를 준비하고 가공하여 분석, 모델링 또는 머신 러닝 모델에 적합하게 사용할 수 있는 형태로 준비하는 포괄적인 과정 데이터의 품질을 향상시키고 분석 가능한 형태로 변환하여 모델의 성능을 최적화하고 정확성을 확보하기 위한 사전 단계 데이처 전처리 과정 1. 데이터 수집 : 프로젝트의 목적에 따라 적합한 데이터를 수집하고 데이터의 정확성과 완전성을 확인 시스템에서 데이터를 추출하더라도 엑셀 파일 등으로 변환하는 과정에서 누락이나 중복되는 경우 발생 데이터에 사용되는 여러 날짜 (예. 주문일, 물류센터 출고일, 고객 배송일 등)와 분석 대상 기간의 기준 확인 필요 2. 결측치 처.. 2023. 9. 21.
KBO 프로야구 (투수) 선수별 통산 기록 #2 : 세이브 (with R) Data Source : http://www.statiz.co.kr/ 통산기록실 1982년~2023년스탯티즈 데이터와 KBO 공식 기록과 차이가 있을 수 있음통산 기록 팀은 통산 주 소속팀, 앞의 숫자는 시즌 수, “+”는 현역선수, 통산 주 포지션을 의미예시 : 1+K2B, 1+KDH, 10삼CF, 11KRF, 10키1BKBO 통산 세이브 순위 (100세이브 이상)KBO Career Leaders & Records for Save#이름팀ERA출장승패세홀드선발승구원승SVP1오승환13+삼2.066684124400170414412손승락12넥3.646014549271711343053임창용18삼3.45760130862581953773354김용수16L2.9861312689227159672945구대성13한2.855.. 2023. 8. 23.
KBO 프로야구 (타자) 선수별 통산 기록 #1 : WAR, 출장, 홈런, 안타, 도루 순위 (with R) Data Source : http://www.statiz.co.kr/ 통산기록실 1982년~2023년 스탯티즈 데이터와 KBO 공식 기록과 차이가 있을 수 있음통산 기록 팀은 통산 주 소속팀, 앞의 숫자는 시즌 수, “+”는 현역선수, 통산 주 포지션을 의미 예시 : 1+K2B, 1+KDH, 10삼CF, 11KRF, 10키1BWAR Top 10#이름팀WARG안타타율출루장타OPS홈런타점도루1최정19+S3B88.37216421330.2870.3900.5280.91845814541732양준혁18삼DH87.22213523180.3160.4210.5290.95035113891933이승엽15삼1B72.08190621560.3020.3890.5720.9604671498574최형우18+삼LF71.67206523230... 2023. 8. 18.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #5 (대한민국) 대한민국 월드컵 성적 https://namu.wiki/w/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%20%EC%B6%95%EA%B5%AC%20%EA%B5%AD%EA%B0%80%EB%8C%80%ED%91%9C%ED%8C%80 total_wcmatches (wcmatches + wc2022, 2022년 대회까지 포함한 데이터 세트) Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) (tistory.com) #대한민국 성적만 추출 kor_team % filter (home_team == "South Korea" | away_team == "South Korea") #승리팀이 대한민국 경우 추출 no_win % filter(winning_team == "South .. 2023. 8. 12.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #4 (시각화) 국가별 우승횟수 worldcups_to_2022.csv 데이터 분석 library(tidyverse) wc_rank_by_year 2023. 8. 11.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #2 국가별 본선 참가횟수wcmatches.csv 또는 wcmatches_2020.csv (2022년 카타르 월드컵 추가) 데이터 세트는 월드컵 본선 결과를 Home team과 Away tema으로 구분되어 결과가 정리됨같은(단일) 국가가 같은 월드컵 대회에서 Home team과 Away team으로 참여하는 것을 고려 필요즉, 참가 횟수는 Home team 실적과 Away team 실적을 구분하지 않고 횟수가 반영되어야 함total_wcmatches  (wcmatches + wc2022, 2022년 대회까지 포함한 데이터 세트)Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) (tistory.com)  Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가)wcmatc.. 2023. 8. 9.
Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) 연도별 개최 국가 (2022년 카타르 포함)wcmatches_2020.csv : 2022년 Qatar (카타르) 월드컵 결과 추가'wcmatches.csv' 데이터 세트는 1930년 우루과이 ~  2018년 러시아 월드컵 결과2022년  카타르 월드컵 결과 추가 반영[Data Source] 아래 사이트 내용을 정리하여 반영 (총 64경기)본선 조별 리그  :  https://en.wikipedia.org/wiki/2022_FIFA_World_Cup#Group_stage16강 ~ 결승 :  https://en.wikipedia.org/wiki/2022_FIFA_World_Cup#Knockout_stagewin_conditions  :  https://www.fifa.com/fifaplus/en/tourna.. 2023. 8. 7.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #1 연도별 개최 국가 / 국가별 개최횟수Data source  : 월드컵 경기 결과 (1930년 우루과이 ~  2018년 러시아)https://github.com/rfordatascience/tidytuesday/tree/master/data/2022/2022-11-29https://github.com/rfordatascience/tidytuesday/blob/master/data/2022/2022-11-29/wcmatches.csvwcmatches readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2022/2022-11-29/wcmatches.csv')wcmatches 데이터 세트에는 1930년.. 2023. 8. 6.
Rstudio 데이터 가공 및 기초 분석 #3 그룹간 데이터 비교 Slam Dunk 상북고와 다른학교 신장 비교 엑셀 피벗 Rstudio names (slam_dunk_total) [1] "uniform_no" "name" "height" "weight" "blood type" "age" [7] "position" "school" library(tidyverse) compare_team % group_by(school) %>% summarise( no_player = n(), # 플레이어(학생) 수 lower = min (height), # 최저 신장 average = mean (height), # 평균 신장 upper = max (height), # 최고 신장 difference = max(height) - min(height) #최고 신장과 신저.. 2023. 8. 3.
Rstudio 데이터 가공 및 기초 분석 #2 table () 데이터의 고유한 값들의 빈도를 계산하여 테이블로 반환 벡터, 요인형 데이터, 문자열 등 다양한 형태의 데이터에 대해 빈도를 계산할 수 있음 기본 예제 eg_1 2023. 8. 2.
Rstudio 데이터 가공 및 기초 분석 #1 데이터 가공 및 분석 엑셀을 활용하여 데이터를 가공하며, 특히 엑셀의 피벗 기능을 자유 사용하게 된다. 그러나, 데이터가 일부 변경되는 경우에 새로고침으로 피벗을 업데이트 할 수 있으나, 데이터 전체가 변경되는 경우에는 새롭게 피벗을 작성해야 한다. (물론 기존 데이터에 어퍼 씌울 수도 있으나, 동일한 열과 행이 아니라면...) 엑셀대시 Rstudio를 사용하는 이유 중에 하나는 반복성이다. 데이터는 변경되나, 동일한 데이터 분석을 한다면, Rstuido에 코드만 잘 정리해 놓으면, 다음 부터는 엑셀보다 편하게 가공 및 분석할 수 있다. 슬램덩크 상북고 학년(나이)별 평균, 최소, 최대 신장 엑셀 피벗 Rstudio library(tidyverse) slam_dunk %>% drop_na(height) .. 2023. 8. 1.
728x90