본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

전체 글234

Rstudio 데이터 분석 with FIFA 월드컵 데이터 #5 (대한민국) 대한민국 월드컵 성적 https://namu.wiki/w/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%20%EC%B6%95%EA%B5%AC%20%EA%B5%AD%EA%B0%80%EB%8C%80%ED%91%9C%ED%8C%80 total_wcmatches (wcmatches + wc2022, 2022년 대회까지 포함한 데이터 세트) Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) (tistory.com) #대한민국 성적만 추출 kor_team % filter (home_team == "South Korea" | away_team == "South Korea") #승리팀이 대한민국 경우 추출 no_win % filter(winning_team == "South .. 2023. 8. 12.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #4 (시각화) 국가별 우승횟수 worldcups_to_2022.csv 데이터 분석 library(tidyverse) wc_rank_by_year 2023. 8. 11.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #3 대회별 우승팀 worldcups_to_2022.csv 데이터 세트를 통해서 확인가능하나, total_wcmatches ( wcmatches.csv + wcmatches_2022.csv) 사용하여 분석 worldcups_to_2022.csv year host winner second third fourth 1930 Uruguay Uruguay Argentina USA Yugoslavia 1934 Italy Italy Czechoslovakia Germany Austria 1938 France Italy Hungary Brazil Sweden 1950 Brazil Uruguay Brazil Sweden Spain 1954 Switzerland West Germany Hungary Austria Uruguay.. 2023. 8. 10.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #2 국가별 본선 참가횟수wcmatches.csv 또는 wcmatches_2020.csv (2022년 카타르 월드컵 추가) 데이터 세트는 월드컵 본선 결과를 Home team과 Away tema으로 구분되어 결과가 정리됨같은(단일) 국가가 같은 월드컵 대회에서 Home team과 Away team으로 참여하는 것을 고려 필요즉, 참가 횟수는 Home team 실적과 Away team 실적을 구분하지 않고 횟수가 반영되어야 함total_wcmatches  (wcmatches + wc2022, 2022년 대회까지 포함한 데이터 세트)Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) (tistory.com)  Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가)wcmatc.. 2023. 8. 9.
Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) 연도별 개최 국가 (2022년 카타르 포함)wcmatches_2020.csv : 2022년 Qatar (카타르) 월드컵 결과 추가'wcmatches.csv' 데이터 세트는 1930년 우루과이 ~  2018년 러시아 월드컵 결과2022년  카타르 월드컵 결과 추가 반영[Data Source] 아래 사이트 내용을 정리하여 반영 (총 64경기)본선 조별 리그  :  https://en.wikipedia.org/wiki/2022_FIFA_World_Cup#Group_stage16강 ~ 결승 :  https://en.wikipedia.org/wiki/2022_FIFA_World_Cup#Knockout_stagewin_conditions  :  https://www.fifa.com/fifaplus/en/tourna.. 2023. 8. 7.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #1 연도별 개최 국가 / 국가별 개최횟수Data source  : 월드컵 경기 결과 (1930년 우루과이 ~  2018년 러시아)https://github.com/rfordatascience/tidytuesday/tree/master/data/2022/2022-11-29https://github.com/rfordatascience/tidytuesday/blob/master/data/2022/2022-11-29/wcmatches.csvwcmatches readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2022/2022-11-29/wcmatches.csv')wcmatches 데이터 세트에는 1930년.. 2023. 8. 6.
야구의 특성 및 데이터 관리 야구는 다른 스포츠대비 데이터 기록과 분석이 중요한 경기 야구의 특성을 파악하기 전에, 구기 종목의 경기 방식 등 특성을 구분한다면, 구기 종목 (Ball sports) 특성 구기 종목을 경기 방식 등 특성에 따라 구분한다면, 팀 대 개인: 스포츠는 팀이 경쟁하는 종목과 개인이 경쟁하는 종목으로 나눌 수 있음 팀 : 축구, 야구, 배구, 농구, 하키 등 개인 : 테니스, 탁구, 골프 등 (물론, 복식 경기도 있고, 팀 대항전도 있음) 경기 장소(프로 스포츠 기준) : 스포츠는 경기를 치는 장소에 따라 나눌 수 있음 실외 경기장 : 야구, 축구, 골프 등 실내 경기장 : 농구, 배구, 탁구 등 골프는 여러 홀의 돌면서 경기 (각 홀의 경기장은 홀컵 위치 등이 다르게 구성되며, 대회마다 다른 규격의 경기장).. 2023. 8. 5.
물류 설비 종류 및 자동화 적용 고려사항 물류 자동화 Trend 요약 1990~2000년대 : 제조사 Pallet AS/RS (Automated Storage & Retrieval System)의 보관 중심 구축 주요 대기업 (삼성, LG(금성), SK 등) 자동화 사업부 또는 자회사 보유 일본 자동화 설비 도입 구축 + 국산화 2000~2010년대 : 유통사 중심으로 Auto Sorting System 구축 택배사 Auto Sorting System 구축 및 대형화 ( 10,000 Box/Hr → 40,000 Box/Hr 이상) 일본 자동화 설비 → 유럽 자동화 설비 (대량 표준화 생산으로 상대적 낮은 가격, S/W 성능) 2010년~ : 유통사(온라인) 중심의 Multi-Shuttle, Autostore, Carousel 등 Box 보관 및.. 2023. 8. 4.
Rstudio 데이터 가공 및 기초 분석 #3 그룹간 데이터 비교 Slam Dunk 상북고와 다른학교 신장 비교 엑셀 피벗 Rstudio names (slam_dunk_total) [1] "uniform_no" "name" "height" "weight" "blood type" "age" [7] "position" "school" library(tidyverse) compare_team % group_by(school) %>% summarise( no_player = n(), # 플레이어(학생) 수 lower = min (height), # 최저 신장 average = mean (height), # 평균 신장 upper = max (height), # 최고 신장 difference = max(height) - min(height) #최고 신장과 신저.. 2023. 8. 3.
Rstudio 데이터 가공 및 기초 분석 #2 table () 데이터의 고유한 값들의 빈도를 계산하여 테이블로 반환 벡터, 요인형 데이터, 문자열 등 다양한 형태의 데이터에 대해 빈도를 계산할 수 있음 기본 예제 eg_1 2023. 8. 2.
Rstudio 데이터 가공 및 기초 분석 #1 데이터 가공 및 분석 엑셀을 활용하여 데이터를 가공하며, 특히 엑셀의 피벗 기능을 자유 사용하게 된다. 그러나, 데이터가 일부 변경되는 경우에 새로고침으로 피벗을 업데이트 할 수 있으나, 데이터 전체가 변경되는 경우에는 새롭게 피벗을 작성해야 한다. (물론 기존 데이터에 어퍼 씌울 수도 있으나, 동일한 열과 행이 아니라면...) 엑셀대시 Rstudio를 사용하는 이유 중에 하나는 반복성이다. 데이터는 변경되나, 동일한 데이터 분석을 한다면, Rstuido에 코드만 잘 정리해 놓으면, 다음 부터는 엑셀보다 편하게 가공 및 분석할 수 있다. 슬램덩크 상북고 학년(나이)별 평균, 최소, 최대 신장 엑셀 피벗 Rstudio library(tidyverse) slam_dunk %>% drop_na(height) .. 2023. 8. 1.
Rstudio 사분위수(Quartile) Outliers(이상치) IQR (사분범위) Rstudio의 summary 함수를 통해서, 1사분위수(Q1), 2사분위수(Q2, 중앙값) 3사분위수(Q3)을 확인 summary (slam_dunk) uniform_no 4 : 1 5 : 1 6 : 1 7 : 1 8 : 1 9 : 1 (Other):6 name Length:12 Class :character Mode :character height Min. :162.0 1st Qu.:169.5 Median :174.5 Mean :176.7 3rd Qu.:184.8 Max. :197.0 weight Min. :59.00 1st Qu.:64.00 Median :72.50 Mean :73.17 3rd Qu.:81.00 Max. :90.00 NA's :6 blood type Length:12 Class :c.. 2023. 7. 31.
Rstudio 데이터 살펴보기 #3 (기술통계 및 데이터 분포 해석) 평균과 중앙값의 관계 데이터가 한쪽으로 치우쳐져 있을 때, 평균과 중앙값의 값이 다를 수 있음 즉, 중앙값과 평균의 위치에 따라, 데이터의 분포 형태를 구분할 수 있음 평균과 중앙값의 차이가 크다면, 데이터가 한쪽으로 치우친 경향이 있을 수 있음 치우친 방향 쪽으로 중앙값이 평균보다 더 가까워지는 경향이 있음 이는 치우친 데이터로 인해 평균이 영향을 받아 평균 값이 중앙값 쪽으로 편향될 수 있음을 의미함 - 평균이 더 큰 경우: 오른쪽으로 치우친 (Positive Skewed) 데이터 분포일 가능성이 높음 데이터의 값이 좀 더 높은 쪽에 몰려 있으며, 상대적으로 작은 값들이 평균을 낮추기 위해 왼쪽으로 늘어나며, 이러한 경우, 평균은 중앙값보다 더 큰 값을 가짐 예제 데이터: {1, 2, 3, 4, 10.. 2023. 7. 30.
Rstudio 데이터 살펴보기 #3 (기술통계) 기술통계 (Descriptive Statistics) 기술통계는 영어명에서 보는 것 처럼, 우리가 흔히 말하는 기술 [技術]이 아닌, 기록하여 서술한다는 의미의 기술 [記述] 임 기술통계란 데이터를 요약, 표현, 해석하는 방법으로, 데이터의 특성과 패턴을 이해하는 데 도움이 되는 통계적인 기법 기술통계는 주어진 데이터를 요약하여 중심 경향성(평균, 중앙값, 최빈값 등)과 분산, 분포 등의 특성을 파악 주로 평균, 중앙값, 표준편차, 최소값, 최대값, 분위수 등을 계산하여 데이터의 기본 특성을 파악 기술 [記述] : 사물의 내용을 기록하여 서술함 기술하다 [記述--] : (사람이 사물의 내용을) 기록하여 서술하다. (사람이나 책이 사물의 내용을 어떤 방식으로) 서술하거나 설명하다. (사람이나 책 따위가 어.. 2023. 7. 29.
Rstudio 데이터 살펴보기 #2 (summary 함수, 결측값 확인 등) 분석 데이터 (상북고_농구부.xlsx) (북산 - 나무위키 (namu.wiki) "5. 연재 당시 라인업" 정리, 학년은 나이로 반영) uniform_no name height weight blood type age position 4 채치수 197 90 A 19 C 5 권준호 178 62 A 19 SF 6 이달재 164 18 PG 7 송태섭 168 59 B 18 PG 8 신오일 170 18 PG 9 정병욱 180 18 SF 10 강백호 189 83 B 17 PF 11 서태웅 187 75 AB 17 SF 12 이호식 170 17 SF 13 이재훈 171 17 SG 14 정대만 184 70 A 19 SG 15 오중식 162 17 PG 데이터 요약해서 보기 library(readxl) #엑셀 파일을 불러오기.. 2023. 7. 28.
728x90