본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

분류 전체보기251

Rstudio 구글 지도에 마커(Marker) 표시 (대한민국 독도) "독도는 대한민국 땅" 78주년 광복절을 맞아, ggmap 패키지를 사용하여 google map에서 독도를 표시하는 방법을 실행해 보았다. 문제는 google은 여전히, 한국의 영토인 독도를 중립적으로 표기하고 있다. google map 활용한 지도 보기 ggmap 패키지는 Google Maps API를 활용하여 지도를 생성하고, 여기에 지리적 데이터를 레이어로 추가하고 시각화할 수 있는 기능을 제공 구글맵을 사용하기 위해서는 "https://console.cloud.google.com/"에서 API Key를 부여 받아야 함 API Key를 부여받기 위해서는 '결제'를 연동해야 함 geocode geocode() 함수는 주소나 장소 이름을 입력으로 받아 해당 위치의 위도와 경도 좌표를 반환하는 기능을 수.. 2023. 8. 15.
R과 Python 비교 및 선택 데이터 분석에 관심이 많은 사람들이 고민하는 것 중에 하나가, R을 배워야 할지, Python을 배워야 할지에 대한 문제다. 최근 대세는 Python으로 증가하는 경향이 있으나, 유행보다 본인의 Backgroud 및 전공과 데이터 분석의 목적에 따라 전략적 선택이 필요하다. R과 Python의 특성 비교 R과 Python은 성격이 다른 프로그래밍 언어이다. 정확하게 R을 프로그래밍 언어라고 부르는 것은 애매한 부분이 있다. R R은 통계 분석과 데이터 시각화에 특화되어 있으며, 상대적으로 데이터 분석에 쉽게 사용할 수 있는 문법을 가지고 있다. R은 통계 분석, 행렬, 선형 모델 등을 지원하며, 여러 가지 패키지를 통해 다양한 분석 기능을 제공한다. Python Python은 일반적인 프로그래밍 언어로서.. 2023. 8. 13.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #5 (대한민국) 대한민국 월드컵 성적 https://namu.wiki/w/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%20%EC%B6%95%EA%B5%AC%20%EA%B5%AD%EA%B0%80%EB%8C%80%ED%91%9C%ED%8C%80 total_wcmatches (wcmatches + wc2022, 2022년 대회까지 포함한 데이터 세트) Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) (tistory.com) #대한민국 성적만 추출 kor_team % filter (home_team == "South Korea" | away_team == "South Korea") #승리팀이 대한민국 경우 추출 no_win % filter(winning_team == "South .. 2023. 8. 12.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #4 (시각화) 국가별 우승횟수 worldcups_to_2022.csv 데이터 분석 library(tidyverse) wc_rank_by_year 2023. 8. 11.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #3 대회별 우승팀 worldcups_to_2022.csv 데이터 세트를 통해서 확인가능하나, total_wcmatches ( wcmatches.csv + wcmatches_2022.csv) 사용하여 분석 worldcups_to_2022.csv year host winner second third fourth 1930 Uruguay Uruguay Argentina USA Yugoslavia 1934 Italy Italy Czechoslovakia Germany Austria 1938 France Italy Hungary Brazil Sweden 1950 Brazil Uruguay Brazil Sweden Spain 1954 Switzerland West Germany Hungary Austria Uruguay.. 2023. 8. 10.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #2 국가별 본선 참가횟수wcmatches.csv 또는 wcmatches_2020.csv (2022년 카타르 월드컵 추가) 데이터 세트는 월드컵 본선 결과를 Home team과 Away tema으로 구분되어 결과가 정리됨같은(단일) 국가가 같은 월드컵 대회에서 Home team과 Away team으로 참여하는 것을 고려 필요즉, 참가 횟수는 Home team 실적과 Away team 실적을 구분하지 않고 횟수가 반영되어야 함total_wcmatches  (wcmatches + wc2022, 2022년 대회까지 포함한 데이터 세트)Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) (tistory.com)  Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가)wcmatc.. 2023. 8. 9.
Rstudio with FIFA 월드컵 데이터 (2022년 카타르 추가) 연도별 개최 국가 (2022년 카타르 포함)wcmatches_2020.csv : 2022년 Qatar (카타르) 월드컵 결과 추가'wcmatches.csv' 데이터 세트는 1930년 우루과이 ~  2018년 러시아 월드컵 결과2022년  카타르 월드컵 결과 추가 반영[Data Source] 아래 사이트 내용을 정리하여 반영 (총 64경기)본선 조별 리그  :  https://en.wikipedia.org/wiki/2022_FIFA_World_Cup#Group_stage16강 ~ 결승 :  https://en.wikipedia.org/wiki/2022_FIFA_World_Cup#Knockout_stagewin_conditions  :  https://www.fifa.com/fifaplus/en/tourna.. 2023. 8. 7.
Rstudio 데이터 분석 with FIFA 월드컵 데이터 #1 연도별 개최 국가 / 국가별 개최횟수Data source  : 월드컵 경기 결과 (1930년 우루과이 ~  2018년 러시아)https://github.com/rfordatascience/tidytuesday/tree/master/data/2022/2022-11-29https://github.com/rfordatascience/tidytuesday/blob/master/data/2022/2022-11-29/wcmatches.csvwcmatches readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2022/2022-11-29/wcmatches.csv')wcmatches 데이터 세트에는 1930년.. 2023. 8. 6.
야구의 특성 및 데이터 관리 야구는 다른 스포츠대비 데이터 기록과 분석이 중요한 경기 야구의 특성을 파악하기 전에, 구기 종목의 경기 방식 등 특성을 구분한다면, 구기 종목 (Ball sports) 특성 구기 종목을 경기 방식 등 특성에 따라 구분한다면, 팀 대 개인: 스포츠는 팀이 경쟁하는 종목과 개인이 경쟁하는 종목으로 나눌 수 있음 팀 : 축구, 야구, 배구, 농구, 하키 등 개인 : 테니스, 탁구, 골프 등 (물론, 복식 경기도 있고, 팀 대항전도 있음) 경기 장소(프로 스포츠 기준) : 스포츠는 경기를 치는 장소에 따라 나눌 수 있음 실외 경기장 : 야구, 축구, 골프 등 실내 경기장 : 농구, 배구, 탁구 등 골프는 여러 홀의 돌면서 경기 (각 홀의 경기장은 홀컵 위치 등이 다르게 구성되며, 대회마다 다른 규격의 경기장).. 2023. 8. 5.
물류 설비 종류 및 자동화 적용 고려사항 물류 자동화 Trend 요약 1990~2000년대 : 제조사 Pallet AS/RS (Automated Storage & Retrieval System)의 보관 중심 구축 주요 대기업 (삼성, LG(금성), SK 등) 자동화 사업부 또는 자회사 보유 일본 자동화 설비 도입 구축 + 국산화 2000~2010년대 : 유통사 중심으로 Auto Sorting System 구축 택배사 Auto Sorting System 구축 및 대형화 ( 10,000 Box/Hr → 40,000 Box/Hr 이상) 일본 자동화 설비 → 유럽 자동화 설비 (대량 표준화 생산으로 상대적 낮은 가격, S/W 성능) 2010년~ : 유통사(온라인) 중심의 Multi-Shuttle, Autostore, Carousel 등 Box 보관 및.. 2023. 8. 4.
Rstudio 데이터 가공 및 기초 분석 #3 그룹간 데이터 비교 Slam Dunk 상북고와 다른학교 신장 비교 엑셀 피벗 Rstudio names (slam_dunk_total) [1] "uniform_no" "name" "height" "weight" "blood type" "age" [7] "position" "school" library(tidyverse) compare_team % group_by(school) %>% summarise( no_player = n(), # 플레이어(학생) 수 lower = min (height), # 최저 신장 average = mean (height), # 평균 신장 upper = max (height), # 최고 신장 difference = max(height) - min(height) #최고 신장과 신저.. 2023. 8. 3.
Rstudio 데이터 가공 및 기초 분석 #2 table () 데이터의 고유한 값들의 빈도를 계산하여 테이블로 반환 벡터, 요인형 데이터, 문자열 등 다양한 형태의 데이터에 대해 빈도를 계산할 수 있음 기본 예제 eg_1 2023. 8. 2.
Rstudio 데이터 가공 및 기초 분석 #1 데이터 가공 및 분석 엑셀을 활용하여 데이터를 가공하며, 특히 엑셀의 피벗 기능을 자유 사용하게 된다. 그러나, 데이터가 일부 변경되는 경우에 새로고침으로 피벗을 업데이트 할 수 있으나, 데이터 전체가 변경되는 경우에는 새롭게 피벗을 작성해야 한다. (물론 기존 데이터에 어퍼 씌울 수도 있으나, 동일한 열과 행이 아니라면...) 엑셀대시 Rstudio를 사용하는 이유 중에 하나는 반복성이다. 데이터는 변경되나, 동일한 데이터 분석을 한다면, Rstuido에 코드만 잘 정리해 놓으면, 다음 부터는 엑셀보다 편하게 가공 및 분석할 수 있다. 슬램덩크 상북고 학년(나이)별 평균, 최소, 최대 신장 엑셀 피벗 Rstudio library(tidyverse) slam_dunk %>% drop_na(height) .. 2023. 8. 1.
Rstudio 사분위수(Quartile) Outliers(이상치) IQR (사분범위) Rstudio의 summary 함수를 통해서, 1사분위수(Q1), 2사분위수(Q2, 중앙값) 3사분위수(Q3)을 확인 summary (slam_dunk) uniform_no 4 : 1 5 : 1 6 : 1 7 : 1 8 : 1 9 : 1 (Other):6 name Length:12 Class :character Mode :character height Min. :162.0 1st Qu.:169.5 Median :174.5 Mean :176.7 3rd Qu.:184.8 Max. :197.0 weight Min. :59.00 1st Qu.:64.00 Median :72.50 Mean :73.17 3rd Qu.:81.00 Max. :90.00 NA's :6 blood type Length:12 Class :c.. 2023. 7. 31.
Rstudio 데이터 살펴보기 #3 (기술통계 및 데이터 분포 해석) 평균과 중앙값의 관계 데이터가 한쪽으로 치우쳐져 있을 때, 평균과 중앙값의 값이 다를 수 있음 즉, 중앙값과 평균의 위치에 따라, 데이터의 분포 형태를 구분할 수 있음 평균과 중앙값의 차이가 크다면, 데이터가 한쪽으로 치우친 경향이 있을 수 있음 치우친 방향 쪽으로 중앙값이 평균보다 더 가까워지는 경향이 있음 이는 치우친 데이터로 인해 평균이 영향을 받아 평균 값이 중앙값 쪽으로 편향될 수 있음을 의미함 - 평균이 더 큰 경우: 오른쪽으로 치우친 (Positive Skewed) 데이터 분포일 가능성이 높음 데이터의 값이 좀 더 높은 쪽에 몰려 있으며, 상대적으로 작은 값들이 평균을 낮추기 위해 왼쪽으로 늘어나며, 이러한 경우, 평균은 중앙값보다 더 큰 값을 가짐 예제 데이터: {1, 2, 3, 4, 10.. 2023. 7. 30.
728x90