본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

데이터 분석 (with Rstudio)62

[데이터분석 관련 책] 데이터 과학자의 가설 사고 https://product.kyobobook.co.kr/detail/S000212170349데이터 분석에 대해서 쉽게 이해할 수 있는 책작가들이 NEC(일본 전기 주식회사)의 회사원들이다.간결한 문체와 다양한 예제를 통해서 이해하기 쉽게 설명하고 있다.데이터 분석에 입문하는 회사원이나 학생들에게 추천한다.총 7장으로 구성되어 있으며, 1장은 데이터 리터러시에 대해서 설명하고 있고, 7장은 전체 내용을 정리하고 있다.2장에서 6장은 저자가 얘기하는 데이터 리터러시 관련  6가지 힘 (데이터를 읽는 힘, 데이터를 해석하는 힘, 데이터를 다루는 힘, 데이터를 분류하는 힘, 데이터에서 법칙을 발견하는 힘, 데이터를 보고 예측하는 힘) 중에서 데이터를 다루는 힘을 제외하고 순서대로 설명하고 있다.즉, 이 책은 .. 2024. 5. 9.
[Rstudio] 대한민국 지도 그리기 (전국 지도, 지역별 지도) [ 대한민국 지도 : 전국 🌏 ] [ 대한민국 행정구역(SHP 파일) 다운로드 ] 다운로드 링크 주소 (2023년 7월 업데이트 종료) 지도 작성 수준 (시도, 시군구, 읍면동)에 따라, 해당 SHP 파일을 다운로드 받아서 사용 http://www.gisdeveloper.co.kr/?p=2332 2023년 12월 이후의 최신 행정구역(SHP) 데이터는 지오서비스웹(GEOSERVICE-WEB)의 아카이브를 통해서 다운로드 받을 수 있도록 변경 https://www.geoservice.co.kr/ [ sf 패키지 사용 ] # 필요한 패키지 로드 library(sf) library(tidyverse) # SHP 파일 읽기 map_sf summary(map_sf) SIG_CD SIG_ENG_NM SIG_KOR_.. 2024. 4. 18.
[Rstudio] 대한민국 지도 그리기 (전국 지도) [ 대한민국 지도 그리기 🌏 ] [ 글로벌 행정 지역 데이터베이스 GADM 활용] getData를 실행하면 "곧 제거된다"고 경고 메세지를 보여줌 아래 사이트에 방문하여 SHP 파일 (Shapefile)을 다운로드 받을 수 있음 https://gadm.org/download_country.html GADM gadm.org [ level = 1 : 시도] korea_1 head(korea_2) GID_0 NAME_0 GID_1 NAME_1 NL_NAME_1 GID_2 NAME_2 184167 KOR South Korea KOR.1_1 Busan 부산광역시 | 釜山廣域市 KOR.1.1_1 Buk 184231 KOR South Korea KOR.1_1 Busan 부산광역시 | 釜山廣域市 KOR.1.2_1 Bu.. 2024. 4. 16.
[Rstudio] 세계지도 그리기와 색칠하기 (전체, 국가별 지도) [ 세계 지도 그리기 🌏 ] [ maps 패키지 ] maps 패키지가 제공하는 지도를 map_data 함수를 통해서 load하고 ggplot() + geom_polygon()을 활용하여 지도를 작성 install.packages('maps') library(maps) library(tidyverse) world str(world) 'data.frame':99338 obs. of 6 variables: $ long : num -69.9 -69.9 -69.9 -70 -70.1 ... $ lat : num 12.5 12.4 12.4 12.5 12.5 ... $ group : num 1 1 1 1 1 1 1 1 1 1 ... $ order : int 1 2 3 4 5 6 7 8 9 10 ... $ region .. 2024. 4. 15.
[Rstudio] 의회 다이어그램 with 국회의원 선거 의석 수 결과 Pixabay로부터 입수된 Marja Mäkelä님의 이미지 입니다. 제22대 국회의원 선거(2024.4.1)가 끝났다. 더불어민주당(더불어민주연합 14석 포함)이 총 175석, 국민의힘(국민의미래 18석 포함) 108석, 조국혁신당이 12석, 개혁신당 (비례 2석 포함) 3석, 새로운미래 1석, 진보당 1석을 차지하였다. 범야권이 192석을 차지하였다. 제20대, 21대, 22대 국회의원 선걱 결과. 각 당의 의석 수를 geom_parliament 를 사용하여 그려 보았다. 당명과 의석수의 데이터를 만들면, 의회 의석 배치 모양의 그래프를 그릴 수 있다. [ geom_parliament ] "geom_parliament"는 ggpol 패키지의 한 요소로, ggplot2의 geom 기능을 확장하여 의회 .. 2024. 4. 12.
[Rstudio] 루프(Loop) 반복문 - for 루프 문과 while 루프 문 [ 루프 (Loop) 반복문 ] 루프(Loop)는 프로그래밍에서 반복 작업을 수행하기 위해 사용되는 제어 구조이다. 주어진 조건이 참(True)인 동안 코드 블록을 반복적으로 실행한다. R에서는 주로 for 루프와 while 루프를 사용한다. [ for 루프 문과 while 루프 문 비교 ] for 루프는 반복 횟수가 명확하고 구조적인 작업에, while 루프는 특정 조건이 충족될 때까지 반복해야 하는 상황에 유용 for 루프 while 루프 구조 for 루프는 주어진 조건 범위 내에서 반복 작업을 수행 일반적으로 반복 범위에 해당하는 변수를 사용하여 루프를 정의 초기화, 조건 검사, 증감 등의 구문을 한 줄에 표현할 수 있어서 코드가 간결 while 루프는 주어진 조건이 참(True)인 동안에만 반복 .. 2024. 3. 26.
[Rstudio] 조건문 if else case_when [ R 조건문 🟢 ]R 프로그래밍 언어에서 조건문을 사용하는 주요 방법은 if, if + else, ifelse, case_when이다.[ 사용 예제 : 예능방송인 브랜드 순위 ]top50 rank_mar name sex job rank_feb rank_jan1 1 유재석 남 코메디언 2 22 2 이효리 여 가수 1 NA3 3 신동엽 남 코메디언 4 34 4 박명수 남 코메디언 8 105 5 탁재훈 남 가수 3 16 6 전현무 남 방송 7 .. 2024. 3. 24.
DT (Digital Transformation)와 DX (Digital eXperience) 정의와 핵심 고려사항 [ Digitalization (디지털화) 정의 ] 디지털화는 기존의 아날로그 방식이나 물리적인 형태로 존재하는 정보, 프로세스, 서비스 등을 디지털 형태로 변환하는 과정이나 결과를 말한다. 이러한 디지털화의 목적은 효율성, 편의성, 경제성 등을 제공하거나, 증대하기 위함이다. 디지털화 영역 정의 기대효과 정보 디지털화 아날로그 데이터나 문서를 디지털 형태로 변환 대량의 데이터를 디지털 형태로 수집, 저장, 처리 정보(데이터, 문서)를 빠르게 전송, 저장, 분석 효율적 정보 관리 및 업무 생산성 증대 의사결정 적기 지원 프로세스 디지털화 기존의 비효율적인 업무나 생산 프로세스를 디지털 기술을 통해 최적화하고 자동화 업무 생산성을 향상 오류 또는 Loss를 감소 서비스 디지털화 전통적인 서비스를 디지털 플.. 2024. 3. 11.
[Rstudio] 리플렛(leaflet) Marking Icon 설정 [Leaflet Marking Icon 리플렛 마커, 아이콘]사용 데이터 : 23_24 한국 관광100선 [기본 마커, 아이콘 (Icon) : addMarkers]library(tidyverse) library(htmlTable) visitkorea %>% filter (region == "서울") %>% select (region, place, addr, road_addr) %>% arrange(addr) %>% addHtmlTableStyle(align = "cll", align.header = "ccl", col.rgroup = c("none", "#F7F7F7"), pos.caption = "bottom" ) %>% htmlTable(caption = "서울 주요 관광지") library(leaf.. 2023. 12. 23.
[Rstudio] 리플렛(leaflet) 지도 종류 설정 (한국 관광 100선 위치) [Leaflet map type 지도 유형]addProviderTiles(providers${FORMAT}) Format에 지도 유형(종류)을 선택leaflet() %>% setView(lng=127.4676, lat=36, zoom=7) %>% addProviderTiles( providers${FORMAT}) leaflet() %>% setView(lng=127.4676, lat=36, zoom=7) %>% addTiles() %>% addProviderTiles( providers${FORMAT})[사용 데이터 : 23_24 한국 관광100선, 100대 명소]한국관광공사가 선정한 지역별 인기 유명 관광지 (대한민국 100대 + 알파 관광명소 소개) 문화체육관광부와 한국관광공사가 한국인이 꼭 가봐야 .. 2023. 12. 23.
[Rstudio] 리플렛 지도 위치 표시 (Marking with leaflet package) [위도, 경도 정보로 지도에 위치 표시하기] Leaflet은 인터랙티브(Interactive) 웹 지도를 만들기 위한 JavaScript 라이브러리 중 하나이다. Leaflet은 간단하게 사용할 수 있으며, 여러 가지 맵 데이터를 시각적으로 나타내기 위한 다양한 기능을 제공한다. 주로 사용되는 OpenStreetMap은 오픈 데이터 소스로 일반적으로 권리 없음(CC0) 또는 유사한 라이선스로 제공된다. 사용 데이터 : 2023.12.19 - [데이터 분석 (with Rstudio)] - K리그 축구장 주소 및 위경도 (with Rstudio API) K리그 축구장 주소 및 위경도 (with Rstudio API) [K리그 축구장 주소 및 위도 경도 찾기] [K리그1 : 12개팀] [팀명 및 구장명 불러오.. 2023. 12. 19.
[Rstudio] ggplot 그래프 분할 생성 (facet_wrap facet_grid) [facet_wrap, facet_grid 함수]facet_wrap() 및 facet_grid() 함수는 ggplot2로 그린 그래프를  데이터를 기준에 따라  여러 서브플롯으로 나누어 그리는 데 사용된다. 특정 변수에 따라 데이터를 서브플롯으로 분할하여 각 서브플롯에 대해 동일한 그래프를 생성한다.facet_wrap() 및 facet_grid() 함수는 여러 데이터를 동시에 비교할 수 있도록 시각화할 때 유용하다. [facet_wrap 예제]facet_wrap()은 하나의 변수를 기준으로 여러 서브플롯을 생성한다.  facet_wrap(~category, ncol = 2) :  species변수를 기준으로 서브플롯을 생성library(palmerpenguins)library(tidyverse)data(.. 2023. 12. 18.
건물과 주소 위도 경도 정보 알아내기 2 (with Rstudio API) 구글 스프레드 시트를 사용하여, 쉽게 위도 경도 정보를 알아 낼 수 있으나, 구글 스프레드 시트의 Geocode를 일 사용횟수의 제약이 있다. 건물과 주소 위도 경도 정보 알아내기 1 (with 구글 스프레드시트) (tistory.com) 건물과 주소 위도 경도 정보 알아내기 1 (with 구글 스프레드시트) 구글 지도 (Google map)에서 위도, 경도 확인 구글 지도에서 지명, 주소 검색 예) 국립중앙박물관 마우스 오른쪽 버튼으로 클릭하고, 주변검색 클릭 위도, 경도 표시 예) 국립중앙박물관 : 37.5241, 126.9 logistician.tistory.com [ 구글맵 & 카카오맵 API로 위도 경도 확인] API를 통해서 요청한 주소에 대한 위도, 경도를 검색하여 제공한다. [ ggmap .. 2023. 12. 6.
건물과 주소 위도 경도 정보 알아내기 1 (with 구글 스프레드시트) 구글 지도 (Google map)에서 위도, 경도 확인 구글 지도에서 지명, 주소 검색 예) 국립중앙박물관 마우스 오른쪽 버튼으로 클릭하고, 주변검색 클릭 위도, 경도 표시 예) 국립중앙박물관 : 37.5241, 126.9805 구글 스프레드 시트 (Google Sheets) Geocode 구글 스프레드 시트에 주소, 지명 정보 입력 [확장 프로그램] - [Geocode by Awesome Table] - [Start Geocording] 실행 시트명과 주소와 지명 정보가 있는 Column 지정 (자동 인식) - [Geocode!] 클릭 완료 메세지 및 결과 표시 각 주소 및 지명의 Latitude (위도)와 Longitude (경도)가 스프레드 시트에 표시 Latitude (위도) Longitude (.. 2023. 12. 5.
[Rstudio] 회귀분석 (Regression Analysis) 회귀분석 (Regression Analysis) 회귀분석은 변수 간의 관계를 모델링하고 예측하는 통계적 기법 중 하나이다. 데이터에 적합한 모델을 찾아내어 변수 간의 관계를 설명하고 예측하는 데 사용된다. 한 변수를 원인으로 하고 다른 변수를 결과로 하여, 원인변수와 결과변수 사이의 관계를 모델링(관계식을 구하고)하고, 그 모델(관계식)을 이용하여 원인변수 값이 주어졌을 때, 결과변수의 값을 예측하는 통계적 기법 중 하나이다. 원인의 역할을 하는 변수를 설명변수(explanatory variable) 또는 독립변수(independent variable)이라 하고, 결과를 관측하는 변수를 반응변수(reponse variable) 또는 종속변수(dependent variable)라 한다. 회귀분석에는 주로 .. 2023. 11. 14.
728x90