본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

데이터 분석 (with Rstudio)62

R과 Python 비교 및 선택 데이터 분석에 관심이 많은 사람들이 고민하는 것 중에 하나가, R을 배워야 할지, Python을 배워야 할지에 대한 문제다. 최근 대세는 Python으로 증가하는 경향이 있으나, 유행보다 본인의 Backgroud 및 전공과 데이터 분석의 목적에 따라 전략적 선택이 필요하다. R과 Python의 특성 비교 R과 Python은 성격이 다른 프로그래밍 언어이다. 정확하게 R을 프로그래밍 언어라고 부르는 것은 애매한 부분이 있다. R R은 통계 분석과 데이터 시각화에 특화되어 있으며, 상대적으로 데이터 분석에 쉽게 사용할 수 있는 문법을 가지고 있다. R은 통계 분석, 행렬, 선형 모델 등을 지원하며, 여러 가지 패키지를 통해 다양한 분석 기능을 제공한다. Python Python은 일반적인 프로그래밍 언어로서.. 2023. 8. 13.
Rstudio 데이터 가공 및 기초 분석 #3 그룹간 데이터 비교 Slam Dunk 상북고와 다른학교 신장 비교 엑셀 피벗 Rstudio names (slam_dunk_total) [1] "uniform_no" "name" "height" "weight" "blood type" "age" [7] "position" "school" library(tidyverse) compare_team % group_by(school) %>% summarise( no_player = n(), # 플레이어(학생) 수 lower = min (height), # 최저 신장 average = mean (height), # 평균 신장 upper = max (height), # 최고 신장 difference = max(height) - min(height) #최고 신장과 신저.. 2023. 8. 3.
Rstudio 데이터 가공 및 기초 분석 #2 table () 데이터의 고유한 값들의 빈도를 계산하여 테이블로 반환 벡터, 요인형 데이터, 문자열 등 다양한 형태의 데이터에 대해 빈도를 계산할 수 있음 기본 예제 eg_1 2023. 8. 2.
Rstudio 데이터 가공 및 기초 분석 #1 데이터 가공 및 분석 엑셀을 활용하여 데이터를 가공하며, 특히 엑셀의 피벗 기능을 자유 사용하게 된다. 그러나, 데이터가 일부 변경되는 경우에 새로고침으로 피벗을 업데이트 할 수 있으나, 데이터 전체가 변경되는 경우에는 새롭게 피벗을 작성해야 한다. (물론 기존 데이터에 어퍼 씌울 수도 있으나, 동일한 열과 행이 아니라면...) 엑셀대시 Rstudio를 사용하는 이유 중에 하나는 반복성이다. 데이터는 변경되나, 동일한 데이터 분석을 한다면, Rstuido에 코드만 잘 정리해 놓으면, 다음 부터는 엑셀보다 편하게 가공 및 분석할 수 있다. 슬램덩크 상북고 학년(나이)별 평균, 최소, 최대 신장 엑셀 피벗 Rstudio library(tidyverse) slam_dunk %>% drop_na(height) .. 2023. 8. 1.
Rstudio 사분위수(Quartile) Outliers(이상치) IQR (사분범위) Rstudio의 summary 함수를 통해서, 1사분위수(Q1), 2사분위수(Q2, 중앙값) 3사분위수(Q3)을 확인 summary (slam_dunk) uniform_no 4 : 1 5 : 1 6 : 1 7 : 1 8 : 1 9 : 1 (Other):6 name Length:12 Class :character Mode :character height Min. :162.0 1st Qu.:169.5 Median :174.5 Mean :176.7 3rd Qu.:184.8 Max. :197.0 weight Min. :59.00 1st Qu.:64.00 Median :72.50 Mean :73.17 3rd Qu.:81.00 Max. :90.00 NA's :6 blood type Length:12 Class :c.. 2023. 7. 31.
Rstudio 데이터 살펴보기 #3 (기술통계 및 데이터 분포 해석) 평균과 중앙값의 관계 데이터가 한쪽으로 치우쳐져 있을 때, 평균과 중앙값의 값이 다를 수 있음 즉, 중앙값과 평균의 위치에 따라, 데이터의 분포 형태를 구분할 수 있음 평균과 중앙값의 차이가 크다면, 데이터가 한쪽으로 치우친 경향이 있을 수 있음 치우친 방향 쪽으로 중앙값이 평균보다 더 가까워지는 경향이 있음 이는 치우친 데이터로 인해 평균이 영향을 받아 평균 값이 중앙값 쪽으로 편향될 수 있음을 의미함 - 평균이 더 큰 경우: 오른쪽으로 치우친 (Positive Skewed) 데이터 분포일 가능성이 높음 데이터의 값이 좀 더 높은 쪽에 몰려 있으며, 상대적으로 작은 값들이 평균을 낮추기 위해 왼쪽으로 늘어나며, 이러한 경우, 평균은 중앙값보다 더 큰 값을 가짐 예제 데이터: {1, 2, 3, 4, 10.. 2023. 7. 30.
Rstudio 데이터 살펴보기 #3 (기술통계) 기술통계 (Descriptive Statistics) 기술통계는 영어명에서 보는 것 처럼, 우리가 흔히 말하는 기술 [技術]이 아닌, 기록하여 서술한다는 의미의 기술 [記述] 임 기술통계란 데이터를 요약, 표현, 해석하는 방법으로, 데이터의 특성과 패턴을 이해하는 데 도움이 되는 통계적인 기법 기술통계는 주어진 데이터를 요약하여 중심 경향성(평균, 중앙값, 최빈값 등)과 분산, 분포 등의 특성을 파악 주로 평균, 중앙값, 표준편차, 최소값, 최대값, 분위수 등을 계산하여 데이터의 기본 특성을 파악 기술 [記述] : 사물의 내용을 기록하여 서술함 기술하다 [記述--] : (사람이 사물의 내용을) 기록하여 서술하다. (사람이나 책이 사물의 내용을 어떤 방식으로) 서술하거나 설명하다. (사람이나 책 따위가 어.. 2023. 7. 29.
Rstudio 데이터 살펴보기 #2 (summary 함수, 결측값 확인 등) 분석 데이터 (상북고_농구부.xlsx) (북산 - 나무위키 (namu.wiki) "5. 연재 당시 라인업" 정리, 학년은 나이로 반영) uniform_no name height weight blood type age position 4 채치수 197 90 A 19 C 5 권준호 178 62 A 19 SF 6 이달재 164 18 PG 7 송태섭 168 59 B 18 PG 8 신오일 170 18 PG 9 정병욱 180 18 SF 10 강백호 189 83 B 17 PF 11 서태웅 187 75 AB 17 SF 12 이호식 170 17 SF 13 이재훈 171 17 SG 14 정대만 184 70 A 19 SG 15 오중식 162 17 PG 데이터 요약해서 보기 library(readxl) #엑셀 파일을 불러오기.. 2023. 7. 28.
Rstudio 데이터 불러오기/살펴보기 #1 관련 데이터 설명 2023년 1월 개봉한 "더 퍼스트 슬램덩크"에 나오는 상북(湘北 Shohoku, 쇼호쿠) 고등학교 농구부 선수들의 유니폼 번호, 이름, 키, 몸무게, 혈액형, 나이, 포지션 데이터를 사용하여 데이터 분석을 연습 [첨부파일 : 상북고_농구부.xlsx] 일본 원작의 이름은 쇼호쿠(湘北 / SHOHOKU: 상북) 비디오판에서는 한자를 그대로 우리말 독음으로 읽어 상북이라고 하고, 원작 단행본(한국판)에서는 북산이라고 하는 등 한국판 기준으로 이름이 다름 (출처 : 북산 - 나무위키 (namu.wiki)) (출처 : 더 퍼스트 슬램덩크 - 나무위키 (namu.wiki) ) 상북고_농구부.xlsx (북산 - 나무위키 (namu.wiki) "5. 연재 당시 라인업" 정리, 학년은 나이로 반영) .. 2023. 7. 27.
Rstudio 엑셀 파일 불러오기/저장하기 엑셀 파일 불어오기 전, 확인사항 1. 엑셀 파일 상태 MS 엑셀에서 작업 중인 엑셀 파일은 R에서 불러 올 수 없으므로, 작업을 종료한 후에 불러와야 합니다. 2. 엑셀 파일 폴더 엑셀 파일이 작업 디렉터리에 있어야, 불러 올 수 있습니다. getwd()와 setwd()를 사용하여, 작업 디텍토리를 설정합니다. [참고] [R studio] 작업 디렉터리 (디렉토리, 폴더) 확인, 설정 변경 관리 (tistory.com) [R studio] 작업 디렉터리 (디렉토리, 폴더) 확인, 설정 변경 관리 작업 디렉터리 (폴더) 작업 디렉터리 (폴더) : 작업에 사용하고자 (읽거나 쓰고자) 하는 파일이 위치한 디렉터리 (폴더) R에서 어떤 파일을 읽으려면 그 파일이 위치한 디렉터리 (폴더)의 경로와 logisti.. 2023. 7. 26.
RStudio 환경 소개 및 주요 설정, 주요 패키지 소개 RStudio RStudio는 R을 사용하는 데이터 분석가와 데이터 과학자들에게 강력한 통합 개발 환경(IDE)으로서 R 언어를 사용하여 데이터 분석, 시각화, 통계 분석 등을 수행하는 데 최적화된 환경을 제공 좌측 상단의 스크립트 편집기(Editor) 여러 코드를 모아서 프로그래밍하고, 저장할 수 있는 공간 스크립트 편집기(Editor)는 Rstudio를 설치하고, 처음으로 오픈할 때는 나타나지 않으나, 신규로 파일을 작성하거나, 기존에 저장한 파일을 불러오면 활성화됨 코드를 실행할 수 있는 아이콘이 있음 (실행할 코드를 Ctrl + Enter로도 실행 가능) 한 명령문 실행 : 커서가 있는 줄에서 Ctrl + Enter 복수 명령문 실행 : 커서를 드래그하여 블록을 설정하고 Ctrl + Enter 모.. 2023. 7. 24.
Rstudio CSV 파일 불러오기/저장하기 CSV 파일 불러오기방법 1data data # 변수 이름이 없는 CSV 파일 읽기data # UTF-8 인코딩으로 CSV 파일 읽기 data read.csv() 함수는 기본적으로 첫 번째 행을 변수 이름으로 간주만약 데이터에 변수 이름이 없는 경우, header = FALSE 옵션을 추가하여 변수 이름을 제거할 수 있음데이터의 문자열을 올바르게 처리하기 위해 인코딩을 지정해야 할 수 있음예를 들어, UTF-8로 인코딩된 CSV 파일을 읽는 경우 :  encoding = "UTF-8" 옵션 추가불러오기 주요 옵션file: CSV 파일명과 경로 또는 URL을 지정 (필수) header: 논리값으로, CSV 파일의 첫 번째 행을 변수 이름으로 사용할지 여부를 지정, 기본값은 TRUEsep: 필드를 구분하는 .. 2023. 7. 23.
데이터 분석 #2 (DIKW 피라미드) 보석이 만들어지는 과정을 보면, 광산에서 거의 돌 상태의 광물을 채굴한 후, 원석(가공이나 커팅이 되어 있지 않은 상태)을 커팅하여 나석(커팅은 되었으나, 세팅이 되기 전)으로 만들고, 장신구에 맞게 세팅하여 비로서 보석으로 의미와 가치가 생기는 과정을 생각하게 되었다. 데이터를 가공하여 목적에 맞는 정보를 생성하고 다른 지식을 접목함으로써 최적 또는 차선의 의사결정이 가능한 결과를 도출함, 많은 자료들이 이러한 과정을 DIKW 피라미드를 통해서 설명하고 있다. 데이터가 너무 많은 시대에 데이터를 가공하여, 의미있는 정보로 변환하여 Insight 도출하고 의사결정이 하는 것이 현대 직장인의 주요 업무가 아닐까 생각한다. DIKW 피라미드 Data - Information - Knowledge - Wisd.. 2023. 7. 22.
데이터 분석 #1 다년간 '4차 산업혁명', 'DT (Digital Transformation)', 'DX (Digital + X (cross, trans 의미의 X)라는 말이 다년간 유행해 왔다. Covid 19는 'Digital'의 힘을 더욱더 강하게 인식하게 된 계기가 되었다. 4차 혁명과 DX 시대의 핵심은 데이터에 있으며, 데이터를 잘 사용하는 것이 중요한 시대이다. 대부분 기업들은 ERP를 비롯한 정보 시스템을 통해서 데이터 축적은 이미 해오고 있다. 그러나, 이러한 Digital 시대에 "축적된 데이터를 어떻게 사용해야 할지"에 대한 고민은 부족했고, 데이터 분석에 사용하려고 보니, "사용할 가치가 있는 데이터가 부족"한 것이 현실이다. 알파고는 인간보다 바둑을 잘 두기 위해서 수 많은 기보를 학습했고, 인간.. 2023. 7. 22.
데이터 분석 프로그래밍 언어 #2 통계 소프트웨어 비교 #1 설명 SPSS - SPSS는 자료 분석에 통계 기법을 사용하여 의사 결정을 위한 분석 결과를 산출하는 통계 분석 소프트웨어 - 주로 가설 검정, 기술 및 예측 분석을 할 때 사용 - 기본적으로 제공하는 분석이나 검정 외에도 Python 및 R 프로그래밍 언저와 호환 사용이 가능 MS Excel - 엑셀은 다양한 수학점 함수를 지원 - z-분포, t-분포, 카이제곱 분포, F-분포, 회귀분석 등 간단한 통계 계산도 가능 - 다만, 자료가 늘어날수록 연산 속도가 급소도로 저하되어 표본 수가 많은 경우는 통계 분석용으로 활용하기 어려움 Python - 오픈소스 고급 프로그래밍 언어로, 기존의 프로그래밍 언어에 비해 문법이 간결하고 표현 구조가 인간의 사고 체계와 닮아 있어 초보자도 .. 2023. 7. 22.
728x90