본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

Rstudio 데이터 불러오기/살펴보기 #1

by Vitaminymc 2023. 7. 27.
반응형

상북고_농구부.xlsx
0.01MB

관련 데이터 설명

2023년 1월 개봉한 "더 퍼스트 슬램덩크"에 나오는 상북(湘北 Shohoku, 쇼호쿠)  고등학교 농구부 선수들의 유니폼 번호, 이름, 키, 몸무게, 혈액형, 나이, 포지션 데이터를 사용하여 데이터 분석을 연습 [첨부파일 : 상북고_농구부.xlsx]

일본 원작의 이름은 쇼호쿠(湘北 / SHOHOKU: 상북)

비디오판에서는 한자를 그대로 우리말 독음으로 읽어 상북이라고 하고, 원작 단행본(한국판)에서는 북산이라고 하는 등 한국판 기준으로 이름이 다름

(출처 : 북산 - 나무위키 (namu.wiki))

(출처 :  더 퍼스트 슬램덩크 - 나무위키 (namu.wiki)  )

 

 

 

상북고_농구부.xlsx (북산 - 나무위키 (namu.wiki) "5. 연재 당시 라인업" 정리, 학년은 나이로 반영)

uniform_no  name height weight blood type age position
4 채치수 197 90 A 19 C
5 권준호 178 62 A 19 SF
6 이달재 164     18 PG
7 송태섭 168 59 B 18 PG
8 신오일 170     18 PG
9 정병욱 180     18 SF
10 강백호 189 83 B 17 PF
11 서태웅 187 75 AB 17 SF
12 이호식 170     17 SF
13 이재훈 171     17 SG
14 정대만 184 70 A 19 SG
15 오중식 162     17 PG

한국화 이름 / 일본 이름

4. 채치수 /
    아카기 타케노리
    (赤木 剛憲)
5. 권준호 /
    코구레 키미노부
    (木暮公延)
6. 이달재 /
    야스다 야스하루
    (安田靖春)
 7. 송태섭 /
    미야기 료타
    (宮城リョータ)
8. 신오일 /
    시오자키 테츠시
    (潮崎 哲士)
9. 정병욱 /
    카쿠타 사토루
    (角田 悟)
10. 강백호 /
     사쿠라기 하나미치 
     (桜木 花道)
11. 서태웅 /
    루카와 카에데
    (流川 楓)
12. 이호식 /
    이시이 켄타로 
    (石井 健太郎)
13. 이재훈 /
    사사오카 사토루
   (佐々岡 智)
14. 정대만 /
      미츠이 히사시
      ( 三井 寿)
15. 오중식 /
    쿠와타 토키
    ( 桑田 登紀)

멋진 한국 이름으로 작명해 주신 관련 담당자님 대단하십니다.

 

데이터 불러오기 / 살펴보기

library(readxl)   #엑셀 파일을 불러오기 위한 패키지

slam_dunk <- read_excel ("상북고_농구부.xlsx")   #해당 엑셀파일 불러오기

str(slam_dunk)  #데이터 구조 및 형태(타입) 확인  
tibble [12 × 7] (S3: tbl_df/tbl/data.frame)
 $ uniform_no: num [1:12] 4 5 6 7 8 9 10 11 12 13 ...
 $ name      : chr [1:12] "채치수" "권준호" "이달재" "송태섭" ...
 $ height    : num [1:12] 197 178 164 168 170 180 189 187 170 171 ...
 $ weight    : chr [1:12] "90" "62" "NA" "59" ...
 $ blood type: chr [1:12] "A" "A" "NA" "B" ...
 $ age       : num [1:12] 19 19 18 18 18 18 17 17 17 17 ...
 $ position  : chr [1:12] "C" "SF" "PG" "PG" ...

데이터를 불러오면, 제일 먼저 할 일은 데이터 구성 (필드명, 데이터 갯수 등)과 유형을 확인

names(slam_dunk) #데이터 필드명만 확인
[1] "uniform_no" "name"       "height"     "weight"     "blood type" "age"        "position" 
head (slam_dunk)  #상위(앞부분) 데이터 조회
# A tibble: 6 × 7
  uniform_no name   height weight `blood type`   age position
       <dbl> <chr>   <dbl> <chr>  <chr>        <dbl> <chr>   
1          4 채치수    197 90     A               19 C       
2          5 권준호    178 62     A               19 SF      
3          6 이달재    164 NA     NA              18 PG      
4          7 송태섭    168 59     B               18 PG      
5          8 신오일    170 NA     NA              18 PG      
6          9 정병욱    180 NA     NA              18 SF     
head (slam_dunk, 10)  #상위(앞부분) 데이터 10개 조회
# A tibble: 10 × 7
   uniform_no name   height weight `blood type`   age position
        <dbl> <chr>   <dbl> <chr>  <chr>        <dbl> <chr>   
 1          4 채치수    197 90     A               19 C       
 2          5 권준호    178 62     A               19 SF      
 3          6 이달재    164 NA     NA              18 PG      
 4          7 송태섭    168 59     B               18 PG      
 5          8 신오일    170 NA     NA              18 PG      
 6          9 정병욱    180 NA     NA              18 SF      
 7         10 강백호    189 83     B               17 PF      
 8         11 서태웅    187 75     AB              17 SF      
 9         12 이호식    170 NA     NA              17 SF      
10         13 이재훈    171 NA     NA              17 PG   
tail (slam_dunk) #하위(뒷부분) 데이터 조회
# A tibble: 6 × 7
  uniform_no name   height weight `blood type`   age position
       <dbl> <chr>   <dbl> <chr>  <chr>        <dbl> <chr>   
1         10 강백호    189 83     B               17 PF      
2         11 서태웅    187 75     AB              17 SF      
3         12 이호식    170 NA     NA              17 SF      
4         13 이재훈    171 NA     NA              17 PG      
5         14 정대만    184 70     A               19 SG      
6         15 오중식    162 NA     NA              17 PG   
tail (slam_dunk, 3) #하위(뒷부분) 데이터 3개 조회
# A tibble: 3 × 7
  uniform_no name   height weight `blood type`   age position
       <dbl> <chr>   <dbl> <chr>  <chr>        <dbl> <chr>   
1         13 이재훈    171 NA     NA              17 PG      
2         14 정대만    184 70     A               19 SG      
3         15 오중식    162 NA     NA              17 PG  

R 데이터 유형

숫자형 (Numeric): 소수점을 가질 수 있는 수치 데이터 (예. 3.14, -5, 100)

문자열 (Character): 텍스트 데이터, 작은 따옴표(' ') 또는 큰 따옴표(" ")로 감싸서 표현

논리형 (Logical): 참(True) 또는 거짓(False) 값을 갖는 데이터 (예. TRUE, FALSE, T, F)

정수형 (Integer): 소수점 없이 정수 (예. 1, -10, 100)

팩터형 (Factor): 범주형 데이터를 나타내기 위해 사용되며, 정수형 또는 문자열로 표현
                           범주들을 levels(수준)로 가지며, 데이터를 카테고리화하는데 사용

날짜 및 시간형 (Date, POSIXct, POSIXlt): 날짜와 시간 정보를 나타내기 위해 사용
                          Date는 날짜만, POSIXct와 POSIXlt는 날짜와 시간을 모두 포함

리스트형 (List): 서로 다른 데이터 유형을 가진 여러 개의 요소를 포함할 수 있는 복합 데이터 유형

데이터프레임 (Dataframe): 행과 열로 구성된 테이블 형태의 데이터 구조
                                           각 열은 동일한 길이의 벡터로 이루어져 있고, 서로 다른 유형의 데이터를 가질 수 있음

 

728x90