반응형
관련 데이터 설명
2023년 1월 개봉한 "더 퍼스트 슬램덩크"에 나오는 상북(湘北 Shohoku, 쇼호쿠) 고등학교 농구부 선수들의 유니폼 번호, 이름, 키, 몸무게, 혈액형, 나이, 포지션 데이터를 사용하여 데이터 분석을 연습 [첨부파일 : 상북고_농구부.xlsx]
일본 원작의 이름은 쇼호쿠(湘北 / SHOHOKU: 상북) 비디오판에서는 한자를 그대로 우리말 독음으로 읽어 상북이라고 하고, 원작 단행본(한국판)에서는 북산이라고 하는 등 한국판 기준으로 이름이 다름 (출처 : 북산 - 나무위키 (namu.wiki)) |
(출처 : 더 퍼스트 슬램덩크 - 나무위키 (namu.wiki) )
상북고_농구부.xlsx (북산 - 나무위키 (namu.wiki) "5. 연재 당시 라인업" 정리, 학년은 나이로 반영)
uniform_no | name | height | weight | blood type | age | position |
4 | 채치수 | 197 | 90 | A | 19 | C |
5 | 권준호 | 178 | 62 | A | 19 | SF |
6 | 이달재 | 164 | 18 | PG | ||
7 | 송태섭 | 168 | 59 | B | 18 | PG |
8 | 신오일 | 170 | 18 | PG | ||
9 | 정병욱 | 180 | 18 | SF | ||
10 | 강백호 | 189 | 83 | B | 17 | PF |
11 | 서태웅 | 187 | 75 | AB | 17 | SF |
12 | 이호식 | 170 | 17 | SF | ||
13 | 이재훈 | 171 | 17 | SG | ||
14 | 정대만 | 184 | 70 | A | 19 | SG |
15 | 오중식 | 162 | 17 | PG |
한국화 이름 / 일본 이름
4. 채치수 / 아카기 타케노리 (赤木 剛憲) |
5. 권준호 / 코구레 키미노부 (木暮公延) |
6. 이달재 / 야스다 야스하루 (安田靖春) |
7. 송태섭 / 미야기 료타 (宮城リョータ) |
8. 신오일 / 시오자키 테츠시 (潮崎 哲士) |
9. 정병욱 / 카쿠타 사토루 (角田 悟) |
10. 강백호 / 사쿠라기 하나미치 (桜木 花道) |
11. 서태웅 / 루카와 카에데 (流川 楓) |
12. 이호식 / 이시이 켄타로 (石井 健太郎) |
13. 이재훈 / 사사오카 사토루 (佐々岡 智) |
14. 정대만 / 미츠이 히사시 ( 三井 寿) |
15. 오중식 / 쿠와타 토키 ( 桑田 登紀) |
멋진 한국 이름으로 작명해 주신 관련 담당자님 대단하십니다.
데이터 불러오기 / 살펴보기
library(readxl) #엑셀 파일을 불러오기 위한 패키지 slam_dunk <- read_excel ("상북고_농구부.xlsx") #해당 엑셀파일 불러오기 str(slam_dunk) #데이터 구조 및 형태(타입) 확인 |
tibble [12 × 7] (S3: tbl_df/tbl/data.frame) $ uniform_no: num [1:12] 4 5 6 7 8 9 10 11 12 13 ... $ name : chr [1:12] "채치수" "권준호" "이달재" "송태섭" ... $ height : num [1:12] 197 178 164 168 170 180 189 187 170 171 ... $ weight : chr [1:12] "90" "62" "NA" "59" ... $ blood type: chr [1:12] "A" "A" "NA" "B" ... $ age : num [1:12] 19 19 18 18 18 18 17 17 17 17 ... $ position : chr [1:12] "C" "SF" "PG" "PG" ... |
데이터를 불러오면, 제일 먼저 할 일은 데이터 구성 (필드명, 데이터 갯수 등)과 유형을 확인
names(slam_dunk) #데이터 필드명만 확인 |
[1] "uniform_no" "name" "height" "weight" "blood type" "age" "position" |
head (slam_dunk) #상위(앞부분) 데이터 조회 |
# A tibble: 6 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 4 채치수 197 90 A 19 C 2 5 권준호 178 62 A 19 SF 3 6 이달재 164 NA NA 18 PG 4 7 송태섭 168 59 B 18 PG 5 8 신오일 170 NA NA 18 PG 6 9 정병욱 180 NA NA 18 SF |
head (slam_dunk, 10) #상위(앞부분) 데이터 10개 조회 |
# A tibble: 10 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 4 채치수 197 90 A 19 C 2 5 권준호 178 62 A 19 SF 3 6 이달재 164 NA NA 18 PG 4 7 송태섭 168 59 B 18 PG 5 8 신오일 170 NA NA 18 PG 6 9 정병욱 180 NA NA 18 SF 7 10 강백호 189 83 B 17 PF 8 11 서태웅 187 75 AB 17 SF 9 12 이호식 170 NA NA 17 SF 10 13 이재훈 171 NA NA 17 PG |
tail (slam_dunk) #하위(뒷부분) 데이터 조회 |
# A tibble: 6 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 10 강백호 189 83 B 17 PF 2 11 서태웅 187 75 AB 17 SF 3 12 이호식 170 NA NA 17 SF 4 13 이재훈 171 NA NA 17 PG 5 14 정대만 184 70 A 19 SG 6 15 오중식 162 NA NA 17 PG |
tail (slam_dunk, 3) #하위(뒷부분) 데이터 3개 조회 |
# A tibble: 3 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 13 이재훈 171 NA NA 17 PG 2 14 정대만 184 70 A 19 SG 3 15 오중식 162 NA NA 17 PG |
R 데이터 유형
숫자형 (Numeric): 소수점을 가질 수 있는 수치 데이터 (예. 3.14, -5, 100) 문자열 (Character): 텍스트 데이터, 작은 따옴표(' ') 또는 큰 따옴표(" ")로 감싸서 표현 논리형 (Logical): 참(True) 또는 거짓(False) 값을 갖는 데이터 (예. TRUE, FALSE, T, F) 정수형 (Integer): 소수점 없이 정수 (예. 1, -10, 100) 팩터형 (Factor): 범주형 데이터를 나타내기 위해 사용되며, 정수형 또는 문자열로 표현 범주들을 levels(수준)로 가지며, 데이터를 카테고리화하는데 사용 날짜 및 시간형 (Date, POSIXct, POSIXlt): 날짜와 시간 정보를 나타내기 위해 사용 Date는 날짜만, POSIXct와 POSIXlt는 날짜와 시간을 모두 포함 리스트형 (List): 서로 다른 데이터 유형을 가진 여러 개의 요소를 포함할 수 있는 복합 데이터 유형 데이터프레임 (Dataframe): 행과 열로 구성된 테이블 형태의 데이터 구조 각 열은 동일한 길이의 벡터로 이루어져 있고, 서로 다른 유형의 데이터를 가질 수 있음 |
728x90
'데이터 분석 (with Rstudio)' 카테고리의 다른 글
Rstudio 데이터 살펴보기 #3 (기술통계) (0) | 2023.07.29 |
---|---|
Rstudio 데이터 살펴보기 #2 (summary 함수, 결측값 확인 등) (0) | 2023.07.28 |
Rstudio 엑셀 파일 불러오기/저장하기 (0) | 2023.07.26 |
RStudio 환경 소개 및 주요 설정, 주요 패키지 소개 (0) | 2023.07.24 |
Rstudio CSV 파일 불러오기/저장하기 (0) | 2023.07.23 |