반응형
상북고_농구부.xlsx
0.01MB
관련 데이터 설명
2023년 1월 개봉한 "더 퍼스트 슬램덩크"에 나오는 상북(湘北 Shohoku, 쇼호쿠) 고등학교 농구부 선수들의 유니폼 번호, 이름, 키, 몸무게, 혈액형, 나이, 포지션 데이터를 사용하여 데이터 분석을 연습 [첨부파일 : 상북고_농구부.xlsx]
일본 원작의 이름은 쇼호쿠(湘北 / SHOHOKU: 상북) 비디오판에서는 한자를 그대로 우리말 독음으로 읽어 상북이라고 하고, 원작 단행본(한국판)에서는 북산이라고 하는 등 한국판 기준으로 이름이 다름 (출처 : 북산 - 나무위키 (namu.wiki)) |

(출처 : 더 퍼스트 슬램덩크 - 나무위키 (namu.wiki) )
상북고_농구부.xlsx (북산 - 나무위키 (namu.wiki) "5. 연재 당시 라인업" 정리, 학년은 나이로 반영)
uniform_no | name | height | weight | blood type | age | position |
4 | 채치수 | 197 | 90 | A | 19 | C |
5 | 권준호 | 178 | 62 | A | 19 | SF |
6 | 이달재 | 164 | 18 | PG | ||
7 | 송태섭 | 168 | 59 | B | 18 | PG |
8 | 신오일 | 170 | 18 | PG | ||
9 | 정병욱 | 180 | 18 | SF | ||
10 | 강백호 | 189 | 83 | B | 17 | PF |
11 | 서태웅 | 187 | 75 | AB | 17 | SF |
12 | 이호식 | 170 | 17 | SF | ||
13 | 이재훈 | 171 | 17 | SG | ||
14 | 정대만 | 184 | 70 | A | 19 | SG |
15 | 오중식 | 162 | 17 | PG |
한국화 이름 / 일본 이름
4. 채치수 / 아카기 타케노리 (赤木 剛憲) |
5. 권준호 / 코구레 키미노부 (木暮公延) |
6. 이달재 / 야스다 야스하루 (安田靖春) |
7. 송태섭 / 미야기 료타 (宮城リョータ) |
8. 신오일 / 시오자키 테츠시 (潮崎 哲士) |
9. 정병욱 / 카쿠타 사토루 (角田 悟) |
10. 강백호 / 사쿠라기 하나미치 (桜木 花道) |
11. 서태웅 / 루카와 카에데 (流川 楓) |
12. 이호식 / 이시이 켄타로 (石井 健太郎) |
13. 이재훈 / 사사오카 사토루 (佐々岡 智) |
14. 정대만 / 미츠이 히사시 ( 三井 寿) |
15. 오중식 / 쿠와타 토키 ( 桑田 登紀) |
멋진 한국 이름으로 작명해 주신 관련 담당자님 대단하십니다.
데이터 불러오기 / 살펴보기
library(readxl) #엑셀 파일을 불러오기 위한 패키지 slam_dunk <- read_excel ("상북고_농구부.xlsx") #해당 엑셀파일 불러오기 str(slam_dunk) #데이터 구조 및 형태(타입) 확인 |
tibble [12 × 7] (S3: tbl_df/tbl/data.frame) $ uniform_no: num [1:12] 4 5 6 7 8 9 10 11 12 13 ... $ name : chr [1:12] "채치수" "권준호" "이달재" "송태섭" ... $ height : num [1:12] 197 178 164 168 170 180 189 187 170 171 ... $ weight : chr [1:12] "90" "62" "NA" "59" ... $ blood type: chr [1:12] "A" "A" "NA" "B" ... $ age : num [1:12] 19 19 18 18 18 18 17 17 17 17 ... $ position : chr [1:12] "C" "SF" "PG" "PG" ... |
데이터를 불러오면, 제일 먼저 할 일은 데이터 구성 (필드명, 데이터 갯수 등)과 유형을 확인
names(slam_dunk) #데이터 필드명만 확인 |
[1] "uniform_no" "name" "height" "weight" "blood type" "age" "position" |
head (slam_dunk) #상위(앞부분) 데이터 조회 |
# A tibble: 6 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 4 채치수 197 90 A 19 C 2 5 권준호 178 62 A 19 SF 3 6 이달재 164 NA NA 18 PG 4 7 송태섭 168 59 B 18 PG 5 8 신오일 170 NA NA 18 PG 6 9 정병욱 180 NA NA 18 SF |
head (slam_dunk, 10) #상위(앞부분) 데이터 10개 조회 |
# A tibble: 10 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 4 채치수 197 90 A 19 C 2 5 권준호 178 62 A 19 SF 3 6 이달재 164 NA NA 18 PG 4 7 송태섭 168 59 B 18 PG 5 8 신오일 170 NA NA 18 PG 6 9 정병욱 180 NA NA 18 SF 7 10 강백호 189 83 B 17 PF 8 11 서태웅 187 75 AB 17 SF 9 12 이호식 170 NA NA 17 SF 10 13 이재훈 171 NA NA 17 PG |
tail (slam_dunk) #하위(뒷부분) 데이터 조회 |
# A tibble: 6 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 10 강백호 189 83 B 17 PF 2 11 서태웅 187 75 AB 17 SF 3 12 이호식 170 NA NA 17 SF 4 13 이재훈 171 NA NA 17 PG 5 14 정대만 184 70 A 19 SG 6 15 오중식 162 NA NA 17 PG |
tail (slam_dunk, 3) #하위(뒷부분) 데이터 3개 조회 |
# A tibble: 3 × 7 uniform_no name height weight `blood type` age position <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr> 1 13 이재훈 171 NA NA 17 PG 2 14 정대만 184 70 A 19 SG 3 15 오중식 162 NA NA 17 PG |
R 데이터 유형
숫자형 (Numeric): 소수점을 가질 수 있는 수치 데이터 (예. 3.14, -5, 100) 문자열 (Character): 텍스트 데이터, 작은 따옴표(' ') 또는 큰 따옴표(" ")로 감싸서 표현 논리형 (Logical): 참(True) 또는 거짓(False) 값을 갖는 데이터 (예. TRUE, FALSE, T, F) 정수형 (Integer): 소수점 없이 정수 (예. 1, -10, 100) 팩터형 (Factor): 범주형 데이터를 나타내기 위해 사용되며, 정수형 또는 문자열로 표현 범주들을 levels(수준)로 가지며, 데이터를 카테고리화하는데 사용 날짜 및 시간형 (Date, POSIXct, POSIXlt): 날짜와 시간 정보를 나타내기 위해 사용 Date는 날짜만, POSIXct와 POSIXlt는 날짜와 시간을 모두 포함 리스트형 (List): 서로 다른 데이터 유형을 가진 여러 개의 요소를 포함할 수 있는 복합 데이터 유형 데이터프레임 (Dataframe): 행과 열로 구성된 테이블 형태의 데이터 구조 각 열은 동일한 길이의 벡터로 이루어져 있고, 서로 다른 유형의 데이터를 가질 수 있음 |
728x90
'데이터 분석 (with Rstudio)' 카테고리의 다른 글
Rstudio 데이터 살펴보기 #3 (기술통계) (0) | 2023.07.29 |
---|---|
Rstudio 데이터 살펴보기 #2 (summary 함수, 결측값 확인 등) (0) | 2023.07.28 |
Rstudio 엑셀 파일 불러오기/저장하기 (0) | 2023.07.26 |
RStudio 환경 소개 및 주요 설정, 주요 패키지 소개 (0) | 2023.07.24 |
Rstudio CSV 파일 불러오기/저장하기 (1) | 2023.07.23 |