본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

전체 글256

2023 U-18 야구 국가대표 선수 KBO 지명 (+ 최강야구 맞대결) 2023 U-18 야구 국가대표 선수 명단 등번호 이름 현 소속(2023) 포지션 투타 지명팀 지명순위 2023년 성적 1 김택연 인천고 3학년 투수 우투우타 두산 베어스 전체2순위, 두산1R ERA : 1.13, 13경기 7승 1패 11 전미르 경북고 3학년 투수 우투우타 롯데 자이언츠 전체3순위, 롯데1R ERA : 1.32, 18 경 5승 1패 15 황준서 장충고 3학년 투수 좌투좌타 한화 이글스 전체1순위, 한화1R ERA : 2.16, 15경기 6승 2패 16 육선엽 장충고 3학년 투수 우투우타 삼성 라이온즈 전체4순위, 삼성1R ERA : 0.41, 12경기 2승 0패 17 조대현 강릉고 3학년 투수 우투우타 KIA 타이거즈 전체6순위, KIA1R ERA : 1.29, 18경기 7승 0패 18.. 2023. 10. 2.
[R Studio] 비모수 검정과 사후 분석 (논문 작성을 위한 여섯 번째 분석) 비모수 검정 (Nonparametric Test) 모수적 방법 (Parametric method)은 관측값이 어느 특정한 확률분포 (정규분포, 이항분포 등)를 따른다고 전제를 한 후, 그 분포의 모수 (Parameter)에 대한 검정을 실시하는 방법이다. 반면에, 비모수 검정(Nonparametric Test)은 모집단의 분포에 대한 가정이나 정규 분포 가정을 만족하지 않는 데이터에 대한 통계적 가설 검정 방법이다. 비모수 검정은 데이터의 분포에 대한 가정이 덜 필요하거나 없어도 되며, 주로 순위 또는 순서에 의한 비교를 통해 통계적 추론을 수행한다. [비모수 검정 예시 1 : 의학 분야 - 치료 효과 평가] 어떤 신약이 특정 질병의 치료에 효과적인지 비교하려면 환자 그룹 간의 중위수 차이를 비교하는 M.. 2023. 10. 2.
[R Studio] 이원배치 분산분석 ANOVA 2 (상호작용이 있는 경우) 이원배치 분산분석 (two-way ANOVA (Analysis of Variance)) 이원배치 분산분석 예 (상호작용이 있는 경우) 세 종류의 캔디향 (A, B, C)와 세 가지 가격 (79센트, 89센트, 99센트)의 판매효과를 시험하려고 한다. 캔디 매출 수준이 유사한 9개의 점포를 선정하고, 판매량을 조사하였다. 캔디향 A 캔디향 B 캔디향 C 79센트 8 7 10 8 9 9 14 13 15 89센트 4 6 7 14 12 15 12 13 14 99센트 9 10 11 8 7 10 13 14 15 candy candy [1] "apple" "apple" "apple" "apple" "apple" "apple" "apple" "apple" "apple" "grape" "grape" "grape" [13.. 2023. 10. 1.
[R Studio] 이원배치 분산분석 ANOVA (논문 작성을 위한 다섯 번째 분석) 이원배치 분산분석 (two-way ANOVA (Analysis of Variance)) 두 가지 독립 변수 (또는 요인)가 동시에 작용하는 경우(실험)에 대한 분산분석법을 이원배치 분산분석 (two-way ANOVA)라고 한다. 이원배치 분산분석에서는 두 독립 변수(요인) 간의 상호작용 (interaction effect)이 있는지를 먼저 조사(검정)하고, 상호작용이 존재하지 않아야만 각각의 요인의 효과를 따로 떼어서 분석하는 것이 가능해진다. 이원배치 분산분석에서는 두 요인의 각각의 효과 이외에 두 요인 간의 상호작용이 추가될 수 있다. 다중비교 절차 1. 두 요인간의 상호작용이 존재하는지 확인한다. 2. 상호작용이 존재하지 않으면, 요인 효과를 따로 분리하여 각각의 요인에 대하여 다중비교를 실시할 수.. 2023. 10. 1.
KBO 통산 최다 안타, 최다 루타 (손아섭 2400안타 기록) Data Source : http://www.statiz.co.kr/ 통산기록실 (1982년~2023년) + KBO 기록실 손아섭 선수정보 https://www.koreabaseball.com/Record/Player/HitterDetail/Total.aspx?playerId=77532 스탯티즈 데이터의 수시 오류 수정 등으로 조회 시점에 따라 차이가 있을 수 있으며, 스탯티즈 데이터와 KBO 공식 기록과 차이가 있을 수 있음 NC 손아섭 통산 2400 안타 손아섭 통산 2416 안타 기록 (2023년 기준) 9월 27일 기준 통산 1399안타 + 9월 28일 4타수 4안타 = 통산 2403안타 2022년 통산 2229안타 + 2023 시즌 187 안타 = 통산 2416안타 2024 시즌에는 KBO 통산.. 2023. 9. 29.
[R Studio] 평균의 비교 대응 표본 T-검정(test) (논문 작성을 위한 네 번째 분석) t-검정은 두 모집단의 독립여부에 따라, "독립 표본 t-검정"과 "대응 표본 t-검정"으로 나눌 수 있다. 독립 2표본 t-검정은 두 독립적인 집단 간의 평균 차이를 비교하는 데 사용되며, 대응 2표본 t-검정은 동일한 개체 또는 단위에 대한 두 가지 다른 조건 또는 시점에서 수집한 데이터 간의 평균 차이를 비교하는 데 사용된다. 1. 독립 표본 t-검정 예 : 두 그룹의 학생들이 서로 다른 수학 시험의 평균 점수를 비교 이들 그룹은 서로 독립적이며, 두 그룹의 데이터는 서로 관련이 없다. 2. 대응 표본 t- 검정 예 : 어떤 치료 전후에 환자들의 혈압을 측정하여 치료 효과를 비교 치료 전과 후에 대응되는 데이터로 간주되며, 이 경우 대응표본 t-검정을 사용하여 두 조건 간의 차이를 검정 비교하고자 .. 2023. 9. 28.
[R Studio] 평균의 비교 T-검정(test) (논문 작성을 위한 네 번째 분석) t-검정 (t-test) t-검정은 두 개의 집단 간에 평균 차이가 통계적으로 유의미한지를 판단하는 데 사용된다. "두 모집단의 평균간의 차이는 없다"라는 귀무가설과 "두 모집단의 평균간에 차이가 있다"라는 대립가설 중에 하나를 선택하는 통계적 검정방법이다. 모든 통계적 검정방법과 마찬가지로, t-검정은 귀무가설이 옳다는 가정 하에 두 모집단으로부터 추출된 표본들로부터 계산된 검정통계량 근거하여 귀무가설을 부정할 수 있는 상당한 근거를 보이면 귀무가설을 기각하고, 그렇지 않을 경우에는 귀무가설을 받아들이게 된다. t-검정통계량을 계산하여 두 표본평균간의 차이가 귀무가설 하에 있을 확률, 표본오차로 인해 차이가 발생할 확률 (유의확률, p-값)을 계산한다. 만약 계산된 확률이 귀무가설을 기각하기로 설정한 .. 2023. 9. 28.
[R 기초] 기술통계 (논문 작성을 위한 세 번째 분석) 기술통계 주어진 데이터를 몇 개의 요약값으로 효과적으로 표현하는 방법이 기술통계 분석이다. 기술통계 값은 차후에 고차원 데이터 분석을 위한 준비과정이다. 기술통계 값은 (1) 분포의 중심을 나타내는 중심 경향 값, (2) 분포의 퍼짐 정도를 나타내는 산포도, (3) 분포의 모양을 나타내는 분포도로 나뉜다. 구분 분석 값 의미 기술통계 값 중심 경향 값 분포의 중심 평균, 중위수(중앙값), 최빈값 산포도 분포의 퍼짐 정도 표준편차, 분산, 범위, 사분위 범위 분포도 분포의 모양 왜도, 첨도 평균 (R 함수 : mean) 평균은 대표적인 통계 값이나, 극단 값(extreme valuse)의 영향을 받기 때문에 표본의 크기(관측값)가 작을 경우에는 몇 개의 극대값에 의해서 대표값 기능을 상실 할 수도 있다. .. 2023. 9. 26.
물류센터 (창고) 로케이션 location 관리 물류센터 로케이션 체계를 알아보기 전, 아래 방송 내용을 먼저 보자. 아파트 층수 + 호수가 반대인 아파트 (호수 + 층수) 부천에 있는 'ㅂ' 아파트 'ㅂ' 아파트 호수 체계 [ MBC 생방송 오늘 아침] 501호가 1층? 뒤죽박죽 아파트 (2021.06.11 방송) https://www.youtube.com/watch?v=_tknTq2kwqE 이러한 호수 체계로 이 아파트에 처음 오는 택배 기사님이나 배달 기사님들은 헷갈려 한다고 한다. 1983년 입주한 5층 아파트로 당시에는 아파트가 드문 시대라, 당시 건설회사가 이러한 호수체계로 정했다고 함 (아파트 호수에 대한 특별한 규정은 없다고...) 물류센터 로케이션 번호 (주소) 체계 ( Location Numbering System) 물류센터 로케이션.. 2023. 9. 25.
Dome 돔 (지붕 있는) 야구장 (일본 프로야구 NPB) NPB (Nippon Professional Baseball) 일본 야구 NPB에는 2개의 개폐형 돔 구장과 4개의 고정형 돔 구장이 있다. 총 12팀 (Central league 6팀, Pacific league 6팀) 중 6팀이 돔 구장을 홈구장으로 사용하고 있다. Source : https://en.wikipedia.org/wiki/List_of_Nippon_Professional_Baseball_stadiums 대부분 1990년대 건설되었으며, 2023년 훗카이도에 개폐형 돔구장 개장 1988년 도쿄 돔, 1993년에 후쿠오카 돔(개폐형), 1997년 오사카 돔, 나고야 돔, 2001년 삿포로 돔 오픈 삿포로 돔은 2002 한일 월드컵 경기장으로 야구장과 축구장 겸용으로 건설 J리그 축구팀 Hok.. 2023. 9. 23.
Dome 돔 (지붕 있는) 야구장 (미국 MLB) MLB (Major League Baseball) 개폐식 지붕을 갖춘 메이저 리그 야구 경기장은 7개입니다. 로저스 센터는 개폐식 지붕을 갖춘 최대 규모의 야구장으로 총 49,282명을 수용할 수 있습니다. Tampa Bay Rays의 홈구장인 Tropicana Field는 고정된 돔 지붕을 갖춘 유일한 현역 MLB 경기장입니다. 플로리다주 세인트피터즈버그에 위치한 야구장의 지붕은 허리케인으로부터 경기장을 보호하고 내부 용적을 줄여 냉방 비용을 최소화하기 위해 비스듬하게 설계되었습니다. https://sports.betmgm.com/en/blog/mlb/mlb-ballparks-with-retractable-roofs-bm15/ MLB Ballparks With Retractable Roofs How m.. 2023. 9. 23.
KBO 프로야구 (타자) 선수별 통산 기록 #5 - 타점 (양의지 1000타점) 양의지 1000타점 (KBO 23번째) 2023년 9월 22일 두산 vs. 삼성 (대구) 두산 선수 3번재 (김동주, 홍성흔, 양의지) 김현수 선수는 LG 소속으로 1000타점 달성 (2020년 7월 8일 LG vs. 두산 전) 포수 3번째 (홍성흔, 강민호, 양의지) KBO 통산 타점 Top 30 (1982년~2023년) Rank 이름 팀 G 타점 득점 안타 홈런 루타 타율 장타 도루 1 최형우 18+삼LF 2065 1542 1224 2323 373 3966 0.312 0.532 28 2 이승엽 15삼1B 1906 1498 1355 2156 467 4077 0.302 0.572 57 3 최정 19+S3B 2164 1454 1368 2133 458 3919 0.287 0.528 173 4 이대호 17롯1.. 2023. 9. 23.
[R 기초] 결측값 결측치 처리 (데이터 클린징) 데이터 전처리 (Data Preprocessing) 데이터 전처리는 데이터 사이언스, 머신 러닝 및 데이터 분석 프로젝트 필요한 데이터를 준비하고 가공하여 분석, 모델링 또는 머신 러닝 모델에 적합하게 사용할 수 있는 형태로 준비하는 포괄적인 과정 데이터의 품질을 향상시키고 분석 가능한 형태로 변환하여 모델의 성능을 최적화하고 정확성을 확보하기 위한 사전 단계 데이처 전처리 과정 1. 데이터 수집 : 프로젝트의 목적에 따라 적합한 데이터를 수집하고 데이터의 정확성과 완전성을 확인 시스템에서 데이터를 추출하더라도 엑셀 파일 등으로 변환하는 과정에서 누락이나 중복되는 경우 발생 데이터에 사용되는 여러 날짜 (예. 주문일, 물류센터 출고일, 고객 배송일 등)와 분석 대상 기간의 기준 확인 필요 2. 결측치 처.. 2023. 9. 21.
[R 기초] 교차 분석 (논문 작성을 위한 두 번째 분석) 교차분석 수집한 설문 결과에 대해서 단일 변수에 대한 빈도분석을 수행한 후, 의미있는 정보를 얻기 위해서는 두 가지 이상의 변수를 결합하여 분석한다. R / Rstudio addmargins + table addmargins() 함수는 행렬 또는 데이터 프레임에 마진(margin)을 추가하는 데 사용되는 함수 마진은 행과 열의 합계 또는 평균, 최대값, 최소값, 중앙값 등을 계산하여 제공 addmargins(table (penguins$species, penguins$island) ) #옵션을 지정하지 않으면, 행과 열의 합계를 출력 Biscoe Dream Torgersen Sum Adelie 44 56 52 152 Chinstrap 0 68 0 68 Gentoo 124 0 0 124 Sum 168 12.. 2023. 9. 18.
[R 기초] 빈도 분석 (논문 작성을 위한 첫 번째 분석) 빈도 분석 전공에 따라 논문 작성 방식 및 취급 데이터 특성의 차이가 있으나, 범주형 변수를 분석하는 첫 번째 단계는 각 변수의 변수값의 빈도와 비율을 계산하는 것이다. 특히, 설문조사를 하는 경우에는 설문 항목별 응답 결과에 대한 빈도 분석을 첫 번째로 한다. 설문지 예시 1. 성별 (1) 남성 (2) 여성 2. 연령대 (1) 18~29 (2) 30대 (3) 40대 (4) 50대 (5) 60대 (7) 70대 이상 3. 프로야구 관심 정도 (1) 많이 있다 (2) 약간 있다 (3)별로 없다 (4) 전혀 없다 (5)모름/응답거절 4. 가장 좋아하는 KBO 프로야구 팀 (1) KIA 타이거즈 (2) 삼성 라이온즈 (3) 롯데 자이언츠 (4) 한화 이글스 (5) 두산 베어스 (6) LG 트윈스 (7) SSG .. 2023. 9. 18.
728x90