본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

Rstudio 데이터 살펴보기 #3 (기술통계 및 데이터 분포 해석)

by Vitaminymc 2023. 7. 30.
반응형

평균과 중앙값의 관계

  • 데이터가 한쪽으로 치우쳐져 있을 때, 평균과 중앙값의 값이 다를 수 있음
  • 즉, 중앙값과 평균의 위치에 따라, 데이터의 분포 형태를 구분할 수 있음
  • 평균과 중앙값의 차이가 크다면, 데이터가 한쪽으로 치우친 경향이 있을 수 있음
  • 치우친 방향 쪽으로 중앙값이 평균보다 더 가까워지는 경향이 있음
  • 이는 치우친 데이터로 인해 평균이 영향을 받아 평균 값이 중앙값 쪽으로 편향될 수 있음을 의미함

   - 평균이 더 큰 경우:

  • 오른쪽으로 치우친 (Positive Skewed) 데이터 분포일 가능성이 높음
  • 데이터의 값이 좀 더 높은 쪽에 몰려 있으며, 상대적으로 작은 값들이 평균을 낮추기 위해 왼쪽으로 늘어나며,
  • 이러한 경우, 평균은 중앙값보다 더 큰 값을 가짐
예제 데이터: {1, 2, 3, 4, 100}

평균 계산: (1 + 2 + 3 + 4 + 100) / 5 = 22

중앙값 계산: 중앙값은 데이터를 오름차순으로 정렬했을 때 가운데 위치에 있는 값이므로 3

결과: 이 경우 데이터가 오른쪽으로 치우쳐 있으며, 평균(22)이 중앙값(3)보다 훨씬 큼
         이는 100이라는 큰 값이 평균을 높이고 있음

  - 평균이 더 작은 경우

  • 왼쪽으로 치우친 (Negative Skewed) 데이터 분포일 가능성이 높음
  • 데이터의 값이 좀 더 낮은 쪽에 몰려 있으며, 상대적으로 큰 값들이 평균을 높이기 위해 오른쪽으로 늘어나며,
  • 이러한 경우, 평균은 중앙값보다 더 작은 값을 가짐
예제 데이터: {1, 5, 8, 9, 10}

평균 계산: (1 + 5 + 8 + 9 + 10) / 5 = 6.6

중앙값 계산: 중앙값은 데이터를 오름차순으로 정렬했을 때 가운데 위치에 있는 값이므로 8

결과: 이 경우 데이터가 왼쪽으로 치우쳐 있으며, 평균(6.6)이 중앙값(8)보다 작음
         1이라는 작은 값이 평균을 낮추고 있음

분포 모양과 왜도(Skewness)

  • 왜도(Skewness)는 데이터의 분포 형태가 비대칭성을 나타내는 척도
  • 데이터의 분포가 어느 한쪽으로 기울어져 있는 정도를 측정하여 데이터의 비대칭성 정도를 나타냄
  • 오른쪽으로 치우친 경우에는 양의 왜도(오른쪽으로 늘어진 형태)가 발생
  • 왼쪽으로 치우친 경우에는 음의 왜도(왼쪽으로 늘어진 형태)가 발생
  • 데이터 분포의 왜도는 주로 평균, 중앙값, 표준편차 등의 기술 통계량을 이용하여 계산됨
  • 왜도 값이 0에 가까우면 데이터는 상대적으로 대칭적이고, 절대값이 클수록 비대칭성이 높음
왜도 = (세제곱 평균 - 평균^3) / 표준편차^3

여기서 "세제곱 평균"은 확률 변수 X의 값들을 각각 세제곱한 후 그 값들의 평균을 의미
# 양의 왜도 데이터 예제 생성
set.seed(5597)
positive_skew_data <- rchisq(100, df = 5) + 5

# 음의 왜도 데이터 예제 생성
set.seed(5509)
negative_skew_data <- -rchisq(100, df = 5) - 5

# 그래프 출력 설정
par(mfrow = c(1, 2))

# 히스토그램 그리기
hist(positive_skew_data, main = "Positive Skewness", xlab = "Values", col = "skyblue")
hist(negative_skew_data, main = "Negative Skewness", xlab = "Values", col = "red")

par(mflow = )

  • par(mfrow = c(1, 2))는 R에서 그래프를 한 번에 여러 개 그릴 때 사용하는 함수
  • 이 함수는 그래프를 여러 행 또는 여러 열에 나열하여 한 번에 여러 개의 그래프를 출력할 수 있도록 설정
  • par: 그래프 출력에 영향을 미치는 그래픽 매개 변수를 설정하는 함수
  • mfrow: 그래프를 배치하는 형태를 지정하는 옵션 중 하나로, 여러 그래프를 나란히 배열하는 데 사용
    c(1, 2): mfrow에 전달되는 값으로, 여기서는 1행 2열의 그래프 배치를 의미
    par(mfrow = c(1, 2))를 사용하면 하나의 창에 1행 2열로 그래프를 출력 설정하고, 그래프를 그리는 코드를 실행하면 자동으로 1행 2열의 구역에 그래프가 배치
    만약 par(mfrow = c(2, 2))와 같이 설정하면, 하나의 창에 2행 2열로 그래프가 배치
summary(positive_skew_data)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  5.719   7.722   9.032   9.528  10.398  20.109 
summary(negative_skew_data)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
-22.835 -11.662  -9.606 -10.292  -7.961  -5.395 

이상치(Outliers) 확인

  • 데이터가 한쪽으로 치우쳐 있는 경우 이상치가 존재할 수 있으며, 이상치는 평균값을 왜곡시킬 수 있으므로
    데이터 분석 시 이상치를 주의해야 함
  • 중앙값은 이상치(outlier)의 영향을 상대적으로 적게 받는 반면, 평균은 이상치에 민감함

평균의 함정(The Catch in Average)

  • "대표값으로의 평균의 의미는 중앙값이나 최빈값없이 그저 그 수로만 사용되면 오류가 있을 수 있다"
  • 소득 데이터의 경우 대다수의 사람들이 평균보다 낮은 소득을 받고, 소수의 사람들이 매우 높은 소득을 받음
    이런 경우 평균은 중앙값보다 더 큰 값이 될 수 있으며, 평균을 대표값으로 해석하면 안 됨
  • 평균값만 보는 것이 아니라, 다른 통계값 (중앙값, 최빈값 등)도 확인해야 함

https://youtu.be/Pp_Pd6GZLOE

EBS 클립뱅크(Clipbank) - 평균의 함정(The Catch in Average) (2014. 1. 14.)

평균적 조종석 

  • 2차 세계 대전 대, 미국 공군은 전투기의 비정상 착륙과 사고 등을 겪었고, 이에 대한 원인을 파악한 결과는 기계적인 결함은 아닌 것으로 파악되어 심각한 고민에 빠짐
  • 조종석을 설계하기 위해, 조종사의 신체 치수를 측정하는 업무를 수행하던, 길버트 S. 대니얼스 (Gilbert S. Daniels) 중위는 조종사의 평균적인 신체 치수기반 조종석 설계 방식은 어느 누구에게도 맞지 않는다는 사실을 발견함
  • 공군 기술 보고서 (길버트 대니얼스 중위, 1952년) 
    • 평균적 인간을 기준으로 시스템을 설계하면 시스템은 실패한다.
    • 평균적인 인간은 없기 때문이다.
    • 조종 사고를 막으려면 조종사가 아닌 조종석의 설계를 바꿔야 한다.
  • 이러한 주장이 받아들려져, 조종석의 설계를 개인 맞춤형으로 변경하였고, 조절 가능한 의자나, 조절 가능한 페달 등을 개발하여 적용한 후, 조종사들의 비행 실력이 크게 향상되었다고 함    

(출처 : Outstanding 평균에 맞추면 아무에게도 맞이 않는 이유, 송범금 기자(2019.7.8),

            Bruchstory  https://brunch.co.kr/@bumgeunsong/94
            토드 로즈의 책 <평균의 종말> 첫머리 인용 )

728x90