본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

[R Studio] 평균의 비교 대응 표본 T-검정(test) (논문 작성을 위한 네 번째 분석)

by Vitaminymc 2023. 9. 28.
반응형

t-검정은 두 모집단의 독립여부에 따라, "독립 표본 t-검정"과 "대응 표본 t-검정"으로 나눌 수 있다.

독립 2표본 t-검정은 두 독립적인 집단 간의 평균 차이를 비교하는 데 사용되며, 대응 2표본 t-검정은 동일한 개체 또는 단위에 대한 두 가지 다른 조건 또는 시점에서 수집한 데이터 간의 평균 차이를 비교하는 데 사용된다.

1. 독립 표본 t-검정 예 : 두 그룹의 학생들이 서로 다른 수학 시험의 평균 점수를 비교

  • 이들 그룹은 서로 독립적이며, 두 그룹의 데이터는 서로 관련이 없다.

2. 대응 표본 t- 검정 예 : 어떤 치료 전후에 환자들의 혈압을 측정하여 치료 효과를 비교

  • 치료 전과 후에 대응되는 데이터로 간주되며, 이 경우 대응표본 t-검정을 사용하여 두 조건 간의 차이를 검정

비교하고자 하는 두 집단(그룹)의 데이터가 같은 개체에서 나온 값이라면 "대응 표본 t-검정"을 수행하고, 다른 개체에서 나온 값이라면 "독립 표본 t-검정"을 수행한다.


독립 표본 t-검정 

[R Studio] 평균의 비교 T-검정(test) (논문 작성을 위한 네 번째 분석) (tistory.com)

 

[R Studio] 평균의 비교 T-검정(test) (논문 작성을 위한 네 번째 분석)

t-검정 (t-test) t-검정은 두 개의 집단 간에 평균 차이가 통계적으로 유의미한지를 판단하는 데 사용된다. "두 모집단의 평균간의 차이는 없다"라는 귀무가설과 "두 모집단의 평균간에 차이가 있다

logistician.tistory.com

 

대응 표본 t-검정

R / Rstudio

치료 또는 교육의  효과가 있는지를 검정   t.test(group_A, group_B, paired = TRUE)

16명의 사원을 임의로 추출하여 이들에게 업무 효율성 증대를 위한 R교육을 실시한 후, 개개의 사원에 대해서 교육 전의 데이터 분석 시험 점수와 교육 후의 데이터 분석 시험 점수를 측정했다고 할 때,

사원 교육 전 데이터 분석 시험 점수 교육 후 데이터 분석 시험 점수
1 75 80
2 83 90
3 96 92
4 77 75
5 81 86
6 90 90
7 82 81
8 67 70
9 94 89
10 85 88
11 78 82
12 82 79
13 96 91
14 80 90
15 87 78
16 81 89
before <- c(75, 83, 96, 77, 81, 90, 82, 67, 94, 85, 78, 82, 96, 80, 87, 81)

after <- c(80, 90, 92, 75, 86, 90, 81, 70, 89, 88, 82, 79, 91, 90, 78, 89)

mean (before)

sd(before)

mean (after)

sd(after)
> mean (before)
[1] 83.375

> sd(before)
[1] 7.855996

> mean (after)
[1] 84.375

> sd(after)
[1] 6.611858
  • 교육 전의 평균 점수는 83.375이고, 교육 후의 평균 점수는 84.375로 1점이 올랐다.

이를 통계적으로 유의한 차이로 볼 수 있는 것인가?

 

300x250

t-검정 (대응 표본)

t.test() 함수에 paired = TRUE 옵션을 사용하여 대응 표본 t-검정을 수행면 각 개체 또는 단위에 대한 전후 데이터가 짝지어져 있다고 인식된다.

# 대응 2표본 t-검정 수행
result <- t.test(before, after, paired = TRUE)
print(result)
> print(result)

Paired t-test

data:  before and after
t = -0.73688, df = 15, p-value = 0.4726
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 -3.892548  1.892548
sample estimates:
mean difference 
             -1 
  • t-통계량 (t-statistic): t = -0.73688
    t-통계량은 두 관련된 조건 또는 시점에서의 데이터를 가지고 수행한 대응 표본 t-검정의 결과로, 평균 차이를 표준 오차로 나눈 값이다.
    여기서 t-통계량은 -0.73688로 음의 값을 가지므로, 대응된 그룹 간의 평균 차이가 음수라는 것을 나타낸다.
  • 자유도 (degrees of freedom, df): df = 15
    t-검정의 자유도는 15로 표시되며, 이는 대응된 데이터의 총 개수에서 1을 뺀 값이다.
  • p-값 (p-value): p-value = 0.4726
    p-값은 귀무 가설을 "두 조건 또는 시점에서의 평균 차이는 없다"라는 전제 하에 얻은 결과보다 더 극단적인 결과를 얻을 확률을 나타내며, p-value가 0.05보다 크기 때문에 (0.4726 > 0.05), 귀무 가설을 기각할 충분한 증거가 없다.
    즉, 이 결과는 두 조건 또는 시점에서의 평균 차이가 통계적으로 유의미하지 않다는 것을 나타낸다.
  • 대립 가설 (alternative hypothesis): true mean difference is not equal to 0
    대립 가설은 검정 결과를 요약하는 부분으로, 여기에서는 "두 조건 또는 시점에서의 평균 차이가 0이 아니라"라는 의미이다.
  • 신뢰 구간 (confidence interval): 95 percent confidence interval: -3.892548 1.892548
    신뢰 구간은 두 조건 또는 시점에서의 평균 차이에 대한 95% 신뢰 구간을 나타낸다. 이 구간에는 [-3.892548, 1.892548]로 표시되며, 이것은 평균 차이가 0 근처에 위치한다는 것을 시사한다.
    따라서, 이 결과에 따르면 두 조건 또는 시점에서의 데이터의 평균 차이는 통계적으로 유의미하지 않으며, 평균 차이가 0 주변에 있을 가능성이 높다고 할 수 있다.

"교육 전과 교육 후의 평균 점수는 차이가 없다"라는 결론을 내릴 수 있다.


Pixabay로부터 입수된 Mediamodifier님의 이미지 입니다.



728x90