t-검정은 두 모집단의 독립여부에 따라, "독립 표본 t-검정"과 "대응 표본 t-검정"으로 나눌 수 있다.
독립 2표본 t-검정은 두 독립적인 집단 간의 평균 차이를 비교하는 데 사용되며, 대응 2표본 t-검정은 동일한 개체 또는 단위에 대한 두 가지 다른 조건 또는 시점에서 수집한 데이터 간의 평균 차이를 비교하는 데 사용된다.
1. 독립 표본 t-검정 예 : 두 그룹의 학생들이 서로 다른 수학 시험의 평균 점수를 비교
- 이들 그룹은 서로 독립적이며, 두 그룹의 데이터는 서로 관련이 없다.
2. 대응 표본 t- 검정 예 : 어떤 치료 전후에 환자들의 혈압을 측정하여 치료 효과를 비교
- 치료 전과 후에 대응되는 데이터로 간주되며, 이 경우 대응표본 t-검정을 사용하여 두 조건 간의 차이를 검정
비교하고자 하는 두 집단(그룹)의 데이터가 같은 개체에서 나온 값이라면 "대응 표본 t-검정"을 수행하고, 다른 개체에서 나온 값이라면 "독립 표본 t-검정"을 수행한다.
독립 표본 t-검정
[R Studio] 평균의 비교 T-검정(test) (논문 작성을 위한 네 번째 분석) (tistory.com)
대응 표본 t-검정
R / Rstudio
치료 또는 교육의 효과가 있는지를 검정 t.test(group_A, group_B, paired = TRUE)
16명의 사원을 임의로 추출하여 이들에게 업무 효율성 증대를 위한 R교육을 실시한 후, 개개의 사원에 대해서 교육 전의 데이터 분석 시험 점수와 교육 후의 데이터 분석 시험 점수를 측정했다고 할 때,
사원 | 교육 전 데이터 분석 시험 점수 | 교육 후 데이터 분석 시험 점수 |
1 | 75 | 80 |
2 | 83 | 90 |
3 | 96 | 92 |
4 | 77 | 75 |
5 | 81 | 86 |
6 | 90 | 90 |
7 | 82 | 81 |
8 | 67 | 70 |
9 | 94 | 89 |
10 | 85 | 88 |
11 | 78 | 82 |
12 | 82 | 79 |
13 | 96 | 91 |
14 | 80 | 90 |
15 | 87 | 78 |
16 | 81 | 89 |
before <- c(75, 83, 96, 77, 81, 90, 82, 67, 94, 85, 78, 82, 96, 80, 87, 81) after <- c(80, 90, 92, 75, 86, 90, 81, 70, 89, 88, 82, 79, 91, 90, 78, 89) mean (before) sd(before) mean (after) sd(after) |
> mean (before) [1] 83.375 > sd(before) [1] 7.855996 > mean (after) [1] 84.375 > sd(after) [1] 6.611858 |
- 교육 전의 평균 점수는 83.375이고, 교육 후의 평균 점수는 84.375로 1점이 올랐다.
이를 통계적으로 유의한 차이로 볼 수 있는 것인가?
t-검정 (대응 표본)
t.test() 함수에 paired = TRUE 옵션을 사용하여 대응 표본 t-검정을 수행면 각 개체 또는 단위에 대한 전후 데이터가 짝지어져 있다고 인식된다.
# 대응 2표본 t-검정 수행 result <- t.test(before, after, paired = TRUE) print(result) |
> print(result) Paired t-test data: before and after t = -0.73688, df = 15, p-value = 0.4726 alternative hypothesis: true mean difference is not equal to 0 95 percent confidence interval: -3.892548 1.892548 sample estimates: mean difference -1 |
- t-통계량 (t-statistic): t = -0.73688
t-통계량은 두 관련된 조건 또는 시점에서의 데이터를 가지고 수행한 대응 표본 t-검정의 결과로, 평균 차이를 표준 오차로 나눈 값이다.
여기서 t-통계량은 -0.73688로 음의 값을 가지므로, 대응된 그룹 간의 평균 차이가 음수라는 것을 나타낸다. - 자유도 (degrees of freedom, df): df = 15
t-검정의 자유도는 15로 표시되며, 이는 대응된 데이터의 총 개수에서 1을 뺀 값이다. - p-값 (p-value): p-value = 0.4726
p-값은 귀무 가설을 "두 조건 또는 시점에서의 평균 차이는 없다"라는 전제 하에 얻은 결과보다 더 극단적인 결과를 얻을 확률을 나타내며, p-value가 0.05보다 크기 때문에 (0.4726 > 0.05), 귀무 가설을 기각할 충분한 증거가 없다.
즉, 이 결과는 두 조건 또는 시점에서의 평균 차이가 통계적으로 유의미하지 않다는 것을 나타낸다. - 대립 가설 (alternative hypothesis): true mean difference is not equal to 0
대립 가설은 검정 결과를 요약하는 부분으로, 여기에서는 "두 조건 또는 시점에서의 평균 차이가 0이 아니라"라는 의미이다. - 신뢰 구간 (confidence interval): 95 percent confidence interval: -3.892548 1.892548
신뢰 구간은 두 조건 또는 시점에서의 평균 차이에 대한 95% 신뢰 구간을 나타낸다. 이 구간에는 [-3.892548, 1.892548]로 표시되며, 이것은 평균 차이가 0 근처에 위치한다는 것을 시사한다.
따라서, 이 결과에 따르면 두 조건 또는 시점에서의 데이터의 평균 차이는 통계적으로 유의미하지 않으며, 평균 차이가 0 주변에 있을 가능성이 높다고 할 수 있다.
"교육 전과 교육 후의 평균 점수는 차이가 없다"라는 결론을 내릴 수 있다.
Pixabay로부터 입수된 Mediamodifier님의 이미지 입니다.
'데이터 분석 (with Rstudio)' 카테고리의 다른 글
[R Studio] 이원배치 분산분석 ANOVA 2 (상호작용이 있는 경우) (1) | 2023.10.01 |
---|---|
[R Studio] 이원배치 분산분석 ANOVA (논문 작성을 위한 다섯 번째 분석) (0) | 2023.10.01 |
[R Studio] 평균의 비교 T-검정(test) (논문 작성을 위한 네 번째 분석) (0) | 2023.09.28 |
[R 기초] 기술통계 (논문 작성을 위한 세 번째 분석) (1) | 2023.09.26 |
[R 기초] 결측값 결측치 처리 (데이터 클린징) (0) | 2023.09.21 |