Statistics

Basic Statistical Tests

아르카눔 2025. 4. 21. 10:36

기본적인 통계 검정 (Statistical Tests)들을 정리한다.

 

기본적이라고 이름을 붙인 이유는 학부 수준에서 많이 봤던걸 위주로 정리해서 그렇다.

 

대학원, 실무 레벨에서 더 여러가지를 사용한다면 이는 기본은 넘어선다고 보기 때문이다. 

 

통계적 검정은 기본으로 효과가 없다 혹은 차이가 없다와 같은 귀무 가설 (Null Hypothesis, $H_0$)과  

 

효과가 없다고 할 수 없다, 차이가 없다고 할 수 없다의 개념은 대립 가설 (Alternative Hypothesis, $H_1$ or $H_a$) 중에서 어느쪽을 선택할지를 통계적으로 검정한다.

 

유의 수준 (Significance level, $\alpha$)p-value 등을 이용해서 결과를 판단하고 검정을 수행한다.

 

보통 표본을 토대로 모분포 (Population)평균 (mean)이나 분산 (variance)을 주로 검정한다.

 

우선 평균에 대한 검정과 분산에 대한 검정과 그외로 크게 3가지로 나누어서 정리한다.

 

여기서 Parametric 모수적 검정 방법은 분포에 대한 가정이나 정보가 필요한 방법이고,

 

Nonparametric 비모수적 방법은 분포에 대한 정보가 없이 가능한 방법이다.

 

 

 

1. 평균에 대한 검정

평균에 대한 검정은 보통 (Student's) t-test와 ANOVA를 사용한다.

 

하나 이상의 모집단의 평균의 차이를 비교하기 때문에 각각의 모집단을 나타내는 독립 변수는 Categorical (범주형)이다.

 

t-test의 적용에는 본래 다음의 세 가지 가정이 필요하다.

 

  1. Noramlity (정규성) 가정 : 데이터가 정규 분포를 따른다.
  2. Equal Variance = Homogeneity (등분산): 비교하고자 하는 두 데이터의 모집단의 분산이 같다.
  3. Independence (독립성): 비교하고자 하는 두 데이터의 모집단이 서로 독립이다.

 

각 가정이 깨질 경우에 대한 대처는 다음과 같다.

 

  1. 정규성 가정의 경우 표본 (sample) 크기가 커지면 t-test에 사용하는 t statistic이 normal에 근사하므로 적용가능하다.
  2. 등분산이 아닌 경우에 대한 t-test의 variant인 Welch's t-test가 있다.
  3. 독립이 아닌 경우에 대한  t-test의 variant인 Paired t-test가 있다.

등분산이 아닌 경우는 이분산이라고 하는데 unequal variances라고도 하고 Econometrics 계량경제학에서는 Heteroscedasticity라는 긴 이름으로 자주 부른다. 반대로 등분산은 Homoscedasticity라고 한다. 

 

 

t-test (t-테스트)

1. One-sample t-test :

모집단이 하나. 해당 모집단의 mean이 특정 값인지 검정.

 

2. Two-sample t-test: 

모집단이 둘. 모집단 A와 B의 population mean이 같은지 다른지 검정.

이때 두 집단의 모분산은 같다. 

 

3. Paired t-test:

표본 집단의 전후를 비교하는 검정이다. 

보통 의학에서 치료법의 적용 전과 후를 비교할 때 사용한다. 

 

4. Welch' t-test:

모집단이 둘이고 모집단 A와 B의 모분산이 서로 다를 때 population mean이 같은지 다른지 검정

 

 

ANOVA (Analysis of Variance)

이름은 분산 분석이지만 목적은 평균의 차이를 알아보는 것이다.

t-test와의 차이점은 3개 이상의 집단에 대해서 분석한다는 점이다. 

 

독립 변수 (Independent variabels) = 요인 (Factor)를 조절해서 종속 변수 (Dependent variables)가 어떻게 변하는지를 알아본다. 독립 변수와 종속 변수 모두 1개 이상이 될 수 있다. 

 

1. One-way ANOVA:

독립 변수가 1개고 종속 변수가 1개다.

날씨에 따른 아이스크림의 판매량과 같은 경우에 사용한다. 

날씨: 맑음, 비, 눈 등 

 

2. Two-way ANOVA:

독립 변수가 2개고 종속 변수가 1개다.

학력, 소득별 의류 소비 금액의 차이를 살펴본다면,

학력과 소득 구간 (범주형 자료)가 각각 독립 변수가 된다.

 

3. Multivariate ANOVA (MANOVA)

독립 변수가 1개 이상이고 종속 변수가 2개 이상이다.

 

그외 ANCOVA, MANCOVA

 

1.1. 비모수적 평균 검정

비모수적 방법에서는 평균 (mean) 대신 중앙값 (median)을 활용해서 검정을 수행한다.

분포에 대한 가정이 필요없고 특이값 (outlier)에 대해서 덜 민감하다.

따라서 데이터의 수가 적을 때 사용하면 유용하다. 

 

 

1. Wilcoxon Signed-Rank Test

가정: 두 표본의 차이의 분포가 대칭적.

 

 

2. Mann-Whitney U Test or Wilcoxon Rank-Sum Test:
가정: 두 집단의 분포 형태가 유사.

 


3. Kruskal-Wallis Test:

가정: 모든 집단의 분포 형태가 유사

세 개 이상의 독립된 표본 집단의 분포가 동일한지 검정.
ANOVA의 비모수 버젼

 


4. Sign Test:
다른 비모수적 검정에 비해 검정력 (Power)이 낮을 수 있다.

 

검정력 (Power)은 동일한 significance level 하에서 높을수록 좋다.

 

 

2. 분산에 대한 검정 

두 모집단의 분산 비교 자체가 목적일수도 있고,

다른 검정에 있어서의 가정인 등분산성의 성립 유무를 판단하기 위해서 사용할 수도 있다. 

 

 

1. F-test

모집단의 수: 2

정규성 가정 필요

 

2. Bartlett's Test

모집단의 수: 3 이상

정규성 가정 필요

 

3. Levene's test

모집단의 수: 2 이상 

정규성 가정 불필요 

 

4. Flinger-Kileen test

모집단의 수: 2 이상

비모수적 검정 방법

 

 

 

3. 그외 검정 

Chi-squared test, $\chi^2$-test, 카이제곱 검정 
 

하나의 검정이지만 3가지 목적으로 사용할 수 있다.

 

 

1. 적합도 검정 (Goodness-of-fit test):

하나의 범주형 변수의 관찰된 빈도 분포가 특정 이론적 분포(Uniform, Binomial, Normal 등)와 일치하는지 검정.

예시: 주사위를 던졌을 때 각 눈금이 나올 빈도가 동일한지 (Uniform dist) 검정하는 경우.



2. 독립성 검정 (Test of independence):

두 개의 범주형 변수가 서로 독립적인지 (연관이 없는지) 검정합니다. 

주로 분할표(Contingency table) 형태로 제시된 데이터를 분석.

아래는 분할표의 예시다. 

  흡연 비흡연
70 30 100
30 70 100
100 100 200



예시: 성별과 흡연 여부가 서로 관련이 있는지 검정하는 경우.

3. 동질성 검정 (Test of homogeneity):

두 개 이상의 모집단 간의 특정 범주형 변수의 분포가 동일한지 검정합.

예시: 세 가지 다른 교육 방법에 따른 학생들의 만족도 분포가 차이가 있는지 검정하는 경우.

 

 

Fisher's Exact Test

카이제곱의 검정 중에서 독립성 검정은 각 셀의 expected frequencey 기대 빈도가 모두 5이상일 때 사용가능하다.

(예전에 수업 들었을 때 들었던거 같다.)

 

이 말은 기대 빈도가 5 이하인 경우 카이제곱 검정을 통한 독립성 검정이 불가능하다는 이야기인데,

 

이때 Fisher's Exact Test을 사용한다.

 

hypergeometric distribution (초기하 분포)를 사용해서 계산한다.

 

 

 

 

 

References:

https://en.wikipedia.org/wiki/Student%27s_t-test

Introduction to Mathematical Statistics, Hogg et al.

https://en.wikipedia.org/wiki/Welch%27s_t-test

https://en.wikipedia.org/wiki/Multivariate_analysis_of_variance

https://syj9700.tistory.com/17

https://www.ibm.com/docs/sl/spss-statistics/beta?topic=statistics-multivariate-analysis-variance-manova

https://www.itl.nist.gov/div898/handbook/eda/section3/eda357.htm

https://www.itl.nist.gov/div898/handbook/eda/section3/eda35a.htm

https://en.wikipedia.org/wiki/Levene%27s_test

https://wikidocs.net/106788

https://en.wikipedia.org/wiki/Power_(statistics)

https://en.wikipedia.org/wiki/Chi-squared_test

https://medium.com/@alb.formaggio/chi-square-and-fishers-test-does-it-really-matter-614a8cb937af

https://en.wikipedia.org/wiki/Fisher%27s_exact_test

https://m.blog.naver.com/paperfactor_ceo/222223080511