본문 바로가기
Statistics

확률질량함수, 누적분포함수, 확률밀도함수

by 아르카눔 2024. 4. 19.

여기서는 확률질량함수 (aka pmf), 누적분포함수 (aka cdf), 확률밀도함수 (pdf)를 소개한다.

 

 

Discrete Random Variable

이산형 확률변수 = discrete random variable은 하나, 둘, 셋 이렇게 셀 수 있는 확률 변수다.

그리고 자연수와 1:1 대응이 되는 수들 역시도 이산형 변수다. 

 

Probability Mass Function (PMF)

이산형 확률 변수에 대해서 정의한 확률 함수가 확률 질량 함수 ( = Probability Mass Function (PMF))다. 

Probability Space $(\Omega, F, P)$에 대해서, discrete random variable $X: \Omega \rightarrow Z$, 그리고 

Z = { $ x_1, x_2, ... $ } 의 discret set일 때 pmf는 다음과 같이 정의된다.

 

$ p_X(x) :=  P(X=x) = P({X}^{-1}(x)) = P( \{ \omega | X(\omega) = x \} ) $./span>

 

즉 아직 정해지지 않은 변수인, random variable $X$가 구체적인 값 $x$일 때의 확률을 $p_X(x)$로 나타낸다.

 

PMF는 valid proability measure인데, 

 

$ p_X(X) \geq 0 $ for any $ x \in D = X(\Omega)$이고 $ \sum_{x \in X(\Omega) } p_X(x) = 1 $이기 때문이다.

 

위 명제의 역도 성립하는데, 만약 위 식이 성립한다면 그 함수는 pmf다.

 

또한 $ P(X \in S) = \sum_{x \in S} p_X(x) $다.

 

대표적인 이산형 확률 분포로는 Bernouilli, binomial, multinomial, Poisson dist등이 있다.

 

 

 

Continuous Random Variable

연속형 확률변수 = continuous random variable은 두 값 사이에 무한히 많은 값을 갖는 수를 갖는 확률 변수다.

엄밀한 수학적 정의는 어렵지만 쉽게 생각하자면 실수를 생각하면 된다.

연속형 변수에 대한 확률은 다음과 같이 정의한다.

 

 

 

Cumulative Distriution Function (CDF)

연속형 확률 변수에 대해서 정의한 확률 함수는 누적 분포 함수 ( = Cumulative Distriution Function (CDF))다. 

Probability Space $(\Omega, F, P)$에 대해서, discrete random variable $X: \Omega \rightarrow Z$다.

 

CDF 함수는 $F_X(x) := P(X \leq x)$ 로 정의된다.

 

For any continuous random variable $x$에 대해서 다음이 성립한다.

 

1. $ \lim_{x \to -\infty} F_X(x) = 0 $

2. $ \lim_{x \to \infty} F_X(x) = 1 $

2. $ F_X(b) \geq F_X(a) $ if $ b > a $. i.e. $ F_X $ is nondecreasing.

 

A random variable $x$가 interval (a, b]에 속할 확률은,

$ P(a < X \leq b) = P(X \leq b) - P(X \leq a) = F_X(b) - F_X(a) $다.

 

이때, 개별 point의 확률은 0이므로 $ P(a < X \leq b) =  P(a < X < b) = P(a \leq X < b) = P(a \leq X \leq b) $다.

 

Probability Density Function (PDF)

 

위의 CDF에서 PDF (Probability Density Function), 확률 밀도 함수가 유도된다.

 

$ f_X(x) := \frac{ dF_X(x) }{ dx } $

 

$ P(a < X \leq b) =F_X(b) - F_X(a) = \int_a^b f_X(x) dx$.

 

For arbitrary set $ S \in \mathcal{R} $, 

 

$ P(X \in S) = \int_S f_X(x) dx $다.

 

 

주의사항:

pdf는 확률이 아니고 cdf가 확률이다.

pdf는 cdf의 순간 기울이다.

따라서 pdf는 x값의 증가에 따라서 증가하는 확률의 크기일뿐이다.

 

대표적인 연속형 확률 분포로는 exponential, normal, gamma, beta 등이 있다.

 

 

 

자세한 이산형 확률 분포와 연속형 확률 분포에 관련된 내용들은 https://arsetstudium.tistory.com/3에 정리했다.

 

 

 

References:

https://en.wikipedia.org/wiki/Continuous_or_discrete_variable#Discrete_variable

고려대학교 XAI502: Probability and Statistics

 

 

 

 

'Statistics' 카테고리의 다른 글

확률공간과 확률 변수  (1) 2024.01.31
통계적 분포들과 예시  (0) 2024.01.31