본문 바로가기

공부/통계학

[통계학] 확률변수, 확률질량함수(PMF), 확률밀도함수(PDF), 누적분포함수(CDF)

 

 


확률변수와 확률분포 

 

✔ 확률변수 (Random Variable) 

 

정의역을 표본공간으로 갖고 치역을 실수값으로 갖는 함수

 

 

 확률분포 (Probability Distribution)

 

정의역을 확률변수로 하고 치역을 확률로 갖는 함수

 

 

 

이산확률분포 (= 확률질량함수, Probability Mass Function)

 

이산확률변수 (Discrete Random Variable)

 

확률변수 $X$가 가질 수 있는 값이 유한개이거나 가산무한개이면 $X$를 이산확률변수라고 한다.

 

i.e. 주사위를 두 개 던져서 나온 주사위 눈의 합을 $X$ 로 할 때 $X$는 이산확률변수이다.

 

 

 이산확률변수 $X$의 확률분포 (=확률질량함수, PMF)

 

이산확률변수 $X$가 취할 수 있는 값 $x_{1}, x_{2}, ... , x_{n}$ 각각에 대한 확률 $P(X = x_{1})$, $P(X = x_{2})$, ... , $P(X=x_{n})$의 대응관계인 $f(x)$

 

 

 확률질량함수 $f(x)$의 성질

 

이산확률변수 $X$가 취할 수 있는 값이 $x_{1}, x_{2}, ... , x_{n}$ 일 때

 

1. 모든 $x_{i}$에 대하여 $0 \leq f(x_{i}) \leq 1$ (단, $i = 1, 2, ..., n$)

 

2. $\sum_{i=1}^{n} f(x_{i}) = 1$

 

 

 

연속확률분포 (= 확률밀도함수, Probability Density Function)

 

 연속확률변수 (Continuous Random Variable)

 

확률변수 $X$가 가질 수 있는 값이 어떤 연속적인 구간의 모든 실숫값이면 $X$를 연속확률변수라고 한다.

 

 

 연속확률변수 $X$의 확률분포 (=확률밀도함수, PDF)

 

연속확률변수 $X$에 대하여 $P(a\leq X \leq b) = \int_{a}^{b} f(x) dx$ 를 만족하는 $f(x)$

 

 

 확률밀도함수 $f(x)$의 성질

 

1. 모든 실수 $x$에 대하여 $f(x) \geq$ 0

 

2. $\int_{-\infty}^{\infty}f(x)dx = 1$

 

3. 연속확률변수 $X$에 대하여 $P(a \leq X \leq b)$ = $P(a \leq X < b)$ = $P(a < X \leq b)$ = $P(a < X < b)$ 이 성립

 

c.f. 연속확률변수의 한 점에서의 적분값은 0이기 때문에 등호는 의미가 없다.

 

 

 이산확률변수와 연속확률변수의 비교

 

1. 이산확률변수 $X$가 취할 수 있는 값이 $x_{1}, x_{2}, x_{3}, ... , x_{n}$ 일 때 모든 $x_{i}$에 대하여 $0 \leq f(x_{i}) \leq 1$ (단, $i = 1, 2, ..., n$)

 

2. 연속확률변수 $X$의 확률밀도함수 $f(x)$는 1보다 클 수 있다. 연속확률분포에서 $f(x)$ 자체는 확률값이 아니며, $f(x)$를 어떤 구간에 대해 적분한 값이 확률값이기 때문이다.

 

 

 

누적분포함수 (Cumulative Distribution Function)

 

 

✔ 누적분포함수 (CDF)

 

확률변수 $X$의 누적분포함수 $F(x) = P(X \leq x)$

 

 

✔ 함수 $F(x)$가 확률변수 $X$의 누적분포함수가 되는 필요충분조건

 

(확률변수 $X$가 이산형, 연속형일 때 모두 해당)

 

1. $\lim_{x \rightarrow -\infty} F(x) = 0$

 

2. $\lim_{x \rightarrow \infty} F(x) = 1$

 

3. $\lim_{h \rightarrow +0} F(x+h) = F(x)$ (누적분포함수의 오른쪽 연속성 성질)

 

4. $a < b$ 이면 $F(a) \leq F(b)$

 

 

✔ 이산확률변수 $X$의 누적분포함수 $F(x)$의 성질

 

1. $F(x)$ = $P(X \leq x)$ = $\sum_{x_{i} \leq x}^{}P(X=x_{i})$ ($-\infty \leq x \leq \infty$)

 

c.f. 이산확률변수의 PMF 정의역은 유한 또는 가산무한이지만, CDF 정의역은 모든 실수임에 유의

 

2. $P(a < X \leq b) = F(b) - F(a)$

 

c.f.연속확률변수와는 달리 부등호에 유의

 

 

✔ 연속확률변수 $X$의 누적분포함수 $F(x)$의 성질

 

1. $F(x) = P(X \leq x) = \int_{- \infty}^{x}f(t)dt$ ($-\infty \leq x \leq \infty$)

 

2. $P(a \leq X \leq b)$ = $P(a \leq X < b)$ = $P(a < X \leq b)$ = $P(a < X < b)$ = $F(b) - F(a)$

 

3. $\frac{\text{d}}{\text{d}x}F(x)$ = $\frac{\text{d}}{\text{d}x}\int_{-\infty}^{x} f(t) \text{d}t$ = $f(x)$

 

즉, 연속확률변수 $X$의 PDF가 $f(x)$이고 CDF가 $F(x)$일 때, CDF $F(x)$를 미분하면 PDF $f(x)$가 된다.

 

 

 

 

반응형