확률변수와 확률분포
✔ 확률변수 (Random Variable)
정의역을 표본공간으로 갖고 치역을 실수값으로 갖는 함수
✔ 확률분포 (Probability Distribution)
정의역을 확률변수로 하고 치역을 확률로 갖는 함수
이산확률분포 (= 확률질량함수, Probability Mass Function)
✔ 이산확률변수 (Discrete Random Variable)
확률변수 $X$가 가질 수 있는 값이 유한개이거나 가산무한개이면 $X$를 이산확률변수라고 한다.
i.e. 주사위를 두 개 던져서 나온 주사위 눈의 합을 $X$ 로 할 때 $X$는 이산확률변수이다.
✔ 이산확률변수 $X$의 확률분포 (=확률질량함수, PMF)
이산확률변수 $X$가 취할 수 있는 값 $x_{1}, x_{2}, ... , x_{n}$ 각각에 대한 확률 $P(X = x_{1})$, $P(X = x_{2})$, ... , $P(X=x_{n})$의 대응관계인 $f(x)$
✔ 확률질량함수 $f(x)$의 성질
이산확률변수 $X$가 취할 수 있는 값이 $x_{1}, x_{2}, ... , x_{n}$ 일 때
1. 모든 $x_{i}$에 대하여 $0 \leq f(x_{i}) \leq 1$ (단, $i = 1, 2, ..., n$)
2. $\sum_{i=1}^{n} f(x_{i}) = 1$
연속확률분포 (= 확률밀도함수, Probability Density Function)
✔ 연속확률변수 (Continuous Random Variable)
확률변수 $X$가 가질 수 있는 값이 어떤 연속적인 구간의 모든 실숫값이면 $X$를 연속확률변수라고 한다.
✔ 연속확률변수 $X$의 확률분포 (=확률밀도함수, PDF)
연속확률변수 $X$에 대하여 $P(a\leq X \leq b) = \int_{a}^{b} f(x) dx$ 를 만족하는 $f(x)$
✔ 확률밀도함수 $f(x)$의 성질
1. 모든 실수 $x$에 대하여 $f(x) \geq$ 0
2. $\int_{-\infty}^{\infty}f(x)dx = 1$
3. 연속확률변수 $X$에 대하여 $P(a \leq X \leq b)$ = $P(a \leq X < b)$ = $P(a < X \leq b)$ = $P(a < X < b)$ 이 성립
c.f. 연속확률변수의 한 점에서의 적분값은 0이기 때문에 등호는 의미가 없다.
✔ 이산확률변수와 연속확률변수의 비교
1. 이산확률변수 $X$가 취할 수 있는 값이 $x_{1}, x_{2}, x_{3}, ... , x_{n}$ 일 때 모든 $x_{i}$에 대하여 $0 \leq f(x_{i}) \leq 1$ (단, $i = 1, 2, ..., n$)
2. 연속확률변수 $X$의 확률밀도함수 $f(x)$는 1보다 클 수 있다. 연속확률분포에서 $f(x)$ 자체는 확률값이 아니며, $f(x)$를 어떤 구간에 대해 적분한 값이 확률값이기 때문이다.
누적분포함수 (Cumulative Distribution Function)
✔ 누적분포함수 (CDF)
확률변수 $X$의 누적분포함수 $F(x) = P(X \leq x)$
✔ 함수 $F(x)$가 확률변수 $X$의 누적분포함수가 되는 필요충분조건
(확률변수 $X$가 이산형, 연속형일 때 모두 해당)
1. $\lim_{x \rightarrow -\infty} F(x) = 0$
2. $\lim_{x \rightarrow \infty} F(x) = 1$
3. $\lim_{h \rightarrow +0} F(x+h) = F(x)$ (누적분포함수의 오른쪽 연속성 성질)
4. $a < b$ 이면 $F(a) \leq F(b)$
✔ 이산확률변수 $X$의 누적분포함수 $F(x)$의 성질
1. $F(x)$ = $P(X \leq x)$ = $\sum_{x_{i} \leq x}^{}P(X=x_{i})$ ($-\infty \leq x \leq \infty$)
c.f. 이산확률변수의 PMF 정의역은 유한 또는 가산무한이지만, CDF 정의역은 모든 실수임에 유의
2. $P(a < X \leq b) = F(b) - F(a)$
c.f.연속확률변수와는 달리 부등호에 유의
✔ 연속확률변수 $X$의 누적분포함수 $F(x)$의 성질
1. $F(x) = P(X \leq x) = \int_{- \infty}^{x}f(t)dt$ ($-\infty \leq x \leq \infty$)
2. $P(a \leq X \leq b)$ = $P(a \leq X < b)$ = $P(a < X \leq b)$ = $P(a < X < b)$ = $F(b) - F(a)$
3. $\frac{\text{d}}{\text{d}x}F(x)$ = $\frac{\text{d}}{\text{d}x}\int_{-\infty}^{x} f(t) \text{d}t$ = $f(x)$
즉, 연속확률변수 $X$의 PDF가 $f(x)$이고 CDF가 $F(x)$일 때, CDF $F(x)$를 미분하면 PDF $f(x)$가 된다.
'공부 > 통계학' 카테고리의 다른 글
[수리 통계학] 정리 노트 (0) | 2023.05.03 |
---|---|
[통계학] 기댓값, 분산, 표준편차, 공분산, 조건부 기댓값, 조건부 분산 (0) | 2021.03.21 |
[통계학] 결합확률분포, 주변확률분포, 조건부 확률분포, 확률변수의 독립 (사건의 독립과 비교) (0) | 2021.03.16 |
[통계학] 조건부 확률, 독립과 종속, 전확률 공식, 베이즈 정리 (0) | 2021.02.20 |
[통계학] 표본 공간과 사건, 확률의 공리 (0) | 2021.02.19 |