새소식

통계

[통계] 확률 밀도 함수 Probability Density Function

  • -
728x90

특정 사건에 대한 확률 대신 특정 구간에 속할 확률을 구함으로서 간접적으로 특정 사건의 확률에 대한 감을 잡을 수 있다. 이것을 설명하는 곡선을 확률밀도함수(Probability Density Function: PDF)이라고 한다. 특정 구간에 속할 확률이라함은  확률 변수의 분포를 의미한다. 여기서 이야기하는 구간은 일반적으로 양의 길이를 가지며, 그 구간이 무한대로 좁아지면 구간의 길이가 0에 가까워진다.

확률 밀도 함수는 주로 $f(x)$ 또는 $p(x)$로 표기한다. $x$가 확률 변수의 값일 때, $f(x)$는 $x$ 주변의 확률을 나타낸다.

위 그림은 대표적인 확률 분포 인 정규 분포의 확률 밀도 함수이다. <그래프에서 특정 구간에 속한 넓이=특정 구간에 속할 확률>이 된다. 구체적으로 확률 변수가 주어진 구간 [a, b]에 속할 확률은 다음과 같이 구할 수 있다.

$$P(a  \leq x  \leq  b) =  \int_{a}^{b} f(x) \, dx $$

(적분 기호는 연속 확률 변수의 경우 사용)

확률 밀도 함수는 다양한 확률 분포에서 사용되며, 각 분포마다 다른 수식을 가지고 있을 수 있다. 예를 들면 위에서 그래프로 살펴본 정규 분포 말고도 이항 분포, 포아송 분포 등이 있다. 이러한 확률 분포는 각각의 특성과 확률 밀도 함수를 가지고 있으며, 특정 확률 변수의 분포를 설명하는 데 사용된다.

※확률질량함수와 확률밀도함수는 뭐가 다를까?

가장 큰 차이는 확률질량함수는 이산확률변수일때 이야기하고, 확률밀도함수는 연속확률변수일때 이야기한다. 확률을 가능성의 크기로 생각하여 질량으로 간주하면 이산확률변수 X 값에 따라 확률(질량)을 나타낼 수 있으므로 확률질량함수라고 이야기한다. 반면에 확률밀도함수에서는 구간의 확률을 연속적으로 더해서 구하게 된다. 

$$\frac{확률}{구간의 길이}  \times {구간의 길이} = {확률}$$

$$\frac{f(x) dx}{dx}  \times {dx} = {f(x)dx}$$

구간의 길이를 부피로 생각하면 확률을 질량으로 생각한다고 했으므로 $f(x)$는 밀도를 의미하게 된다. 따라서 확률밀도함수라고 불리게 되었다.

728x90

'통계' 카테고리의 다른 글

[통계] 중심 극한 정리 Central Limit Theorem(CLT)  (0) 2023.07.13
[가설검정] 오류  (0) 2023.07.05
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.