특정 사건에 대한 확률 대신 특정 구간에 속할 확률을 구함으로서 간접적으로 특정 사건의 확률에 대한 감을 잡을 수 있다. 이것을 설명하는 곡선을 확률밀도함수(Probability Density Function: PDF)이라고 한다. 특정 구간에 속할 확률이라함은 확률 변수의 분포를 의미한다. 여기서 이야기하는 구간은 일반적으로 양의 길이를 가지며, 그 구간이 무한대로 좁아지면 구간의 길이가 0에 가까워진다.
확률 밀도 함수는 주로 $f(x)$ 또는 $p(x)$로 표기한다. $x$가 확률 변수의 값일 때, $f(x)$는 $x$ 주변의 확률을 나타낸다.
위 그림은 대표적인 확률 분포 인 정규 분포의 확률 밀도 함수이다. <그래프에서 특정 구간에 속한 넓이=특정 구간에 속할 확률>이 된다. 구체적으로 확률 변수가 주어진 구간 [a, b]에 속할 확률은 다음과 같이 구할 수 있다.
$$P(a \leq x \leq b) = \int_{a}^{b} f(x) \, dx $$
(적분 기호는 연속 확률 변수의 경우 사용)
확률 밀도 함수는 다양한 확률 분포에서 사용되며, 각 분포마다 다른 수식을 가지고 있을 수 있다. 예를 들면 위에서 그래프로 살펴본 정규 분포 말고도 이항 분포, 포아송 분포 등이 있다. 이러한 확률 분포는 각각의 특성과 확률 밀도 함수를 가지고 있으며, 특정 확률 변수의 분포를 설명하는 데 사용된다.
※확률질량함수와 확률밀도함수는 뭐가 다를까?
가장 큰 차이는 확률질량함수는 이산확률변수일때 이야기하고, 확률밀도함수는 연속확률변수일때 이야기한다. 확률을 가능성의 크기로 생각하여 질량으로 간주하면 이산확률변수 X 값에 따라 확률(질량)을 나타낼 수 있으므로 확률질량함수라고 이야기한다. 반면에 확률밀도함수에서는 구간의 확률을 연속적으로 더해서 구하게 된다.
$$\frac{확률}{구간의 길이} \times {구간의 길이} = {확률}$$
$$\frac{f(x) dx}{dx} \times {dx} = {f(x)dx}$$
구간의 길이를 부피로 생각하면 확률을 질량으로 생각한다고 했으므로 $f(x)$는 밀도를 의미하게 된다. 따라서 확률밀도함수라고 불리게 되었다.