손실 함수를 정의하는 기준에는 뭐가 있을까?
- 모델이 오차를 최소화하도록 정의한다.
- 모델이 추정하는 관측 데이터의 확률이 최대화되도록 최대우도추정 방식으로 정의한다.
오차 최소화
예측 데이터와 target 데이터의 차이가 작아지도록 학습하는 것을 오차 최소화 관점이라고 한다. 직관적인 방법이며 어떤 방식으로 오차의 크기를 측정할지를 정하면 된다. 대표적인 오차 추정 방식에는 평균제곱오차(MSE), 평균절대오차(MAE)가 있다.
최대우도추정(Maximum Likelihood Estimator)
MLE라고 부르기도 하며 먼저 우도(Likelihood)에 대해서 알아야 이해가 간다. 가능도라고 하기도 하며, 간단히 설명하자면 일어날 가능성이 얼마나 되느냐이다. 그러면 최대우도추정이란 이 가능성을 최대로 하는 방향으로 모수를 추정하는 방법이다.
확률(Probability): 분포가 정해지고, 분포의 모수가 정해졌을 때 관측치가 나올 가능성
우도(Likelihood): 분포가 정해지고, 관측치가 주어졌을 때 모수가 나올 가능성
MLE를 손실 함수로 사용할 경우 1) 우도 대신 로그 우도를 사용한다. 2) 최대화 문제를 최소화 문제로 변환하기 위해 음의 로그 우도(negative log likelihood)를 사용한다.
1)의 이유는 (1) 지수함수 형태로 표현되는 확률 분포(대표적으로 가우시안 분포 혹은 베르누이 분포)의 경우 로그를 취하면 지수항이 상쇄되고 다항식으로 변하며, (2) 우도의 곱을 로그 우도의 합산으로 바꾸며 underflow를 방지한다. (3) 로그 우도를 사용해도 최적해가 달라지지 않는다
최대우도추정을 이용해 손실 함수를 사용하는 오차의 예시에는 크로스 엔트로피가 있다.