Data Science/Maching Learning
ML. Pinball Loss
Tigris
2023. 9. 28. 23:40
주로 Quantile Prediction을 위해 사용되는 Loss로 Quantile Loss라고도 불린다. 계산식은 다음과 같다.
이 때
는 t 시점의 실제값 는 t 시점에서의 u 분위수에 대한 예측값 은 Indicator function이다.
수식만으로는 Pinball Loss를 이용했을 때 모델이 어떤 방향으로 학습될지, 어떤 예측 결과가 나와야 Pinball Loss가 낮아지는지 알아보기 어려우니 분위수에 따른 Loss 값의 그래프를 확인해본다.
분위수에 따른 Loss 변화
1. 중위수

위 그래프에서 확인할 수 있듯이 50% 분위수의 예측값이 실제값과 동일하도록 학습이 진행될 것이다.
2. 50% 미만

- 예측값이 실제값보다 높을 때 Loss가 크다.
- 분위수가 작아질수록 예측값이 실제값보다
- 큰 경우의 Loss가 커지지만,
- 작은 경우의 Loss는 작아진다.
즉, Pinball Loss를 이용하여 모델을 학습하게 되면
- 50% 미만 분위수에 대한 예측값이 실제값보다 낮도록 학습이 되는 동시에
- 분위수가 낮아질수록 더 낮은 예측값을 얻게 될 가능성이 커도록 학습이 이루어질 것이다.
3. 50% 초과

50% 미만일 때와 정반대로
- 예측값이 실제값보다 낮을 때 Loss가 크다.
- 분위수가 커질수록 예측값이 실제값보다
- 작은 경우의 Loss가 커지지만,
- 큰 경우의 Loss는 작아진다.
즉, Pinball Loss를 이용하여 모델을 학습하게 되면
- 50% 초과 분위수에 대한 예측값이 실제값보다 높도록 학습이 되는 동시에
- 분위수가 높아질수록 더 높은 예측값을 얻게 될 가능성이 커도록 학습이 이루어질 것이다.
정리
Quantile 별 예측값은 단일 값을 이용하기보다는 예측 범위를 만들 때 사용된다는 점을 고려하면
- 50% 미만 분위수의 예측값과 50% 초과 분위수 예측값 사이에 실제값이 존재하기를 바랄 것이므로 50% 미만 분위수에 대해서는 예측값이 실제값보다 클 때 큰 Loss가 부여되고, 50% 초과 분위수에 대해서는 예측값이 실제값보다 작을 때 큰 Loss가 부여되는 점, 그리고 분위수가 작아질수록(높아질수록) 더 낮은(높은) 예측값이 나올 수 있도록 해주는 점을 이해할 수 있다.
- 또한, 1번 조건이 만족될 경우 최대한 예측 범위를 줄이는 것이 도움이 된다는 점에서 모든 분위수에 대하여 예측값이 실제값을 벗어나는 경우 일정 부분의 Loss가 부여되는 점을 이해할 수 있다.
잘못된 내용, 오타, 부정확한 문장 등 어떤 피드백이든 환영합니다. 감사합니다.