Accuracy

$$ \frac{\text{num of correct estimations}}{\text{num of total test samples}} $$

정답률을 뜻하는 지표로, 직관적인 성능을 파악할 수 있다.

Problems of Accuracy

단순한 정답률을 나타내기 때문에, 오류의 종류를 분석할 수 없고 데이터 분포에 따라 성능 파악이 왜곡될 수 있다.

y = [0,0,0,0,0,0,0,0,0,1]

위와 같은 클래스 분포에서 모델 없이 모든 예측을 0으로만 설정해도 정확도가 90% 가 나온다.

Confusion Matrix

오차 행렬은 이진 분류의 예측 오류가 얼마인지 더불어 어떤 오류를 범했는지 파악할 수 있는 지표다.

image.png

이를 통해 알 수 있는 지표들은 다음과 같다.

Precision

정밀도는 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻한다.

$$ \text{Precision }=\frac{\text{True Positive}}{\text{False Positive + True Positive}} $$

False Positive 를 줄이는 것이 중요한 경우 주요 지표로 설정하면 좋다. (스팸 메일 등)

Recall

재현율은 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻한다.

$$ \text{Recall }=\frac{\text{True Positive}}{\text{False Negative + True Positive}} $$

False Negative 를 줄이는 것이 중요한 경우 주요 지표로 설정하면 좋다. (암 진단 등)

Precision-Recall Trade off