본문 바로가기
AI/머신러닝

Confusion Matrix란?

by 남오공 2022. 3. 4.
728x90

혼동 행렬(Confusion Matrix)이란?

  • 분류 모델을 학습하는 것의 목적은 주어진 데이터를 의도에 맞게 잘 분류하는 것인데 
    분류 모델의 성능 평가를 할 때 사용되는 지표가 혼동 행렬이다.

행렬 표현

  • TP: positive로 예측했는데 맞았다 즉 1인 레이블을 1이라고 하는 경우 -> 관심 범주를 정확하게 분류한 값
  • FP: false로 예측했는데 틀렸다. 즉 0인 레이블을 1이라고 하는 경우 -> 관심 범주라고 잘못 분류한 값
  • FN:negatives로 예측했는데 틀렸다.즉 0인 레이블을 0이라고 하는 경우 -> 관심 범주가 아닌 것을 잘못 분류한 값
  • TN:negatives로 예측했는데 맞았다. 즉 0인 레이블을 0이라고 하는 경우 -> 관심 범주가 아닌 것을 정확하게 분류한 값

이러한 4가지의 정보를 바탕으로 3가지의 척도를 평가할 수 있는데 정확도(Accuracy), 정밀도(Precision)와 재현율(Recall)이다.

  1. 정확도(Accurarcy)
    - 1를 1로 0을 0으로 정확하게 분류를 해낸 것을 의미한다. 모델이 얼마나 정확한 지를 평가하는 척도이다.
  2. 정밀도(Precicsion)
    - 모델을 통해 1이라고 분류해낸 그룹이 있을때 얼마나 믿을정도로 그 그룹을 만들어 냈는지를 평가하는 것이다.
  3. 재현율(Recall)
    - 정밀도와 비교되는 척도로 전체 예측 중에 TP가 얼마나 많은가에 관한 것이다. 즉 모형의 실용성을 평가하는 것이다.

 

 

임계값(thresholds):

레이블을 결정짓는 값 즉 1과 0을 가르는 기준이다.

임계값이 달라지면 p / n (positive/negetiva)값이 달라진다 -> 즉 정밀도와, 재현율이 달라진다. 

 

1을 기준으로 임계값을 낮추면 정밀도가 낮아지고

0을 기준으로 임계값을 높이면 정밀도가 높아진다.

댓글