728x90
혼동 행렬(Confusion Matrix)이란?
- 분류 모델을 학습하는 것의 목적은 주어진 데이터를 의도에 맞게 잘 분류하는 것인데
분류 모델의 성능 평가를 할 때 사용되는 지표가 혼동 행렬이다.
- TP: positive로 예측했는데 맞았다 즉 1인 레이블을 1이라고 하는 경우 -> 관심 범주를 정확하게 분류한 값
- FP: false로 예측했는데 틀렸다. 즉 0인 레이블을 1이라고 하는 경우 -> 관심 범주라고 잘못 분류한 값
- FN:negatives로 예측했는데 틀렸다.즉 0인 레이블을 0이라고 하는 경우 -> 관심 범주가 아닌 것을 잘못 분류한 값
- TN:negatives로 예측했는데 맞았다. 즉 0인 레이블을 0이라고 하는 경우 -> 관심 범주가 아닌 것을 정확하게 분류한 값
이러한 4가지의 정보를 바탕으로 3가지의 척도를 평가할 수 있는데 정확도(Accuracy), 정밀도(Precision)와 재현율(Recall)이다.
- 정확도(Accurarcy)
- 1를 1로 0을 0으로 정확하게 분류를 해낸 것을 의미한다. 모델이 얼마나 정확한 지를 평가하는 척도이다. - 정밀도(Precicsion)
- 모델을 통해 1이라고 분류해낸 그룹이 있을때 얼마나 믿을정도로 그 그룹을 만들어 냈는지를 평가하는 것이다. - 재현율(Recall)
- 정밀도와 비교되는 척도로 전체 예측 중에 TP가 얼마나 많은가에 관한 것이다. 즉 모형의 실용성을 평가하는 것이다.
임계값(thresholds):
레이블을 결정짓는 값 즉 1과 0을 가르는 기준이다.
임계값이 달라지면 p / n (positive/negetiva)값이 달라진다 -> 즉 정밀도와, 재현율이 달라진다.
1을 기준으로 임계값을 낮추면 정밀도가 낮아지고
0을 기준으로 임계값을 높이면 정밀도가 높아진다.
'AI > 머신러닝' 카테고리의 다른 글
K-겹 교차검증(k-fold cross-validation) 이란? (0) | 2022.03.07 |
---|---|
교차검증(Cross-validation)이란? (0) | 2022.03.07 |
랜덤 포레스트(Random Forests), 앙상블 기법 (0) | 2022.03.03 |
결정트리(Decision Tree) 이란? (0) | 2022.03.02 |
로지스틱 회귀 (Logistic Regression) (0) | 2022.02.25 |
댓글