728x90
특성 중요도란?(feature importance)
- 결정트리에서 모델의 변화 정도를 파악하기 위해 사용되는 지표(?)
- 즉 종속변수에 미치는 독립변수의 영향력을 알아보기 위해 필요하다.
(선형회귀모델에서는 회귀계수가 이 역할을 했다.) - 특성 중요도의 합은 1이며 특성 중요도가 높은 feature 일수록 노드를 나눌 때 더 자주, 우선적으로 이용된다.
- 랜덤포레스트에서는 학습 후에 특성들의 중요도 정보(Gini importance)를 기본으로 제공한다.
평균 불순도 감소란? (Mean Decrease Impurity MDI) = ? MDG(gini)
- 특성 중요도의 계산을 하는 방법이다.
- 각 노드에서 해당 feature를 기준으로 분류(split)하는 지점에서의 decrease of impurity(불순도)의 총 합을 계산한 후,
모든 노드의 값들의 평균을 낸 것이 Mean decrease Gini이다. - 이 지수의 feature가 모델 분류를 잘하는데 중요하게 작용할 수록 값이 커진다
- 중요도는 노드들의 지니불순도(Gini impurity)를 가지고 계산하는데 노드가 중요할 수록 불순도가 크게 감소한다는 사실을 이용한다.
*지니 불순도: 얼마나 샘플들이 섞여있는지 나타내는 지표
(샘플들이 모든 클래스에 골고루 분포되있을 수록 지니 불순도가 높다. 의사결정나무에서는 이런 불순도를 감소시키는 방향으로 노드를 생성하고 분류한다.)
a. 지니불순도 계산
b. 빠르고 쉽게 사용할 수 있다.
c. 단점(주의해야할 점): 범주가 많은 특성이 중요하게 나온다.(high cardinality)
1. 분기에 이용될 확률이 높아서 ? -> 과적합 문제가 있어서?
2. 분기에 이용될 확률이 높다는게 어떤 의미?
3. 배깅으로 했을때 저런 문제가 발생하는 건가요?
부스팅
앙상블: 배깅,부스
'AI > 머신러닝' 카테고리의 다른 글
부분의존도그림(Partial dependence plot, PDP)란? (0) | 2022.03.15 |
---|---|
데이터 랭글링(Data Wrangling)이란? (0) | 2022.03.14 |
K-겹 교차검증(k-fold cross-validation) 이란? (0) | 2022.03.07 |
교차검증(Cross-validation)이란? (0) | 2022.03.07 |
Confusion Matrix란? (0) | 2022.03.04 |
댓글