본문 바로가기
AI/머신러닝

특성 중요도(feature importance)란?

by 남오공 2022. 3. 14.
728x90

이 요도 아님 ㅎ

특성 중요도란?(feature importance)

  • 결정트리에서 모델의 변화 정도를 파악하기 위해 사용되는 지표(?) 
  • 즉 종속변수에 미치는 독립변수의 영향력을 알아보기 위해 필요하다.
    (선형회귀모델에서는 회귀계수가 이 역할을 했다.)
  • 특성 중요도의 합은 1이며 특성 중요도가 높은 feature 일수록 노드를 나눌 때 더 자주, 우선적으로 이용된다.
  • 랜덤포레스트에서는 학습 후에 특성들의 중요도 정보(Gini importance)를 기본으로 제공한다.

평균 불순도 감소란? (Mean Decrease Impurity MDI)  = ? MDG(gini)

  • 특성 중요도의 계산을 하는 방법이다.
  • 각 노드에서 해당 feature를 기준으로 분류(split)하는 지점에서의 decrease of impurity(불순도)의 총 합을 계산한 후,
    모든 노드의 값들의 평균을 낸 것이 Mean decrease Gini이다.
  • 이 지수의 feature가 모델 분류를 잘하는데 중요하게 작용할 수록 값이 커진다
  • 중요도는 노드들의 지니불순도(Gini impurity)를 가지고 계산하는데 노드가 중요할 수록 불순도가 크게 감소한다는 사실을 이용한다.

*지니 불순도: 얼마나 샘플들이 섞여있는지 나타내는 지표

(샘플들이 모든 클래스에 골고루 분포되있을 수록 지니 불순도가 높다. 의사결정나무에서는 이런 불순도를 감소시키는 방향으로 노드를 생성하고 분류한다.) 

 

 

 

 

a. 지니불순도 계산

b. 빠르고 쉽게 사용할 수 있다.

c. 단점(주의해야할 점): 범주가 많은 특성이 중요하게 나온다.(high cardinality)

 1. 분기에 이용될 확률이 높아서 ? -> 과적합 문제가 있어서?

 2. 분기에 이용될 확률이 높다는게 어떤 의미?

 3. 배깅으로 했을때 저런 문제가 발생하는 건가요?

 

 

부스팅

앙상블: 배깅,부스

댓글