본문 바로가기

지니불순도2

특성 중요도(feature importance)란? 특성 중요도란?(feature importance) 결정트리에서 모델의 변화 정도를 파악하기 위해 사용되는 지표(?) 즉 종속변수에 미치는 독립변수의 영향력을 알아보기 위해 필요하다. (선형회귀모델에서는 회귀계수가 이 역할을 했다.) 특성 중요도의 합은 1이며 특성 중요도가 높은 feature 일수록 노드를 나눌 때 더 자주, 우선적으로 이용된다. 랜덤포레스트에서는 학습 후에 특성들의 중요도 정보(Gini importance)를 기본으로 제공한다. 평균 불순도 감소란? (Mean Decrease Impurity MDI) = ? MDG(gini) 특성 중요도의 계산을 하는 방법이다. 각 노드에서 해당 feature를 기준으로 분류(split)하는 지점에서의 decrease of impurity(불순도)의 .. 2022. 3. 14.
결정트리(Decision Tree) 이란? 결정트리란? 결정 트리 모델은 데이터의 특성들을 기준으로 샘플을 분류해 나가는데 그 모양이 나무를 닮아 결정 트리라고 불리운다. 결정트리의 각 노드는 " 뿌리(루트 노드), 규칙 노드(중간), 리프 노드(말단) " 로 나뉘며 어떤 기준으로 규칙(어떻게 데이터를 분할해야 할지)을 만들어야 가장 효율적인 분류가 될 것인지가 알고리즘의 성능을 좌우한다. 결정트리는 분류와 회귀문제에 모두 적용이 가능하며 새로운 데이터가 특정 말단 노드의 빈도가 가장 높은 범주로 데이터를 분류한다. 규칙(데이터의 분류)가 많아 질수록 예측을 위한 학습이 잘 된다라고 말할 수 있지만 반대로 동시에 복잡하다는 의미를 가지며이는 과적합의 문제가 발생할 수 있다. 좋은 결정트리 학습 알고리즘이란? 앞서 말했지만 결정트리를 만든다는 것은.. 2022. 3. 2.