본문 바로가기

분류 전체보기100

부분의존도그림(Partial dependence plot, PDP)란? 부분의존도그림이란 부분 의존도 그림은 특성의 값에 따라서 타겟값이 증가/감소하느냐와 같은 어떻게 영향을 미치는지에 대한 정보를 파악할수있다. 즉 머신러닝 모델의 예측 결과에 대해 하나 또는 두 개의 특성이 갖는 한계 효과(marginal effect)를 보여준다는 의미이다. 부분 의존도 그림은 대상과 특성 사이의 관계가 선형인지, 단조로운지 또는 더 복잡한지 여부를 표시할 수 있다. 특성 하나를 표현하면 2d작업이 진행되고 두 특성은 3d 형태를 띄기 때문에 더 이상의 표현은 어렵기에 2개까지만 표현한다고 함 2022. 3. 15.
단순 선형 회귀(Simple-regression) 단순 선형 회귀(Simple-regression)란? 독립 변수가 1개, 종속 변수도 1개인 선형회귀이다. 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명한다. 즉 한가지의 설명 변수(독립변수 X)만으로 반응 변수(종속변수 Y)에 대한 영향을 파악하기 위해 사용한다. 변수들은 다양한 명칭으로 이용되며 종속변수 Y는 반응변수, 레이블, 타겟 등으로 불리운다. 독립변수 X는 예측변수, 설명, 특성 등으로 불린다. (Y에 영향을 끼치는 변수) 잔차(Residual): 실제 값(관측값)과 회귀 모델(적합값)의 차이에 따른 오류를 의미한다. 잔차제곱합(RSS): 오류값의 제곱을 구해서 더하는 방식이다, 단순 오차 제곱합이라고도 불린다. 잔차를 알아야 하는 이유는 결론적으로 좋은.. 2022. 3. 14.
데이터 랭글링(Data Wrangling)이란? 데이터 랭글링이란? 데이터 랭글링은 분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 원천 데이터(raw data)를 분석하기 좋은 데이터로 변환하는 작업을 의미한다. 데이터 랭글링은 총 5단계로 나눠지며 아래와 같다 Gather(데이터 모으기) - 스크래핑, API 등으로 데이터를 모으는 단계이다. Assess(데이터 평가하기) - 1단계에서 모은 데이터가 깨끗한지 아닌지 판단하는 단계이다. Clean(데이터 정제하기) - 2단계에서 평가한 데이터를 어떻게 정제할지, 코딩할지, 테스트하는 단계이다. Reassess and lterate (데이터 재평가) - 2단계로 돌아가 다시 데이터가 잘 정제되었는지 판단하며 필요한만큼 2~4과정을 반복한다 Store(데이터 저장) 2022. 3. 14.
특성 중요도(feature importance)란? 특성 중요도란?(feature importance) 결정트리에서 모델의 변화 정도를 파악하기 위해 사용되는 지표(?) 즉 종속변수에 미치는 독립변수의 영향력을 알아보기 위해 필요하다. (선형회귀모델에서는 회귀계수가 이 역할을 했다.) 특성 중요도의 합은 1이며 특성 중요도가 높은 feature 일수록 노드를 나눌 때 더 자주, 우선적으로 이용된다. 랜덤포레스트에서는 학습 후에 특성들의 중요도 정보(Gini importance)를 기본으로 제공한다. 평균 불순도 감소란? (Mean Decrease Impurity MDI) = ? MDG(gini) 특성 중요도의 계산을 하는 방법이다. 각 노드에서 해당 feature를 기준으로 분류(split)하는 지점에서의 decrease of impurity(불순도)의 .. 2022. 3. 14.
기준모델(baseline model)이란? 기준모델이란? 예측 모델을 만들기 전에 가장 간단하면서 직관적이며 최소한의 성능을 나태내는 기준이 되는 모델 분류 문제에서의 기준모델은 target의 최빈 클래스. 회귀 문제에서의 기준모델은 target의 평균 값이다. 시계열회귀문제에서의 기준모델은 이전 timestamp(과거의 정보로 미래를 예측하는 느낌)의 값이다. 2022. 3. 11.
K-겹 교차검증(k-fold cross-validation) 이란? k-겹 교차검증(CV)이란 전체 데이터셋을 k개의 fold로 나누어 k번동안 다른 fold 1개를 test data 그리고 나머지(k-1)개의 fold를 train data로 분할하는 과정을 반복하며 train, test data를 교차 변경하여 검증하는 방법이다. k fold cv를 하기 위해 보통 5~10개의 fold를 사용하며 최적의 k값을 찾기 위한 실험적 검증이 필요하다. 아래와 같은 경우에는 CV 수행 시 오히려 모델 성능이 악화될 수 있다. - 순서가 고려된 데이터(시계열 데이터)가 shuffle 되어 있지 않은 경우 - 데이터 불균형(Data Imbalance) → 층화 교차검증(Stratified K-fold CV)을 통해 보완 - 각기 다른 fold에 같은 데이터(i.e., duplic.. 2022. 3. 7.
교차검증(Cross-validation)이란? 지금까지 머신러닝을 학습하며 일반적으로 train,validation,test로 데이터를 나누어 학습을 해왔다. 하지만 만약 훈련,검증,테스트 자료가 부족하다면 어떻게 해야할까? 그런 질문에 대한 답이 교차검증이 될 수도 있다. 교차검증의 사전적인 의미는 하나의 문제 또는 사건과 같은 일들을 서로 다른 시각, 여러 자료를 토대로 정확성을 높이기 위하여 행하는 가장 기본적인 검사방법이다. 머신런닝에서 교차검증이란 모델링을 위한 훈련용 및 시험용 데이터를 교차 변경하여 검증하는 것이다. 교차검증은 아래와 같은 장점을 가지고 있다. 학습에 사용가능한 데이터가 충분하지 않다면 훈련 모델을 이용하여 더욱 일반화 시키는 것이 가능하다. 과적합이 방지 될 수 있다. 과소적합이 방지될 수 있다. 주어진 데이터셋에 학습.. 2022. 3. 7.
임계값(threshold)이란? 귀무가설의 검정 통계량의 분포에서 귀무가설을 기각해야 하는 값의 집합을 정의하는 점, 이것을 임계 영역 또는 기각 영역이라고 한다. 예를 들자면 얼음의 녹는점, 물이 기체로 변할때 기화하는 부분이 임계값이라고 할 수 있다. 2022. 3. 7.