본문 바로가기

AI44

교차검증(Cross-validation)이란? 지금까지 머신러닝을 학습하며 일반적으로 train,validation,test로 데이터를 나누어 학습을 해왔다. 하지만 만약 훈련,검증,테스트 자료가 부족하다면 어떻게 해야할까? 그런 질문에 대한 답이 교차검증이 될 수도 있다. 교차검증의 사전적인 의미는 하나의 문제 또는 사건과 같은 일들을 서로 다른 시각, 여러 자료를 토대로 정확성을 높이기 위하여 행하는 가장 기본적인 검사방법이다. 머신런닝에서 교차검증이란 모델링을 위한 훈련용 및 시험용 데이터를 교차 변경하여 검증하는 것이다. 교차검증은 아래와 같은 장점을 가지고 있다. 학습에 사용가능한 데이터가 충분하지 않다면 훈련 모델을 이용하여 더욱 일반화 시키는 것이 가능하다. 과적합이 방지 될 수 있다. 과소적합이 방지될 수 있다. 주어진 데이터셋에 학습.. 2022. 3. 7.
Confusion Matrix란? 혼동 행렬(Confusion Matrix)이란? 분류 모델을 학습하는 것의 목적은 주어진 데이터를 의도에 맞게 잘 분류하는 것인데 분류 모델의 성능 평가를 할 때 사용되는 지표가 혼동 행렬이다. TP: positive로 예측했는데 맞았다 즉 1인 레이블을 1이라고 하는 경우 -> 관심 범주를 정확하게 분류한 값 FP: false로 예측했는데 틀렸다. 즉 0인 레이블을 1이라고 하는 경우 -> 관심 범주라고 잘못 분류한 값 FN:negatives로 예측했는데 틀렸다.즉 0인 레이블을 0이라고 하는 경우 -> 관심 범주가 아닌 것을 잘못 분류한 값 TN:negatives로 예측했는데 맞았다. 즉 0인 레이블을 0이라고 하는 경우 -> 관심 범주가 아닌 것을 정확하게 분류한 값 이러한 4가지의 정보를 바탕으로.. 2022. 3. 4.
랜덤 포레스트(Random Forests), 앙상블 기법 랜덤 포레스트(Random Forests)란? 머신 러닝에서 분류,회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀 분석)을 출력함으로써 동작한다. 특성을 랜덤한 방식으로 추출하며 트리가 서로 독립적인 방식(서로 영향을 안주는)으로 추출된다. 즉 이 말은 모든 특성을 사용하지는 않는다는 의미이다. 앙상블 학습 방법(Ensemble Learning)이란? 앙상블의 의미는 전체적인 어울림을 의미한다고 한다. 이 의미와 큰 상관이 있어 보이지 않지만 앙상블 기법은 하나의 모델로 원하는 성능을 낼 수 없을 때 다수의 약한 알고리즘이나 다수의 모델(기본 모델(Weak base Learner))들을 *조합 하여 *여기서 기본모델들을 조합.. 2022. 3. 3.
결정트리(Decision Tree) 이란? 결정트리란? 결정 트리 모델은 데이터의 특성들을 기준으로 샘플을 분류해 나가는데 그 모양이 나무를 닮아 결정 트리라고 불리운다. 결정트리의 각 노드는 " 뿌리(루트 노드), 규칙 노드(중간), 리프 노드(말단) " 로 나뉘며 어떤 기준으로 규칙(어떻게 데이터를 분할해야 할지)을 만들어야 가장 효율적인 분류가 될 것인지가 알고리즘의 성능을 좌우한다. 결정트리는 분류와 회귀문제에 모두 적용이 가능하며 새로운 데이터가 특정 말단 노드의 빈도가 가장 높은 범주로 데이터를 분류한다. 규칙(데이터의 분류)가 많아 질수록 예측을 위한 학습이 잘 된다라고 말할 수 있지만 반대로 동시에 복잡하다는 의미를 가지며이는 과적합의 문제가 발생할 수 있다. 좋은 결정트리 학습 알고리즘이란? 앞서 말했지만 결정트리를 만든다는 것은.. 2022. 3. 2.
로지스틱 회귀 (Logistic Regression) 로지스틱 회귀 (Logistic Regression) 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류(Classification)해주는 지도 학습 알고리즘이다 간단하게 왼쪽의 선형모델은 아래 위로 쭉 뻗어나가지만 오른쪽의 로지스틱 모델은 0과 1사이 값에서 그려진다. 선형 모델의 예시로는 운동을 하면 체중이 감소한다라는 예시를 들 수가 있으며, 로지스틱 모델의 경우 시험의 합격의 예시가 있다. 만약 공부한 시간이 적으면 시험에 통과 못하고, 공부한 시간이 많으면 시험에 통과한다고 가정하자. 이 경우에 선형모델을 적용해 본다면 통과 확률이 음과 양의 방향으로 뻗어 나간다. 말 그대로 ‘선’이라 나오는 상황인데 .. 2022. 2. 25.
머신러닝에서 훈련/검증/테스트 세트로 나누는 이유 일반적으로 머신러닝을 모델링하는 방법의 순서는 아래와 같다. 훈련(Train): 모델을 학습시키는데 사용하며, 기출문제를 푼다고 생각하면 된다. 검증(Validation): 모델이 잘 학습되었는지 인증는데 사용, 모의고사를 푼다 생각하면 된다 시험(Test): 모델의 일반화 성능을 평가할 때 사용한다, 수능을 푼다고 생각하면 된다. 훈련 작업과 검증작업은 좋은 모델이 나올때까지 반복작업을 하더라도 문제가 없지만 테스트 데이터를 반복적으로 사용하게 된다면 데이터 누수 문제가 발생하여 모델 성능을 잘못 평가하기 때문에 피해야한다. 2022. 2. 25.
One-hot encoding과 Ridge Regression 더보기 날짜는 의미 없으므로 앞으로 제목에 날짜를 안적기로한다. 의미가 있는건 내가 오늘 뭘 배우고 뭘 이해했는지 기록을 위한거라 생각한다. 원-핫인코딩 (One - hot encoding) 인간과 컴퓨터는 데이터를 바라보는 형태가 다르기 때문에 이를 번역(?)하는 과정이 필요하다. 컴퓨터는 모든 데이터를 숫자를 바탕으로 이해하기에 컴퓨터가 문자를 이해할 수 있는 숫자로 바꾸며 이러한 결과를 임베딩이라고 한다. 원-핫 인코딩은 수많은 데이터를 0과 한개의 1의 값으로 데이터를 구별하는 인코딩이다. 표현하고자 하는 인덱스에 1, 다른 인덱스에는 0을 부여하는 벡터 표현방식이며 이렇게 표하는 것을 원-핫 백터라고 부른다고 한다. 범주형(Catagorical) 자료를 다루기 위하여 사용한다. 범주형 자료란 ?.. 2022. 2. 24.
단순선형회귀모델, 회귀계수 ,사이킷런 기준모델(Baseline Model) 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적이면서 최소한의 성능을 나타내는 기준이 되는 모델 단순 선형회귀분석이란?(Simple Linear Regression) 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명하는 것 즉 한가지의 설명변수만으로 반응변수에 대한 영향을 파악하기 위해 사용한다. 예로들면 한국인의 평균 임금 y를 예측하기위해 교육수준 x를 설명 변수로 활용한다고 가정해보자, x가 수준이 높을수록 y가 클것이라고 생각이 된다. 하지만 실제 생활에서는 성격,경력,나이 등이 영향을 줄 수도 있어 변수는 굉장히 많을 수 있다. 이러한 요소들이 설명변수인데 단순하게 교육수준 하나의 설명변수로 제대로 임금을 예측하.. 2022. 2. 22.