728x90
더보기
매번 머신러닝을 공부할때 회귀와 분류가 나오는데
이 의미를 대략적으로만 알고 있었지 막상 나오면 어떻게 봐야할지 이해가 안가 정리하고자한다.
지도학습은 훈련데이터를 모델화하여 필요로하는 데이터데 대해 정확한 출력을 예측하는 것이 필요하다.
이때 회귀와 분류가 지도학습의 목적이라고 볼 수 있다.
회귀(Regression)?
- 회귀의 사전적 정의는 한바퀴 돌아 제자리로 돌아가다라는 의미이다.
하지만 우리가 말하는 데이터 분석에서의 회귀의 의미는 잔차(residual: 데이터의 실측치와 모델의 예측치의 사이의 차이 즉 회귀식에서 오차항에 대한 관측치)가 평균으로 돌아가는 것을 의미한다. - 회귀는 예측하고자 하는 변수가 연속적인 숫자(Countinuous Value)일 때 이를 예측하는 것 이다.
- 회귀는 확률을 예측하는 것이 아니다. 확률은 어떠한 일이 발생할 경우의 수를 구하는 것이지만 회귀는 연속성 중에 어디에 점을 찍을지 결정하는 역할을 한다.
- 연봉 추측, 도시 인구 수 추측, 평균 키 추측 등이 회귀에서 추구하는 예측값이 될 수 있다.
회귀 모델이란?
연속형 데이터 Y와 이 Y의 원인이 되는(엄밀히 원인이라고 추정되는) X간의 관계를 추정하기 위하 만든 아래와 같은 관계식을 말한다.
Y=f(X)
하지만 실제 데이터는 측정상 한계나 여러 원인으로 인해 데이터에 유실이 발생하게 되는데
그렇기 때문에 확률 변수인 오차항을 아래와 같은 관계식처럼 두게 된고 한다.
Y=f(X)+e
분류(Classification)?
- 미리 정의된, 이산 값(Discrete Value)중 가능성 있는 종류(여러 클래스 레이블 중 하나)을 예측하는 것이다.
- 딱 두개의 클래스로 분류하면 이진 분류(binary classification)
- 셋 이상의 클래스로 분류하면 다중 분류(multicalss classification)라고 한다.
- 즉 예 아니오가 이진분류, 영어/프랑스어/독일어 등을 어떤 언어로 분류하는 것이 다중 분류의 예이다.
'공부 > 새로 배운 상식들' 카테고리의 다른 글
데이터 셋 제공 사이트 목록 (0) | 2022.03.24 |
---|---|
임계값(threshold)이란? (0) | 2022.03.07 |
카디널리티(cardinality)란? (0) | 2022.03.02 |
선형 회귀란(Linear Regression)? (0) | 2022.02.09 |
편차와 표준편차 정리 (0) | 2022.01.28 |
댓글