본문 바로가기
공부/새로 배운 상식들

회귀(Regression)와 분류(Classification)란?

by 남오공 2022. 3. 3.
728x90
더보기

매번 머신러닝을 공부할때 회귀와 분류가 나오는데 

이 의미를 대략적으로만 알고 있었지 막상 나오면 어떻게 봐야할지 이해가 안가 정리하고자한다.

 

 

지도학습에서 필요한 분류와 회귀

지도학습은 훈련데이터를 모델화하여 필요로하는 데이터데 대해 정확한 출력을 예측하는 것이 필요하다.

이때 회귀와 분류가 지도학습의 목적이라고 볼 수 있다. 

회귀(Regression)?

  • 회귀의 사전적 정의는 한바퀴 돌아 제자리로 돌아가다라는 의미이다.
    하지만 우리가 말하는 데이터 분석에서의 회귀의 의미는 잔차(residual: 데이터의 실측치와 모델의 예측치의 사이의 차이 즉 회귀식에서 오차항에 대한 관측치)가 평균으로 돌아가는 것을 의미한다.
  • 회귀는 예측하고자 하는 변수가  연속적인 숫자(Countinuous Value)일 때 이를 예측하는 것 이다.
  • 회귀는 확률을 예측하는 것이 아니다. 확률은 어떠한 일이 발생할 경우의 수를 구하는 것이지만 회귀는 연속성 중에 어디에 점을 찍을지 결정하는 역할을 한다.  
  • 연봉 추측, 도시 인구 수 추측, 평균 키 추측 등이 회귀에서 추구하는 예측값이 될 수 있다.

회귀 모델이란?

연속형 데이터 Y와 이 Y의 원인이 되는(엄밀히 원인이라고 추정되는) X간의 관계를 추정하기 위하 만든 아래와 같은 관계식을 말한다.

Y=f(X)

 하지만 실제 데이터는 측정상 한계나 여러 원인으로 인해 데이터에 유실이 발생하게 되는데

그렇기 때문에 확률 변수인 오차항을 아래와 같은 관계식처럼 두게 된고 한다.

Y=f(X)+e

 

분류(Classification)?

  • 미리 정의된, 이산 값(Discrete Value)중 가능성 있는 종류(여러 클래스 레이블 중 하나)을 예측하는 것이다.
  • 딱 두개의 클래스로 분류하면 이진 분류(binary classification)
  • 셋 이상의 클래스로 분류하면 다중 분류(multicalss classification)라고 한다.
  • 즉 예 아니오가 이진분류, 영어/프랑스어/독일어 등을 어떤 언어로 분류하는 것이 다중 분류의 예이다. 

 


 

 

https://brunch.co.kr/@gimmesilver/17

'공부 > 새로 배운 상식들' 카테고리의 다른 글

데이터 셋 제공 사이트 목록  (0) 2022.03.24
임계값(threshold)이란?  (0) 2022.03.07
카디널리티(cardinality)란?  (0) 2022.03.02
선형 회귀란(Linear Regression)?  (0) 2022.02.09
편차와 표준편차 정리  (0) 2022.01.28

댓글