본문 바로가기
공부/복습

단순 선형 회귀(Simple-regression)

by 남오공 2022. 3. 14.
728x90

단순 선형 회귀(Simple-regression)란?

  • 독립 변수가 1개, 종속 변수도 1개인 선형회귀이다.
  • 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명한다.
  • 즉 한가지의 설명 변수(독립변수 X)만으로 반응 변수(종속변수 Y)에 대한 영향을 파악하기 위해 사용한다.

변수들은 다양한 명칭으로 이용되며

  • 종속변수 Y는 반응변수, 레이블, 타겟 등으로 불리운다.
  • 독립변수 X는 예측변수, 설명, 특성 등으로 불린다. (Y에 영향을 끼치는 변수)

잔차(Residual): 실제 값(관측값)과 회귀 모델(적합값)의 차이에 따른 오류를 의미한다.

잔차제곱합(RSS): 오류값의 제곱을 구해서 더하는 방식이다, 단순 오차 제곱합이라고도 불린다.

 

잔차를 알아야 하는 이유는 결론적으로 좋은 모델을 학습시킨다에 의의를 둘 수 있다.

잔차제곱합(비용 함수)을 구한다면 선형모델의 규칙을 찾는다, 회귀계수(파라미터)를 찾는다. 패턴을 도출한다 라는

의미이고 잔차제곱합을 최소로 만든다는것은 최소한의 알파 베타 값(비용 함수가 가장 적은 값을 찾음)을 찾는다는 것이다.

 

분류 모델의 성능을 평가하기 위해선 Accuarcy, Precision, Recall이 사용 되었지만 회귀모델에서의 성능 평가 지표에서는 

MSE MAE RMSE RMSLE이 등이 있다

 

 

평균제곱오차 (MSE: Mean Squared Error)

  • RSS를 데이터 개수만큼 나눈 값이다.
  • 틀린 것에 더 많이 틀렸다고 나오기에(에러에 제곱을 한다면 에러가더 커지기 때문) 이상치를 잡는데 효과적이다.
  • 즉 특이값이 존재한다면 수치가 많이 늘어난다. (즉 0에 가까울 수록 성능이 좋음)

mse

평균절대값오차(MAE: Mean Absolute Error)

  • 예측값과 실제값의 오차의 절대값의 평균
  • 변동치가 큰 지표와 낮은 지표를 같이 예측할때 효과적이다.
  • Error에 절대값을 취하기에 에러의 크기가 그대로 반영된다.
  • 이상치가 많을 때 사용하기 적합하다. 
  • 에러에 따른 손실이 선형적으로 올라갈 때 적합하다.

 

mae

 

 

 

 

 

참고

 https://velog.io/@hyesukim1/

 

댓글