본문 바로가기
AI/머신러닝

단순선형회귀모델, 회귀계수 ,사이킷런

by 남오공 2022. 2. 22.
728x90

기준모델(Baseline Model)

  • 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적이면서 최소한의 성능을 나타내는 기준이 되는 모델

 

단순 선형회귀분석이란?(Simple Linear Regression)

  • 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명하는 것
  • 즉 한가지의 설명변수만으로 반응변수에 대한 영향을 파악하기 위해 사용한다.

예로들면 한국인의 평균 임금 y를 예측하기위해 교육수준 x를 설명 변수로 활용한다고 가정해보자,

x가 수준이 높을수록 y가 클것이라고 생각이 된다. 하지만 실제 생활에서는 성격,경력,나이 등이 영향을 줄 수도 있어 변수는 굉장히 많을 수 있다.

이러한 요소들이 설명변수인데 단순하게 교육수준 하나의 설명변수로 제대로 임금을 예측하기는 어려워

현실에서는 단순회귀분석이 잘 쓰이지 않는다고 한다. 

다만 다중회귀분석을 배우기 위해 필수적인 요소이므로 이해하고 넘어가자.

 

변수들은 다양한 명칭으로 이용되며

  • 종속변수 Y는 반응변수, 레이블, 타겟 등으로 불리운다.
  • 독립변수 X는 예측변수, 설명, 특성 등으로 불린다. (Y에 영향을 끼치는 변수)

 

예측모델 (Predictive Model)

ScatterPlot에 가장 잘맞는 best fit 값이 되는 것을 찾는 것이 예측 모델

예측값과 잔차의 개념이 중요한데 

예측값: 만들어진 모델이 추정하는 값

잔차: 예측값과 관측값의 차이이다. 

 

회귀선은 잔차 제곱들의 합인 Rss(residual sum of )를 최소화 하는 직선이다.

보간과 외삽은 주어지지 않는 값들을 도와주는 값

 

 

기준모델(Baseline Model)

예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적이며 최소한의 성능을 나타내는 기준이 되는 모델이다.

평균 값을 기준모델로 사용한다면 평균기준모델이라고 한다. 

기준모델이 필요한 이유는 우리 모델이 좋은 모델인지 안좋은 모델인지 파악을 하기 위해 필요하다.

최소한 기준 모델은 좋아야 의미가 있다는 의미이다.

 

 

 

모델을 학습시킨다의 의미?

-> 규칙을 찾는다, 회귀계수(파라미터)를 찾는다. 패턴을 도출한다,

모델이 훈련 세트에 가장 잘 맞도록(비용함수를 최소화하도록) 모델 파라미터를 설정하는 것

선형회귀모델 : RSS(비용함수) -> 최소화 알파 베타를 찾는 것 

 

좋은 모델을 선택하는 것이 데이터 사이언티스가 해야 하는일 

 

 

 

mae(Mean absoulte Error) 

 

sckit learn ?

머신러닝 모델을 만들때 가장 많이 사용되는 라이브러리이다. 

fit() -> 학습을 하는것

prdict() -> 예측을 하는것 

계수와 절편?

 

지도학습

 

https://ebbnflow.tistory.com/165

댓글