본문 바로가기

코드스테이츠5

단순선형회귀모델, 회귀계수 ,사이킷런 기준모델(Baseline Model) 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적이면서 최소한의 성능을 나타내는 기준이 되는 모델 단순 선형회귀분석이란?(Simple Linear Regression) 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명하는 것 즉 한가지의 설명변수만으로 반응변수에 대한 영향을 파악하기 위해 사용한다. 예로들면 한국인의 평균 임금 y를 예측하기위해 교육수준 x를 설명 변수로 활용한다고 가정해보자, x가 수준이 높을수록 y가 클것이라고 생각이 된다. 하지만 실제 생활에서는 성격,경력,나이 등이 영향을 줄 수도 있어 변수는 굉장히 많을 수 있다. 이러한 요소들이 설명변수인데 단순하게 교육수준 하나의 설명변수로 제대로 임금을 예측하.. 2022. 2. 22.
Section 1. Week3.1 13일차 벡터(VECTOR)란? 벡터의 표기 보통 a,b,c 와 같이 소문자로 굵게 표기하거나 a = [aj] 처럼 대괄호 안에 성분 표시를 한다. 벡터의 힘의 크기가 1인 벡터를 단위 벡터라고 표기한다. '→'로 표기하며 네덜란드의 세빈이란 사람이 벡터의 개념를 규명하였다. 화살표의 방향은 힘의 방향을 나타내고 화살표의 길이는 크기를 나타내기 위해 화살표의 시작점은 힘의 작용점을 그림을 통해 쉽게 나타내기 위해서 만들었다고 한다. 열벡터는 n by 1 행렬을 말하며, 행벡터는 1 by n 행렬을 말한다. 여기에서 n by 1 벡터 전체로 이루어 지는 집합을 알파벳 R에 이중선을 추가하여 아래그림처럼 표기한다. 그렇다면 컴퓨터적인 사고에서 벡터가 필요한 이유는 뭘까? 데이터를 백터로 표현할 수 있기 때문 즉 특징.. 2022. 2. 4.
Section.1 2회차 12일 회고와 Wrap up 회고 첫째주에 비교해서 통계적인 용어가 많아서 접근하기 애매했던 주차였다. 스프린트 챌린지에서 보았던 카이제곱 개념을 문제로 풀어보니까 적용을 하기 어려웠다. 하지만 이번주는 왜 통계가 필요한지 약간 몸으로 깨닫게 된 주가 된 것 같다. 부족함을 느낀 한 주였고 문득 진짜 대학원을 가야되나 싶기도 한 주였다. wrap up 가설검정을 사용하는 이유?? - 데이터를 이용해서 중앙극한값을 이용하는이유? - population 값이 부족할때 극복하기 위함 -표본이 많아질수록 정규분포에 수렴하기 때문에 -샘플의 표본이 정규분포 값으로 나타난다가 맞는말 -실제 모집단의 분포를 제대로 나타내지는 못한다. Sampling을 하는 이유 ? - 모집단의 평균을 추측하기 위해서 -우리가 가지고 있는 샘플의 한계를 극복하기.. 2022. 2. 3.
귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis) 이란? 가설검정(Hypothesis Testing)과 귀무가설(Null Hypothesis) 대립가설(Alternative Hypothesis)에 대해 알아보자 귀무가설(null hypothesis, H0) 이란? 증명된 바 없는 주장이나 가설을 의미하며 귀무가설이 옳다는 전제하에 시작하기에, 진실일 가능성이 적어 처음부터 틀릴 것이라 예상되는 가설이며 기각을 목표로 한다. * (예를 들어 범죄 사건의 용의자가 있을 때 형사는 용의자를 범죄를 저질렀다는 추정인 대립가설을 세우게 되며 이때의 귀무가설은 용의자가 무죄라는 가설이다. 출처 : 위키백과) 귀무가설은 *t-test 이후 가설을 수용할 지, 기각할 지를 결정한다. *t-test란? 더보기 모집단의 분산이나 표준편차를 알지 못할 때 모집단(정규분포)을 대표.. 2022. 1. 26.
Section 1. 3일차 Warm up Tidy Data(깔끔한 데이터, 분석하기 좋은 데이터) 란? - Teletype 혹은 Teletypewritter Intergrated Display 의 약자인듯 싶다. 대부분의 존재하는 데이터들은 특정 분석을 염두해두고 만들어지는게 아니기 때문에 통일화, 데이터 변환, 데이터 전처리가 힘들다. 그러한 상황을 방지하기 위해 처음부터 데이터를 표준화 해서 만들자라는 스타일이 The Elements of Data Analytic Style 이고 이를 통해 만드는 데이터가 Tidy Data 이다. Tidy Data의 특성 각 변수는 개별의 열(column)으로 존재한다. 각 관측치는 행(row)를 구성한다. 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다. 만약 여러개의 표가 존.. 2022. 1. 20.