본문 바로가기

공부46

회귀(Regression)와 분류(Classification)란? 더보기 매번 머신러닝을 공부할때 회귀와 분류가 나오는데 이 의미를 대략적으로만 알고 있었지 막상 나오면 어떻게 봐야할지 이해가 안가 정리하고자한다. 지도학습은 훈련데이터를 모델화하여 필요로하는 데이터데 대해 정확한 출력을 예측하는 것이 필요하다. 이때 회귀와 분류가 지도학습의 목적이라고 볼 수 있다. 회귀(Regression)? 회귀의 사전적 정의는 한바퀴 돌아 제자리로 돌아가다라는 의미이다. 하지만 우리가 말하는 데이터 분석에서의 회귀의 의미는 잔차(residual: 데이터의 실측치와 모델의 예측치의 사이의 차이 즉 회귀식에서 오차항에 대한 관측치)가 평균으로 돌아가는 것을 의미한다. 회귀는 예측하고자 하는 변수가 연속적인 숫자(Countinuous Value)일 때 이를 예측하는 것 이다. 회귀는 확.. 2022. 3. 3.
카디널리티(cardinality)란? 중복도가 ‘낮으면’ 카디널리티가 ‘높다’고 표현하고 중복도가 ‘높으면’ 카디널리티가 ‘낮다’고 표현한다. 카디널리티는 전체 행에 대한 특정 컬럼의 중복 수치를 나타내는 지표이다. 이 카디널리티는 상대적인 개념으로 접근을 해야하는데 그 중에 한 예로 학교에서 한 반이 인원이 40명이라고 한다면 같은 이름을 가질 확률은 상대적으로 적으므로 이름이란 특성은 카디널리티가 높다고 할 수 있다. 하지만 한 지역이나 나라로 보자면 같은 이름은 많기 때문에 상대적으로 카디널리티가 상당히 낮다고 볼 수 있다. 2022. 3. 2.
분산과 편향? 데이터를 토대로 정답을 하나 맞추기 위해서 컴퓨터가 여러 번의 예측값을 내놓는데 이러한 동태를 묘사하는 표현이 편향과 분산이다. 머신러닝에서 편향과 분산은 모델의 loss나 error를 의미하기에 정리를 하고 넘어가려 한다. 편향 편향(bias)의 사전적의미로는 한쪽으로의 치우침이다. 인공지능을 다루는 분야에서 무슨 편향이 있냐 생각이 들 수 있지만 인공지능을 위해 제공하는 데이터의 주체가 인간이기에 어쩔 수 없이 인공지능에서도 편향이 나타나게 된다. 분산 어떤 대상의 흩어진 정도나 상태를 의미한다. 편차들의 제곱한 값의 평균이다. 위의 사진에서 빨간 중간 과녁은 사람이 컴퓨터에게 정해놓은 정답(target)이며 파란 점들은 컴퓨터가 예측한 값(추정값)이다. 여기서 편향(bias)는 target과 추정 .. 2022. 2. 24.
통계 분석이란? 정의: 특정한 집단이나 불확실한 현상에 대한 자료를 수집하여 인사이트를 내는 과정 통계적 추론? - 수집된 자료를 이용해 모집단에 대한 의사결정을 하는 것 - 모수추정 - 가설검정 - 예측 2022. 2. 22.
주식의 시총을 느낌적으로 인식하는 단어는 없을까? 예를 들어 삼성전자가 시총이 500조 가량이 안되는데 그러면 삼전이 500조니까 엘지전자는 100조쯤 되려나? 라는 상상을 하게 되는데 엘지전자는 현시점 시총은 (2022 2월 9일) 20조이다 네이버의 시총이 현재 50조가량인데 그럼 카카오도 50조 정도하겠지라고 생각이 들 수 도있지만 현재 38조이다 분할같은 이유도 있지만 하여튼 생각보다 괴리감이 크기도 한데 이런 괴리감을 나타내는 단어가 있을지도 궁금하고 나같이 주식을 하는사람들은 대략적으로 다른 회사의 시총을 보고 어느정도 다른 회사의 시총을 생각할텐데 이런 단어가 있는지도 궁금하다 2022. 2. 9.
선형 회귀란(Linear Regression)? 선형회귀(Linear Regression)란? 변수 사이의 선형적인 관계를 모델링한 것 즉 주어진 데이터에 학습을 거쳐서 가장 합리적인 선을 찾아내는 것 근사값을 찾는 것만으로도 유의미한 인사이트를 도출 해 낼수도 있다. 2022. 2. 9.
평균,분산, 표준편차 함수 코드 import numpy as np import pandas as pd v=[1,2,3,4,6] def mymean(v): #평균 sum=0 for i in v: sum+=i return sum/len(v) def myvar(v):#분산 sum=0 for i in v: sum=sum+((i-mymean(v))**2) return sum/len(v) def mystd(v):#표준편차 return np.sqrt(myvar(v)) print(mymean(v),myvar(v),mystd(v)) 루트는 어떻게 할지몰라서 넘파이를 이용하였다 2022. 2. 7.
편차와 표준편차 정리 편차란 평균과의 차이를 의미한다,평균과 데이터들의 차를 구한 값들을 서로 합하면 0이 된다. 따라서 분산을 구하기 위해 편차 자체를 더하지 않고 구한 값들 각각을 제곱해서 더하는 과정을 거친다. 즉 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져있을수록 편차는 커지고 분산 또한 증가한다라는 의미이다. 표준편차 분산은 데이터의 퍼짐정도를 나타낸다. 그럼 분산이 있는데 왜 표준편차가 필요할까? 사실 분산에는 단점이 있다. 그것은 편차를 제곱하면서 값이 크게 증가하기 때문에 값 자체의 의미를 팔악하기가 어려운 경향이 있다. 예를 들어 편차가 5라면 우리는 5점 차이나는 구나라고 직관적으로 이해가 가능하지만 이 값을 제곱하면 25가 되는데 이 숫자가 무엇을 의미하는지 혼란스러울.. 2022. 1. 28.