본문 바로가기

전체 글100

분산과 편향? 데이터를 토대로 정답을 하나 맞추기 위해서 컴퓨터가 여러 번의 예측값을 내놓는데 이러한 동태를 묘사하는 표현이 편향과 분산이다. 머신러닝에서 편향과 분산은 모델의 loss나 error를 의미하기에 정리를 하고 넘어가려 한다. 편향 편향(bias)의 사전적의미로는 한쪽으로의 치우침이다. 인공지능을 다루는 분야에서 무슨 편향이 있냐 생각이 들 수 있지만 인공지능을 위해 제공하는 데이터의 주체가 인간이기에 어쩔 수 없이 인공지능에서도 편향이 나타나게 된다. 분산 어떤 대상의 흩어진 정도나 상태를 의미한다. 편차들의 제곱한 값의 평균이다. 위의 사진에서 빨간 중간 과녁은 사람이 컴퓨터에게 정해놓은 정답(target)이며 파란 점들은 컴퓨터가 예측한 값(추정값)이다. 여기서 편향(bias)는 target과 추정 .. 2022. 2. 24.
One-hot encoding과 Ridge Regression 더보기 날짜는 의미 없으므로 앞으로 제목에 날짜를 안적기로한다. 의미가 있는건 내가 오늘 뭘 배우고 뭘 이해했는지 기록을 위한거라 생각한다. 원-핫인코딩 (One - hot encoding) 인간과 컴퓨터는 데이터를 바라보는 형태가 다르기 때문에 이를 번역(?)하는 과정이 필요하다. 컴퓨터는 모든 데이터를 숫자를 바탕으로 이해하기에 컴퓨터가 문자를 이해할 수 있는 숫자로 바꾸며 이러한 결과를 임베딩이라고 한다. 원-핫 인코딩은 수많은 데이터를 0과 한개의 1의 값으로 데이터를 구별하는 인코딩이다. 표현하고자 하는 인덱스에 1, 다른 인덱스에는 0을 부여하는 벡터 표현방식이며 이렇게 표하는 것을 원-핫 백터라고 부른다고 한다. 범주형(Catagorical) 자료를 다루기 위하여 사용한다. 범주형 자료란 ?.. 2022. 2. 24.
평가지표 mae 절대값의 평균 -> 크기가 작다, 과장되지 않다, 에러의 양, 크고 작은 정도를 알 수 있다. ->y와 단위가 같다, 해석이 용이하다, 직관적이다. mse 값이 극단적으로 바뀐다, 오류값이 갖는 페널티가 크다. 직관적이지 않다. 이상치가 과장된다. 이상치에 민감하다 -> 에러가 조금 커도 굉장히 크게나온다. rmse mse에 루트한값 -> 크기를 줄일 수 있다. 크기가 과장이 안된다, 스케일이 mae와 같아진다, y와 단위가 같아진다 mae보다는 이상치에 민감하다,mse의 단점을 보완한다 rmse가 너무 높은 반면 95시간대에서 예측오차는 1프로 밖에 안되는 경우? 예측오차를 보면 좋은모델인데 rmse가 너무 높은 이유는 뭘까? -> 5프로에 해당하는 시간대에 큰 오차가 발생했기 때문이다. r2 .. 2022. 2. 23.
단순선형회귀모델, 회귀계수 ,사이킷런 기준모델(Baseline Model) 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적이면서 최소한의 성능을 나타내는 기준이 되는 모델 단순 선형회귀분석이란?(Simple Linear Regression) 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명하는 것 즉 한가지의 설명변수만으로 반응변수에 대한 영향을 파악하기 위해 사용한다. 예로들면 한국인의 평균 임금 y를 예측하기위해 교육수준 x를 설명 변수로 활용한다고 가정해보자, x가 수준이 높을수록 y가 클것이라고 생각이 된다. 하지만 실제 생활에서는 성격,경력,나이 등이 영향을 줄 수도 있어 변수는 굉장히 많을 수 있다. 이러한 요소들이 설명변수인데 단순하게 교육수준 하나의 설명변수로 제대로 임금을 예측하.. 2022. 2. 22.
부트캠프에 관한 불만 새로운 섹션 시작이 되어 열심히 다시 해야지 맘먹고 시작했는데 시작부터 화가 났다. warm-up 영상이 이번 섹션에도 한글 자막도 안달린 유튜브에서 찾은 영어 영상을 띡 던져 놓은 것 그럴수도 있다? 아니 그러면 안된다 자동번역이 아직 완벽한것도 아닌데 영어를 못하는 사람들은 어쩌라고? 아니 심지어 걍 일상영어면 모르겠지만, 전문성을 나름 요구로 하는 공부이고 최소 제대 로된 자막도 안달린 영상은 어쩌란 말인가? 이게 진정 나라에서 2천만원을 지원받고 하는 교육인가 ? 그렇다고 물질적인 것을 지원해주는건 단 한 가지도 없다(교재,개발도구,문구,코랩결제 등..) 허경영 말처럼 나라에 도둑이 이렇게 많은가.. 괜히 시작하자말자 1~2주만에 몇명이 나가는게 아니였다고 느껴진다. 하지만 이 부트캠프가 희망이.. 2022. 2. 22.
통계 분석이란? 정의: 특정한 집단이나 불확실한 현상에 대한 자료를 수집하여 인사이트를 내는 과정 통계적 추론? - 수집된 자료를 이용해 모집단에 대한 의사결정을 하는 것 - 모수추정 - 가설검정 - 예측 2022. 2. 22.
주식의 시총을 느낌적으로 인식하는 단어는 없을까? 예를 들어 삼성전자가 시총이 500조 가량이 안되는데 그러면 삼전이 500조니까 엘지전자는 100조쯤 되려나? 라는 상상을 하게 되는데 엘지전자는 현시점 시총은 (2022 2월 9일) 20조이다 네이버의 시총이 현재 50조가량인데 그럼 카카오도 50조 정도하겠지라고 생각이 들 수 도있지만 현재 38조이다 분할같은 이유도 있지만 하여튼 생각보다 괴리감이 크기도 한데 이런 괴리감을 나타내는 단어가 있을지도 궁금하고 나같이 주식을 하는사람들은 대략적으로 다른 회사의 시총을 보고 어느정도 다른 회사의 시총을 생각할텐데 이런 단어가 있는지도 궁금하다 2022. 2. 9.
선형 회귀란(Linear Regression)? 선형회귀(Linear Regression)란? 변수 사이의 선형적인 관계를 모델링한 것 즉 주어진 데이터에 학습을 거쳐서 가장 합리적인 선을 찾아내는 것 근사값을 찾는 것만으로도 유의미한 인사이트를 도출 해 낼수도 있다. 2022. 2. 9.
머신러닝의 개요와 클러스트링 머신러닝의 개요 지도 학습 답이 있는것(target, label 이라고 하는 것이 있는경우) 분류 모델: 카테고리컬 데이터를 예측 회귀 모델:뉴메릭 데이터(연속적인 데이터)를 결과를 예측 비지도 학습 답이 없는것(target, label)이라고 하는 것이 없는 경우 차원축소 : 높은 차원의 데이터를 선택 추출하여 차원을 줄이는 것 ex PCA 군집화(Clustering) 연관 규칙 학습(Association Rule Learning) 데이터셋의 feature들의 관계를 발견하는 방법 ex) 장바구니 분석 강화 학습 : 좋은 행동에는 보상, 그렇지 않은 행동에는 처벌이라는 피드백을 머신러닝에 부여 ex) 가중치로 학습 군집화 (Clustering) 이란? 대표적인 비지도학습 알고리즘이다. 데이터 셋을 요약.. 2022. 2. 9.