본문 바로가기

분산4

분산과 편향? 데이터를 토대로 정답을 하나 맞추기 위해서 컴퓨터가 여러 번의 예측값을 내놓는데 이러한 동태를 묘사하는 표현이 편향과 분산이다. 머신러닝에서 편향과 분산은 모델의 loss나 error를 의미하기에 정리를 하고 넘어가려 한다. 편향 편향(bias)의 사전적의미로는 한쪽으로의 치우침이다. 인공지능을 다루는 분야에서 무슨 편향이 있냐 생각이 들 수 있지만 인공지능을 위해 제공하는 데이터의 주체가 인간이기에 어쩔 수 없이 인공지능에서도 편향이 나타나게 된다. 분산 어떤 대상의 흩어진 정도나 상태를 의미한다. 편차들의 제곱한 값의 평균이다. 위의 사진에서 빨간 중간 과녁은 사람이 컴퓨터에게 정해놓은 정답(target)이며 파란 점들은 컴퓨터가 예측한 값(추정값)이다. 여기서 편향(bias)는 target과 추정 .. 2022. 2. 24.
평균,분산, 표준편차 함수 코드 import numpy as np import pandas as pd v=[1,2,3,4,6] def mymean(v): #평균 sum=0 for i in v: sum+=i return sum/len(v) def myvar(v):#분산 sum=0 for i in v: sum=sum+((i-mymean(v))**2) return sum/len(v) def mystd(v):#표준편차 return np.sqrt(myvar(v)) print(mymean(v),myvar(v),mystd(v)) 루트는 어떻게 할지몰라서 넘파이를 이용하였다 2022. 2. 7.
편차와 표준편차 정리 편차란 평균과의 차이를 의미한다,평균과 데이터들의 차를 구한 값들을 서로 합하면 0이 된다. 따라서 분산을 구하기 위해 편차 자체를 더하지 않고 구한 값들 각각을 제곱해서 더하는 과정을 거친다. 즉 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져있을수록 편차는 커지고 분산 또한 증가한다라는 의미이다. 표준편차 분산은 데이터의 퍼짐정도를 나타낸다. 그럼 분산이 있는데 왜 표준편차가 필요할까? 사실 분산에는 단점이 있다. 그것은 편차를 제곱하면서 값이 크게 증가하기 때문에 값 자체의 의미를 팔악하기가 어려운 경향이 있다. 예를 들어 편차가 5라면 우리는 5점 차이나는 구나라고 직관적으로 이해가 가능하지만 이 값을 제곱하면 25가 되는데 이 숫자가 무엇을 의미하는지 혼란스러울.. 2022. 1. 28.
분산이란? 편차란? 표준편차란? 편차란? 하나의 변량이 편균으로부터 얼마나 떨어져 있는가를 나타내주는 값이다. 하지만 모든 변량과 평균이 얼마나 떨어져 있는지를 나타내기를 힘들기 때문에 편차의 평균을 구할 필요가 있다. 편차끼리의 합은 무조건 0이 나오므로 의미있는 결과물을 내기 위하여 편차에 제곱을 하여 평균을 구하여 분산을 구한다. 편차 = 변량 -평균 변량이란? 점수,시간 같은 여러 자료를 수량으로 나타낸 것을 말한다 예시로 민수라는 아이의 시험 점수가 국어 영어 수학 사회 80 90 100 70 라고 가정한다면 국영수사회 과목들이 각각 변량이다. 그렇다면 이 민수의 시험점수의 편차를 계산해보면 위 점수의 평균이 85점이기에 각 국어 80-85 = -5 영어 90-85 = 5 수학 100-85 = 15 사회 70-85 = -15 .. 2022. 1. 27.