분산과 편향?

728x90

데이터를 토대로 정답을 하나 맞추기 위해서 컴퓨터가 여러 번의 예측값을 내놓는데 이러한 동태를 묘사하는 표현이 편향과 분산이다.

머신러닝에서 편향과 분산은 모델의 loss나 error를 의미하기에 정리를 하고 넘어가려 한다.

편향

편향(bias)의 사전적의미로는 한쪽으로의 치우침이다. 인공지능을 다루는 분야에서 무슨 편향이 있냐
생각이 들 수 있지만 인공지능을 위해 제공하는 데이터의 주체가 인간이기에 어쩔 수 없이 인공지능에서도 편향이 나타나게 된다.

위의 사진에서 빨간 중간 과녁은 사람이 컴퓨터에게 정해놓은 정답(target)이며 파란 점들은 컴퓨터가 예측한 값(추정값)이다.

여기서 편향(bias)는 target과 추정 값들의 차이를 의미하고 분산(variance)는 추정값들의 흩어진 정도를 의미한다.

추정값들과 정답이 대체로 멀리 떨어져 있다면 결과의 편향이 높다고 말하고

추정값들과 정답들이 흩어져 있으며 결과의 분산이 높다고 말한다.

우리는 직관적으로 편향과 분산이 적은 첫번째 과녁이 좋은 모델인것을 알 수 있으며

이산형 확률분포의 종류(베르누이,이항분포,기하분포,포아송 ...) (0)	2022.04.26
통계 분석이란? (0)	2022.02.22
카이스퀘어 분포란? (0)	2022.01.26
T 분포란? (2)	2022.01.26