요약1 2장. 빅데이터 탐색 데이터 전처리란? 분석에 쓰이는 데이터의 첫 형태를 원시 데이터를 raw data라고 하는데 이를 분석하고자 하는 형태로 정제, 통합, 변환 등을 하는 과정을 데이터 전처리라고 한다. 데이터 전처리 과정을 거치지 않는다면 왜곡된 분석결과가 도출될 수 있다. 데이터 전처리의 유형 데이터 정제 raw data에는 결측치나 노이즈, 이상치와 같은 요소들이 포함되어 있어 이는 오류를 발생하게 할 수 있는데 이러한 원인들을 파악하여 제거하거나 대치 값을 넣어 정제를 하여야한다. 결측치 : 입력 값이 누락이 되어 값이 존재하지 않고 비어있는 값을 의미한다. 결측치 유형에는 완전 무작위 결측, 무작위 결측, 비무작위 결측이 있다. 결측치를 처리할때는 단순 대치법과 다중 대치법으로 분류 되어지며 단순대치법은 단순삭제.. 2022. 9. 1. 이전 1 다음