728x90
데이터 랭글링이란?
- 데이터 랭글링은 분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 원천 데이터(raw data)를
분석하기 좋은 데이터로 변환하는 작업을 의미한다.
데이터 랭글링은 총 5단계로 나눠지며 아래와 같다
- Gather(데이터 모으기)
- 스크래핑, API 등으로 데이터를 모으는 단계이다. - Assess(데이터 평가하기)
- 1단계에서 모은 데이터가 깨끗한지 아닌지 판단하는 단계이다. - Clean(데이터 정제하기)
- 2단계에서 평가한 데이터를 어떻게 정제할지, 코딩할지, 테스트하는 단계이다. - Reassess and lterate (데이터 재평가)
- 2단계로 돌아가 다시 데이터가 잘 정제되었는지 판단하며 필요한만큼 2~4과정을 반복한다 - Store(데이터 저장)
'AI > 머신러닝' 카테고리의 다른 글
부분의존도그림(Partial dependence plot, PDP)란? (0) | 2022.03.15 |
---|---|
특성 중요도(feature importance)란? (0) | 2022.03.14 |
K-겹 교차검증(k-fold cross-validation) 이란? (0) | 2022.03.07 |
교차검증(Cross-validation)이란? (0) | 2022.03.07 |
Confusion Matrix란? (0) | 2022.03.04 |
댓글