AI/머신러닝
데이터 랭글링(Data Wrangling)이란?
남오공
2022. 3. 14. 14:13
728x90
데이터 랭글링이란?
- 데이터 랭글링은 분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 원천 데이터(raw data)를
분석하기 좋은 데이터로 변환하는 작업을 의미한다.
데이터 랭글링은 총 5단계로 나눠지며 아래와 같다
- Gather(데이터 모으기)
- 스크래핑, API 등으로 데이터를 모으는 단계이다. - Assess(데이터 평가하기)
- 1단계에서 모은 데이터가 깨끗한지 아닌지 판단하는 단계이다. - Clean(데이터 정제하기)
- 2단계에서 평가한 데이터를 어떻게 정제할지, 코딩할지, 테스트하는 단계이다. - Reassess and lterate (데이터 재평가)
- 2단계로 돌아가 다시 데이터가 잘 정제되었는지 판단하며 필요한만큼 2~4과정을 반복한다 - Store(데이터 저장)