본문 바로가기
AI/머신러닝

데이터 랭글링(Data Wrangling)이란?

by 남오공 2022. 3. 14.
728x90

데이터 랭글링이란?

  • 데이터 랭글링은 분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 원천 데이터(raw data)를 
    분석하기 좋은 데이터로 변환하는 작업을 의미한다.

 

데이터 랭글링은 총 5단계로 나눠지며 아래와 같다

  1. Gather(데이터 모으기)
    - 스크래핑, API 등으로 데이터를 모으는 단계이다.
  2. Assess(데이터 평가하기) 
    - 1단계에서 모은 데이터가 깨끗한지 아닌지 판단하는 단계이다.
  3. Clean(데이터 정제하기)
    - 2단계에서 평가한 데이터를 어떻게 정제할지, 코딩할지, 테스트하는 단계이다.
  4. Reassess and lterate (데이터 재평가)
    - 2단계로 돌아가 다시 데이터가 잘 정제되었는지 판단하며 필요한만큼 2~4과정을 반복한다
  5. Store(데이터 저장)

댓글