본문 바로가기
AI/데이터 사이언스

EDA(Exploratory data analysis)란?

by 남오공 2022. 1. 19.
728x90

EDA

EDA(Exploratory data analysis)란? 

  • 수집한 데이터를 다양한 각도(그래프, 통계, 모형, 차트 등) 에서 관찰하고 이해하는 과정
  • 데이터는 보통 엑셀 같은 테이블 형태인데 이를 보고 인사이트를 내는 것은 쉽지 않기 때문에 
    전체적인 견적을 내기 위해 사용하는 분석법이다.
  • EDA는 크게 2가지 방식으로 나뉘며 내용은 아래와 같다 
    Graphic : 차트 혹은 그래프를 이용하여 데이터를 이용하는 방식
    Non-Graphic : Summary Statistics를 통해 확인하는 방식

EDA를 하는 이유?

  • 다양한 모습으로 관찰하여 잠재적인 문제를 발견하기 위함
  • 수집한 데이터를 좀 더 상세한 부분(새로운 패턴 등)을 보며 새로운 방면으로 인사이트를 도출하기 위함

Data Preproceessing

모델이 아무리 좋더라도 쓰래기 데이터가 들어가면 쓰래기 결과가 나온다.

 

 

좋은 모델을 만들기 위해서는 필수적으로 해야하는 과정

  •  데이터를 클리닝(missing values 정리) 
    -결측치 제거(NaN 데이터를 0으로 바꾸거나(fillna(0) 같이.. ) 비슷한 표준값으로 삽입 등..)
  • 여러개로 쪼개진 데이터를 수집하는 인테그레이션
  • 데이터를 다루기 쉽게 데이터를 트렌스포메이션
  •  너무 큰 데이터를 사용하는 것보다 중요한 데이터를 사용하는게 중요하니 데이터를 리덕션

 

 

 

'AI > 데이터 사이언스' 카테고리의 다른 글

Section 1. Week2.3 9일차  (0) 2022.01.28
Section 1. Week2.2 8일차  (0) 2022.01.27
귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis) 이란?  (0) 2022.01.26
Section 1. 3일차  (0) 2022.01.20
Section 1. 2일차  (0) 2022.01.19

댓글