728x90
EDA
EDA(Exploratory data analysis)란?
- 수집한 데이터를 다양한 각도(그래프, 통계, 모형, 차트 등) 에서 관찰하고 이해하는 과정
- 데이터는 보통 엑셀 같은 테이블 형태인데 이를 보고 인사이트를 내는 것은 쉽지 않기 때문에
전체적인 견적을 내기 위해 사용하는 분석법이다. - EDA는 크게 2가지 방식으로 나뉘며 내용은 아래와 같다
Graphic : 차트 혹은 그래프를 이용하여 데이터를 이용하는 방식
Non-Graphic : Summary Statistics를 통해 확인하는 방식
EDA를 하는 이유?
- 다양한 모습으로 관찰하여 잠재적인 문제를 발견하기 위함
- 수집한 데이터를 좀 더 상세한 부분(새로운 패턴 등)을 보며 새로운 방면으로 인사이트를 도출하기 위함
Data Preproceessing
모델이 아무리 좋더라도 쓰래기 데이터가 들어가면 쓰래기 결과가 나온다.
좋은 모델을 만들기 위해서는 필수적으로 해야하는 과정
- 데이터를 클리닝(missing values 정리)
-결측치 제거(NaN 데이터를 0으로 바꾸거나(fillna(0) 같이.. ) 비슷한 표준값으로 삽입 등..) - 여러개로 쪼개진 데이터를 수집하는 인테그레이션
- 데이터를 다루기 쉽게 데이터를 트렌스포메이션
- 너무 큰 데이터를 사용하는 것보다 중요한 데이터를 사용하는게 중요하니 데이터를 리덕션
'AI > 데이터 사이언스' 카테고리의 다른 글
Section 1. Week2.3 9일차 (0) | 2022.01.28 |
---|---|
Section 1. Week2.2 8일차 (0) | 2022.01.27 |
귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis) 이란? (0) | 2022.01.26 |
Section 1. 3일차 (0) | 2022.01.20 |
Section 1. 2일차 (0) | 2022.01.19 |
댓글