Warm up
Understanding Python Data type
Numerical Data (수치 데이터 혹은 양적 데이터)
데이터가 모두 숫자인 데이터이다. 이는 Continuou(연속적인) Discrete(이산적인) Data로 특징지을 수 있으며
연속적인 데이터는 범위 내의 모든 값을 가정할 수 있는 반면 이산 데이터는 고유한 값을 갖는다.
- ' im fine' 출력하는 방법 - 'i'/m fine'
Outiler detection (이상치 탐지):
- 이상치란? 말 그대로 문제(이상)이 있는 데이터를 의미한다. 머신러닝, 딥러닝에서는 이러한
이상치 데이터가 모델의 성능을 크게 좌우하기 때문에 이상치를 탐지하여 제거하거나 변경해주어야 한다.
Handling missing values
- Missing Data는 표현 그대로 측정하고, 저장된 데이터 일부가 누락된 것을 의미한다.
대부분 현실에서의 데이터는 missing data 가 있기 때문에 관리 능력을 요구한다.
아래는 Missing Data 종류이다.
- MCAR(Missing Completely at Random) :
완전히 랜덤하게 누락된 케이스이며
변수 종류와 상관없이 전체적으로 비슷하게 누락된 데이터인 경우
- MAR(Missing at Random)
어떤 특정 변수에 관련하여 자료가 누락된 케이스
결측값이 자료내 다른 변수와 관련되어 있는 경우
- MNAR(Missing not at Random)
어떤 특정 변수에 관련하여 자료가 누락되며
결측값이 해당 변수와 연관이 있는 경우
https://subinium.github.io/missing-data-handling/ 를 참고하였다.
One-Hot Rncoding
https://wikidocs.net/22647를 참고하였다.
Sec1. Session 2일차
Feature Engineering
- 도메인 지식을 활용해서 feature를 재조합하는 것
- 주어진 데이터셋의 Feature들을 조합 하는 행위들을 의미한다.
- 더 좋은 아웃풋과, 새롭고 의미있는 패턴을 제공하기 위한 것이 궁극적인 목적이다.
Feautre 란? 샘플을 설명하기 위한 특징
- atrribute
- dataframe
- 각 관측값을 나타내는 행과, feature를 나태는 열로 이루어진 테이블 형태의 데이터 구조
머신러닝에서는 하나의 target을 설정하게 되는데 이 또한 feature라고 볼 수 있음
일반적으로 하나의 행에는 하나의 데이터 혹은 관측치를
하나의 열에는 하나의 feature를 기반으로 저장한다.
-> 이를 TIDY 형태라고 부른다함
- 데이터 엔지니어는 데부분 데이터를 정제하는데 시간을 사용함
-applymap은 데이터 프레임전체를바등ㅁ
'AI > 데이터 사이언스' 카테고리의 다른 글
Section 1. Week2.3 9일차 (0) | 2022.01.28 |
---|---|
Section 1. Week2.2 8일차 (0) | 2022.01.27 |
귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis) 이란? (0) | 2022.01.26 |
Section 1. 3일차 (0) | 2022.01.20 |
EDA(Exploratory data analysis)란? (0) | 2022.01.19 |
댓글