본문 바로가기
AI/데이터 사이언스

Section 1. 2일차

by 남오공 2022. 1. 19.
728x90

Warm up


Understanding Python Data type

 Numerical Data (수치 데이터 혹은 양적 데이터)

데이터가 모두 숫자인 데이터이다. 이는 Continuou(연속적인) Discrete(이산적인) Data로 특징지을 수 있으며

연속적인 데이터는 범위 내의 모든 값을 가정할 수 있는 반면 이산 데이터는 고유한 값을 갖는다.

 

연속적인 데이터와 이산적인 데이터

 

 

 

 

 

- ' im  fine' 출력하는 방법 - 'i'/m fine' 

 

 

 


 

 

Outiler detection (이상치 탐지): 

- 이상치란? 말 그대로 문제(이상)이 있는 데이터를 의미한다.  머신러닝, 딥러닝에서는 이러한 

이상치 데이터가 모델의 성능을 크게 좌우하기 때문에 이상치를 탐지하여 제거하거나 변경해주어야 한다.

 

Handling missing values

- Missing Data는 표현 그대로 측정하고, 저장된 데이터 일부가 누락된 것을 의미한다.

대부분 현실에서의 데이터는 missing data 가 있기 때문에 관리 능력을 요구한다.

아래는 Missing Data 종류이다.

 

- MCAR(Missing Completely at Random) :

완전히 랜덤하게 누락된 케이스이며

변수 종류와 상관없이 전체적으로 비슷하게 누락된 데이터인 경우

 

- MAR(Missing at Random)

어떤 특정 변수에 관련하여 자료가 누락된 케이스

결측값이 자료내 다른 변수와 관련되어 있는 경우 

 

- MNAR(Missing not at Random)

어떤 특정 변수에 관련하여 자료가 누락되며

결측값이 해당 변수와 연관이 있는 경우 

 

https://subinium.github.io/missing-data-handling/ 를 참고하였다.

 

One-Hot Rncoding 

 

 

https://wikidocs.net/22647를 참고하였다.

 

 

 


Sec1. Session  2일차 

Feature Engineering 

 

  • 도메인 지식을 활용해서 feature를 재조합하는 것
  • 주어진 데이터셋의  Feature들을 조합 하는 행위들을 의미한다.
  • 더 좋은 아웃풋과, 새롭고 의미있는 패턴을 제공하기 위한 것이 궁극적인 목적이다.

Feautre 란? 샘플을 설명하기 위한 특징

  • atrribute
  • dataframe
    - 각 관측값을 나타내는 행과, feature를 나태는 열로 이루어진 테이블 형태의 데이터 구조

머신러닝에서는 하나의 target을 설정하게 되는데 이 또한 feature라고 볼 수 있음 

 

 

 

일반적으로 하나의 행에는 하나의 데이터 혹은 관측치를

하나의 열에는 하나의 feature를 기반으로 저장한다.

-> 이를 TIDY 형태라고 부른다함  

 

 

- 데이터 엔지니어는 데부분 데이터를 정제하는데 시간을 사용함 

 

 

 

-applymap은 데이터 프레임전체를바등ㅁ 

댓글