AI/데이터 사이언스

Section 1. 2일차

남오공 2022. 1. 19. 16:04
728x90

Warm up


Understanding Python Data type

 Numerical Data (수치 데이터 혹은 양적 데이터)

데이터가 모두 숫자인 데이터이다. 이는 Continuou(연속적인) Discrete(이산적인) Data로 특징지을 수 있으며

연속적인 데이터는 범위 내의 모든 값을 가정할 수 있는 반면 이산 데이터는 고유한 값을 갖는다.

 

연속적인 데이터와 이산적인 데이터

 

 

 

 

 

- ' im  fine' 출력하는 방법 - 'i'/m fine' 

 

 

 


 

 

Outiler detection (이상치 탐지): 

- 이상치란? 말 그대로 문제(이상)이 있는 데이터를 의미한다.  머신러닝, 딥러닝에서는 이러한 

이상치 데이터가 모델의 성능을 크게 좌우하기 때문에 이상치를 탐지하여 제거하거나 변경해주어야 한다.

 

Handling missing values

- Missing Data는 표현 그대로 측정하고, 저장된 데이터 일부가 누락된 것을 의미한다.

대부분 현실에서의 데이터는 missing data 가 있기 때문에 관리 능력을 요구한다.

아래는 Missing Data 종류이다.

 

- MCAR(Missing Completely at Random) :

완전히 랜덤하게 누락된 케이스이며

변수 종류와 상관없이 전체적으로 비슷하게 누락된 데이터인 경우

 

- MAR(Missing at Random)

어떤 특정 변수에 관련하여 자료가 누락된 케이스

결측값이 자료내 다른 변수와 관련되어 있는 경우 

 

- MNAR(Missing not at Random)

어떤 특정 변수에 관련하여 자료가 누락되며

결측값이 해당 변수와 연관이 있는 경우 

 

https://subinium.github.io/missing-data-handling/ 를 참고하였다.

 

One-Hot Rncoding 

 

 

https://wikidocs.net/22647를 참고하였다.

 

 

 


Sec1. Session  2일차 

Feature Engineering 

 

  • 도메인 지식을 활용해서 feature를 재조합하는 것
  • 주어진 데이터셋의  Feature들을 조합 하는 행위들을 의미한다.
  • 더 좋은 아웃풋과, 새롭고 의미있는 패턴을 제공하기 위한 것이 궁극적인 목적이다.

Feautre 란? 샘플을 설명하기 위한 특징

  • atrribute
  • dataframe
    - 각 관측값을 나타내는 행과, feature를 나태는 열로 이루어진 테이블 형태의 데이터 구조

머신러닝에서는 하나의 target을 설정하게 되는데 이 또한 feature라고 볼 수 있음 

 

 

 

일반적으로 하나의 행에는 하나의 데이터 혹은 관측치를

하나의 열에는 하나의 feature를 기반으로 저장한다.

-> 이를 TIDY 형태라고 부른다함  

 

 

- 데이터 엔지니어는 데부분 데이터를 정제하는데 시간을 사용함 

 

 

 

-applymap은 데이터 프레임전체를바등ㅁ