본문 바로가기
AI/데이터 사이언스

Section.1 Week3.2 15일차 데이터 스케일링이란?

by 남오공 2022. 2. 8.
728x90

수많은 데이터가 매일 쌓이며 늘어가는데 그런 데이터를 시각화 하기 위해

데이터 축소(스케일링)가 필요하다고 한다. 

 

피쳐의 수가 많으면 그걸 시각화 하기도 힘들다 

데이터가 많은 의미를 담는게 좋은 것. 일까?

 

insight를 찾기 위해선 모든 피쳐가 중요하지는 않다 

데이터의 일부를 제한하더라도 의미 파악에 큰 차이가 없어지는 시점 부터는 더 이상 피쳐를 사용하는게 비효율적일 것이다.

혹은 overfitting이 생길 수도 있다. 

그러한 의미가 없어 보이는  Feature를 제거하는 법이

Feature Selection 이라고 한다.

 

Feature Extraction은 피쳐들을 제거하는 것보다는 피쳐를 조합해서 인사이트를 도출하고자 하는 것이다.

 

둘만의 장점이 있지만 크게 중요치 않으므로 바로 다음인 PCA에 관해 알아보자,

 

Princiial Component Analysis

  • 고차원적인 데이터를 효과적으로 분석을 하는 기업이다.
  • 차원을 축소하고 이를 시각화를 통해 분석한다.

 

 

 

다시보니 내용이 허하므로 보충이 필요하다. 다시 채우자 

'AI > 데이터 사이언스' 카테고리의 다른 글

머신러닝의 개요와 클러스트링  (0) 2022.02.09
Section 1. Week3.2 14일차  (0) 2022.02.07
Section 1. Week3.1 13일차  (0) 2022.02.04
Section.1 2회차 12일 회고와 Wrap up  (0) 2022.02.03
Section 1. Week2.3 9일차  (0) 2022.01.28

댓글