본문 바로가기
AI/빅데이터 분석기사 필기

2장. 빅데이터 탐색

by 남오공 2022. 9. 1.
728x90

데이터 전처리란?

  • 분석에 쓰이는 데이터의 첫 형태를  원시 데이터를 raw data라고 하는데 이를 분석하고자 하는 형태로 정제, 통합, 변환 등을 하는 과정을 데이터 전처리라고 한다.
  • 데이터 전처리 과정을 거치지 않는다면 왜곡된 분석결과가 도출될 수 있다. 

데이터 전처리의 유형

  • 데이터 정제 
    • raw data에는 결측치노이즈, 이상치와 같은 요소들이 포함되어 있어 이는 오류를 발생하게 할 수 있는데 이러한 원인들을 파악하여 제거하거나 대치 값을 넣어 정제를 하여야한다.
    • 결측치 : 입력 값이 누락이 되어 값이 존재하지 않고 비어있는 값을 의미한다.
      1. 결측치 유형에는 완전 무작위 결측, 무작위 결측, 비무작위 결측이 있다.
      2. 결측치를 처리할때는 단순 대치법과 다중 대치법으로 분류 되어지며 단순대치법은 단순삭제, 평균대치법, 단순확률 대치법의 방법이 있으며 다중 대치법은 단순 대치법을 한번이 아닌 여러번 수행하여 가상적 완전 데이터를 만드는 방법이다.
      3. 이 외에도 결측치를 처리하는 방법은 많지만 어떠한 방법을 쓰더라도 오차는 발생할 수 밖에 없기에 아직까지도 많은 연구가 이루어 지고 있다.
    • 이상치 : 의도하지 않게 잘못 입력한 경우나 분석 목적에 부합하지 않아 제거하는 등의 데이터 등을 의미한다. 
      1. 이상치의 판별은 보통 사분위수(Quantiles)정규분포, 군집화를 통해 판별하게 되는데 이중 사분위수의 경우 1~4분위수의 범위로 나누어 사분위의 범위를 벗어난 데이터를 이상치로 간주한다. 
  • 데이터 통합
    • 서로 다른 원천의 여러 데이터를 결합하거나 호환이 가능하도록 통합하는 작업이다. 대표적인 예로 데이터 웨어하우스가 있으며 통합시 동일한 데이터가 중복 되지 않도록 통합해야한다. 
  • 데이터 축소
    • 효율적인 분석을 위해 원데이터의 특성을 손상되지 않도록 유지하며 중복되거나 불필요하게 나열된 데이터를 축소화 하는 작업이다.
  • 데이터 변환 

변수(Variable)란?

  • 변수(=특성,Feature)란 데이터를 담는 저장소이며 데이터베이스에선 속성이라고 부르기도하며 테이블의 열에 해당한다.
  • 변수는 독립변수종속변수가 있으며 이름 그대로 독립변수는 다른 변수들에게 영향을 받지 않으며 종속변수에 영향을 주는 변수이며 종속변수는 독립변수에 의해 영향을 받는 변수이다.
  • 변수의 유형들은 범주형 데이터와 수치형 데이터가 있으며 
    • 범주형 데이터 : 변수가 담고있는 데이터가 범주로 나누어진 데이터 이며 명목형(ex: 성별, 혈액형..) 순서형(ex: 1등급 2등급 3등급 , 상/중/하..)
    • 수치형 데이터 : 수치형 자료로 표현되는 경우를 수치형 변수이며 이는 연속형(키, 몸무게) 이산형(직원수, 학생수, 아파트 층수)

변수 선택

  • 분석 모양에 적절한 변수를 선택하는 과정을 변수 선택, 피처 선택이라고 말하는데 이러한 방법에는 필터 방법, 래퍼방법, 임베디드 방법이있다.
    • 필터 방법 : 모델링 기법에 의존하지 않고 데이터에 대한 통계적 특징(상호 정보량, 상관계수 등)을 이용해 변수를 선택한다. 
    • 래퍼 방법 : 변수의 일부만을 사용해 모델링을 수행하여 가장 좋은 성능을 보이는 변수 집합을 찾아내서 선택한다.
    • 임베디드 방법 : 모델링 기법 자체에 변수 선택(라쏘 회귀, 릿지회귀 등)이 포함되어 있으며 가장 좋은 성능을 보이는 변수 집합을 찾아내는 방법

차원 축소

  • 차원 축소란 굉장히 많은 수십 수백개의 특성의 개수를 줄임으로 차원을 축소하여 새로운 차원의 데이터를 생성하는 것을 의미한다.
  • 차원축소를 하게 되면 데이터의 양이 줄어 시간 복잡도와 공간복잡도가 줄어들며 학습 모델이 간단해져 안정적인 결과를 내놓는다.
  • 차원 축소는 피처 선택(데이터의 특징을 나타내는 피처를 선택)피처 추출(기존 변수들간 관계를 잘 표현할 수 있도록)의 두 가지 유형으로 구분될 수 있다.
  • 차원의 축소 방법에는 다차원 척도법(MDS)과 주성분 분석법(PCA), 선형판별분석,요인분석 등이 있다

파생 변수, 요약 변수

  • 파생 변수란 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다.
  • 요약 변수란 수집된 정보를 분석에 맞게 종합한 변수이다. 

변수 변환

  • 데이터 분석의 성능을 향상시키거나 해석의 편리성을 위해 이산형 변수를 범주형 변수로 변환하기도 하는데 이를 변수 구간화라고 한다.

 

댓글