728x90
데이터 전처리란?
- 분석에 쓰이는 데이터의 첫 형태를 원시 데이터를 raw data라고 하는데 이를 분석하고자 하는 형태로 정제, 통합, 변환 등을 하는 과정을 데이터 전처리라고 한다.
- 데이터 전처리 과정을 거치지 않는다면 왜곡된 분석결과가 도출될 수 있다.
데이터 전처리의 유형
- 데이터 정제
- raw data에는 결측치나 노이즈, 이상치와 같은 요소들이 포함되어 있어 이는 오류를 발생하게 할 수 있는데 이러한 원인들을 파악하여 제거하거나 대치 값을 넣어 정제를 하여야한다.
- 결측치 : 입력 값이 누락이 되어 값이 존재하지 않고 비어있는 값을 의미한다.
- 결측치 유형에는 완전 무작위 결측, 무작위 결측, 비무작위 결측이 있다.
- 결측치를 처리할때는 단순 대치법과 다중 대치법으로 분류 되어지며 단순대치법은 단순삭제, 평균대치법, 단순확률 대치법의 방법이 있으며 다중 대치법은 단순 대치법을 한번이 아닌 여러번 수행하여 가상적 완전 데이터를 만드는 방법이다.
- 이 외에도 결측치를 처리하는 방법은 많지만 어떠한 방법을 쓰더라도 오차는 발생할 수 밖에 없기에 아직까지도 많은 연구가 이루어 지고 있다.
- 이상치 : 의도하지 않게 잘못 입력한 경우나 분석 목적에 부합하지 않아 제거하는 등의 데이터 등을 의미한다.
- 이상치의 판별은 보통 사분위수(Quantiles)나 정규분포, 군집화를 통해 판별하게 되는데 이중 사분위수의 경우 1~4분위수의 범위로 나누어 사분위의 범위를 벗어난 데이터를 이상치로 간주한다.
- 데이터 통합
- 서로 다른 원천의 여러 데이터를 결합하거나 호환이 가능하도록 통합하는 작업이다. 대표적인 예로 데이터 웨어하우스가 있으며 통합시 동일한 데이터가 중복 되지 않도록 통합해야한다.
- 데이터 축소
- 효율적인 분석을 위해 원데이터의 특성을 손상되지 않도록 유지하며 중복되거나 불필요하게 나열된 데이터를 축소화 하는 작업이다.
- 데이터 변환
변수(Variable)란?
- 변수(=특성,Feature)란 데이터를 담는 저장소이며 데이터베이스에선 속성이라고 부르기도하며 테이블의 열에 해당한다.
- 변수는 독립변수와 종속변수가 있으며 이름 그대로 독립변수는 다른 변수들에게 영향을 받지 않으며 종속변수에 영향을 주는 변수이며 종속변수는 독립변수에 의해 영향을 받는 변수이다.
- 변수의 유형들은 범주형 데이터와 수치형 데이터가 있으며
- 범주형 데이터 : 변수가 담고있는 데이터가 범주로 나누어진 데이터 이며 명목형(ex: 성별, 혈액형..) 순서형(ex: 1등급 2등급 3등급 , 상/중/하..)
- 수치형 데이터 : 수치형 자료로 표현되는 경우를 수치형 변수이며 이는 연속형(키, 몸무게) 이산형(직원수, 학생수, 아파트 층수)
변수 선택
- 분석 모양에 적절한 변수를 선택하는 과정을 변수 선택, 피처 선택이라고 말하는데 이러한 방법에는 필터 방법, 래퍼방법, 임베디드 방법이있다.
- 필터 방법 : 모델링 기법에 의존하지 않고 데이터에 대한 통계적 특징(상호 정보량, 상관계수 등)을 이용해 변수를 선택한다.
- 래퍼 방법 : 변수의 일부만을 사용해 모델링을 수행하여 가장 좋은 성능을 보이는 변수 집합을 찾아내서 선택한다.
- 임베디드 방법 : 모델링 기법 자체에 변수 선택(라쏘 회귀, 릿지회귀 등)이 포함되어 있으며 가장 좋은 성능을 보이는 변수 집합을 찾아내는 방법
차원 축소
- 차원 축소란 굉장히 많은 수십 수백개의 특성의 개수를 줄임으로 차원을 축소하여 새로운 차원의 데이터를 생성하는 것을 의미한다.
- 차원축소를 하게 되면 데이터의 양이 줄어 시간 복잡도와 공간복잡도가 줄어들며 학습 모델이 간단해져 안정적인 결과를 내놓는다.
- 차원 축소는 피처 선택(데이터의 특징을 나타내는 피처를 선택)과 피처 추출(기존 변수들간 관계를 잘 표현할 수 있도록)의 두 가지 유형으로 구분될 수 있다.
- 차원의 축소 방법에는 다차원 척도법(MDS)과 주성분 분석법(PCA), 선형판별분석,요인분석 등이 있다
파생 변수, 요약 변수
- 파생 변수란 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다.
- 요약 변수란 수집된 정보를 분석에 맞게 종합한 변수이다.
변수 변환
- 데이터 분석의 성능을 향상시키거나 해석의 편리성을 위해 이산형 변수를 범주형 변수로 변환하기도 하는데 이를 변수 구간화라고 한다.
댓글