본문 바로가기
AI/데이터 사이언스

Section 1. 3일차

by 남오공 2022. 1. 20.
728x90

Warm up


Tidy Data(깔끔한 데이터, 분석하기 좋은 데이터) 란? 

- Teletype 혹은 Teletypewritter Intergrated Display 의 약자인듯 싶다.

 

  1. 대부분의 존재하는 데이터들은 특정 분석을 염두해두고 만들어지는게
    아니기 때문에 통일화, 데이터 변환, 데이터 전처리가 힘들다. 
  2. 그러한 상황을 방지하기 위해 처음부터 데이터를 표준화 해서 만들자라는 스타일이
    The Elements of Data Analytic Style 이고  이를 통해 만드는 데이터가 Tidy Data 이다.


Tidy Data의 특성

  1. 각 변수는 개별의 열(column)으로 존재한다.
  2. 각 관측치는 행(row)를 구성한다.
  3. 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다.
  4. 만약 여러개의 표가 존재한다면, 적어도 하나이상의 열(column)이 공유되어야 한다.

 

Tidy Data의 예시 

 


 

 

Section 1.3 Data Manipulation(데이터 분할 혹은 조작)

 

데이터 분할의 이유: 체계적이고, 효율성있게 읽기 쉽게 조작하거나 변경을 위해서, 보안성을 위해서 등.. 
- 고객 상품 포인트와 같은 포인트가 한 예

 

Concat(Concatenate) 

  • 데이터를 물리적으로 붙이는 것
  • 데이터 전체가 다를 경우 자주사용
  • defualt는 axis=0이며 이는 데이터가 세로로 붙고,  axis=1는 데이터가 좌우로 붙음 
  • ignore_index=True를 붙이면 인덱스가 깔끔히 정리 됨

 

 

concat의 예시

 

 

Merge

  • 데이터프래임을 병합하는 점에서 concat()과 비슷하지만
  • 데이터를 공통점(혹은 고유값)을 중심으로 붙이는것
  • 고객 데이터의 ID /상품 ID / 포인트(고객의 ID)를 이용
  • Defualt 는 inner이고 outer left,right 으로 how=inner 이런 식으로 이용이 가능하다.

 

Merge의 예시

 

금일 과제나 내용 중 merge가 이해가 안되는 부분이 있었으므로 추가적으로 예시를 들어 이해를 해보자.

 

우선 왜 merge를 써야할까?

여러 데이터 테이블 정보를 만났을때 한 눈에 보기 위해서 이다.

이럴때 merge가 다양한 분석을 위하여 단일 프레임으로 훌륭하고 질서 있게 결합을 시켜준다.

 

merge의 기본적인 사용법

df.merge("붙일 내용", how = "(방법)", on ="(기준 feature)")

 

 

 

 

 

Conditioing 

  • 데이터를 조건을 주면서 뽑아내고 싶을때 사용

 

댓글