728x90
Warm up
Tidy Data(깔끔한 데이터, 분석하기 좋은 데이터) 란?
- Teletype 혹은 Teletypewritter Intergrated Display 의 약자인듯 싶다.
- 대부분의 존재하는 데이터들은 특정 분석을 염두해두고 만들어지는게
아니기 때문에 통일화, 데이터 변환, 데이터 전처리가 힘들다. - 그러한 상황을 방지하기 위해 처음부터 데이터를 표준화 해서 만들자라는 스타일이
The Elements of Data Analytic Style 이고 이를 통해 만드는 데이터가 Tidy Data 이다.
Tidy Data의 특성
- 각 변수는 개별의 열(column)으로 존재한다.
- 각 관측치는 행(row)를 구성한다.
- 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다.
- 만약 여러개의 표가 존재한다면, 적어도 하나이상의 열(column)이 공유되어야 한다.
Section 1.3 Data Manipulation(데이터 분할 혹은 조작)
데이터 분할의 이유: 체계적이고, 효율성있게 읽기 쉽게 조작하거나 변경을 위해서, 보안성을 위해서 등..
- 고객 상품 포인트와 같은 포인트가 한 예
Concat(Concatenate)
- 데이터를 물리적으로 붙이는 것
- 데이터 전체가 다를 경우 자주사용
- defualt는 axis=0이며 이는 데이터가 세로로 붙고, axis=1는 데이터가 좌우로 붙음
- ignore_index=True를 붙이면 인덱스가 깔끔히 정리 됨
Merge
- 데이터프래임을 병합하는 점에서 concat()과 비슷하지만
- 데이터를 공통점(혹은 고유값)을 중심으로 붙이는것
- 고객 데이터의 ID /상품 ID / 포인트(고객의 ID)를 이용
- Defualt 는 inner이고 outer left,right 으로 how=inner 이런 식으로 이용이 가능하다.
금일 과제나 내용 중 merge가 이해가 안되는 부분이 있었으므로 추가적으로 예시를 들어 이해를 해보자.
우선 왜 merge를 써야할까?
여러 데이터 테이블 정보를 만났을때 한 눈에 보기 위해서 이다.
이럴때 merge가 다양한 분석을 위하여 단일 프레임으로 훌륭하고 질서 있게 결합을 시켜준다.
merge의 기본적인 사용법
df.merge("붙일 내용", how = "(방법)", on ="(기준 feature)")
Conditioing
- 데이터를 조건을 주면서 뽑아내고 싶을때 사용
'AI > 데이터 사이언스' 카테고리의 다른 글
Section 1. Week2.3 9일차 (0) | 2022.01.28 |
---|---|
Section 1. Week2.2 8일차 (0) | 2022.01.27 |
귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis) 이란? (0) | 2022.01.26 |
Section 1. 2일차 (0) | 2022.01.19 |
EDA(Exploratory data analysis)란? (0) | 2022.01.19 |
댓글