AI/데이터 사이언스11 Section 1. 3일차 Warm up Tidy Data(깔끔한 데이터, 분석하기 좋은 데이터) 란? - Teletype 혹은 Teletypewritter Intergrated Display 의 약자인듯 싶다. 대부분의 존재하는 데이터들은 특정 분석을 염두해두고 만들어지는게 아니기 때문에 통일화, 데이터 변환, 데이터 전처리가 힘들다. 그러한 상황을 방지하기 위해 처음부터 데이터를 표준화 해서 만들자라는 스타일이 The Elements of Data Analytic Style 이고 이를 통해 만드는 데이터가 Tidy Data 이다. Tidy Data의 특성 각 변수는 개별의 열(column)으로 존재한다. 각 관측치는 행(row)를 구성한다. 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다. 만약 여러개의 표가 존.. 2022. 1. 20. Section 1. 2일차 Warm up Understanding Python Data type Numerical Data (수치 데이터 혹은 양적 데이터) 데이터가 모두 숫자인 데이터이다. 이는 Continuou(연속적인) Discrete(이산적인) Data로 특징지을 수 있으며 연속적인 데이터는 범위 내의 모든 값을 가정할 수 있는 반면 이산 데이터는 고유한 값을 갖는다. - ' im fine' 출력하는 방법 - 'i'/m fine' Outiler detection (이상치 탐지): - 이상치란? 말 그대로 문제(이상)이 있는 데이터를 의미한다. 머신러닝, 딥러닝에서는 이러한 이상치 데이터가 모델의 성능을 크게 좌우하기 때문에 이상치를 탐지하여 제거하거나 변경해주어야 한다. Handling missing values - Mis.. 2022. 1. 19. EDA(Exploratory data analysis)란? EDA EDA(Exploratory data analysis)란? 수집한 데이터를 다양한 각도(그래프, 통계, 모형, 차트 등) 에서 관찰하고 이해하는 과정 데이터는 보통 엑셀 같은 테이블 형태인데 이를 보고 인사이트를 내는 것은 쉽지 않기 때문에 전체적인 견적을 내기 위해 사용하는 분석법이다. EDA는 크게 2가지 방식으로 나뉘며 내용은 아래와 같다 Graphic : 차트 혹은 그래프를 이용하여 데이터를 이용하는 방식 Non-Graphic : Summary Statistics를 통해 확인하는 방식 EDA를 하는 이유? 다양한 모습으로 관찰하여 잠재적인 문제를 발견하기 위함 수집한 데이터를 좀 더 상세한 부분(새로운 패턴 등)을 보며 새로운 방면으로 인사이트를 도출하기 위함 Data Preproceess.. 2022. 1. 19. 이전 1 2 다음