본문 바로가기
AI/데이터 사이언스

Section 1. Week2.2 8일차

by 남오공 2022. 1. 27.
728x90

통계를 들어오고나서 딴짓을 좀 하기 시작했는데 다시 정신차리고 해야겠다.

 

 

데이터의 정규분포를 확인하는것이 중요한 이유? 

  • 데이터가 충분히 많은 경우 표본들을 뽑아 표본의 평균을 구해보면 표본의 평균이 따르는 분포가 정규분포로 나오기 때문에
  • 서로 다른 형태의 데이터를 비교하기 위해
  • 통계의 비교 기준이기 때문
  •  

포아송 분포 

  • 단위 시간안에 어던 사건이 몇 번 발생할 것인지를 표현하는 확률
    (ex: 1시간 동안 정류장에서 버스가 몇 번 도착하는가?) 

뉴메릭 데이터 / 카테고리컬 데이터

뉴메릭 데이터(컨티뉴어스 데이터): 연속적인 데이터 셋 (1~3 ,,, 1.1 1.2 1.3 ... 2.1 2.2 ~~~~3 같은 값 키,체중,시력이 예)

카테고리컬 데이터: 동물- 사람,하마,고양이 과 같이 딱딱 떨어지는 데이터 

 

자유도(Degrees of Freedom): 주어진 데이터의 통계를 만들기 위해서 데이터로를 선택할 수 있는 가지의 수 

 

 

 

chi squre

비모수적 방법론

t test 그룹의 평균값을 비교하는 가설검정방법

chi 그룹의 분포/ 빈도를 비교

왜 t ㄱ밧이나 Chi 값ㅇ

댓글