본문 바로가기
AI/데이터 사이언스

귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis) 이란?

by 남오공 2022. 1. 26.
728x90

가설검정(Hypothesis Testing)과 귀무가설(Null Hypothesis) 대립가설(Alternative Hypothesis)에 대해 알아보자

귀무가설(null hypothesis, H0) 이란? 

  • 증명된 바 없는 주장이나 가설을 의미하며
  • 귀무가설이 옳다는 전제하에 시작하기에, 진실일 가능성이 적어 처음부터 틀릴 것이라 예상되는 가설이며 기각을 목표로 한다.

* (예를 들어 범죄 사건의 용의자가 있을 때 형사는 용의자를 범죄를 저질렀다는 추정인 대립가설을 세우게 되며 이때의 귀무가설은 용의자가 무죄라는 가설이다. 출처 : 위키백과)

 

귀무가설은 *t-test 이후 가설을 수용할 지, 기각할 지를 결정한다. 

*t-test란?

더보기
모집단의 분산이나 표준편차를 알지 못할 때 모집단(정규분포)을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로"두 모딥단의 편균간 차이가 없다는" 귀무가설"두 모집단의 평균 간 차이가 있다"라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.

예를 들어 유의수준(a)를 0.05라고 가정할 때 

-귀무가설 (H0) : 두 집단의 평균 차이는 없을 것이다.

-대립가설 (H1) : 두 집단의 평균 차이가 있을 것이다.

 

t값이 커져서(이는 평균차이가 있을 가능성이 커졌다는 말) 기각역에 존재하여 
유의확률(p-value값이) 0.05보다 작으면 평균차이가 유의미한 것으로 해석하여 

귀무가설을 기각한다. 그 반대의 경우 유의확률이 0.05보다 크다면 
평균 차의가 유의미하지 않으므로 귀무가설을 수용한다.

 

대립가설(Alternative Hypothesis) 이란?

: 귀무가설에 대립되는 가설이다. 이는 새로운 주장 또는 사실을 입증하고자 하는 가설이며 채택을 목표로한다.

 

귀무가설(H0) : 샘플로 뽑은 고양이집단(샘플 1개)의 평균 무게가 3.5kg(특정값) 이다.

대립가설(Ha) : 샘플로 뽑은 고양이집단(샘플 1개)의 평균 무게가 3.5kg(특정값)이 아니다.

 

-> 고양이 무게를 kg로 할지 g 로할지 데이터의 크기가 변화하게 된다

-> 크기와 상관없이 데이터를 비교할 수 있는 지표가 필요하다 -> p-value

p-value: 주어진 가설(귀무가설)이 얼마나 유의미한지, 이게 얼마나 말이 되는지, 참인지를 0~1의 범위


Section 1. Week2.1  

 

가설검정(Hypothesis Test)

  • 주어진 가설이 사실인지 아닌지를 수치적으로 확인하는 프로세스
  • 주어진 상황에 대해서 하고자 하는 주장이 맞는지를 판정하는 과정
  • 모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정함

 

 

기술 통계치(Descriptive Statistics)란

  • 데이터를 설명 하는 값 혹은 통계치(count, mean, standart dev, min ...)

 

기술 통계치의 시각화

 

t 검정 t-test

  • 모집단의 분산이나 표준편차를 알지 못할 때 모집단(정규분포)을 대표하는 표본으로부터
    추정된 분산이나 표준편차를 가지고 검정하는 방법으로
    "두 모딥단의 편균간 차이가 없다는" 귀무가설
    "두 모집단의 평균 간 차이가 있다"라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.

t 값 t-value

  • t test에 이용되는 검정 통계량으로 두 집단의 차이를 평균(x)를 표준오차(se)로 나눈 값
    즉 표준오차와 표본평균사이 차이의 비율이다.

t 분포 t-distribution

  • 평균이 0, 좌우 대칭을 이루며, 자유도에 의해서 규정되는 수리적 분포로 

t 값이 나오더라도 우리는 어떤 값인지 본능적으로 알기 힘들다.

 

 

one sample t-test

모집단 하나의 샘플값의 평균이 특정값(각자 설정)과 일치 하는지, 동일한지
(ex 동전을 던져서 나온 확률이 실제 0.5와 비슷한지) 

 

 

pvalue?

t값을 pvalue로 바꿔 주어진 가설이 얼마나근거있는지 값을 확인하는것이고

pvalue가 낮다라는 것은 귀무가설이 틀렸을 확률이 높다. 

 

 

추론 통계치란?

 - 데이터를 조사할때 전수조사를 한 데이터가 있으면 좋다

 

 

 

 

https://m.blog.naver.com/sendmethere/221333164258  블로그를 참조하였다. 

 

 

표본 평균의 표준 오차(Standard Error of the Saple mean)

  • SE(Standard Error) 실제 알고자하는 값과 샘플 값과의 차이
  • 표본의 수가 많아 질수록 추측은 정확해지고 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있다.

 

 

용어 정리

  • 추정(Estimation): 측정 또는 관촬된 자료에 기반하여 모수의 값을 추정하는 것을 다루는 것
  • 검정(Testing): 증명되지 않은 주장이나 가설을 표본 통계적으로 가설의 진위 여부를 판단,증명,검정 하는 것

 

 

'AI > 데이터 사이언스' 카테고리의 다른 글

Section 1. Week2.3 9일차  (0) 2022.01.28
Section 1. Week2.2 8일차  (0) 2022.01.27
Section 1. 3일차  (0) 2022.01.20
Section 1. 2일차  (0) 2022.01.19
EDA(Exploratory data analysis)란?  (0) 2022.01.19

댓글