본문 바로가기
AI/데이터 사이언스

Section 1. Week3.2 14일차

by 남오공 2022. 2. 7.
728x90

지금까지 강의들을 보며 확률변수가 있을때 분포를 나타낼 때 보통 사용하는 것이 보통 분산이다.

계속 복습하지만 분산은 각 값들의 평균으로부터 차이의 제곱을 합한 값의 평균이다.

즉 분산을 구하기 위해서는 일반적으로 평균을 계산하여야 한다.

 

분산을 사용하며 자료의 분포도가 얼마나 퍼져있는지을 알게 되었다.

분산은 하나의 확률변수의 퍼짐을 파악하기 위해서 이용했던 것이고

여러개의 확률변수들이 어떻게 퍼져있는지를 나태내기 위해선 공분산을 이용한다. 

 

공분하게 만드는 그 나라

Covariance(공분산)

  • 이는 두개의 변수가 어떠한 연관성을 나타내며 변하는지 측정하기 위해서 사용한다.
  • 하나가 증가할 때, 다른 하나도 증가하는 경향을 파악하기 위한 것으로 생각하자
  • 공분산또한 데이터의 스케일(분산에서의 제곱에 의한 데이터 크기 변화) 에 영향을 받기 때문에 이를 보정하기위해
    상관계수(Correlation coeffection)를 이용한다.

상관계수(Correlation coeffection)

  • 공분산의 단위크기 문제를 해결하기 위해 사용
  • 확률변수의 절대적 크기에 영향을 받지 않도록 단위화 시킴 
공분산은 이론상 모든 값을 가질 수 있지만, 상관계수는 -1 ~ 1 사이로 정해져 비교하기가 쉽다.
공분산은 항상 스케일, 단위를 포함하고 있지만, 상관계수는 이에 영향을 받지 않는다.
상관계수는 데이터의 평균 혹은 분산의 크기에 영향을 받지 않는다.

 

그렇다면 이러한 분산 상관계수 공분산 등은 AI과정에서 뭐하러 배우는 걸까 ?

 

머신러닝이나 딥러닝이 ai이기 때문에 이를 만들기위해선 데이터가 필요한데 

이 데이터를 분석하고 진행하는데 이 분석하고 진행하는 과정(EDA)에서 이러한 과정이 필요하다.

 

 

span

주어진 두 벡터의 조합으로 만들 수 있는 모든 가능한 벡터의 집합

 

 

 

span: 공간인지

rank: 차원인지

 

span을 이루는 벡터들 중에서 선형 독립인 벡터들이 basis이다. 

 

 

댓글