본문 바로가기

AI/데이터 사이언스11

머신러닝의 개요와 클러스트링 머신러닝의 개요 지도 학습 답이 있는것(target, label 이라고 하는 것이 있는경우) 분류 모델: 카테고리컬 데이터를 예측 회귀 모델:뉴메릭 데이터(연속적인 데이터)를 결과를 예측 비지도 학습 답이 없는것(target, label)이라고 하는 것이 없는 경우 차원축소 : 높은 차원의 데이터를 선택 추출하여 차원을 줄이는 것 ex PCA 군집화(Clustering) 연관 규칙 학습(Association Rule Learning) 데이터셋의 feature들의 관계를 발견하는 방법 ex) 장바구니 분석 강화 학습 : 좋은 행동에는 보상, 그렇지 않은 행동에는 처벌이라는 피드백을 머신러닝에 부여 ex) 가중치로 학습 군집화 (Clustering) 이란? 대표적인 비지도학습 알고리즘이다. 데이터 셋을 요약.. 2022. 2. 9.
Section.1 Week3.2 15일차 데이터 스케일링이란? 수많은 데이터가 매일 쌓이며 늘어가는데 그런 데이터를 시각화 하기 위해 데이터 축소(스케일링)가 필요하다고 한다. 피쳐의 수가 많으면 그걸 시각화 하기도 힘들다 데이터가 많은 의미를 담는게 좋은 것. 일까? insight를 찾기 위해선 모든 피쳐가 중요하지는 않다 데이터의 일부를 제한하더라도 의미 파악에 큰 차이가 없어지는 시점 부터는 더 이상 피쳐를 사용하는게 비효율적일 것이다. 혹은 overfitting이 생길 수도 있다. 그러한 의미가 없어 보이는 Feature를 제거하는 법이 Feature Selection 이라고 한다. Feature Extraction은 피쳐들을 제거하는 것보다는 피쳐를 조합해서 인사이트를 도출하고자 하는 것이다. 둘만의 장점이 있지만 크게 중요치 않으므로 바로 다음인 PCA에.. 2022. 2. 8.
Section 1. Week3.2 14일차 지금까지 강의들을 보며 확률변수가 있을때 분포를 나타낼 때 보통 사용하는 것이 보통 분산이다. 계속 복습하지만 분산은 각 값들의 평균으로부터 차이의 제곱을 합한 값의 평균이다. 즉 분산을 구하기 위해서는 일반적으로 평균을 계산하여야 한다. 분산을 사용하며 자료의 분포도가 얼마나 퍼져있는지을 알게 되었다. 분산은 하나의 확률변수의 퍼짐을 파악하기 위해서 이용했던 것이고 여러개의 확률변수들이 어떻게 퍼져있는지를 나태내기 위해선 공분산을 이용한다. Covariance(공분산) 이는 두개의 변수가 어떠한 연관성을 나타내며 변하는지 측정하기 위해서 사용한다. 하나가 증가할 때, 다른 하나도 증가하는 경향을 파악하기 위한 것으로 생각하자 공분산또한 데이터의 스케일(분산에서의 제곱에 의한 데이터 크기 변화) 에 .. 2022. 2. 7.
Section 1. Week3.1 13일차 벡터(VECTOR)란? 벡터의 표기 보통 a,b,c 와 같이 소문자로 굵게 표기하거나 a = [aj] 처럼 대괄호 안에 성분 표시를 한다. 벡터의 힘의 크기가 1인 벡터를 단위 벡터라고 표기한다. '→'로 표기하며 네덜란드의 세빈이란 사람이 벡터의 개념를 규명하였다. 화살표의 방향은 힘의 방향을 나타내고 화살표의 길이는 크기를 나타내기 위해 화살표의 시작점은 힘의 작용점을 그림을 통해 쉽게 나타내기 위해서 만들었다고 한다. 열벡터는 n by 1 행렬을 말하며, 행벡터는 1 by n 행렬을 말한다. 여기에서 n by 1 벡터 전체로 이루어 지는 집합을 알파벳 R에 이중선을 추가하여 아래그림처럼 표기한다. 그렇다면 컴퓨터적인 사고에서 벡터가 필요한 이유는 뭘까? 데이터를 백터로 표현할 수 있기 때문 즉 특징.. 2022. 2. 4.
Section.1 2회차 12일 회고와 Wrap up 회고 첫째주에 비교해서 통계적인 용어가 많아서 접근하기 애매했던 주차였다. 스프린트 챌린지에서 보았던 카이제곱 개념을 문제로 풀어보니까 적용을 하기 어려웠다. 하지만 이번주는 왜 통계가 필요한지 약간 몸으로 깨닫게 된 주가 된 것 같다. 부족함을 느낀 한 주였고 문득 진짜 대학원을 가야되나 싶기도 한 주였다. wrap up 가설검정을 사용하는 이유?? - 데이터를 이용해서 중앙극한값을 이용하는이유? - population 값이 부족할때 극복하기 위함 -표본이 많아질수록 정규분포에 수렴하기 때문에 -샘플의 표본이 정규분포 값으로 나타난다가 맞는말 -실제 모집단의 분포를 제대로 나타내지는 못한다. Sampling을 하는 이유 ? - 모집단의 평균을 추측하기 위해서 -우리가 가지고 있는 샘플의 한계를 극복하기.. 2022. 2. 3.
Section 1. Week2.3 9일차 warm up 내용과 본문 내용이 비슷하므로 웜업을 생략하고 본문으로 바로 정리하자 분산분석 ANOVA(analysis of variance) 서로 다른 그룹의 평균(또는 산술평균)에서 분산값을 비교하는 데 사용되는 통계공식이다. 분산의 의미에 대해서 다시 정의해보자면 "어떤 대상의 흩어짐 정도나 상태를 의미한다." 통계학에서는 편차 제곱의 평균 값으로 나타낸다. 편차의 용어가 헷갈린다면 아래 링크를 참조해서 복습하자 https://ncs10042.tistory.com/24 그렇다면 여러 그룹간 평균의 차이가 있는지를 어떻게 확인하는가? 그러기 위해선 여러 그룹들이 하나의 분포에서부터 왔으니 비교를 해볼 수 있다라는 가정을 할 수있다. 이를 위한 지표가 F-Statistic이다. ANOVA 용어 종속 변.. 2022. 1. 28.
Section 1. Week2.2 8일차 통계를 들어오고나서 딴짓을 좀 하기 시작했는데 다시 정신차리고 해야겠다. 데이터의 정규분포를 확인하는것이 중요한 이유? 데이터가 충분히 많은 경우 표본들을 뽑아 표본의 평균을 구해보면 표본의 평균이 따르는 분포가 정규분포로 나오기 때문에 서로 다른 형태의 데이터를 비교하기 위해 통계의 비교 기준이기 때문 포아송 분포 단위 시간안에 어던 사건이 몇 번 발생할 것인지를 표현하는 확률 (ex: 1시간 동안 정류장에서 버스가 몇 번 도착하는가?) 뉴메릭 데이터 / 카테고리컬 데이터 뉴메릭 데이터(컨티뉴어스 데이터): 연속적인 데이터 셋 (1~3 ,,, 1.1 1.2 1.3 ... 2.1 2.2 ~~~~3 같은 값 키,체중,시력이 예) 카테고리컬 데이터: 동물- 사람,하마,고양이 과 같이 딱딱 떨어지는 데이터 자.. 2022. 1. 27.
귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis) 이란? 가설검정(Hypothesis Testing)과 귀무가설(Null Hypothesis) 대립가설(Alternative Hypothesis)에 대해 알아보자 귀무가설(null hypothesis, H0) 이란? 증명된 바 없는 주장이나 가설을 의미하며 귀무가설이 옳다는 전제하에 시작하기에, 진실일 가능성이 적어 처음부터 틀릴 것이라 예상되는 가설이며 기각을 목표로 한다. * (예를 들어 범죄 사건의 용의자가 있을 때 형사는 용의자를 범죄를 저질렀다는 추정인 대립가설을 세우게 되며 이때의 귀무가설은 용의자가 무죄라는 가설이다. 출처 : 위키백과) 귀무가설은 *t-test 이후 가설을 수용할 지, 기각할 지를 결정한다. *t-test란? 더보기 모집단의 분산이나 표준편차를 알지 못할 때 모집단(정규분포)을 대표.. 2022. 1. 26.