본문 바로가기

전체 글100

중국다운 올림픽(짱림픽) 리뷰. 올림픽 때문에 논란이 많다. 지금 펼처지고 있는 국제대회가 올림픽이라 불리어야 되는 것이 합리적일까? 중국을 위한 올림픽인데 모두를 위한 올(ALL)림픽이 아닌 중국을 위한 짱(중국은 아무튼 짱이라고)림픽이라고 부르는게 맞지 않을까 터치가 필요한 경주에서 터치를 하지도 않고서 결승을 가고 금메달을 메기도 했으며 동계올림픽인데 눈이 오지않아 인공 눈상태가 아주 중국스러워서 부상자가 대량으로 속출한다던가 눈으로도 보이는 편파판정 등... 이 사태를 보고 느낀건 역시 중국은 중국이라는 것 자기네 마음대로 결과를 만들어 내고 이를 가져간다는것 솔직히 정말 대단하다. 이번 행트를 보며 국제대회 올림픽의 위상 또한 자기네가 가져갔다고 생각한다. 좋은 일은 다 자기네 것 안 좋은것은 자기네것이 아니다 혹은 그런 일은.. 2022. 2. 8.
Section.1 Week3.2 15일차 데이터 스케일링이란? 수많은 데이터가 매일 쌓이며 늘어가는데 그런 데이터를 시각화 하기 위해 데이터 축소(스케일링)가 필요하다고 한다. 피쳐의 수가 많으면 그걸 시각화 하기도 힘들다 데이터가 많은 의미를 담는게 좋은 것. 일까? insight를 찾기 위해선 모든 피쳐가 중요하지는 않다 데이터의 일부를 제한하더라도 의미 파악에 큰 차이가 없어지는 시점 부터는 더 이상 피쳐를 사용하는게 비효율적일 것이다. 혹은 overfitting이 생길 수도 있다. 그러한 의미가 없어 보이는 Feature를 제거하는 법이 Feature Selection 이라고 한다. Feature Extraction은 피쳐들을 제거하는 것보다는 피쳐를 조합해서 인사이트를 도출하고자 하는 것이다. 둘만의 장점이 있지만 크게 중요치 않으므로 바로 다음인 PCA에.. 2022. 2. 8.
Section 1. Week3.2 14일차 지금까지 강의들을 보며 확률변수가 있을때 분포를 나타낼 때 보통 사용하는 것이 보통 분산이다. 계속 복습하지만 분산은 각 값들의 평균으로부터 차이의 제곱을 합한 값의 평균이다. 즉 분산을 구하기 위해서는 일반적으로 평균을 계산하여야 한다. 분산을 사용하며 자료의 분포도가 얼마나 퍼져있는지을 알게 되었다. 분산은 하나의 확률변수의 퍼짐을 파악하기 위해서 이용했던 것이고 여러개의 확률변수들이 어떻게 퍼져있는지를 나태내기 위해선 공분산을 이용한다. Covariance(공분산) 이는 두개의 변수가 어떠한 연관성을 나타내며 변하는지 측정하기 위해서 사용한다. 하나가 증가할 때, 다른 하나도 증가하는 경향을 파악하기 위한 것으로 생각하자 공분산또한 데이터의 스케일(분산에서의 제곱에 의한 데이터 크기 변화) 에 .. 2022. 2. 7.
평균,분산, 표준편차 함수 코드 import numpy as np import pandas as pd v=[1,2,3,4,6] def mymean(v): #평균 sum=0 for i in v: sum+=i return sum/len(v) def myvar(v):#분산 sum=0 for i in v: sum=sum+((i-mymean(v))**2) return sum/len(v) def mystd(v):#표준편차 return np.sqrt(myvar(v)) print(mymean(v),myvar(v),mystd(v)) 루트는 어떻게 할지몰라서 넘파이를 이용하였다 2022. 2. 7.
Section 1. Week3.1 13일차 벡터(VECTOR)란? 벡터의 표기 보통 a,b,c 와 같이 소문자로 굵게 표기하거나 a = [aj] 처럼 대괄호 안에 성분 표시를 한다. 벡터의 힘의 크기가 1인 벡터를 단위 벡터라고 표기한다. '→'로 표기하며 네덜란드의 세빈이란 사람이 벡터의 개념를 규명하였다. 화살표의 방향은 힘의 방향을 나타내고 화살표의 길이는 크기를 나타내기 위해 화살표의 시작점은 힘의 작용점을 그림을 통해 쉽게 나타내기 위해서 만들었다고 한다. 열벡터는 n by 1 행렬을 말하며, 행벡터는 1 by n 행렬을 말한다. 여기에서 n by 1 벡터 전체로 이루어 지는 집합을 알파벳 R에 이중선을 추가하여 아래그림처럼 표기한다. 그렇다면 컴퓨터적인 사고에서 벡터가 필요한 이유는 뭘까? 데이터를 백터로 표현할 수 있기 때문 즉 특징.. 2022. 2. 4.
Section.1 2회차 12일 회고와 Wrap up 회고 첫째주에 비교해서 통계적인 용어가 많아서 접근하기 애매했던 주차였다. 스프린트 챌린지에서 보았던 카이제곱 개념을 문제로 풀어보니까 적용을 하기 어려웠다. 하지만 이번주는 왜 통계가 필요한지 약간 몸으로 깨닫게 된 주가 된 것 같다. 부족함을 느낀 한 주였고 문득 진짜 대학원을 가야되나 싶기도 한 주였다. wrap up 가설검정을 사용하는 이유?? - 데이터를 이용해서 중앙극한값을 이용하는이유? - population 값이 부족할때 극복하기 위함 -표본이 많아질수록 정규분포에 수렴하기 때문에 -샘플의 표본이 정규분포 값으로 나타난다가 맞는말 -실제 모집단의 분포를 제대로 나타내지는 못한다. Sampling을 하는 이유 ? - 모집단의 평균을 추측하기 위해서 -우리가 가지고 있는 샘플의 한계를 극복하기.. 2022. 2. 3.
편차와 표준편차 정리 편차란 평균과의 차이를 의미한다,평균과 데이터들의 차를 구한 값들을 서로 합하면 0이 된다. 따라서 분산을 구하기 위해 편차 자체를 더하지 않고 구한 값들 각각을 제곱해서 더하는 과정을 거친다. 즉 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져있을수록 편차는 커지고 분산 또한 증가한다라는 의미이다. 표준편차 분산은 데이터의 퍼짐정도를 나타낸다. 그럼 분산이 있는데 왜 표준편차가 필요할까? 사실 분산에는 단점이 있다. 그것은 편차를 제곱하면서 값이 크게 증가하기 때문에 값 자체의 의미를 팔악하기가 어려운 경향이 있다. 예를 들어 편차가 5라면 우리는 5점 차이나는 구나라고 직관적으로 이해가 가능하지만 이 값을 제곱하면 25가 되는데 이 숫자가 무엇을 의미하는지 혼란스러울.. 2022. 1. 28.
평균,기대값,중앙값 등 용어정리 평균 물건의 수나 양의 많고 적음을 고르게 하는일 수치의 대표로써 채용되는 값의 하나 일반적으로 사용되는 평균은 산술평균으로 생각하면 되며 기하 평균, 조화 평균 등이 있다. 평균은 일반적으로 데이터의 중심을 나타내는데 사용되며 평균되신 기대값이라는 용어가 사용되기도 한다. 그렇다면 기대값은 무슨 의미일까? 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다. 출처: 위키디피아 평균과 기대값은 거의 같은 의미로 보지만 관점을 두고 차이를 본다면 표본의 데이터 값 연산에 중점을 본다면 평균(이미 구해진 데이터의 평균) 확률변수에 중점을 둔다면 .. 2022. 1. 28.
Section 1. Week2.3 9일차 warm up 내용과 본문 내용이 비슷하므로 웜업을 생략하고 본문으로 바로 정리하자 분산분석 ANOVA(analysis of variance) 서로 다른 그룹의 평균(또는 산술평균)에서 분산값을 비교하는 데 사용되는 통계공식이다. 분산의 의미에 대해서 다시 정의해보자면 "어떤 대상의 흩어짐 정도나 상태를 의미한다." 통계학에서는 편차 제곱의 평균 값으로 나타낸다. 편차의 용어가 헷갈린다면 아래 링크를 참조해서 복습하자 https://ncs10042.tistory.com/24 그렇다면 여러 그룹간 평균의 차이가 있는지를 어떻게 확인하는가? 그러기 위해선 여러 그룹들이 하나의 분포에서부터 왔으니 비교를 해볼 수 있다라는 가정을 할 수있다. 이를 위한 지표가 F-Statistic이다. ANOVA 용어 종속 변.. 2022. 1. 28.