본문 바로가기

공부46

평균,기대값,중앙값 등 용어정리 평균 물건의 수나 양의 많고 적음을 고르게 하는일 수치의 대표로써 채용되는 값의 하나 일반적으로 사용되는 평균은 산술평균으로 생각하면 되며 기하 평균, 조화 평균 등이 있다. 평균은 일반적으로 데이터의 중심을 나타내는데 사용되며 평균되신 기대값이라는 용어가 사용되기도 한다. 그렇다면 기대값은 무슨 의미일까? 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다. 출처: 위키디피아 평균과 기대값은 거의 같은 의미로 보지만 관점을 두고 차이를 본다면 표본의 데이터 값 연산에 중점을 본다면 평균(이미 구해진 데이터의 평균) 확률변수에 중점을 둔다면 .. 2022. 1. 28.
분산이란? 편차란? 표준편차란? 편차란? 하나의 변량이 편균으로부터 얼마나 떨어져 있는가를 나타내주는 값이다. 하지만 모든 변량과 평균이 얼마나 떨어져 있는지를 나타내기를 힘들기 때문에 편차의 평균을 구할 필요가 있다. 편차끼리의 합은 무조건 0이 나오므로 의미있는 결과물을 내기 위하여 편차에 제곱을 하여 평균을 구하여 분산을 구한다. 편차 = 변량 -평균 변량이란? 점수,시간 같은 여러 자료를 수량으로 나타낸 것을 말한다 예시로 민수라는 아이의 시험 점수가 국어 영어 수학 사회 80 90 100 70 라고 가정한다면 국영수사회 과목들이 각각 변량이다. 그렇다면 이 민수의 시험점수의 편차를 계산해보면 위 점수의 평균이 85점이기에 각 국어 80-85 = -5 영어 90-85 = 5 수학 100-85 = 15 사회 70-85 = -15 .. 2022. 1. 27.
카이스퀘어 분포란? 카이스퀘어의 뜻은? 그리스어로 x의 이름이 카이라고 부른다고 한다. 큰 의미는 없음 그래서 x의 제곱이라 카이스퀘어라고 부르는것 일반적으로 어떤 확률변수 x(ex.몸무게 키)가 있다고 생각해보자 일반적으로 이는 정규분포를 따른다. 그렇다면 이를 제곱하면 무슨 분포를 따르까? 라는 질문에서 나온것이 카이스퀘어 분산의 분포를 카이스퀘어라고 한다 자유도와 카이스퀘어가 비슷할때 정규화를 따른 다 라고 본다. 표준정규 분포 m =0 분산이 = 1 이라고 가정하자 단위를 안다는 것은 분포를 안다는 것 일반적으로 저러한 모양을 띈다는데 아직까진 이해가 안된다. 유튜버:asdf오터의통계 참고 2022. 1. 26.
T 분포란? 가설검정시에는 보통 t 분포, 카이제곱분포, f 분포가 많이 활용된다고 한다 그 중t 분포에 관하여 공부해보자 1) 왜 t *분포라는 이름을 가진 것일까?? 이론을 만든 사람이 논문 기재시 가명을 student라고 사용했는데 거기서 따온 T라고하며 본명은 고셋 * 분포: 어떤 수의 크고 작음을 결정할 수 있도록 도와준다 2) t 분포의 정의? 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다. 표본의 크기가 적을 때는 표준 정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만 표본이 커지며 자유도가 증가한다면 표준정규분포와 같은 분포 형태로 변한다 데이터가 연속형일 경우 사용한다. 3) t 분포를 쓰는 이유? 작은 정보(평균, 표준편차 등)로 많은 정보를 알 수 있다. 두 집단의 평.. 2022. 1. 26.
dataframe series Dataframe - 여러 개의 series 합친 것 Series - 데이터프레임의 하나의 열 이라 생각하면 됨 dimension vector? 2022. 1. 24.
QQPlot 큐큐플롯 이란? 정의 QQ plot(Quantile-Quantile Plot)은 두 변수간의 분포를 비교하기 위해 사용되는 그래프이다. 데이터의 분포도와 이론상 분포도가 잘 일치하는가(정규화를 잘 따르는가)를 확인 할 수 있는 방법이며 일반적으로는 주어진 데이터와 *정규분포를 비교하여 정규분포 가정이 적정한지 대해 검토하는데 널리 사용되지만 정규분포에 국한할 필요 없이 두 분포의 비교에도 활용된다. 예제 활용 * 정규분포: 통계학에서 대표적인 연속 확률분포이며 아래와 같은 모양의 그래프 형태를 띈다 평균일수록 데이터가 많고 평균에서 멀어질 수록 데이터 수가 줄어드는것이라고 생각하면 됨 2022. 1. 23.
지주택이란 뭘까? 남대전 힐스테이트는 대체..? 나는 성심당의 도시 대전에서 살고 있다. 대전이 작년, 재작년부터 부동산이 엄청나게 오르며 투기과열지구로 지정됨에도 불구하고 아파트를 사고 싶어도 못살 정도로 비싸지고 있고 거래가격이 하락하는 아파트는 정말 보기 어려운 그런 기이한 현상을 겪고 있다. 대전 어디든 분양 일정만 뜨면 정말 최소 20:1 정도의 경쟁률을 보여주며 무섭게 오르는 부동산 상황임에도 불구하고 요즘 돌아다니면서 남대전 힐스테이트 3억 5천 분양이라는 광고가 자주 보였다. 말도 안 돼 미분양 나는 곳이 있나? 싶어서 친구들이 있는 톡방에 왜 저런곳이 있나 얘기를 해보았더니 지주택 지역이라며 지주택은 도박이다. 하지만 브랜드가 힐스테이트이기 때문에 진행된다면 대박이라는 말을 해줬다. 그래서 부린이로써 이런 상식이 없다는 게 부끄럽고 궁.. 2022. 1. 17.
python Data structures 8.4 list 문제 8.4 Open the file romeo.txt and read it line by line. For each line, split the line into a list of words using the split() method. The program should build a list of words. For each word on each line check to see if the word is already in the list and if not append it to the list. When the program completes, sort and print the resulting words in alphabetical order. You can download the sample.. 2022. 1. 15.