공부/복습6 표준화 (Standardization) , 정규화 (Normalization)란? 표준화(Standardization) 표준화는 데이터의 평균을 0으로, 분산 및 표준편차를 1로 만들어 준다. 스케일링 시 평균과 표준편차가 사용된다. 표준화를 하는 이유는 서로 다른 통계 데이터를 비교하기 용이하기 때문이다. 이는 특성이 정규분포일 경우 유용하다. 정규화 (Normalization) 표준화와 마찬가지로 데이터의 스케일을 조정하지만 모든 데이터가 0~1사이의 값을 가진다. 스케일링 시 최대, 최솟값이 사용되어진다. 특성의 크기가 다를때 사용되어지며 분포에 대해 모를 떄 유용하다. 2022. 8. 8. LSTM (Long Short Term Memory) 복습하기 LSTM 이란 무엇일까? 기존 RNN이 출력과 먼 위치에 있는 정보를 기억할 수 없다는 단점(장기의존성문제), 기울기 소실 문제를 보완하여 장/단기 기억을 가능하게 설계한 신경망의 구조를 말하며 거시적으로 시계열을 예측하기 위하거나 자연어 처리에서 활용된다. 기존 RNN 모델의 구조는 아래와 같다. LSTM의 구조는 아래와 같다. 위에서 볼 수 있듯 RNN과 LSTM의 차이에서 볼 수있는 차이점은 내부구조가 좀더 복잡해진 것이다. 이는 이전 셀의 정보를 그대로 가지고와 현재 셀에서의 데이터의 결과를 갖고 다음셀로 전달하는 역할을 한다. 즉 3개의 게이트와 1개의 셀이 존재하며 이러한 구조로 RNN의 단점을 보완함 2022. 8. 8. 도함수란 기울기란? 도함수란? 도함수는 기울기와 같은 의미이다. 기울기는 도함수의 개념을 쉽게 말한 개념이라고 생각하면 된다고 한다. 미분의 의미란 특정 지점에서의 기울기이다. 기울기를 좀 더 명확히 정의하자면 삼각형의 높이를 밑변으로 나눈 값이다. 아래 예시를 들어 이해를 해보도록 하자. a가 만약 2라고 가정한다면 f(a)=3a이니 f(a)=6이 된다. 그렇다면 a의 값을 살짝 밀어 a가 2.001이라고 해보자. 이제는 f(a)는 세배를 곱한 6.003이 되게 된다. 즉 f(a)는 0.003이 증가하게 된다 a는 오른쪽으로 0.001을 올린 것에 비해 위로는 3배가 늘어난다는 의미는 f(a)=3a 함수에서 기울기,도함수는 3이라는 것이다. 이는 a가 어떤 값일 때도 f(a)의 기울기가 3이기 때문에 이렇게 표현을 할 .. 2022. 5. 3. 기계 학습(Machine learning)이란 무엇인가? 1. 머신러닝이란? 기존 프로그래밍은 인간이 데이터를 살펴보고, 규칙을 만들고, 컴퓨터는 인간이 지시한 문제들만 수행해왔지만머신러닝은 데이터와 해답을 주고 컴퓨터가 스스로 답과 데이터의 규칙을 찾아 모델을 만드는 컴퓨터가 스스로 학습하는 새로운 프로그래밍 패러다임이다. 2. 그렇다면 머신러닝의 장점은 무엇일까? 많은 데이터를 보고 예측할 수 있다. (사람은 데이터를 볼때 많은 시간이 걸린다.) 새로운 데이터가 추가될 때마다 새로운 예측을 기계가 개선한다. 3. 머신러닝은 어떻게 동작할까? 데이터를 입력한다. 데이터를 분석하여 패턴과 규칙을 탐색한다. 찾아낸 패턴과 규칙을 가지고 의사결정 및 예측을 수행한다. 하지만 머신러닝 자체가 완전히 인간의 개입이 없는것은 아니다. 애초에 컴퓨터와 데이터간의 관계를 .. 2022. 3. 24. 단순 선형 회귀(Simple-regression) 단순 선형 회귀(Simple-regression)란? 독립 변수가 1개, 종속 변수도 1개인 선형회귀이다. 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명한다. 즉 한가지의 설명 변수(독립변수 X)만으로 반응 변수(종속변수 Y)에 대한 영향을 파악하기 위해 사용한다. 변수들은 다양한 명칭으로 이용되며 종속변수 Y는 반응변수, 레이블, 타겟 등으로 불리운다. 독립변수 X는 예측변수, 설명, 특성 등으로 불린다. (Y에 영향을 끼치는 변수) 잔차(Residual): 실제 값(관측값)과 회귀 모델(적합값)의 차이에 따른 오류를 의미한다. 잔차제곱합(RSS): 오류값의 제곱을 구해서 더하는 방식이다, 단순 오차 제곱합이라고도 불린다. 잔차를 알아야 하는 이유는 결론적으로 좋은.. 2022. 3. 14. 기준모델(baseline model)이란? 기준모델이란? 예측 모델을 만들기 전에 가장 간단하면서 직관적이며 최소한의 성능을 나태내는 기준이 되는 모델 분류 문제에서의 기준모델은 target의 최빈 클래스. 회귀 문제에서의 기준모델은 target의 평균 값이다. 시계열회귀문제에서의 기준모델은 이전 timestamp(과거의 정보로 미래를 예측하는 느낌)의 값이다. 2022. 3. 11. 이전 1 다음