본문 바로가기

전체 글100

술에 대한 나의 생각 평소에는 혼자 술을 마시더라도 리뷰와 같은 글을 쓴다고 생각을 해보지 않았다. 그 이유는 첫번째로 남들과 나와 어떠한 술의 맛을 맛있다 혹은 맛없다 느낀다는 것은 각자 취향에 따라 다를거라 생각했기에 굳이 글을 쓸 필요있을까? 라는 생각이었고, 두번째로는 나는 술을 맨날 마시기에.. 귀찮았기 때문이다. ㅋㅋ 하지만 리뷰을 해야겠다고 느낀 이유는 요즘 들어 운좋게 부모님 덕에 좋은 술을 자주 접해보게 되기도 했고 그럴때마다 부모님께 아는 척하면서 이 술은 맛있는 술이며, 어떤 인물이 좋아했다. 어떤 역사가 담겨있다. 이 술은 비싼 술이니 함부로 막 마시면 안된다. 어떻게 먹어야 맛있다 등.... 라고 아는 척을 해왔다.. 솔직하게 말하자면 나무위키, 유튜브, 네이버 블로그, 정도로 그들이 전문가인지 좆문가.. 2022. 3. 27.
기계 학습(Machine learning)이란 무엇인가? 1. 머신러닝이란? 기존 프로그래밍은 인간이 데이터를 살펴보고, 규칙을 만들고, 컴퓨터는 인간이 지시한 문제들만 수행해왔지만머신러닝은 데이터와 해답을 주고 컴퓨터가 스스로 답과 데이터의 규칙을 찾아 모델을 만드는 컴퓨터가 스스로 학습하는 새로운 프로그래밍 패러다임이다. 2. 그렇다면 머신러닝의 장점은 무엇일까? 많은 데이터를 보고 예측할 수 있다. (사람은 데이터를 볼때 많은 시간이 걸린다.) 새로운 데이터가 추가될 때마다 새로운 예측을 기계가 개선한다. 3. 머신러닝은 어떻게 동작할까? 데이터를 입력한다. 데이터를 분석하여 패턴과 규칙을 탐색한다. 찾아낸 패턴과 규칙을 가지고 의사결정 및 예측을 수행한다. 하지만 머신러닝 자체가 완전히 인간의 개입이 없는것은 아니다. 애초에 컴퓨터와 데이터간의 관계를 .. 2022. 3. 24.
데이터 셋 제공 사이트 목록 [국내] AI 팩토리 : [[http://aifactory.space/]](http//aifactory.space/) 공공데이터포털 : [[https://www.data.go.kr/](https://www.data.go.kr/)] AI허브 : [[http://www.aihub.or.kr/](https//aihub.or.kr/)] 데이콘 : [[https://dacon.io/](https//dacon.io/)] 보건의료빅데이터개방시스템 : [[https://opendata.hira.or.kr/](https//opendata.hira.or.kr/home.do)] [국외] 캐글 : [[https://www.kaggle.com/datasets](https://www.kaggle.com/datasets)] 구글 .. 2022. 3. 24.
부분의존도그림(Partial dependence plot, PDP)란? 부분의존도그림이란 부분 의존도 그림은 특성의 값에 따라서 타겟값이 증가/감소하느냐와 같은 어떻게 영향을 미치는지에 대한 정보를 파악할수있다. 즉 머신러닝 모델의 예측 결과에 대해 하나 또는 두 개의 특성이 갖는 한계 효과(marginal effect)를 보여준다는 의미이다. 부분 의존도 그림은 대상과 특성 사이의 관계가 선형인지, 단조로운지 또는 더 복잡한지 여부를 표시할 수 있다. 특성 하나를 표현하면 2d작업이 진행되고 두 특성은 3d 형태를 띄기 때문에 더 이상의 표현은 어렵기에 2개까지만 표현한다고 함 2022. 3. 15.
단순 선형 회귀(Simple-regression) 단순 선형 회귀(Simple-regression)란? 독립 변수가 1개, 종속 변수도 1개인 선형회귀이다. 종속변수의 변동(변수가 평균값으로부터 다른 정도)을 하나의 독립변수의 변동으로 설명한다. 즉 한가지의 설명 변수(독립변수 X)만으로 반응 변수(종속변수 Y)에 대한 영향을 파악하기 위해 사용한다. 변수들은 다양한 명칭으로 이용되며 종속변수 Y는 반응변수, 레이블, 타겟 등으로 불리운다. 독립변수 X는 예측변수, 설명, 특성 등으로 불린다. (Y에 영향을 끼치는 변수) 잔차(Residual): 실제 값(관측값)과 회귀 모델(적합값)의 차이에 따른 오류를 의미한다. 잔차제곱합(RSS): 오류값의 제곱을 구해서 더하는 방식이다, 단순 오차 제곱합이라고도 불린다. 잔차를 알아야 하는 이유는 결론적으로 좋은.. 2022. 3. 14.
데이터 랭글링(Data Wrangling)이란? 데이터 랭글링이란? 데이터 랭글링은 분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 원천 데이터(raw data)를 분석하기 좋은 데이터로 변환하는 작업을 의미한다. 데이터 랭글링은 총 5단계로 나눠지며 아래와 같다 Gather(데이터 모으기) - 스크래핑, API 등으로 데이터를 모으는 단계이다. Assess(데이터 평가하기) - 1단계에서 모은 데이터가 깨끗한지 아닌지 판단하는 단계이다. Clean(데이터 정제하기) - 2단계에서 평가한 데이터를 어떻게 정제할지, 코딩할지, 테스트하는 단계이다. Reassess and lterate (데이터 재평가) - 2단계로 돌아가 다시 데이터가 잘 정제되었는지 판단하며 필요한만큼 2~4과정을 반복한다 Store(데이터 저장) 2022. 3. 14.
특성 중요도(feature importance)란? 특성 중요도란?(feature importance) 결정트리에서 모델의 변화 정도를 파악하기 위해 사용되는 지표(?) 즉 종속변수에 미치는 독립변수의 영향력을 알아보기 위해 필요하다. (선형회귀모델에서는 회귀계수가 이 역할을 했다.) 특성 중요도의 합은 1이며 특성 중요도가 높은 feature 일수록 노드를 나눌 때 더 자주, 우선적으로 이용된다. 랜덤포레스트에서는 학습 후에 특성들의 중요도 정보(Gini importance)를 기본으로 제공한다. 평균 불순도 감소란? (Mean Decrease Impurity MDI) = ? MDG(gini) 특성 중요도의 계산을 하는 방법이다. 각 노드에서 해당 feature를 기준으로 분류(split)하는 지점에서의 decrease of impurity(불순도)의 .. 2022. 3. 14.
기준모델(baseline model)이란? 기준모델이란? 예측 모델을 만들기 전에 가장 간단하면서 직관적이며 최소한의 성능을 나태내는 기준이 되는 모델 분류 문제에서의 기준모델은 target의 최빈 클래스. 회귀 문제에서의 기준모델은 target의 평균 값이다. 시계열회귀문제에서의 기준모델은 이전 timestamp(과거의 정보로 미래를 예측하는 느낌)의 값이다. 2022. 3. 11.
K-겹 교차검증(k-fold cross-validation) 이란? k-겹 교차검증(CV)이란 전체 데이터셋을 k개의 fold로 나누어 k번동안 다른 fold 1개를 test data 그리고 나머지(k-1)개의 fold를 train data로 분할하는 과정을 반복하며 train, test data를 교차 변경하여 검증하는 방법이다. k fold cv를 하기 위해 보통 5~10개의 fold를 사용하며 최적의 k값을 찾기 위한 실험적 검증이 필요하다. 아래와 같은 경우에는 CV 수행 시 오히려 모델 성능이 악화될 수 있다. - 순서가 고려된 데이터(시계열 데이터)가 shuffle 되어 있지 않은 경우 - 데이터 불균형(Data Imbalance) → 층화 교차검증(Stratified K-fold CV)을 통해 보완 - 각기 다른 fold에 같은 데이터(i.e., duplic.. 2022. 3. 7.