Data Scientist
모델들의 집단지성 앙상블 (Ensemble)
모델들의 집단지성 앙상블 🤖 앙상블(Ensemble)이란? 앙상블은 본래 프랑스어로 '조화', '함께'를 의미합니다. 머신러닝에서 앙상블은 여러 우수한 모델을 조합해 예측력을 향상시키는 모델입니다. 다시 말해서 앙상블 기법이란 예측 성능을 향상시키기 위해 여러 개의 모형을 결합하는 방식입니다. 따라서, 앙상블은 기본적으로 여러 모델이 생성되고, 사용되기 때문에 단일 모델에 비해 과적합이 방지되는 등 성능이 우수한 편이라는 장점을 보유하고 있습니다. 반면, 여러 모델이 혼합되기 때문에 모델의 결과 해석이 어렵고, 계산량 및 예측 시간이 증가한다는 단점도 동시에 보유하게 됩니다. 앙상블 방법론 : 취합 & 부스팅 앙상블 기법은 크게 사전에 사용할 모델들을 정의해두는 취합 방식과 모델을 점점 개선해가는 부스팅..
가지가지 나뭇가지 (Decision Tree)
안녕하세요 ! 이번 포스팅은 Decision Tree에 관해 살펴보려고 합니다. Decision Tree는 지도 학습 중에서도 가장 많이 학습용 데이터를 기반으로 훈련되는 모델이라고도 할 수 있습니다. 특정 조건에 따라서 기존 데이터의 범위를 계속해서 분할해나가는 방식을 수행하고, 새 데이터 포인트가 들어왔을 때 이 영역 중에서 어디에 위치했는지에 따라 예측을 하는 알고리즘입니다. 또한, 분류와 회귀를 모두 수행할 수 있기 때문에 CART (Class And Regression Tree) 라고도 합니다. 자세한 내용은 이제부터 살펴보도록 하겠습니다. 참고로, 해당 포스팅의 내용은 Introduction to Machine Learning with Python의 지도학습 파트를 공부하며 작성한 포스팅으로 ..
우리는 서포트 벡터야. 멀리 떨어져야 해.. (SVM)
우리,,,, 멀어져야 해 ,,, 우리,,, 서포트 벡터래,,, SVM(Support Vector Machines)이란? 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 새로운 데이터가 어느 카테고리에 속할지 판단하는 기준으로 가장 큰 폭(Margin)을 가진 경계를 찾는 방법입니다. SVM은 Margin이 가장 큰 초평면(Hyper-plane)을 기준으로 분류를 수행하는 것이고, 분류 경계의 형태에 따라서 선형 SVM, 비선형 SVM 으로 나뉘게 됩니다. Margin이 크면 클수록 학습에 사용하지 않은 새로운 데이터가 들어오더라도 잘 분류할 수 있는 가능성이 커지게 됩니다. 초평면으로부터 가장 가까이 있는 점들을 Support Vector라고 합니다. Linear SVM vs Kernel..
끼리끼리는 k-NN이다. (k-NN)
끼리끼리는 k-NN 이다. k-NN(k_Nearest Neighbor, k-최근접 이웃 알고리즘)이란? k-NN의 개념 최근접 이웃과의 거리가 가까운 (유사도가 높은) 개체를 기준으로 분류하는 알고리즘입니다. 가장 간단한 머신러닝 알고리즘 중 하나로서, 훈련 데이터셋을 저장하는 것이 모델을 만드는 과정의 전체를 의미합니다. 새로운 데이터 포인트에 관해 예측할 때, 훈련 데이터셋에서 k개의 가장 가까운 데이터 포인트, 즉 k개의 '최근접 이웃'을 찾는 방식입니다. 일상 생활에서 예를 들자면 어떤 사람의 연봉과 경력이 비슷한 사람의 직급이 Part Leader라면, 그 사람에 대해서도 'Part Leader겠지?'라고 생각하는 방식입니다. 즉, 거리가 가장 가까운 k명의 이웃들의 특성을 기반으로 클래스를 분..
로지스틱 회귀이긴 한데.. 분류다? (Logistic Regression)
나는 Logistic Regression 🎵 근데 Classifier 🎶 분류(Classification)란? 분류는 개념이나 주체를 인지하고, 차별화하고, 이해하는 과정을 말한다. 분류는 주체가 범주 안에 있는 것을 암시하며, 보통 특정한 목적을 가지고 있다. 개념적으로 범주는 지식의 주체와 개체 사이의 관계를 서술해 준다. (🔎 wiki - 분류) 위키백과의 말을 빌려 분류를 정의해보면 결국 범주(Category)안에 있는 주체들을 인지하고, 차별화하는 과정입니다. 머신러닝에서의 분류는 지도학습의 일종으로 기존에 존재하는 데이터의 Category 관계를 파악하고, 새롭게 관측된 데이터의 Category를 스스로 판별하는 과정입니다. 따라서 학습용 데이터에는 입력 데이터에 더불어 목표값이 존재하는데, ..