Intro.
앙상블(Ensemble) 기법이란 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법을 말합니다. 이는 강력한 하나의 모델을 사용하는 대신, 보다 약한 모델 여러 개를 조합하여 더 정확한 예측에 도움을 주는 방식입니다. 앙상블 기법은 일반적으로 보팅(Voting), 배깅(Bagging), 부스팅(Boosting) 세 가지 유형으로 나눌 수 있습니다.
보팅(Voting)
보팅이라는 표현에서 알 수 있듯이, 서로 다른 알고리즘을 가진 분류기 중 투표를 통해 최종 예측 결과를 결정하는 방식입니다. 알고리즘에는 흔히 알고 있는 결정 트리(Decision tree)나 KNN(K-Nearest Neighbor), 로지스틱(Logistic) 같은 걸 의미합니다. 보팅은 최종 결과 선정 방식에 따라 하드 보팅(Hard Voting), 소프트 보팅(Soft Voting) 두 가지로 나뉩니다.
하드 보팅(Hard Voting)
다수결의 원칙을 따르는 방식으로, 각각의 분류기의 결과값 중 가장 많은 걸 따릅니다.
소프트 보팅(Soft Voting)
분류기의 확률을 더하고 각각 평균을 내서 확률이 제일 높은 값으로 결과값을 선정합니다
배깅(Bagging; Bootstrap aggregating)
배깅(bagging)은 bootstrap agrregating의 줄임말로 주어진 데이터에 대해서 여러 개의 bootstrap 자료를 생성하고 각 자료를 모델링한 후 결합하여 최종 예측 모형을 산출하는 방법입니다. 이 때 bootstrap 자료란 원시 데이터(raw)로부터 복원 임의 추출한 크기가 동일한 여러 개의 표본 자료를 말합니다. 보팅과는 다르게 모두 같은 알고리즘 모델을 사용합니다. 대표적으로 랜덤 포레스트 알고리즘을 사용하여 과적합(Overfitting) 방지에 효과적이며 수행속도가 빠르다는 장점이 있습니다.
부스팅(Boosting)
부스팅(Boosting)은 오분류된 개체들에 집중해 새로운 분류 규칙을 만드는 단계를 반복하는 방법입니다. 즉 약한 예측 모형들을 결합하여 강한 예측 모형을 만드는 것이 바로 부스팅 알고리즘입니다. 예측변수는 순차적으로 생성되며 원시 데이터의 객체들에는 동일한 가중치에서 시작하지만 모델링을 통한 예측변수에 의해 오분류된 개체들에는 높은 가중치를 부여하고, 정분류된 객체들에는 낮은 가중치를 부여하여 오분류된 객체들이 더 잘 분류되도록 하는 방법이 부스팅 방법입니다. 이 방법을 통해 예측 모형의 정확도를 향상시킬 수 있습니다. 하지만 부스팅의 경우 오버피팅의 위험이 배깅보다 크고 직렬적으로 학습해 속도가 느리다는 단점이 있습니다.
'인공지능(AI) > 머신러닝(ML)' 카테고리의 다른 글
머신러닝의 종류: 지도학습과 비지도학습 (0) | 2022.10.12 |
---|---|
[핸즈온 머신러닝] 5. 정규화 (0) | 2021.12.05 |
[핸즈온 머신러닝] 6장. 서포트 벡터 머신 (0) | 2021.12.05 |
[핸즈온 머신러닝] 4장. 로지스틱 회귀(분류) (0) | 2021.12.03 |
[핸즈온 머신러닝] 3장. 다항 선형 회귀 (0) | 2021.12.01 |