Recent Posts
Recent Comments
Link
Today
Total
12-28 17:06
관리 메뉴

Hippo's data

앙상블(Ensemble) 본문

ML(Machine Learning)

앙상블(Ensemble)

Hippo's data 2024. 1. 8. 17:09
728x90

오늘은 앙상블 방법에 대해 알아보겠습니다!

 

앙상블(Ensemble)이란 여러 기본모델(base model)을 결합하여 새로운 모델(Ensemble model)을 생성하는 것입니다 여러 모델을 결합하므로 단일 모델에 비해 성능이 우수하며 편향과 분산을 고려하므로 과적합 방지에 용이합니다

 

그렇다면 모델을 결합하는 방법에 대해 알아보겠습니다!

1. 보팅(Voting)

-> 여러 모델 결과를 기반으로 투표를 통해 결과 도출

하드 보팅(Hard Voting) -> 다수결 선택

소프트 보팅(Soft Voting) -> 각 모델 예측 확률값 평균으로 선택

 

2. 배깅(bagging)

-> Bootstrap Aggregation의 약자 

-> 복원 추출하여 병렬학습 

 

1. 학습데이터를 복원추출하여 여러 샘플 데이터를 만듦

2. 각 샘플 데이터에 동일한 모델학습

3. 보팅을 통해 최종예측

 

예시) 랜덤포레스트 모델 (random forest)

 

3. 부스팅(Boosting)

-> 여러 모델을 직렬(순차적)학습

-> 틀린 데이터에 가중치를 부과하여 틀린 데이터를 더 잘 맞추도록 학습됨

 

예시) 아다부스트(AdaBoost), 그래디언트 부스팅(Gradient Boosting)
, 엑스지부스트(XGBoost), 라이트쥐비엠(LightGBM)

 

# 배깅과 부스팅 비교

https://statkclee.github.io/ml/ml-tree-model.html#1_%EB%82%98%EB%AC%B4%EA%B8%B0%EB%B0%98_%EB%AA%A8%ED%98%95_1_2

-> 부스팅은 배깅에 비해 오류 적음, 성능좊음 / 그로인해 속도느리고 과적합 가능성 존재 

-> 낮은성능 문제 -> 부스팅 사용 / 과적합 문제 -> 배깅 사용

 
728x90