개요
Ensemble Learning 자료를 보고 정리해둔다.
내용 정리
- 만능의 최적의 알고리즘이 존재하는가?
- 모든 데이터에 대한 만능 알고리즘은 존재하지 X, 공짜 점심은 없음
- 모든 알고리즘이 최소 2개 이상의 데이터셋에서 best 성능을 나타냄
- 특정 데이터에 알고리즘이 특화되어 있다면 특정 패턴 인식 문제에 최적화 된것으로 볼 수 있음
- 결론 : 하나의 알고리즘보다 다양한 알고리즘을 알고 있는게 여러 분류문제를 푸는데 더 안전한 방법이라는 것
- 그러나 적절한 앙상블일 경우 개별 알고리즘 보다 성능이 나아짐을 확인
- sing vs ensemble algorithms for 23 datasets
- 일반 대비 C4.5로 표시된 앙상블의 성능이 더 낫다.
- MEAN으로 표시된 앙상블 성능이 단일모델 대비 더 우수함
- 공짜 점심 이론
- 어떤 알고리즘도 모든 상황에서 다른 알고리즘 보다 우월하다고 말할 수 없다
- 문제의 목적, 데이터의 형태 등을 종합하여 최적의 알고리즘을 선택할 필요가 있음
- 179개 알고리즘을 121개 데이터셋으로 실험했을때 독보적인 단일 알고리즘은 없었음
- Do We Need Hundreds of Classifiers to Solve Real World Classification Problems?
- 현실세계의 문제를 푼다고 하더라도 알고리즘 수가 많았을때 단일 모델 대비 성능 향상을 확인 할 수 있었음