금융 머신러닝 개요
머신러닝 개요, 앙상블 학습
주빌리20
2024. 9. 10. 21:35
반응형
1. 앙상블 학습의 개념
앙상블 학습이란 여러 개의 분류기를 생성하고 각 예측들을 결합함으로써 보다 정확한 예측을 도출하는 기법입니다.
- 앙상블 학습 → 선형 분류기와 같은 간단한 학습기로 학습을 수행하되, M개의 학습기를 결합함으로써 결과적으로 더 좋은 성능을 가진 학습기를 만들고자 하는 방법 → 고려사항: 어떤 학습기? 어떻게 결합?
- 학습기 선택을 위한 차별화 방법 → 학습 알고리즘의 차별화, 모델 선택과 관련된 파라미터의 차별화, 학습 데이터의 차별화
- 결합 방법 → 병렬적 결합, 순차적 결합
- 학습 데이터 생성 방법에 따른 분류 → 필터링에 의한 방법, 리샘플링에 의한 방법(예, 배깅), 가중치 조정에 의한 방법(예, AdaBoost)
2. 배깅과 보팅
- 배깅 → 리샘플링 기법을 적용한 학습기 선택 방법
- 배깅에 의한 학습 시 고려사항 → 전체 학습 데이터의 집합의 크기가 충분히 크지 않으면 각 학습기를 위한 학습 데이터의 크기를 전체 학습 데이터의 크기와 동일하게 설정하고, 학습기는 데이터 집합의 변화에 민감한 다층 퍼셉트론이나 최근접이웃 분류기 등이 바람직
- 보팅 → 학습기 결합 방법 → M개의 학습기 결과를 모두 동일한 정도로 반영하여 평균한 결과를 얻는 방법
- 각 학습기가 내는 오차값들이 서로 독립적일 때, 결합된 학습기의 일반화 오차는 각각의 개별적인 학습기의 평균적인 일반화 오차의 1/M배로 감소
3. 부스팅
- 부스팅 → 학습기들을 순차적으로 학습하도록 하여 먼저 학습된 학습기의 결과가 다음 학습기의 학습에 정보를 제공함으로써, 이전의 학습기의 결점을 보완하는 방향으로 학습을 진행
- 필터링에 의한 부스팅 → 가장 먼저 제안된 부스팅 방법 → 학습기별로 서로 다른 데이터 집합을 사용 → 전체 학습에 필요한 데이터의 규모가 매우 커야 한다는 문제점을 가짐
- AdaBoost 알고리즘 → 이전 단계의 분류기의 학습 결과를 활용하여 다음 단계의 학습에 사용될 데이터에 가중치를 부여함으로써 분류기 간의 차별성을 부여하고, 최종 결합 단계에서는 학습에 사용된 가중치를 이용한 보팅 방법을 적용하여 작은 오분류율을 가진 분류기가 판단에 더 중요한 역할을 하도록 함 → 이진 분류 문제에 적합한 방법
4. 결합 방법
- 평균법 → 학습기의 출력이 수치형일 때 적합한 방법 → 단순평균과 가중평균
- 보팅법 → 분류 문제에서 많이 사용하는 방법 → 다수결 투표와 가중 보팅 → 학습기의 출력값의 유형에 따라 하드 보팅(0 또는 1)과 소프트 보팅(0~1 사이의 확률값)으로도 구분
- 결합을 위한 학습기(결합기) → 기본 학습기의 결과를 결합하기 위한 학습기
- 캐스케이딩 → 계산 효율을 높이면서 안정적인 성능을 얻기 위하여 전략적으로 여러 가지 복잡도를 가진 학습기를 순차적으로 결합하는 방법 → 단계가 높아질수록 더욱 복잡하면서 성능이 좋은 학습기를 사용하는 것이 효과적임
- 전문가 혼합법 → 복수 개의 학습기를 가중합하여 최종 학습기를 만드는 결합 방법 → 가중합 계수를 입력에 대한 함수 형태로 사용함으로써 주어진 입력에 따라 어떤 학습기를 중요하게 사용할 것인가가 달라짐
반응형