랜덤포레스트

    [ 혼자 공부하는 머신러닝 + 딥러닝 ] 트리의 앙상블

    [ 혼자 공부하는 머신러닝 + 딥러닝 ] 트리의 앙상블

    가지런히 정리되어 있는 CSV파일, 엑셀파일등을 정형 데이터라고 부른다. 글과 같은 텍스트 데이터, 사진, 음악등을 비정형 데이터라고 부른다. 정형 데이터를 다루는데 가장 뛰어난 성과를 내는 알고리즘이 앙상블 학습이다. 랜덤 포레스트 앙상블 학습의 대표 주자 중 하나로 안정적인 성능을 낸다. 결정트리를 랜덤하게 만들어 결정트리의 숲을 만든다. 각 결정 트리의 예측을 사용해 최종 예측을 만든다. 입력한 훈련 데이터에서 랜덤하게 샘플을 추출하여 훈련 데이터를 만든다. → 샘플의 중복을 허용한다. 이렇게 만들어진 샘플을 부트스트랩 샘플이라고 부른다. → 기본적으로 부트스트랩 샘플의 크기는 훈련세트의 크기와 같게 만든다. 각 노드를 분할할 때 전체 특성 중에서 일부 특성을 무작위로 고른 다음 최선의 분할을 찾는..