콘텐츠로 이동

2022 05 13

2022-05-13

Decision Tree와 Impurity 지표

  • 참고: https://process-mining.tistory.com/42
  • 참고: https://process-mining.tistory.com/106
  • Decision Tree
    • 데이터를 이용하여 이를 분류하거나 원하는 어떤 결과값을 예측하는 분석 방법
    • Terminal node가 가장 섞이지 않은 상태로 완전히 분류되는 것
      • 즉 복잡성(entropy)이 낮도록 만드는 것
    • 각 subset의 복잡성이 가장 낮은 방향으로, 가장 덜 섞인 방향으로 decision tree 발전시켜 나가는 것!
  • Impurity
    • 각 노드들의 복잡성
    • 해당 노드안에서 섞여있는 정도가 높을수록 복잡성이 높고, 덜 섞일수록 복잡성이 낮다
    • 결과 노드 안에서 섞여있는 정도가 낮은 tree 만드는 것이 목표
  • Entropy
    • 각 노드의 엔트로피를 다음과 같은 식으로 구할 수 있음
    • 약간 분산의 정도를 수식으로 표현하는 듯
  • GINI Index
  • Information gain
    • Impurity 지표를 바탕으로 impurity가 얼마나 개선되었는지를 계산할 수 있는 것이 Information gain
    • Split을 많이 할수록 node의 impurity가 낮아, information gain에서 더 좋은 성능 보임
      • 이를 보완하기 위해 만들어진 개념 Inforamtion Gain Ratio
  • Information Gain Ratio