콘텐츠로 이동

Joel's TIL

2022 05 13

2022 05 13

2022-05-13¶

Decision Tree와 Impurity 지표¶

참고: https://process-mining.tistory.com/42
참고: https://process-mining.tistory.com/106
Decision Tree
- 데이터를 이용하여 이를 분류하거나 원하는 어떤 결과값을 예측하는 분석 방법
- Terminal node가 가장 섞이지 않은 상태로 완전히 분류되는 것
  - 즉 복잡성(entropy)이 낮도록 만드는 것
- 각 subset의 복잡성이 가장 낮은 방향으로, 가장 덜 섞인 방향으로 decision tree 발전시켜 나가는 것!

Impurity
- 각 노드들의 복잡성
- 해당 노드안에서 섞여있는 정도가 높을수록 복잡성이 높고, 덜 섞일수록 복잡성이 낮다
- 결과 노드 안에서 섞여있는 정도가 낮은 tree 만드는 것이 목표

Entropy
- 각 노드의 엔트로피를 다음과 같은 식으로 구할 수 있음
- 약간 분산의 정도를 수식으로 표현하는 듯

GINI Index

Information gain
- Impurity 지표를 바탕으로 impurity가 얼마나 개선되었는지를 계산할 수 있는 것이 Information gain
- Split을 많이 할수록 node의 impurity가 낮아, information gain에서 더 좋은 성능 보임
  - 이를 보완하기 위해 만들어진 개념 Inforamtion Gain Ratio

Information Gain Ratio