의사결정나무란?
전체 자료를 몇 개의 소집단으로 분류하거나 예측하는 분석 방법
유형
- 분류나무 - 이산형 목표변수
- 회귀나무 - 연속형 목표변수
구성요소
- 부모마디(Parent Node) : 주어진 마디의 상위 마디
- 자식마디(Child Node) : 하나의 마디로부터 분리되어 나간 2개 이상으 ㅣ마디
- 뿌리마디(Rood Node) : 시작되는 마디
- 끝 마디(Terminal Node, Leaf Node) : 자식마디가 없는 가장 마지막 마디
- 가지(Branch) : 뿌리 마디로부터 끝 마디까지 연결된 마디들
- 깊이(Depth) : 뿌리 마디부터 끝 마디까지의 중간 마디 개수
분석 프로세스
1. 의사결정 나무 성장 (Growing)
종속변수와 관계가 있는 독립변수를 추가하고, 적절한 분리 규칙을 찾아서 나무를 성장시키는 과정으로 정지 규칙을 만족하면 중단한다.
a. 분류나무 분리 기준 (불순도의 척도)
- 카이제곱 통계량의 p-value : 데이터의 분포와 사용자가 선택한 기댓값/가정된 분포 사이의 차이값
- 지니 지수 : 노드의 불순도를 나타내는 값 (값이 클수록 불순함)
- 엔트로피 지수 : 무질서 정도에 대한 측도 (값이 클수록 불순함)
b. 회귀나무 분리 기준
- 분산 분석에서 F-통계량
- 분산의 감소량
2. 가지치기 (Pruning)
분류 오류를 크게할 위험이 높거나 부적절한 추론 규칙을 갖고 있는 가지를 제거
3. 타당성 평가
이익도표(Gain Chart), 위험도표(Risk Chart), 평가 데이터를 이용하여 교차 타당성(Cross Validation) 등을 이용한 평가 수행
4. 해석 및 예측
구축된 DT 모형을 예측
의사결정나무 알고리즘
1. CART(이진분할; Classification And Regression Tree)
각 독립변수를 이분화하는 과정을 반복하여 이지늩리 형태를 형성함으로써 분류 수행
2. C4.5 및 C5.0
가지치기를 사용할 때 학습자료를 사용하는 알고리즘
3. CHAID(다지분할; chi-squared Automatic Interaction Detection)
AID를 발전시킨 알고리즘으로 가지치기 하지 않고 나무를 적당한 크기에서 성장을 중지하는 알고리즘
4. QUEST
변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 CART의 문제점을 개선한 알고맂므으로,
분리 변수 선ㅌ액과 분리점 선택의 두 단계로 나누어 진행
[분류 기준]
| 알고리즘 | 이산형 목표변수(분류나무) | 연속형 목표변수(회귀나무) |
| CHAID (다지분리) | 카이제곱 통계량 | ANOVA에서 F-통계량 |
| QUEST (이진분리) | ||
| CART (이진분리) | 지니지수 | 분산의 감소량 |
| C4.5 / C5.0 (다지분리) | 엔트로피 지수 | - |
활용도
- 분류
- 예측
- 차원축소/변수선택
- 교호작용 효과의 파악
장단점
| 장점 | 단점 |
| 해석의 용이성 | 비연속성 |
| 상호작용 효과의 해석 가능 | 선형성 또는 주 효과의 결여 |
| 비모수적 모형 | 비안정성 |
| 높은 유연성 및 정확도 |
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
| [빅데이터분석기사 필기] 3-2. (1) 서포트 벡터 머신(SVM; Support Vector Machine)_지도학습/분류 (0) | 2025.09.05 |
|---|---|
| [빅데이터분석기사 필기] 3-2. (1) 인공신경망(Artificial Neural Network; ANN)_지도학습/분류, 비지도학습 (0) | 2025.09.05 |
| [빅데이터분석기사 필기] 3-2. (1) 회귀분석 (Regression Analysis)_지도학습/예측 (0) | 2025.09.05 |
| [빅데이터분석기사 필기] 3-2. (1) 분석기법 개요 (0) | 2025.09.04 |
| [확률통계론] 이산확률분포(Discrete Probability Distribution) (0) | 2025.08.31 |