공부 정리 블로그

질적 분류 decision tree 본문

대학원 수업/패턴인식

질적 분류 decision tree

따옹 2022. 12. 18. 21:07
계량 데이터(quantitative 양적인) 비계량 데이터(qualitative 질적인)
점수, 매출액, 거리개넘 직업, 행정구역, 거리 개념 없음 
distance 비례 1/ similarity
metric 에 의한 데이터 계량 불가

 

질적 분류기

결정 트리 decision tree

스트링 인식기 distance metric

 

결정 트리

스무고개와 개념이 비슷, 최적 기준에 따라 자동으로 질문을 만들어야 함

고려 사항

1. 노드에서 몇 개의 가지로 나눌 것인가

2. 각 노드의 질문은 어떻게 만들 것인가

3. 언제 멈출 것인가

4. 잎 노드를 어느 부류에 할당할 것인가

 

결정 트리의 표현

이진 트리 또는 트리 사용

 

질문을 어떻게 만들 것인가

- d개의 특징이 있고 그들이 평균 n개의 값을 가진다면 dn개의 후보 질문

- 그들 중 어떤 것을 취해야 가장 유리한가?

 

유리한 정도의 판단 기준은?

Xtleft와 Xtright가 동질일 수록 좋다

 

언제 멈출 것인가? 과적합vs 설익은 트리

 

tree 는 불안정성이 크다 / 손실 특징 (surrogate split) 
특징 feature가 빠졌을 때, 미리 back up query 를 준비해서  x=3이라는 질문 대신 성능이 비슷한 x=2질문으로 대응

(training)tree growing 

- split

- prunning

 

 

 

 

 

'대학원 수업 > 패턴인식' 카테고리의 다른 글

시계열 데이터1 - Markov chain  (0) 2022.12.19
질적 분류2 - 스트링 인식기  (0) 2022.12.18
비선형 SVM  (0) 2022.12.18
선형 SVM  (0) 2022.12.18
[1장] 패턴 인식 소개  (0) 2022.10.23