공부 정리 블로그

특징 선택 본문

대학원 수업/패턴인식

특징 선택

따옹 2022. 12. 19. 07:16

특징 선택

원래 특징 벡터에서 쓸모없거나 중복성이 강한 특징을 찾아 제거

차원을 낮추어 계산 속도 향상 및 일반화 능력 증대 효과

(a)가 가장 좋은 특징 벡터로 분별력이 좋다 Sb/Sw 최대가 되는 방gid으로 (pca)

분별력 측정

특징 벡터 x가 얼마나 좋은지의 척도를 분별력/ 부류 분리 능력이라 부르며

척도는 다음 세 가지가 있음

 

다이버전스, 훈련 샘플의 거리, 분류기 성능

 

1. 다이버전스

값이 클수록 separation이 커지고 분류기의 성능이 좋아짐

확률 분포를 알 때 적용 가능하므로 확률 추정이 안고 있는 차원의 저주 문제를 이어받음

 

2. 훈련 샘플의 거리

훈련 집합에 있는 샘플을 가지고 직접 측정(현실 적용이 쉬움)

 

 

 

3. 분류기 성능

SVM 수행 => 성능을 특징 벡터 x의 분별력으로 취함

학습이 필요하여 시간이 오래 걸리지만 가장 정확한 성능을 알 수 있음

 

특징 선택 문제의 이해

개와 고양이를 분류하는데 눈의 개수와 같이 높은 중복성을 가진 특징은 제외

하지만 실제 상황에서는 이런 직관을 사용하기 힘들기 때문에

효과적인 알고리즘 필요

 

탐색 알고리즘

1. (가장 기본으론) 임의 탐색 알고리즘 : 아무 생각 없이 여기 저기 뒤져보는 순진한 알고리즘

 

2. 개별 특징 평가 알고리즘 : 부분 집합 선택 후 (가장 좋은 d, 그 다음 좋은 d 분별력의 순으로 )내림 차순 정리 한 후 가장 좋은 특징 순으로 선택 후 분류기 성능이 가장 좋은 부분 집합을 선택함

 

전역 탐색 알고리즘

모든 영역을 탐색하는 것은 시간이 너무 많이 걸리므로 낱낱 탐색, 한정 분기로 접근(현재의 부분집합보다 하나의 작은 부분집합에서 가장 좋은 부분 집합을 찾음, 현재 부분집합보다 성능이 좋지 않을 시 버림, 탐색 공간은 적어지나 전역 조건을 만족한다는 가정하에 수행 d1이 성능이 좋지 않을 때 d2도 좋지 않음 / 하지만 일반적으로 이 조건을 만족하지 않음)

한정 분기의 예

더 좋은 해가 나오지 않을 거 같은 영역은 버림

시간을 줄이고 좋은 해를 얻는 알고리즘 고안 필요

 

순차 탐색 알고리즘

특징 하나를 추가하는데, 가장 킁 성능 증가를 가죠오는 특징을 F2에서 F1으로 이동시킴 / 반대로 제거 시 가장 적은 성능 저하를 가져오는 특징을 F1에서 F2로 이동시킴

특징 벡터의 d차원을 하나씩 추가하면서 분별력 측정

SFS 알고리즘

 

모든 순차 탐색 알고리즘은 욕심 greedy 알고리즘

전역 최적점이 아닌 지역 최적점에 빠질 가능성

 

이를 극복하기 위해 

(a)를 방지하기 위해 (b), (c) 활용 / 최대화 문제

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'대학원 수업 > 패턴인식' 카테고리의 다른 글

정리!!!  (0) 2022.12.20
클러스터링  (0) 2022.12.20
특징 추출3 -Fisher의 선형 분별  (0) 2022.12.19
특징추출2- 주성분 분석  (0) 2022.12.19
특징 추출1- 퓨리에 변환  (0) 2022.12.19