목록대학원 수업/패턴인식 (18)
공부 정리 블로그

1. SVM 개념 각각의 class에 있는 sample들과 만나게 되는 가장 처음 sample(support vector) 중에 여백(margin)을 가장 크게 하는 w를 찾는 문제 2차함수 문제가 되어 아래로 볼록이므로 해가 유일하고 구한 해는 전역 최적점을 보장한다. 문제의 난이도가 N개의 선형 부등식을 조건으로 가진 2차 함수 최적화 문제가 됨 조건부 최적화 문제는 라그랑제 승수로 접근(lagrange multiplier) 라그랑제 승수 방법을 통해 목적 함수와 조건을 하나의 식으로 만들고 KKT 조건을 이용하여 라그랑제 함수를 최적화 하는 해를 구함 2차 함수 최적화 문제는 Wolfe 듀얼로 최댓값을 구하는 문제로 변환할 수 있어 조건이 등식 조건으로 되어 풀기 유리해진다. 이때 w와 b가 사라져..

패턴인식 문제로 공식화 가능 고객 - 샘플 / 샘플을 특징(직업, 월평균 구매액) 벡터로 표현 유사한 (거리가 가까운 )샘플 집합을 군집이라 함 군집화 표현을 위해서는 1)거리 척도, 2)유사한 샘플을 군집으로 만드는 알고리즘 필요 지도 학습과 비지도 학습 지도 학습 : 각 샘플이 그가 속한 부류를 안다 비지도 : 샘플 부류 정보 없음 군집화는 비지도 학습 / 군집이 몇 개인지도 잘 모름 서로 유사해 보이는 샘플들 끼리 군집화 거리와 유사도는 반대 개념으로 하나를 알면 공식을 이용하여 다른 것을 쉽게 계산할 수 있음 특징 값의 종류 양적 특징(수량) 거리 개념 없음 / 나이, 연봉, 월평균 구매액 질적 특징(순서값 : 반품 성향, 선호 물품 수준, 명칭값 : 직업, 성별) 거리 개념 없음 거리와 유사도 ..

특징 선택 원래 특징 벡터에서 쓸모없거나 중복성이 강한 특징을 찾아 제거 차원을 낮추어 계산 속도 향상 및 일반화 능력 증대 효과 분별력 측정 특징 벡터 x가 얼마나 좋은지의 척도를 분별력/ 부류 분리 능력이라 부르며 척도는 다음 세 가지가 있음 다이버전스, 훈련 샘플의 거리, 분류기 성능 1. 다이버전스 값이 클수록 separation이 커지고 분류기의 성능이 좋아짐 2. 훈련 샘플의 거리 훈련 집합에 있는 샘플을 가지고 직접 측정(현실 적용이 쉬움) 3. 분류기 성능 SVM 수행 => 성능을 특징 벡터 x의 분별력으로 취함 학습이 필요하여 시간이 오래 걸리지만 가장 정확한 성능을 알 수 있음 특징 선택 문제의 이해 개와 고양이를 분류하는데 눈의 개수와 같이 높은 중복성을 가진 특징은 제외 하지만 실제..

Linear Discriminant Analysis 특징 추출이 아닌 분류기 설계 PCA는 정보 손실 최소화 Fisher LD는 분별력을 최대화 유리한 정도를 어떻게 수식화 하고, 가장 유리한 축을 어떻게 찾을 것인가? => 기본 아이디어 : 같은 부류에 있는 클래스 샘플들 간의 거리는 가깝고 다른 부류의 샘플들 간의 거리는 멀어야 함 특징 추출은 패턴인식 과정에서 휴리스틱한 경험과 실험에 따른 시행 착오가 가장 많이 필요 특징 분별력 한계 경향을 어기는 상황 그래도 만족 스럽다면 그것으로 특징 설계 특징이 만족스럽지 않다면, 버리던가 새로운 특징을 추가하여 특징 결합 특징이 가는 정보 전역 정보(검은 화소 비율), 지역 정보(프로파일)

주성분 분석 principle component analysis (PCA) 훈련 집합을 이용하여 매개 변수를 추정하고 그것을 이용하여 특징 추철 정보의 손실을 최소화하는 조건에서 차원 축소 Karhunen-Loeve(KL) 변환, Hoteling 변환이라 부름 주성분 분석의 동기 U는' 정보 손실을 최소화하며' 신호 s를 보다 낮은 차원의 특징 벡터 x로 변환(d분산을 최대화하는 u를 찾는 과정 훈련 집합의 공분산 행렬을 구하고, 그것의 고유 벡터를 구하면 그것이 바로 최대 분산을 갖는 u가 됨 u = (u1, u2,,,,, ud) upper D -> lower d x = u**t s x = Us (dx1) = (dxD)(Dx1) 고유 얼굴 얼굴 데이터는 평균이 존재하는 데이터 => PCA

특징 추출의 예 필기 숫자 인식 특징의 우수성 기준 분별력, (얼마나 고)차원인가 특징 생성 과정은 매우 다양 특징 추출은 외부 환경에 맞게 설계해야하기 때문 예)숫자, 한글 다름 / 한글 통째로 인식, 자소 분할 / 정면 얼굴 영상, 시계열 데이터, 측정 벡터 모멘트와 중심 모멘트 뷸변 특성 이동 불변, 크기 불변, 회전 불변 투영 특징 N+M차원의 특징 벡터를 얻게됨 행투영 열투영 프로파일 특징 2(N+M)차원의 특징 벡터를 얻게됨 상,우,하,좌 프로파일 *파형 신호에서의 특징 추출 지진판, 기계 진동파, 수중파, 음파, 재정 자립도 추이 곡선 등 *파형에서 어떻게 특징을 추출? 파형은 기저 함수의 선형 결합으로 표현 가능 선형 결합의 계수를 특징으로 취함, 퓨리에 변환 이산 퓨리에 변환 퓨리에 변혼..

마코프 모델 HMM 차이 마코프 - state별로 하나씩 상태가 있음 HMM - 각각 state에서 어떤 관측값이 있을지 확률값으로 나타남 하나의 관측값에서 여러가지 상태값이 확률로 나타남 어떤 상태의 행렬이 나타남에 따라 관측값이 다르게 나타남 모든 가능한 상태값 들 중 가장 큰 확률을 가지는 상태의 관측값을 선택 모델이 주어졌을 때, 어떤 관측값에 대한 확률을 추론할 수 있음 아키텍쳐 HMM은 가중치 방향 그래프로 표현 -노드가 상태 -상태로 사용할 것이 명확한 경우도 있지만 그렇지 않은 경우도 있음 대표적인 아키텍쳐 어고딕(반복적인 state가 나타나는 모델), 좌우 모델(음성 인식 적당) HMM의 구성요소 세 가지 문제 평가 : 모델 theta가 주어진 상황에서, 관측벡터 O를 얻었을때, P(O|..

지진파, 음성, 주식 거래량, 온라인 필기 문자 등 순차 데이터 또는 문맥 의존 데이터라 부름 HMM 패턴 인식, 컴비, 데이터 마이닝 등에 쓰임 시간성이 없는 데이터 : 특징들의 선후 관계 무의미 시간성이 있는 데이터(순차 데이터) : 특징들의 선후 관계가 매우 중요 순차 데이터의 특징 가변 길이, 관측 벡터로 표현 O=(o1, o2,,,,,ot) 관측 oi가 가질 수 있는 값의 집합 알파벳이라 함 V={v1, v2,,,vm} 마코프 모델(Markov model) 시간 t에서의 관측은 가장 최근 r개 관측에만 의존한다는 가정 하의 확률 추론 1차 마코프 체인을 사용하면 P(ot=비 | ot-1=비, ot-2=비, ot-3=해) = P( ot=비 | ot-1=비) 주로 1차 마코프 체인 사용 2차 이상에..