패턴인식 2
유사해보이는 sample의 문제점 잘 풀어야 분류 / clustering 이 쉬워진다.
feature의 종류
discrete / continous / (yes/ no, O/X, 빨/노) decision tree에 적합
후처리 post processing / context 정보 사용
그림 1.6 처럼 뽑은 feature가 잘 되지 않는 이유
1. feature 추출 오류
2. 잘못된 분류기 모델에 넣음
지문인식 분류는 잘되지만 실제에서는 큰 error가 있음
확률 밀도 함수의 조건
1. 모든 x가 양수이다.
2. x의 모든 sum이 1이다.
feature vector
d - dimension
n - sample
c - class
상자 A, B class
공 sample
error가 최소가 되도록 분류
사전 확률과 우도를 모두 고려하겠다 -> 사후 확률
P(X, Y) = P(Y, X)
P(Y)P(X|Y) = P(X)P(Y|X)
분모의 P(Y) scailing filter 역할
X, Y 둘 다 random variable
하얀공을 뽑았을 때, B일 확률이 크다
prior - 어떤 샘플이 있을때, 어떤 클래스에 속하는가
샘플을 보지 않아도 어느정도 decision이 가능하다
likehood - sample이 가진 확률분포 함수 decision가능
posteriror - 두개를 같이 합쳐서 고려 (prior, likehood 편항이 있을 수 있으므로), 베이스룰 prior - 어떤 샘플이 있을때, 어떤 클래스에 속하는가
샘플을 보지 않아도 어느정도 decision이 가능하다
likehood - sample이 가진 확률분포 함수 decision가능
posteriror - 두개를 같이 합쳐서 고려 (prior, likehood 편항이 있을 수 있으므로), 베이스룰 공식
빨간색과 검정색을 합치면 1이 된다.
베이지언 decision rule 사후확률에 의해 decision
사후확률 likelihodd+posterior 합친 것
이산 확률 분포 convariance matrix 공분산
if d=1, 1/N 시그마(X-M)^2
샘플집합 sample mean
샘플 집합 sample variance
대각선 값은 각각의 분산값
((d-d)^2)/2 + d/2 = (d^2+d)/2
(이 장 잘 모르겠음)
(공분산 정리 필요)
차원의 저주 기준은?
샘플 개수가 d>10 그래도 괜찮지 않나
d<<n/10
지금은 이런 식으로 처리하진 않음(샘플이 많아서)
연속인 경우, 정규분포(normal,Gaussian distribution)를 많이 사용
(뮤, 분산^2), (뮤 벡터, 시그마)
정규분포를 선호하는 이유?
???(잘 안들림_43분 경)
베이지언은 샘플과 레이블을 가진다.
각 샘플마다 lable이 있음(1~10까지)
data를 feature space에 그리면 그림1,6과 보인다
1,6처럼 보이면 쉬운 문제는 아니다. 1은 넓게, 다른 벡터들은 뭉쳐서 보이기 때문
이런 data를 분류할때, prior, likelihood, posterior를 본다.
사후확률에 비례하는 값을 구해서 2.16을 계산
사후확률을 계산하려면 likelihood, prior 필요
p(x)는 계산 불가 공통 분모로 제외
사후확률에 비례하는 값을 계산해서 상대적인 크기를 계산
N이 커야 의미가 있는 값
likelihood 생선의 길이와 lightness 분포를 어떻게 확률분포를 구할 것인가 -> 3편
정규분포 편균, 분산만 알면 정규분포 형태를 표현 가능
parameteric density function(PDF) (a뮤, 분산^2)