카테고리 없음

패턴인식 2

따옹 2022. 10. 10. 23:05

유사해보이는 sample의 문제점 잘 풀어야 분류 / clustering 이 쉬워진다.

 

feature의 종류

discrete / continous / (yes/ no, O/X, 빨/노) decision tree에 적합

 

 

후처리 post processing / context 정보 사용

 

그림 1.6 처럼 뽑은 feature가 잘 되지 않는 이유

1. feature 추출 오류

2. 잘못된 분류기 모델에 넣음

 

지문인식 분류는 잘되지만 실제에서는 큰 error가 있음

확률 밀도 함수의 조건

1. 모든 x가 양수이다.

2. x의 모든 sum이 1이다.

 

feature vector

d - dimension

n - sample

c - class

 

상자 A, B class

공 sample 

error가 최소가 되도록 분류

 

사전 확률과 우도를 모두 고려하겠다 -> 사후 확률

 

P(X, Y) = P(Y, X)

P(Y)P(X|Y) = P(X)P(Y|X)

 

분모의 P(Y) scailing filter 역할

X, Y  둘 다 random variable

 

하얀공을 뽑았을 때, B일 확률이 크다

 

prior - 어떤 샘플이 있을때, 어떤 클래스에 속하는가

샘플을 보지 않아도 어느정도 decision이 가능하다

 

likehood - sample이 가진 확률분포 함수 decision가능

 

posteriror - 두개를 같이 합쳐서 고려 (prior, likehood 편항이 있을 수 있으므로),  베이스룰 prior - 어떤 샘플이 있을때, 어떤 클래스에 속하는가

샘플을 보지 않아도 어느정도 decision이 가능하다

 

likehood - sample이 가진 확률분포 함수 decision가능

 

posteriror - 두개를 같이 합쳐서 고려 (prior, likehood 편항이 있을 수 있으므로),  베이스룰 공식

빨간색과 검정색을 합치면 1이 된다.

 

베이지언 decision rule 사후확률에 의해 decision

사후확률 likelihodd+posterior 합친 것

 

이산 확률 분포 convariance matrix 공분산

if d=1, 1/N 시그마(X-M)^2

 

샘플집합 sample mean

샘플 집합 sample variance

대각선 값은 각각의 분산값

((d-d)^2)/2 + d/2 = (d^2+d)/2

 

(이 장 잘 모르겠음)

(공분산 정리 필요)

차원의 저주 기준은?

샘플 개수가 d>10 그래도 괜찮지 않나

d<<n/10

지금은 이런 식으로 처리하진 않음(샘플이 많아서)

 

연속인 경우, 정규분포(normal,Gaussian distribution)를 많이 사용

(뮤, 분산^2), (뮤 벡터, 시그마)

정규분포를 선호하는 이유?

???(잘 안들림_43분 경)

 

베이지언은 샘플과 레이블을 가진다.

각 샘플마다 lable이 있음(1~10까지)

data를 feature space에 그리면 그림1,6과 보인다

1,6처럼 보이면 쉬운 문제는 아니다. 1은 넓게, 다른 벡터들은 뭉쳐서 보이기 때문

 

이런 data를 분류할때, prior, likelihood, posterior를 본다.

 

사후확률에 비례하는 값을 구해서 2.16을 계산

사후확률을 계산하려면 likelihood, prior 필요

p(x)는 계산 불가 공통 분모로 제외

사후확률에 비례하는 값을 계산해서 상대적인 크기를 계산

N이 커야 의미가 있는 값

likelihood 생선의 길이와 lightness 분포를 어떻게 확률분포를 구할 것인가 -> 3편

정규분포 편균, 분산만 알면 정규분포 형태를 표현 가능

parameteric density function(PDF) (a뮤, 분산^2)