본문 바로가기
Pattern Classification [수업]

Ch3.1 Maximum likelihood and Bayesian parameter estimation

by Keep It Simple, Stupid! 2020. 9. 22.

 2020-2학기 서강대 김경환 교수님 강의 내용 및 패턴인식 교재를 바탕으로 본 글을 작성하였습니다.

 

3.1 Maximum likelihood and Bayesian parameter estimation - Introduction


  2장에서는 p(ωi)와  클래스-조건부 밀도 p(x|ωi)를 아는 경우, 최적 분류기를 설계하는 방법을 다뤘다. 하지만, 패턴인식 응용에서는 문제의 확률적 구조에 관한 이런 종류의 완전한 지식거의 갖지 않는다

P(wj|x)=p(x|wj)P(wj)p(x)=p(x|wj)P(wj)j=1cp(xωj)P(ωj)

 

▶ An optimal classifier can be designed if we know p(ωi) and p(x|ωi) - Ch 2

 Complete knowledge aboud the probabilistic structure is rarely provide

  • Vague and general knowledge about the situation (상황에 관한 모호함)
  • Limited number of design samples or training data (학습 데이터에 대한 부족)

 즉, 위의 두 상황에서의 분류기를 설계 또는 훈련시키는 어떤 방법을 찾는 것이 이번 장의 내용이다.

 The problem

  • To find some way to use this informaion to design or train the classifer. 

 

▶ An approach 

 To use the samples to estimate the unknown probabilities/densities, then use the resulting estimates as if they were the true values.

 즉, 위 문제에 대한 한 가지 접근 방법은 샘플들을 이용해서 미지의 확률 및 밀도를 추정하고, 결과로 얻는 추정들을 마치 참 값인 것처럼 사용하는 것이다.

  • Estimating prior probabilities/class-conditional densities. (어려움)
  • The number of available samples always seems too small. 
  • The dimensionality of the feature vector x is large. (차원의 저주)
  • If we know the number of parameters and our knowledge about the problems, the severity of these problems can be reduced.
    • If p(x|ωi) is a normal density, the problem becomes to estimate μi and i.

 parameter 수를 미리알고, 문제에 관한 지식이 우리가 조건부 밀도들을 파라미터로 나타내는 것을 허용해준다면, 이 문제들의 심각성(어려움, 차원의 저주)은 현저하게 줄어든다. 예를 들어, p(x|ωi)가 평균은 μi, 공분산 행렬은 i 인 정규 분포라고 무리 없이 가정할 수 있다고 하면, parameter를 추정하는 것으로 아주 단순해진다. 

 

▶ Paramter Estimaion (2 ways)

Maximum-likelihood estimation (MLE)

  • The parameters are regarded as quantities whose values are fixed but unknown.
  • The best estimate of their value is defined to be the one that maximizes the probability of obtaining the samples actually observed.

Bayesian estimation (MAP)

  • The parameters are regarded as random variables having some known prior distribution.
  • Observation of the samples converts this to a posterior density.
  • A typical effect of observing additional samples is to sharpen the a posteriori density function : Bayesian learning

 

 

 다음 Ch3.1에서는 본격적으로 Parameter estimation 방법 중 likelihood(우도)를 최대화하는 방법으로 추정하는 "Maximum-likelihood Estimation" 를 다루도록 하겠습니다. 

 

Reference