본문 바로가기
Pattern Classification [수업]

Ch3.2 Maximum-likelihood Estimation

by Keep It Simple, Stupid! 2020. 9. 22.

 2020-2학기 서강대 김경환 교수님 강의 내용 및 패턴인식 교재를 바탕으로 본 글을 작성하였습니다.

 

3.2 Maximum likelihood estimation (최대 우도 추정)


Attractive attributes

  • Good convergence properties as the number of training samples increases.
  • Simpler than alternative methods

 최대 우도 추정법은 훈련 데이터 샘플 수가 증가함에 따라 거의 항상 좋은 수렴 특성을 갖는다. 그리고, 최대 우도 추정은 Bayes 기법 또는 다른 방법들 같은 대안적 방법들보다 더 단순해서 매력적으로 보인다.

The General principle (일반적 원칙)

  • $D_1, ... , D_c$ : $c$ data sets

 class에 따라 샘플들을 분리해서 $c$개의 데이터 집합 $D_1, ... , D_c$를 갖는다고 하자. 이러한 샘플들을 i.i.d (independent and identically distribution), 즉 독립적이며 동일하게 분포하는 랜덤 변수들로 가정하여, 여기서 $D_j$의 샘플들은 확률 법칙 $p(\mathbf{x}|\omega_j)$에 따라 독립적으로 뽑혀졌다고 보자. 

  • Assume that $p(\mathbf{x}|\omega_j)$ has a known parametric form and determined by a parameter vector $\boldsymbol{\theta}$

  $p(\mathbf{x}|\omega_j)$가 기지의 파라미터(known parametric)적 형 태를 가지며, 그 결과, 파라미터 벡터 $\boldsymbol{\theta}_j$의 값에 의해 유일하게 결정된다고 가정하자. 

 예를 들면, $\boldsymbol{\theta}_j$가 $\boldsymbol{\mu}$ (vector), 와 $\boldsymbol{\sum_j}$의 요소들로 구성되는 $p(\mathbf{x}|\omega_j) \sim N(\boldsymbol{\mu_j}, \boldsymbol{\sum_j})$를 가질 수 있다.

참고 : $p(\mathbf{x}|\omega_j) = p(\mathbf{x}|\omega_j, \boldsymbol{\theta}_j$)

  • The problem is to use the information provided by the training samples to obtain good estimates for the unknown parameter vector $\boldsymbol{\theta}$ associated with the category.

 문제는 각 class(category)와 관련된 미지의 벡터 $\theta_1, ... ,\theta_c$에 대한 좋은 추정을 얻기 위해 훈련 샘플들에 의해 제공되는 정보를 이용하는 것이다. 

  • To simplify the problem, let us assume that samples in $D_i$ give no information about $\boldsymbol{\theta}$ if $i \neq j$.

 이 문제를 단순화하기 위해서, $D_i$의 샘플들이 $i \neq j$이면 $\Theta_j$에 관한 정보를 제공하지 않는다고 가정하겠다. 즉 다른 클래스들에 대한 파라미터들은 함수적으로 독립적으로 가정할 것. 이렇게 하면 각 클래스를 분리해서 다룰 수 있게 되며, 클래스 구별 표시를 삭제해서 표기를 단순화할 수 있다. 이 가정에 의해, 다음 형태의 $c$개의 분리된 문제를 갖게 된다. 

 확률 밀도 $p(\mathbf{x}|\omega)$로부터 독립적으로 뽑은 훈련 샘플들의 집합 $D$를 사용해서 미지의 파라미터 벡터 $\boldsymbol{\theta}$를 추정한다.

  • Suppose the $D$ contains $n$ samples, $\mathbf{x}_1, … , \mathbf{x}_n$

 $$p(D \mid \boldsymbol{\theta})=\prod_{k=1}^{n} p\left(\mathbf{x}_{k} \mid \boldsymbol{\theta}\right)$$

  • $\widehat{\boldsymbol{\theta}}$ : the maximum-likelihood estimate of $\boldsymbol{\theta}$ is the value that maximizes $p(D|\boldsymbol{\theta})$

 $\boldsymbol{\theta}$의 함수로 보면, $p(D|\boldsymbol{\theta})$는 샘플 집합에 관해 $\boldsymbol{\theta}$의 우도라고 불림을 기억할 것이다. $\boldsymbol{\theta}$의 최대 우도 추정은 정의에 의해 $p(D|\boldsymbol{\theta})$를 최대화하는 값 $\widehat{\boldsymbol{\theta}}$이다. 

  • It is easier to work with logarithm of the likelihood.
  • If the number of parameters to be estimated is $p$ (parameter 갯수)

  • A set of necessary conditions for the maximum-likelihood estimate for $\boldsymbol{\theta}$ can be obtained by 

$$\nabla_{\theta} l(\boldsymbol{\theta})=\mathbf{0}$$

  • The equation could represent a true global maximum, a local maximum or minimum, or an inflection point of $l(\boldsymbol{\theta})$

 MAP (maximum a posteriori) estimation (잠깐 언급)

  • A related class of estimators which find the value of $\boldsymbol{\theta}$ that maximizes $l(\boldsymbol{\theta})p(\boldsymbol{\theta})$ where $p(\boldsymbol{\theta})$ describes the prior probability of different parameter values.
  • A maximum-likelihood estimations is a MAP estimator for the “flat” prior

 

▶ The Gaussian Case: Unknown µ (직접 전개해보기)

[MLE 전개 과정]

▶ The Gaussian Case: Unknown µ and Σ (직접 전개해보기)

 

▶ Bias

...

 

 다음 Ch3.3 에서는 본격적으로 "Bayes estimation" 를 다루도록 하겠습니다.

 

Reference


댓글