본문 바로가기
패턴인식과 머신러닝/Ch 02. Probability Distributions

[베이지안 딥러닝] Ch2.3 The Gaussian Distribution

by Keep It Simple, Stupid! 2021. 1. 19.

2020-2학기 이화여대 김정태 교수님 강의 내용을 바탕으로 본 글을 작성하였습니다.

 

Overview


  • The Gaussian distribution
  • Conditional Gaussian distributions
  • Marginal Gaussian distributions
  • Bayes’ theorem for Gaussian variables
  • Maximum likelihood for the Gaussian
  • Sequential estimation
  • Bayesian inference for the Gaussian

 

The Gaussian Distribution


Multi-dimensional Gaussian distribution

$$N({\bf x}|{\pmb \mu}, {\bf \Sigma}) = \dfrac{1}{(2\pi)^{D/2}|{\bf \Sigma}|^{1/2}}\exp\left\{-\frac{1}{2}({\bf x}-{\pmb \mu})^T{\bf \Sigma}^{-1}({\bf x}-{\pmb \mu})\right\} \tag{1}\label{1}$$

The Central limit theorem tells us that the sum of a set of random variables has a distribution that becomes increasingly Gaussian

[Figure 1, PRML]

The Gaussian distribution has many important analytical properties

  • We begin by considering the geometrical form of the Gaussian distribution. 

$\mathbf{x}$에 대한 가우시안 분포의 함수적 종속성은 지수상에서 알 수 있듯이, 아래의 이차식 형태를 가진다.

$$\Delta^2 = ({\bf x}-{\pmb \mu})^T{\bf \Sigma}^{-1}({\bf x}-{\pmb \mu}) \tag{2}\label{2}$$

Eigenvectors

  • $\Delta$ : $\mu$로부터 $\mathbf{x}$까지의 마할라노비스(Mahalanobis distance) 거리
  • $\Sigma$ 가 단위 행렬인 경우 유클리디안 거리(Euclidean distance)와 동일 (special case)
  • Mahalanobis distance는 평균값과의 거리를 측정할 때, 각 변수들의 분산도 고려하여 측정
  • $\Sigma$ 는 symmetric matrix(대칭 행렬)이므로, eigenvector를 이용하여 diagonalization 할 수 있음

$$
\begin{aligned}
\Sigma \mathbf{u}_{i} &=\lambda_{i} \mathbf{u}_{i} \\
\mathbf{u}_{i}^{T} \mathbf{u}_{j} &=\bf{I}_{i j} \\
\Sigma \mathbf{U} &=\mathbf{U} \Lambda \\
\Sigma &=\mathbf{U} \Lambda \mathbf{U}^{T}
\end{aligned}
$$

Coordinate transformation using eigenvectors

2차원에서의 다변량 정규분포를 예제를 들어 공분산 행렬의 역행렬 $\Sigma^{-1}$을 아래 절차를 통해 구해보자.

[Figure 2]
[Figure 3]

⑥과 같이 공분산 행렬의 역행렬을 eigenvalue(고유값)과 eigenvector(고유벡터)로 표현할 수 있다.

The quadratic becomes

$$
\begin{aligned}
\Delta^{2} &=\sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}=(\mathbf{x}-\mathbf{\mu}) \sum_{i=1}^{D} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{T}(\mathbf{x}-\mu)^{T} \\
y_{i} &=\mathbf{u}_{i}^{T}(\mathbf{x}-\mu)
\end{aligned} \tag{3}\label{3}
$$

One can interpret $y_i$ as a new coordinate system

 $y_i$를 정규직교 벡터 $\mathbf{u}_i$들로 정의되는 새로운 좌표계라고 해석할 수 있다. 원래의  $x_i$ 좌표로부터 이동하고 회전된 것으로, 벡터 $\mathbf{y} = \{y_1, y_2, ... , y_D\}^T$이라 하면 아래 식을 얻게 된다.

$$\bf{y} = \bf{U}(\bf{x} - \bf{\mu}) \tag{4}\label{4}$$

[Figure 4, PRML]

Covariance Matrix

▶ Three possible covariance matrices, general, diagonal, isotropic.

Using coordinate transformation, one can always transform random variable into another one that has diagonal covariance matrix

 

Conditional Gaussian distributions


Consider $D$ dimensional random vector $\mathbf{x}$ with Gaussian distribution $N(\bf{x} | \bf{\mu}, \Sigma )$ and we partition $\bf{x}$ into two sebsets $\bf{x}_a$ and $\bf{x}_b$ such that

$$
\mathbf{x}=\left(\begin{array}{l}
\mathbf{x}_{a} \\
\mathbf{x}_{b}
\end{array}\right), \mu=\left(\begin{array}{l}
\mathbf{x}_{a} \\
\mathbf{x}_{b}
\end{array}\right), \Sigma=\left(\begin{array}{ll}
\Sigma_{a a} & \Sigma_{a b} \\
\Sigma_{b a} & \Sigma_{b b}
\end{array}\right) \tag{5}\label{5}
$$

To find the dustribution $p(\bf{x}_a | \bf{x}_b)$, consider

$$
\begin{array}{l}
-\frac{1}{2}(\mathbf{x}-\mu)^{T} \Sigma^{-1}(\mathbf{x}-\mu)= \\
-\quad \frac{1}{2}\left(\mathbf{x}_{a}-\mu_{a}\right)^{T} \Lambda_{a a}\left(\mathbf{x}_{a}-\mu_{a}\right)-\frac{1}{2}\left(\mathbf{x}_{a}-\mu_{a}\right)^{T} \Lambda_{a b}\left(\mathbf{x}_{b}-\mu_{b}\right) \\
-\quad \frac{1}{2}\left(\mathbf{x}_{b}-\mu_{b}\right)^{T} \Lambda_{b a}\left(\mathbf{x}_{a}-\mu_{a}\right)-\frac{1}{2}\left(\mathbf{x}_{b}-\mu_{b}\right)^{T} \Lambda_{b b}\left(\mathbf{x}_{b}-\mu_{b}\right)
\end{array} \tag{6}\label{6}
$$

Exponent in general Gaussian distribution $N(\bf{x} | \bf{\mu}, \Sigma )$

<IDEA> : $\bf{x}$에 대한 차수로 정리하면 gaussian distribution에서의 평균, 분산을 간단히 얻을 수 있음 {completing squares}

$$
-\frac{1}{2}(\mathbf{x}-\mu)^{T} \Sigma^{-1}(\mathbf{x}-\mu)=-\frac{1}{2} \mathbf{x}^{T} \Sigma^{-1} \mathbf{x}+\mathbf{x}^{T} \Sigma^{-1} \mu+\text { const } \tag{7}\label{7}
$$

많은 경우 공분산 행렬의 역행렬을 다음처럼 정의해서 사용하는 것이 편리할 수 있음

$$\Lambda = \Sigma^{-1} \tag{8}\label{8}$$

 위 행렬을 precision matrix(정밀도 행렬)라고 부르며, 분할된 공분산 행렬을 분할된 precision matrix 행렬로 표현할 수 있다.

$$
\Lambda=\left(\begin{array}{ll}
\Lambda_{a a} & \Lambda_{a b} \\
\Lambda_{b a} & \Lambda_{b b}
\end{array}\right) \tag{9}\label{9}
$$

위 성질을 이용하여 조건부 분포 $p(\bf{x}_a | \bf{x}_b)$의 표현식을 찾아보자.

  • The conditional convariance : $\bf{x}_a$에 대한 2차식(quadratic)으로 정리 → $\Sigma_{a|b}$

$$
\begin{array}{c}
-\frac{1}{2} \mathbf{x}_{a}^{T} \Lambda_{a a} \mathbf{x}_{a} \\
\Sigma_{a \mid b}=\Lambda_{a a}^{-1}
\end{array} \tag{10}\label{10}
$$

  • The conditional mean : $\bf{x}_a$에 대한 1차식(linear) 으로 정리 → $\mu_{a|b}$

$$
\mathbf{x}_{a}^{\mathrm{T}}\left\{\boldsymbol{\Lambda}_{a a} \boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a b}\left(\mathbf{x}_{b}-\boldsymbol{\mu}_{b}\right)\right\} \tag{11}\label{11}
$$

where we have used $\Lambda^T_{ba}=\Lambda_{ab}$. From our discussion of the general form (6), the coefficient of $\bf{x}_a$ in this expression must equal $\Sigma^{-1}_{b|a} \bf{\mu}_b|a$ and hence

$$
\begin{aligned}
\boldsymbol{\mu}_{a \mid b} &=\boldsymbol{\Sigma}_{a \mid b}\left\{\boldsymbol{\Lambda}_{a a} \boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a b}\left(\mathbf{x}_{b}-\boldsymbol{\mu}_{b}\right)\right\} \\
&=\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a a}^{-1} \boldsymbol{\Lambda}_{a b}\left(\mathbf{x}_{b}-\boldsymbol{\mu}_{b}\right)
\end{aligned} \tag{12}\label{12}
$$

이하, 정리 과정은 아래 참고합시다.

Some Matrix identities : 논문에서 자주 활용하는 Matrix의 성질 (The matrix inversion)

 위에서 구한 조건부 분포에 대한 평균, 분산을 "분할 행렬의 역행렬에 대한 다음의 성질"을 활용하여 구할 수 있다.

Useful matrix inversion formula

$$
\left(\begin{array}{cc}
A & B \\
C & D
\end{array}\right)^{-1}=\left(\begin{array}{cc}
M & -M B D^{-1} \\
-D^{-1} C M & D^{-1} C M B D^{-1}
\end{array}\right) \tag{13}\label{13}
$$ 

Shur complement

$$
M=\left(A-B D^{-1} C\right)^{-1} \tag{14}\label{14}
$$

 Using the matrix identities, conditional mean and covariance is determined as follows:

$$
\begin{aligned}
\Lambda_{a a} &=\left(\Sigma_{a a}-\Sigma_{a b} \Sigma_{b b}^{-1} \Sigma_{b a}\right)^{-1} \\
\Lambda_{a b} &=-\left(\Sigma_{a a}-\Sigma_{a b} \Sigma_{b b}^{-1} \Sigma_{b a}\right)^{-1} \Sigma_{a b} \Sigma_{b b}^{-1} \\
\mu_{a \mid b} &=\mu_{a}+\Sigma_{a b} \Sigma_{b b}^{-1}\left(\mathbf{x}_{b}-\mu_{b}\right) \\
\Sigma_{a \mid b} &=\Sigma_{a a}-\Sigma_{a b} \Sigma_{b b}^{-1} \Sigma_{b a}
\end{aligned} \tag{15}\label{15}
$$

 

 

Marginal Gaussian distributions


 joint distribution이 gaussian이면, marginal distribution도 gaussian임 (교과서에 유도 과정 참고)

Marginal distribution

$$p(\bf{x}_a) = \int{p(\bf{x}_a, \bf{x}_b)} d\bf{x}_b \tag{16}\label{16}$$

Using the techniques of completing squares, the mean and covariance of marginal can be determined;

$$ \bf{E}[\bf{x}_a] =  \mu_a \tag{17}\label{17}$$

$$ \bf{COV}[\bf{x}_a] = \Sigma_{aa} \tag{18}\label{18}$$

위 전개 과정은 PRML 교재에 있으니 참고

Thus we can say the conditional and marginal of joint Gaussian distribution are also Gaussian

 conditional(조건부) 분포에 대해서는 the partitioned covariance matrix (분할 정밀 행렬)을 사용할 때, 평균과 공분산이 단순하게 표현되었고, 더욱이 Marginal(주변) 분포의 경우에는 the partitioned covariance matrix(분할 공분산 행렬)을 활용할 때 평균과 공분산이 훨씬 더 단순하게 표현되는 것을 확인할 수 있다.

Partitioned Gaussians

Given a joint Gaussian distribution $\mathcal{N}(\bf{x}|\boldsymbol{\mu}, \Sigma)$ with $\Lambda \equiv \Sigma^{-1}$ and
  
$$ \mathbf{x}=\left(\begin{array}{l} \mathbf{x}_{a} \\ \mathbf{x}_{b} \end{array}\right), \quad \boldsymbol{\mu}=\left(\begin{array}{c} \boldsymbol{\mu}_{a} \\ \boldsymbol{\mu}_{b} \end{array}\right) $$
$$ \boldsymbol{\Sigma}=\left(\begin{array}{cc} \boldsymbol{\Sigma}_{a a} & \boldsymbol{\Sigma}_{a b} \\ \boldsymbol{\Sigma}_{b a} & \boldsymbol{\Sigma}_{b b} \end{array}\right), \quad \boldsymbol{\Lambda}=\left(\begin{array}{cc} \boldsymbol{\Lambda}_{a a} & \boldsymbol{\Lambda}_{a b} \\ \boldsymbol{\Lambda}_{b a} & \boldsymbol{\Lambda}_{b b} \end{array}\right) $$

Conditional distribution:

$$ \begin{aligned} p\left(\mathbf{x}_{a} \mid \mathbf{x}_{b}\right) &=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}_{a \mid b}, \boldsymbol{\Lambda}_{a a}^{-1}\right) \\ \boldsymbol{\mu}_{a \mid b} &=\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a a}^{-1} \boldsymbol{\Lambda}_{a b}\left(\mathbf{x}_{b}-\boldsymbol{\mu}_{b}\right) . \end{aligned} $$

Marginal distribution:

$$p(\bf{x}_a) = \mathcal{N}(\bf{x}_a | \boldsymbol{\mu}_a, \Sigma_{aa})$$

 두 개의 변수에 대한 다변량 가우시안 분포의 조건부 분포와 주변 분포의 예시가 아래 그림에 있음

 

 

Bayes’ theorem for Gaussian variables


 We wish to fine the marginal distribution $p(\bf{y})$ and $p(\bf{x}|\bf{y})$, where marginal and conditional distributions be

$$
\begin{aligned}
p(\mathbf{x}) &=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Lambda}^{-1}\right) \\
p(\mathbf{y} \mid \mathbf{x}) &=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right)
\end{aligned} \tag{19}\label{19}
$$

  • $\boldsymbol{\mu}$, $\bf{A}$, $\bf{b}$ : 평균을 조절하는 매개변수
  • $\Lambda$, $\bf{L}$ : precision matrix (정밀도 행렬)

 가우시안 margianl(주변) 분포 $p(\bf{x})$와 가우시안 conditional(조건부) 분포 $p(\bf{x}| \bf{y})$가 있을 때 $p(\bf{y}|\bf{x})$의 평균이 $\bf{x}$에 대한 선형 함수이며, 공분산은 $\bf{x}$에 대해 독립적인이라고 가정하자. (선형 가우시안 모델의 예시) 이 가정 하에서 주변 분포 $p(\bf{y})$와 조건부 분포 $p(\bf{x}|\bf{y})$를 구할까?

▶ The joint distribution over $\bf{x}$, $\bf{y}$, Let $\bf{z} = \begin{pmatrix} \bf{x} \\  \bf{y} \\ \end{pmatrix}$ 

$$ p(\bf{z}) = p(\bf{x}, \bf{y}) = p(\bf{y}|\bf{x})p(\bf{x}) $$

참고 : 확률의 곱셈 법칙을 이용하여 분해 가능

$$
\begin{aligned}
\ln p(\mathbf{z})=& \ln p(\mathbf{x})+\ln p(\mathbf{y} \mid \mathbf{x}) \\
=&-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Lambda}(\mathbf{x}-\boldsymbol{\mu}) \\
&-\frac{1}{2}(\mathbf{y}-\mathbf{A} \mathbf{x}-\mathbf{b})^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{A} \mathbf{x}-\mathbf{b})+\mathrm{const}
\end{aligned} \tag{20}\label{20}
$$

참고 : $\mathrm{const}$는 $\bf{x}, \bf{y}$에 대해 독립적인 term

▶ Covariance of the joint distribution

$$
\begin{aligned}
-& \frac{1}{2} \mathbf{x}^{\mathrm{T}}\left(\boldsymbol{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right) \mathbf{x}-\frac{1}{2} \mathbf{y}^{\mathrm{T}} \mathbf{L} \mathbf{y}+\frac{1}{2} \mathbf{y}^{\mathrm{T}} \mathbf{L} \mathbf{A} \mathbf{x}+\frac{1}{2} \mathbf{x}^{\mathrm{T}} \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{y} \\
=&-\frac{1}{2}\left(\begin{array}{l}
\mathrm{x} \\
\mathbf{y}
\end{array}\right)^{\mathrm{T}}\left(\begin{array}{cc}
\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{A} & -\mathbf{A}^{\mathrm{T}} \mathbf{L} \\
-\mathbf{L} \mathbf{A} & \mathbf{L}
\end{array}\right)\left(\begin{array}{l}
\mathbf{x} \\
\mathbf{y}
\end{array}\right)=-\frac{1}{2} \mathbf{z}^{\mathrm{T}} \mathbf{R} \mathbf{z}
\end{aligned} \tag{21}\label{21}
$$

따라서, $z$에 대한 가우시안 분포는 다음과 같은 precision (inverse covariance) matrix 를 갖는다.

$$
\mathbf{R}=\left(\begin{array}{cc}
\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{L A} & -\mathbf{A}^{\mathrm{T}} \mathbf{L} \\
-\mathbf{L} \mathbf{A} & \mathbf{L}
\end{array}\right) \tag{22}\label{22}
$$

공분산 행렬은 정밀 행렬의 역행렬이므로, the matrix inversion formula 를 이용하여 공분산 행렬을 구할 수 있음

▶ Covariance matrix 

$$
\operatorname{cov}[\mathbf{z}]=\mathbf{R}^{-1}=\left(\begin{array}{cc}
\mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}} \\
\mathbf{A} \mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}
\end{array}\right) \tag{23}\label{23}
$$

▶ Linear terms (1차식으로 표현된 부분) : $\bf{z}$에 대한 가우시안 평균을 찾기 위함

$$
\mathbf{x}^{\mathrm{T}} \boldsymbol{\Lambda} \boldsymbol{\mu}-\mathbf{x}^{\mathrm{T}} \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b}+\mathbf{y}^{\mathrm{T}} \mathbf{L} \mathbf{b}=\left(\begin{array}{l}
\mathbf{x} \\
\mathbf{y}
\end{array}\right)^{\mathrm{T}}\left(\begin{array}{c}
\boldsymbol{\Lambda} \boldsymbol{\mu}-\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\
\mathbf{L b}
\end{array}\right) \tag{24}\label{24}
$$

▶ Expectations

$$
\mathbb{E}[\mathbf{z}]=\mathbf{R}^{-1}\left(\begin{array}{c}
\boldsymbol{\Lambda} \boldsymbol{\mu}-\mathbf{A}^{\mathrm{T}} \mathbf{L b} \\
\text { Lb }
\end{array}\right) = \left(\begin{array}{c}
\mu \\
\mathbf{A} \mu+\mathbf{b}
\end{array}\right) \tag{25}\label{25}
$$

다음으로는 $\bf{x}$에 대한 적분을 진행하여, marginal distribution $p(\bf{y})$에 대한 평균, 공분산 행렬을 구해보자.

▶ Mean and covariance matrix of marginal distribution

$$
\begin{aligned}
\mathbb{E}[\mathbf{y}] &=\mathbf{A} \boldsymbol{\mu}+\mathbf{b} \\
\operatorname{cov}[\mathbf{y}] &=\mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}} .
\end{aligned} \tag{26}\label{26}
$$

마지막으로, 조건부 분포 $p(\bf{x}|\bf{y})$에 대한 평균, 공분산 행렬을 구해보자.

▶ Mean and covariance matrix of conditional distribution

$$
\begin{aligned}
\mathbb{E}[\mathbf{x} \mid \mathbf{y}] &=\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right)^{-1}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{A} \boldsymbol{\mu}\right\} \\
\operatorname{cov}[\mathbf{x} \mid \mathbf{y}] &=\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right)^{-1}
\end{aligned} \tag{27}\label{27}
$$

참고 : PRML 교재 (식. 2.111) error term 존재하여 수정함 ($\Lambda \rightarrow \bf{A}$)

Marginal and Conditional Gaussians


Given a marginal Gaussian distribution for $\bf{x}$ and a conditional Gaussian distribution for $\bf{y}$ given $\bf{x}$ in the form
$$ \begin{aligned} p(\mathbf{x}) &=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Lambda}^{-1}\right) \\ p(\mathbf{y} \mid \mathbf{x}) &=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right) \end{aligned} $$
the marginal distribution of $\bf{y}$ and the conditional distribution of $\bf{x}$ given $\bf{y}$ are given by
$$ \begin{aligned} p(\mathbf{y})=& \mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \\ p(\mathbf{x} \mid \mathbf{y})=& \mathcal{N}\left(\mathbf{x} \mid \mathbf{\Sigma}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\boldsymbol{\Lambda} \boldsymbol{\mu}\right\}, \mathbf{\Sigma}\right) \\ \end{aligned} $$
where
$$\boldsymbol{\Sigma}=\left(\boldsymbol{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right)^{-1}$$

 

 이제 본격적으로 가우시안 분포의 parameter를 MLE 및 MAP 기법으로 추정하는 방법을 알아보자. 

 

Maximum likelihood for the Gaussian


 The log-likelihood function

$$
p(\mathbf{X} \mid \mu)=\prod_{n=1}^{N} p\left(x_{n} \mid \mu\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{N / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\} \tag{28}\label{28}
$$

▶ Gradient with respect to $\mu$

$$
\frac{\partial}{\partial \boldsymbol{\mu}} \ln p(\mathbf{X} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\sum_{n=1}^{N} \boldsymbol{\Sigma}^{-1}\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right) \tag{29}\label{29}
$$

위의 식에 대해 0을 만족하는 $\mu_{ML}$은 다음과 같음

$$
\boldsymbol{\mu}_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_{n} \tag{30}\label{30}
$$

▶ Useful formula (quadratic matrix 미분에서 용이)

$$ 
\nabla_{\mathbf{x}} \frac{1}{2} \mathbf{x}^{T} A \mathbf{x}=\frac{1}{2}\left(A^{T}+A\right) \mathbf{x} 
$$ 


$$ 
\nabla_{\mathbf{x}} \mathbf{b}^{T} \mathbf{x}=\mathbf{b} 
$$ 

 Covariance estimator

$$
\Sigma_{M L}=\frac{1}{N} \sum_{n=1}^{N}\left(\mathbf{x}_{n}-\mu\right)^{T}\left(\mathbf{x}_{n}-\mu\right)^{T}  \tag{31}\label{31}
$$

참고 : mean estimator를 먼저 계산 후, covariance estimator를 계산함 (종속성)

 Since the mean should be estimates, one need to replace the true mean with estimated mean but this lead biased estimator

만일, MLE의 해에 대한 기댓값을 실제 분포하에서 계산한다면 아래와 같은 결과를 얻게 된다.

$$
\begin{aligned}
E\left[\mu_{M L}\right] &=\mu \\
E\left[\Sigma_{M L}\right] &=\frac{N-1}{N} \Sigma
\end{aligned} \tag{32}\label{32}
$$

[Unbiased covariance estimators]

평균에 대한 추정치의 기댓값이 실제 평균과 동일함을 확인할 수 있지만, 공분산의 추정치의 기댓값은 실제 공분산값보다 작게 편향되어 있다. 이 편향성을 아래와 같이 주어지는 또 다른 추정값 을 정의함으로써 수정할 수 있음

$$
\widetilde{\mathbf{\Sigma}}=\frac{1}{N-1} \sum_{n=1}^{N}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathrm{ML}}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathrm{ML}}\right)^{\mathrm{T}} \tag{33}\label{33}
$$

 

Sequential estimation


 

생략 [교재 내용 참고]

 

 

Bayesian inference for the Gaussian (MAP)


[linear regression에서의 parameter를 MLE / MAP 로 추정 비교]

 The log-likelihood function

$$ 
p(\mathbf{X} \mid \mu)=\prod_{n=1}^{N} p\left(x_{n} \mid \mu\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{N / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\} \tag{34}\label{34}
$$

▶ Note that likelihood function over $\mu$ is not a probability density function

 여기서의 목적은 $p(\mu|\bf{x})$ 를 알고 싶은데, 위의 $p(\bf{x} \mid \mu)$ 는 $\mu$ 에 대한 확률 분포가 아니며, 정규화되어 있지 않음

Prior distribution

$$
p(\mu)=\mathcal{N}\left(\mu \mid \mu_{0}, \sigma_{0}^{2}\right) \tag{35}\label{35}
$$

The posterior distribution

$$
\begin{aligned}
p(\mu \mid \mathbf{X}) & \propto p(\mathbf{X} \mid \mu) p(\mu) \\
&=\mathcal{N}\left(\mu \mid \mu_{N}, \sigma_{N}^{2}\right) \\
\end{aligned} \tag{36}\label{36}
$$

where

$$\mu_{N} =\frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{M L}$$

$$\frac{1}{\sigma_{N}^{2}} = \frac{1}{\sigma_{0}^{2}}+\frac{N}{\sigma^{2}}$$

[MAP 전개 과정]

  posterior distribution에 대해 잠시 살펴보자.

  • If $N = 0$, posterior mean reduces to prior mean (즉, $\mu_{N} = \mu_0$)
  • If $N \rightarrow \infty $, posterior mean goes to maximum likelihood solution
  • If $N \rightarrow \infty$, posterior variance goes to zero. Posterior distribution is peaked around maximum likelihood value
  • If $\sigma_{0}^{2} \rightarrow \infty$, MAP solution reduces to maximum likelihood solution since the prior is not useful

Bayesian estimation with Sequential estimation

 가우시안 분포의 평균값을 Bayesian 패러다임하에서의 추론하는 문제를 순차적으로 생각할수 있다. 데이터 포인트 $x_N$의 기여도를 따로 빼낸 식으로 사후 분포를 다시 적으면 아래와 같다.

$$
p(\boldsymbol{\mu} \mid D) \propto\left[p(\boldsymbol{\mu}) \prod_{n=1}^{N-1} p\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}\right)\right] p\left(\mathbf{x}_{N} \mid \boldsymbol{\mu}\right) \tag{37}\label{37}
$$

 위에서 대괄호 안에 있는 항은 $N-1$개의 데이터 포인트들을 관측했을 때의 사후분포다. 이처럼 베이지안 추론을 순차적인 방법론으로써 사용하는 것은 일반적이며, 관측된 데이터값이 독립적이고 동일하게 분포되었다는 가정하에서 어떤 문제든 적용할 수 있는 이점이 있다.


 지금까지 가우시안 분포의 분산을 알고 있는 상황에서 평균을 추정하는 문제를 살펴봤는데, 이번에는 반대로 평균을 아는 상황에서 분산을 추정하는 문제를 살펴보도록 하자. 

The likelihood function

$$
p(\mathbf{X} \mid \lambda)=\prod_{n=1}^{N} \mathcal{N}\left(x_{n} \mid \mu, \lambda^{-1}\right) \propto \lambda^{N / 2} \exp \left\{-\frac{\lambda}{2} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\} \tag{38}\label{38}
$$

▶ The conjugate prior

$$
\begin{aligned}
\Gamma(\lambda \mid a, b) &=\frac{1}{\Gamma(a)} b^{a} \lambda^{a-1} \exp (-b \lambda) \\
E[\lambda] &=\frac{a}{b} \\
\operatorname{var}[\lambda] &=\frac{a}{b^{2}}
\end{aligned} \tag{39}\label{39}
$$

 The posterior

$$
p(\lambda \mid \mathbf{X}) \propto \lambda^{a_{0}-1} \lambda^{N / 2} \exp \left\{-b_{0} \lambda-\frac{\lambda}{2} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\} \tag{40}\label{40}
$$

A Gamma distribution $\Gamma\left(\lambda \mid a_{N}, b_{N}\right)$.

$$
\begin{aligned}
a_{N} &=a_{0}+\frac{N}{2} \\
b_{N} &=b_{0}+\frac{1}{2} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}=b_{0}+\frac{N}{2} \sigma_{M L}^{2}
\end{aligned} \tag{41}\label{41}
$$

 

 

Reference


댓글