본문 바로가기
패턴인식과 머신러닝/Ch 04. Linear Models for Classification

[베이지안 딥러닝] Ch4.3 Linear Models for Classification - Probabilistic Discriminative Models

by Keep It Simple, Stupid! 2020. 12. 7.

2020-2학기 이화여대 김정태 교수님 강의 내용을 바탕으로 본 글을 작성하였습니다.

 

Overview


  • Linear classification
  • Probabilistic generative model 
  • Probabilistic discriminative model
  • The Laplace Approximation 
  • Bayesian Logistic Regression

Ch4.2에서는 class가 두 개인 분류 문제의 경우에 다양한 종류의 class conditional distribution $p(\mathbf{x}|C_k)$에 대하여 class $C_1$의 $p(C_1|\mathbf{x})$(사후확률)을 $\mathbf{x}$의 선형 함수에 대한 logistic sigmoid 함수로 표현할 수 있었다. 

 

Classifiaction Problem → Probabilistic discriminative model

  • Instead of first finding class conditional densities and subsequent posterior class probabilities,
  • One may use generalized linear model explicitly to determine parameters by using maximum likelihood.
  • Algorithms such as iterative re-weighted least squares can be used
  • One advantage of the discriminative approach is that there will be fewer parameters than generative model

 Ch4.3에서는 일반화된 선형 모델의 함수 형태를 명시적으로 사용하고 이를 최대 가능도 방법을 적용하여 함수의 매개변수를 직접 구하는 방법이 있다. 이러한 해를 구하기 위해서 "반복 재가중 최소 제곱법(iteraitive reweighted least squares)"이라는 알고리즘을 사용할 것이다. 

 일반화된 선형 모델의 매개변수를 찾을 때, 클래스 조건부 밀도와 클래스 사전 분포를 따로 피팅한 후 베이지안 정리를 적용하여 간접적으로 매개변수를 찾는 방식 생성적(generative) 모델링의 한 예시("Ch4.2")이다. 이런 모델을 이용하면 주변 분포 $p(\mathbf{x})$에서 $\mathbf{x}$를 추출하는 방식으로 인공 데이터를 생성하는 것이 가능하기 때문에 생성적 모델이라고 하는 것이다. 이와 대조적으로 직접적인 접근법(discriminative)에는 $p(C_k|\mathbf{x})$를 통해 정의된 가능도 함수를 직접 극대화하는 것이다.

  • generative models (Ch4.2) vs discriminative models (Ch4.3)
  • 추정해야할 parameter 갯수 ↓, 실제 data가 generative model에서는 conditional distribution에 잘 맞지 않는 경우 discrimiantive model의 예측 성능 좋을것

 

4.3.1 Fixed basis functions (고정된 기저 함수)

  • 입력 벡터 $\mathbf{x}$의 decision boundary → non-linear [그림1, left]
  • $\phi(\mathrm{x})$의 decision boundary → linear [그림1, right]

[Figure 1]

 특징 공간 $\phi(x)$가 항상 linear하게 분리되는 것은 아니지만, 편의상 고정된 기저 함수를 명시적으로 사용한다고 한다. 

 

4.3.2 Logistic regression (로지스틱 회귀)

  • The posterior probability of class $C_1$

$p\left(\mathcal{C}_{1} \mid \boldsymbol{\phi}\right)=y(\boldsymbol{\phi})=\sigma\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\right) \tag{1}\label{1}$

$p\left(\mathcal{C}_{2} \mid \boldsymbol{\phi}\right)= 1 - p\left(\mathcal{C}_{1} \mid \boldsymbol{\phi}\right) \tag{2}\label{2}$

where $\sigma(\cdot)$ is the logistic sigmoid function

  • For $M$-dimensional feature space $\phi$, the model has $M$ parameters.
  • By contrast, if we had filtted Gaussian class conditional densities using MLE, we would have have used $2M$ parameters for the means and $M(M+1)/2$ parameters for the shared covariance
  • Together with the class prior P(C_1), total of $M(M+5)/2 + 1$ parameters.

[Figure 2] generative model vs disriminative model

  즉, $\mathbf{x}$의 차원이 커지는 경우 logistic regression을 다루는게 더 유리

MLE를 이용하여 logistic regression model의 parameter를 구해보자. 그전에 sigmoid function에 대한 미분 성질을 살펴보자.

  •  Derivative of logistic sigmoid function (sigmoid 함수 그 자체로 표현 가능)

$$
\frac{d \sigma}{d a}=\sigma(1-\sigma) \tag{3}\label{3}
$$

 likelihood function 및 log-likelihood function은 다음과 같다.

  •  The likelihood function

$$
p(\mathbf{t} \mid \mathbf{w})=\prod_{n=1}^{N} y_{n}^{t_{n}}\left\{1-y_{n}\right\}^{1-t_{n}} \tag{4}\label{4}
$$

  •  The log-likelihood function

$$
E(\mathbf{w})=-\ln p(\mathbf{t} \mid \mathbf{w})=-\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} \tag{5}\label{5}
$$

 식 (5)는 loss-function으로 정의할 수 있으며, 일반적으로 "cross-entropy" 라고 불림

  • its gradient ($\mathbf{w}$에 대하여 loss function의 기울기 계산)

$$
\nabla E(\mathbf{w})=\sum_{n=1}^{N}\left(y_{n}-t_{n}\right) \phi_{n} \tag{6}\label{6}
$$

 식 (6)을 활용하여 $\mathbf{w}$에 대해 sequential update 가능!

<summary>

  • MLE can exhibit severe over-fitting for data sets that are linearly separable
  • when the hyperplane coresspoding to $\sigma = 0.5$ equivalently to $\mathbf{w}^T\phi = 0$ separaates two classes and the magitudo of $\mathbf{w}$ goes to infinity.
  • In this case, the logistic sigmoid function becomes infinitely steep in feature space, corresponding to a Heaviside function
  • There is typically a continuum of solutions because any separating hyperplane will give rise the same posterior probabilities
  • This problem can be mitigated using MAP solution or equivalently adding a regularization term

 

4.3.3 Iterative re-weighted least squares (반복 재가중 최소 제곱법)

  • Note that is is not possible to find the solution for logistic regression analytically (sigmoid function의 non-linear 한 form으로 해가 닫힌 형태가 아니므로, 행렬을 이용해 구할 수 없음, 그러나 convex function으로 global minima 존재하므로, iterative하게 구할 수 있음)
  • Instead consider "Newton-Rhapson method" which minimizes a function as follows:

$$
\mathbf{w}^{(\text {new })}=\mathbf{w}^{(\text {old })}-\mathbf{H}^{-1} \nabla E(\mathbf{w}) \tag{7}\label{7}
$$

 우선, "선형 회귀 모델식"과 "제곱합 오류 함수"에 대해 "Newton-Rhapson method"를 적용해보자.

  • The gradient and Hessian for linear regression problem

$$
\begin{aligned}
\nabla E(\mathbf{w}) &=\sum_{n=1}^{N}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}-t_{n}\right) \boldsymbol{\phi}_{n}=\boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \mathbf{w}-\boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \\
\mathbf{H} &=\nabla \nabla E(\mathbf{w})=\sum_{n=1}^{N} \boldsymbol{\phi}_{n} \boldsymbol{\phi}_{n}^{\mathrm{T}}=\boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}
\end{aligned}
$$

where $\boldsymbol{\phi}$ is $N \times M$ matrix.

  • The solution for linear regression

$$
\begin{aligned}
\mathbf{w}^{(\text {new })} &=\mathbf{w}^{(\text {old })}-\left(\boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right)^{-1}\left\{\boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \mathbf{w}^{\text {(old) }}-\boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}\right\} \\
&=\left(\boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right)^{-1} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}
\end{aligned}
$$

참고 : object function이 quadratic인 경우 Hessian을 이용하면 단 한번의 Iteration으로 Solution을 찾을 수 있음 (special case) 

 이제, "로지스틱 선형 회귀 모델식"과 "cross-entropy 오류 함수"에 대해 "Newton-Rhapson method"를 적용해보자.

  • The gradient and Hessian for logistic regression problem

$$
\begin{aligned}
\nabla E(\mathbf{w}) &=\sum_{n=1}^{N}\left(y_{n}-t_{n}\right) \phi_{n}=\Phi^{T}(\mathbf{y}-\mathbf{t}) \\
\mathbf{H} &=\sum_{n=1}^{N} y_{n}\left(1-y_{n}\right) \phi_{n} \phi_{n}^{T}=\Phi^{T} \mathbf{R} \Phi
\end{aligned}
$$

 where $\mathbf{R}_{nn} = y_n(1-y_n)$, ($N \times N$ symmetric matrix)

  • Newton-Rhapson method for logistic regression problem:

$$
\begin{aligned}
\mathbf{w}^{n+1} &=\mathbf{w}^{n}-\left(\Phi^{T} \mathbf{R} \Phi\right)^{-1} \Phi^{T}(\mathbf{y}-\mathbf{t}) \\
&=\left(\Phi^{T} \mathbf{R} \Phi\right)^{-1}\left\{\Phi^{T} \mathbf{R} \Phi \mathbf{w}^{n}-\Phi^{T}(\mathbf{y}-\mathbf{t})\right\} \\
&=\left(\Phi^{T} \mathbf{R} \Phi\right)^{-1} \Phi^{T} \mathbf{R} \mathbf{z}
\end{aligned}
$$

where $\mathbf{z}=\Phi \mathbf{w}^{n+1}-\mathbf{R}^{-1}(\mathbf{y}-\mathbf{t})$

  • The update formula takes the form of a net of normal equations for a weighted least square problems
  • Because the weighting matrix $\mathbf{R}$ is not constant, the method is called iterative reweighted least squares.

$\mathbf{R}$이 $\mathbf{w}$에 대해 종속적이므로, 반복적으로 $\mathbf{w}$를 이용하여 수정된 가중 행렬 $\mathbf{R}$을 구해야 하는데, 이러한 이유로 "반복 재가중 최소 제곱법 (iterrative reweightedleast squares, IRLS)라고 부른다. 

[Figure 4] linear regression / logistic regression 에 "Newton-Rhapson method" 적용한 절차

 

4.3.4 Multiclass logistic regression (다중 클래스 로지스틱 회귀)

  • ...

 

4.3.5 Probit regression (프로빗 회귀)

  • skip..

 

 

 

 

4.3.6 Canonical link functions (정준 연결 함수)

  • skip..

 

 

Reference


댓글