2020-2학기 이화여대 김정태 교수님 강의 내용을 바탕으로 본 글을 작성하였습니다.
Overview
- Discriminant Functions
- Probabilistic Generative Models
- Probabilistic Discriminative Models
- The Laplace Approximation
- Bayesian Logistic Regression
베이지안 방법론을 적용한 logistic regression에 대해 추후 논의할 것인데, 이는 linear regression에 대한 베이지안 방법보다 더 복잡함. 특히, posterior distribution이 더 이상 gaussian distribution이 아니므로 매개변수 w에 대해서 정확히 적분할 수가 없다. 따라서 특정 형태의 근사법을 사용해하는데, 그중에서도 단순하지만 널리사용되고 있는 Lapplace approximation에 대해 살펴보려고 한다.
Recap (Logistic regression)
- The posterior probability of class C1
p(C1|ϕ)=y(ϕ)=σ(wTϕ)
위 식을 w에 대해 −∞\sims∞ 구간에 적분 불가능 (확인 필요..)
The Laplace Approximation
▶ Why the Laplace Approximation is needed?
- Gaussian approximation to a probability density defined over a set of continuous variables
라플라스 근사법의 목적은 연속 변수의 집합에 대해 정의된 확률 밀도의 가우시안 근사치를 찾는 것이다.
- Consider the distribution p(z) which is defined by
p(z)=1Zf(z)
where Z is the unknown normalization coefficient.
Case 1) 우선, 단일 연속 변수 z의 경우, 식 (1)과 같이 정의 되는 분포 p(z)를 가정하자. Z=∫f(z)dz는 정규화 계수 (알려지지 않았다고 가정)
- First, find the mode (peak)...
- Taylor series expansion around z0... (참고자료)
- Normalized distribution q(z)...


Case 2) M 차원의 multi-variable 경우에 대해 살펴보도록 하자.
- Multi-variable distribution p(\mathbf{z}) = \frac{f(\mathbf{z})}{Z}
- Hessian Matrix
- Multivariate Gaussian

▶ Why the Laplace Approximation is needed?
- For Laplace approximation, mode is usually first determined by some numerical methods
- Next, the Hessian is usually approximated at the mode
- Thanks to the central limit theorem, Laplace approximation to be most useful where the number of data points is relatively large → "data가 많아지면, laplace approximation은 유용함"
- The most serious limitation of the Laplace framework is that it can fail to capture important global properties

4.4.1 Model comparison and BIC (Bayesian Information Criterion)
분포 p(z)뿐만 아니라 정규화 상수 Z의 근사치도 구할 수 있음
- The normalization constant using Laplace approximation. (아래 참고)

- model evidence → "베이지안 모델 비교에 있어서 중요한 역할"

- The Occam factor penalizes model complexity
- If we asssume that the Gaussian prior distribution over parameter is broad, and that the Hessian has full rank, then... BIC
Reference
- Pattern Recognition and Machine Learning
- PRML Example Code (git) : github.com/ctgk/PRML
댓글