본문 바로가기
패턴인식과 머신러닝/Ch 08. Graphical Models

8.1.1 Example: Polynomial regression (다항 근사)

by Keep It Simple, Stupid! 2020. 7. 7.

 확률 분포를 서술하는데 있어서 방향성 그래프를 어떻게 사용하는지 1.2.6절에서 사용한 베이지안 다항 회귀 모델을 고려해보자. 

베이지안 다항 회귀 모델의 확률 변수는 다음과 같다.

  • $\mathbf{w}$ : 다항 계수(가중치)의 벡터 
  • $\mathbf{t}=\left(t_{1}, \ldots, t_{N}\right)^{\mathrm{T}}$ : 관측된 데이터

베이지안 다항 회귀 모델의 입력 데이터hypyer-parameter(초매개변수)는 다음과 같다.

  • $\mathbf{x}=\left(x_{1}, \ldots, x_{N}\right)^{\mathrm{T}}$ : 입력 데이터
  • $\sigma^{2}$ : 노이즈 분산
  • $\alpha$ : $\mathbf{W}$에 대한 gaussian 사전 분포의 정밀도

 일단, 지금은 확률 변수들에만 초점을 두고 설명한다. 이 경우 결합 분포는 사전 분포 $p(\mathbf{w})$ 와 $N$개의 조건부 분포 $p\left(t_{n} \mid \mathbf{w}\right) \text { for } n=1, \ldots, N$ 의 곱으로 표현된다. 

$$p(\mathbf{t}, \mathbf{w})=p(\mathbf{w}) \prod_{n=1}^{N} p\left(t_{n} \mid \mathbf{w}\right) \tag{식 8.6}\label{eq1}$$

 이 결합 분포를 표현하면 Figure 8.3 그래프 모델과 같다.

 하지만, $t_{1}, \ldots, t_{N}$과 같은 여러 개의 노드를 그리려면, 더 복잡한(변수들이 더 많은) 모델을 다룰 때 불편할 것이다. 따라서 이런 여러 노드들을 더 간결하게 표현하기 위해 하나의 대표 노드$t_n$을 그리고 이를 판(plate)이라 불리는 상자로 둘러쌀 것이다. 그리고 상자에는 $N$(이러한 node가 $N$개 존재한다는 의미)이라는 라벨을 붙인다. Figure 8.4 그래프 모델

  때로는 모델의 매개변수나 확률 변수들을 직접적으로 표현하는 것이 편리할 수도 있다.

$$p\left(\mathbf{t}, \mathbf{w} \mid \mathbf{x}, \alpha, \sigma^{2}\right)=p(\mathbf{w} \mid \alpha) \prod_{n=1}^{N} p\left(t_{n} \mid \mathbf{w}, x_{n}, \sigma^{2}\right) \tag{식 8.6}\label{eq2}$$

 이에 맞게 $\mathbf{x}$와 $\alpha$를 그래프에서도 직접 표현할 수 있다. (tip : 확률변수들은 열린 원으로 표기, 매개변수들은 작은점으로 표기)

 머신러닝이나 패턴 인식 문제에 그래프 모델을 적용할 때, 몇몇 확률 변수들을 특정 관측값으로 설정하게 되는데, 다항식 곡선 근사의 경우에는 훈련 집합의 변수 ${t_n}$이 그 예시이다. 그래프 모델에서 이러한 관측 변수(observed variable)은 해당 노드에 음영을 추가함으로써 표현한다. 

  • $\mathbf{w}$ : 잠재 변수 (latent,  은닉 변수라고도 불림) , 관측 대상이 아님
  • $\mathbf{t}$ : 관측 변수 (observed variable) 

 참고로 잠재 변수들은 많은 확률적 모델에서 중요한 역할을 담당하고 있으며, 앞으로 9장, 12장에서 중요하게 다룰 예정이다. 

 ${t_n}$ 값들을 관측한 상황에서, 만약 원한다면 1.2.5절에서 다뤘던 것과 같이 다항 계수 $\mathbf{W}$의 사후 분포를 계산할 수 있다. 일단, 여기서는 이 과정이 베이지안 정리를 직접적으로 적용한다는 것을 포함한 것을 확인하고 넘어가자

$$p(\mathbf{w} \mid \mathbf{T}) \propto p(\mathbf{w}) \prod_{n=1}^{N} p\left(t_{n} \mid \mathbf{w}\right) \tag{식 8.7}\label{eq3}$$

 표기를 간략하게 하기 위해서 결정적 매개변수들은 생략함

 일반적으로 최종 목표인 새로운 입력 변수에 대해서 예측을 하는 것이기 때문에 $\mathbf{w}$와 같은 모델 매개변수들 그 자체로는 흥미롭지 않다. 새로운 입력 변수 $\widehat{x}$가 주어졌을 때, 관측 데이터를 조건부로 하는 $\widehat{t}$에 대한 확률 분포를 구한다고 가정해 보자. 이 문제를 기술하는 그래프 모델이 Figure 8.7에 그려져 있으며, 이 모델의 모든 확률 변수들에 대한 결합 분포(매개변수들은 조건부로 가지는)는 다음과 같이 주어진다.

$$p\left(\widehat{t}, \mathbf{t}, \mathbf{w} \mid \widehat{x}, \mathbf{x}, \alpha, \sigma^{2}\right)=\left[\prod_{n=1}^{N} p\left(t_{n} \mid x_{n}, \mathbf{w}, \sigma^{2}\right)\right] p(\mathbf{w} \mid \alpha) p\left(\widehat{t} \mid \widehat{x}, \mathbf{w}, \sigma^{2}\right) \tag{식 8.8}\label{eq4}$$ 

 위에서 함축적으로 확률 변수 $\mathbf{t}$를 데이터 집합에서 관측된 특정값으로 설정하였으며, 계산에 대한 자세한 내용은 3장을 참고하자.

 

댓글