본문 바로가기
패턴인식과 머신러닝/Ch 08. Graphical Models

8.1.3 Discrete variables (이산 변수)

by Keep It Simple, Stupid! 2020. 7. 7.

 지수족에 속하는 확률 분포들의 중요성에 대해 2.4에서 논의했다. 그리고 많은 종류의 잘 알려진 분포들이 지수족의 특정 케이스에 해당한다는 것을 살펴봤으며, 이러한 분포들은 비교적 단순한 편이지만 더 복잡한 확률 분포를 구성하는 데 있어서 구성 원소로서 유용하다. 그리고 그래프 모델 방법론은 이 구성 원소들이 서로 어떻게 연결되는지를 표현하는데 있어서 매우 유용하다. 

  방향성 그래프의 각각의 부모/자식 쌍들을 conjugate(켤레) 가 되도록 하면 이러한 모델들은 특히 더 유용한 성질을 가지게 된다. 몇몇 이러한 예시를 다루고자 한다. 여기(8.1.3)는 부모와 자식 노드가 각각 이산 변수일 경우와  각각이 가우시안 변수일 경우(8.1.4에서 다룸)를 살펴보자. 두 케이스의 경우 부모/자식 노드 간의 관계성을 계층적으로 확장해서 임의의 복잡한 방향성 비순환 그래프를 구성하는 것이 가능하기 때문에 주목할만 하다.

 우선 부모/자식 노드가 이산 변수인 경우부터 살펴보도록 하자.

 $K$개의 상태를 가질 수 있는 단일 이산 변수 $\mathbf{x}$(one-hot-encoding)의 확률 분포 $p(\mathbf{x} \mid \boldsymbol{\mu})$를 다음과 같이 표현할 수 있다.

$$p(\mathbf{x} \mid \boldsymbol{\mu})=\prod_{k=1}^{K} \mu_{k}^{x_{k}} \tag{식 8.9}\label{eq1}$$

 그리고 이 확률 분포는 매개 변수 이 확률 분포는 매개변수$\boldsymbol{\mu}=\left(\mu_{1}, \ldots, \mu_{K}\right)^{\mathrm{T}}$에 의해 조절된다. $\sum_{k} \mu_{k}=1,$이라는 제약조건이 있기 때문에 분포를 정의하기 위해서는 $K-1$개의 $\mu_{k}$값만 설정하면 된다.

 $K$개의 상태를 가지는 두 개의 이산 변수 $\mathbf{x}_1$$\mathbf{x}_2$를 고려해 보자. 그리고 이들의 결합 분포를 모델한다고 가정해 보자. $x_{1k}=1$과 $x_{2l}=1$을 둘 다 관측할 확률을 매개변수 $\mu_{kl}$로 표현하자.

  • $x_{1k}$ : $\mathbf{x}_1$의 $k$번째 성분
  • $x_{2l}$ : $\mathbf{x}_2$의 $l$번째 성분

 결합 분포는 아래와 같다.

$$p\left(\mathbf{x}_{1}, \mathbf{x}_{2} \mid \boldsymbol{\mu}\right)=\prod_{k=1}^{K} \prod_{l=1}^{K} \mu_{k l}^{x_{1 k} x_{2 l}} $$

 $\mu_{kl}$이 제약 조건 $\sum_{k} \sum_{l} \mu_{k l}=1$을 가지기 때문에 이 분포는 $K^{2}-1$개의 매개변수에 의해 조절된다. 이를 바탕으로 변수가 $M$개인 경우에 임의의 결합 분포를 지정하기 위해서 필요한 전체 매개변수의 순자가 $K^{M}-1$이라는 것을 쉽게 증명할 수 있다. 따라서 이 숫자는 변수의 숫자 $M$개에 대해 기하급수적으로 증가한다. 

 확률의 곱 법칙을 적용하면 결합 분포 $p\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right)$를 $p\left(\mathbf{x}_{2} \mid \mathbf{x}_{1}\right) p\left(\mathbf{x}_{1}\right)$로 인수분해할 수 있다. 이는 $\mathbf{x}_1$에서 $\mathbf{x}_2$로 가는 링크가 존재하는 두 개의 노드를 가진 그래프에 해당한다. 이 그래프는 Figure 8.9 (a)에 그려져 있다. 주변 분포 $p(\mathbf{x}_1)$은 $K-1$개의 매개변수에 의해 조절 된다. 조건부 분포 $p\left(\mathbf{x}_2 \mid \mathbf{x}_1 \right)$에서는 $K$개의 가능한 각 $\mathbf{x}_1$ 값들마다$K-1$개씩의 매개변수가 필요하다. 따라서 이 경우 결합 분포를 지정하기 위한 전체 매개변수의 숫자는 앞과 같이 $K-1 + K(K-1) = K^{2}-1$이 된다.  

 

 

댓글