Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/fontdata.js
본문 바로가기
패턴인식과 머신러닝/Ch 08. Graphical Models

8.1.3 Discrete variables (이산 변수)

by Keep It Simple, Stupid! 2020. 7. 7.

 지수족에 속하는 확률 분포들의 중요성에 대해 2.4에서 논의했다. 그리고 많은 종류의 잘 알려진 분포들이 지수족의 특정 케이스에 해당한다는 것을 살펴봤으며, 이러한 분포들은 비교적 단순한 편이지만 더 복잡한 확률 분포를 구성하는 데 있어서 구성 원소로서 유용하다. 그리고 그래프 모델 방법론은 이 구성 원소들이 서로 어떻게 연결되는지를 표현하는데 있어서 매우 유용하다. 

  방향성 그래프의 각각의 부모/자식 쌍들을 conjugate(켤레) 가 되도록 하면 이러한 모델들은 특히 더 유용한 성질을 가지게 된다. 몇몇 이러한 예시를 다루고자 한다. 여기(8.1.3)는 부모와 자식 노드가 각각 이산 변수일 경우와  각각이 가우시안 변수일 경우(8.1.4에서 다룸)를 살펴보자. 두 케이스의 경우 부모/자식 노드 간의 관계성을 계층적으로 확장해서 임의의 복잡한 방향성 비순환 그래프를 구성하는 것이 가능하기 때문에 주목할만 하다.

 우선 부모/자식 노드가 이산 변수인 경우부터 살펴보도록 하자.

 K개의 상태를 가질 수 있는 단일 이산 변수 x(one-hot-encoding)의 확률 분포 p(xμ)를 다음과 같이 표현할 수 있다.

p(xμ)=Kk=1μxkk

 그리고 이 확률 분포는 매개 변수 이 확률 분포는 매개변수μ=(μ1,,μK)T에 의해 조절된다. kμk=1,이라는 제약조건이 있기 때문에 분포를 정의하기 위해서는 K1개의 μk값만 설정하면 된다.

 K개의 상태를 가지는 두 개의 이산 변수 x1x2를 고려해 보자. 그리고 이들의 결합 분포를 모델한다고 가정해 보자. x1k=1x2l=1을 둘 다 관측할 확률을 매개변수 μkl로 표현하자.

  • x1k : x1k번째 성분
  • x2l : x2l번째 성분

 결합 분포는 아래와 같다.

p(x1,x2μ)=Kk=1Kl=1μx1kx2lkl

 μkl제약 조건 klμkl=1을 가지기 때문에 이 분포는 K21개의 매개변수에 의해 조절된다. 이를 바탕으로 변수가 M개인 경우에 임의의 결합 분포를 지정하기 위해서 필요한 전체 매개변수의 순자가 KM1이라는 것을 쉽게 증명할 수 있다. 따라서 이 숫자는 변수의 숫자 M개에 대해 기하급수적으로 증가한다. 

 확률의 곱 법칙을 적용하면 결합 분포 p(x1,x2)p(x2x1)p(x1)로 인수분해할 수 있다. 이는 x1에서 x2로 가는 링크가 존재하는 두 개의 노드를 가진 그래프에 해당한다. 이 그래프는 Figure 8.9 (a)에 그려져 있다. 주변 분포 p(x1)K1개의 매개변수에 의해 조절 된다. 조건부 분포 p(x2x1)에서는 K개의 가능한 각 x1 값들마다K1개씩의 매개변수가 필요하다. 따라서 이 경우 결합 분포를 지정하기 위한 전체 매개변수의 숫자는 앞과 같이 K1+K(K1)=K21이 된다.