본문 바로가기
패턴인식과 머신러닝/Ch 01. Introduction

1.2 Probability Theory

by Keep It Simple, Stupid! 2020. 7. 9.

 패턴 인식에서 "불확실성(uncertainty)"은 중요한 개념이다. 불확실성의 이유는 측정할 때의 "노이즈" 및 "데이터 집합 수가 제한되어 있다는 한계점" 때문에 발생. 이러한 불확실성을 정량적으로 만들어주는게 "확률론"이다.

 확률의 두 가지 기본적인 법칙인 "합의 법칙"과 "곱의 법칙"이 어떻게 도출되는지 Discrete한 예제를 통해 알아보자.

 Figure 1.10 기준으로 $X$, $Y$라는 확률 변수는 다음과 같다.

  • $X$는 $x_i (i=1, \ldots, M)$ 중 아무 값이나 취할 수 있음
  • $Y$는 $y_i (i=1, \ldots, L)$ 중 아무  값이나 취할 수 있음

 $X$와 $Y$ 각각에서 표본을 추출하는 시도를 $N$번 한다고 하고, 그리고 $X = x_i, Y = y_j$인 시도의 개수를 $n_{ij}$로 표현하자. 그리고 $Y$의 값과는 상관없이 $X=x_i$인 시도의 숫자를 $c_i$로, $X$의 값과 상관없이 $Y=y_j$인 시도의 숫자를 $r_j$로 표현할 것이다. 

 $X$가 $x_i$, $Y$가 $y_j$일 확률을 결합 확률(joint probability)로 표현하면 "식 1.5"과 같다.

$$p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N} \tag{식 1.5}\label{eq1}$$

 여기서 $\operatorname{limit} N \rightarrow \infty$을 가정하고, 비슷하게 $Y$ 값과 무관하게 $X$가 $x_i$값을 가질 확률을 "식 1.6"로 표현할 수 있다.

$$p\left(X=x_{i}\right)=\frac{c_{i}}{N} \tag{식 1.6}\label{eq2}$$

 Figure 1.10에서 $i$열에 있는 사례의 숫자는 해당 열의 각 칸에 이는 사례의 숫자 합이므로 $c_{i}=\sum_{j} n_{i j}$로 표현가능하다. 따라서 "식 1.5"와 "식 1.6"을 바탕으로 아래 식을 도출해 낼 수 있다.

$$p\left(X=x_{i}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right) \tag{식 1.7}\label{eq3}$$

 이것이 바로 확률의 합의 법칙(sum rule)이다. 때때로 $p(X = x_i)$는 주변 확률(marginal probability)라고 부른다.

$X = x_i$인 사례들만 고려해 보자. 그들 중에서 $Y = y_j$인 사례들의 비율을 생각해 볼 수 있고, 이를 확률 $p\left(Y=y_{j} \mid X=x_{i}\right)$로 적으며, 조건부 확률(conditional probability)이라고 한다. 즉 $X=x_i$가 주어졌을 경우 $Y=y_j$일 조건부 확률이다. 이 확률을 $i$ 행에 있는 전체 포인트 수와 $i, j$칸에 있는 포인트 수의 비율을 통해서 계산할 수 있다. 

$$p\left(Y=y_{j} \mid X=x_{i}\right)=\frac{n_{i j}}{c_{i}} \tag{식 1.8}\label{eq4}$$

"식 1.5", "식 1.6", "식 1.8"에서 다음의 관계를 도출해 낼 수 있다.

$$\begin{aligned}
p\left(X=x_{i}, Y=y_{j}\right) &=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N} \\
&=p\left(Y=y_{j} \mid X=x_{i}\right) p\left(X=x_{i}\right)
\end{aligned}$$

 위 식이 바로 확률의 "곱의 법칙(product rule)"이다.

 간단히 표현된 확률의 두  가지 기본 법칙이다. 

  • $p(X, Y)$ : '$X$'와 '$Y$'의 확률 (결합 확률)
  • $p(X | Y)$ : '$Y$'가 주어졌을 경우 '$X$'의 확률 (조건부 확률)
  • $p(X)$ : '$X$'의 확률(주변 확률)

더 나아가 보자.

 곱의 법칙대칭성 $p(X, Y)=p(Y, X)$로부터 조건부 확률 간의 관계인 다음 식을 도출해 낼 수 있다.

$$p(Y \mid X)=\frac{p(X \mid Y) p(Y)}{p(X)} \tag{식 1.12}\label{eq5}$$

 이 식 1.12가 PRML 교재에서 아주 중요한 역할을 차지하고 있는 "베이즈 정리(bayes' theorem)"다. 합의 법칙을 사용해서 "식 1.12"의 분모를 분자에 있는 모든 항들로 표현할 수 있다.

$$p(X)=\sum_{Y} p(X \mid Y) p(Y) \tag{식 1.13}\label{eq6}$$

 베이지안 정리의 분모정규화 상수로 볼 수 있다. "식 1.12"의 왼쪽 항을 모든 $Y$값에 대하여 합했을 때 1이 되도록 하는 역할인 것이다.

 주변 확률과 조건부 확률의 개념을 이해하기 쉽게 도식화한 그림이다. (각자 설명해보는 시간을 가져보길 바람)

베이지안 정리를 해석해보자. 

 확률 변수 $B$를 빨간색 상자를 선택하거나 파란색 상자를 선택하는 확률은 다음과 같이 주어졌다. (가정)

$$\begin{array}{l}
p(B=r)=4 / 10 \\
p(B=b)=6 / 10
\end{array}$$

위 식은 확률의 정의에 따라 각각의 확률의 범위는 $[0, 1]$이여야 하며, $p(B=r)+p(B=b)=1$를 만족시켜야 한다. 

어떤 한 상자를 선택했는데 그것이 파란색 상자였다고 해보자. 그러면 그 상황하에서 사과를 고를 확률은 $3 / 4$이고, 따라서  $p(F=a \mid B=b)=3 / 4$이다. 이와 같은 방식으로 상자가 주어졌을 때 사과 또는 오렌지를 선택할 확률은 다음과 같다.

$$\begin{array}{l}
p(F=a \mid B=r)=1 / 4 \\
p(F=o \mid B=r)=3 / 4 \\
p(F=a \mid B=b)=3 / 4 \\
p(F=o \mid B=b)=1 / 4
\end{array}$$

마찬가지로, 이 확률들은 정규화되어 있기 때문에 다음 식을 만족시킨다.

$$\begin{array}{l}
p(F=a \mid B=r)+p(F=o \mid B=r)=1 \\
p(F=a \mid B=b)+p(F=o \mid B=b)=1
\end{array}$$

이제 확률의 합의 법칙과 곱의 법칙을 적용하여 사과를 고를 전체 확률을 계산할 수 있다. 

$$\begin{aligned}
p(F=a) &=p(F=a \mid B=r) p(B=r)+p(F=a \mid B=b) p(B=b) \\
&=\frac{1}{4} \times \frac{4}{10}+\frac{3}{4} \times \frac{6}{10}=\frac{11}{20}
\end{aligned}$$

여기에 다시 합의 법칙을 적용하면 $p(F = o) = 1 - 11/20 = 9/20$이다.

어떤 한 종류의 과일을 선택했는데 그것이 오렌지이고, 이 오렌지가 어떤 상자에서 나왔는지를 알고 싶다고 가정해 보자. 이를 위해서는 과일이 주어졌을 때 고른 상자가 어떤 것이었는지에 대한 조건부 확률을 계산해야 한다. 하지만 위의 식들은 상자가 주어졌을 때 과일에 대한 조건부 확률만 알려 준다. 베이지안 정리를 적용하여 조건부 확률을 뒤집으면 문제를 해결할 수 있다.

$$p(B=r|F=o) = \frac{p(F=o|B=r)p(B=r)}{p(F=o)}=\frac{3}{4} \times \frac{4}{10} \times \frac{20}{9} = \frac{2}{3}$$

합의 법칙에 따라 $p(B=b|F=o)  = 1 - \frac{2}{3} = \frac{1}{3}$이 된다. 

중요 포인트

 만약, 어떤 과일이 선택되었는지를 알기 전에 어떤 박스를 선택했냐고 묻는다면 그 확률은 $p(B)$일 것이다. 어떤 과일이 선택되었는지 관찰하기 "전"의 확률이므로 사전 확률(prior probability)이라고 부른다. 선택된 과일이 오렌지라는 것을 알게 된다면 베이지안 정리를 활용하여 $p(B|F)$를 구할 수 있다. 사건 $F$를 관측한 "후"의 확률이므로, 사후 확률(posterior probability)라고 한다. 

 예시에서 빨간색 상자를 고를 사전 확률은 $4/10$이므로 파란색 상자를 고를 확률이 더 높다. 그러나 선택된 과일이 오렌지라는 것을 확인하고 난 후엔 빨간색 상자를 고를 사후 확률이 $2/3$이다. 따라서 이제는 우리가 고른 상자가 빨간색이었을 확률이 더 높게 된다. (빨간색 상자 안의 오렌지의 비율이 파란색 상자 안의 오렌지의 비율보다 더욱 높기 때문에 고른 과일이 오렌지였다는 관측 결과가 고른 상자가 빨간색일 가능성을 높여 주는 것은 사람의 직관과도 일치함). 즉 오렌지를 골랐다는 증거가 충분히 강력하기 때문에 사전 지식을 뒤엎고 빨간색 상자를 골랐을 확률을 파란색 상자를 골랐을 확률보다 더 높게 만들어 주는 것이다.

 

두 확률 변수가 독립적(independent)한 경우

 $p(X,Y) = p(X)p(Y)$인 경우를 고려해 보자. 곱의 법칙에 따라 $p(Y|X) = p(Y)$임을 알 수 있고 따라서 $X$가 주어졌을 때 $Y$의 조건부 확률은 실제로 $X$의 값과 독립적임을 확인할 수 있다. 


댓글