패턴 인식에서 "불확실성(uncertainty)"은 중요한 개념이다. 불확실성의 이유는 측정할 때의 "노이즈" 및 "데이터 집합 수가 제한되어 있다는 한계점" 때문에 발생. 이러한 불확실성을 정량적으로 만들어주는게 "확률론"이다.
확률의 두 가지 기본적인 법칙인 "합의 법칙"과 "곱의 법칙"이 어떻게 도출되는지 Discrete한 예제를 통해 알아보자.
![]() |
Figure 1.10 기준으로 X, Y라는 확률 변수는 다음과 같다.
- X는 xi(i=1,…,M) 중 아무 값이나 취할 수 있음
- Y는 yi(i=1,…,L) 중 아무 값이나 취할 수 있음
X와 Y 각각에서 표본을 추출하는 시도를 N번 한다고 하고, 그리고 X=xi,Y=yj인 시도의 개수를 nij로 표현하자. 그리고 Y의 값과는 상관없이 X=xi인 시도의 숫자를 ci로, X의 값과 상관없이 Y=yj인 시도의 숫자를 rj로 표현할 것이다.
X가 xi, Y가 yj일 확률을 결합 확률(joint probability)로 표현하면 "식 1.5"과 같다.
p(X=xi,Y=yj)=nijN
여기서 limitN→∞을 가정하고, 비슷하게 Y 값과 무관하게 X가 xi값을 가질 확률을 "식 1.6"로 표현할 수 있다.
p(X=xi)=ciN
Figure 1.10에서 i열에 있는 사례의 숫자는 해당 열의 각 칸에 이는 사례의 숫자 합이므로 ci=∑jnij로 표현가능하다. 따라서 "식 1.5"와 "식 1.6"을 바탕으로 아래 식을 도출해 낼 수 있다.
p(X=xi)=L∑j=1p(X=xi,Y=yj)
이것이 바로 확률의 합의 법칙(sum rule)이다. 때때로 p(X=xi)는 주변 확률(marginal probability)라고 부른다.
X=xi인 사례들만 고려해 보자. 그들 중에서 Y=yj인 사례들의 비율을 생각해 볼 수 있고, 이를 확률 p(Y=yj∣X=xi)로 적으며, 조건부 확률(conditional probability)이라고 한다. 즉 X=xi가 주어졌을 경우 Y=yj일 조건부 확률이다. 이 확률을 i 행에 있는 전체 포인트 수와 i,j칸에 있는 포인트 수의 비율을 통해서 계산할 수 있다.
p(Y=yj∣X=xi)=nijci
"식 1.5", "식 1.6", "식 1.8"에서 다음의 관계를 도출해 낼 수 있다.
p(X=xi,Y=yj)=nijN=nijci⋅ciN=p(Y=yj∣X=xi)p(X=xi)
위 식이 바로 확률의 "곱의 법칙(product rule)"이다.
간단히 표현된 확률의 두 가지 기본 법칙이다.
![]() |
- p(X,Y) : 'X'와 'Y'의 확률 (결합 확률)
- p(X|Y) : 'Y'가 주어졌을 경우 'X'의 확률 (조건부 확률)
- p(X) : 'X'의 확률(주변 확률)
더 나아가 보자.
곱의 법칙과 대칭성 p(X,Y)=p(Y,X)로부터 조건부 확률 간의 관계인 다음 식을 도출해 낼 수 있다.
p(Y∣X)=p(X∣Y)p(Y)p(X)
이 식 1.12가 PRML 교재에서 아주 중요한 역할을 차지하고 있는 "베이즈 정리(bayes' theorem)"다. 합의 법칙을 사용해서 "식 1.12"의 분모를 분자에 있는 모든 항들로 표현할 수 있다.
p(X)=∑Yp(X∣Y)p(Y)
베이지안 정리의 분모는 정규화 상수로 볼 수 있다. "식 1.12"의 왼쪽 항을 모든 Y값에 대하여 합했을 때 1이 되도록 하는 역할인 것이다.
주변 확률과 조건부 확률의 개념을 이해하기 쉽게 도식화한 그림이다. (각자 설명해보는 시간을 가져보길 바람)
![]() |
베이지안 정리를 해석해보자.
![]() |
확률 변수 B를 빨간색 상자를 선택하거나 파란색 상자를 선택하는 확률은 다음과 같이 주어졌다. (가정)
p(B=r)=4/10p(B=b)=6/10
위 식은 확률의 정의에 따라 각각의 확률의 범위는 [0,1]이여야 하며, p(B=r)+p(B=b)=1를 만족시켜야 한다.
어떤 한 상자를 선택했는데 그것이 파란색 상자였다고 해보자. 그러면 그 상황하에서 사과를 고를 확률은 3/4이고, 따라서 p(F=a∣B=b)=3/4이다. 이와 같은 방식으로 상자가 주어졌을 때 사과 또는 오렌지를 선택할 확률은 다음과 같다.
p(F=a∣B=r)=1/4p(F=o∣B=r)=3/4p(F=a∣B=b)=3/4p(F=o∣B=b)=1/4
마찬가지로, 이 확률들은 정규화되어 있기 때문에 다음 식을 만족시킨다.
p(F=a∣B=r)+p(F=o∣B=r)=1p(F=a∣B=b)+p(F=o∣B=b)=1
이제 확률의 합의 법칙과 곱의 법칙을 적용하여 사과를 고를 전체 확률을 계산할 수 있다.
p(F=a)=p(F=a∣B=r)p(B=r)+p(F=a∣B=b)p(B=b)=14×410+34×610=1120
여기에 다시 합의 법칙을 적용하면 p(F=o)=1−11/20=9/20이다.
어떤 한 종류의 과일을 선택했는데 그것이 오렌지이고, 이 오렌지가 어떤 상자에서 나왔는지를 알고 싶다고 가정해 보자. 이를 위해서는 과일이 주어졌을 때 고른 상자가 어떤 것이었는지에 대한 조건부 확률을 계산해야 한다. 하지만 위의 식들은 상자가 주어졌을 때 과일에 대한 조건부 확률만 알려 준다. 베이지안 정리를 적용하여 조건부 확률을 뒤집으면 문제를 해결할 수 있다.
p(B=r|F=o)=p(F=o|B=r)p(B=r)p(F=o)=34×410×209=23
합의 법칙에 따라 p(B=b|F=o)=1−23=13이 된다.
중요 포인트
만약, 어떤 과일이 선택되었는지를 알기 전에 어떤 박스를 선택했냐고 묻는다면 그 확률은 p(B)일 것이다. 어떤 과일이 선택되었는지 관찰하기 "전"의 확률이므로 사전 확률(prior probability)이라고 부른다. 선택된 과일이 오렌지라는 것을 알게 된다면 베이지안 정리를 활용하여 p(B|F)를 구할 수 있다. 사건 F를 관측한 "후"의 확률이므로, 사후 확률(posterior probability)라고 한다.
예시에서 빨간색 상자를 고를 사전 확률은 4/10이므로 파란색 상자를 고를 확률이 더 높다. 그러나 선택된 과일이 오렌지라는 것을 확인하고 난 후엔 빨간색 상자를 고를 사후 확률이 2/3이다. 따라서 이제는 우리가 고른 상자가 빨간색이었을 확률이 더 높게 된다. (빨간색 상자 안의 오렌지의 비율이 파란색 상자 안의 오렌지의 비율보다 더욱 높기 때문에 고른 과일이 오렌지였다는 관측 결과가 고른 상자가 빨간색일 가능성을 높여 주는 것은 사람의 직관과도 일치함). 즉 오렌지를 골랐다는 증거가 충분히 강력하기 때문에 사전 지식을 뒤엎고 빨간색 상자를 골랐을 확률을 파란색 상자를 골랐을 확률보다 더 높게 만들어 주는 것이다.
두 확률 변수가 독립적(independent)한 경우
p(X,Y)=p(X)p(Y)인 경우를 고려해 보자. 곱의 법칙에 따라 p(Y|X)=p(Y)임을 알 수 있고 따라서 X가 주어졌을 때 Y의 조건부 확률은 실제로 X의 값과 독립적임을 확인할 수 있다.
'패턴인식과 머신러닝 > Ch 01. Introduction' 카테고리의 다른 글
[베이지안 딥러닝] Appendix. Calculus of Variations (변분법) (0) | 2021.02.08 |
---|---|
[베이지안 딥러닝] Introduction - Decision Theory and Information Theory I (0) | 2020.09.29 |
[베이지안 딥러닝] Introduction - Curve Fitting (4) | 2020.09.16 |
[베이지안 딥러닝] Introduction (2) | 2020.09.01 |
댓글