Processing math: 100%
본문 바로가기
패턴인식과 머신러닝/Ch 01. Introduction

1.2 Probability Theory

by Keep It Simple, Stupid! 2020. 7. 9.

 패턴 인식에서 "불확실성(uncertainty)"은 중요한 개념이다. 불확실성의 이유는 측정할 때의 "노이즈" 및 "데이터 집합 수가 제한되어 있다는 한계점" 때문에 발생. 이러한 불확실성을 정량적으로 만들어주는게 "확률론"이다.

 확률의 두 가지 기본적인 법칙인 "합의 법칙"과 "곱의 법칙"이 어떻게 도출되는지 Discrete한 예제를 통해 알아보자.

 Figure 1.10 기준으로 X, Y라는 확률 변수는 다음과 같다.

  • Xxi(i=1,,M) 중 아무 값이나 취할 수 있음
  • Yyi(i=1,,L) 중 아무  값이나 취할 수 있음

 XY 각각에서 표본을 추출하는 시도를 N번 한다고 하고, 그리고 X=xi,Y=yj인 시도의 개수를 nij로 표현하자. 그리고 Y의 값과는 상관없이 X=xi인 시도의 숫자를 ci로, X의 값과 상관없이 Y=yj인 시도의 숫자를 rj로 표현할 것이다. 

 Xxi, Yyj일 확률을 결합 확률(joint probability)로 표현하면 "식 1.5"과 같다.

p(X=xi,Y=yj)=nijN

 여기서 limitN을 가정하고, 비슷하게 Y 값과 무관하게 Xxi값을 가질 확률을 "식 1.6"로 표현할 수 있다.

p(X=xi)=ciN

 Figure 1.10에서 i열에 있는 사례의 숫자는 해당 열의 각 칸에 이는 사례의 숫자 합이므로 ci=jnij로 표현가능하다. 따라서 "식 1.5"와 "식 1.6"을 바탕으로 아래 식을 도출해 낼 수 있다.

p(X=xi)=Lj=1p(X=xi,Y=yj)

 이것이 바로 확률의 합의 법칙(sum rule)이다. 때때로 p(X=xi)주변 확률(marginal probability)라고 부른다.

X=xi인 사례들만 고려해 보자. 그들 중에서 Y=yj인 사례들의 비율을 생각해 볼 수 있고, 이를 확률 p(Y=yjX=xi)로 적으며, 조건부 확률(conditional probability)이라고 한다. 즉 X=xi가 주어졌을 경우 Y=yj일 조건부 확률이다. 이 확률을 i 행에 있는 전체 포인트 수와 i,j칸에 있는 포인트 수의 비율을 통해서 계산할 수 있다. 

p(Y=yjX=xi)=nijci

"식 1.5", "식 1.6", "식 1.8"에서 다음의 관계를 도출해 낼 수 있다.

p(X=xi,Y=yj)=nijN=nijciciN=p(Y=yjX=xi)p(X=xi)

 위 식이 바로 확률의 "곱의 법칙(product rule)"이다.

 간단히 표현된 확률의 두  가지 기본 법칙이다. 

  • p(X,Y) : 'X'와 'Y'의 확률 (결합 확률)
  • p(X|Y) : 'Y'가 주어졌을 경우 'X'의 확률 (조건부 확률)
  • p(X) : 'X'의 확률(주변 확률)

더 나아가 보자.

 곱의 법칙대칭성 p(X,Y)=p(Y,X)로부터 조건부 확률 간의 관계인 다음 식을 도출해 낼 수 있다.

p(YX)=p(XY)p(Y)p(X)

 이 식 1.12가 PRML 교재에서 아주 중요한 역할을 차지하고 있는 "베이즈 정리(bayes' theorem)"다. 합의 법칙을 사용해서 "식 1.12"의 분모를 분자에 있는 모든 항들로 표현할 수 있다.

p(X)=Yp(XY)p(Y)

 베이지안 정리의 분모정규화 상수로 볼 수 있다. "식 1.12"의 왼쪽 항을 모든 Y값에 대하여 합했을 때 1이 되도록 하는 역할인 것이다.

 주변 확률과 조건부 확률의 개념을 이해하기 쉽게 도식화한 그림이다. (각자 설명해보는 시간을 가져보길 바람)

베이지안 정리를 해석해보자. 

 확률 변수 B를 빨간색 상자를 선택하거나 파란색 상자를 선택하는 확률은 다음과 같이 주어졌다. (가정)

p(B=r)=4/10p(B=b)=6/10

위 식은 확률의 정의에 따라 각각의 확률의 범위는 [0,1]이여야 하며, p(B=r)+p(B=b)=1를 만족시켜야 한다. 

어떤 한 상자를 선택했는데 그것이 파란색 상자였다고 해보자. 그러면 그 상황하에서 사과를 고를 확률은 3/4이고, 따라서  p(F=aB=b)=3/4이다. 이와 같은 방식으로 상자가 주어졌을 때 사과 또는 오렌지를 선택할 확률은 다음과 같다.

p(F=aB=r)=1/4p(F=oB=r)=3/4p(F=aB=b)=3/4p(F=oB=b)=1/4

마찬가지로, 이 확률들은 정규화되어 있기 때문에 다음 식을 만족시킨다.

p(F=aB=r)+p(F=oB=r)=1p(F=aB=b)+p(F=oB=b)=1

이제 확률의 합의 법칙과 곱의 법칙을 적용하여 사과를 고를 전체 확률을 계산할 수 있다. 

p(F=a)=p(F=aB=r)p(B=r)+p(F=aB=b)p(B=b)=14×410+34×610=1120

여기에 다시 합의 법칙을 적용하면 p(F=o)=111/20=9/20이다.

어떤 한 종류의 과일을 선택했는데 그것이 오렌지이고, 이 오렌지가 어떤 상자에서 나왔는지를 알고 싶다고 가정해 보자. 이를 위해서는 과일이 주어졌을 때 고른 상자가 어떤 것이었는지에 대한 조건부 확률을 계산해야 한다. 하지만 위의 식들은 상자가 주어졌을 때 과일에 대한 조건부 확률만 알려 준다. 베이지안 정리를 적용하여 조건부 확률을 뒤집으면 문제를 해결할 수 있다.

p(B=r|F=o)=p(F=o|B=r)p(B=r)p(F=o)=34×410×209=23

합의 법칙에 따라 p(B=b|F=o)=123=13이 된다. 

중요 포인트

 만약, 어떤 과일이 선택되었는지를 알기 전에 어떤 박스를 선택했냐고 묻는다면 그 확률은 p(B)일 것이다. 어떤 과일이 선택되었는지 관찰하기 "전"의 확률이므로 사전 확률(prior probability)이라고 부른다. 선택된 과일이 오렌지라는 것을 알게 된다면 베이지안 정리를 활용하여 p(B|F)를 구할 수 있다. 사건 F를 관측한 "후"의 확률이므로, 사후 확률(posterior probability)라고 한다. 

 예시에서 빨간색 상자를 고를 사전 확률은 4/10이므로 파란색 상자를 고를 확률이 더 높다. 그러나 선택된 과일이 오렌지라는 것을 확인하고 난 후엔 빨간색 상자를 고를 사후 확률이 2/3이다. 따라서 이제는 우리가 고른 상자가 빨간색이었을 확률이 더 높게 된다. (빨간색 상자 안의 오렌지의 비율이 파란색 상자 안의 오렌지의 비율보다 더욱 높기 때문에 고른 과일이 오렌지였다는 관측 결과가 고른 상자가 빨간색일 가능성을 높여 주는 것은 사람의 직관과도 일치함). 즉 오렌지를 골랐다는 증거가 충분히 강력하기 때문에 사전 지식을 뒤엎고 빨간색 상자를 골랐을 확률을 파란색 상자를 골랐을 확률보다 더 높게 만들어 주는 것이다.

 

두 확률 변수가 독립적(independent)한 경우

 p(X,Y)=p(X)p(Y)인 경우를 고려해 보자. 곱의 법칙에 따라 p(Y|X)=p(Y)임을 알 수 있고 따라서 X가 주어졌을 때 Y의 조건부 확률은 실제로 X의 값과 독립적임을 확인할 수 있다.