본문 바로가기
Pattern Classification [수업]

Ch2.2 Bayesian decision theory - continuous features

by Keep It Simple, Stupid! 2020. 9. 10.

 

2020-2학기 서강대 김경환 교수님 강의 내용 및 패턴인식 교재를 바탕으로 본 글을 작성하였습니다.

 

2.2 Bayesian decision theory - continuous features (연속적 특징들)


 앞 "Introduction"에서는 베이지안 판정 이론에 대한 이해를 위해 two-class model의 간단한 사례로 설명을 했었다. 이번에는 보다 일반화시켜서 개념들을 공식화!

Generalization of the bayesian theory.

  • By allowing the use of more than on feature (특징 공간)
    • Replacing the scalar $x$ by the feature vector $\mathbf{x}$ (e.g. 밝기, 폭, 위치, 등등)
    • $\mathbf{x}$ is in $\mathbf{R}^d$, feature space
  • By allowing more than two states of nature
    • $\{w_1, ... , w_c \}$ : the finits set of $c$ states of nature (categories)
  • By allowing actions other than merely deciding the state of nature
    • To allow the possibility of rejection.
    • $\{\alpha_1, ... , \alpha_{\alpha} \}$ : the finits set of $\alpha$ possible actions

[Figure 1] reject region 시각화

 위와 같이 two-class인 경우, $C_1$ 및 $C_2$에 대한 결정 가능성 이외에 추가적으로 임의의 threshold ($\theta$) 보다 낮으면 class 결정을 하지 않도록 함.

  1. $p(C_1 | x) \gt \theta$ : $C_1$ 결정
  2. $p(C_2 | x) \gt \theta$ : $C_2$ 결정
  3. $p(C_2 | x) \lt  \theta$ 또는 $p(C_2 | x) \lt \theta$ : rejection(기각) [e.g. 사람이 직접 판별하도록 기여]
  • By introducing a loss more general than the probability of error (손실함수)
    • Loss function state exactly how costly each action is and is used to convert a probability determination into a decision.
    • $\lambda(\alpha_i|w_j)$ : the loss incurred for taking action $\alpha_i$, when the state of nature is $w_j$.

 

The expected loss associated with taking action $\alpha_j$ is merely (조건부 리스크)

상태-조건부 확률 밀도 함수

$$P(w_j|\mathbf{x}) = \frac{p(\mathbf{x}|w_j)P(w_j)}{p(\mathbf{x})} = \frac{p(\mathbf{x}|w_j)P(w_j)}{\sum_{j=1}^{c} p\left(\mathbf{x} \mid \omega_{j}\right) P\left(\omega_{j}\right)}$$

conditional risk (조건부 리스크)

 우리가 특정 $\mathbf{x}$를 관찰하고, 행동 $\alpha_i$를 취하려고 생각하고 있다고 하자. state of nature의 True 상태가 $w_j$라면 정의에 의해 손실 $\lambda\{\alpha_i|w_j\}$를 초래하게 된다. $P(w_j|\mathbf{x})$이 state of nature의 True 상태가 $w_j$일 확률이므로, 행동 $\alpha_i$를 취하는 것과 관련된 기대 손실은 아래와 같다. 

$$R(\alpha_i|\mathbf{x}) = \sum_{j=1}^{c} \lambda(\alpha_i | w_j)P(w_j|\mathbf{x})$$

  • decision-theoretic(판정-이론) 용어로는 기대 손실을 risk(리스크)라고 부르며, $R(\alpha_i|\mathbf{x})$를 conditional risk (조건부 리스크)라고 함
  • Problem is to find a decision rule against $P(w_j)$ that minimizes the overall risk.

$$R=\int R(\alpha(\mathbf{x}) \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x}$$

  • To minimize the overall risk, compute the conditional risk

$$R(\alpha_i|\mathbf{x}) = \sum_{j=1}^{c} \lambda(\alpha_i | w_j)P(w_j|\mathbf{x})$$

for $i=1, ... , \alpha$ and then select the action $\alpha_i$, for which $R(\alpha_i|\mathbf{x})$ is minimum. 

 전체적인 risk를 최소화하려면 조건부 리스크를 $i=1,  ..., \alpha$에 대해 모두 계산하고, $R(\alpha_i | \mathbf{x})$가 최소인 행동 $\alpha_i$를 선택한다. 결과로 얻는 최소의 전체적 리스크를 Bayes 리스크라고 부르며, $R^{*}$로 표기한다. 

Two-category Classification.

 위 내용을 special case인 Two-category problem에 적용되는 때를 고려해보자.

  • Action $\alpha_1$ corresponds to deciding that the true state of nature is $w_1$
  • Action $\alpha_2$ corresponds to deciding that the true state of nature is $w_2$
  • $\lambda_{ij} = \lambda(\alpha_i | w_j)$ : the loss incurred for deciding $w_i$ when the true state of nature is $w_j$. (의미 : state of nature가 $w_j$일 때, $w_i$라고 판정하는 데 따르는 손실)
  • The conditional risk (의미 : state of nature 가 $w_j$일 때, $w_i$라고 판정하는 데 따르는 손실)
  • loss (overall risk) 

$$\begin{aligned}
R\left(\alpha_{1} \mid \mathbf{x}\right) &=\lambda_{11} P\left(\omega_{1} \mid \mathbf{x}\right)+\lambda_{12} P\left(\omega_{2} \mid \mathbf{x}\right) \quad \text { and } \\
R\left(\alpha_{2} \mid \mathbf{x}\right) &=\lambda_{21} P\left(\omega_{1} \mid \mathbf{x}\right)+\lambda_{22} P\left(\omega_{2} \mid \mathbf{x}\right)
\end{aligned}$$

▶ Variety of ways of expressing the Minimum-risk decision rule

  위 형태의 decision-rule은 확률 밀도들의 $\mathbf{x}$-종속성에 초점을 맞춘다. $p(\mathbf{x}|w_j)$를 $w_j$의 함수(즉, 우도함수)로 간주하고 우도 비를 만들 수 있다. 따라서 Bayes dscision rule은 관찰 $\mathbf{x}$에 독립적인 어떤 threshold 값을 likelihood가 넘으면 $w_1$으로 판정할 것을 요구하는 것으로 해석될 수 있다.

 다음 Ch2.3에서는 "Minimum-error-rate Classification" 를 다루도록 하겠습니다.

 

Reference


 

 

댓글