이 자료는 "David Heckerman"님의 "A Tutorial on Learning With Bayesian Networks"을 기반으로 작성을 하였습니다.
Abstract
베이지안 네트워크는 관심 변수 간의 확률 관계를 인코딩하는 그래픽 모델입니다. 통계 기술과 함께 사용하면 그래픽 모델은 데이터 분석에 몇 가지 장점이 있습니다.
- 모델이 모든 변수 간의 종속성(dependencies)을 인코딩하기 때문에 일부 데이터 항목이 누락 된 상황을 쉽게 처리합니다.
- 베이지안 네트워크는 인과 관계를 배우는 데 사용될 수 있으므로 문제 영역에 대한 이해를 얻고 개입의 결과를 예측하는 데 사용될 수 있습니다.
- 이 모델은 인과적(원인/결과) 의미론을 가지고 있기 때문에 사전 지식과 데이터를 결합하는 데 이상적인 표현입니다.
- 베이지안 네트워크와 함께 베이지안 통계 방법은 과적합을 피하기위한 효율적인 접근법을 제공합니다.
이 논문에서 우리는 사전 지식으로부터 베이지안 네트워크를 구축하는 방법을 논의하고 데이터를 사용하여 이러한 모델을 개선하기위한 베이지안 통계적 방법을 요약합니다. 후자의 과제와 관련하여, 우리는 불완전한 데이터로 학습하는 기술을 포함하여 베이지안 네트워크의 매개 변수와 구조를 학습하는 방법을 설명합니다. 또한, 학습을위한 베이지안 네트워크 방법을 감독 및 비지도 학습 기술과 관련시킵니다. 실제 사례 연구를 사용한 그래픽 모델링 접근법을 설명합니다.
1. Introduction
베이지안 네트워크는 변수들 집합 사이에서 확률적인 관계의 그래프 모델이다. 지난 10 년 동안 베이지안 네트워크는 전문가 시스템에서 불확실한 전문가 지식을 인코딩하는 데 널리 사용되었다. (Heckerman et al., 1995a) 최근에는 연구원들이 데이터에서 베이지안 네트워크를 학습하는 방법을 개발했습니다. 개발 된 기술은 새롭고 여전히 발전하고 있지만 일부 데이터 분석 문제에는 현저하게 효과적입니다. 이 논문에서는 데이터에서 지식을 추출하고 인코딩하기위한 Bayesian 네트워크 및 관련 Bayesian 기술에 대한 자습서를 제공합니다. rule bases, decision trees & neural network 등을 포함하여 데이터 분석에 사용할 수있는 수많은 표현이 있습니다. 밀도 추정, 분류, 회귀 및 클러스터링과 같은 데이터 분석을위한 많은 기술이 있습니다. Bayesian 네트워크 및 Bayesian 장점을 알아보면 다음과 같습니다.
- 베이지안 네트워크는 불완전한 데이터 세트를 쉽게 처리 할 수 있습니다. 예를 들어, 설명 변수 또는 입력 변수 중 두 가지가 상호 반 상관적인 분류 또는 회귀 문제를 고려하십시오. 이 상관 관계는 모든 입력이 모든 경우에 측정되는 경우 표준 감독 학습 기술에는 문제가되지 않습니다. 그러나 입력 중 하나가 관찰되지 않으면 대부분의 모델은 입력 변수 간의 상관 관계를 인코딩하지 않기 때문에 부정확 한 예측을 생성합니다. 베이지안 네트워크는 이러한 의존성을 인코딩하는 자연스러운 방법을 제공합니다.
- 베이지안 네트워크를 통해 인과 관계에 대해 배울 수 있습니다. 인과 관계에 대한 학습은 적어도 두 가지 이유로 중요합니다. 이 프로세스는 예를 들어 탐색 적 데이터 분석과 같은 문제 영역에 대한 이해를 얻으려고 할 때 유용합니다. 또한 인과 관계에 대한 지식을 통해 개입이있을 경우 예측할 수 있습니다. 예를 들어, 마케팅 분석가는 제품 판매를 늘리기 위해 특정 광고의 노출을 늘리는 것이 가치가 있는지 여부를 알고 싶어 할 수 있습니다. 이 질문에 답하기 위해 분석가는 광고가 판매 증가의 원인인지 여부와 어느 정도를 결정할 수 있습니다. 베이지안 네트워크를 사용하면 노출 증가 효과에 대한 실험이없는 경우에도 이러한 질문에 대답 할 수 있습니다.
- 베이지안 통계 기술과 함께 베이지안 네트워크는 도메인 지식과 데이터의 조합을 용이하게합니다. 실제 분석을 수행 한 사람은 특히 데이터가 부족하거나 비싼 경우 이전 또는 도메인 지식의 중요성을 알고 있습니다. 일부 상용 시스템 (즉, 전문가 시스템)이 사전 지식만으로 구축 될 수 있다는 사실은 사전 지식의 힘을 보여주는 증거입니다. 베이지안 네트워크에는 인과 사전 지식의 인코딩을 특히 간단하게하는 인과 시맨틱이 있습니다. 또한 베이지안 네트워크는 인과 관계의 인과 관계의 강점을 인코딩합니다. 결과적으로, 사전 지식과 데이터는 베이지안 통계에서 잘 연구 된 기술과 결합 될 수 있습니다.
- 베이지안 네트워크 및 다른 유형의 모델과 함께 베이지안 방법은 데이터의 과적합(overfitting)을 피하기위한 효율적이고 원칙적인 접근법을 제공합니다. 우리가 볼 수 있듯이, 테스트를 위해 사용 가능한 데이터 중 일부를 보유 할 필요는 없습니다. 베이지안 접근 방식을 사용하면 사용 가능한 모든 데이터를 교육에 사용할 수 있도록 모델을 "부드럽게"만들 수 있습니다.
Tutorial 구성 요소
- Section 2 : discuss the Bayesian interpretation of probability and review methods from Bayesian statistics for combining prior knowledge with data
- Section 3 : describe Bayesian networks and discuss how they can be constructed from prior knowledge alone.
- Section 4 : discuss algorithms for probabilistic inference in a Bayesian network.
- Section 5-6 : show how to learn the probabilities in a fixed Bayesian-network structure, and describe techniques for handling incomplete data including Monte-Carlo methods and the Gaussian approximation.
- Section 7-12 : show how to learn both the probabilities and structure of a Bayesian network. (Topics discussed include methods for assessing priors for Bayesian-network structure and parameters, and methods for avoiding the overfitting of data including Monte-Carlo, Laplace, BIC, and MDL approximations.)
- Section 13-14 : describe the relationships between Bayesian-network techniques and methods for supervised and unsupervised learning.
- Section 15 : show how Bayesian networks facilitate the learning of causal relationships.
- Section 16 : illustrate techniques discussed in the tutorial using a real-world case study.
- Section 17 : give pointers to software and additional literature. (References)
2. The Bayesian Approach to Probability and Statistics
베이지안 네트워크 및 관련된 학습 기술을 이해하기 위해서는 확률 및 통계의 베이지안 관점이 매우 중요하다. 이번 장에서는 독자의 쉬운 이해를 위해 베이지안 접근을 설명하고자 한다.
베이지안 접근 방식을 설명하기 위해 압정을 던져 머리(Head) / 꼬리(Tail)를 베팅하는 도박이 있다고 해보자.
지금까지 관측된 N 개의 관측치에서 N + 1 번째 던지기의 머리(Head)인 경우의 확률을 추론하려고 합니다. 빈도론적인 관점에서는 불확실성을 고려할 수 없지만, 베이지안 관점에서는 불확실성을 넣을 수 있다. ?
위 문제에 대한 베이지안 분석을 살펴 보기 위해 Notation을 우선 정의하자.
- Variables or their corresponding nodes in a Bayesian network ($e.g,, X, Y, Z, X_i, \Theta$)
- Sets of variables or corresponding sets of nodes ($e.g., \mathbf{X}, \mathbf{Y}, \mathbf{X}_i $)
- Variable $X$ is in state $x$ ($X = x$)
- The set of variables $\mathbf{X}$ is in configuration $\mathbf{x}$ ($\mathbf{X} = \mathbf{x}$)
- Typically refer to a complete case, an incomplete case, and missing data in a case, respectively ($e.g., \mathbf{x}, \mathbf{y}, \mathbf{x}_i$
- The probability that $\mathbf{X} = x$ of a person with state of information $\xi$. ($p(\mathbf{X} = x | \xi)$)
다시 문제로 돌아와서 $\Theta$를 정의해보자.
- $\Theta$ : the possible true values of the physical probability (Bayesian : uncertain variable/ Statistic : random variable)
- $\theta$ : $parameter$
- $p(\theta|\xi)$ : the uncertainty about the probability density function $\Theta$
- $X_l$ : the variable representing the outcome of the $l$th flip, $l = 1,...,N + 1,$ and $D = {X_1 = x_1, ... , X_N = x_n} to denote the set of our observations.
따라서, Bayesian 용어로, 위 압정 문제는 $p(\theta | \xi)$에서 $p(x_{N+1}|D, \xi)$를 계산하는 것으로 줄어 듭니다.
우선, Bayes' rule을 이용해서 $D$ 와 background knowledge $\xi$가 주어졌을 때, $\Theta$에 대한 확률 분포는 다음과 같이 구할 수 있다.
$$p(\theta | D, \xi) = \frac{p(\theta|\xi)p(D|\theta,\xi)}{p(D|\xi)} \tag{1}\label{eq1}$$
where
$$p(D|\xi) = \int p(D|\theta, \xi)p(\theta|\xi) d\theta \tag{2}\label{eq2}$$
다음에는, $p(D|\theta, \xi)$에 대해 확인해보자. 베이지안 및 기존 통계학자들은 이 term을 binomial sampling을 통한 the likelihood function이라고 하는데 동의한다. 특히, $\Theta$값이 주어진 상태에서, $D$의 관측된 값은 서로 독립적이며, 아래와 식 (1)의 likelihood 부분을 이항분포에 대한 함수로 적용하여 다음과 같이 표현할 수 있다.
$$p(\theta | D, \xi) = \frac{p(\theta|\xi)\theta^h(1-\theta)^t}{p(D|\xi)} \tag{3}\label{eq3}$$
- $p(\theta|\xi)$ : $\Theta$에 대한 $prior$
- $p(\theta|D, \xi)$ : $\Theta$에 대한 $posterior$
식 (3)에서의 $h$ 및 $t$는 각각 "head" 및 "tail"을 의미하며, 이항 분포에 있어서 충분 통계량이라고 말한다. 이유는 $prior$에서 $posterior$를 계산하는데 사용되는 충분한 데이터이기 때문이다.
마지막으로, 우리는 압정의 $N + 1$ 토스가 나올 확률을 결정하기 위해 가능한 $\Theta$ (확률 규칙을 사용하여)에 대한 평균을 구합니다.
$$p(X_{N+1} = heads | D, \xi) = \int p(X_{N+1} = heads | \theta, \xi) p(\theta|D, \xi)d\theta$$
$$\int \theta p(\theta | D, \xi) d\theta = \mathbb{E}_{p(\theta|D, \xi)}(\theta) \tag{4}\label{eq4}$$
Reference
'패턴인식과 머신러닝 > Ch 08. Graphical Models' 카테고리의 다른 글
8.1.3 Discrete variables (이산 변수) (0) | 2020.07.07 |
---|---|
8.1.2 Generative models (생성적 모델) (0) | 2020.07.07 |
8.1.1 Example: Polynomial regression (다항 근사) (0) | 2020.07.07 |
8.1 bayesian network (0) | 2020.07.07 |
CH 8. Graph Model (0) | 2020.07.07 |
댓글