Processing math: 100%
본문 바로가기
Pattern Classification [수업]

Ch4.2 Nonparametric techniques - Density Estimation

by Keep It Simple, Stupid! 2020. 10. 7.

 2020-2학기 서강대 김경환 교수님 강의 내용 및 패턴인식 교재를 바탕으로 본 글을 작성하였습니다.

 

 앞선 Ch3 에서는 미지의 확률 밀도 함수를 추정하기 위해 model (분포)을 가정하고 접근하였지만, Ch4 는 model 을 모른다는 가정이 덜 들어감으로써 치룰 "대가"가 있다. (예를 들면, 추정 하기 위해 data가 훨씬 더 많이 필요로 함)

4.2 Nonparametric techniques - Density Estimation


▶ Estimating an unknown probability density function

 비록 추정들이 수렴하는 정밀한 데모들은 많은 주의를 요구하지만, 미지의 확률 밀도 함수를 추정하는 방법 중 대다수의 배경이 되는 기본 아이디어들은 매우 단순하다. 가장 근본적인 기법은 벡터 x가 영역 R에 들 확률 P가 다음식에 의해 주어진다는 사실에 의존한다. (아래 설명)

  • The probability P that a vector x will fall in a region R is given by 

P=Rp(x)dx

  • P is an averaged version of the density function p(x).

 P는 밀도 함수 p(x)의 부드럽게 되거나 평균화된 버전이다.

  • Smoothed value of p can be estimated by estimating the P.

우리는 P를 추정해서 이 부드럽게 된 p의 값을 추정할 수 있다.

  • Supposed that x1,...,xn are drawn i.i.d. according to the probability law P(x). The probability that k of these n fall in R is given by the binomial law.

 n개의 샘플  x1,...,xn이 확률 법칙 p(x)에 따라 독립적이고 동일하게 분포(i.i.d)되도록 뽑힌다고 하면, 이 n개 중 k개가 R에 포함될 확률은 이항 법칙에 의해 다음과 같이 주어진다.

Pk=(nk)Pk(1P)nk

그리고 k에 대한 이론적으로 기대값은 

E[k]=nP

이다

  • This binomial distribution peaks very sharply about the mean. (1,2 내용)
  1. The ratio k/n will be a very good estimate for the P.
  2. This estimate is accurate when n is very large.

   k에 대한 이 이항 분포는 평균을 중심으로 매우 날카로운 피크를 만든다. k/nP에 대한 좋은 추정값이 될 것이며, 이 추정은 샘플 n이 매우 클 때 특히 정확하다. 

 

  • If p(x) is continuous and R is so small that p does not vary appreciably within it

Rp(x)dxp(x)V

where x is a point within R and and V is the volume enclosed by R.

 만일 p(x)는 연속적이며, 영역 R이 너무 작아서 p가 그 안에서 감지될 수 있을 만큼 변하지 않는다고 가정한다면, 식 (4)와 같이 쓸 수 있다. 여기서 xR 내부의 점이며 VR에 의해 둘러싸인 부피다. 식 (1), (3), (4)를 결합하면, 그림 [4.1]에 보인과 같이. p(x)에 대한 다음의 분명한 추정에 도달한다.

p(x)k/nV

 지금까지 p(x)를 추정하기 위한 절차를 간단히 정리하면 다음과 같다.

그림 [4.1]

 

 아직 남아있는 몇 가지 문제가 있는데 천천히 살펴보도록 하자.

  • Problems remaining : Practical / Theoretical
  • If we fix V and take more and more training samples, k/n will converge, but then we have only obtained an estimate of the space-averaged value of p(x).

PV=Rp(x)dxRdx

 만일 부피 V를 고정시키고 점점 더 많은 훈련 샘플 n을 취한다면, k/n 비는 바라는 대로 수렴(확률적으로)할 것이다. 그러면 p(x)공간-평균화 값의 추정을 식 (6)얻게 될 뿐이다. 만일 평균화된 버전이 아닌 p(x)를 얻기를 원한다면, V0에 접근하는 데 대비해야 한다. 그러나 샘플 n을 고정시키고 V0에 접근하게 만들면, 영역은 궁긍적으로 매우 작아져서 아무 샘플도 둘러싸지 않을 것이며, 추정 p(x)0은 쓸모없게 될 것이다. 또는 우연히 하나 이상의 훈련 샘플이 x에서 동시에 발생하면, 추정은 무한대로 발산하며, 이것 또한 마찬가지로 무용하다.

  • From a practical standpoint : 실용적 관점

 we note that the number of samples is always limited. Thus V cannot be allowed to become arbitrarily small. If this kind of estimate is to be used, one will have to accept a certain amount of variance in the k/n and a certain amount of averaging of the density p(x).

  현실에서는 샘플 수가 항상 제한을 유념하자. 따라서 부피 V가 임의 크기로 작아지게 혀용할 수는 없다. 그럼에도 불구하고 위의 방법으로 추정하려면 k/n 비의 일정 양의 분산과 밀도 p(x)의 일정 양의 평균화를 받아들어야만 한다. 

  • From a theoretical standpoint : 이론적 관점

 It is interesting to ask how these limitations can be circumvented if an unlimited number of samples is available. Let Vn be the volume of Rn, kn be the number of samples falling in Rn, and pn(x) be the n-th estimate for p(x):

 이론적 관점에서는, 제한되지 않은 수의 샘플들이 가용하다면, 이 제한들이 어떻게 해결되는지 흥미로운 일이다. p(x)에서의 밀도를 추정하기 위해서, x를 포함하는 일련의 영역 R1,R2,...을 형성한다. - 첫 번째 영역은 하나의 샘플, 두 번째는 둘... , 그리고 VnRn의 부피, knRn에 포함될 샘플 수, pn(x)p(x)에 대한 n번째 추정이라고 하자 : 

pn(x)=kn/nVn

 If pn(x) is to be converge to p(x), following conditions appear to be required

만일 pn(x)p(x)에 수렴하려면, 세 조건이 요구될 것이다.

 첫번째 조건 : 영역들이 균일하게 축소되고, p(\codt)x에서 연속적이라고 할때, 공간 평균화된 P/Vp(x)에 수렴할 것임을 보장해야 함.

 두번째 조건 : p(x)0일 때만 성립하는데, 빈도 비가(확률적으로) 확률 P에 수렴할 것임을 보장해야 함

 세번째 조건 : 식 (7)에 의해 주어진 pn(x)가 수렴하려면 분명히 필요하다. 이것은 또한 큰 수의 샘플들이 궁긍적으로 작은 영역 Rn에 놓일 것이지만, 전체 샘플 수에서 무시할 수 있을 정도로 작은 부분을 구성할 것임을 말해준다.

  • Two common ways of obtaining sequences of regions that satisfy these conditions.

 위 조건들을 만족시키는 영역들의 시퀀스를 얻는 두 가지 보편적인 방법이 있다. 

 The sequences in both cases represent random variables that generally converge and allow the true density at the test point to be calculated.

 두 경우 모두 시퀀스는, 일반적으로 수렴하고 테스트 점에서의 True 밀도가 계산되게 허용하는 랜덤 변수들을 나타낸다.

 

 다음 Ch4.2에서는 "Nonparametric techniques - Density Estimation"에서 "Parzen-window" 추정 방법을 보다 자세히 살펴볼 예정입니다.

 

Reference